SantaCoder: Đừng mơ mộng viển vông!
Author
Venue
Hội thảo ICLR về Học sâu cho Lập trình 2023
Abstract
Dự án BigCode là một dự án hợp tác khoa học mở nhằm phát triển các mô hình ngôn ngữ lớn cho mã nguồn một cách có trách nhiệm. Báo cáo kỹ thuật này mô tả tiến trình hợp tác cho đến tháng 12 năm 2022, phác thảo tình trạng hiện tại của quy trình xử lý thông tin nhận dạng cá nhân (PII), các thí nghiệm được thực hiện để giảm thiểu rủi ro trong kiến trúc mô hình, và các thí nghiệm nghiên cứu các phương pháp tiền xử lý tốt hơn cho dữ liệu huấn luyện. Chúng tôi huấn luyện các mô hình có 1,1 tỷ tham số trên các tập con Java, JavaScript và Python của The Stack và đánh giá chúng trên bộ dữ liệu thử nghiệm MultiPL-E text-to-code. Chúng tôi phát hiện ra rằng việc lọc các bản sao gần giống một cách quyết liệt hơn có thể nâng cao hiệu suất hơn nữa và, điều đáng ngạc nhiên là, việc chọn các tệp từ các kho lưu trữ có 5 sao GitHub trở lên làm suy giảm hiệu suất đáng kể. Mô hình tốt nhất của chúng tôi vượt trội hơn các mô hình tạo mã đa ngôn ngữ mã nguồn mở trước đây (InCoder-6.7B và CodeGen-Multi-2.7B) cả về tạo mã từ trái sang phải và điền vào chỗ trống trên các phần Java, JavaScript và Python của MultiPL-E, mặc dù là một mô hình nhỏ hơn đáng kể. Tất cả các mô hình đều được phát hành theo giấy phép OpenRAIL tại URL https này.
