Nội dung trên trang web này đã được dịch bằng trí tuệ nhân tạo (AI) hoặc công nghệ dịch máy và có thể có lỗi.

Skip to content
Artificial Intelligence

SantaCoder: Đừng mơ mộng viển vông!

Author

Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra

Venue

Hội thảo ICLR về Học sâu cho Lập trình 2023

Abstract

Dự án BigCode là một dự án hợp tác khoa học mở nhằm phát triển các mô hình ngôn ngữ lớn cho mã nguồn một cách có trách nhiệm. Báo cáo kỹ thuật này mô tả tiến trình hợp tác cho đến tháng 12 năm 2022, phác thảo tình trạng hiện tại của quy trình xử lý thông tin nhận dạng cá nhân (PII), các thí nghiệm được thực hiện để giảm thiểu rủi ro trong kiến trúc mô hình, và các thí nghiệm nghiên cứu các phương pháp tiền xử lý tốt hơn cho dữ liệu huấn luyện. Chúng tôi huấn luyện các mô hình có 1,1 tỷ tham số trên các tập con Java, JavaScript và Python của The Stack và đánh giá chúng trên bộ dữ liệu thử nghiệm MultiPL-E text-to-code. Chúng tôi phát hiện ra rằng việc lọc các bản sao gần giống một cách quyết liệt hơn có thể nâng cao hiệu suất hơn nữa và, điều đáng ngạc nhiên là, việc chọn các tệp từ các kho lưu trữ có 5 sao GitHub trở lên làm suy giảm hiệu suất đáng kể. Mô hình tốt nhất của chúng tôi vượt trội hơn các mô hình tạo mã đa ngôn ngữ mã nguồn mở trước đây (InCoder-6.7B và CodeGen-Multi-2.7B) cả về tạo mã từ trái sang phải và điền vào chỗ trống trên các phần Java, JavaScript và Python của MultiPL-E, mặc dù là một mô hình nhỏ hơn đáng kể. Tất cả các mô hình đều được phát hành theo giấy phép OpenRAIL tại URL https này.