Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content
Artificial Intelligence

SantaCoder: Jangan Berambisi Terlalu Tinggi!

Author

Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra

Venue

Lokakarya ICLR Deep Learning for Code 2023

Abstract

Proyek BigCode adalah kolaborasi ilmiah terbuka yang berfokus pada pengembangan model bahasa besar untuk kode secara bertanggung jawab. Laporan teknis ini menjelaskan kemajuan kolaborasi hingga Desember 2022, menguraikan kondisi terkini dari jalur penyuntingan Informasi Identitas Pribadi (PII), eksperimen yang dilakukan untuk mengurangi risiko arsitektur model, serta eksperimen yang menyelidiki metode prapemrosesan yang lebih baik untuk data pelatihan. Kami melatih model dengan 1,1 miliar parameter pada subset Java, JavaScript, dan Python dari The Stack, dan mengevaluasinya pada benchmark MultiPL-E text-to-code. Kami menemukan bahwa penyaringan yang lebih agresif terhadap duplikat hampir identik dapat meningkatkan kinerja lebih lanjut, dan secara mengejutkan, pemilihan berkas dari repositori dengan 5+ bintang GitHub justru menurunkan kinerja secara signifikan. Model terbaik kami mengungguli model-model pembangkitan kode multibahasa sumber terbuka sebelumnya (InCoder-6.7B dan CodeGen-Multi-2.7B) baik dalam pembangkitan dari kiri ke kanan maupun pengisian pada bagian Java, JavaScript, dan Python dari MultiPL-E, meskipun model kami jauh lebih kecil. Semua model dirilis di bawah lisensi OpenRAIL di URL https ini.