SantaCoder: Jangan Berambisi Terlalu Tinggi!
Author
Venue
Lokakarya ICLR Deep Learning for Code 2023
Abstract
Proyek BigCode adalah kolaborasi ilmiah terbuka yang berfokus pada pengembangan model bahasa besar untuk kode secara bertanggung jawab. Laporan teknis ini menjelaskan kemajuan kolaborasi hingga Desember 2022, menguraikan kondisi terkini dari jalur penyuntingan Informasi Identitas Pribadi (PII), eksperimen yang dilakukan untuk mengurangi risiko arsitektur model, serta eksperimen yang menyelidiki metode prapemrosesan yang lebih baik untuk data pelatihan. Kami melatih model dengan 1,1 miliar parameter pada subset Java, JavaScript, dan Python dari The Stack, dan mengevaluasinya pada benchmark MultiPL-E text-to-code. Kami menemukan bahwa penyaringan yang lebih agresif terhadap duplikat hampir identik dapat meningkatkan kinerja lebih lanjut, dan secara mengejutkan, pemilihan berkas dari repositori dengan 5+ bintang GitHub justru menurunkan kinerja secara signifikan. Model terbaik kami mengungguli model-model pembangkitan kode multibahasa sumber terbuka sebelumnya (InCoder-6.7B dan CodeGen-Multi-2.7B) baik dalam pembangkitan dari kiri ke kanan maupun pengisian pada bagian Java, JavaScript, dan Python dari MultiPL-E, meskipun model kami jauh lebih kecil. Semua model dirilis di bawah lisensi OpenRAIL di URL https ini.
