SantaCoder: Nie sięgaj gwiazd!
Author
Venue
Warsztaty ICLR Deep Learning for Code 2023
Abstract
Projekt BigCode to otwarta współpraca naukowa zajmująca się odpowiedzialnym opracowywaniem dużych modeli językowych dla kodu. Niniejszy raport techniczny opisuje postępy współpracy do grudnia 2022 r., przedstawiając aktualny stan procesu redagowania danych osobowych (PII), eksperymenty przeprowadzone w celu zmniejszenia ryzyka związanego z architekturą modelu oraz eksperymenty badające lepsze metody przetwarzania wstępnego danych szkoleniowych. Trenujemy modele o 1,1 mld parametrów na podzbiorach The Stack w językach Java, JavaScript i Python, a następnie oceniamy je w benchmarku tekst-na-kod MultiPL-E. Stwierdziliśmy, że bardziej agresywne filtrowanie niemal identycznych duplikatów może jeszcze bardziej poprawić wydajność oraz, co zaskakujące, że wybieranie plików z repozytoriów z co najmniej 5 gwiazdkami na GitHubie znacznie pogarsza wydajność. Nasz najlepszy model przewyższa poprzednie modele generowania wielojęzycznego kodu typu open source (InCoder-6.7B i CodeGen-Multi-2.7B) zarówno w generowaniu od lewej do prawej, jak i w uzupełnianiu fragmentów kodu w częściach MultiPL-E dotyczących Javy, JavaScriptu i Pythona, mimo że jest znacznie mniejszy. Wszystkie modele są udostępnione na licencji OpenRAIL pod tym adresem URL https.
