Treści na tej stronie zostały przetłumaczone przy użyciu sztucznej inteligencji (AI) lub technologii tłumaczenia maszynowego i mogą zawierać błędy.

Skip to content
Artificial Intelligence

SantaCoder: Nie sięgaj gwiazd!

Author

Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra

Venue

Warsztaty ICLR Deep Learning for Code 2023

Abstract

Projekt BigCode to otwarta współpraca naukowa zajmująca się odpowiedzialnym opracowywaniem dużych modeli językowych dla kodu. Niniejszy raport techniczny opisuje postępy współpracy do grudnia 2022 r., przedstawiając aktualny stan procesu redagowania danych osobowych (PII), eksperymenty przeprowadzone w celu zmniejszenia ryzyka związanego z architekturą modelu oraz eksperymenty badające lepsze metody przetwarzania wstępnego danych szkoleniowych. Trenujemy modele o 1,1 mld parametrów na podzbiorach The Stack w językach Java, JavaScript i Python, a następnie oceniamy je w benchmarku tekst-na-kod MultiPL-E. Stwierdziliśmy, że bardziej agresywne filtrowanie niemal identycznych duplikatów może jeszcze bardziej poprawić wydajność oraz, co zaskakujące, że wybieranie plików z repozytoriów z co najmniej 5 gwiazdkami na GitHubie znacznie pogarsza wydajność. Nasz najlepszy model przewyższa poprzednie modele generowania wielojęzycznego kodu typu open source (InCoder-6.7B i CodeGen-Multi-2.7B) zarówno w generowaniu od lewej do prawej, jak i w uzupełnianiu fragmentów kodu w częściach MultiPL-E dotyczących Javy, JavaScriptu i Pythona, mimo że jest znacznie mniejszy. Wszystkie modele są udostępnione na licencji OpenRAIL pod tym adresem URL https.