De content op deze site is vertaald met behulp van kunstmatige intelligentie (AI) of machinevertalingstechnologie en kan fouten bevatten.

Skip to content
Artificial Intelligence

SantaCoder: Streef niet naar de sterren!

Author

Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra

Venue

ICLR Deep Learning for Code Workshop 2023

Abstract

Het BigCode-project is een open-wetenschappelijke samenwerking die zich bezighoudt met de verantwoorde ontwikkeling van grote taalmodellen voor code. Dit technisch rapport beschrijft de voortgang van de samenwerking tot december 2022 en geeft een overzicht van de huidige stand van zaken met betrekking tot de pijplijn voor het redigeren van persoonlijk identificeerbare informatie (PII), de experimenten die zijn uitgevoerd om de modelarchitectuur minder risicovol te maken, en de experimenten waarin betere voorbewerkingsmethoden voor de trainingsdata worden onderzocht. We trainen modellen met 1,1 miljard parameters op de Java-, JavaScript- en Python-subsets van The Stack en evalueren deze op de MultiPL-E-benchmark voor tekst-naar-code. We constateren dat een agressievere filtering van bijna-duplicaten de prestaties verder kan verbeteren en, verrassend genoeg, dat het selecteren van bestanden uit repositories met 5+ GitHub-sterren de prestaties aanzienlijk verslechtert. Ons beste model presteert beter dan eerdere open-source modellen voor meertalige codegeneratie (InCoder-6,7B en CodeGen-Multi-2,7B) bij zowel generatie van links naar rechts als het invullen van de Java-, JavaScript- en Python-delen van MultiPL-E, ondanks dat het een aanzienlijk kleiner model is. Alle modellen worden vrijgegeven onder een OpenRAIL-licentie op deze https-URL.