SantaCoder: Streef niet naar de sterren!
Author
Venue
ICLR Deep Learning for Code Workshop 2023
Abstract
Het BigCode-project is een open-wetenschappelijke samenwerking die zich bezighoudt met de verantwoorde ontwikkeling van grote taalmodellen voor code. Dit technisch rapport beschrijft de voortgang van de samenwerking tot december 2022 en geeft een overzicht van de huidige stand van zaken met betrekking tot de pijplijn voor het redigeren van persoonlijk identificeerbare informatie (PII), de experimenten die zijn uitgevoerd om de modelarchitectuur minder risicovol te maken, en de experimenten waarin betere voorbewerkingsmethoden voor de trainingsdata worden onderzocht. We trainen modellen met 1,1 miljard parameters op de Java-, JavaScript- en Python-subsets van The Stack en evalueren deze op de MultiPL-E-benchmark voor tekst-naar-code. We constateren dat een agressievere filtering van bijna-duplicaten de prestaties verder kan verbeteren en, verrassend genoeg, dat het selecteren van bestanden uit repositories met 5+ GitHub-sterren de prestaties aanzienlijk verslechtert. Ons beste model presteert beter dan eerdere open-source modellen voor meertalige codegeneratie (InCoder-6,7B en CodeGen-Multi-2,7B) bij zowel generatie van links naar rechts als het invullen van de Java-, JavaScript- en Python-delen van MultiPL-E, ondanks dat het een aanzienlijk kleiner model is. Alle modellen worden vrijgegeven onder een OpenRAIL-licentie op deze https-URL.
