De content op deze site is vertaald met behulp van kunstmatige intelligentie (AI) of machinevertalingstechnologie en kan fouten bevatten.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder 2 en The Stack v2: de volgende generatie

View Publication

Author

Arjun Guha (Roblox + Northeastern University), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Northeastern University), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (University of Illinois Urbana-Champaign), Yuxiang Wei (University of Illinois Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (zelfstandig), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (zelfstandig), Indraneil Paul (Technische Universiteit van Darmstadt), Zhuang Li (Monash University), Wen-Ding Li (Cornell University), Megan Risdal (Kaggle), Jia Li (zelfstandig), Jian Zhu (University of British Columbia), Terry Yue Zhuo (Monash University + CSIRO’s Data61), Evgenii Zheltonozhskii (Technion – Israel Institute of Technology), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Universiteit van Notre Dame), Lucas Krauß (onafhankelijk), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (zelfstandig), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Yale University), Muhtasham Oblokulov (Technische Universiteit München), Christopher Akiki (Universiteit van Leipzig + ScaDS.AI), Marc Marone (Johns Hopkins University), Chenghao Mou (zelfstandig), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (zelfstandig), Tri Dao (Princeton University), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Monash University), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (University of Illinois Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Abstract

Het BigCode-project, een open-wetenschappelijke samenwerking gericht op de verantwoorde ontwikkeling van Large Language Models for Code (Code LLMs), introduceert StarCoder2. In samenwerking met Software Heritage (SWH) bouwen we The Stack v2 bovenop de digitale commons van hun broncodearchief. Naast de SWH-repositories die 619 programmeertalen omvatten, selecteren we zorgvuldig andere hoogwaardige gegevensbronnen, zoals GitHub-pull-verzoeken, Kaggle-notebooks en codedocumentatie. Dit resulteert in een trainingsset die vier keer zo groot is als de eerste StarCoder-dataset. We trainen StarCoder2-modellen met 3B, 7B en 15B parameters op 3,3 tot 4,3 biljoen tokens en evalueren ze grondig aan de hand van een uitgebreide reeks Code LLM-benchmarks. We constateren dat ons kleine model, StarCoder2-3B, op de meeste benchmarks beter presteert dan andere Code LLM's van vergelijkbare omvang, en ook beter presteert dan StarCoderBase-15B. Ons grote model, StarCoder2-15B, presteert aanzienlijk beter dan andere modellen van vergelijkbare omvang. Bovendien evenaart of presteert het beter dan CodeLlama-34B, een model dat meer dan twee keer zo groot is. Hoewel DeepSeekCoder-33B het best presterende model is op het gebied van codeaanvulling voor talen die veel rekenkracht vereisen, zien we dat StarCoder2-15B beter presteert op benchmarks voor wiskundig en code-redeneren, evenals bij verschillende talen die weinig rekenkracht vereisen. We stellen de modelgewichten beschikbaar onder een OpenRAIL-licentie en zorgen voor volledige transparantie met betrekking tot de trainingsdata door de SoftWare Heritage persistent IDentifiers (SWHID's) van de broncodedata vrij te geven.