Author
Arjun Guha (Roblox + Northeastern University), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Northeastern University), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (Università dell'Illinois Urbana-Champaign), Yuxiang Wei (Università dell'Illinois Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (Indipendente), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (Indipendente), Indraneil Paul (Università Tecnica di Darmstadt), Zhuang Li (Università Monash), Wen-Ding Li (Università Cornell), Megan Risdal (Kaggle), Jia Li (Indipendente), Jian Zhu (Università della British Columbia), Terry Yue Zhuo (Università Monash + Data61 del CSIRO), Evgenii Zheltonozhskii (Technion – Istituto di Tecnologia di Israele), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Università di Notre Dame), Lucas Krauß (Indipendente), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (Indipendente), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Università di Yale), Muhtasham Oblokulov (Università Tecnica di Monaco), Christopher Akiki (Università di Lipsia + ScaDS.AI), Marc Marone (Università Johns Hopkins), Chenghao Mou (Indipendente), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (Indipendente), Tri Dao (Università di Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Università di Monash), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Università dell'Illinois Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)
Abstract
Il progetto BigCode, una collaborazione scientifica aperta incentrata sullo sviluppo responsabile di modelli linguistici di grandi dimensioni per il codice (Code LLM), presenta StarCoder2. In collaborazione con Software Heritage (SWH), realizziamo The Stack v2 sulla base dei beni comuni digitali del loro archivio di codice sorgente. Oltre ai repository SWH che coprono 619 linguaggi di programmazione, selezioniamo con cura altre fonti di dati di alta qualità, come le pull request di GitHub, i notebook di Kaggle e la documentazione del codice. Il risultato è un set di addestramento quattro volte più grande del primo dataset di StarCoder. Addestriamo i modelli StarCoder2 con 3 miliardi, 7 miliardi e 15 miliardi di parametri su 3,3-4,3 trilioni di token e li valutiamo accuratamente su una serie completa di benchmark Code LLM. Abbiamo riscontrato che il nostro modello di piccole dimensioni, StarCoder2-3B, supera altri Code LLM di dimensioni simili nella maggior parte dei benchmark e supera anche StarCoderBase-15B. Il nostro modello di grandi dimensioni, StarCoder2-15B, supera significativamente altri modelli di dimensioni comparabili. Inoltre, eguaglia o supera CodeLlama-34B, un modello di dimensioni più che doppie rispetto al suo. Sebbene DeepSeekCoder-33B sia il modello con le migliori prestazioni nel completamento del codice per i linguaggi ad alta risorsa, abbiamo riscontrato che StarCoder2-15B lo supera nei benchmark di matematica e ragionamento sul codice, nonché in diversi linguaggi a bassa risorsa. Rendiamo disponibili i pesi del modello sotto licenza OpenRAIL e garantiamo la piena trasparenza riguardo ai dati di addestramento rilasciando gli identificatori persistenti SoftWare Heritage (SWHID) dei dati del codice sorgente.