StarCoder 2 e The Stack v2: La prossima generazione

Author

Arjun Guha (Roblox + Northeastern University), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Northeastern University), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (Università dell'Illinois Urbana-Champaign), Yuxiang Wei (Università dell'Illinois Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (Indipendente), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (Indipendente), Indraneil Paul (Università Tecnica di Darmstadt), Zhuang Li (Università Monash), Wen-Ding Li (Università Cornell), Megan Risdal (Kaggle), Jia Li (Indipendente), Jian Zhu (Università della British Columbia), Terry Yue Zhuo (Università Monash + Data61 del CSIRO), Evgenii Zheltonozhskii (Technion – Istituto di Tecnologia di Israele), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Università di Notre Dame), Lucas Krauß (Indipendente), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (Indipendente), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Università di Yale), Muhtasham Oblokulov (Università Tecnica di Monaco), Christopher Akiki (Università di Lipsia + ScaDS.AI), Marc Marone (Università Johns Hopkins), Chenghao Mou (Indipendente), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (Indipendente), Tri Dao (Università di Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Università di Monash), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Università dell'Illinois Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Abstract

Il progetto BigCode, una collaborazione scientifica aperta incentrata sullo sviluppo responsabile di modelli linguistici di grandi dimensioni per il codice (Code LLM), presenta StarCoder2. In collaborazione con Software Heritage (SWH), realizziamo The Stack v2 sulla base dei beni comuni digitali del loro archivio di codice sorgente. Oltre ai repository SWH che coprono 619 linguaggi di programmazione, selezioniamo con cura altre fonti di dati di alta qualità, come le pull request di GitHub, i notebook di Kaggle e la documentazione del codice. Il risultato è un set di addestramento quattro volte più grande del primo dataset di StarCoder. Addestriamo i modelli StarCoder2 con 3 miliardi, 7 miliardi e 15 miliardi di parametri su 3,3-4,3 trilioni di token e li valutiamo accuratamente su una serie completa di benchmark Code LLM. Abbiamo riscontrato che il nostro modello di piccole dimensioni, StarCoder2-3B, supera altri Code LLM di dimensioni simili nella maggior parte dei benchmark e supera anche StarCoderBase-15B. Il nostro modello di grandi dimensioni, StarCoder2-15B, supera significativamente altri modelli di dimensioni comparabili. Inoltre, eguaglia o supera CodeLlama-34B, un modello di dimensioni più che doppie rispetto al suo. Sebbene DeepSeekCoder-33B sia il modello con le migliori prestazioni nel completamento del codice per i linguaggi ad alta risorsa, abbiamo riscontrato che StarCoder2-15B lo supera nei benchmark di matematica e ragionamento sul codice, nonché in diversi linguaggi a bassa risorsa. Rendiamo disponibili i pesi del modello sotto licenza OpenRAIL e garantiamo la piena trasparenza riguardo ai dati di addestramento rilasciando gli identificatori persistenti SoftWare Heritage (SWHID) dei dati del codice sorgente.

Unisciti a noi per plasmare il futuro

Visualizza tutti i lavori

Recenti

Altri risultati

StarCoder 2 e The Stack v2: La prossima generazione

Author

Venue

Abstract

Unisciti a noi per plasmare il futuro

StarCoder 2 e The Stack v2: La prossima generazione

Author

Venue

Abstract

Related Publications

CubePart: un generatore 3D a vocabolario aperto e controllabile per parti

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Catalog-Native LLM: Dialetto ID elemento vocale con minore intrico per la raccomandazione

Unisciti a noi per plasmare il futuro