Author
Arjun Guha (Roblox + Northeastern University), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Northeastern University), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (Université de l'Illinois à Urbana-Champaign), Yuxiang Wei (Université de l'Illinois à Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (indépendant), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (indépendant), Indraneil Paul (Université technique de Darmstadt), Zhuang Li (Université Monash), Wen-Ding Li (Université Cornell), Megan Risdal (Kaggle), Jia Li (indépendant), Jian Zhu (Université de Colombie-Britannique), Terry Yue Zhuo (Université Monash + Data61 du CSIRO), Evgenii Zheltonozhskii (Technion – Institut israélien de technologie), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Université de Notre Dame), Lucas Krauß (indépendant), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (indépendant), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Université de Yale), Muhtasham Oblokulov (Université technique de Munich), Christopher Akiki (Université de Leipzig + ScaDS.AI), Marc Marone (Université Johns Hopkins), Chenghao Mou (indépendant), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (indépendant), Tri Dao (Université de Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Université Monash), Torsten Scholak (ServiceNow), Sébastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Université de l'Illinois à Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)
Abstract
Le projet BigCode, une collaboration scientifique ouverte axée sur le développement responsable de grands modèles linguistiques pour le code (Code LLMs), présente StarCoder2. En partenariat avec Software Heritage (SWH), nous construisons The Stack v2 à partir des ressources numériques communes de leur archive de code source. Outre les référentiels SWH couvrant 619 langages de programmation, nous sélectionnons avec soin d'autres sources de données de haute qualité, telles que les pull requests GitHub, les notebooks Kaggle et la documentation de code. Il en résulte un ensemble de données d'entraînement quatre fois plus volumineux que le premier ensemble de données StarCoder. Nous entraînons des modèles StarCoder2 avec 3 milliards, 7 milliards et 15 milliards de paramètres sur 3,3 à 4,3 billions de tokens et les évaluons de manière approfondie à l'aide d'un ensemble complet de benchmarks pour les Code LLM. Nous constatons que notre petit modèle, StarCoder2-3B, surpasse les autres Code LLM de taille similaire sur la plupart des benchmarks, et surpasse également StarCoderBase-15B. Notre grand modèle, StarCoder2-15B, surpasse largement les autres modèles de taille comparable. De plus, il égale ou surpasse CodeLlama-34B, un modèle dont la taille est plus de deux fois supérieure. Bien que DeepSeekCoder-33B soit le modèle le plus performant en matière de complétion de code pour les langages à forte intensité de ressources, nous constatons que StarCoder2-15B le surpasse sur les benchmarks de mathématiques et de raisonnement de code, ainsi que sur plusieurs langages à faible intensité de ressources. Nous mettons les poids du modèle à disposition sous une licence OpenRAIL et garantissons une transparence totale concernant les données d'entraînement en publiant les identifiants persistants SoftWare Heritage (SWHID) des données du code source.