Author
Arjun Guha (Roblox + Northeastern University), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Northeastern University), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (Universidade de Illinois em Urbana-Champaign), Yuxiang Wei (Universidade de Illinois em Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (Independente), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (Independente), Indraneil Paul (Universidade Técnica de Darmstadt), Zhuang Li (Universidade Monash), Wen-Ding Li (Universidade Cornell), Megan Risdal (Kaggle), Jia Li (Independente), Jian Zhu (Universidade da Colúmbia Britânica), Terry Yue Zhuo (Universidade Monash + Data61 do CSIRO), Evgenii Zheltonozhskii (Technion – Instituto de Tecnologia de Israel), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Universidade de Notre Dame), Lucas Krauß (Independente), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (Independente), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Universidade de Yale), Muhtasham Oblokulov (Universidade Técnica de Munique), Christopher Akiki (Universidade de Leipzig + ScaDS.AI), Marc Marone (Universidade Johns Hopkins), Chenghao Mou (Independente), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (Independente), Tri Dao (Universidade de Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Universidade Monash), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Universidade de Illinois em Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)
Abstract
O projeto BigCode, uma colaboração científica aberta focada no desenvolvimento responsável de Grandes Modelos de Linguagem para Código (Code LLMs), apresenta o StarCoder2. Em parceria com a Software Heritage (SWH), construímos o The Stack v2 com base no acervo digital de código-fonte da organização. Juntamente com os repositórios da SWH, que abrangem 619 linguagens de programação, selecionamos cuidadosamente outras fontes de dados de alta qualidade, como pull requests do GitHub, notebooks do Kaggle e documentação de código. Isso resulta em um conjunto de treinamento quatro vezes maior do que o primeiro conjunto de dados do StarCoder. Treinamos modelos StarCoder2 com 3B, 7B e 15B de parâmetros em 3,3 a 4,3 trilhões de tokens e os avaliamos exaustivamente em um conjunto abrangente de benchmarks de Code LLMs. Constatamos que nosso modelo pequeno, o StarCoder2-3B, supera outros Code LLMs de tamanho semelhante na maioria dos benchmarks e também supera o StarCoderBase-15B. Nosso modelo grande, o StarCoder2-15B, supera significativamente outros modelos de tamanho comparável. Além disso, ele iguala ou supera o CodeLlama-34B, um modelo com mais do que o dobro do seu tamanho. Embora o DeepSeekCoder-33B seja o modelo com melhor desempenho na autocompletar de código para linguagens de alto consumo de recursos, constatamos que o StarCoder2-15B o supera nos benchmarks de matemática e raciocínio de código, bem como em várias linguagens de baixo consumo de recursos. Disponibilizamos os pesos do modelo sob uma licença OpenRAIL e garantimos total transparência em relação aos dados de treinamento, divulgando os SoftWare Heritage persistent IDentifiers (SWHIDs) dos dados do código-fonte.