StarCoder 2 y The Stack v2: La próxima generación

Share

Author

Arjun Guha (Roblox + Universidad Northeastern), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Universidad Northeastern), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (Universidad de Illinois en Urbana-Champaign), Yuxiang Wei (Universidad de Illinois en Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (independiente), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (independiente), Indraneil Paul (Universidad Técnica de Darmstadt), Zhuang Li (Universidad de Monash), Wen-Ding Li (Universidad de Cornell), Megan Risdal (Kaggle), Jia Li (independiente), Jian Zhu (Universidad de Columbia Británica), Terry Yue Zhuo (Universidad de Monash + Data61 del CSIRO), Evgenii Zheltonozhskii (Technion – Instituto Tecnológico de Israel), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Universidad de Notre Dame), Lucas Krauß (independiente), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (independiente), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Universidad de Yale), Muhtasham Oblokulov (Universidad Técnica de Múnich), Christopher Akiki (Universidad de Leipzig + ScaDS.AI), Marc Marone (Universidad Johns Hopkins), Chenghao Mou (independiente), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (independiente), Tri Dao (Universidad de Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Universidad de Monash), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Universidad de Illinois en Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Abstract

El proyecto BigCode, una colaboración científica abierta centrada en el desarrollo responsable de grandes modelos de lenguaje para código (Code LLMs), presenta StarCoder2. En colaboración con Software Heritage (SWH), construimos The Stack v2 sobre la base de los recursos comunes digitales de su archivo de código fuente. Junto a los repositorios de SWH, que abarcan 619 lenguajes de programación, seleccionamos cuidadosamente otras fuentes de datos de alta calidad, como las solicitudes de incorporación de cambios de GitHub, los cuadernos de Kaggle y la documentación de código. El resultado es un conjunto de entrenamiento cuatro veces mayor que el primer conjunto de datos de StarCoder. Entrenamos modelos StarCoder2 con 3 000 millones, 7 000 millones y 15 000 millones de parámetros sobre entre 3,3 y 4,3 billones de tokens y los evaluamos exhaustivamente en un conjunto completo de pruebas de rendimiento de Code LLM. Hemos constatado que nuestro modelo pequeño, StarCoder2-3B, supera a otros Code LLM de tamaño similar en la mayoría de los benchmarks, y también supera a StarCoderBase-15B. Nuestro modelo grande, StarCoder2-15B, supera significativamente a otros modelos de tamaño comparable. Además, iguala o supera a CodeLlama-34B, un modelo que duplica con creces su tamaño. Aunque DeepSeekCoder-33B es el modelo con mejor rendimiento en la finalización de código para lenguajes de alto consumo de recursos, observamos que StarCoder2-15B lo supera en los benchmarks de razonamiento matemático y de código, así como en varios lenguajes de bajo consumo de recursos. Ponemos a disposición los pesos del modelo bajo una licencia OpenRAIL y garantizamos una total transparencia en cuanto a los datos de entrenamiento mediante la publicación de los identificadores persistentes de SoftWare Heritage (SWHID) de los datos del código fuente.