Die Inhalte dieser Website wurden mithilfe künstlicher Intelligenz (KI) oder maschineller Übersetzungstechnologie übersetzt und können Fehler enthalten.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder 2 und The Stack v2: Die nächste Generation

View Publication

Author

Arjun Guha (Roblox + Northeastern University), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Northeastern University), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (University of Illinois Urbana-Champaign), Yuxiang Wei (University of Illinois Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (selbstständig), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (selbstständig), Indraneil Paul (Technische Universität Darmstadt), Zhuang Li (Monash University), Wen-Ding Li (Cornell University), Megan Risdal (Kaggle), Jia Li (selbstständig), Jian Zhu (University of British Columbia), Terry Yue Zhuo (Monash University + CSIRO’s Data61), Evgenii Zheltonozhskii (Technion – Israel Institute of Technology), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (University of Notre Dame), Lucas Krauß (selbstständig), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (selbstständig), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Yale University), Muhtasham Oblokulov (Technische Universität München), Christopher Akiki (Universität Leipzig + ScaDS.AI), Marc Marone (Johns Hopkins University), Chenghao Mou (selbstständig), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (selbstständig), Tri Dao (Princeton University), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Monash University), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (University of Illinois Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Abstract

Das BigCode-Projekt, eine wissenschaftliche Open-Access-Kooperation, die sich auf die verantwortungsvolle Entwicklung von Large Language Models for Code (Code LLMs) konzentriert, stellt StarCoder2 vor. In Zusammenarbeit mit Software Heritage (SWH) bauen wir The Stack v2 auf der Grundlage der digitalen Commons ihres Quellcode-Archivs auf. Neben den SWH-Repositories, die 619 Programmiersprachen umfassen, wählen wir sorgfältig weitere hochwertige Datenquellen aus, wie beispielsweise GitHub-Pull-Requests, Kaggle-Notebooks und Code-Dokumentation. Das Ergebnis ist ein Trainingssatz, der viermal so groß ist wie der erste StarCoder-Datensatz. Wir trainieren StarCoder2-Modelle mit 3B-, 7B- und 15B-Parametern auf 3,3 bis 4,3 Billionen Tokens und bewerten sie gründlich anhand eines umfassenden Satzes von Code-LLM-Benchmarks. Wir stellen fest, dass unser kleines Modell, StarCoder2-3B, andere Code-LLMs ähnlicher Größe bei den meisten Benchmarks übertrifft und auch StarCoderBase-15B übertrifft. Unser großes Modell, StarCoder2-15B, übertrifft andere Modelle vergleichbarer Größe deutlich. Zudem erreicht es die Leistung von CodeLlama-34B, einem Modell, das mehr als doppelt so groß ist, oder übertrifft diese sogar. Obwohl DeepSeekCoder-33B das leistungsstärkste Modell bei der Code-Vervollständigung für ressourcenintensive Sprachen ist, stellen wir fest, dass StarCoder2-15B es bei Benchmarks für Mathematik und Code-Reasoning sowie bei mehreren ressourcenschonenden Sprachen übertrifft. Wir stellen die Modellgewichte unter einer OpenRAIL-Lizenz zur Verfügung und gewährleisten vollständige Transparenz hinsichtlich der Trainingsdaten, indem wir die SoftWare Heritage Persistent Identifiers (SWHIDs) der Quellcodedaten veröffentlichen.