Treści na tej stronie zostały przetłumaczone przy użyciu sztucznej inteligencji (AI) lub technologii tłumaczenia maszynowego i mogą zawierać błędy.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder 2 i The Stack v2: Nowa generacja

View Publication

Author

Arjun Guha (Roblox + Uniwersytet Northeastern), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Uniwersytet Northeastern), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (University of Illinois Urbana-Champaign), Yuxiang Wei (University of Illinois Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (niezależny), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (niezależny), Indraneil Paul (Politechnika w Darmstadt), Zhuang Li (Uniwersytet Monash), Wen-Ding Li (Uniwersytet Cornell), Megan Risdal (Kaggle), Jia Li (niezależny), Jian Zhu (Uniwersytet Kolumbii Brytyjskiej), Terry Yue Zhuo (Uniwersytet Monash + CSIRO’s Data61), Evgenii Zheltonozhskii (Technion – Izraelski Instytut Technologii), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Uniwersytet Notre Dame), Lucas Krauß (niezależny), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (niezależny), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Uniwersytet Yale), Muhtasham Oblokulov (Politechnika w Monachium), Christopher Akiki (Uniwersytet w Lipsku + ScaDS.AI), Marc Marone (Uniwersytet Johna Hopkinsa), Chenghao Mou (niezależny), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (niezależny), Tri Dao (Uniwersytet Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (Uniwersytet Kalifornijski w San Diego), Julian McAuley (Uniwersytet Kalifornijski w San Diego), Han Hu (Uniwersytet Monash), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Uniwersytet Illinois w Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Abstract

Projekt BigCode, otwarta współpraca naukowa skupiająca się na odpowiedzialnym tworzeniu dużych modeli językowych dla kodu (Code LLMs), przedstawia StarCoder2. We współpracy z Software Heritage (SWH) budujemy The Stack v2 w oparciu o cyfrowe zasoby ich archiwum kodu źródłowego. Oprócz repozytoriów SWH obejmujących 619 języków programowania, starannie wybieramy inne wysokiej jakości źródła danych, takie jak pull requesty z GitHub, notatniki Kaggle i dokumentacja kodu. W rezultacie otrzymujemy zbiór szkoleniowy, który jest czterokrotnie większy niż pierwszy zbiór danych StarCoder. Szkolimy modele StarCoder2 z 3 mld, 7 mld i 15 mld parametrów na 3,3–4,3 bilionach tokenów i dokładnie je oceniamy na kompleksowym zestawie benchmarków Code LLM. Stwierdziliśmy, że nasz mały model, StarCoder2-3B, przewyższa inne modele Code LLM o podobnej wielkości w większości testów porównawczych, a także przewyższa StarCoderBase-15B. Nasz duży model, StarCoder2-15B, znacznie przewyższa inne modele o porównywalnej wielkości. Ponadto dorównuje on lub przewyższa model CodeLlama-34B, który jest ponad dwukrotnie większy. Chociaż DeepSeekCoder-33B jest modelem o najlepszej wydajności w zakresie uzupełniania kodu dla języków wymagających dużych zasobów, stwierdziliśmy, że StarCoder2-15B przewyższa go w testach porównawczych dotyczących matematyki i rozumowania kodowego, a także w przypadku kilku języków wymagających niewielkich zasobów. Udostępniamy wagi modelu na licencji OpenRAIL i zapewniamy pełną przejrzystość w zakresie danych szkoleniowych, publikując identyfikatory SWHID (SoftWare Heritage persistent IDentifiers) danych kodu źródłowego.