StarCoder 2 i The Stack v2: Nowa generacja

Share

Author

Arjun Guha (Roblox + Uniwersytet Northeastern), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Uniwersytet Northeastern), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (University of Illinois Urbana-Champaign), Yuxiang Wei (University of Illinois Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (niezależny), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (niezależny), Indraneil Paul (Politechnika w Darmstadt), Zhuang Li (Uniwersytet Monash), Wen-Ding Li (Uniwersytet Cornell), Megan Risdal (Kaggle), Jia Li (niezależny), Jian Zhu (Uniwersytet Kolumbii Brytyjskiej), Terry Yue Zhuo (Uniwersytet Monash + CSIRO’s Data61), Evgenii Zheltonozhskii (Technion – Izraelski Instytut Technologii), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Uniwersytet Notre Dame), Lucas Krauß (niezależny), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (niezależny), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Uniwersytet Yale), Muhtasham Oblokulov (Politechnika w Monachium), Christopher Akiki (Uniwersytet w Lipsku + ScaDS.AI), Marc Marone (Uniwersytet Johna Hopkinsa), Chenghao Mou (niezależny), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (niezależny), Tri Dao (Uniwersytet Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (Uniwersytet Kalifornijski w San Diego), Julian McAuley (Uniwersytet Kalifornijski w San Diego), Han Hu (Uniwersytet Monash), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Uniwersytet Illinois w Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Abstract

Projekt BigCode, otwarta współpraca naukowa skupiająca się na odpowiedzialnym tworzeniu dużych modeli językowych dla kodu (Code LLMs), przedstawia StarCoder2. We współpracy z Software Heritage (SWH) budujemy The Stack v2 w oparciu o cyfrowe zasoby ich archiwum kodu źródłowego. Oprócz repozytoriów SWH obejmujących 619 języków programowania, starannie wybieramy inne wysokiej jakości źródła danych, takie jak pull requesty z GitHub, notatniki Kaggle i dokumentacja kodu. W rezultacie otrzymujemy zbiór szkoleniowy, który jest czterokrotnie większy niż pierwszy zbiór danych StarCoder. Szkolimy modele StarCoder2 z 3 mld, 7 mld i 15 mld parametrów na 3,3–4,3 bilionach tokenów i dokładnie je oceniamy na kompleksowym zestawie benchmarków Code LLM. Stwierdziliśmy, że nasz mały model, StarCoder2-3B, przewyższa inne modele Code LLM o podobnej wielkości w większości testów porównawczych, a także przewyższa StarCoderBase-15B. Nasz duży model, StarCoder2-15B, znacznie przewyższa inne modele o porównywalnej wielkości. Ponadto dorównuje on lub przewyższa model CodeLlama-34B, który jest ponad dwukrotnie większy. Chociaż DeepSeekCoder-33B jest modelem o najlepszej wydajności w zakresie uzupełniania kodu dla języków wymagających dużych zasobów, stwierdziliśmy, że StarCoder2-15B przewyższa go w testach porównawczych dotyczących matematyki i rozumowania kodowego, a także w przypadku kilku języków wymagających niewielkich zasobów. Udostępniamy wagi modelu na licencji OpenRAIL i zapewniamy pełną przejrzystość w zakresie danych szkoleniowych, publikując identyfikatory SWHID (SoftWare Heritage persistent IDentifiers) danych kodu źródłowego.

Dołącz do nas i kształtuj przyszłość

Zobacz wszystkie oferty pracy

Najnowsze

Więcej wyników

StarCoder 2 i The Stack v2: Nowa generacja

Author

Venue

Abstract

Dołącz do nas i kształtuj przyszłość

StarCoder 2 i The Stack v2: Nowa generacja

Author

Venue

Abstract

Related Publications

CubePart: generator 3D z otwartym słownictwem i możliwością sterowania częściami

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Katalogowy model LLM: Mówienie w dialekcie identyfikatorów elementów z mniejszym stopniem splątania w celu rekomendacji

Dołącz do nas i kształtuj przyszłość