Author
Arjun Guha (Roblox + Northeastern Üniversitesi), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Northeastern Üniversitesi), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (Illinois Üniversitesi Urbana-Champaign), Yuxiang Wei (Illinois Üniversitesi Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (Bağımsız), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (Bağımsız), Indraneil Paul (Darmstadt Teknik Üniversitesi), Zhuang Li (Monash Üniversitesi), Wen-Ding Li (Cornell Üniversitesi), Megan Risdal (Kaggle), Jia Li (Bağımsız), Jian Zhu (British Columbia Üniversitesi), Terry Yue Zhuo (Monash Üniversitesi + CSIRO’nun Data61), Evgenii Zheltonozhskii (Technion – İsrail Teknoloji Enstitüsü), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Notre Dame Üniversitesi), Lucas Krauß (Bağımsız), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (Bağımsız), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Yale Üniversitesi), Muhtasham Oblokulov (Münih Teknik Üniversitesi), Christopher Akiki (Leipzig Üniversitesi + ScaDS.AI), Marc Marone (Johns Hopkins Üniversitesi), Chenghao Mou (Bağımsız), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (Bağımsız), Tri Dao (Princeton Üniversitesi), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Monash Üniversitesi), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley Koleji), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Illinois Üniversitesi Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)
Abstract
Kod için Büyük Dil Modelleri'nin (Code LLMs) sorumlu bir şekilde geliştirilmesine odaklanan açık bilimsel bir işbirliği olan BigCode projesi, StarCoder2'yi tanıtıyor. Software Heritage (SWH) ile ortaklaşa, kaynak kod arşivlerinin dijital ortak kaynakları üzerine The Stack v2'yi oluşturuyoruz. 619 programlama dilini kapsayan SWH depolarının yanı sıra, GitHub çekme istekleri, Kaggle not defterleri ve kod belgeleri gibi diğer yüksek kaliteli veri kaynaklarını da özenle seçiyoruz. Bu, ilk StarCoder veri setinden 4 kat daha büyük bir eğitim seti ile sonuçlanıyor. 3,3 ila 4,3 trilyon token üzerinde 3B, 7B ve 15B parametreli StarCoder2 modellerini eğitiyoruz ve bunları kapsamlı bir Code LLM benchmark seti üzerinde ayrıntılı bir şekilde değerlendiriyoruz. Küçük modelimiz olan StarCoder2-3B'nin, çoğu benchmarkta benzer büyüklükteki diğer Code LLM'lerden daha iyi performans gösterdiğini ve ayrıca StarCoderBase-15B'yi de geride bıraktığını tespit ettik. Büyük modelimiz olan StarCoder2-15B ise, benzer büyüklükteki diğer modellerden önemli ölçüde daha iyi performans gösteriyor. Ayrıca, kendisinin iki katından fazla büyüklüğe sahip bir model olan CodeLlama-34B ile eşit veya daha iyi performans gösteriyor. DeepSeekCoder-33B, yüksek kaynak gerektiren dillerde kod tamamlama konusunda en iyi performans gösteren model olsa da, StarCoder2-15B'nin matematik ve kod akıl yürütme benchmarklarında ve ayrıca birkaç düşük kaynak gerektiren dilde ondan daha iyi performans gösterdiğini tespit ettik. Model ağırlıklarını OpenRAIL lisansı altında kullanıma sunuyoruz ve kaynak kodu verilerinin SoftWare Heritage kalıcı tanımlayıcılarını (SWHID'ler) yayınlayarak eğitim verileriyle ilgili tam şeffaflığı sağlıyoruz.