Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder 2 dan The Stack v2: Generasi Berikutnya

View Publication

Author

Arjun Guha (Roblox + Universitas Northeastern), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Universitas Northeastern), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (University of Illinois Urbana-Champaign), Yuxiang Wei (University of Illinois Urbana-Champaign), Tianyang Liu (UC San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (Independen), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (Independen), Indraneil Paul (Technical University of Darmstadt), Zhuang Li (Universitas Monash), Wen-Ding Li (Universitas Cornell), Megan Risdal (Kaggle), Jia Li (Independen), Jian Zhu (Universitas British Columbia), Terry Yue Zhuo (Universitas Monash + Data61 CSIRO), Evgenii Zheltonozhskii (Technion – Institut Teknologi Israel), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Universitas Notre Dame), Lucas Krauß (Independen), Naman Jain (UC Berkeley), Yixuan Su (Cohere), Xuanli He (University College London), Manan Dey (Salesforce), Edoardo Abati (Independen), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Universitas Yale), Muhtasham Oblokulov (Universitas Teknik Munich), Christopher Akiki (Universitas Leipzig + ScaDS.AI), Marc Marone (Universitas Johns Hopkins), Chenghao Mou (Independen), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (Independen), Tri Dao (Universitas Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (UC San Diego), Julian McAuley (UC San Diego), Han Hu (Universitas Monash), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Universitas Illinois Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Abstract

Proyek BigCode, sebuah kolaborasi ilmiah terbuka yang berfokus pada pengembangan yang bertanggung jawab atas Model Bahasa Besar untuk Kode (Code LLMs), memperkenalkan StarCoder2. Bekerja sama dengan Software Heritage (SWH), kami membangun The Stack v2 di atas arsip kode sumber digital milik mereka. Selain repositori SWH yang mencakup 619 bahasa pemrograman, kami dengan cermat memilih sumber data berkualitas tinggi lainnya, seperti permintaan pull GitHub, notebook Kaggle, dan dokumentasi kode. Hal ini menghasilkan kumpulan data pelatihan yang 4 kali lebih besar daripada dataset StarCoder pertama. Kami melatih model StarCoder2 dengan parameter 3B, 7B, dan 15B pada 3,3 hingga 4,3 triliun token dan mengevaluasinya secara menyeluruh pada serangkaian benchmark Code LLM yang komprehensif. Kami menemukan bahwa model kecil kami, StarCoder2-3B, mengungguli Code LLM lain dengan ukuran serupa pada sebagian besar benchmark, dan juga mengungguli StarCoderBase-15B. Model besar kami, StarCoder2-15B, secara signifikan mengungguli model lain dengan ukuran yang sebanding. Selain itu, model ini setara atau lebih unggul daripada CodeLlama-34B, model yang ukurannya lebih dari dua kali lipat. Meskipun DeepSeekCoder-33B merupakan model dengan kinerja terbaik dalam penyelesaian kode untuk bahasa pemrograman berdaya tinggi, kami menemukan bahwa StarCoder2-15B mengunggulinya pada benchmark penalaran matematika dan kode, serta beberapa bahasa pemrograman berdaya rendah. Kami menyediakan bobot model di bawah lisensi OpenRAIL dan memastikan transparansi penuh terkait data pelatihan dengan merilis SoftWare Heritage persistent IDentifiers (SWHIDs) dari data kode sumber.