Author
Arjun Guha (Roblox + Đại học Northeastern), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Đại học Northeastern), Joel Lamy-Poirier (ServiceNow), Nouamane Tazi (HuggingFace), Ao Tang (Nvidia), Dmytro Pykhtar (Nvidia), Jiawei Liu (Đại học Illinois Urbana-Champaign), Yuxiang Wei (Đại học Illinois Urbana-Champaign), Tianyang Liu (Đại học California San Diego), Max Tian (ServiceNow), Denis Kocetkov (ServiceNow), Arthur Zucker (HuggingFace), Young Belkada (HuggingFace), Zijan Wang (Tự do), Qian Liu (Sea AI Lab), Dmitry Abulkhanov (Tự do), Indraneil Paul (Đại học Kỹ thuật Darmstadt), Zhuang Li (Đại học Monash), Wen-Ding Li (Đại học Cornell), Megan Risdal (Kaggle), Jia Li (Tự do), Jian Zhu (Đại học British Columbia), Terry Yue Zhuo (Đại học Monash + CSIRO’s Data61), Evgenii Zheltonozhskii (Technion – Viện Công nghệ Israel), Nii Osae Osae Dade (Mazzuma), Wenhao Yu (Đại học Notre Dame), Lucas Krauß (Độc lập), Naman Jain (Đại học California tại Berkeley), Yixuan Su (Cohere), Xuanli He (Đại học College London), Manan Dey (Salesforce), Edoardo Abati (Tự do), Yekun Chai (Baidu), Niklas Muennighoff (Contextual AI), Xiangru Tang (Đại học Yale), Muhtasham Oblokulov (Đại học Kỹ thuật Munich), Christopher Akiki (Đại học Leipzig + ScaDS.AI), Marc Marone (Đại học Johns Hopkins), Chenghao Mou (Tự do), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (Tự do), Tri Dao (Đại học Princeton), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (Đại học California tại San Diego), Julian McAuley (Đại học California tại San Diego), Han Hu (Đại học Monash), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Đại học Wellesley), Nicolas Chapados (ServiceNow), Mostofa Patwary (Nvidia), Nima Tajbakhsh (Nvidia), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Lingming Zhang (Đại học Illinois Urbana-Champaign), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)
Abstract
Dự án BigCode, một dự án hợp tác khoa học mở tập trung vào việc phát triển có trách nhiệm các Mô hình Ngôn ngữ Lớn cho Mã nguồn (Code LLMs), giới thiệu StarCoder2. Hợp tác với Software Heritage (SWH), chúng tôi xây dựng The Stack v2 dựa trên kho lưu trữ mã nguồn chung của họ. Bên cạnh các kho lưu trữ SWH bao gồm 619 ngôn ngữ lập trình, chúng tôi cẩn thận lựa chọn các nguồn dữ liệu chất lượng cao khác, chẳng hạn như các yêu cầu pull trên GitHub, sổ ghi chép Kaggle và tài liệu mã nguồn. Kết quả là bộ dữ liệu huấn luyện lớn gấp 4 lần so với bộ dữ liệu StarCoder đầu tiên. Chúng tôi huấn luyện các mô hình StarCoder2 với 3 tỷ, 7 tỷ và 15 tỷ tham số trên 3,3 đến 4,3 nghìn tỷ token và đánh giá chúng một cách kỹ lưỡng trên một bộ tiêu chuẩn Code LLM toàn diện. Chúng tôi nhận thấy rằng mô hình nhỏ của chúng tôi, StarCoder2-3B, vượt trội hơn các Code LLM có kích thước tương tự trên hầu hết các tiêu chuẩn đánh giá, và cũng vượt trội hơn StarCoderBase-15B. Mô hình lớn của chúng tôi, StarCoder2-15B, vượt trội đáng kể so với các mô hình có kích thước tương đương. Ngoài ra, nó ngang bằng hoặc vượt trội so với CodeLlama-34B, một mô hình có kích thước gấp hơn hai lần. Mặc dù DeepSeekCoder-33B là mô hình có hiệu suất tốt nhất trong việc hoàn thành mã cho các ngôn ngữ có tài nguyên cao, chúng tôi nhận thấy rằng StarCoder2-15B vượt trội hơn nó trên các bài kiểm tra về toán học và suy luận mã, cũng như một số ngôn ngữ có tài nguyên thấp. Chúng tôi cung cấp các trọng số mô hình theo giấy phép OpenRAIL và đảm bảo tính minh bạch hoàn toàn về dữ liệu đào tạo bằng cách công bố các mã định danh bền vững SoftWare Heritage (SWHID) của dữ liệu mã nguồn.