Author
阿琼·古哈(Roblox + 東北大學)、安東·洛日科夫(HuggingFace)、雷蒙德·李(ServiceNow)、盧布娜·本·阿拉爾(HuggingFace)、費德里科·卡薩諾(東北大學), 喬爾·拉米-波瓦里耶(ServiceNow)、努阿曼·塔齊(HuggingFace)、唐昊(Nvidia)、德米特羅·皮克塔爾(Nvidia)、劉家偉(伊利諾大學厄巴納-香檳分校)、魏玉祥(伊利諾大學厄巴納-香檳分校)、劉天陽(加州大學聖地牙哥分校)、馬克斯·田(ServiceNow)、 丹尼斯·科切特科夫(ServiceNow)、亞瑟·祖克(HuggingFace)、楊·貝爾卡達(HuggingFace)、王志堅(獨立研究員)、劉倩(Sea AI Lab)、德米特里·阿布爾哈諾夫(獨立研究員)、因德拉尼爾·保羅(達姆施塔特工業大學)、 李莊(莫納什大學)、李文定(康乃爾大學)、梅根·里斯達爾(Kaggle)、李佳(獨立研究員)、朱健(不列顛哥倫比亞大學)、朱卓(莫納什大學 + 澳洲聯邦科學與工業研究組織 Data61)、葉夫根尼·傑爾托諾日斯基(以色列理工學院), Nii Osae Osae Dade(Mazzuma)、Wenhao Yu(聖母大學)、Lucas Krauß(獨立研究員)、Naman Jain(加州大學柏克萊分校)、 蘇一軒(Cohere)、何宣利(倫敦大學學院)、馬南·戴(Salesforce)、埃多阿多·阿巴蒂(獨立研究員)、蔡益坤(百度)、尼克拉斯·穆尼霍夫(Contextual AI)、唐向茹(耶魯大學)、穆塔沙姆·奧布洛庫洛夫(慕尼黑工業大學)、克里斯托弗·阿基基 (萊比錫大學 + ScaDS.AI)、Marc Marone(約翰霍普金斯大學)、Chenghao Mou(獨立研究員)、Mayank Mishra(IBM Research)、Alex Gu(麻省理工學院)、Binyuan Hui(獨立研究員)、Tri Dao(普林斯頓大學)、Armel Zebaze(HuggingFace)、Olivier Dehaene(HuggingFace)、 尼古拉斯·帕特里(HuggingFace)、徐燦文(加州大學聖地牙哥分校)、朱利安·麥考利(加州大學聖地牙哥分校)、胡漢(莫納什大學)、托斯滕·施洛克(ServiceNow)、塞巴斯蒂安·帕奎特(ServiceNow)、珍妮佛·羅賓森(ServiceNow)、卡羅琳·珍·安德森(威爾斯利學院)、尼古拉斯·查帕多斯(ServiceNow)、 莫斯塔法·帕特瓦里(Nvidia)、尼瑪·塔吉巴克什(Nvidia)、雅辛·傑爾尼特(HuggingFace)、卡洛斯·穆尼奧斯·費蘭迪斯(HuggingFace)、張凌明(伊利諾伊大學厄巴納-香檳分校)、肖恩·休斯(ServiceNow)、托馬斯·沃爾夫(HuggingFace)、萊安德羅·馮·韋拉(HuggingFace)、哈姆·德·弗里斯 (ServiceNow)
Abstract
BigCode 專案是一項以負責任地開發程式碼大型語言模型(Code LLMs)為核心的開放科學合作計畫,現正式推出 StarCoder2。我們與 Software Heritage(SWH)合作,在其原始碼檔案庫的數位公共資源基礎上,建構了 The Stack v2。 除了涵蓋 619 種程式語言的 SWH 儲存庫外,我們還精心挑選其他高品質資料來源,例如 GitHub 拉取請求、Kaggle 筆記本以及程式碼文件。這使得訓練資料集的規模比第一版 StarCoder 資料集大了 4 倍。 我們使用 3.3 兆至 4.3 兆個詞元,訓練了參數規模分別為 30 億、70 億及 150 億的 StarCoder2 模型,並透過一套全面的程式碼大型語言模型基準測試對其進行徹底評估。 我們發現,我們的小型模型 StarCoder2-3B 在大多數基準測試中表現優於其他同等規模的程式碼大型語言模型,甚至超越了 StarCoderBase-15B。我們的大型模型 StarCoder2-15B 則顯著優於其他同等規模的模型。 此外,其表現可與規模超過自身兩倍的 CodeLlama-34B 匹敵或更勝一籌。儘管 DeepSeekCoder-33B 是針對高資源語言進行程式碼補全表現最佳的模型,但我們發現 StarCoder2-15B 在數學與程式碼推理基準測試中,以及數種低資源語言上,表現均優於前者。 我們以 OpenRAIL 授權條款公開模型權重,並透過釋出原始碼資料的 SoftWare Heritage 持久性識別碼 (SWHID),確保訓練資料的完全透明度。