StarCoder 2 與 The Stack v2：次世代

Share

Author

阿琼·古哈（Roblox + 東北大學）、安東·洛日科夫（HuggingFace）、雷蒙德·李（ServiceNow）、盧布娜·本·阿拉爾（HuggingFace）、費德里科·卡薩諾（東北大學），喬爾·拉米-波瓦里耶（ServiceNow）、努阿曼·塔齊（HuggingFace）、唐昊（Nvidia）、德米特羅·皮克塔爾（Nvidia）、劉家偉（伊利諾大學厄巴納-香檳分校）、魏玉祥（伊利諾大學厄巴納-香檳分校）、劉天陽（加州大學聖地牙哥分校）、馬克斯·田（ServiceNow）、丹尼斯·科切特科夫（ServiceNow）、亞瑟·祖克（HuggingFace）、楊·貝爾卡達（HuggingFace）、王志堅（獨立研究員）、劉倩（Sea AI Lab）、德米特里·阿布爾哈諾夫（獨立研究員）、因德拉尼爾·保羅（達姆施塔特工業大學）、李莊（莫納什大學）、李文定（康乃爾大學）、梅根·里斯達爾（Kaggle）、李佳（獨立研究員）、朱健（不列顛哥倫比亞大學）、朱卓（莫納什大學 + 澳洲聯邦科學與工業研究組織 Data61）、葉夫根尼·傑爾托諾日斯基（以色列理工學院）， Nii Osae Osae Dade（Mazzuma）、Wenhao Yu（聖母大學）、Lucas Krauß（獨立研究員）、Naman Jain（加州大學柏克萊分校）、蘇一軒（Cohere）、何宣利（倫敦大學學院）、馬南·戴（Salesforce）、埃多阿多·阿巴蒂（獨立研究員）、蔡益坤（百度）、尼克拉斯·穆尼霍夫（Contextual AI）、唐向茹（耶魯大學）、穆塔沙姆·奧布洛庫洛夫（慕尼黑工業大學）、克里斯托弗·阿基基（萊比錫大學 + ScaDS.AI）、Marc Marone（約翰霍普金斯大學）、Chenghao Mou（獨立研究員）、Mayank Mishra（IBM Research）、Alex Gu（麻省理工學院）、Binyuan Hui（獨立研究員）、Tri Dao（普林斯頓大學）、Armel Zebaze（HuggingFace）、Olivier Dehaene（HuggingFace）、尼古拉斯·帕特里（HuggingFace）、徐燦文（加州大學聖地牙哥分校）、朱利安·麥考利（加州大學聖地牙哥分校）、胡漢（莫納什大學）、托斯滕·施洛克（ServiceNow）、塞巴斯蒂安·帕奎特（ServiceNow）、珍妮佛·羅賓森（ServiceNow）、卡羅琳·珍·安德森（威爾斯利學院）、尼古拉斯·查帕多斯（ServiceNow）、莫斯塔法·帕特瓦里（Nvidia）、尼瑪·塔吉巴克什（Nvidia）、雅辛·傑爾尼特（HuggingFace）、卡洛斯·穆尼奧斯·費蘭迪斯（HuggingFace）、張凌明（伊利諾伊大學厄巴納-香檳分校）、肖恩·休斯（ServiceNow）、托馬斯·沃爾夫（HuggingFace）、萊安德羅·馮·韋拉（HuggingFace）、哈姆·德·弗里斯（ServiceNow）

Venue

Abstract

BigCode 專案是一項以負責任地開發程式碼大型語言模型（Code LLMs）為核心的開放科學合作計畫，現正式推出 StarCoder2。我們與 Software Heritage（SWH）合作，在其原始碼檔案庫的數位公共資源基礎上，建構了 The Stack v2。除了涵蓋 619 種程式語言的 SWH 儲存庫外，我們還精心挑選其他高品質資料來源，例如 GitHub 拉取請求、Kaggle 筆記本以及程式碼文件。這使得訓練資料集的規模比第一版 StarCoder 資料集大了 4 倍。我們使用 3.3 兆至 4.3 兆個詞元，訓練了參數規模分別為 30 億、70 億及 150 億的 StarCoder2 模型，並透過一套全面的程式碼大型語言模型基準測試對其進行徹底評估。我們發現，我們的小型模型 StarCoder2-3B 在大多數基準測試中表現優於其他同等規模的程式碼大型語言模型，甚至超越了 StarCoderBase-15B。我們的大型模型 StarCoder2-15B 則顯著優於其他同等規模的模型。此外，其表現可與規模超過自身兩倍的 CodeLlama-34B 匹敵或更勝一籌。儘管 DeepSeekCoder-33B 是針對高資源語言進行程式碼補全表現最佳的模型，但我們發現 StarCoder2-15B 在數學與程式碼推理基準測試中，以及數種低資源語言上，表現均優於前者。我們以 OpenRAIL 授權條款公開模型權重，並透過釋出原始碼資料的 SoftWare Heritage 持久性識別碼 (SWHID)，確保訓練資料的完全透明度。

與我們一同塑造未來

查看所有職缺

最新

更多結果

StarCoder 2 與 The Stack v2：次世代

Author

Venue

Abstract

與我們一同塑造未來

StarCoder 2 與 The Stack v2：次世代

Author

Venue

Abstract

Related Publications

CubePart：一款開放詞彙庫且可局部控制的 3D 生成器

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

目錄原生大型語言模型：採用項目 ID 方言進行推薦，以降低干擾

與我們一同塑造未來