StarCoder 2 与 The Stack v2：新一代

Share

Author

阿琼·古哈（Roblox + 东北大学）、安东·洛兹科夫（HuggingFace）、雷蒙德·李（ServiceNow）、卢布娜·本·阿拉尔（HuggingFace）、费德里科·卡萨诺（东北大学），乔尔·拉米-普瓦里耶（ServiceNow）、努阿曼·塔齐（HuggingFace）、唐昊（英伟达）、德米特罗·皮克塔尔（英伟达）、刘家伟（伊利诺伊大学厄巴纳-香槟分校）、魏玉祥（伊利诺伊大学厄巴纳-香槟分校）、刘天阳（加州大学圣地亚哥分校）、Max Tian（ServiceNow）、丹尼斯·科切特科夫（ServiceNow）、亚瑟·祖克（HuggingFace）、杨·贝尔卡达（HuggingFace）、王志坚（独立研究员）、刘倩（Sea AI Lab）、德米特里·阿布尔哈诺夫（独立研究员）、因德拉尼尔·保罗（达姆施塔特工业大学）、李壮（莫纳什大学）、李文丁（康奈尔大学）、梅根·里斯达尔（Kaggle）、李佳（独立研究员）、朱健（不列颠哥伦比亚大学）、朱卓（莫纳什大学 + 澳大利亚联邦科学与工业研究组织 Data61）、叶夫根尼·杰尔托诺日斯基（以色列理工学院）， Nii Osae Osae Dade（Mazzuma）、Wenhao Yu（圣母大学）、Lucas Krauß（独立研究员）、Naman Jain（加州大学伯克利分校）、苏一轩（Cohere）、何轩丽（伦敦大学学院）、马南·戴（Salesforce）、埃多阿多·阿巴蒂（独立研究员）、蔡叶坤（百度）、尼克拉斯·穆尼霍夫（Contextual AI）、唐向如（耶鲁大学）、穆塔沙姆·奥布洛库洛夫（慕尼黑工业大学）、克里斯托弗·阿基基（莱比锡大学 + ScaDS.AI）、Marc Marone（约翰霍普金斯大学）、Chenghao Mou（独立研究员）、Mayank Mishra（IBM研究院）、Alex Gu（麻省理工学院）、Binyuan Hui（独立研究员）、Tri Dao（普林斯顿大学）、Armel Zebaze（HuggingFace）、Olivier Dehaene（HuggingFace）、尼古拉斯·帕特里（HuggingFace）、徐灿文（加州大学圣地亚哥分校）、朱利安·麦考利（加州大学圣地亚哥分校）、胡汉（莫纳什大学）、托斯滕·肖拉克（ServiceNow）、塞巴斯蒂安·帕凯（ServiceNow）、詹妮弗·罗宾逊（ServiceNow）、卡罗琳·简·安德森（韦尔斯利学院）、尼古拉斯·查帕多斯（ServiceNow）、莫斯托法·帕特瓦里（英伟达），尼玛·塔杰巴赫什（英伟达），亚辛·杰尔尼特（HuggingFace），卡洛斯·穆尼奥斯·费兰迪斯（HuggingFace），张凌明（伊利诺伊大学厄巴纳-香槟分校），肖恩·休斯（ServiceNow），托马斯·沃尔夫（HuggingFace），莱安德罗·冯·韦拉（HuggingFace），哈姆·德·弗里斯（ServiceNow）

Venue

Abstract

BigCode 项目是一项致力于代码大型语言模型（Code LLMs）负责任开发的开放科学合作项目，现推出 StarCoder2。我们与 Software Heritage（SWH）合作，在其源代码档案库的数字公共资源基础上构建了 The Stack v2。除涵盖 619 种编程语言的 SWH 代码库外，我们还精心筛选了其他高质量数据源，例如 GitHub 拉取请求、Kaggle 笔记本和代码文档。由此构建的训练集规模是首个 StarCoder 数据集的 4 倍。我们使用3.3万亿至4.3万亿个令牌训练了参数规模分别为30亿、70亿和150亿的StarCoder2模型，并在全面的代码大语言模型基准测试集上对其进行了彻底评估。我们发现，我们的小型模型 StarCoder2-3B 在大多数基准测试中都优于其他同等规模的代码大语言模型，甚至超越了 StarCoderBase-15B。而我们的大型模型 StarCoder2-15B 则显著优于其他同等规模的模型。此外，它在性能上与规模超过其两倍的 CodeLlama-34B 持平或更胜一筹。尽管 DeepSeekCoder-33B 是高资源语言代码补全任务中表现最佳的模型，但我们发现 StarCoder2-15B 在数学和代码推理基准测试中，以及在多种低资源语言上均表现优于它。我们通过 OpenRAIL 许可证公开了模型权重，并通过发布源代码数据的 SoftWare Heritage 持久标识符 (SWHID)，确保了训练数据的完全透明度。

加入我们，共同塑造未来

查看所有职位

最新

更多结果

StarCoder 2 与 The Stack v2：新一代

Author

Venue

Abstract

加入我们，共同塑造未来

StarCoder 2 与 The Stack v2：新一代

Author

Venue

Abstract

Related Publications

CubePart：一款开放词汇表、可控部件的3D生成器

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

目录原生大语言模型：采用低纠缠的“项目ID方言”进行推荐

加入我们，共同塑造未来