本网站内容使用人工智能(AI)或机器翻译技术翻译,可能存在错误。

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder 2 与 The Stack v2:新一代

View Publication

Author

阿琼·古哈(Roblox + 东北大学)、安东·洛兹科夫(HuggingFace)、雷蒙德·李(ServiceNow)、卢布娜·本·阿拉尔(HuggingFace)、费德里科·卡萨诺(东北大学), 乔尔·拉米-普瓦里耶(ServiceNow)、努阿曼·塔齐(HuggingFace)、唐昊(英伟达)、德米特罗·皮克塔尔(英伟达)、刘家伟(伊利诺伊大学厄巴纳-香槟分校)、魏玉祥(伊利诺伊大学厄巴纳-香槟分校)、刘天阳(加州大学圣地亚哥分校)、Max Tian(ServiceNow)、 丹尼斯·科切特科夫(ServiceNow)、亚瑟·祖克(HuggingFace)、杨·贝尔卡达(HuggingFace)、王志坚(独立研究员)、刘倩(Sea AI Lab)、德米特里·阿布尔哈诺夫(独立研究员)、因德拉尼尔·保罗(达姆施塔特工业大学)、 李壮(莫纳什大学)、李文丁(康奈尔大学)、梅根·里斯达尔(Kaggle)、李佳(独立研究员)、朱健(不列颠哥伦比亚大学)、朱卓(莫纳什大学 + 澳大利亚联邦科学与工业研究组织 Data61)、叶夫根尼·杰尔托诺日斯基(以色列理工学院), Nii Osae Osae Dade(Mazzuma)、Wenhao Yu(圣母大学)、Lucas Krauß(独立研究员)、Naman Jain(加州大学伯克利分校)、 苏一轩(Cohere)、何轩丽(伦敦大学学院)、马南·戴(Salesforce)、埃多阿多·阿巴蒂(独立研究员)、蔡叶坤(百度)、尼克拉斯·穆尼霍夫(Contextual AI)、唐向如(耶鲁大学)、穆塔沙姆·奥布洛库洛夫(慕尼黑工业大学)、克里斯托弗·阿基基 (莱比锡大学 + ScaDS.AI)、Marc Marone(约翰霍普金斯大学)、Chenghao Mou(独立研究员)、Mayank Mishra(IBM研究院)、Alex Gu(麻省理工学院)、Binyuan Hui(独立研究员)、Tri Dao(普林斯顿大学)、Armel Zebaze(HuggingFace)、Olivier Dehaene(HuggingFace)、 尼古拉斯·帕特里(HuggingFace)、徐灿文(加州大学圣地亚哥分校)、朱利安·麦考利(加州大学圣地亚哥分校)、胡汉(莫纳什大学)、托斯滕·肖拉克(ServiceNow)、塞巴斯蒂安·帕凯(ServiceNow)、詹妮弗·罗宾逊(ServiceNow)、卡罗琳·简·安德森(韦尔斯利学院)、尼古拉斯·查帕多斯(ServiceNow)、 莫斯托法·帕特瓦里(英伟达),尼玛·塔杰巴赫什(英伟达),亚辛·杰尔尼特(HuggingFace),卡洛斯·穆尼奥斯·费兰迪斯(HuggingFace),张凌明(伊利诺伊大学厄巴纳-香槟分校),肖恩·休斯(ServiceNow),托马斯·沃尔夫(HuggingFace),莱安德罗·冯·韦拉(HuggingFace),哈姆·德·弗里斯 (ServiceNow)

Venue

Abstract

BigCode 项目是一项致力于代码大型语言模型(Code LLMs)负责任开发的开放科学合作项目,现推出 StarCoder2。我们与 Software Heritage(SWH)合作,在其源代码档案库的数字公共资源基础上构建了 The Stack v2。 除涵盖 619 种编程语言的 SWH 代码库外,我们还精心筛选了其他高质量数据源,例如 GitHub 拉取请求、Kaggle 笔记本和代码文档。由此构建的训练集规模是首个 StarCoder 数据集的 4 倍。 我们使用3.3万亿至4.3万亿个令牌训练了参数规模分别为30亿、70亿和150亿的StarCoder2模型,并在全面的代码大语言模型基准测试集上对其进行了彻底评估。 我们发现,我们的小型模型 StarCoder2-3B 在大多数基准测试中都优于其他同等规模的代码大语言模型,甚至超越了 StarCoderBase-15B。而我们的大型模型 StarCoder2-15B 则显著优于其他同等规模的模型。 此外,它在性能上与规模超过其两倍的 CodeLlama-34B 持平或更胜一筹。尽管 DeepSeekCoder-33B 是高资源语言代码补全任务中表现最佳的模型,但我们发现 StarCoder2-15B 在数学和代码推理基准测试中,以及在多种低资源语言上均表现优于它。 我们通过 OpenRAIL 许可证公开了模型权重,并通过发布源代码数据的 SoftWare Heritage 持久标识符 (SWHID),确保了训练数据的完全透明度。