Author
阿琼·古哈(Roblox + 东北大学)、雷蒙德·李(ServiceNow)、卢布娜·本·阿拉尔(HuggingFace)、子阳天(东北大学)、尼克拉斯·穆尼霍夫(HuggingFace)、丹尼斯·科切特科夫(ServiceNow)、牟成浩(独立研究员)、马克·马罗内(约翰斯·霍普金斯大学)、克里斯托弗·阿基基 (莱比锡大学 + ScaDS.AI)、李佳(独立研究员)、珍妮·钦(伦敦玛丽女王大学)、刘倩(Sea AI Lab)、叶夫根尼·杰尔托诺日斯基(以色列理工学院)、 Terry Yue Zhuo(莫纳什大学 + 澳大利亚联邦科学与工业研究组织 Data61)、Thomas Wang(HuggingFace)、Olivier Dehaene(HuggingFace)、Mishig Davaadorj(HuggingFace)、Joel Lamy-Poirier(ServiceNow)、João Monteiro(ServiceNow)、 奥列格·什利亚兹科(ServiceNow)、尼古拉斯·贡蒂耶(ServiceNow)、尼古拉斯·米德(Mila + 麦吉尔大学)、阿梅尔·泽巴泽(HuggingFace)、易明浩(东北大学)、洛格什·库马尔·乌马帕蒂(Saama AI Research Lab)、 朱健(不列颠哥伦比亚大学)、本杰明·利普金(麻省理工学院)、穆塔沙姆·奥布洛库洛夫(慕尼黑工业大学)、 王志若(卡内基梅隆大学),鲁德拉·穆尔蒂(IBM研究院),杰森·斯蒂勒曼(佛蒙特大学),西瓦·桑卡尔普·帕特尔(IBM研究院),德米特里·阿布尔哈诺夫(独立研究员),马可·佐卡(UnfoldML),马南·德伊(SAP), 张志涵(圣母大学)、努尔·法赫米(哥伦比亚大学)、乌尔瓦希·巴塔查里亚(Discover Dollar Pvt Ltd)、于文浩(圣母大学)、斯瓦扬·辛格(阿拉哈巴德大学)、萨沙·卢乔尼(HuggingFace)、保罗·维莱加斯(Telefonica I+D)、马克西姆·库纳科夫(Toloka), 费多尔·日丹诺夫(Toloka)、曼努埃尔·罗梅罗(独立研究员)、托尼·李(斯坦福大学)、纳达夫·蒂莫尔(魏茨曼科学研究所)、詹妮弗·丁(艾伦·图灵研究所)、克莱尔·施莱辛格(东北大学)、海莉·舍尔科普夫(Eleuther AI)、 扬·埃伯特(尤利希研究中心),崔·道(斯坦福大学),马扬克·米什拉(IBM研究院),亚历克斯·顾(麻省理工学院),詹妮弗·罗宾逊(ServiceNow),卡罗琳·简·安德森(韦尔斯利学院),布伦丹·多兰-加维特(纽约大学),丹尼什·康特拉托(独立研究员),西瓦·雷迪(ServiceNow + Mila), 丹尼尔·弗里德(卡内基梅隆大学)、德米特里·巴达瑙(ServiceNow)、亚辛·杰尔尼特(HuggingFace)、卡洛斯·穆尼奥斯·费兰迪斯(HuggingFace)、肖恩·休斯(ServiceNow)、托马斯·沃尔夫(HuggingFace)、莱安德罗·冯·韦拉(HuggingFace)、哈姆·德·弗里斯(ServiceNow)
Abstract
BigCode 社区是一个致力于代码大型语言模型(Code LLMs)负责任开发的开放科学协作组织,现推出 StarCoder 和 StarCoderBase:这两款 155 亿参数的模型支持 8K 上下文长度,具备内容补全能力,并通过多查询注意力机制实现了快速的大批量推理。 StarCoderBase 基于 1 万亿个令牌进行训练,这些令牌源自 The Stack——一个包含审查工具和退出机制、采用宽松许可协议的庞大 GitHub 仓库集合。我们利用 350 亿个 Python 令牌对 StarCoderBase 进行了微调,从而创建了 StarCoder。 我们进行了迄今为止最全面的代码大型语言模型(Code LLMs)评估,结果表明 StarCoderBase 不仅超越了所有支持多编程语言的开源代码大型语言模型,其表现也与 OpenAI 的 code-cushman-001 模型持平或更胜一筹。此外,StarCoder 不仅超越了所有基于 Python 微调的模型,还能通过提示实现 HumanEval 测试中 40% 的 pass@1 通过率,同时在其他编程语言上的表现依然保持稳定。 为确保安全地公开发布模型,我们采取了多项关键措施,包括改进个人身份信息(PII)脱敏管道和开发新型归因追踪工具,并根据更具商业可行性的《开放负责任人工智能模型许可协议》版本,向公众开放 StarCoder 模型。