Author
阿琼·古哈(Roblox + 東北大學)、雷蒙德·李(ServiceNow)、盧布娜·本·阿拉爾(HuggingFace)、子陽天(東北大學)、尼克拉斯·穆尼霍夫(HuggingFace)、丹尼斯·科切特科夫(ServiceNow)、牟成浩(獨立研究員)、馬克·馬羅內(約翰霍普金斯大學)、克里斯多福·阿基基 (萊比錫大學 + ScaDS.AI)、李佳(獨立研究員)、珍妮·奇姆(倫敦瑪麗女王大學)、劉倩(Sea AI Lab)、葉夫根尼·傑爾托諾日斯基(以色列理工學院)、 Terry Yue Zhuo(莫納什大學 + 澳洲聯邦科學與工業研究組織 Data61)、Thomas Wang(HuggingFace)、Olivier Dehaene(HuggingFace)、Mishig Davaadorj(HuggingFace)、Joel Lamy-Poirier(ServiceNow)、João Monteiro(ServiceNow)、 奧列格·什利亞茲科(ServiceNow)、尼古拉·貢蒂耶(ServiceNow)、尼古拉斯·米德(Mila + 麥吉爾大學)、阿梅爾·澤巴澤(HuggingFace)、易明浩(東北大學)、洛格什·庫馬爾·烏馬帕蒂(Saama AI 研究實驗室)、 朱健(不列顛哥倫比亞大學)、班傑明·利普金(麻省理工學院)、穆塔沙姆·奧布洛庫洛夫(慕尼黑工業大學)、 王志如(卡內基梅隆大學)、魯德拉·穆爾蒂(IBM 研究)、傑森·斯蒂勒曼(佛蒙特大學)、西瓦·桑卡爾普·帕特爾(IBM 研究)、德米特里·阿布爾哈諾夫(獨立研究員)、馬可·佐卡(UnfoldML)、馬南·德伊(SAP)、 張志翰(聖母大學)、努爾·法米(哥倫比亞大學)、烏爾瓦希·巴塔查里亞(Discover Dollar Pvt Ltd)、余文浩(聖母大學)、斯瓦揚·辛格(阿拉哈巴德大學)、薩沙·盧奇奧尼(HuggingFace)、保羅·維萊加斯(Telefonica I+D)、馬克西姆·庫納科夫(Toloka), 費多爾·日丹諾夫(Toloka)、曼努埃爾·羅梅羅(獨立研究員)、托尼·李(史丹佛大學)、納達夫·蒂莫爾(魏茨曼科學研究所)、珍妮佛·丁(艾倫·圖靈研究所)、克萊爾·施萊辛格(東北大學)、海莉·舍爾科普夫(Eleuther AI)、 揚·埃伯特(尤利希研究中心)、崔·道(史丹佛大學)、馬揚克·米什拉(IBM 研究)、亞歷克斯·顧(麻省理工學院)、珍妮佛·羅賓森(ServiceNow)、卡羅琳·珍·安德森(韋爾斯利學院)、布蘭登·多蘭-加維特(紐約大學)、丹尼什·康特拉托(獨立研究員)、西瓦·雷迪(ServiceNow + Mila)、 丹尼爾·弗里德(卡內基梅隆大學)、德米特里·巴達納烏(ServiceNow)、雅辛·傑爾尼特(HuggingFace)、卡洛斯·穆尼奧斯·費蘭迪斯(HuggingFace)、肖恩·休斯(ServiceNow)、托馬斯·沃爾夫(HuggingFace)、萊安德羅·馮·韋拉(HuggingFace)、哈姆·德·弗里斯(ServiceNow)
Abstract
BigCode 社群是一個致力於負責開發程式碼大型語言模型(Code LLMs)的開放科學合作組織,現推出 StarCoder 與 StarCoderBase:這兩款具備 155 億參數的模型,支援 8,000 字元上下文長度、內容補全能力,並透過多查詢注意力機制實現快速大批次推論。 StarCoderBase 是在 1 兆個標記的數據集上訓練而成,這些標記源自 The Stack——一個包含檢視工具與退出機制、採用寬鬆授權的龐大 GitHub 儲存庫集合。我們使用 350 億個 Python 標記對 StarCoderBase 進行微調,從而創建了 StarCoder。 我們執行了迄今為止最全面的程式碼大型語言模型(Code LLMs)評估,並證明 StarCoderBase 表現優於所有支援多種程式語言的公開程式碼大型語言模型,且表現與 OpenAI 的 code-cushman-001 模型相當或更勝一籌。此外,StarCoder 表現優於所有針對 Python 微調的模型,可透過提示在 HumanEval 上達到 40% 的 pass@1 準率,同時在其他程式語言上仍能維持其表現。 我們採取了多項關鍵措施以實現安全且開放存取的模型發布,包括改進個人識別資訊(PII)遮蔽流程及開發創新的歸因追蹤工具,並在採用更具商業可行性的「開放負責人工智慧模型授權(Open Responsible AI Model license)」版本下,將 StarCoder 模型公開釋出。