StarCoder：願原始碼與你同在！

Share

Author

阿琼·古哈（Roblox + 東北大學）、雷蒙德·李（ServiceNow）、盧布娜·本·阿拉爾（HuggingFace）、子陽天（東北大學）、尼克拉斯·穆尼霍夫（HuggingFace）、丹尼斯·科切特科夫（ServiceNow）、牟成浩（獨立研究員）、馬克·馬羅內（約翰霍普金斯大學）、克里斯多福·阿基基（萊比錫大學 + ScaDS.AI）、李佳（獨立研究員）、珍妮·奇姆（倫敦瑪麗女王大學）、劉倩（Sea AI Lab）、葉夫根尼·傑爾托諾日斯基（以色列理工學院）、 Terry Yue Zhuo（莫納什大學 + 澳洲聯邦科學與工業研究組織 Data61）、Thomas Wang（HuggingFace）、Olivier Dehaene（HuggingFace）、Mishig Davaadorj（HuggingFace）、Joel Lamy-Poirier（ServiceNow）、João Monteiro（ServiceNow）、奧列格·什利亞茲科（ServiceNow）、尼古拉·貢蒂耶（ServiceNow）、尼古拉斯·米德（Mila + 麥吉爾大學）、阿梅爾·澤巴澤（HuggingFace）、易明浩（東北大學）、洛格什·庫馬爾·烏馬帕蒂（Saama AI 研究實驗室）、朱健（不列顛哥倫比亞大學）、班傑明·利普金（麻省理工學院）、穆塔沙姆·奧布洛庫洛夫（慕尼黑工業大學）、王志如（卡內基梅隆大學）、魯德拉·穆爾蒂（IBM 研究）、傑森·斯蒂勒曼（佛蒙特大學）、西瓦·桑卡爾普·帕特爾（IBM 研究）、德米特里·阿布爾哈諾夫（獨立研究員）、馬可·佐卡（UnfoldML）、馬南·德伊（SAP）、張志翰（聖母大學）、努爾·法米（哥倫比亞大學）、烏爾瓦希·巴塔查里亞（Discover Dollar Pvt Ltd）、余文浩（聖母大學）、斯瓦揚·辛格（阿拉哈巴德大學）、薩沙·盧奇奧尼（HuggingFace）、保羅·維萊加斯（Telefonica I+D）、馬克西姆·庫納科夫（Toloka），費多爾·日丹諾夫（Toloka）、曼努埃爾·羅梅羅（獨立研究員）、托尼·李（史丹佛大學）、納達夫·蒂莫爾（魏茨曼科學研究所）、珍妮佛·丁（艾倫·圖靈研究所）、克萊爾·施萊辛格（東北大學）、海莉·舍爾科普夫（Eleuther AI）、揚·埃伯特（尤利希研究中心）、崔·道（史丹佛大學）、馬揚克·米什拉（IBM 研究）、亞歷克斯·顧（麻省理工學院）、珍妮佛·羅賓森（ServiceNow）、卡羅琳·珍·安德森（韋爾斯利學院）、布蘭登·多蘭-加維特（紐約大學）、丹尼什·康特拉托（獨立研究員）、西瓦·雷迪（ServiceNow + Mila）、丹尼爾·弗里德（卡內基梅隆大學）、德米特里·巴達納烏（ServiceNow）、雅辛·傑爾尼特（HuggingFace）、卡洛斯·穆尼奧斯·費蘭迪斯（HuggingFace）、肖恩·休斯（ServiceNow）、托馬斯·沃爾夫（HuggingFace）、萊安德羅·馮·韋拉（HuggingFace）、哈姆·德·弗里斯（ServiceNow）

Venue

《機器學習研究彙刊》（TMLR）2023

Abstract

BigCode 社群是一個致力於負責開發程式碼大型語言模型（Code LLMs）的開放科學合作組織，現推出 StarCoder 與 StarCoderBase：這兩款具備 155 億參數的模型，支援 8,000 字元上下文長度、內容補全能力，並透過多查詢注意力機制實現快速大批次推論。 StarCoderBase 是在 1 兆個標記的數據集上訓練而成，這些標記源自 The Stack——一個包含檢視工具與退出機制、採用寬鬆授權的龐大 GitHub 儲存庫集合。我們使用 350 億個 Python 標記對 StarCoderBase 進行微調，從而創建了 StarCoder。我們執行了迄今為止最全面的程式碼大型語言模型（Code LLMs）評估，並證明 StarCoderBase 表現優於所有支援多種程式語言的公開程式碼大型語言模型，且表現與 OpenAI 的 code-cushman-001 模型相當或更勝一籌。此外，StarCoder 表現優於所有針對 Python 微調的模型，可透過提示在 HumanEval 上達到 40% 的 pass@1 準率，同時在其他程式語言上仍能維持其表現。我們採取了多項關鍵措施以實現安全且開放存取的模型發布，包括改進個人識別資訊（PII）遮蔽流程及開發創新的歸因追蹤工具，並在採用更具商業可行性的「開放負責人工智慧模型授權（Open Responsible AI Model license）」版本下，將 StarCoder 模型公開釋出。

與我們一同塑造未來

查看所有職缺

最新

更多結果

StarCoder：願原始碼與你同在！

Author

Venue

Abstract

與我們一同塑造未來

StarCoder：願原始碼與你同在！

Author

Venue

Abstract

Related Publications

CubePart：一款開放詞彙庫且可局部控制的 3D 生成器

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

目錄原生大型語言模型：採用項目 ID 方言進行推薦，以降低干擾

與我們一同塑造未來