本網站內容使用人工智慧(AI)或機器翻譯技術翻譯,可能存在錯誤。

Skip to content
Artificial Intelligence

SantaCoder:別好高騖遠!

Author

盧布娜·本·阿拉爾、雷蒙德·李、丹尼斯·科切特科夫、牟成浩、克里斯多福·阿基基、卡洛斯·穆尼奧斯·費蘭迪斯、尼克拉斯·穆尼霍夫、馬揚克·米什拉、亞歷克斯·顧、馬南·德伊、洛格什·庫馬爾·烏馬帕蒂、卡羅琳·珍·安德森、 子陽天、喬爾·拉米·波瓦里耶、海莉·舍爾科普夫、謝爾蓋·特羅辛、德米特里·阿布爾哈諾夫、曼努埃爾·羅梅羅、麥可·拉佩特、弗朗切斯科·德·托尼、伯納多·加西亞·德爾·里奧、劉倩、沙米克·博斯、烏爾瓦希·巴塔查里亞、特里·岳卓、 伊恩·余、保羅·維萊加斯、馬可·佐卡、蘇拉布·曼格魯爾卡、大衛·蘭斯基、胡·阮、丹尼什·康特拉托、路易斯·維拉、李佳、德米特里·巴達納烏、雅辛·傑爾尼特、肖恩·休斯、丹尼爾·弗里德、阿琼·古哈、哈姆·德·弗里斯、萊安德羅·馮·韋拉

Venue

ICLR 2023 程式碼深度學習研討會

Abstract

BigCode 專案是一項開放科學合作計畫,致力於推動程式碼大型語言模型的負責任開發。本技術報告闡述了截至 2022 年 12 月的合作進展,概述了個人可識別資訊 (PII) 遮蔽處理流程的現況、為降低模型架構風險所進行的實驗,以及針對訓練資料探索更佳預處理方法的實驗。 我們在 The Stack 的 Java、JavaScript 和 Python 子集上訓練了 11 億參數的模型,並在 MultiPL-E 文字轉程式碼基準測試上進行評估。我們發現,對近似重複資料進行更嚴格的過濾可進一步提升表現;令人意外的是,若從 GitHub 星級數達 5 顆以上的儲存庫中選取檔案,表現反而會顯著下降。 儘管我們的最佳模型規模遠小於先前開源的多語言程式碼生成模型(InCoder-6.7B 和 CodeGen-Multi-2.7B),但在 MultiPL-E 的 Java、JavaScript 和 Python 部分中,無論是從左至右的生成還是缺口填補任務,其表現均優於這些模型。所有模型均以 OpenRAIL 授權釋出,網址為此 https 連結。