Artificial Intelligence
SantaCoder:別好高騖遠!
Author
Venue
ICLR 2023 程式碼深度學習研討會
Abstract
BigCode 專案是一項開放科學合作計畫,致力於推動程式碼大型語言模型的負責任開發。本技術報告闡述了截至 2022 年 12 月的合作進展,概述了個人可識別資訊 (PII) 遮蔽處理流程的現況、為降低模型架構風險所進行的實驗,以及針對訓練資料探索更佳預處理方法的實驗。 我們在 The Stack 的 Java、JavaScript 和 Python 子集上訓練了 11 億參數的模型,並在 MultiPL-E 文字轉程式碼基準測試上進行評估。我們發現,對近似重複資料進行更嚴格的過濾可進一步提升表現;令人意外的是,若從 GitHub 星級數達 5 顆以上的儲存庫中選取檔案,表現反而會顯著下降。 儘管我們的最佳模型規模遠小於先前開源的多語言程式碼生成模型(InCoder-6.7B 和 CodeGen-Multi-2.7B),但在 MultiPL-E 的 Java、JavaScript 和 Python 部分中,無論是從左至右的生成還是缺口填補任務,其表現均優於這些模型。所有模型均以 OpenRAIL 授權釋出,網址為此 https 連結。
