StarCoder 2 と The Stack v2：次世代

Share

Author

アルジュン・グハ（Roblox + ノースイースタン大学）、アントン・ロシュコフ（HuggingFace）、レイモンド・リー（ServiceNow）、ルブナ・ベン・アラール（HuggingFace）、フェデリコ・カッサーノ（ノースイースタン大学）、ジョエル・ラミー＝ポワリエ（ServiceNow）、ヌアマン・タジ（HuggingFace）、アオ・タン（Nvidia）、ドミトロ・ピクタル（Nvidia）、ジアウェイ・リウ（イリノイ大学アーバナ・シャンペーン校）、ユシャン・ウェイ（イリノイ大学アーバナ・シャンペーン校）、ティアンヤン・リウ（カリフォルニア大学サンディエゴ校）、マックス・ティアン（ServiceNow）、デニス・コチェトコフ（ServiceNow）、アーサー・ザッカー（HuggingFace）、ヤング・ベルカダ（HuggingFace）、ジジャン・ワン（個人）、チエン・リウ（Sea AI Lab）、ドミトリー・アブルハノフ（個人）、インドラニール・ポール（ダルムシュタット工科大学）、リ・ジュアン（モナシュ大学）、リ・ウェンディン（コーネル大学）、メーガン・リスダル（Kaggle）、リ・ジア（個人）、ジュ・ジアン（ブリティッシュコロンビア大学）、テリー・ユエ・ジュオ（モナシュ大学 + CSIROのData61）、エフゲニー・ジェルトノジスキー（テクニオン – イスラエル工科大学）、ニイ・オサエ・オサエ・デイド（Mazzuma）、ウェンハオ・ユー（ノートルダム大学）、ルーカス・クラウス（個人）、ナマン・ジェイン（カリフォルニア大学バークレー校）、スー・イーシュアン（Cohere）、ヘ・シュアンリ（ユニバーシティ・カレッジ・ロンドン）、マナン・デイ（セールスフォース）、エドアルド・アバティ（個人）、チャイ・イェクン（バイドゥ）、ニクラス・ミュンニホフ（Contextual AI）、タン・シャンルー（イェール大学）、ムフタシャム・オブロクロフ（ミュンヘン工科大学）、クリストファー・アキキ（ライプツィヒ大学 + ScaDS.AI）、Marc Marone（ジョンズ・ホプキンス大学）、Chenghao Mou（個人研究）、Mayank Mishra（IBM Research）、Alex Gu（MIT）、Binyuan Hui（個人研究）、Tri Dao（プリンストン大学）、Armel Zebaze（HuggingFace）、Olivier Dehaene（HuggingFace）、ニコラス・パトリー（HuggingFace）、カンウェン・シュウ（カリフォルニア大学サンディエゴ校）、ジュリアン・マコーリー（カリフォルニア大学サンディエゴ校）、ハン・フー（モナシュ大学）、トルステン・ショラック（ServiceNow）、セバスチャン・パケ（ServiceNow）、ジェニファー・ロビンソン（ServiceNow）、キャロリン・ジェーン・アンダーソン（ウェルズリー大学）、ニコラス・チャパドス（ServiceNow）、モストファ・パトワリー（Nvidia）、ニマ・タジバクシュ（Nvidia）、ヤシン・ジェルニテ（HuggingFace）、カルロス・ムニョス・フェランディス（HuggingFace）、リンミン・チャン（イリノイ大学アーバナ・シャンペーン校）、ショーン・ヒューズ（ServiceNow）、トーマス・ウルフ（HuggingFace）、レアンドロ・フォン・ヴェラ（HuggingFace）、ハーム・デ・フリース（ServiceNow）

Venue

Abstract

コード用大規模言語モデル（Code LLM）の責任ある開発に焦点を当てたオープンサイエンティフィック・コラボレーションであるBigCodeプロジェクトは、StarCoder2を発表します。Software Heritage（SWH）との提携により、同社のソースコードアーカイブというデジタル・コモンズを基盤として、The Stack v2を構築しています。 619のプログラミング言語を網羅するSWHのリポジトリに加え、GitHubのプルリクエスト、Kaggleのノートブック、コードドキュメントなど、他の高品質なデータソースを慎重に選定しました。その結果、最初のStarCoderデータセットの4倍の規模となるトレーニングセットが構築されました。私たちは、30億、70億、150億パラメータを持つStarCoder2モデルを3.3兆から4.3兆トークンで学習させ、包括的なCode LLMベンチマークセットを用いて徹底的に評価しました。その結果、小型モデルであるStarCoder2-3Bは、ほとんどのベンチマークにおいて同規模の他のコードLLMを上回る性能を示し、StarCoderBase-15Bをも凌駕することが判明しました。また、大型モデルであるStarCoder2-15Bは、同規模の他のモデルを大幅に上回る性能を発揮します。さらに、本モデルは自身の2倍以上の規模を持つモデルであるCodeLlama-34Bと同等か、それ以上の性能を示しています。リソース要求の高い言語におけるコード補完性能ではDeepSeekCoder-33Bが最優秀ですが、数学およびコード推論のベンチマーク、ならびにいくつかのリソース要求の低い言語においては、StarCoder2-15Bがこれを上回ることが判明しました。本モデルの重みデータはOpenRAILライセンスの下で公開しており、ソースコードデータのSoftWare Heritage永続識別子（SWHID）を公開することで、トレーニングデータに関する完全な透明性を確保しています。

함께 미래를 만들어 갑시다

모든 채용 정보 보기

最新

その他の結果

StarCoder 2 と The Stack v2：次世代

Author

Venue

Abstract

함께 미래를 만들어 갑시다

StarCoder 2 と The Stack v2：次世代

Author

Venue

Abstract

Related Publications

CubePart：オープンボキャブラリー対応のパーツ制御型3Dジェネレーター

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

カタログネイティブLLM：レコメンデーションのための、アイテムIDの方言を、より少ない絡み合いを用いて話す

함께 미래를 만들어 갑시다