Author
アルジュン・グハ(Roblox + ノースイースタン大学)、アントン・ロシュコフ(HuggingFace)、レイモンド・リー(ServiceNow)、ルブナ・ベン・アラール(HuggingFace)、フェデリコ・カッサーノ(ノースイースタン大学)、 ジョエル・ラミー=ポワリエ(ServiceNow)、ヌアマン・タジ(HuggingFace)、アオ・タン(Nvidia)、ドミトロ・ピクタル(Nvidia)、ジアウェイ・リウ(イリノイ大学アーバナ・シャンペーン校)、ユシャン・ウェイ(イリノイ大学アーバナ・シャンペーン校)、ティアンヤン・リウ(カリフォルニア大学サンディエゴ校)、マックス・ティアン(ServiceNow)、 デニス・コチェトコフ(ServiceNow)、アーサー・ザッカー(HuggingFace)、ヤング・ベルカダ(HuggingFace)、ジジャン・ワン(個人)、チエン・リウ(Sea AI Lab)、ドミトリー・アブルハノフ(個人)、インドラニール・ポール(ダルムシュタット工科大学)、 リ・ジュアン(モナシュ大学)、リ・ウェンディン(コーネル大学)、メーガン・リスダル(Kaggle)、リ・ジア(個人)、ジュ・ジアン(ブリティッシュコロンビア大学)、テリー・ユエ・ジュオ(モナシュ大学 + CSIROのData61)、エフゲニー・ジェルトノジスキー(テクニオン – イスラエル工科大学)、 ニイ・オサエ・オサエ・デイド(Mazzuma)、ウェンハオ・ユー(ノートルダム大学)、ルーカス・クラウス(個人)、ナマン・ジェイン(カリフォルニア大学バークレー校)、 スー・イーシュアン(Cohere)、ヘ・シュアンリ(ユニバーシティ・カレッジ・ロンドン)、マナン・デイ(セールスフォース)、エドアルド・アバティ(個人)、チャイ・イェクン(バイドゥ)、ニクラス・ミュンニホフ(Contextual AI)、タン・シャンルー(イェール大学)、ムフタシャム・オブロクロフ(ミュンヘン工科大学)、クリストファー・アキキ (ライプツィヒ大学 + ScaDS.AI)、Marc Marone(ジョンズ・ホプキンス大学)、Chenghao Mou(個人研究)、Mayank Mishra(IBM Research)、Alex Gu(MIT)、Binyuan Hui(個人研究)、Tri Dao(プリンストン大学)、Armel Zebaze(HuggingFace)、Olivier Dehaene(HuggingFace)、 ニコラス・パトリー(HuggingFace)、カンウェン・シュウ(カリフォルニア大学サンディエゴ校)、ジュリアン・マコーリー(カリフォルニア大学サンディエゴ校)、ハン・フー(モナシュ大学)、トルステン・ショラック(ServiceNow)、セバスチャン・パケ(ServiceNow)、ジェニファー・ロビンソン(ServiceNow)、キャロリン・ジェーン・アンダーソン(ウェルズリー大学)、ニコラス・チャパドス(ServiceNow)、 モストファ・パトワリー(Nvidia)、ニマ・タジバクシュ(Nvidia)、ヤシン・ジェルニテ(HuggingFace)、カルロス・ムニョス・フェランディス(HuggingFace)、リンミン・チャン(イリノイ大学アーバナ・シャンペーン校)、ショーン・ヒューズ(ServiceNow)、トーマス・ウルフ(HuggingFace)、レアンドロ・フォン・ヴェラ(HuggingFace)、ハーム・デ・フリース (ServiceNow)
Abstract
コード用大規模言語モデル(Code LLM)の責任ある開発に焦点を当てたオープンサイエンティフィック・コラボレーションであるBigCodeプロジェクトは、StarCoder2を発表します。Software Heritage(SWH)との提携により、同社のソースコードアーカイブというデジタル・コモンズを基盤として、The Stack v2を構築しています。 619のプログラミング言語を網羅するSWHのリポジトリに加え、GitHubのプルリクエスト、Kaggleのノートブック、コードドキュメントなど、他の高品質なデータソースを慎重に選定しました。その結果、最初のStarCoderデータセットの4倍の規模となるトレーニングセットが構築されました。 私たちは、30億、70億、150億パラメータを持つStarCoder2モデルを3.3兆から4.3兆トークンで学習させ、包括的なCode LLMベンチマークセットを用いて徹底的に評価しました。 その結果、小型モデルであるStarCoder2-3Bは、ほとんどのベンチマークにおいて同規模の他のコードLLMを上回る性能を示し、StarCoderBase-15Bをも凌駕することが判明しました。また、大型モデルであるStarCoder2-15Bは、同規模の他のモデルを大幅に上回る性能を発揮します。 さらに、本モデルは自身の2倍以上の規模を持つモデルであるCodeLlama-34Bと同等か、それ以上の性能を示しています。リソース要求の高い言語におけるコード補完性能ではDeepSeekCoder-33Bが最優秀ですが、数学およびコード推論のベンチマーク、ならびにいくつかのリソース要求の低い言語においては、StarCoder2-15Bがこれを上回ることが判明しました。 本モデルの重みデータはOpenRAILライセンスの下で公開しており、ソースコードデータのSoftWare Heritage永続識別子(SWHID)を公開することで、トレーニングデータに関する完全な透明性を確保しています。