このサイトのコンテンツは、人工知能(AI)または機械翻訳技術を使用して翻訳されており、誤りが含まれている場合があります。

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder:ソースがあなたと共にありますように!

View Publication

Author

Arjun Guha(Roblox + ノースイースタン大学)、Raymond Li(ServiceNow)、Loubna Ben Allal(HuggingFace)、Yangtian Zi(ノースイースタン大学)、Niklas Muennighoff(HuggingFace)、Denis Kocetkov(ServiceNow)、Chenghao Mou(独立研究者)、Marc Marone(ジョンズ・ホプキンス大学)、Christopher Akiki (ライプツィヒ大学 + ScaDS.AI)、Jia Li(独立研究者)、Jenny Chim(ロンドン大学クイーン・メアリー校)、Qian Liu(Sea AI Lab)、Evgenii Zheltonozhskii(テクニオン – イスラエル工科大学)、 テリー・ユエ・ジュオ(モナシュ大学 + CSIROのData61)、トーマス・ワン(HuggingFace)、オリヴィエ・デハーン(HuggingFace)、ミシグ・ダヴァアドルジ(HuggingFace)、ジョエル・ラミー=ポワリエ(ServiceNow)、ジョアン・モンテイロ(ServiceNow)、 オレグ・シュリアシュコ(ServiceNow)、ニコラス・ゴンティエ(ServiceNow)、ニコラス・ミード(Mila + マギル大学)、アルメル・ゼバゼ(HuggingFace)、ミン・ホー・イー(ノースイースタン大学)、ロゲシュ・クマール・ウマパティ(Saama AI Research Lab)、 Jian Zhu(ブリティッシュコロンビア大学)、Benjamin Lipkin(MIT)、Muhtasham Oblokulov(ミュンヘン工科大学)、 Zhiruo Wang(カーネギーメロン大学)、Rudra Murthy(IBM Research)、Jason Stillerman(バーモント大学)、Siva Sankalp Patel(IBM Research)、Dmitry Abulkhanov(独立研究者)、Marco Zocca(UnfoldML)、Manan Dey(SAP)、 Zhihan Zhang(ノートルダム大学)、Nour Fahmy(コロンビア大学)、Urvashi Bhattacharyya(Discover Dollar Pvt Ltd)、Wenhao Yu(ノートルダム大学)、Swayam Singh(アラハバード大学)、Sasha Luccioni(HuggingFace)、Paulo Villegas(Telefonica I+D)、Maxim Kunakov(Toloka)、 フェドール・ジダノフ(Toloka)、マヌエル・ロメロ(独立研究者)、トニー・リー(スタンフォード大学)、ナダヴ・ティモール(ワイツマン科学研究所)、ジェニファー・ディン(アラン・チューリング研究所)、クレア・シュレジンジャー(ノースイースタン大学)、ヘイリー・シェルコフ(Eleuther AI)、 ヤン・エバート(ユーリッヒ研究センター)、トリ・ダオ(スタンフォード大学)、マヤンク・ミシュラ(IBMリサーチ)、アレックス・グー(MIT)、ジェニファー・ロビンソン(ServiceNow)、キャロリン・ジェーン・アンダーソン(ウェルズリー大学)、ブレンダン・ドラン=ガヴィット(NYU)、ダニッシュ・コントラクター(独立研究者)、シヴァ・レディ(ServiceNow + Mila)、 ダニエル・フリード(カーネギーメロン大学)、ドミトリー・バダナウ(ServiceNow)、ヤシン・ジャーナイト(HuggingFace)、カルロス・ムニョス・フェランディス(HuggingFace)、ショーン・ヒューズ(ServiceNow)、トーマス・ウルフ(HuggingFace)、レアンドロ・フォン・ヴェラ(HuggingFace)、ハーム・デ・フリース(ServiceNow)

Venue

『Transactions on Machine Learning Research (TMLR)』2023年

Abstract

コード用大規模言語モデル(Code LLM)の責任ある開発に取り組むオープンサイエンティフィック・コラボレーションであるBigCodeコミュニティは、StarCoderおよびStarCoderBaseを発表しました。これらは、8Kのコンテキスト長、インフィル機能、そしてマルチクエリアテンションによって実現された高速な大規模バッチ推論を備えた、155億パラメータのモデルです。 StarCoderBaseは、検査ツールとオプトアウトプロセスを備えた、許容的なライセンスの下で公開されているGitHubリポジトリの大規模コレクション「The Stack」から収集した1兆トークンで学習されています。私たちはStarCoderBaseを350億のPythonトークンで微調整し、その結果としてStarCoderを生み出しました。 我々は、コードLLMに対してこれまでで最も包括的な評価を実施し、StarCoderBaseが複数のプログラミング言語をサポートするすべてのオープンソースコードLLMを上回り、OpenAIのcode-cushman-001モデルと同等かそれ以上の性能を発揮することを示しました。さらに、StarCoderはPythonで微調整されたすべてのモデルを上回り、HumanEvalで40%のpass@1を達成するようプロンプト設定が可能であり、他のプログラミング言語においてもその性能を維持しています。 我々は、安全なオープンアクセスモデル公開に向けて、PII(個人識別情報)のマスキングパイプラインの改善や独自の帰属追跡ツールなど、いくつかの重要な措置を講じ、StarCoderモデルを、より商業的に実用性の高いOpen Responsible AI Modelライセンスの下で公開しています。