このサイトのコンテンツは、人工知能(AI)または機械翻訳技術を使用して翻訳されており、誤りが含まれている場合があります。

Skip to content
Artificial Intelligence

SantaCoder:星を目指さないで!

Author

ルーブナ・ベン・アラール、レイモンド・リー、デニス・コチェトコフ、チェンハオ・モウ、クリストファー・アキキ、カルロス・ムニョス・フェランディス、ニクラス・ミュンニホフ、マヤンク・ミシュラ、アレックス・グー、マナン・デイ、ロゲシュ・クマール・ウマパティ、キャロリン・ジェーン・アンダーソン、 ヤンティアン・ズー、ジョエル・ラミー・ポワリエ、ヘイリー・シェルコフ、セルゲイ・トロシン、ドミトリー・アブルハノフ、マヌエル・ロメロ、マイケル・ラパート、フランチェスコ・デ・トニ、ベルナルド・ガルシア・デル・リオ、チエン・リウ、シャミック・ボース、ウルヴァシ・バタチャリヤ、テリー・ユエ・ジュオ、 イアン・ユー、パウロ・ヴィレガス、マルコ・ゾッカ、ソウラブ・マングルカル、デビッド・ランスキー、フー・グエン、ダニッシュ・コントラクター、ルイス・ヴィラ、ジア・リー、ドミトリー・バダナウ、ヤシン・ジェルニテ、ショーン・ヒューズ、ダニエル・フリード、アルジュン・グハ、ハーム・デ・フリース、レアンドロ・フォン・ヴェラ

Venue

ICLR Deep Learning for Code Workshop 2023

Abstract

BigCodeプロジェクトは、コード向け大規模言語モデルの責任ある開発に取り組むオープンサイエンティフィックな共同研究プロジェクトです。本技術レポートでは、2022年12月時点までの共同研究の進捗状況を説明し、個人識別情報(PII)のマスキングパイプラインの現状、モデルアーキテクチャのリスク低減のために実施された実験、およびトレーニングデータに対するより優れた前処理手法を調査した実験の概要を概説します。 我々は、The StackのJava、JavaScript、Pythonのサブセットを用いて11億パラメータのモデルを学習させ、MultiPL-Eテキストからコードへの生成ベンチマークで評価を行いました。その結果、近似重複データのより徹底的なフィルタリングによって性能をさらに向上させることができること、そして意外なことに、GitHubスターが5つ以上のリポジトリからファイルを選択すると性能が著しく低下することが判明しました。 我々の最良のモデルは、規模が大幅に小さいにもかかわらず、MultiPL-EのJava、JavaScript、Pythonの各パートにおいて、左から右への生成およびインフィリングの両方で、既存のオープンソース多言語コード生成モデル(InCoder-6.7BおよびCodeGen-Multi-2.7B)を上回る性能を示した。すべてのモデルは、このhttps URLにてOpenRAILライセンスの下で公開されている。