Artificial Intelligence
SantaCoder:星を目指さないで!
Author
Venue
ICLR Deep Learning for Code Workshop 2023
Abstract
BigCodeプロジェクトは、コード向け大規模言語モデルの責任ある開発に取り組むオープンサイエンティフィックな共同研究プロジェクトです。本技術レポートでは、2022年12月時点までの共同研究の進捗状況を説明し、個人識別情報(PII)のマスキングパイプラインの現状、モデルアーキテクチャのリスク低減のために実施された実験、およびトレーニングデータに対するより優れた前処理手法を調査した実験の概要を概説します。 我々は、The StackのJava、JavaScript、Pythonのサブセットを用いて11億パラメータのモデルを学習させ、MultiPL-Eテキストからコードへの生成ベンチマークで評価を行いました。その結果、近似重複データのより徹底的なフィルタリングによって性能をさらに向上させることができること、そして意外なことに、GitHubスターが5つ以上のリポジトリからファイルを選択すると性能が著しく低下することが判明しました。 我々の最良のモデルは、規模が大幅に小さいにもかかわらず、MultiPL-EのJava、JavaScript、Pythonの各パートにおいて、左から右への生成およびインフィリングの両方で、既存のオープンソース多言語コード生成モデル(InCoder-6.7BおよびCodeGen-Multi-2.7B)を上回る性能を示した。すべてのモデルは、このhttps URLにてOpenRAILライセンスの下で公開されている。
