このサイトのコンテンツは、人工知能(AI)または機械翻訳技術を使用して翻訳されており、誤りが含まれている場合があります。

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

MultiPL-E:ニューラルコード生成のベンチマークに向けたスケーラブルかつ多言語対応のアプローチ

View Publication

Author

フェデリコ・カッサーノ(ノースイースタン大学)、ジョン・グワー(ノースイースタン大学)、ダニエル・グエン(ハノーバー高校)、シドニー・グエン(ウェルズリー大学)、ルナ・フィップス=コスティン(ノースイースタン大学)、ドナルド・ピンキー(ノースイースタン大学)、ミン・ホー・イー(ノースイースタン大学)、 ヤンティアン・ジー(ノースイースタン大学)、キャロリン・ジェーン・アンダーソン(ウェルズリー大学)、モリー・Q・フェルドマン(オベリン大学)、アルジュン・グハ(Roblox + ノースイースタン大学)、マイケル・グリーンバーグ(スティーブンス工科大学)、アビナブ・ジャンダ(マイクロソフト)

Venue

IEEE Transactions on Software Engineering (TSE) 2023

Abstract

大規模言語モデルは、自然言語とプログラミング言語の両方のテキストを生成する能力を示しています。このようなモデルは、多言語コード生成の可能性を切り開きます。コード生成モデルは、ある言語の知識を別の言語に一般化できるのでしょうか?現代のコード生成モデルは意味的に正しいPythonコードを生成できますが、他の言語に対する能力についてはほとんど知られていません。そこで我々は、ユニットテスト駆動型のコード生成ベンチマークを新しい言語へ翻訳するシステム「MultiPL-E」を提案します。 我々は、MultiPL-Eを用いて2つの一般的なPythonコード生成ベンチマークを18の追加プログラミング言語へ翻訳することで、初の大規模多言語コード生成ベンチマークを構築した。


我々はMultiPL-Eを用いて、HumanEvalベンチマークとMBPPベンチマークを、多様なプログラミングパラダイムと普及度を網羅する18の言語へと拡張した。これらの新しい並列ベンチマークを用いて、Codex、CodeGen、InCoderという3つの最先端コード生成モデルの多言語性能を評価した。その結果、Codexは他のいくつかの言語においても、Pythonでの性能と同等か、あるいはそれを上回る性能を示すことが分かった。 MultiPL-Eで網羅されるプログラミング言語の幅広さにより、言語の使用頻度や言語的特徴がモデルの性能に与える影響を調査することが可能になります。最後に、コード生成ベンチマークを新しいプログラミング言語にコンパイルするというMultiPL-Eのアプローチは、スケーラブルかつ拡張性が高く、新しいモデル、ベンチマーク、言語の評価を容易にします。