MultiPL-E:ニューラルコード生成のベンチマークに向けたスケーラブルかつ多言語対応のアプローチ
Author
Venue
IEEE Transactions on Software Engineering (TSE) 2023
Abstract
大規模言語モデルは、自然言語とプログラミング言語の両方のテキストを生成する能力を示しています。このようなモデルは、多言語コード生成の可能性を切り開きます。コード生成モデルは、ある言語の知識を別の言語に一般化できるのでしょうか?現代のコード生成モデルは意味的に正しいPythonコードを生成できますが、他の言語に対する能力についてはほとんど知られていません。そこで我々は、ユニットテスト駆動型のコード生成ベンチマークを新しい言語へ翻訳するシステム「MultiPL-E」を提案します。 我々は、MultiPL-Eを用いて2つの一般的なPythonコード生成ベンチマークを18の追加プログラミング言語へ翻訳することで、初の大規模多言語コード生成ベンチマークを構築した。
我々はMultiPL-Eを用いて、HumanEvalベンチマークとMBPPベンチマークを、多様なプログラミングパラダイムと普及度を網羅する18の言語へと拡張した。これらの新しい並列ベンチマークを用いて、Codex、CodeGen、InCoderという3つの最先端コード生成モデルの多言語性能を評価した。その結果、Codexは他のいくつかの言語においても、Pythonでの性能と同等か、あるいはそれを上回る性能を示すことが分かった。 MultiPL-Eで網羅されるプログラミング言語の幅広さにより、言語の使用頻度や言語的特徴がモデルの性能に与える影響を調査することが可能になります。最後に、コード生成ベンチマークを新しいプログラミング言語にコンパイルするというMultiPL-Eのアプローチは、スケーラブルかつ拡張性が高く、新しいモデル、ベンチマーク、言語の評価を容易にします。
