MultiPL-E：一种用于神经网络代码生成基准测试的可扩展且支持多种语言的方法

Share

Author

费德里科·卡萨诺（东北大学）、约翰·古瓦尔（东北大学）、丹尼尔·阮（汉诺威高中）、悉尼·阮（韦尔斯利学院）、卢娜·菲普斯-科斯汀（东北大学）、唐纳德·平克尼（东北大学）、明浩·伊（东北大学），子阳天（东北大学）、卡罗琳·简·安德森（韦尔斯利学院）、莫莉·Q·费尔德曼（奥伯林学院）、阿琼·古哈（Roblox + 东北大学）、迈克尔·格林伯格（史蒂文斯理工学院）、阿比纳夫·詹达（微软）

Venue

《IEEE软件工程汇刊》（TSE）2023

Abstract

大型语言模型已展现出生成自然语言和编程语言文本的能力。此类模型为多语言代码生成开辟了可能性：代码生成模型能否将一种语言的知识推广到另一种语言？尽管当代代码生成模型能够生成语义正确的 Python 代码，但人们对其在其他语言中的能力知之甚少。我们提出 MultiPL-E，这是一个将单元测试驱动的代码生成基准测试翻译成新语言的系统。我们利用 MultiPL-E 将两个流行的 Python 代码生成基准测试翻译为另外 18 种编程语言，从而创建了首个大规模多语言代码生成基准测试。

我们利用 MultiPL-E 将 HumanEval 基准和 MBPP 基准扩展至 18 种语言，这些语言涵盖了多种编程范式且流行度各异。借助这些新的并行基准，我们评估了三种最先进的代码生成模型（Codex、CodeGen 和 InCoder）的多语言性能。我们发现，Codex 在其他几种语言上的表现与 Python 相当，甚至更胜一筹。 MultiPL-E所涵盖的广泛编程语言范围，使我们能够探索语言使用频率和语言特征对模型性能的影响。最后，MultiPL-E将代码生成基准测试编译为新编程语言的方法既具有可扩展性又具备可扩展性，使得评估新模型、新基准测试和新语言变得十分简便。

加入我们，共同塑造未来

查看所有职位

最新

更多结果

MultiPL-E：一种用于神经网络代码生成基准测试的可扩展且支持多种语言的方法

Author

Venue

Abstract

加入我们，共同塑造未来

MultiPL-E：一种用于神经网络代码生成基准测试的可扩展且支持多种语言的方法

Author

Venue

Abstract

Related Publications

CubePart：一款开放词汇表、可控部件的3D生成器

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

目录原生大语言模型：采用低纠缠的“项目ID方言”进行推荐

加入我们，共同塑造未来