MultiPL-E: Pendekatan yang Skalabel dan Multibahasa untuk Membandingkan Kinerja Generasi Kode Neural

Share

Author

Federico Cassano (Universitas Northeastern), John Gouwar (Universitas Northeastern), Daniel Nguyen (Sekolah Menengah Atas Hanover), Sydney Nguyen (Wellesley College), Luna Phipps-Costin (Universitas Northeastern), Donald Pinckney (Universitas Northeastern), Ming-Ho Yee (Universitas Northeastern), Yangtian Zi (Universitas Northeastern), Carolyn Jane Anderson (Wellesley College), Molly Q Feldman (Oberlin College), Arjun Guha (Roblox + Universitas Northeastern), Michael Greenberg (Stevens Institute of Technology), Abhinav Jangda (Microsoft)

Venue

IEEE Transactions on Software Engineering (TSE) 2023

Abstract

Model bahasa besar telah menunjukkan kemampuannya untuk menghasilkan teks dalam bahasa alami maupun bahasa pemrograman. Model-model tersebut membuka kemungkinan untuk pembuatan kode multibahasa: apakah model pembuatan kode dapat menggeneralisasi pengetahuan dari satu bahasa ke bahasa lain? Meskipun model pembuatan kode kontemporer dapat menghasilkan kode Python yang benar secara semantik, sedikit yang diketahui tentang kemampuannya dalam bahasa lain. Kami mengusulkan MultiPL-E, sebuah sistem untuk menerjemahkan tolok ukur pembuatan kode berbasis uji unit ke bahasa-bahasa baru. Kami menciptakan benchmark pembangkitan kode multibahasa berskala besar pertama dengan menggunakan MultiPL-E untuk menerjemahkan dua benchmark pembangkitan kode Python yang populer ke 18 bahasa pemrograman tambahan.

Kami menggunakan MultiPL-E untuk memperluas benchmark HumanEval dan MBPP ke 18 bahasa yang mencakup berbagai paradigma pemrograman dan tingkat popularitas. Dengan menggunakan benchmark paralel baru ini, kami mengevaluasi kinerja multibahasa dari tiga model pembangkitan kode terdepan: Codex, CodeGen, dan InCoder. Kami menemukan bahwa Codex setara atau bahkan melebihi kinerjanya pada Python untuk beberapa bahasa lain. Ragam bahasa pemrograman yang terwakili dalam MultiPL-E memungkinkan kami untuk mengeksplorasi dampak frekuensi bahasa dan fitur bahasa terhadap kinerja model. Terakhir, pendekatan MultiPL-E dalam mengompilasi tolok ukur pembuatan kode ke bahasa pemrograman baru bersifat skalabel dan dapat diperluas, sehingga memudahkan evaluasi model, tolok ukur, dan bahasa baru.

Bergabunglah bersama kami dalam membentuk masa depan

Lihat Semua Pekerjaan

Terbaru

Lebih banyak hasil

MultiPL-E: Pendekatan yang Skalabel dan Multibahasa untuk Membandingkan Kinerja Generasi Kode Neural

Author

Venue

Abstract

Bergabunglah bersama kami dalam membentuk masa depan

MultiPL-E: Pendekatan yang Skalabel dan Multibahasa untuk Membandingkan Kinerja Generasi Kode Neural

Author

Venue

Abstract

Related Publications

CubePart: Generator 3D dengan Kosakata Terbuka dan Komponen yang Dapat Dikendalikan

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

LLM Asli Katalog: Menggunakan Dialek ID Item dengan Keterikatan yang Lebih Sedikit untuk Rekomendasi

Bergabunglah bersama kami dalam membentuk masa depan