MultiPL-E: Pendekatan yang Skalabel dan Multibahasa untuk Membandingkan Kinerja Generasi Kode Neural
Author
Venue
IEEE Transactions on Software Engineering (TSE) 2023
Abstract
Model bahasa besar telah menunjukkan kemampuannya untuk menghasilkan teks dalam bahasa alami maupun bahasa pemrograman. Model-model tersebut membuka kemungkinan untuk pembuatan kode multibahasa: apakah model pembuatan kode dapat menggeneralisasi pengetahuan dari satu bahasa ke bahasa lain? Meskipun model pembuatan kode kontemporer dapat menghasilkan kode Python yang benar secara semantik, sedikit yang diketahui tentang kemampuannya dalam bahasa lain. Kami mengusulkan MultiPL-E, sebuah sistem untuk menerjemahkan tolok ukur pembuatan kode berbasis uji unit ke bahasa-bahasa baru. Kami menciptakan benchmark pembangkitan kode multibahasa berskala besar pertama dengan menggunakan MultiPL-E untuk menerjemahkan dua benchmark pembangkitan kode Python yang populer ke 18 bahasa pemrograman tambahan.
Kami menggunakan MultiPL-E untuk memperluas benchmark HumanEval dan MBPP ke 18 bahasa yang mencakup berbagai paradigma pemrograman dan tingkat popularitas. Dengan menggunakan benchmark paralel baru ini, kami mengevaluasi kinerja multibahasa dari tiga model pembangkitan kode terdepan: Codex, CodeGen, dan InCoder. Kami menemukan bahwa Codex setara atau bahkan melebihi kinerjanya pada Python untuk beberapa bahasa lain. Ragam bahasa pemrograman yang terwakili dalam MultiPL-E memungkinkan kami untuk mengeksplorasi dampak frekuensi bahasa dan fitur bahasa terhadap kinerja model. Terakhir, pendekatan MultiPL-E dalam mengompilasi tolok ukur pembuatan kode ke bahasa pemrograman baru bersifat skalabel dan dapat diperluas, sehingga memudahkan evaluasi model, tolok ukur, dan bahasa baru.
