이 사이트의 콘텐츠는 인공지능(AI) 또는 기계 번역 기술을 사용하여 번역되었으며 오류가 있을 수 있습니다.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

MultiPL-E: 신경망 코드 생성을 벤치마킹하기 위한 확장 가능하고 다중 언어 지원 접근법

View Publication

Author

페데리코 카사노(노스이스턴 대학교), 존 구와르(노스이스턴 대학교), 다니엘 응우옌(하노버 고등학교), 시드니 응우옌(웰즐리 칼리지), 루나 핍스-코스틴(노스이스턴 대학교), 도널드 핑크니(노스이스턴 대학교), 밍호 이(노스이스턴 대학교), 양티안 지(노스이스턴 대학교), 캐롤린 제인 앤더슨(웰즐리 칼리지), 몰리 Q 펠드먼(오벌린 칼리지), 아르준 구하(로블록스 + 노스이스턴 대학교), 마이클 그린버그(스티븐스 공과대학교), 아비나브 장다(마이크로소프트)

Venue

IEEE Transactions on Software Engineering (TSE) 2023

Abstract

대규모 언어 모델은 자연어와 프로그래밍 언어 텍스트를 모두 생성할 수 있는 능력을 입증했습니다. 이러한 모델은 다국어 코드 생성의 가능성을 열어줍니다. 과연 코드 생성 모델이 한 언어의 지식을 다른 언어로 일반화할 수 있을까요? 현대의 코드 생성 모델은 의미론적으로 올바른 Python 코드를 생성할 수 있지만, 다른 언어에 대한 능력은 거의 알려져 있지 않습니다. 우리는 단위 테스트 기반 코드 생성 벤치마크를 새로운 언어로 변환하는 시스템인 MultiPL-E를 제안합니다. 우리는 MultiPL-E를 사용하여 두 가지 널리 사용되는 파이썬 코드 생성 벤치마크를 18개의 추가 프로그래밍 언어로 변환함으로써 최초의 대규모 다국어 코드 생성 벤치마크를 구축했다.


우리는 MultiPL-E를 사용하여 HumanEval 벤치마크와 MBPP 벤치마크를 다양한 프로그래밍 패러다임과 인기도를 아우르는 18개 언어로 확장했다. 이러한 새로운 병렬 벤치마크를 활용하여 Codex, CodeGen, InCoder 등 세 가지 최첨단 코드 생성 모델의 다중 언어 성능을 평가했다. 그 결과, Codex가 여러 다른 언어에서 Python에서의 성능과 동등하거나 심지어 이를 능가하는 것으로 나타났다. MultiPL-E에 포함된 다양한 프로그래밍 언어를 통해 우리는 언어의 사용 빈도와 언어적 특징이 모델 성능에 미치는 영향을 탐구할 수 있습니다. 마지막으로, 코드 생성 벤치마크를 새로운 프로그래밍 언어로 컴파일하는 MultiPL-E의 접근 방식은 확장성과 유연성을 모두 갖추고 있어, 새로운 모델, 벤치마크 및 언어를 평가하는 과정을 단순화합니다.