เนื้อหาในเว็บไซต์นี้ได้รับการแปลโดยใช้ปัญญาประดิษฐ์ (AI) หรือเทคโนโลยีการแปลด้วยเครื่อง และอาจมีข้อผิดพลาด

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

MultiPL-E: วิธีการแบบปรับขนาดได้และรองรับหลายภาษาสำหรับการวัดประสิทธิภาพการสร้างรหัสประสาท

View Publication

Author

เฟเดริโก คาสซาโน (มหาวิทยาลัยนอร์ทอีสเทิร์น), จอห์น โกวาร์ (มหาวิทยาลัยนอร์ทอีสเทิร์น), แดเนียล เหงียน (โรงเรียนมัธยมฮันโนเวอร์), ซิดนีย์ เหงียน (วิทยาลัยเวลส์ลีย์), ลูน่า ฟิปส์-คอสติน (มหาวิทยาลัยนอร์ทอีสเทิร์น), โดนัลด์ พิงค์นีย์ (มหาวิทยาลัยนอร์ทอีสเทิร์น), หมิง-โฮ ยี (มหาวิทยาลัยนอร์ทอีสเทิร์น), หยางเทียน จื่อ (มหาวิทยาลัยนอร์ทอีสเทิร์น), แคโรลิน เจน แอนเดอร์สัน (วิทยาลัยเวลส์ลีย์), มอลลี่ คิว เฟลด์แมน (วิทยาลัยโอเบอร์ลิน), อรชุน กูฮา (Roblox + มหาวิทยาลัยนอร์ทอีสเทิร์น), ไมเคิล กรีนเบิร์ก (สถาบันเทคโนโลยีสตีเวนส์), อภิเณฟ จังดา (ไมโครซอฟท์)

Venue

IEEE Transactions on Software Engineering (TSE) 2023

Abstract

โมเดลภาษาขนาดใหญ่ได้แสดงให้เห็นถึงความสามารถในการสร้างข้อความทั้งในภาษาธรรมชาติและภาษาโปรแกรมมิ่ง โมเดลเหล่านี้เปิดโอกาสให้เกิดการสร้างโค้ดหลายภาษา: โมเดลการสร้างโค้ดจะสามารถประยุกต์ความรู้จากภาษาหนึ่งไปยังอีกภาษาหนึ่งได้หรือไม่? แม้ว่าโมเดลการสร้างโค้ดในปัจจุบันจะสามารถสร้างโค้ด Python ที่ถูกต้องตามความหมายได้ แต่ยังมีข้อมูลน้อยมากเกี่ยวกับความสามารถของโมเดลเหล่านี้กับภาษาอื่นๆ เราขอเสนอ MultiPL-E ซึ่งเป็นระบบสำหรับแปลเกณฑ์มาตรฐานการสร้างโค้ดที่ขับเคลื่อนด้วยการทดสอบหน่วย (unit test-driven) ไปยังภาษาใหม่ๆ เราสร้างเกณฑ์มาตรฐานการสร้างโค้ดแบบหลายภาษาจำนวนมากเป็นครั้งแรกโดยใช้ MultiPL-E เพื่อแปลเกณฑ์มาตรฐานการสร้างโค้ด Python ที่ได้รับความนิยมสองรายการเป็นอีก 18 ภาษาโปรแกรมเพิ่มเติม


เราใช้ MultiPL-E เพื่อขยายเกณฑ์มาตรฐาน HumanEval และ MBPP ให้ครอบคลุม 18 ภาษา ซึ่งครอบคลุมรูปแบบการเขียนโปรแกรมและความนิยมที่หลากหลาย โดยใช้เกณฑ์มาตรฐานแบบขนานใหม่เหล่านี้ เราประเมินประสิทธิภาพการทำงานหลายภาษาของโมเดลการสร้างโค้ดที่ทันสมัยสามแบบ ได้แก่ Codex, CodeGen และ InCoder เราพบว่า Codex มีประสิทธิภาพเทียบเท่าหรือแม้กระทั่งเหนือกว่าประสิทธิภาพของ Python ในภาษาอื่นๆ หลายภาษา ช่วงของภาษาโปรแกรมที่มีอยู่ใน MultiPL-E ช่วยให้เราสามารถสำรวจผลกระทบของความถี่ของภาษาและคุณสมบัติของภาษาต่อประสิทธิภาพของแบบจำลองได้ ท้ายที่สุด แนวทางของ MultiPL-E ที่ทำการรวบรวมมาตรฐานการสร้างโค้ดไปยังภาษาโปรแกรมใหม่ ๆ นั้นสามารถปรับขนาดได้และสามารถขยายได้ ทำให้การประเมินแบบจำลองใหม่ ๆ มาตรฐาน และภาษาโปรแกรมเป็นเรื่องง่าย