MultiPL-E: วิธีการแบบปรับขนาดได้และรองรับหลายภาษาสำหรับการวัดประสิทธิภาพการสร้างรหัสประสาท

Share

Author

เฟเดริโก คาสซาโน (มหาวิทยาลัยนอร์ทอีสเทิร์น), จอห์น โกวาร์ (มหาวิทยาลัยนอร์ทอีสเทิร์น), แดเนียล เหงียน (โรงเรียนมัธยมฮันโนเวอร์), ซิดนีย์ เหงียน (วิทยาลัยเวลส์ลีย์), ลูน่า ฟิปส์-คอสติน (มหาวิทยาลัยนอร์ทอีสเทิร์น), โดนัลด์ พิงค์นีย์ (มหาวิทยาลัยนอร์ทอีสเทิร์น), หมิง-โฮ ยี (มหาวิทยาลัยนอร์ทอีสเทิร์น), หยางเทียน จื่อ (มหาวิทยาลัยนอร์ทอีสเทิร์น), แคโรลิน เจน แอนเดอร์สัน (วิทยาลัยเวลส์ลีย์), มอลลี่ คิว เฟลด์แมน (วิทยาลัยโอเบอร์ลิน), อรชุน กูฮา (Roblox + มหาวิทยาลัยนอร์ทอีสเทิร์น), ไมเคิล กรีนเบิร์ก (สถาบันเทคโนโลยีสตีเวนส์), อภิเณฟ จังดา (ไมโครซอฟท์)

Venue

IEEE Transactions on Software Engineering (TSE) 2023

Abstract

โมเดลภาษาขนาดใหญ่ได้แสดงให้เห็นถึงความสามารถในการสร้างข้อความทั้งในภาษาธรรมชาติและภาษาโปรแกรมมิ่ง โมเดลเหล่านี้เปิดโอกาสให้เกิดการสร้างโค้ดหลายภาษา: โมเดลการสร้างโค้ดจะสามารถประยุกต์ความรู้จากภาษาหนึ่งไปยังอีกภาษาหนึ่งได้หรือไม่? แม้ว่าโมเดลการสร้างโค้ดในปัจจุบันจะสามารถสร้างโค้ด Python ที่ถูกต้องตามความหมายได้ แต่ยังมีข้อมูลน้อยมากเกี่ยวกับความสามารถของโมเดลเหล่านี้กับภาษาอื่นๆ เราขอเสนอ MultiPL-E ซึ่งเป็นระบบสำหรับแปลเกณฑ์มาตรฐานการสร้างโค้ดที่ขับเคลื่อนด้วยการทดสอบหน่วย (unit test-driven) ไปยังภาษาใหม่ๆ เราสร้างเกณฑ์มาตรฐานการสร้างโค้ดแบบหลายภาษาจำนวนมากเป็นครั้งแรกโดยใช้ MultiPL-E เพื่อแปลเกณฑ์มาตรฐานการสร้างโค้ด Python ที่ได้รับความนิยมสองรายการเป็นอีก 18 ภาษาโปรแกรมเพิ่มเติม

เราใช้ MultiPL-E เพื่อขยายเกณฑ์มาตรฐาน HumanEval และ MBPP ให้ครอบคลุม 18 ภาษา ซึ่งครอบคลุมรูปแบบการเขียนโปรแกรมและความนิยมที่หลากหลาย โดยใช้เกณฑ์มาตรฐานแบบขนานใหม่เหล่านี้ เราประเมินประสิทธิภาพการทำงานหลายภาษาของโมเดลการสร้างโค้ดที่ทันสมัยสามแบบ ได้แก่ Codex, CodeGen และ InCoder เราพบว่า Codex มีประสิทธิภาพเทียบเท่าหรือแม้กระทั่งเหนือกว่าประสิทธิภาพของ Python ในภาษาอื่นๆ หลายภาษา ช่วงของภาษาโปรแกรมที่มีอยู่ใน MultiPL-E ช่วยให้เราสามารถสำรวจผลกระทบของความถี่ของภาษาและคุณสมบัติของภาษาต่อประสิทธิภาพของแบบจำลองได้ ท้ายที่สุด แนวทางของ MultiPL-E ที่ทำการรวบรวมมาตรฐานการสร้างโค้ดไปยังภาษาโปรแกรมใหม่ ๆ นั้นสามารถปรับขนาดได้และสามารถขยายได้ ทำให้การประเมินแบบจำลองใหม่ ๆ มาตรฐาน และภาษาโปรแกรมเป็นเรื่องง่าย

มาร่วมกับเราในการสร้างอนาคต

ดูงานทั้งหมด

ล่าสุด

ผลลัพธ์เพิ่มเติม

MultiPL-E: วิธีการแบบปรับขนาดได้และรองรับหลายภาษาสำหรับการวัดประสิทธิภาพการสร้างรหัสประสาท

Author

Venue

Abstract

มาร่วมกับเราในการสร้างอนาคต

MultiPL-E: วิธีการแบบปรับขนาดได้และรองรับหลายภาษาสำหรับการวัดประสิทธิภาพการสร้างรหัสประสาท

Author

Venue

Abstract

Related Publications

CubePart: เครื่องสร้าง 3 มิติแบบควบคุมส่วนด้วยคำศัพท์เปิด

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Catalog-Native LLM: การพูดภาษาถิ่นของรหัสไอเท็มด้วยการพันกันน้อยลงเพื่อการแนะนำ

มาร่วมกับเราในการสร้างอนาคต