SantaCoder: อย่าไขว่คว้าดาว!
Author
Venue
ICLR การเรียนรู้เชิงลึกสำหรับเวิร์กช็อปโค้ด 2023
Abstract
โครงการ BigCode เป็นความร่วมมือทางวิทยาศาสตร์แบบเปิดที่มุ่งเน้นการพัฒนาอย่างมีความรับผิดชอบของโมเดลภาษาขนาดใหญ่สำหรับโค้ด รายงานทางเทคนิคฉบับนี้อธิบายความคืบหน้าของความร่วมมือจนถึงเดือนธันวาคม 2022 โดยสรุปสถานะปัจจุบันของกระบวนการลบข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ (PII) การทดลองที่ดำเนินการเพื่อลดความเสี่ยงของสถาปัตยกรรมโมเดล และการทดลองที่ศึกษาวิธีการเตรียมข้อมูลก่อนการฝึกอบรมที่ดีขึ้นสำหรับข้อมูลการฝึกอบรม เราฝึกฝนโมเดลที่มีพารามิเตอร์ 1.1 พันล้านตัวบนชุดข้อมูลย่อยของ Java, JavaScript และ Python จาก The Stack และประเมินผลบนเกณฑ์มาตรฐาน MultiPL-E สำหรับการแปลงข้อความเป็นโค้ด เราพบว่า การกรองข้อมูลที่ซ้ำกันใกล้เคียงอย่างเข้มงวดมากขึ้นสามารถเพิ่มประสิทธิภาพได้อีก และที่น่าประหลาดใจคือ การเลือกไฟล์จากคลังที่มีดาวใน GitHub 5 ดวงขึ้นไปกลับทำให้ประสิทธิภาพลดลงอย่างมีนัยสำคัญ โมเดลที่ดีที่สุดของเราสามารถทำงานได้ดีกว่าโมเดลการสร้างโค้ดหลายภาษาแบบโอเพนซอร์สก่อนหน้านี้ (InCoder-6.7B และ CodeGen-Multi-2.7B) ทั้งในด้านการสร้างโค้ดจากซ้ายไปขวาและการเติมข้อมูลในส่วน Java, JavaScript และ Python ของ MultiPL-E แม้ว่าจะเป็นโมเดลที่มีขนาดเล็กกว่ามากก็ตาม โมเดลทั้งหมดถูกเผยแพร่ภายใต้ใบอนุญาต OpenRAIL ที่ URL นี้ https
