เนื้อหาในเว็บไซต์นี้ได้รับการแปลโดยใช้ปัญญาประดิษฐ์ (AI) หรือเทคโนโลยีการแปลด้วยเครื่อง และอาจมีข้อผิดพลาด

Skip to content
Artificial Intelligence

SantaCoder: อย่าไขว่คว้าดาว!

Author

ลูบนา เบน อัลลัล, เรย์มอนด์ หลี่, เดนิส โคเซตคอฟ, เฉิงเห่า โมว, คริสโตเฟอร์ อากิกิ, คาร์ลอส มูนอซ เฟอร์รานดิส, นิกลาส มึนนิคฮอฟฟ์, มายังค์ มิชรา, อเล็กซ์ กู, มานาน เดย์, โลเกช กุมาร อูมาปาธิ, แคโรลิน เจน แอนเดอร์สัน, หยางเทียน จื่อ, โจเอล ลาเม ปัวริเยร์, เฮลีย์ โชเอลคอฟ, เซอร์เกย์ ทรอชิน, ดมิทรี อบุลคานอฟ, มานูเอล โรเมโร, ไมเคิล แลพเพิร์ต, ฟรานเชสโก เด โตนี, เบอร์นาร์โด การ์เซีย เดล ริโอ, เฉียน หลิว, ชามิก โบส, อูรวาชี ภัทชชารยา, เทอร์รี หยู๋ จั่ว, เอียน ยู, เปาโล วิลเลกัส, มาร์โก ซอคคา, สุรับ มังกรุลการ์, เดวิด แลนสกี้, ฮู เหงียน, ดาเนียล คอนแทรคเตอร์, หลุยส์ วิลลา, เจีย หลี่, ดซมิตรี บาฮดานาว, ยาซิน เจอร์ไนต์, ฌอน ฮิวจ์ส, แดเนียล ฟรีด, อรชุน กูฮา, ฮาร์ม เดอ ฟรีส์, เลอันโดร ฟอน เวอร์รา

Venue

ICLR การเรียนรู้เชิงลึกสำหรับเวิร์กช็อปโค้ด 2023

Abstract

โครงการ BigCode เป็นความร่วมมือทางวิทยาศาสตร์แบบเปิดที่มุ่งเน้นการพัฒนาอย่างมีความรับผิดชอบของโมเดลภาษาขนาดใหญ่สำหรับโค้ด รายงานทางเทคนิคฉบับนี้อธิบายความคืบหน้าของความร่วมมือจนถึงเดือนธันวาคม 2022 โดยสรุปสถานะปัจจุบันของกระบวนการลบข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ (PII) การทดลองที่ดำเนินการเพื่อลดความเสี่ยงของสถาปัตยกรรมโมเดล และการทดลองที่ศึกษาวิธีการเตรียมข้อมูลก่อนการฝึกอบรมที่ดีขึ้นสำหรับข้อมูลการฝึกอบรม เราฝึกฝนโมเดลที่มีพารามิเตอร์ 1.1 พันล้านตัวบนชุดข้อมูลย่อยของ Java, JavaScript และ Python จาก The Stack และประเมินผลบนเกณฑ์มาตรฐาน MultiPL-E สำหรับการแปลงข้อความเป็นโค้ด เราพบว่า การกรองข้อมูลที่ซ้ำกันใกล้เคียงอย่างเข้มงวดมากขึ้นสามารถเพิ่มประสิทธิภาพได้อีก และที่น่าประหลาดใจคือ การเลือกไฟล์จากคลังที่มีดาวใน GitHub 5 ดวงขึ้นไปกลับทำให้ประสิทธิภาพลดลงอย่างมีนัยสำคัญ โมเดลที่ดีที่สุดของเราสามารถทำงานได้ดีกว่าโมเดลการสร้างโค้ดหลายภาษาแบบโอเพนซอร์สก่อนหน้านี้ (InCoder-6.7B และ CodeGen-Multi-2.7B) ทั้งในด้านการสร้างโค้ดจากซ้ายไปขวาและการเติมข้อมูลในส่วน Java, JavaScript และ Python ของ MultiPL-E แม้ว่าจะเป็นโมเดลที่มีขนาดเล็กกว่ามากก็ตาม โมเดลทั้งหมดถูกเผยแพร่ภายใต้ใบอนุญาต OpenRAIL ที่ URL นี้ https