Author
Arjun Guha (Roblox + Northeastern University), Anton Lozhkov (HuggingFace), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Federico Cassano (Northeastern University), โจเอล ลาเม-ปัวริเยร์ (ServiceNow), นูอามาน ตาซี (HuggingFace), อ้าว 탕 (Nvidia), ดมิโตร พิคตาร์ (Nvidia), เจียเว่ย หลิว (มหาวิทยาลัยอิลลินอยส์ เออร์บานา-แชมเพน), หยูเซียง เว่ย (มหาวิทยาลัยอิลลินอยส์ เออร์บานา-แชมเพน), เทียนหยาง หลิว (มหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก), แม็กซ์ เทียน (ServiceNow), เดนิส โคเซตคอฟ (ServiceNow), อาร์เธอร์ ซัคเกอร์ (HuggingFace), ยัง เบลกาดา (HuggingFace), ซิเจียน หวัง (อิสระ), เฉียน หลิว (Sea AI Lab), ดมิทรี อาบูลคานอฟ (อิสระ), อินทรเนล พอล (มหาวิทยาลัยเทคนิคดาร์มชตัท) จวง หลี่ (มหาวิทยาลัยโมนาช), เหวิน-ติง หลี่ (มหาวิทยาลัยคอร์เนล), เมแกน ริสดาล (Kaggle), เจีย หลี่ (อิสระ), เจียน จู (มหาวิทยาลัยบริติชโคลัมเบีย), เทอร์รี่ หยู๋ จั่ว (มหาวิทยาลัยโมนาช + CSIRO's Data61), เอฟเกนี ซีลโตโนซกี (เทคโนน – สถาบันเทคโนโลยีแห่งอิสราเอล) นี โอซาเอ โอซาเอ ดาเด (มาซซูมา), เหวินฮาโว่ ยู (มหาวิทยาลัยนอร์ทเทอดาม), ลูคัส ครัส (อิสระ), นามาน เจอิน (มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์), อี้ซวน ซู (Cohere), เซียนลี่ เหอ (University College London), มานัน เดย์ (Salesforce), เอดัวร์โด อาบาติ (อิสระ), เย่กุน ไช (Baidu), นิกลาส มึนนิคฮอฟฟ์ (Contextual AI), เซียงรุ่ย 탕 (Yale University), มูห์ตาชาม โอบโลคูโลฟ (Technical University of Munich), คริสโตเฟอร์ อากิกิ (มหาวิทยาลัยไลพ์ซิก + ScaDS.AI), Marc Marone (มหาวิทยาลัยจอห์นฮอปกินส์), Chenghao Mou (อิสระ), Mayank Mishra (IBM Research), Alex Gu (MIT), Binyuan Hui (อิสระ), Tri Dao (มหาวิทยาลัยพรินซ์ตัน), Armel Zebaze (HuggingFace), Olivier Dehaene (HuggingFace), Nicolas Patry (HuggingFace), Canwen Xu (มหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก), Julian McAuley (มหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก), Han Hu (มหาวิทยาลัยโมนาช), Torsten Scholak (ServiceNow), Sebastien Paquet (ServiceNow), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (วิทยาลัยเวลเลสลีย์), Nicolas Chapados (ServiceNow), โมสตาฟา พัตวารี (Nvidia), นิมา ตาจบัคช์ (Nvidia), ยาซีน เจอร์ไนต์ (HuggingFace), คาร์ลอส มูนญอซ เฟอร์รานดิส (HuggingFace), หลิงหมิง จาง (มหาวิทยาลัยอิลลินอยส์ เออร์บานา-แชมเพน), ฌอน ฮิวจ์ส (ServiceNow), โทมัส วูล์ฟ (HuggingFace), เลอันโดร ฟอน เวอร์รา (HuggingFace), ฮาร์ม เดอ ฟรายส์ (เซอร์วิสโนว์)
Abstract
โครงการ BigCode ซึ่งเป็นการร่วมมือทางวิทยาศาสตร์แบบเปิดที่มุ่งเน้นการพัฒนาอย่างรับผิดชอบของแบบจำลองภาษาขนาดใหญ่สำหรับโค้ด (Code LLMs) ได้แนะนำ StarCoder2 ร่วมกับ Software Heritage (SWH) เราได้สร้าง The Stack v2 บนพื้นฐานของคลังข้อมูลโค้ดดิจิทัลของพวกเขา ควบคู่ไปกับคลังข้อมูล SWH ที่ครอบคลุม 619 ภาษาการเขียนโปรแกรม เราได้คัดเลือกแหล่งข้อมูลคุณภาพสูงอื่นๆ อย่างพิถีพิถัน เช่น คำขอ pull จาก GitHub, โน้ตบุ๊ก Kaggle และเอกสารประกอบโค้ด ซึ่งส่งผลให้ได้ชุดข้อมูลสำหรับการฝึกอบรมที่มีขนาดใหญ่กว่าชุดข้อมูล StarCoder ชุดแรกถึง 4 เท่า เราฝึกอบรมโมเดล StarCoder2 ด้วยพารามิเตอร์ 3B, 7B และ 15B บนข้อมูล 3.3 ถึง 4.3 ล้านล้านโทเคน และประเมินอย่างละเอียดบนชุดมาตรฐาน Code LLM ที่ครอบคลุม เราพบว่าโมเดลขนาดเล็กของเรา StarCoder2-3B มีประสิทธิภาพเหนือกว่า Code LLM อื่นๆ ที่มีขนาดใกล้เคียงกันในเกณฑ์มาตรฐานส่วนใหญ่ และยังมีประสิทธิภาพเหนือกว่า StarCoderBase-15B อีกด้วย โมเดลขนาดใหญ่ของเรา StarCoder2-15B มีประสิทธิภาพเหนือกว่าโมเดลอื่นๆ ที่มีขนาดใกล้เคียงกันอย่างมีนัยสำคัญ นอกจากนี้ ยังสามารถเทียบเท่าหรือมีประสิทธิภาพเหนือกว่า CodeLlama-34B ซึ่งเป็นโมเดลที่มีขนาดใหญ่กว่าสองเท่า แม้ DeepSeekCoder-33B จะเป็นโมเดลที่มีประสิทธิภาพดีที่สุดในการเติมโค้ดให้สมบูรณ์สำหรับภาษาที่ใช้ทรัพยากรสูง แต่เราพบว่า StarCoder2-15B มีประสิทธิภาพเหนือกว่าในด้านเกณฑ์การวัดความเข้าใจทางคณิตศาสตร์และการให้เหตุผลทางโค้ด รวมถึงภาษาที่ใช้ทรัพยากรต่ำหลายภาษา เราจัดเตรียมน้ำหนักของโมเดลให้ใช้งานได้ภายใต้ใบอนุญาต OpenRAIL และรับประกันความโปร่งใสอย่างเต็มที่เกี่ยวกับข้อมูลการฝึกอบรมโดยการเผยแพร่ตัวระบุประจำตัวแบบถาวรของซอฟต์แวร์มรดก (SWHIDs) ของข้อมูลโค้ดต้นฉบับ