Author
Arjun Guha (Roblox + Northeastern University), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Northeastern University), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (อิสระ), Marc Marone (Johns Hopkins University), Christopher Akiki (มหาวิทยาลัยไลพ์ซิก + ScaDS.AI), เจีย หลี่ (อิสระ), เจนนี่ ชิม (มหาวิทยาลัยควีนแมรีแห่งลอนดอน), เฉียน หลิว (Sea AI Lab), เอฟเกนนี เจลโตโนซกี (สถาบันเทคโนโลยีเทคเนีย – อิสราเอล) เทอร์รี่ เยว่ จั่ว (มหาวิทยาลัยโมนาช + Data61 ของ CSIRO), โทมัส หวัง (HuggingFace), โอลิวิเยร์ เดอฮาเน (HuggingFace), มิชิก ดาวาโดร์จ (HuggingFace), โจเอล ลาเม-ปัวริเยร์ (ServiceNow), จาโอ มอนเตโร (ServiceNow) โอเลห์ ชลิอัชโก (ServiceNow), นิโคลัส กอนติเยร์ (ServiceNow), นิโคลัส มีด (Mila + มหาวิทยาลัยแมคกิลล์), อาร์เมล เซบาเซ (HuggingFace), หมิง-โฮ ยี (มหาวิทยาลัยนอร์ทอีสเทิร์น), โlogesh Kumar Umapathi (ห้องปฏิบัติการวิจัย Saama AI) เจียน จู (มหาวิทยาลัยบริติชโคลัมเบีย), เบนจามิน ลิปคิน (เอ็มไอที), มุห์ตาชาม โอบโลคูโลฟ (มหาวิทยาลัยเทคนิคแห่งมิวนิก) จือโรว์ หวัง (มหาวิทยาลัยคาร์เนกีเมลลอน), รูดรา เมอร์ธี (IBM Research), เจสัน สติลเลอร์แมน (มหาวิทยาลัยเวอร์มอนต์), ศิวะ สังคัลป์ พาเทล (IBM Research), ดมิทรี อบุลคานอฟ (อิสระ), มาร์โก ซอคคา (UnfoldML), มานาน เดย์ (SAP), จื้อหาน จาง (มหาวิทยาลัยนอเทรอดาม), นูร์ ฟาห์มี (มหาวิทยาลัยโคลัมเบีย), อุรวาชิ ภัททชารยา (บริษัท Discover Dollar Pvt Ltd), เหวินห่าว หยู (มหาวิทยาลัยนอเทรอดาม), สวายัม ซิงห์ (มหาวิทยาลัยอลาฮาบัด), ซาช่า ลุชชิโอนี (HuggingFace), เปาโล วิลเลกัส (Telefonica I+D), มักซิม คุนาคอฟ (Toloka), เฟดอร์ จดานอฟ (โทโลกา), มานูเอล โรเมโร (อิสระ), โทนี่ ลี (มหาวิทยาลัยสแตนฟอร์ด), นาดาฟ ทิโมร์ (สถาบันวิทยาศาสตร์ไวซ์มันน์), เจนนิเฟอร์ ติง (สถาบันอลัน ทัวริง), แคลร์ ชเลซิงเกอร์ (มหาวิทยาลัยนอร์ธอีสเทิร์น), เฮลีย์ โชเอลคอฟ (Eleuther AI) แยน เอเบิร์ต (ศูนย์วิจัยยูลิช), ทรี ดาโอ (มหาวิทยาลัยสแตนฟอร์ด), มายังค์ มิชรา (IBM Research), อเล็กซ์ กู (MIT), เจนนิเฟอร์ โรบินสัน (ServiceNow), แคโรลิน เจน แอนเดอร์สัน (วิทยาลัยเวลเลสลีย์), เบรนแดน โดแลน-กัตติฟ (NYU), ดาเนียล คอนแทรกเตอร์ (อิสระ), สิวา เรดดี้ (ServiceNow + Mila), แดเนียล ฟรีด (มหาวิทยาลัยคาร์เนกีเมลลอน), ดซมีตรี บาดานาว (ServiceNow), ยาซีน เจอร์ไนต์ (HuggingFace), คาร์ลอส มูนญอซ เฟอร์รานดิส (HuggingFace), ฌอน ฮิวจ์ส (ServiceNow), โทมัส วูล์ฟ (HuggingFace), เลอันโดร ฟอน เวรรา (HuggingFace), ฮาร์ม เดอ ฟรายส์ (ServiceNow)
Venue
ธุรกรรมวิจัยการเรียนรู้ของเครื่อง (TMLR) 2023
Abstract
ชุมชน BigCode ซึ่งเป็นความร่วมมือทางวิทยาศาสตร์แบบเปิดที่ทำงานเกี่ยวกับการพัฒนาโมเดลภาษาขนาดใหญ่สำหรับโค้ด (Code LLMs) อย่างมีความรับผิดชอบ ขอแนะนำ StarCoder และ StarCoderBase: โมเดลที่มีพารามิเตอร์ 15.5 พันล้านตัว พร้อมความยาวบริบท 8K ความสามารถในการเติมข้อมูล และอินเฟอร์เรนซ์แบบแบทช์ขนาดใหญ่ที่รวดเร็ว ซึ่งได้รับการสนับสนุนโดย multi-query attention StarCoderBase ได้รับการฝึกฝนบนข้อมูลจำนวน 1 ล้านล้านโทเค็นที่มาจาก The Stack ซึ่งเป็นแหล่งรวบรวมรีโพสิตอรี GitHub ที่อนุญาตให้ใช้งานได้อย่างเสรี พร้อมด้วยเครื่องมือตรวจสอบและกระบวนการยกเลิกการเข้าร่วม เราได้ปรับแต่ง StarCoderBase เพิ่มเติมบนข้อมูล Python จำนวน 35 พันล้านโทเค็น ส่งผลให้เกิด StarCoder ขึ้นมา เราทำการประเมิน Code LLMs อย่างครอบคลุมที่สุดเท่าที่เคยมีมา และแสดงให้เห็นว่า StarCoderBase มีประสิทธิภาพเหนือกว่าทุก Code LLM แบบเปิดที่รองรับหลายภาษาการเขียนโปรแกรม และเทียบเท่าหรือเหนือกว่าโมเดล OpenAI code-cushman-001 นอกจากนี้ StarCoder ยังมีประสิทธิภาพเหนือกว่าทุกโมเดลที่ได้รับการปรับแต่งบน Python สามารถถูกกระตุ้นให้ทำคะแนนผ่าน 40\% pass@1 บน HumanEval และยังคงรักษาประสิทธิภาพบนภาษาการเขียนโปรแกรมอื่นๆ ได้ เราได้ดำเนินการหลายขั้นตอนที่สำคัญเพื่อมุ่งสู่การเปิดเผยโมเดลแบบเปิดที่ปลอดภัย รวมถึงการปรับปรุงกระบวนการลบข้อมูลส่วนบุคคล (PII) และการพัฒนาเครื่องมือติดตามแหล่งที่มาแบบใหม่ พร้อมทั้งเผยแพร่โมเดล StarCoder ให้สาธารณชนใช้งานได้ภายใต้ใบอนุญาต Open Responsible AI Model เวอร์ชันที่เหมาะสมกับการใช้งานเชิงพาณิชย์มากยิ่งขึ้น