SelfCodeAlign: การจัดแนวอัตโนมัติสำหรับการสร้างโค้ด

Share

Author

หยูเซียง เว่ย (มหาวิทยาลัยอิลลินอยส์ อูร์บานา-แชมเพน), เฟเดริโก คาสซาโน (มหาวิทยาลัยนอร์ธอีสเทิร์น และ Cursor AI), เจียเหว่ย หลิว (มหาวิทยาลัยอิลลินอยส์ อูร์บานา-แชมเพน), อี้เฟิง ติง (มหาวิทยาลัยอิลลินอยส์ อูร์บานา-แชมเพน), นามาน เจน (มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์), แซคคารี มูลเลอร์ (Hugging Face), ฮาร์ม เดอ ฟริส (ServiceNow), เลอันโดร ฟอน เวรรา (Hugging Face), อรชุน กูฮา (มหาวิทยาลัยนอร์ทอีสเทิร์น และ Roblox), หลิงหมิง จาง (มหาวิทยาลัยอิลลินอยส์ อูร์บานา-แชมเพน)

Venue

NeurIPS 2024

Abstract

การปรับแต่งคำสั่งเป็นวิธีการปรับแต่งแบบมีผู้สอนที่ช่วยปรับปรุงความสามารถของโมเดลภาษาขนาดใหญ่ (LLMs) ในการปฏิบัติตามคำสั่งของมนุษย์ได้อย่างมีนัยสำคัญ เราขอเสนอ SelfCodeAlign ซึ่งเป็นกระบวนการแรกที่โปร่งใสอย่างสมบูรณ์และอนุญาตให้ใช้ได้อย่างเสรีสำหรับการจัดแนวโค้ด LLM ด้วยตนเองโดยไม่ต้องมีการกำกับดูแลหรือการกลั่นกรองจากมนุษย์อย่างกว้างขวาง SelfCodeAlign ใช้โมเดลพื้นฐานเดียวกันสำหรับการอนุมานตลอดกระบวนการสร้างข้อมูล โดยเริ่มจากการสกัดแนวคิดการเขียนโค้ดที่หลากหลายจากตัวอย่างโค้ดคุณภาพสูงเพื่อสร้างงานใหม่ จากนั้นจึงสุ่มตัวอย่างคำตอบหลายชุดต่องาน จับคู่แต่ละชุดกับกรณีทดสอบ และตรวจสอบความถูกต้องในสภาพแวดล้อมแซนด์บ็อกซ์ สุดท้ายนี้ จะเลือกตัวอย่างที่ผ่านเกณฑ์เป็นตัวอย่างสำหรับการปรับแต่งคำสั่ง ในงานทดลองหลักของเรา เราใช้ SelfCodeAlign ร่วมกับ CodeQwen1.5-7B เพื่อสร้างชุดข้อมูลจำนวน 74,000 คู่คำสั่ง-ผลลัพธ์ จากนั้นจึงทำการปรับแต่งโมเดลบนชุดข้อมูลนี้ ซึ่งนำไปสู่โมเดลที่สามารถทำคะแนน pass@1 บน HumanEval+ ได้ถึง 67.1% สูงกว่า CodeLlama-70B-Instruct ทั้งที่มีขนาดเพียงหนึ่งในสิบเท่านั้น ในทุกเกณฑ์การวัดประสิทธิภาพ โมเดลที่ได้รับการปรับแต่งอย่างละเอียดนี้แสดงผลลัพธ์ที่ดีกว่าเวอร์ชันต้นฉบับที่ฝึกด้วย OctoPack ซึ่งเป็นวิธีการล้ำสมัยก่อนหน้านี้สำหรับการปรับแต่งคำสั่งโดยไม่ต้องใช้การกำกับดูแลหรือการกลั่นกรองจากมนุษย์ นอกจากนี้ เรายังแสดงให้เห็นว่า SelfCodeAlign มีประสิทธิภาพกับ LLM ขนาดต่างๆ ตั้งแต่ 3B ถึง 33B และโมเดลพื้นฐานสามารถได้รับประโยชน์มากขึ้นจากการปรับให้สอดคล้องกับการกระจายข้อมูลของตนเอง เรายังได้ตรวจสอบประสิทธิภาพของแต่ละองค์ประกอบในกระบวนการของเราเพิ่มเติม โดยแสดงให้เห็นว่า SelfCodeAlign มีประสิทธิภาพเหนือกว่าทั้งการถ่ายทอดโดยตรงจาก GPT-4o และวิธีการถ่ายทอดที่อิงจาก GPT-3.5 ที่เป็นผู้นำ เช่น OSS-Instruct และ Evol-Instruct SelfCodeAlign ยังนำไปสู่การสร้าง StarCoder2-Instruct ซึ่งเป็น LLM สำหรับโค้ดที่โปร่งใสอย่างสมบูรณ์ ได้รับอนุญาตอย่างเสรี และปรับแนวด้วยตนเองเป็นรายแรกที่บรรลุประสิทธิภาพการเขียนโค้ดที่ล้ำสมัยที่สุด

มาร่วมกับเราในการสร้างอนาคต

ดูงานทั้งหมด

ล่าสุด

ผลลัพธ์เพิ่มเติม

SelfCodeAlign: การจัดแนวอัตโนมัติสำหรับการสร้างโค้ด

Author

Venue

Abstract

มาร่วมกับเราในการสร้างอนาคต

SelfCodeAlign: การจัดแนวอัตโนมัติสำหรับการสร้างโค้ด

Author

Venue

Abstract

Related Publications

CubePart: เครื่องสร้าง 3 มิติแบบควบคุมส่วนด้วยคำศัพท์เปิด

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Catalog-Native LLM: การพูดภาษาถิ่นของรหัสไอเท็มด้วยการพันกันน้อยลงเพื่อการแนะนำ

มาร่วมกับเราในการสร้างอนาคต