SelfCodeAlign: Kod Oluşturma için Kendi Kendine Hizalama

Share

Author

Yuxiang Wei (Illinois Üniversitesi Urbana-Champaign), Federico Cassano (Northeastern Üniversitesi ve Cursor AI), Jiawei Liu (Illinois Üniversitesi Urbana-Champaign), Yifeng Ding (Illinois Üniversitesi Urbana-Champaign), Naman Jain (Kaliforniya Üniversitesi, Berkeley), Zachary Mueller (Hugging Face), Harm de Vries (ServiceNow), Leandro von Werra (Hugging Face), Arjun Guha (Northeastern Üniversitesi ve Roblox), Lingming Zhang (Illinois Üniversitesi Urbana-Champaign)

Venue

NeurIPS 2024

Abstract

Talimat ayarlaması, büyük dil modellerinin (LLM'ler) insan talimatlarını takip etme yeteneğini önemli ölçüde geliştiren, denetimli bir ince ayar yaklaşımıdır. Kapsamlı insan anotasyonları veya damıtma gerektirmeden kod LLM'lerini kendi kendine hizalayan ilk tamamen şeffaf ve izin verici boru hattı olan SelfCodeAlign'ı öneriyoruz. SelfCodeAlign, veri oluşturma süreci boyunca çıkarım için aynı temel modeli kullanır. Öncelikle, yeni görevler oluşturmak için yüksek kaliteli tohum snippet'lerinden çeşitli kodlama kavramlarını çıkarır. Ardından, görev başına birden fazla yanıt örneği alır, her birini test durumlarıyla eşleştirir ve bunları bir sanal ortamda doğrular. Son olarak, talimatların ayarlanması için başarılı örnekler seçilir. İlk deneylerimizde, 74 bin talimat-yanıt çiftinden oluşan bir veri seti oluşturmak için SelfCodeAlign'ı CodeQwen1.5-7B ile birlikte kullandık. Bu veri seti üzerinde yapılan ince ayar, HumanEval+'da 67,1 pass@1'e ulaşan bir model ortaya çıkardı; bu model, on kat daha küçük olmasına rağmen CodeLlama-70B-Instruct'i geride bıraktı. Tüm karşılaştırmalarda, bu ince ayarlanmış model, insan etiketlemesi veya damıtma olmadan komut ayarlaması için önceki en gelişmiş yöntem olan OctoPack ile eğitilen orijinal sürümden tutarlı bir şekilde daha iyi performans gösterir. Ayrıca, SelfCodeAlign'ın 3B'den 33B'ye kadar çeşitli boyutlardaki LLM'lerde etkili olduğunu ve temel modellerin kendi veri dağılımlarıyla hizalanmaktan daha fazla fayda sağlayabileceğini gösteriyoruz. Ayrıca, boru hattımızdaki her bir bileşenin etkinliğini daha da doğrulayarak, SelfCodeAlign'ın hem GPT-4o'dan doğrudan damıtma hem de OSS-Instruct ve Evol-Instruct gibi önde gelen GPT-3.5 tabanlı damıtma yöntemlerinden daha iyi performans gösterdiğini ortaya koyuyoruz. SelfCodeAlign ayrıca, en son teknoloji kodlama performansına ulaşan, tamamen şeffaf, izinli lisanslı ve kendi kendine hizalanmış ilk kod LLM'si olan StarCoder2-Instruct'ın oluşturulmasına da yol açmıştır.

Geleceği şekillendirmemize katılın

Tüm İşleri Görüntüle

En Son

Daha fazla sonuç

SelfCodeAlign: Kod Oluşturma için Kendi Kendine Hizalama

Author

Venue

Abstract

Geleceği şekillendirmemize katılın

SelfCodeAlign: Kod Oluşturma için Kendi Kendine Hizalama

Author

Venue

Abstract

Related Publications

CubePart: Açık Sözlükli, Parça Kontrol Edilebilir 3D Oluşturucu

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Katalog-Native LLM: Öneri için daha az karmaşıklık içeren konuşma öğesi kimliği lehçesi

Geleceği şekillendirmemize katılın