이 사이트의 콘텐츠는 인공지능(AI) 또는 기계 번역 기술을 사용하여 번역되었으며 오류가 있을 수 있습니다.

Skip to content
Artificial Intelligence
Programming Languages

SelfCodeAlign: 코드 생성을 위한 자체 정렬

Author

Yuxiang Wei (일리노이 대학교 어바나-샴페인), Federico Cassano (노스이스턴 대학교 및 Cursor AI), Jiawei Liu (일리노이 대학교 어바나-샴페인), 딩 이펑(일리노이 대학교 어바나-샴페인), 나만 제인(캘리포니아 대학교 버클리), 재커리 뮬러(Hugging Face), 하름 드 브리스(ServiceNow), 레안드로 폰 베라(Hugging Face), 아르준 구하(노스이스턴 대학교 및 Roblox), 장 링밍(일리노이 대학교 어바나-샴페인)

Venue

NeurIPS 2024

Abstract

지시어 튜닝은 대규모 언어 모델(LLM)이 인간의 지시를 따르는 능력을 획기적으로 향상시키는 감독형 미세 조정 접근법입니다. 우리는 방대한 인간 주석이나 증류 과정 없이 코드 LLM을 자체 정렬할 수 있는 최초의 완전히 투명하고 유연한 파이프라인인 SelfCodeAlign을 제안한다. SelfCodeAlign은 데이터 생성 과정 전반에 걸쳐 추론을 위해 동일한 기본 모델을 사용한다. 먼저 고품질 시드 스니펫에서 다양한 코딩 개념을 추출하여 새로운 작업을 생성한다. 그런 다음 작업당 여러 응답을 샘플링하고, 각각을 테스트 케이스와 짝지은 후 샌드박스 환경에서 검증한다. 마지막으로, 통과한 예시들을 선별하여 지시문 튜닝에 활용합니다. 주요 실험에서 우리는 SelfCodeAlign과 CodeQwen1.5-7B를 사용하여 74,000개의 지시문-응답 쌍으로 구성된 데이터셋을 생성했습니다. 이 데이터셋을 기반으로 파인튜닝한 모델은 HumanEval+에서 67.1%의 pass@1을 달성했으며, 모델 규모가 10분의 1에 불과함에도 불구하고 CodeLlama-70B-Instruct를 능가했습니다. 모든 벤치마크에서 이 미세 조정 모델은 인간 주석이나 증류 없이 수행되는 지침 튜닝 분야의 기존 최첨단 방법인 OctoPack으로 훈련된 원본 모델보다 일관되게 우수한 성능을 보입니다. 또한, SelfCodeAlign이 3B에서 33B에 이르는 다양한 규모의 LLM 전반에 걸쳐 효과적이며, 기본 모델이 자체 데이터 분포와의 정렬을 통해 더 큰 이점을 얻을 수 있음을 보여줍니다. 또한 파이프라인 내 각 구성 요소의 효과성을 추가로 검증하여, SelfCodeAlign이 GPT-4o로부터의 직접 증류 및 OSS-Instruct, Evol-Instruct와 같은 주요 GPT-3.5 기반 증류 방법 모두를 능가함을 보여주었습니다. 또한 SelfCodeAlign은 최첨단 코딩 성능을 달성한 최초의 완전 투명하고, 자유로운 라이선스를 적용하며, 자체 데이터 분포와 정렬된 코드 LLM인 StarCoder2-Instruct의 개발로 이어졌습니다.