이 사이트의 콘텐츠는 인공지능(AI) 또는 기계 번역 기술을 사용하여 번역되었으며 오류가 있을 수 있습니다.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder 2와 The Stack v2: 차세대

View Publication

Author

아르준 구하(Roblox + 노스이스턴 대학교), 안톤 로즈코프(HuggingFace), 레이먼드 리(ServiceNow), 루브나 벤 알랄(HuggingFace), 페데리코 카사노(노스이스턴 대학교), 조엘 라미-푸아리에(ServiceNow), 누아마네 타지(HuggingFace), 아오 탕(Nvidia), 드미트로 피크타르(Nvidia), 지아웨이 리우(일리노이 대학교 어바나-샴페인), 유샹 웨이(일리노이 대학교 어바나-샴페인), 티안양 리우(UC 샌디에이고), 맥스 티안(ServiceNow), 데니스 코체트코프(ServiceNow), 아서 주커(HuggingFace), 영 벨카다(HuggingFace), 지잔 왕(독립 연구원), 치안 리우(Sea AI Lab), 드미트리 아불카노프(독립 연구원), 인드라닐 폴(다름슈타트 공과대학교), 리좡 (모나쉬 대학교), 리원딩 (코넬 대학교), 메건 리스달 (Kaggle), 리자 (프리랜서), 주젠 (브리티시 컬럼비아 대학교), 테리 유에 주오 (모나쉬 대학교 + CSIRO의 Data61), 예브게니 젤토노즈스키 (테크니온 – 이스라엘 공과대학교), 니이 오사에 오사에 다데(마주마), 웬하오 유(노트르담 대학교), 루카스 크라우스(독립 연구원), 나만 제인(UC 버클리), 수 이쉰 (코히어), 허 쉬안리 (런던 대학교), 마난 데이 (세일즈포스), 에두아르도 아바티 (독립 연구원), 차이 예쿤 (바이두), 니클라스 뮌니호프 (컨텍스추얼 AI), 탕 시앙루 (예일 대학교), 무타샴 오블로쿨로프 (뮌헨 공과대학교), 크리스토퍼 아키키 (라이프치히 대학교 + ScaDS.AI), 마크 마로네 (존스 홉킨스 대학교), 청하오 모우 (독립 연구원), 마얀크 미슈라 (IBM 리서치), 알렉스 구 (MIT), 빈위안 후이 (독립 연구원), 트리 다오 (프린스턴 대학교), 아르멜 제바제 (HuggingFace), 올리비에 드하엔 (HuggingFace), 니콜라스 패트리(HuggingFace), 쉰 캉원(UC 샌디에이고), 줄리안 맥오일리(UC 샌디에이고), 후 한(모나쉬 대학교), 토르스텐 숄락(ServiceNow), 세바스티앙 파케(ServiceNow), 제니퍼 로빈슨(ServiceNow), 캐롤린 제인 앤더슨(웰즐리 칼리지), 니콜라스 차파도스(ServiceNow), 모스토파 파트와리 (Nvidia), 니마 타즈바크쉬 (Nvidia), 야신 제르니트 (HuggingFace), 카를로스 무뇨스 페란디스 (HuggingFace), 링밍 장 (일리노이 대학교 어바나-샴페인), 숀 휴즈 (ServiceNow), 토마스 울프 (HuggingFace), 레안드로 폰 베라 (HuggingFace), 하름 드 브리스 (ServiceNow)

Venue

Abstract

코드용 대규모 언어 모델(Code LLM)의 책임 있는 개발을 목표로 하는 오픈 사이언스 협업 프로젝트인 BigCode가 StarCoder2를 소개합니다. Software Heritage(SWH)와의 파트너십을 통해, 우리는 SWH의 소스 코드 아카이브라는 디지털 공유 자산을 기반으로 The Stack v2를 구축했습니다. 619개 프로그래밍 언어를 아우르는 SWH 저장소와 더불어, GitHub 풀 리퀘스트, Kaggle 노트북, 코드 문서 등 다른 고품질 데이터 소스를 신중하게 선별했습니다. 그 결과, 첫 번째 StarCoder 데이터셋보다 4배 더 큰 훈련 데이터셋을 확보하게 되었습니다. 우리는 33억, 70억, 150억 파라미터를 가진 StarCoder2 모델을 3.3조에서 4.3조 토큰 규모로 훈련시키고, 포괄적인 코드 LLM 벤치마크 세트를 통해 이를 철저히 평가했습니다. 그 결과, 소형 모델인 StarCoder2-3B가 대부분의 벤치마크에서 유사한 규모의 다른 코드 LLM보다 우수한 성능을 보였으며, StarCoderBase-15B보다도 뛰어난 성능을 나타냈습니다. 대형 모델인 StarCoder2-15B는 동급 규모의 다른 모델들을 크게 앞지르는 성능을 보였습니다. 또한, 이 모델은 자체 크기의 두 배가 넘는 모델인 CodeLlama-34B와 동등하거나 더 우수한 성능을 보입니다. DeepSeekCoder-33B가 리소스가 풍부한 언어의 코드 완성 성능에서는 가장 우수한 모델이지만, StarCoder2-15B가 수학 및 코드 추론 벤치마크와 여러 리소스가 부족한 언어에서 이를 능가하는 것으로 나타났습니다. 본 모델의 가중치는 OpenRAIL 라이선스 하에 공개하며, 소스 코드 데이터의 SWHID(SoftWare Heritage persistent IDentifiers)를 공개함으로써 훈련 데이터에 대한 완전한 투명성을 보장합니다.