Author
아르준 구하 (Roblox + 노스이스턴 대학교), 레이먼드 리 (ServiceNow), 루브나 벤 알랄 (HuggingFace), 양티안 지 (노스이스턴 대학교), 니클라스 뮌니호프 (HuggingFace), 데니스 코체트코프 (ServiceNow), 청하오 모우 (독립 연구원), 마크 마론 (존스 홉킨스 대학교), 크리스토퍼 아키키 (라이프치히 대학교 + ScaDS.AI), 지아 리 (독립 연구원), 제니 침 (런던 퀸 메리 대학교), 치안 리우 (Sea AI Lab), 예브게니 젤토노즈스키 (테크니온 – 이스라엘 공과대학교), 테리 유에 주오(모나쉬 대학교 + CSIRO의 Data61), 토마스 왕(HuggingFace), 올리비에 드하엔(HuggingFace), 미시그 다바도르지(HuggingFace), 조엘 라미-푸아리에(ServiceNow), 주앙 몬테이로(ServiceNow), 올레흐 슐리아즈코(ServiceNow), 니콜라스 곤티에(ServiceNow), 니콜라스 미드(Mila + 맥길 대학교), 아르멜 제바제(HuggingFace), 밍호 이(노스이스턴 대학교), 로게시 쿠마르 우마파티(Saama AI Research Lab), 지안 주(브리티시 컬럼비아 대학교), 벤자민 립킨(MIT), 무타샴 오블로쿨로프(뮌헨 공과대학교), 왕 지루오 (카네기 멜론 대학교), 루드라 무르티 (IBM 리서치), 제이슨 스틸러만 (버몬트 대학교), 시바 산칼프 파텔 (IBM 리서치), 드미트리 아불카노프 (독립 연구원), 마르코 조카 (UnfoldML), 마난 데이 (SAP), 지한 장(노트르담 대학교), 누르 파미(컬럼비아 대학교), 우르바시 바타차리아(디스커버 달러 프라이빗 리미티드), 웬하오 유(노트르담 대학교), 스와얌 싱(알라하바드 대학교), 사샤 루치오니(허깅페이스), 파울로 빌레가스(텔레포니카 I+D), 막심 쿠나코프(톨로카), 페도르 즈다노프(Toloka), 마누엘 로메로(독립 연구원), 토니 리(스탠포드 대학교), 나다브 티모르(바이츠만 과학 연구소), 제니퍼 딩(앨런 튜링 연구소), 클레어 슐레싱거(노스이스턴 대학교), 헤일리 슐콥프(Eleuther AI), 얀 에버트(쥴리히 연구소), 트리 다오(스탠포드 대학교), 마얀크 미슈라(IBM 리서치), 알렉스 구(MIT), 제니퍼 로빈슨(ServiceNow), 캐롤린 제인 앤더슨(웰즐리 칼리지), 브렌던 돌란-가빗(뉴욕대학교), 다니쉬 콘트라クター(프리랜서), 시바 레디(ServiceNow + Mila), 다니엘 프리드(카네기 멜론 대학교), 드미트리 바흐다나우(ServiceNow), 야신 제르니트(HuggingFace), 카를로스 무뇨스 페란디스(HuggingFace), 숀 휴즈(ServiceNow), 토마스 울프(HuggingFace), 레안드로 폰 베라(HuggingFace), 하름 드 브리스(ServiceNow)
Venue
Transactions on Machine Learning Research (TMLR) 2023
Abstract
코드용 대규모 언어 모델(Code LLM)의 책임 있는 개발을 위해 노력하는 오픈 사이언스 협업 커뮤니티인 BigCode는 StarCoder와 StarCoderBase를 소개합니다. 이 모델들은 155억 개의 파라미터를 갖췄으며, 8,000단어의 컨텍스트 길이와 빈칸 채우기 기능을 지원하며, 다중 쿼리 어텐션을 통해 빠른 대용량 배치 추론이 가능합니다. StarCoderBase는 검사 도구와 옵트아웃 절차를 갖춘, 자유로운 라이선스를 적용한 대규모 GitHub 저장소 모음인 'The Stack'에서 수집한 1조 개의 토큰으로 훈련되었습니다. 우리는 350억 개의 Python 토큰으로 StarCoderBase를 미세 조정하여 StarCoder를 개발했습니다. 우리는 현재까지 코드 LLM에 대한 가장 포괄적인 평가를 수행했으며, StarCoderBase가 다중 프로그래밍 언어를 지원하는 모든 공개 코드 LLM을 능가하고 OpenAI의 code-cushman-001 모델과 동등하거나 더 우수한 성능을 보임을 입증했습니다. 또한 StarCoder는 Python으로 미세 조정된 모든 모델을 능가하며, 프롬프트를 통해 HumanEval에서 40%의 pass@1을 달성할 수 있고, 다른 프로그래밍 언어에서도 성능을 유지합니다. 우리는 개선된 PII(개인 식별 정보) 마스킹 파이프라인과 새로운 출처 추적 도구를 포함하여 안전한 오픈 액세스 모델 공개를 위한 몇 가지 중요한 조치를 취했으며, 상업적으로 더 실용적인 버전의 Open Responsible AI Model 라이선스 하에 StarCoder 모델을 공개합니다.