Nội dung trên trang web này đã được dịch bằng trí tuệ nhân tạo (AI) hoặc công nghệ dịch máy và có thể có lỗi.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder: Cầu mong Nguồn lực luôn ở bên bạn!

View Publication

Author

Arjun Guha (Roblox + Đại học Northeastern), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Đại học Northeastern), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (Độc lập), Marc Marone (Đại học Johns Hopkins), Christopher Akiki (Đại học Leipzig + ScaDS.AI), Jia Li (Độc lập), Jenny Chim (Đại học Queen Mary London), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Viện Công nghệ Israel), Terry Yue Zhuo (Đại học Monash + Data61 của CSIRO), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + Đại học McGill), Armel Zebaze (HuggingFace), Ming-Ho Yee (Đại học Northeastern), Logesh Kumar Umapathi (Phòng thí nghiệm nghiên cứu AI Saama), Jian Zhu (Đại học British Columbia), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Đại học Kỹ thuật Munich), Zhiruo Wang (Đại học Carnegie Mellon), Rudra Murthy (IBM Research), Jason Stillerman (Đại học Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Tự do), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Đại học Notre Dame), Nour Fahmy (Đại học Columbia), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Đại học Notre Dame), Swayam Singh (Đại học Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (Độc lập), Tony Lee (Đại học Stanford), Nadav Timor (Viện Khoa học Weizmann), Jennifer Ding (Viện Alan Turing), Claire Schlesinger (Đại học Northeastern), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Trung tâm Nghiên cứu Jülich), Tri Dao (Đại học Stanford), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Đại học Wellesley), Brendan Dolan-Gavitt (NYU), Danish Contractor (Tự do), Siva Reddy (ServiceNow + Mila), Daniel Fried (Đại học Carnegie Mellon), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Tạp chí Nghiên cứu Học máy (TMLR) 2023

Abstract

Cộng đồng BigCode, một dự án hợp tác khoa học mở tập trung vào việc phát triển có trách nhiệm các Mô hình Ngôn ngữ Lớn cho Mã nguồn (Code LLMs), giới thiệu StarCoder và StarCoderBase: các mô hình có 15,5 tỷ tham số, độ dài bối cảnh 8.000 token, khả năng điền thông tin thiếu và khả năng suy luận nhanh trên tập dữ liệu lớn nhờ cơ chế chú ý đa truy vấn. StarCoderBase được huấn luyện trên 1 nghìn tỷ token lấy từ The Stack, một bộ sưu tập lớn các kho lưu trữ GitHub được cấp phép tự do với các công cụ kiểm tra và quy trình từ chối tham gia. Chúng tôi đã tinh chỉnh StarCoderBase trên 35 tỷ token Python, dẫn đến việc tạo ra StarCoder. Chúng tôi thực hiện đánh giá toàn diện nhất về các mô hình ngôn ngữ lập trình (Code LLMs) cho đến nay và chứng minh rằng StarCoderBase vượt trội so với mọi mô hình Code LLM mã nguồn mở hỗ trợ nhiều ngôn ngữ lập trình, đồng thời ngang bằng hoặc vượt trội so với mô hình code-cushman-001 của OpenAI. Hơn nữa, StarCoder vượt trội so với mọi mô hình được tinh chỉnh trên Python, có thể được kích hoạt để đạt 40% pass@1 trên HumanEval và vẫn duy trì hiệu suất trên các ngôn ngữ lập trình khác. Chúng tôi thực hiện một số bước quan trọng hướng tới việc phát hành mô hình truy cập mở an toàn, bao gồm quy trình xử lý thông tin cá nhân (PII) được cải tiến và công cụ theo dõi nguồn gốc mới, đồng thời công bố các mô hình StarCoder dưới một phiên bản giấy phép Open Responsible AI Model phù hợp hơn với mục đích thương mại.