Konten di situs ini telah diterjemahkan menggunakan kecerdasan buatan (AI) atau teknologi penerjemahan mesin, dan mungkin terdapat kesalahan.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder: Semoga Sumbernya Bersamamu!

View Publication

Author

Arjun Guha (Roblox + Universitas Northeastern), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Universitas Northeastern), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (Independen), Marc Marone (Universitas Johns Hopkins), Christopher Akiki (Leipzig University + ScaDS.AI), Jia Li (Independen), Jenny Chim (Queen Mary University of London), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Israel Institute of Technology), Terry Yue Zhuo (Universitas Monash + Data61 CSIRO), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + McGill University), Armel Zebaze (HuggingFace), Ming-Ho Yee (Northeastern University), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (University of British Columbia), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Technical University of Munich), Zhiruo Wang (Universitas Carnegie Mellon), Rudra Murthy (IBM Research), Jason Stillerman (Universitas Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Independen), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Universitas Notre Dame), Nour Fahmy (Universitas Columbia), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Universitas Notre Dame), Swayam Singh (Universitas Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (Independen), Tony Lee (Universitas Stanford), Nadav Timor (Institut Sains Weizmann), Jennifer Ding (Institut Alan Turing), Claire Schlesinger (Universitas Northeastern), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Forschungszentrum Jülich), Tri Dao (Universitas Stanford), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (Independen), Siva Reddy (ServiceNow + Mila), Daniel Fried (Universitas Carnegie Mellon), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Transactions on Machine Learning Research (TMLR) 2023

Abstract

Komunitas BigCode, sebuah kolaborasi ilmiah terbuka yang berfokus pada pengembangan yang bertanggung jawab atas Model Bahasa Besar untuk Kode (Code LLMs), memperkenalkan StarCoder dan StarCoderBase: model dengan 15,5 miliar parameter, panjang konteks 8.000 token, kemampuan pengisian celah, dan inferensi batch besar yang cepat berkat perhatian multi-kueri. StarCoderBase dilatih menggunakan 1 triliun token yang bersumber dari The Stack, sebuah koleksi besar repositori GitHub berlisensi permisif yang dilengkapi dengan alat inspeksi dan proses opt-out. Kami menyempurnakan StarCoderBase menggunakan 35 miliar token Python, yang menghasilkan StarCoder. Kami melakukan evaluasi paling komprehensif terhadap Code LLMs hingga saat ini dan menunjukkan bahwa StarCoderBase mengungguli setiap Code LLM terbuka yang mendukung beberapa bahasa pemrograman serta setara atau mengungguli model OpenAI code-cushman-001. Selain itu, StarCoder mengungguli setiap model yang disempurnakan pada Python, dapat diarahkan untuk mencapai 40% pass@1 pada HumanEval, dan tetap mempertahankan kinerjanya pada bahasa pemrograman lain. Kami mengambil beberapa langkah penting menuju peluncuran model akses terbuka yang aman, termasuk pipa penyuntingan PII yang ditingkatkan dan alat pelacakan atribusi yang inovatif, serta membuat model StarCoder tersedia untuk umum di bawah versi lisensi Open Responsible AI Model yang lebih layak secara komersial.