Author
Arjun Guha (Roblox + Northeastern University), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Northeastern University), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (selbstständig), Marc Marone (Johns Hopkins University), Christopher Akiki (Universität Leipzig + ScaDS.AI), Jia Li (selbstständig), Jenny Chim (Queen Mary University of London), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Israel Institute of Technology), Terry Yue Zhuo (Monash University + CSIRO’s Data61), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + McGill University), Armel Zebaze (HuggingFace), Ming-Ho Yee (Northeastern University), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (University of British Columbia), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Technische Universität München), Zhiruo Wang (Carnegie Mellon University), Rudra Murthy (IBM Research), Jason Stillerman (University of Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (selbstständig), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (University of Notre Dame), Nour Fahmy (Columbia University), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (University of Notre Dame), Swayam Singh (University of Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (unabhängig), Tony Lee (Stanford University), Nadav Timor (Weizmann Institute of Science), Jennifer Ding (The Alan Turing Institute), Claire Schlesinger (Northeastern University), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Forschungszentrum Jülich), Tri Dao (Stanford University), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (selbstständig), Siva Reddy (ServiceNow + Mila), Daniel Fried (Carnegie Mellon University), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)
Venue
Transactions on Machine Learning Research (TMLR) 2023
Abstract
Die BigCode-Community, eine wissenschaftliche Open-Access-Kooperation, die sich mit der verantwortungsvollen Entwicklung von Large Language Models for Code (Code LLMs) befasst, stellt StarCoder und StarCoderBase vor: Modelle mit 15,5 Milliarden Parametern, einer Kontextlänge von 8.000 Zeichen, Infilling-Fähigkeiten und schneller Large-Batch-Inferenz dank Multi-Query-Attention. StarCoderBase wurde auf 1 Billion Token trainiert, die aus The Stack stammen, einer großen Sammlung von GitHub-Repositorys mit freizügigen Lizenzen, Inspektionstools und einem Opt-out-Verfahren. Wir haben StarCoderBase auf 35 Milliarden Python-Tokens feinabgestimmt, was zur Entwicklung von StarCoder führte. Wir führen die bislang umfassendste Bewertung von Code-LLMs durch und zeigen, dass StarCoderBase jedes offene Code-LLM übertrifft, das mehrere Programmiersprachen unterstützt, und das OpenAI-Modell „code-cushman-001“ erreicht oder übertrifft. Darüber hinaus übertrifft StarCoder jedes Modell, das auf Python feinabgestimmt ist, kann so angesteuert werden, dass es bei HumanEval 40 % pass@1 erreicht, und behält dennoch seine Leistung bei anderen Programmiersprachen bei. Wir unternehmen mehrere wichtige Schritte in Richtung einer sicheren Veröffentlichung des Modells unter Open Access, darunter eine verbesserte Pipeline zur Schwärzung personenbezogener Daten und ein neuartiges Tool zur Rückverfolgung von Urheberschaft, und stellen die StarCoder-Modelle unter einer kommerziell besser nutzbaren Version der Open Responsible AI Model-Lizenz öffentlich zur Verfügung.