De content op deze site is vertaald met behulp van kunstmatige intelligentie (AI) of machinevertalingstechnologie en kan fouten bevatten.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder: May the Source be With You!

View Publication

Author

Arjun Guha (Roblox + Northeastern University), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Northeastern University), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (zelfstandig), Marc Marone (Johns Hopkins University), Christopher Akiki (Universiteit van Leipzig + ScaDS.AI), Jia Li (zelfstandig), Jenny Chim (Queen Mary University of London), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Israel Institute of Technology), Terry Yue Zhuo (Monash University + CSIRO’s Data61), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + McGill University), Armel Zebaze (HuggingFace), Ming-Ho Yee (Northeastern University), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (University of British Columbia), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Technische Universiteit München), Zhiruo Wang (Carnegie Mellon University), Rudra Murthy (IBM Research), Jason Stillerman (University of Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Independent), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Universiteit van Notre Dame), Nour Fahmy (Columbia University), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Universiteit van Notre Dame), Swayam Singh (Universiteit van Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (zelfstandig), Tony Lee (Stanford University), Nadav Timor (Weizmann Institute of Science), Jennifer Ding (The Alan Turing Institute), Claire Schlesinger (Northeastern University), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Forschungszentrum Jülich), Tri Dao (Stanford University), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (zelfstandig), Siva Reddy (ServiceNow + Mila), Daniel Fried (Carnegie Mellon University), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Transactions on Machine Learning Research (TMLR) 2023

Abstract

De BigCode-gemeenschap, een open-wetenschappelijk samenwerkingsverband dat zich bezighoudt met de verantwoorde ontwikkeling van Large Language Models for Code (Code LLMs), introduceert StarCoder en StarCoderBase: modellen met 15,5 miljard parameters, een contextlengte van 8K, invulmogelijkheden en snelle inferentie van grote batches dankzij multi-query attention. StarCoderBase is getraind op 1 biljoen tokens afkomstig van The Stack, een grote verzameling GitHub-repositories met een permissieve licentie, inspectietools en een opt-out-proces. We hebben StarCoderBase gefinetuned op 35 miljard Python-tokens, wat heeft geresulteerd in de creatie van StarCoder. We voeren de meest uitgebreide evaluatie van Code LLM's tot nu toe uit en laten zien dat StarCoderBase beter presteert dan elke open Code LLM die meerdere programmeertalen ondersteunt en even goed of beter presteert dan het OpenAI code-cushman-001-model. Bovendien presteert StarCoder beter dan elk model dat is gefinetuned op Python, kan worden gestimuleerd om 40% pass@1 te behalen op HumanEval, en behoudt het zijn prestaties op andere programmeertalen. We nemen verschillende belangrijke stappen in de richting van een veilige open-access modelrelease, waaronder een verbeterde PII-redactiepijplijn en een nieuwe tool voor het traceren van attributie, en maken de StarCoder-modellen openbaar beschikbaar onder een commercieel beter haalbare versie van de Open Responsible AI Model-licentie.