StarCoder: May the Source be With You!

Author

Arjun Guha (Roblox + Northeastern University), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Northeastern University), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (zelfstandig), Marc Marone (Johns Hopkins University), Christopher Akiki (Universiteit van Leipzig + ScaDS.AI), Jia Li (zelfstandig), Jenny Chim (Queen Mary University of London), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Israel Institute of Technology), Terry Yue Zhuo (Monash University + CSIRO’s Data61), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + McGill University), Armel Zebaze (HuggingFace), Ming-Ho Yee (Northeastern University), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (University of British Columbia), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Technische Universiteit München), Zhiruo Wang (Carnegie Mellon University), Rudra Murthy (IBM Research), Jason Stillerman (University of Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Independent), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Universiteit van Notre Dame), Nour Fahmy (Columbia University), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Universiteit van Notre Dame), Swayam Singh (Universiteit van Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (zelfstandig), Tony Lee (Stanford University), Nadav Timor (Weizmann Institute of Science), Jennifer Ding (The Alan Turing Institute), Claire Schlesinger (Northeastern University), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Forschungszentrum Jülich), Tri Dao (Stanford University), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (zelfstandig), Siva Reddy (ServiceNow + Mila), Daniel Fried (Carnegie Mellon University), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Transactions on Machine Learning Research (TMLR) 2023

Abstract

De BigCode-gemeenschap, een open-wetenschappelijk samenwerkingsverband dat zich bezighoudt met de verantwoorde ontwikkeling van Large Language Models for Code (Code LLMs), introduceert StarCoder en StarCoderBase: modellen met 15,5 miljard parameters, een contextlengte van 8K, invulmogelijkheden en snelle inferentie van grote batches dankzij multi-query attention. StarCoderBase is getraind op 1 biljoen tokens afkomstig van The Stack, een grote verzameling GitHub-repositories met een permissieve licentie, inspectietools en een opt-out-proces. We hebben StarCoderBase gefinetuned op 35 miljard Python-tokens, wat heeft geresulteerd in de creatie van StarCoder. We voeren de meest uitgebreide evaluatie van Code LLM's tot nu toe uit en laten zien dat StarCoderBase beter presteert dan elke open Code LLM die meerdere programmeertalen ondersteunt en even goed of beter presteert dan het OpenAI code-cushman-001-model. Bovendien presteert StarCoder beter dan elk model dat is gefinetuned op Python, kan worden gestimuleerd om 40% pass@1 te behalen op HumanEval, en behoudt het zijn prestaties op andere programmeertalen. We nemen verschillende belangrijke stappen in de richting van een veilige open-access modelrelease, waaronder een verbeterde PII-redactiepijplijn en een nieuwe tool voor het traceren van attributie, en maken de StarCoder-modellen openbaar beschikbaar onder een commercieel beter haalbare versie van de Open Responsible AI Model-licentie.

Bouw samen met ons aan de toekomst

Alle vacatures bekijken

Nieuwste

Meer resultaten

StarCoder: May the Source be With You!

Author

Venue

Abstract

Bouw samen met ons aan de toekomst

StarCoder: May the Source be With You!

Author

Venue

Abstract

Related Publications

CubePart: een 3D-generator met open vocabulaire en regelbare onderdelen

Grimlock: Guarding High-Agency Systems with eBPF and Attested Channels

Catalog-Native LLM: Sprekende Item-ID-dialecten met minder verstrengeling voor aanbevelingen

Bouw samen met ons aan de toekomst