Author
Arjun Guha (Roblox + Northeastern University), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Northeastern University), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (Indipendente), Marc Marone (Johns Hopkins University), Christopher Akiki (Università di Lipsia + ScaDS.AI), Jia Li (Indipendente), Jenny Chim (Queen Mary University of London), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Israel Institute of Technology), Terry Yue Zhuo (Monash University + CSIRO’s Data61), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + McGill University), Armel Zebaze (HuggingFace), Ming-Ho Yee (Northeastern University), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (University of British Columbia), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Technical University of Munich), Zhiruo Wang (Carnegie Mellon University), Rudra Murthy (IBM Research), Jason Stillerman (University of Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Indipendente), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Università di Notre Dame), Nour Fahmy (Università di Columbia), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Università di Notre Dame), Swayam Singh (Università di Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (Indipendente), Tony Lee (Università di Stanford), Nadav Timor (Weizmann Institute of Science), Jennifer Ding (The Alan Turing Institute), Claire Schlesinger (Northeastern University), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Forschungszentrum Jülich), Tri Dao (Università di Stanford), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (Indipendente), Siva Reddy (ServiceNow + Mila), Daniel Fried (Carnegie Mellon University), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)
Venue
Transactions on Machine Learning Research (TMLR) 2023
Abstract
La comunità BigCode, una collaborazione scientifica aperta che lavora allo sviluppo responsabile di modelli linguistici di grandi dimensioni per il codice (Code LLM), presenta StarCoder e StarCoderBase: modelli da 15,5 miliardi di parametri con una lunghezza di contesto di 8K, capacità di infilling e inferenza veloce su grandi batch abilitata dall'attenzione multi-query. StarCoderBase è addestrato su 1 trilione di token provenienti da The Stack, una vasta raccolta di repository GitHub con licenza permissiva, dotati di strumenti di ispezione e di un processo di opt-out. Abbiamo ottimizzato StarCoderBase su 35 miliardi di token Python, ottenendo così StarCoder. Eseguiamo la valutazione più completa dei Code LLM fino ad oggi e dimostriamo che StarCoderBase supera ogni Code LLM open source che supporta più linguaggi di programmazione e eguaglia o supera il modello code-cushman-001 di OpenAI. Inoltre, StarCoder supera ogni modello ottimizzato su Python, può essere indotto a raggiungere il 40% di pass@1 su HumanEval e mantiene comunque le sue prestazioni su altri linguaggi di programmazione. Adottiamo diverse misure importanti per garantire un rilascio sicuro del modello ad accesso aperto, tra cui una pipeline migliorata per la redazione delle informazioni di identificazione personale (PII) e un nuovo strumento di tracciamento dell'attribuzione, e rendiamo i modelli StarCoder disponibili al pubblico sotto una versione commercialmente più sostenibile della licenza Open Responsible AI Model.