StarCoder: ¡Que la Fuente te acompañe!

Share

Author

Arjun Guha (Roblox + Universidad Northeastern), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Universidad Northeastern), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (independiente), Marc Marone (Universidad Johns Hopkins), Christopher Akiki (Universidad de Leipzig + ScaDS.AI), Jia Li (independiente), Jenny Chim (Universidad Queen Mary de Londres), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Instituto Tecnológico de Israel), Terry Yue Zhuo (Universidad Monash + Data61 del CSIRO), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + Universidad McGill), Armel Zebaze (HuggingFace), Ming-Ho Yee (Universidad Northeastern), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (Universidad de Columbia Británica), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Universidad Técnica de Múnich), Zhiruo Wang (Universidad Carnegie Mellon), Rudra Murthy (IBM Research), Jason Stillerman (Universidad de Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Independiente), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Universidad de Notre Dame), Nour Fahmy (Universidad de Columbia), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Universidad de Notre Dame), Swayam Singh (Universidad de Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefónica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (independiente), Tony Lee (Universidad de Stanford), Nadav Timor (Instituto Weizmann de Ciencias), Jennifer Ding (Instituto Alan Turing), Claire Schlesinger (Universidad Northeastern), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Forschungszentrum Jülich), Tri Dao (Universidad de Stanford), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (independiente), Siva Reddy (ServiceNow + Mila), Daniel Fried (Universidad Carnegie Mellon), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Transactions on Machine Learning Research (TMLR) 2023

Abstract

La comunidad BigCode, una colaboración científica abierta dedicada al desarrollo responsable de grandes modelos de lenguaje para código (Code LLMs), presenta StarCoder y StarCoderBase: modelos de 15 500 millones de parámetros con una longitud de contexto de 8 000, capacidades de interpolación y una rápida inferencia de lotes grandes gracias a la atención multiconferencia. StarCoderBase se ha entrenado con 1 billón de tokens procedentes de The Stack, una gran colección de repositorios de GitHub con licencias permisivas que cuenta con herramientas de inspección y un proceso de exclusión voluntaria. Hemos ajustado StarCoderBase con 35 000 millones de tokens de Python, lo que ha dado lugar a la creación de StarCoder. Llevamos a cabo la evaluación más exhaustiva de los LLM de código hasta la fecha y demostramos que StarCoderBase supera a todos los LLM de código abiertos que admiten múltiples lenguajes de programación y iguala o supera al modelo code-cushman-001 de OpenAI. Además, StarCoder supera a todos los modelos ajustados en Python, puede alcanzar un 40 % de pass@1 en HumanEval y sigue manteniendo su rendimiento en otros lenguajes de programación. Damos varios pasos importantes hacia un lanzamiento seguro del modelo de acceso abierto, incluyendo un proceso mejorado de supresión de información de identificación personal (PII) y una novedosa herramienta de rastreo de atribución, y ponemos a disposición del público los modelos StarCoder bajo una versión más viable comercialmente de la licencia Open Responsible AI Model.