O conteúdo deste site foi traduzido usando inteligência artificial (IA) ou tecnologia de tradução automática e pode conter erros.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder: Que a Fonte esteja com você!

View Publication

Author

Arjun Guha (Roblox + Northeastern University), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Northeastern University), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (Independente), Marc Marone (Johns Hopkins University), Christopher Akiki (Universidade de Leipzig + ScaDS.AI), Jia Li (Independente), Jenny Chim (Universidade Queen Mary de Londres), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Instituto de Tecnologia de Israel), Terry Yue Zhuo (Universidade Monash + Data61 do CSIRO), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + Universidade McGill), Armel Zebaze (HuggingFace), Ming-Ho Yee (Universidade Northeastern), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (Universidade da Colúmbia Britânica), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Universidade Técnica de Munique), Zhiruo Wang (Universidade Carnegie Mellon), Rudra Murthy (IBM Research), Jason Stillerman (Universidade de Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Independente), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Universidade de Notre Dame), Nour Fahmy (Universidade de Columbia), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Universidade de Notre Dame), Swayam Singh (Universidade de Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (Independente), Tony Lee (Universidade de Stanford), Nadav Timor (Instituto Weizmann de Ciências), Jennifer Ding (Instituto Alan Turing), Claire Schlesinger (Universidade Northeastern), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Forschungszentrum Jülich), Tri Dao (Universidade de Stanford), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (Independente), Siva Reddy (ServiceNow + Mila), Daniel Fried (Universidade Carnegie Mellon), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Transactions on Machine Learning Research (TMLR) 2023

Abstract

A comunidade BigCode, uma colaboração científica aberta que trabalha no desenvolvimento responsável de Grandes Modelos de Linguagem para Código (Code LLMs), apresenta o StarCoder e o StarCoderBase: modelos com 15,5 bilhões de parâmetros, comprimento de contexto de 8 mil, recursos de preenchimento e inferência rápida em grandes lotes, possibilitada pela atenção em múltiplas consultas. O StarCoderBase é treinado em 1 trilhão de tokens provenientes do The Stack, uma grande coleção de repositórios GitHub com licença permissiva, ferramentas de inspeção e um processo de exclusão voluntária. Ajustamos o StarCoderBase em 35 bilhões de tokens Python, resultando na criação do StarCoder. Realizamos a avaliação mais abrangente de LLMs de código até o momento e demonstramos que o StarCoderBase supera todos os LLMs de código abertos que suportam múltiplas linguagens de programação e iguala ou supera o modelo code-cushman-001 da OpenAI. Além disso, o StarCoder supera todos os modelos ajustados em Python, pode ser solicitado a atingir 40% de pass@1 no HumanEval e ainda mantém seu desempenho em outras linguagens de programação. Tomamos várias medidas importantes para o lançamento seguro de um modelo de acesso aberto, incluindo um pipeline aprimorado de supressão de PII e uma nova ferramenta de rastreamento de atribuição, e disponibilizamos publicamente os modelos StarCoder sob uma versão comercialmente mais viável da licença Open Responsible AI Model.