Le contenu de ce site a été traduit à l'aide de l'intelligence artificielle (IA) ou d'une technologie de traduction automatique, et peut contenir des erreurs.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder : Que la Source soit avec vous !

View Publication

Author

Arjun Guha (Roblox + Université Northeastern), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Université Northeastern), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (indépendant), Marc Marone (Université Johns Hopkins), Christopher Akiki (Université de Leipzig + ScaDS.AI), Jia Li (indépendant), Jenny Chim (Université Queen Mary de Londres), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Institut israélien de technologie), Terry Yue Zhuo (Université Monash + Data61 du CSIRO), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + Université McGill), Armel Zebaze (HuggingFace), Ming-Ho Yee (Université Northeastern), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (Université de Colombie-Britannique), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Université technique de Munich), Zhiruo Wang (Université Carnegie Mellon), Rudra Murthy (IBM Research), Jason Stillerman (Université du Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Indépendant), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Université de Notre Dame), Nour Fahmy (Université de Columbia), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Université de Notre Dame), Swayam Singh (Université d'Allahabad), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (indépendant), Tony Lee (Université de Stanford), Nadav Timor (Institut Weizmann des sciences), Jennifer Ding (Institut Alan Turing), Claire Schlesinger (Université Northeastern), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Centre de recherche de Jülich), Tri Dao (Université de Stanford), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (indépendant), Siva Reddy (ServiceNow + Mila), Daniel Fried (Université Carnegie Mellon), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Transactions on Machine Learning Research (TMLR) 2023

Abstract

La communauté BigCode, une collaboration scientifique ouverte travaillant au développement responsable de grands modèles linguistiques pour le code (Code LLMs), présente StarCoder et StarCoderBase : des modèles de 15,5 milliards de paramètres avec une longueur de contexte de 8 000 caractères, des capacités de remplissage et une inférence rapide par lots volumineux rendue possible par l'attention multi-requêtes. StarCoderBase est entraîné sur 1 000 milliards de tokens provenant de The Stack, une vaste collection de dépôts GitHub sous licence permissive, dotée d'outils d'inspection et d'un processus de désinscription. Nous avons affiné StarCoderBase sur 35 milliards de tokens Python, ce qui a abouti à la création de StarCoder. Nous réalisons l'évaluation la plus complète des LLM de code à ce jour et démontrons que StarCoderBase surpasse tous les LLM de code ouverts prenant en charge plusieurs langages de programmation, et qu'il égale ou surpasse le modèle code-cushman-001 d'OpenAI. De plus, StarCoder surpasse tous les modèles affinés sur Python, peut être incité à atteindre un taux de réussite de 40 % sur HumanEval, tout en conservant ses performances sur d'autres langages de programmation. Nous prenons plusieurs mesures importantes en vue d’une publication sûre et en libre accès du modèle, notamment un pipeline amélioré de masquage des informations personnelles identifiables (PII) et un nouvel outil de traçabilité des attributions, et nous rendons les modèles StarCoder accessibles au public sous une version plus viable commercialement de la licence Open Responsible AI Model.