Treści na tej stronie zostały przetłumaczone przy użyciu sztucznej inteligencji (AI) lub technologii tłumaczenia maszynowego i mogą zawierać błędy.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder: Niech Źródło będzie z Tobą!

View Publication

Author

Arjun Guha (Roblox + Uniwersytet Northeastern), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Uniwersytet Northeastern), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (niezależny), Marc Marone (Uniwersytet Johna Hopkinsa), Christopher Akiki (Uniwersytet w Lipsku + ScaDS.AI), Jia Li (niezależny), Jenny Chim (Queen Mary University of London), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – Israel Institute of Technology), Terry Yue Zhuo (Uniwersytet Monash + CSIRO’s Data61), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + McGill University), Armel Zebaze (HuggingFace), Ming-Ho Yee (Northeastern University), Logesh Kumar Umapathi (Saama AI Research Lab), Jian Zhu (University of British Columbia), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Technical University of Munich), Zhiruo Wang (Uniwersytet Carnegie Mellon), Rudra Murthy (IBM Research), Jason Stillerman (Uniwersytet Vermont), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (niezależny), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Uniwersytet Notre Dame), Nour Fahmy (Uniwersytet Columbia), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Uniwersytet Notre Dame), Swayam Singh (Uniwersytet w Allahabadzie), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (niezależny), Tony Lee (Uniwersytet Stanforda), Nadav Timor (Instytut Naukowy Weizmanna), Jennifer Ding (Instytut Alana Turinga), Claire Schlesinger (Uniwersytet Northeastern), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Centrum Badawcze Jülich), Tri Dao (Uniwersytet Stanforda), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley College), Brendan Dolan-Gavitt (NYU), Danish Contractor (niezależny), Siva Reddy (ServiceNow + Mila), Daniel Fried (Uniwersytet Carnegie Mellon), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Transactions on Machine Learning Research (TMLR) 2023

Abstract

Społeczność BigCode, otwarta inicjatywa naukowa zajmująca się odpowiedzialnym rozwojem dużych modeli językowych dla kodu (Code LLMs), przedstawia StarCoder i StarCoderBase: modele o 15,5 mld parametrów z długością kontekstu 8 tys., możliwościami uzupełniania oraz szybkim wnioskowaniem w dużych partiach, umożliwionym dzięki uwadze wielokrotnego zapytania. StarCoderBase jest trenowany na 1 bilionie tokenów pochodzących z The Stack, dużej kolekcji repozytoriów GitHub na licencji permissive, wyposażonych w narzędzia do kontroli i proces rezygnacji. Dostosowaliśmy StarCoderBase na 35 miliardach tokenów w języku Python, co zaowocowało stworzeniem StarCoder. Przeprowadzamy najbardziej kompleksową jak dotąd ocenę modeli LLM do kodowania i pokazujemy, że StarCoderBase przewyższa każdy otwarty model LLM do kodowania, który obsługuje wiele języków programowania, a także dorównuje lub przewyższa model OpenAI code-cushman-001. Co więcej, StarCoder przewyższa każdy model dostrojony pod kątem języka Python, może osiągnąć 40% pass@1 w HumanEval i nadal zachowuje swoją wydajność w innych językach programowania. Podejmujemy kilka ważnych kroków w kierunku bezpiecznego udostępnienia modelu w trybie otwartego dostępu, w tym ulepszony proces redagowania danych osobowych (PII) oraz nowatorskie narzędzie do śledzenia atrybucji, a także udostępniamy modele StarCoder publicznie na podstawie bardziej opłacalnej komercyjnie wersji licencji Open Responsible AI Model.