Bu sitedeki içerik yapay zeka (AI) veya makine çeviri teknolojisi kullanılarak çevrilmiştir ve hatalar içerebilir.

Skip to content
Artificial Intelligence
Natural Language Processing
Programming Languages

StarCoder: Kaynak seninle olsun!

View Publication

Author

Arjun Guha (Roblox + Northeastern Üniversitesi), Raymond Li (ServiceNow), Loubna Ben Allal (HuggingFace), Yangtian Zi (Northeastern Üniversitesi), Niklas Muennighoff (HuggingFace), Denis Kocetkov (ServiceNow), Chenghao Mou (Bağımsız), Marc Marone (Johns Hopkins Üniversitesi), Christopher Akiki (Leipzig Üniversitesi + ScaDS.AI), Jia Li (Bağımsız), Jenny Chim (Londra Queen Mary Üniversitesi), Qian Liu (Sea AI Lab), Evgenii Zheltonozhskii (Technion – İsrail Teknoloji Enstitüsü), Terry Yue Zhuo (Monash Üniversitesi + CSIRO’nun Data61), Thomas Wang (HuggingFace), Olivier Dehaene (HuggingFace), Mishig Davaadorj (HuggingFace), Joel Lamy-Poirier (ServiceNow), João Monteiro (ServiceNow), Oleh Shliazhko (ServiceNow), Nicolas Gontier (ServiceNow), Nicholas Meade (Mila + McGill Üniversitesi), Armel Zebaze (HuggingFace), Ming-Ho Yee (Northeastern Üniversitesi), Logesh Kumar Umapathi (Saama AI Araştırma Laboratuvarı), Jian Zhu (British Columbia Üniversitesi), Benjamin Lipkin (MIT), Muhtasham Oblokulov (Münih Teknik Üniversitesi), Zhiruo Wang (Carnegie Mellon Üniversitesi), Rudra Murthy (IBM Research), Jason Stillerman (Vermont Üniversitesi), Siva Sankalp Patel (IBM Research), Dmitry Abulkhanov (Bağımsız), Marco Zocca (UnfoldML), Manan Dey (SAP), Zhihan Zhang (Notre Dame Üniversitesi), Nour Fahmy (Columbia Üniversitesi), Urvashi Bhattacharyya (Discover Dollar Pvt Ltd), Wenhao Yu (Notre Dame Üniversitesi), Swayam Singh (Allahabad Üniversitesi), Sasha Luccioni (HuggingFace), Paulo Villegas (Telefonica I+D), Maxim Kunakov (Toloka), Fedor Zhdanov (Toloka), Manuel Romero (Bağımsız), Tony Lee (Stanford Üniversitesi), Nadav Timor (Weizmann Bilim Enstitüsü), Jennifer Ding (Alan Turing Enstitüsü), Claire Schlesinger (Northeastern Üniversitesi), Hailey Schoelkopf (Eleuther AI), Jan Ebert (Forschungszentrum Jülich), Tri Dao (Stanford Üniversitesi), Mayank Mishra (IBM Research), Alex Gu (MIT), Jennifer Robinson (ServiceNow), Carolyn Jane Anderson (Wellesley Koleji), Brendan Dolan-Gavitt (NYU), Danish Contractor (Bağımsız), Siva Reddy (ServiceNow + Mila), Daniel Fried (Carnegie Mellon Üniversitesi), Dzmitry Bahdanau (ServiceNow), Yacine Jernite (HuggingFace), Carlos Muñoz Ferrandis (HuggingFace), Sean Hughes (ServiceNow), Thomas Wolf (HuggingFace), Leandro von Werra (HuggingFace), Harm de Vries (ServiceNow)

Venue

Makine Öğrenimi Araştırmaları Dergisi (TMLR) 2023

Abstract

Kod için Büyük Dil Modelleri'nin (Code LLMs) sorumlu bir şekilde geliştirilmesi üzerine çalışan açık bilimsel bir işbirliği olan BigCode topluluğu, StarCoder ve StarCoderBase'i tanıtıyor: 8K bağlam uzunluğuna sahip 15,5 milyar parametreli modeller, doldurma yetenekleri ve çoklu sorgu dikkati ile mümkün kılınan hızlı büyük parti çıkarım. StarCoderBase, denetim araçları ve devre dışı bırakma süreci içeren, geniş bir izinli lisanslı GitHub depoları koleksiyonu olan The Stack'ten elde edilen 1 trilyon token üzerinde eğitilmiştir. StarCoderBase'i 35 milyar Python token üzerinde ince ayarladık ve sonuç olarak StarCoder'ı oluşturduk. Bugüne kadar Code LLM'leri üzerinde yapılan en kapsamlı değerlendirmeyi gerçekleştiriyoruz ve StarCoderBase'in, birden fazla programlama dilini destekleyen tüm açık Code LLM'lerden daha iyi performans gösterdiğini ve OpenAI code-cushman-001 modeline eşdeğer veya ondan daha iyi performans gösterdiğini ortaya koyuyoruz. Ayrıca, StarCoder, Python üzerinde ince ayarlanmış tüm modellerden daha iyi performans gösteriyor, HumanEval'da %40 pass@1'e ulaşacak şekilde yönlendirilebiliyor ve diğer programlama dillerinde de performansını koruyor. Geliştirilmiş bir PII redaksiyon boru hattı ve yeni bir atıf izleme aracı dahil olmak üzere, güvenli bir açık erişim model sürümüne yönelik birkaç önemli adım atıyoruz ve StarCoder modellerini, Open Responsible AI Model lisansının ticari olarak daha uygun bir sürümü altında kamuya açık hale getiriyoruz.