O conteúdo deste site foi traduzido usando inteligência artificial (IA) ou tecnologia de tradução automática e pode conter erros.

Skip to content
Artificial Intelligence

SantaCoder: Não tente alcançar as estrelas!

Author

Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra

Venue

Workshop ICLR sobre Deep Learning para Código 2023

Abstract

O projeto BigCode é uma colaboração científica aberta que trabalha no desenvolvimento responsável de grandes modelos de linguagem para código. Este relatório técnico descreve o progresso da colaboração até dezembro de 2022, delineando o estado atual do pipeline de supressão de Informações de Identificação Pessoal (PII), os experimentos conduzidos para reduzir os riscos da arquitetura do modelo e os experimentos que investigam melhores métodos de pré-processamento para os dados de treinamento. Treinamos modelos com 1,1 bilhão de parâmetros nos subconjuntos Java, JavaScript e Python do The Stack e os avaliamos no benchmark de texto para código MultiPL-E. Constatamos que uma filtragem mais agressiva de quase-duplicatas pode aumentar ainda mais o desempenho e, surpreendentemente, que a seleção de arquivos de repositórios com mais de 5 estrelas no GitHub deteriora significativamente o desempenho. Nosso melhor modelo supera os modelos de geração de código multilíngue de código aberto anteriores (InCoder-6,7B e CodeGen-Multi-2,7B) tanto na geração da esquerda para a direita quanto no preenchimento nas partes de Java, JavaScript e Python do MultiPL-E, apesar de ser um modelo substancialmente menor. Todos os modelos são lançados sob uma licença OpenRAIL neste URL https.