SantaCoder: Não tente alcançar as estrelas!
Author
Venue
Workshop ICLR sobre Deep Learning para Código 2023
Abstract
O projeto BigCode é uma colaboração científica aberta que trabalha no desenvolvimento responsável de grandes modelos de linguagem para código. Este relatório técnico descreve o progresso da colaboração até dezembro de 2022, delineando o estado atual do pipeline de supressão de Informações de Identificação Pessoal (PII), os experimentos conduzidos para reduzir os riscos da arquitetura do modelo e os experimentos que investigam melhores métodos de pré-processamento para os dados de treinamento. Treinamos modelos com 1,1 bilhão de parâmetros nos subconjuntos Java, JavaScript e Python do The Stack e os avaliamos no benchmark de texto para código MultiPL-E. Constatamos que uma filtragem mais agressiva de quase-duplicatas pode aumentar ainda mais o desempenho e, surpreendentemente, que a seleção de arquivos de repositórios com mais de 5 estrelas no GitHub deteriora significativamente o desempenho. Nosso melhor modelo supera os modelos de geração de código multilíngue de código aberto anteriores (InCoder-6,7B e CodeGen-Multi-2,7B) tanto na geração da esquerda para a direita quanto no preenchimento nas partes de Java, JavaScript e Python do MultiPL-E, apesar de ser um modelo substancialmente menor. Todos os modelos são lançados sob uma licença OpenRAIL neste URL https.
