El contenido de este sitio se ha traducido mediante inteligencia artificial (IA) o tecnología de traducción automática, y puede contener errores.

Skip to content
Artificial Intelligence

SantaCoder: ¡No intentes alcanzar las estrellas!

Author

Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Muñoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra

Venue

Taller ICLR sobre aprendizaje profundo para código 2023

Abstract

El proyecto BigCode es una colaboración científica abierta que trabaja en el desarrollo responsable de grandes modelos de lenguaje para código. Este informe técnico describe los avances de la colaboración hasta diciembre de 2022, resumiendo el estado actual del proceso de supresión de información de identificación personal (PII), los experimentos realizados para reducir el riesgo de la arquitectura del modelo y los experimentos que investigan mejores métodos de preprocesamiento para los datos de entrenamiento. Entrenamos modelos de 1.100 millones de parámetros en los subconjuntos de Java, JavaScript y Python de The Stack y los evaluamos en el benchmark de texto a código MultiPL-E. Hemos observado que un filtrado más agresivo de los casi duplicados puede mejorar aún más el rendimiento y, sorprendentemente, que seleccionar archivos de repositorios con más de 5 estrellas en GitHub deteriora el rendimiento de forma significativa. Nuestro mejor modelo supera a los modelos de generación de código multilingüe de código abierto anteriores (InCoder-6.7B y CodeGen-Multi-2.7B) tanto en la generación de izquierda a derecha como en el rellenado de las partes de Java, JavaScript y Python de MultiPL-E, a pesar de ser un modelo sustancialmente más pequeño. Todos los modelos se publican bajo una licencia OpenRAIL en esta URL de https.