SantaCoder: ¡No intentes alcanzar las estrellas!
Author
Venue
Taller ICLR sobre aprendizaje profundo para código 2023
Abstract
El proyecto BigCode es una colaboración científica abierta que trabaja en el desarrollo responsable de grandes modelos de lenguaje para código. Este informe técnico describe los avances de la colaboración hasta diciembre de 2022, resumiendo el estado actual del proceso de supresión de información de identificación personal (PII), los experimentos realizados para reducir el riesgo de la arquitectura del modelo y los experimentos que investigan mejores métodos de preprocesamiento para los datos de entrenamiento. Entrenamos modelos de 1.100 millones de parámetros en los subconjuntos de Java, JavaScript y Python de The Stack y los evaluamos en el benchmark de texto a código MultiPL-E. Hemos observado que un filtrado más agresivo de los casi duplicados puede mejorar aún más el rendimiento y, sorprendentemente, que seleccionar archivos de repositorios con más de 5 estrellas en GitHub deteriora el rendimiento de forma significativa. Nuestro mejor modelo supera a los modelos de generación de código multilingüe de código abierto anteriores (InCoder-6.7B y CodeGen-Multi-2.7B) tanto en la generación de izquierda a derecha como en el rellenado de las partes de Java, JavaScript y Python de MultiPL-E, a pesar de ser un modelo sustancialmente más pequeño. Todos los modelos se publican bajo una licencia OpenRAIL en esta URL de https.
