SantaCoder : Ne visez pas trop haut !
Author
Venue
Atelier ICLR sur l'apprentissage profond pour le code 2023
Abstract
Le projet BigCode est une collaboration scientifique ouverte qui travaille au développement responsable de grands modèles linguistiques pour le code. Ce rapport technique décrit les progrès de la collaboration jusqu'en décembre 2022, en présentant l'état actuel du pipeline de masquage des informations personnelles identifiables (PII), les expériences menées pour réduire les risques liés à l'architecture du modèle, ainsi que les expériences visant à trouver de meilleures méthodes de prétraitement pour les données d'entraînement. Nous entraînons des modèles de 1,1 milliard de paramètres sur les sous-ensembles Java, JavaScript et Python de The Stack et les évaluons sur le benchmark MultiPL-E de conversion texte-code. Nous constatons qu'un filtrage plus agressif des quasi-doublons peut encore améliorer les performances et, de manière surprenante, que la sélection de fichiers provenant de dépôts ayant plus de 5 étoiles GitHub détériore considérablement les performances. Notre meilleur modèle surpasse les précédents modèles open source de génération de code multilingue (InCoder-6.7B et CodeGen-Multi-2.7B) tant en génération de gauche à droite qu’en remplissage sur les parties Java, JavaScript et Python de MultiPL-E, bien qu’il s’agisse d’un modèle nettement plus petit. Tous les modèles sont publiés sous licence OpenRAIL à cette URL https.
