Le contenu de ce site a été traduit à l'aide de l'intelligence artificielle (IA) ou d'une technologie de traduction automatique, et peut contenir des erreurs.

Skip to content
Artificial Intelligence

SantaCoder : Ne visez pas trop haut !

Author

Loubna Ben Allal, Raymond Li, Denis Kocetkov, Chenghao Mou, Christopher Akiki, Carlos Munoz Ferrandis, Niklas Muennighoff, Mayank Mishra, Alex Gu, Manan Dey, Logesh Kumar Umapathi, Carolyn Jane Anderson, Yangtian Zi, Joel Lamy Poirier, Hailey Schoelkopf, Sergey Troshin, Dmitry Abulkhanov, Manuel Romero, Michael Lappert, Francesco De Toni, Bernardo García del Río, Qian Liu, Shamik Bose, Urvashi Bhattacharyya, Terry Yue Zhuo, Ian Yu, Paulo Villegas, Marco Zocca, Sourab Mangrulkar, David Lansky, Huu Nguyen, Danish Contractor, Luis Villa, Jia Li, Dzmitry Bahdanau, Yacine Jernite, Sean Hughes, Daniel Fried, Arjun Guha, Harm de Vries, Leandro von Werra

Venue

Atelier ICLR sur l'apprentissage profond pour le code 2023

Abstract

Le projet BigCode est une collaboration scientifique ouverte qui travaille au développement responsable de grands modèles linguistiques pour le code. Ce rapport technique décrit les progrès de la collaboration jusqu'en décembre 2022, en présentant l'état actuel du pipeline de masquage des informations personnelles identifiables (PII), les expériences menées pour réduire les risques liés à l'architecture du modèle, ainsi que les expériences visant à trouver de meilleures méthodes de prétraitement pour les données d'entraînement. Nous entraînons des modèles de 1,1 milliard de paramètres sur les sous-ensembles Java, JavaScript et Python de The Stack et les évaluons sur le benchmark MultiPL-E de conversion texte-code. Nous constatons qu'un filtrage plus agressif des quasi-doublons peut encore améliorer les performances et, de manière surprenante, que la sélection de fichiers provenant de dépôts ayant plus de 5 étoiles GitHub détériore considérablement les performances. Notre meilleur modèle surpasse les précédents modèles open source de génération de code multilingue (InCoder-6.7B et CodeGen-Multi-2.7B) tant en génération de gauche à droite qu’en remplissage sur les parties Java, JavaScript et Python de MultiPL-E, bien qu’il s’agisse d’un modèle nettement plus petit. Tous les modèles sont publiés sous licence OpenRAIL à cette URL https.