本网站内容使用人工智能(AI)或机器翻译技术翻译,可能存在错误。

Skip to content
Artificial Intelligence

SantaCoder:别好高骛远!

Author

卢布娜·本·阿拉尔,雷蒙德·李,丹尼斯·科切特科夫,牟成浩,克里斯托弗·阿基基,卡洛斯·穆诺兹·费兰迪斯,尼克拉斯·穆尼霍夫,马扬克·米什拉,亚历克斯·顾,马南·德伊,洛格什·库马尔·乌马帕蒂,卡罗琳·简·安德森, 子阳天、乔尔·拉米·波瓦里耶、海莉·舍尔科普夫、谢尔盖·特罗申、德米特里·阿布尔哈诺夫、曼努埃尔·罗梅罗、迈克尔·拉珀特、弗朗切斯科·德·托尼、贝尔纳多·加西亚·德尔·里奥、刘倩、沙米克·博斯、乌尔瓦希·巴塔查里亚、特里·岳卓、 伊恩·于、保罗·维莱加斯、马尔科·佐卡、苏拉布·曼格鲁尔卡、大卫·兰斯基、胡·阮、丹尼什·康特拉托、路易斯·维拉、李佳、德米特里·巴达瑙、亚辛·杰尔尼特、肖恩·休斯、丹尼尔·弗里德、阿琼·古哈、哈姆·德·弗里斯、莱安德罗·冯·韦拉

Venue

ICLR 2023 代码深度学习研讨会

Abstract

BigCode 项目是一项致力于代码大型语言模型负责任开发的开放科学合作项目。本技术报告概述了截至 2022 年 12 月的合作进展,包括个人身份信息 (PII) 脱敏管道的当前状态、为降低模型架构风险而进行的实验,以及针对训练数据探索更优预处理方法的实验。 我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数的模型,并在 MultiPL-E 文本转代码基准测试上对其进行评估。我们发现,对近似重复数据进行更严格的过滤可以进一步提升性能;令人惊讶的是,从 GitHub 星标数在 5 颗及以上的仓库中选择文件会显著降低性能。 尽管我们的最佳模型规模远小于现有开源多语言代码生成模型(如 InCoder-6.7B 和 CodeGen-Multi-2.7B),但在 MultiPL-E 数据集的 Java、JavaScript 和 Python 部分中,无论是从左到右的生成还是代码补全任务,其表现均优于这些模型。所有模型均已通过 OpenRAIL 许可证发布,详情请访问此 https 链接。