Artificial Intelligence
SantaCoder:别好高骛远!
Author
Venue
ICLR 2023 代码深度学习研讨会
Abstract
BigCode 项目是一项致力于代码大型语言模型负责任开发的开放科学合作项目。本技术报告概述了截至 2022 年 12 月的合作进展,包括个人身份信息 (PII) 脱敏管道的当前状态、为降低模型架构风险而进行的实验,以及针对训练数据探索更优预处理方法的实验。 我们在 The Stack 的 Java、JavaScript 和 Python 子集上训练了 11 亿参数的模型,并在 MultiPL-E 文本转代码基准测试上对其进行评估。我们发现,对近似重复数据进行更严格的过滤可以进一步提升性能;令人惊讶的是,从 GitHub 星标数在 5 颗及以上的仓库中选择文件会显著降低性能。 尽管我们的最佳模型规模远小于现有开源多语言代码生成模型(如 InCoder-6.7B 和 CodeGen-Multi-2.7B),但在 MultiPL-E 数据集的 Java、JavaScript 和 Python 部分中,无论是从左到右的生成还是代码补全任务,其表现均优于这些模型。所有模型均已通过 OpenRAIL 许可证发布,详情请访问此 https 链接。
