代码大模子越来越卷,评估AI编程水平的“考卷”也被动升级。12月5日,字节豆包大模子团队开源最新代码大模子评估基准FullStack Bench,在业界初次囊括编程全栈工夫中超11类着实场景,隐秘16种编程言语,包含3374个问题,比拟此前基准,不错更灵验地评估大模子在现实全国中的代码成立才调。
代码评估基准是揣度大模子编程才调的程序器具,亦然鼓吹模子优化的要道驱能源。不外,现时的代码评估基准隐秘的诳骗类型和编程言语较为有限,难以反馈着实全国中代码成态度景的各样性和复杂性。
比如,主流代码评测集HumanEval和MBPP中近80%数据只聚焦基础编程和高档编程问题;DS-1000中95%数据皆聚合于数据分析和机器学习任务,且仅对Python言语进行评测;xCodeEval虽隐秘多项任务,但基本局限于高档编程和数学限度。
因此,字节豆包大模子团队与M-A-P开源社区统一提议FullStack Bench,一个专注于全栈编程和多言语编程的代码评估数据集。为囊括在着实全栈成立中波及的各种诳骗场景,护士团队从人人最大的法子职工夫问答社区Stack Overflow中当场抽取了50万个问题进行分析,筛选出占总问题数前88.1%的诳骗限度,并对其别离作念了相宜盘曲来保证每个限度的鲁棒性,最终酿成了FullStack Bench关爱的擢升11种诳骗场景及别离比例。
FullStack Bench包含3374个问题,每个问题均包括题目形色、参考惩办决策及单位测试用例,共计15168个单位测试。为保证评估准确性,问题履行均由相关限度的编程众人规划,并经AI和东谈主工考据进行质地复核。在驱动数据集构建后,团队阐发主流代码大模子测试效果,按问题难度、缺乏性和可解性对数据质地进行了交叉评估和进一步完善。
FullStack Bench数据集组成情况
为便捷成立者对大模子代码才调进行系统性测试,豆包大模子团队还开源了一款高效的代码沙盒施行器具——SandboxFusion,用于评估来自不同言语的不同编程任务。除了FullStack Bench,SandboxFusion还兼容擢升10种浅薄使用的代码评估数据集,支握23种编程言语。成立者在单奇迹器上即可雷同部署SandboxFusion,也可径直在GitHub上进行体验。
发布评测基准及沙盒的同期,字节代码大模子也初次曝光。护士中,豆包大模子团队对人人20余款代码大模子及言语大模子的编程发达进行了评测(详见论文),其中包括未泄漏过的豆包代码大模子Doubao-Coder。
近半年,字节在代码大模子限度进展赶紧,本年6月字节发布了由自研代码基座模子撑握的AI编程助手豆包MarsCode,现在每月为用户孝顺百万量级代码。