中国科技网

AI
手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

大模型“自动修复bug”能力将大大提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

2025-04-11 07:44:56 来源:IT之家 A+A-

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

  • 首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

  • 引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(HARd)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

  • 1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

附开源链接:

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:

  • 论文链接:https://arxiv.org/ abs / 2504.02605

  • 榜单链接:https://multi-swe-bench.github.io

  • 代码链接:https://github.com/ multi-swe-bench / multi-swe-bench

  • 数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench

(责任编辑:Diy92)

推荐阅读 相关文章

传OpenAI拟扩员至8000人 年底从4500人增加

有消息称OpenAI计划在今年底前将员工规模从目前的约4500人扩充至8000人,扩员重点集中在模型安全、多模态研发...[详细]

2026-03-28 09:34:26

马斯克宣布Grok Computer智能体即将上线

马斯克日前在社交平台宣布,xAI开发的Grok Computer智能体即将上线,定位为具备自主任务执行与多工具调用能力的...[详细]

2026-03-28 09:34:26

MiniMax高峰期限流 MiniMax M2.7模型热度超预期

MiniMax官方确认,因M2.7模型在近期高峰时段用户请求量远超预期,已启动临时限流措施以保障服务稳定性。M2.7模...[详细]

2026-03-28 09:34:26

小米MiMo大模型联合多Agent框架 首周限免开放

小米发布MiMo大模型并与自研多Agent框架深度整合,首周面向开发者与特定用户限免开放。MiMo在多轮对话、跨模...[详细]

2026-03-28 09:34:26

美团开源LongCat大模型 Flash-Prover 刷新SOTA

美团近日宣布开源LongCat大模型及其配套Flash-Prover推理验证框架,LongCat在多项长文本理解与生成任务中刷新...[详细]

2026-03-28 09:34:26

月之暗面回应KimiK2.5 Cursor使用并感谢马斯克发声

月之暗面就KimiK2.5在Cursor编辑器的使用情况作出回应,确认该模型已支持在Cursor中调用并完成代码生成、补全...[详细]

2026-03-29 10:52:06

软银拟在美建AI数据中心 全球最大投660亿美元

软银集团宣布计划在美国建设全球规模最大的AI数据中心,总投资额约660亿美元,选址聚焦电力资源丰富且网络延迟...[详细]

2026-03-29 10:52:06

WordPress.com接入AI智能体 可代写及优化SEO

WordPress.com日前宣布接入AI智能体功能,支持为用户代写博客文章并自动优化搜索引擎排名要素。该智能体基于...[详细]

2026-03-29 10:52:06

彭博社称马斯克派xAI工程师争夺xAI OpenAI客户

彭博社报道,马斯克已派遣旗下xAI的工程师团队主动接触部分OpenAI的企业客户,试图以算力优惠与定制化模型服务...[详细]

2026-03-29 10:52:06

美国男子用AI诈骗写歌+机器人刷量骗千万美元版税被抓

美国执法部门日前逮捕一名男子,其利用生成式AI创作歌曲并借助机器人账号在流媒体平台大量刷播放量,以此骗取超...[详细]

2026-03-29 10:52:06

联系方式

商务QQ:19667318