科技中国

AI
业界 手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

大模型“自动修复bug”能力将大大提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

2025-04-11 07:44:56 来源:IT之家 A+A-

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

  • 首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

  • 引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(HARd)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

  • 1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

附开源链接:

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:

  • 论文链接:https://arxiv.org/ abs / 2504.02605

  • 榜单链接:https://multi-swe-bench.github.io

  • 代码链接:https://github.com/ multi-swe-bench / multi-swe-bench

  • 数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench

(责任编辑:Diy92)

推荐阅读 相关文章

豆包上线视频通话功能:支持实时问答互动,具备视觉理解能力

5月23日消息,从豆包公众号获悉,豆包今日宣布在 App 端上线实时视频通话功能,用户在“...[详细]

2025-05-25 10:51:15

今年前4月我国智能家居类消费品新增3万种,同比增长1985.5%

5月23日消息,市场监管总局今日发布统计数据,今年1—4月,我国消费品新增809.8万种,同比...[详细]

2025-05-25 10:51:15

联想展出国内首个轮胎 AI 质检智能体方案,效率较人工提升1.5倍

5月23日消息,据联想官方今日消息,在上周的2025中国国际橡胶轮胎暨汽车配件展览会上,...[详细]

2025-05-25 10:51:15

京东内部的智能体数量已超1.4万个,JoyAgent2.0发布

5月23日消息,京东云城市大会于5月20日在上海举行,京东云发布 JoyAgent 智能体2.0。...[详细]

2025-05-25 10:51:15

0.103秒!全球最快魔方机器人问世,解魔方比眨眼还快

5月23日消息,科技媒体 scitechdaily 昨日发布博文,报道称来自普渡大学的工程团队研...[详细]

2025-05-25 10:51:15

据称 Meta公司正计划投资Scale AI,价值预计超过100亿美元

6月8日消息,彭博社今日报道称,Meta 正在就投资 AI 初创公司 Scale AI 进行谈判,这笔...[详细]

2025-06-10 07:22:44

“氪星科技中国造”:DC《超人》电影角色“机器人4号”搭载脉塔智能关节模组

6月8日消息,DC 电影官方微博上月发文宣布,DC 影业首部大银幕作品《超人》内地定档 7...[详细]

2025-06-10 07:22:44

首月仅需1美元,ChatGPT Team 会员美/英/欧/澳迎优惠

6月8日消息,ChatGPT Team订阅现已在美区/英区/欧洲区/澳洲区迎来限时优惠,任何 IP ...[详细]

2025-06-10 07:22:44

ChatGPT 高级语音模式再次升级:更有“人情味”,新增加多国语言翻译功能

6月8日消息,ChatGPT 针对其付费用户升级了其高级语音模式,此次更新在语音语调、自然...[详细]

2025-06-10 07:22:44

英国法院警告:律师若引用虚假的 AI 获取内容,不排除面临严厉处罚的可能性

6月8日消息,英格兰和威尔士高等法院表示,律师需要采取更有力的措施,防止在工作中滥用...[详细]

2025-06-10 07:22:44

联系方式