科技中国

AI
业界 手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

大模型“自动修复bug”能力将大大提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

2025-04-11 07:44:56 来源:IT之家 A+A-

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。

在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。

Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:

  • 首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;

  • 引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(HARd)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;

  • 1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

附开源链接:

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:

  • 论文链接:https://arxiv.org/ abs / 2504.02605

  • 榜单链接:https://multi-swe-bench.github.io

  • 代码链接:https://github.com/ multi-swe-bench / multi-swe-bench

  • 数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench

(责任编辑:Diy92)

推荐阅读 相关文章

谷歌推出Vertex AI Media Studio文生视频套件:自动包办画面渲染、旁白、配乐等

4 月 10 日消息,谷歌今天(4 月 10 日)推出 Vertex AI Media Studio 平台,该套件支持文...[详细]

2025-04-11 07:44:56

广东公布中小学AI教育方针:原则上1-4年级每年不少于6课时

4 月 10 日消息,据南方日报今日报道,广东省新闻办与省教育厅在新闻发布会上正式发布...[详细]

2025-04-11 07:44:56

得州大学奥斯汀分校开发新型AI智能体 Metamon:能跟人一样玩宝可梦

4 月 10 日消息,据外媒 ASCII 今日报道,美国得克萨斯大学奥斯汀分校的 Yuke Zhu 助...[详细]

2025-04-11 07:44:56

中国首个高速动车组空气动力学智能化仿真大模型问世

3 月 27 日消息,据中国中车今日消息,2025 年 3 月,中国高速动车组空气动力学智能化仿真大模型在青岛成功问世,推...[详细]

2025-03-28 07:30:56

人形机器人为黄仁勋递上皮衣,1X、英伟达联手搞动作

3 月 27 日消息,近日在 1X Technologies 位于旧金山的总部,其研发的 NEO Gamma 人形机器人向来访的英伟达首席...[详细]

2025-03-28 07:30:56

特斯拉 Optimus 人形机器人试生产线正式亮相,马斯克称年底入驻工厂将达数千台

4 月 24 日消息,在特斯拉 2025 年第一季度更新报告中,公司首次向外界展示了 Optimus...[详细]

2025-04-24 09:47:12

OpenAI新模型GPT-4.1 可靠性遭质疑:独立测试显示其对齐性下降明显

4 月 24 日消息,本月早些时候 OpenAI 推出了 GPT-4.1 人工智能模型,并声称该模型在...[详细]

2025-04-24 09:47:12

OpenAI将ChatGPT 新图像生成技术引入API,每张图支付费用2美分起

4 月 24 日消息,OpenAI 于本周三宣布,将其 ChatGPT 中新升级的图像生成功能背后的技...[详细]

2025-04-24 09:47:12

谷歌AI聊天机器人Gemini 月活达3.5亿用户,但与ChatGPT等竞品仍有很大差距

4 月 24 日消息,根据正在进行的谷歌反垄断诉讼中披露的内部数据,截至 3 月,谷歌的人...[详细]

2025-04-24 09:47:12

据称 OpenAI 计划今年夏初发布开源语言模型,力争推理能力超越同类AI

4 月 24 日消息,今年 3 月底,OpenAI 宣布计划在今年某个时候发布自 GPT-2 以来的首...[详细]

2025-04-24 09:47:12

联系方式