中国科技网

AI
手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

阿里千问发布新一代Agent及DeepPlanning基准测试并开源至HuggingFace

2026-02-07 09:07:08 来源:IT之家 A+A-

近日,阿里千问推出新一代智能体Agent,并同步发布专为复杂规划任务设计的基准测试工具DeepPlanning,相关代码与数据集已在HuggingFace平台开源。据官方消息,此次发布旨在为Agent在长程推理、任务拆解与多步执行方面的能力评估提供统一、可复现的标准,帮助研究者与开发者更客观地衡量不同模型在规划类任务上的表现。DeepPlanning基准覆盖多种现实情境的决策链条,强调对逻辑推理、资源分配与动态调整的综合检测,被阿里千问视为推动Agent技术迭代与应用落地的重要基础设施,在开源社区与AI研究圈中引起对评估方法标准化的较多关注。

消息称,新一代Agent在架构上强化了环境感知与历史状态记忆的融合能力,可根据目标自动生成阶段性子任务并实时修正执行路径。配套的DeepPlanning基准测试包含一系列逐步递进的规划场景,从单目标静态规划到多约束动态环境下的序列决策,均设有可量化的性能指标与参考答案。官方声明,该基准在设计时参考了实际工业与科研中的复杂任务流程,以确保测试结果能反映模型在近似真实条件下的规划稳健性。现场观察显示,开源内容涵盖测试脚本、样例数据、评估指标说明及可扩展的任务生成接口,方便使用者快速集成到自有实验环境中。

该发布在AI Agent研究与工程应用领域引发对评估体系完善的讨论,被视为国内大模型团队在智能体能力量化与共享测评资源上的参考样本。与以往依赖自定义小规模测试或单一任务评测的做法相比,DeepPlanning提供多场景、多层级的统一标准,促使开发者在模型优化时拥有更明确的对标依据,也有助于跨团队比较不同技术路线的规划性能。对于产业界,这类开源基准可降低重复构建测评环境的成本,加快从实验室成果到实际系统的转化节奏。

此次推出新一代Agent与开源DeepPlanning基准,体现出阿里千问在智能体技术研发与生态共建上的双线推进策略,既提升自身模型在复杂任务上的可控性与可评估性,也为行业提供可共享的测评工具。后续可关注该基准在学术与产业社区的采纳情况、社区贡献的扩展用例,以及Agent在更多实际业务场景中的部署效果,这将影响智能体技术评估标准化的进程与跨领域应用的可信度建设。

Tags:阿里千问
(责任编辑:Diy92)

推荐阅读 相关文章

微软称 M365 Copilot 能将复杂方案制作由 40 小时减至 15 分钟 可替 PowerBI 优化岗

微软表示 M365 Copilot 可将复杂方案制作时长由 40 小时压缩至 15 分钟,并在特定场景中替代 Power BI 优化专...[详细]

2026-03-13 07:37:11

华为定于3月11日办鸿蒙智家技术说明会 解析全场景设备协同新架构

华为宣布将于 3 月 11 日举行鸿蒙智家技术沟通会,集中展示鸿蒙系统在智能家居场景的互联架构与交互能力,回应...[详细]

2026-03-13 07:37:11

智谱发布澳龙 AutoClaw 并开放使用 本地设备可一键部署 内置 50+常用技能

智谱推出澳龙 AutoClaw 并正式上线,用户可在本地电脑一键部署该智能体系统,预置 50+热门 Skills 覆盖办公创作...[详细]

2026-03-13 07:37:11

阿里启动类 OpenClaw 龙虾应用试验 将原无影 JVS 易名 JVSClaw 统一标识

阿里启动类 OpenClaw 龙虾形态应用内测,并将原无影 JVS 更名为 JVSClaw,以统一命名强化品牌识别与生态协同,回...[详细]

2026-03-13 07:37:11

百度投身 2026 人才竞逐 扩招暑期实习名额 九成以上职位聚焦 AI 领域

百度在 2026 抢人才大战中启动史上最大规模暑期实习招聘,超九成岗位聚焦 AI 相关领域,回应大模型与智能体研发...[详细]

2026-03-12 19:20:23

阿里千问推出新一代图像生成基础模型Qwen-Image-2.0 文字渲染更专业赋能多场景视觉创作

据阿里巴巴达摩院旗下阿里千问团队消息,其正式发布新一代图像生成基础模型Qwen-Image-2.0,在文字渲染的专业度...[详细]

2026-02-20 09:27:39

阿里千问发布新一代Agent及DeepPlanning基准测试并开源至HuggingFace

近日,阿里千问推出新一代智能体Agent,并同步发布专为复杂规划任务设计的基准测试工具DeepPlanning,相关代码与...[详细]

2026-02-07 09:07:08

阿里千问明日将推重磅产品迭代 上线两月C端月活破亿

据媒体消息,阿里巴巴旗下千问App将于1月16日进行重磅产品迭代,重点提升AI在办事场景下的能力。此次升级的核心...[详细]

2026-01-26 07:31:34

联系方式

商务QQ:19667318