中国科技网

AI
手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

阿里千问发布新一代Agent及DeepPlanning基准测试并开源至HuggingFace

2026-02-07 09:07:08 来源:IT之家 A+A-

近日,阿里千问推出新一代智能体Agent,并同步发布专为复杂规划任务设计的基准测试工具DeepPlanning,相关代码与数据集已在HuggingFace平台开源。据官方消息,此次发布旨在为Agent在长程推理、任务拆解与多步执行方面的能力评估提供统一、可复现的标准,帮助研究者与开发者更客观地衡量不同模型在规划类任务上的表现。DeepPlanning基准覆盖多种现实情境的决策链条,强调对逻辑推理、资源分配与动态调整的综合检测,被阿里千问视为推动Agent技术迭代与应用落地的重要基础设施,在开源社区与AI研究圈中引起对评估方法标准化的较多关注。

消息称,新一代Agent在架构上强化了环境感知与历史状态记忆的融合能力,可根据目标自动生成阶段性子任务并实时修正执行路径。配套的DeepPlanning基准测试包含一系列逐步递进的规划场景,从单目标静态规划到多约束动态环境下的序列决策,均设有可量化的性能指标与参考答案。官方声明,该基准在设计时参考了实际工业与科研中的复杂任务流程,以确保测试结果能反映模型在近似真实条件下的规划稳健性。现场观察显示,开源内容涵盖测试脚本、样例数据、评估指标说明及可扩展的任务生成接口,方便使用者快速集成到自有实验环境中。

该发布在AI Agent研究与工程应用领域引发对评估体系完善的讨论,被视为国内大模型团队在智能体能力量化与共享测评资源上的参考样本。与以往依赖自定义小规模测试或单一任务评测的做法相比,DeepPlanning提供多场景、多层级的统一标准,促使开发者在模型优化时拥有更明确的对标依据,也有助于跨团队比较不同技术路线的规划性能。对于产业界,这类开源基准可降低重复构建测评环境的成本,加快从实验室成果到实际系统的转化节奏。

此次推出新一代Agent与开源DeepPlanning基准,体现出阿里千问在智能体技术研发与生态共建上的双线推进策略,既提升自身模型在复杂任务上的可控性与可评估性,也为行业提供可共享的测评工具。后续可关注该基准在学术与产业社区的采纳情况、社区贡献的扩展用例,以及Agent在更多实际业务场景中的部署效果,这将影响智能体技术评估标准化的进程与跨领域应用的可信度建设。

Tags:阿里千问
(责任编辑:Diy92)

推荐阅读 相关文章

谷歌 Gemini AI 免费开放 SAT 模拟考试功能

谷歌日前宣布,其 Gemini AI 助手将免费提供"美国高考"SAT 模拟考试功能,帮助用户进行备考练习。据官方消息,该...[详细]

2026-02-02 07:43:21

工信部拟制数字人身份标识标准 推进“一人一码”统一管理

工信部日前透露,正组织研究制定数字人身份标识相关标准,拟通过建立统一编码与核验机制实现"一人一码"式管理,以...[详细]

2026-02-02 07:43:21

马斯克前女友控诉xAI:Grok擅自生成其换衣照且拒不撤下

生成式AI在赋予人类创意新可能的当下,也将人格权与形象权的保护推入复杂境地。当模型能依循指令产出几可乱真...[详细]

2026-01-27 21:29:53

Anthropic以AI生成智能体 Claude一周半完成编程助手Cowork开发

人工智能公司Anthropic日前披露,其利用AI模型Claude在仅一周半时间内"编写"出一款智能体应用——...[详细]

2026-01-26 07:31:34

智谱与华为联合开源GLM-Image 直面NanoBanana Pro竞争

智谱AI与华为近日联合宣布开源多模态图像生成模型GLM-Image,该模型全程基于华为昇腾Atlas 800T A2服务器及昇...[详细]

2026-01-26 07:31:34

阿里千问发布新一代Agent及DeepPlanning基准测试并开源至HuggingFace

近日,阿里千问推出新一代智能体Agent,并同步发布专为复杂规划任务设计的基准测试工具DeepPlanning,相关代码与...[详细]

2026-02-07 09:07:08

阿里千问明日将推重磅产品迭代 上线两月C端月活破亿

据媒体消息,阿里巴巴旗下千问App将于1月16日进行重磅产品迭代,重点提升AI在办事场景下的能力。此次升级的核心...[详细]

2026-01-26 07:31:34

联系方式

商务QQ:19667318