当前位置：首页 > AI > 正文

阿里千问发布新一代Agent及DeepPlanning基准测试并开源至HuggingFace

2026-02-07 09:07:08 来源：IT之家 A+A-

近日，阿里千问推出新一代智能体Agent，并同步发布专为复杂规划任务设计的基准测试工具DeepPlanning，相关代码与数据集已在HuggingFace平台开源。据官方消息，此次发布旨在为Agent在长程推理、任务拆解与多步执行方面的能力评估提供统一、可复现的标准，帮助研究者与开发者更客观地衡量不同模型在规划类任务上的表现。DeepPlanning基准覆盖多种现实情境的决策链条，强调对逻辑推理、资源分配与动态调整的综合检测，被阿里千问视为推动Agent技术迭代与应用落地的重要基础设施，在开源社区与AI研究圈中引起对评估方法标准化的较多关注。

消息称，新一代Agent在架构上强化了环境感知与历史状态记忆的融合能力，可根据目标自动生成阶段性子任务并实时修正执行路径。配套的DeepPlanning基准测试包含一系列逐步递进的规划场景，从单目标静态规划到多约束动态环境下的序列决策，均设有可量化的性能指标与参考答案。官方声明，该基准在设计时参考了实际工业与科研中的复杂任务流程，以确保测试结果能反映模型在近似真实条件下的规划稳健性。现场观察显示，开源内容涵盖测试脚本、样例数据、评估指标说明及可扩展的任务生成接口，方便使用者快速集成到自有实验环境中。

该发布在AI Agent研究与工程应用领域引发对评估体系完善的讨论，被视为国内大模型团队在智能体能力量化与共享测评资源上的参考样本。与以往依赖自定义小规模测试或单一任务评测的做法相比，DeepPlanning提供多场景、多层级的统一标准，促使开发者在模型优化时拥有更明确的对标依据，也有助于跨团队比较不同技术路线的规划性能。对于产业界，这类开源基准可降低重复构建测评环境的成本，加快从实验室成果到实际系统的转化节奏。

此次推出新一代Agent与开源DeepPlanning基准，体现出阿里千问在智能体技术研发与生态共建上的双线推进策略，既提升自身模型在复杂任务上的可控性与可评估性，也为行业提供可共享的测评工具。后续可关注该基准在学术与产业社区的采纳情况、社区贡献的扩展用例，以及Agent在更多实际业务场景中的部署效果，这将影响智能体技术评估标准化的进程与跨领域应用的可信度建设。

Tags：阿里千问

(责任编辑：Diy92)

科技网

阿里千问发布新一代Agent及DeepPlanning基准测试并开源至HuggingFace

相关话题

阿里千问对外开放“AI办事”能力首家接入东方航空支持查航班买机票

阿里千问推出新一代图像生成基础模型Qwen-Image-2.0 文字渲染更专业赋能多场景视觉创作

今日专题

美国企业AI成本飙升 DeepSeek成为B2B市场新宠

热点聚焦

软银孙正义称OpenAI正用AI设计AI模型比人类聪明万倍的ASI两年内到来

2026世界杯扩大AI审核实时过滤超3万个关键词2秒隐藏不当评论

微软MAI系列AI模型训练数据曝光仅商业授权说法存在出入

OpenAI为ChatGPT个人用户开放锁定模式降低数据泄露风险

比亚迪澄清人形机器人尧舜禹等消息均不属实

OpenAI芯片团队元老Clive Chan出走跳槽至Anthropic

热点推荐

消息称OpenAI将对ChatGPT进行大升级打造为超级应用

卢伟冰晒小米Mimo大模型写的北京卷作文 2026高考语文落幕

英国警方被叫停使用AI撰写法庭陈述担忧虚假内容扰乱司法

美国全面推进AI军事应用特朗普要求90天内修订自主武器规则

疑似三星Galaxy Watch9与Watch Ultra 2通过3C认证充电速度仍为10W

微软警告Claude Code存在漏洞可能导致GitHub账号凭证泄露

今日话题

小岛秀夫谈AI艺术创作称有生之年恐无法见证

阿里千问对外开放“AI办事”能力首家接入东方航空支持查航班买机票

特斯拉Model S/X产线将为Optimus机器人让路最早7月启动投产

OpenAI发布ChatGPT团队工作流AI智能体 7*24小时自动化处理长周期任务

全国首个汕头完成“Token出海”全链路闭环验证打通跨境AI服务链路

OpenAI在美国推出ChatGPT临床医生版完成认证后可免费使用

今日热点