科技中国

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
当前位置: 首页 > 智车 > 正文

苹果公司最新研究:现有AI大模型“确切来说更像是在记忆,而不是真正的推理”

2025-06-11 08:22:38 来源:IT之家 A+A-

6月8日消息,苹果机器学习研究中心于当地时间6月6日发表了一篇研究论文,称现有 AI 模型并不具备真正的思维能力或推理能力,而是依赖于模式匹配与记忆,尤其是对于复杂的任务而言。

苹果研究人员对现有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude3.7Sonnet Thinking 和谷歌 Gemini Thinking—— 进行了系统评估。

研究发现,尽管这些模型具备生成详细“思考链”的能力,并在中等复杂度任务上表现出优势,但其推理能力存在根本性局限:当问题复杂度超过特定临界点时,模型性能会完全崩溃至“零准确率”。

此外,在模型推理过程中,即使仍有充足的推理算力,它们用于“思考”的 token 数量反而随难度上升而减少,这种现象意味着现有推理方法存在根本局限性。

这篇《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》由 PARshin Shojaee 等人撰写。研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,但这往往忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。

研究人员采用了一系列可控的解谜环境,允许精确操纵组成复杂性,同时保持逻辑结构的一致性。这使得不仅可以分析最终答案,还可以探究内部推理轨迹,从而更深入地了解这些模型是如何“思考”的。

研究团队提出,模型表现可分为三个阶段:

低复杂度任务:传统大模型表现更佳;

中等复杂度任务:具备思维机制的大型推理模型更占优势;

高复杂度任务:两类模型均陷入完全失效状态。

特别是,研究发现 LRMs 在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

总的来说,这项研究不仅质疑了当前基于已建立数学基准的 LRMs 评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明了方向。

研究人员表示,“这些发现突出了现有 LRMs 的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义。”

参考资料:

(责任编辑:Diy92)

热点推荐

英国多组织建议监管机构限制Meta利用人工智能进行风险评估

6月9日消息,据卫报报道,互联网安全活动人士向英国通信监管机构 Ofcom 发出呼吁,要求限制人工智能在关键风险评估中的使用。这一呼吁是在有

2025-06-11 08:22:38

Neuralink和Grok 合作,脑机芯片将为渐冻症患者重新赋予“发声”能力

6月9日消息,马斯克今日在 X 上转发的一则案例显示:Neuralink 和 Grok 正合作使渐冻症患者重新“发声”。视频内容显示,Neuralink 为一名渐

2025-06-11 08:22:38

视频生成平台Runway将举办年度AI电影节,6000部参赛作品最终决出10强

6月9日消息,据外媒 TechXplore 报道,由 AI 视频技术公司 Runway 主办的年度 AI 电影节于6月5日在纽约拉开帷幕,全球十部短片首次登上大银幕

2025-06-11 08:22:38

租房/独居备一个:小米智能猫眼2国补后仅359元属历史价格新低

小米智能猫眼2发售于2024年5月,官方定价579元。今日京东 PLUS 立打9折,京东 App 首页 →点击“低价直播”可领58-5/98-10元叠加券。以5元

2025-06-11 08:22:38

国内七家主流大模型挑战2025高考数学:只有DeepSeek、讯飞星火最后得分超过140

2025年高考还在进行中,昨天已经考完了语文和数学,相信大家也在网上看到了很多关于这两门学科试卷难度的讨论,比如昨天数学考完后,关于“数学

2025-06-11 08:22:38

谷歌 Gemini 安卓版应用新增“Scheduled Actions”功能 可每天自动获取日历邮件摘要

6月7日消息,谷歌已经开始在Gemini安卓版应用中推送全新的“计划操作”功能,此前该功能已被数据挖掘者拆包分析了多次。根据谷歌介绍,这一“

2025-06-11 08:22:38

四维图新与阿里云达成战略协作,聚焦辅助驾驶、智慧交通及车联网等领域

6月3日消息,北京四维图新科技股份有限公司今日与阿里云计算有限公司正式签署战略合作框架协议,宣布建立长期战略合作伙伴关系。据称,双方将

2025-06-04 07:41:33

小米汽车官宣:YU7标准版、Pro 均搭载由弗迪和宁德时代提供的96.3kWh 磷酸铁锂电池

6月3日消息,小米汽车今晚继续更新答网友问,针对 YU7的辅助驾驶能力、YU7不同型号分别使用什么品牌电池等问题进行了解答。附小米汽车此次

2025-06-04 07:41:33

极核官方发布关于“远程锁车”不实言论的声明:已取得证据,即将采取相应法律措施维权

6月3日消息,ZEEHO 极核官方微博今日发布关于“远程锁车”不实言论的声明,称“远程锁车”纯属谣言,严重影响公司商誉,目前已对异常账号进行取

2025-06-04 07:41:33

贾跃亭落泪:FF必须活下去,我除了感动之外更多的是愧疚

6月3日消息,贾跃亭今日发文称,“从乐视到 FF,那些没放弃我们的人,我除了感动之外,其实更多的是愧疚”。他表示,“的确是散户支持了我们,甚至是

2025-06-04 07:41:33

2025年1至4月极狐累计销售3.2万辆,纯电市场市占率1.5%

6月3日消息,据北汽新能源消息,2025年极狐上量及新媒体跃升大会于5月29日在北京成功举办。北汽新能源党委副书记、总经理刘观桥在会上透露,2

2025-06-04 07:41:33

改装团队将雪佛兰 V8发动机塞进特斯拉 Model S 电车,马力最高达1700匹

6月3日消息,Robert Freund 改装团队在 Sick Week2025改装车展上展示了一辆特斯拉 Model S 电车,但该车的“心脏”被换为了雪佛兰 Big Bloc

2025-06-04 07:41:33

交通事故后连个视频15分钟内就能解决,北京首创

6月3日消息,据“平安北京”昨日消息,北京市交通事故远程处理中心优化升级科技系统,不断升级“远程事故处理”系统平台,首创“多方视频通话”

2025-06-04 07:41:33

限时一口价20.69万元,凯迪拉克 CT5城市风尚版车型上市

6月3日消息,凯迪拉克 CT5汽车今日上新了城市风尚版,是该汽车的入门版本,官方指导价为28.99万元,限时一口价20.69万元。凯迪拉克全新 CT5轿车

2025-06-04 07:41:33

小鹏汽车:天玑升级属于系统根本性变更,无法回退原系统

6月3日消息,小鹏汽车 MONA 产品负责人@XP-杨光 今日发布第19期,针对 MONA 车型升级天玑系统的变化、注意事项、后续迭代优化计划等问题进

2025-06-04 07:41:33