科技中国

AI
业界 手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

SU 哈佛亚马逊最新研究:量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了

2024-11-16 21:32:59 来源:IT之家 A+A-

4-bit 量化,能让现有反学习 / 机器遗忘技术失灵!

也就是大模型在人类要求下“假装”忘记了特定知识(版权、私人内容等),但有手段能让它重新“回忆”起来。

最近,来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新研究在 reddit、Hacker News 上引起热议。

他们发现对“失忆”的模型量化(quantization),可以部分或甚至完全恢复其已遗忘的知识。

原因是在量化过程中,模型参数的微小变化可能导致量化后的模型权重与原始模型权重相同

看到这项研究后,不少网友也表示有点意外:

从信息理论的角度来看这有点出人意料,似乎已经在完整的 32-bit 中成功移除了这些知识,但当你将其压缩到 4-bit 时,知识又重新出现了。

这让人不禁想知道在压缩 / 量化步骤中到底丢失了什么信息。

可能这些知识从未真正丢失,只是被隐藏了。

如果我们把神经网络看作是代码,权重就是源代码,微调实际上可能有效地修改了这些代码,以阻止返回某些结果。

因此,你可能只是在某些输出周围建立了防火墙。但量化可能使这些最近的编辑消失,它们太微小而无法保留。

值得一提的是,团队提出了一种缓解此问题的策略。

这种策略通过构建模块级别的显著性图来指导遗忘过程,只更新与遗忘数据最相关的模型部分,从而在保持模型效用的同时,减少量化后知识恢复的风险。

话不多说,具体来康康。

让失忆的大模型重新记起来

大模型在训练过程中可能会无意学习到人类不希望它保留的知识,例如版权和私人内容。为了解决这个问题,研究者们此前提出了反学习(machine unleARning)的概念,旨在不重新训练模型的情况下,从模型中移除特定知识。

现有的主流反学习方法包括梯度上升(GA)和负向偏好优化(NPO)两大类,通常会采用较小的学习率并加入效用约,以在遗忘特定内容的同时保持模型的整体性能。

用于优化模型遗忘的最常用数学表达式是:

再来看量化,考虑一组或一块权重 w,线性操作可以表示为 y=wx,量化后为 y=Q (w) x,其中 Q (⋅) 是量化函数:

在这项研究中,研究人员使用 Q (f) 表示量化后的模型 f。因此,实施一个反学习法然后对遗忘后的模型进行量化可以写为:

研究人员评估了针对大模型的六种有效的反学习方法 —— 结合 NPO、GA 两种策略,在保留集上进行梯度下降(GDR)或最小化 KL 散度(KLR),形成了 GA、GA_GDR、GA_KLR、NPO、NPO_GDR、NPO_KLR。

结果显示,这些方法在经过量化后会出现“灾难性失败”。

具体表现为,在全精度下,加入效用约束的反学习法平均保留 21% 的目标遗忘知识,但经过 4-bit 量化后,这一比例急剧上升到 83%

这意味着大部分被“遗忘”的知识通过简单的量化操作就能恢复。

实验中还使用了不同位数的量化,包括 4-bit 和 8-bit 量化,量化精度对遗忘效果也有显著影响,8-bit 量化的影响相对较小,模型表现接近全精度版本,但在 4-bit 量化下,遗忘性能显著恶化。

实验在 NEWS(BBC 新闻文章)和 BOOKS(哈利波特系列)等基准数据集上进行,使用了四个评估指标:

逐字记忆(VerMem,评估逐字复制能力)、知识记忆(KnowMem,评估知识问答能力)、隐私泄露(PrivLeak,基于成员推理攻击评估隐私保护程度)以及保留集效用(评估模型在非遗忘数据上的表现)。

研究人员还分析了各种量化技术对遗忘的影响,用 GPTQ 和 AWQ 两种先进的 4-bit 量化法在相同的实验设置下进行实验,NEWS 数据集上的结果如下:

GPTQ 和 AWQ 的表现与 RTN 相似。

尽管研究人员表示已努力有效地调整参数,但校准数据集是通用的,而不是针对遗忘数据集的领域进行定制,这意味着 GPTQ 和 AWQ 然可能保留了本应被遗忘的知识

为什么?怎么办?

经分析,研究人员认为这一问题的根本原因在于:

现有反学习法为了保持模型效用而使用较小的学习率和效用约束,导致模型权重变化很小,在量化过程中原模型和遗忘后模型的权重很容易被映射到相同的离散值,从而使被遗忘的知识重新显现。

由此,研究人员提出了一种称作 SURESaliency-Based Unlearning with a Large Learning Rate)的框架作为改进方案。

该框架通过构建模块级显著性图来指导遗忘过程,选择性地对与遗忘数据最相关的组件使用较大的学习率,同时最小化对其它功能的影响。

通过实验,验证了 SURE 策略防止量化后遗忘知识恢复的有效性,并且与现有的反学习方法相比,SURE 在全精度模型上实现了可比的遗忘性能和模型效用。

研究人员还探讨了 SURE 策略中不同阈值对遗忘性能的影响,发现适度的阈值可以在遗忘性能和模型效用之间取得平衡。

更多细节,感兴趣的童鞋可以查阅原论文,代码已在 GitHub 上公开。

论文链接:

  • https://arxiv.org/ pdf/2410.16454

参考链接:

  • [1]https://news.ycombinator.com/item?id=42037982

  • [2]https://github.com/zzwjames/FAIlureLLMUnlearning

本文来自微信公众号:量子位(ID:QbitAI),作者:西风

Tags:亚马逊
(责任编辑:Diy92)

推荐阅读 相关文章

大模型“自动修复bug”能力将大大提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench

4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Mu...[详细]

2025-04-11 07:44:56

谷歌推出Vertex AI Media Studio文生视频套件:自动包办画面渲染、旁白、配乐等

4 月 10 日消息,谷歌今天(4 月 10 日)推出 Vertex AI Media Studio 平台,该套件支持文...[详细]

2025-04-11 07:44:56

广东公布中小学AI教育方针:原则上1-4年级每年不少于6课时

4 月 10 日消息,据南方日报今日报道,广东省新闻办与省教育厅在新闻发布会上正式发布...[详细]

2025-04-11 07:44:56

得州大学奥斯汀分校开发新型AI智能体 Metamon:能跟人一样玩宝可梦

4 月 10 日消息,据外媒 ASCII 今日报道,美国得克萨斯大学奥斯汀分校的 Yuke Zhu 助...[详细]

2025-04-11 07:44:56

中国首个高速动车组空气动力学智能化仿真大模型问世

3 月 27 日消息,据中国中车今日消息,2025 年 3 月,中国高速动车组空气动力学智能化仿真大模型在青岛成功问世,推...[详细]

2025-03-28 07:30:56

人工智能助力亚马逊雨林野火监测,成功率达 93%

3 月 6 日消息,一项最新研究表明,一种模拟人脑功能的人工智能技术有望成为自动检测野火的强大工具,大幅缩短应...[详细]

2025-03-08 21:21:09

告别“生肉”指日可待:亚马逊 Prime Video 为影视节目引入 AI 辅助配音

3 月 6 日消息,亚马逊旗下流媒体平台 Prime Video 当地时间周三宣布,开始尝试在部分授权影视作品中引入 AI 辅...[详细]

2025-03-08 21:21:09

亚马逊eero推出7/Pro 7 无线路由器:内置天线,BE5000/BE10800规格

2 月 20 日消息,亚马逊旗下网络设备品牌 eero 最初 2015 年 2 月亮相,而在当地时间昨日 eero 宣布推出两款 Wi...[详细]

2025-02-21 08:48:02

消息称苹果 2025 款 Apple TV 机顶盒将推定价 99 美元入门版本,以与谷歌亚马逊产品竞争

12 月 25 日消息,苹果公司从 2007 年开始在海外推出 Apple TV 机顶盒,不过第一代机顶盒功能有限,定价高昂,销量...[详细]

2024-12-27 07:39:09

亚马逊在美国遭诉讼:Prime 自营配送变第三方,拖慢配送速度

12 月 5 日消息,华盛顿特区总检察长布莱恩・施瓦布(Brian Schwalb)本周三提起诉讼,指控亚马逊违反了当地消费者...[详细]

2024-12-05 10:52:02

联系方式