当前位置：首页 > AI > 正文

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

2024-11-16 21:32:59 来源：IT之家 A+A-

4-bit 量化，能让现有反学习 / 机器遗忘技术失灵！

也就是大模型在人类要求下“假装”忘记了特定知识（版权、私人内容等），但有手段能让它重新“回忆”起来。

最近，来自宾夕法尼亚州立大学、哈佛大学、亚马逊团队的一项新研究在 reddit、Hacker News 上引起热议。

他们发现对“失忆”的模型量化（quantization），可以部分或甚至完全恢复其已遗忘的知识。

原因是在量化过程中，模型参数的微小变化可能导致量化后的模型权重与原始模型权重相同。

看到这项研究后，不少网友也表示有点意外：

从信息理论的角度来看这有点出人意料，似乎已经在完整的 32-bit 中成功移除了这些知识，但当你将其压缩到 4-bit 时，知识又重新出现了。

这让人不禁想知道在压缩 / 量化步骤中到底丢失了什么信息。

可能这些知识从未真正丢失，只是被隐藏了。

如果我们把神经网络看作是代码，权重就是源代码，微调实际上可能有效地修改了这些代码，以阻止返回某些结果。

因此，你可能只是在某些输出周围建立了防火墙。但量化可能使这些最近的编辑消失，它们太微小而无法保留。

值得一提的是，团队提出了一种缓解此问题的策略。

这种策略通过构建模块级别的显著性图来指导遗忘过程，只更新与遗忘数据最相关的模型部分，从而在保持模型效用的同时，减少量化后知识恢复的风险。

话不多说，具体来康康。

让失忆的大模型重新记起来

大模型在训练过程中可能会无意学习到人类不希望它保留的知识，例如版权和私人内容。为了解决这个问题，研究者们此前提出了反学习（machine unleARning）的概念，旨在不重新训练模型的情况下，从模型中移除特定知识。

现有的主流反学习方法包括梯度上升（GA）和负向偏好优化（NPO）两大类，通常会采用较小的学习率并加入效用约束，以在遗忘特定内容的同时保持模型的整体性能。

用于优化模型遗忘的最常用数学表达式是：

再来看量化，考虑一组或一块权重 w，线性操作可以表示为 y=wx，量化后为 y=Q (w) x，其中 Q (⋅) 是量化函数：

在这项研究中，研究人员使用 Q (f) 表示量化后的模型 f。因此，实施一个反学习法然后对遗忘后的模型进行量化可以写为：

研究人员评估了针对大模型的六种有效的反学习方法 —— 结合 NPO、GA 两种策略，在保留集上进行梯度下降（GDR）或最小化 KL 散度（KLR），形成了 GA、GA_GDR、GA_KLR、NPO、NPO_GDR、NPO_KLR。

结果显示，这些方法在经过量化后会出现“灾难性失败”。

具体表现为，在全精度下，加入效用约束的反学习法平均保留 21% 的目标遗忘知识，但经过 4-bit 量化后，这一比例急剧上升到 83%。

这意味着大部分被“遗忘”的知识通过简单的量化操作就能恢复。

实验中还使用了不同位数的量化，包括 4-bit 和 8-bit 量化，量化精度对遗忘效果也有显著影响，8-bit 量化的影响相对较小，模型表现接近全精度版本，但在 4-bit 量化下，遗忘性能显著恶化。

实验在 NEWS（BBC 新闻文章）和 BOOKS（哈利波特系列）等基准数据集上进行，使用了四个评估指标：

逐字记忆（VerMem，评估逐字复制能力）、知识记忆（KnowMem，评估知识问答能力）、隐私泄露（PrivLeak，基于成员推理攻击评估隐私保护程度）以及保留集效用（评估模型在非遗忘数据上的表现）。

研究人员还分析了各种量化技术对遗忘的影响，用 GPTQ 和 AWQ 两种先进的 4-bit 量化法在相同的实验设置下进行实验，NEWS 数据集上的结果如下：

GPTQ 和 AWQ 的表现与 RTN 相似。

尽管研究人员表示已努力有效地调整参数，但校准数据集是通用的，而不是针对遗忘数据集的领域进行定制，这意味着 GPTQ 和 AWQ 仍然可能保留了本应被遗忘的知识。

为什么？怎么办？

经分析，研究人员认为这一问题的根本原因在于：

现有反学习法为了保持模型效用而使用较小的学习率和效用约束，导致模型权重变化很小，在量化过程中原模型和遗忘后模型的权重很容易被映射到相同的离散值，从而使被遗忘的知识重新显现。

由此，研究人员提出了一种称作 SURE（Saliency-Based Unlearning with a Large Learning Rate）的框架作为改进方案。

该框架通过构建模块级显著性图来指导遗忘过程，选择性地对与遗忘数据最相关的组件使用较大的学习率，同时最小化对其它功能的影响。

通过实验，验证了 SURE 策略防止量化后遗忘知识恢复的有效性，并且与现有的反学习方法相比，SURE 在全精度模型上实现了可比的遗忘性能和模型效用。

研究人员还探讨了 SURE 策略中不同阈值对遗忘性能的影响，发现适度的阈值可以在遗忘性能和模型效用之间取得平衡。

更多细节，感兴趣的童鞋可以查阅原论文，代码已在 GitHub 上公开。

论文链接：

https://arxiv.org/ pdf/2410.16454

参考链接：

[1]https://news.ycombinator.com/item?id=42037982
[2]https://github.com/zzwjames/FAIlureLLMUnlearning

本文来自微信公众号：量子位（ID：QbitAI），作者：西风

Tags：亚马逊

(责任编辑：Diy92)

推荐阅读相关文章

训练时间可缩短一半，阿里云正式推出自驾模型加速框架PAI-TurboX

6月23日消息，阿里云今日宣布推出面向自动驾驶领域模型的训练、推理加速框架PAI-TurboX。据介绍，该框架可提升...[详细]

2025-06-25 09:37:18

小米：我们无计划造油车

6月23日消息，今日有网友在小米创办人、董事长兼CEO雷军的评论区询问："雷总，咱啥时候组建车队？"，雷军回复称："这是...[详细]

2025-06-25 09:37:18

广汽三大自主品牌即将推出赛马机制，但资源不会平均分配

6月23日消息，据第一财经报道，广汽集团董事长、总经理冯兴亚上周就广汽集团改革等多个热点话题进行了回应。过...[详细]

2025-06-25 09:37:18

李想、雷军互发“贺电”，分别祝贺小米 YU7、理想 i8销量大卖

6月23日消息，今天中午，雷军在微博上介绍了小米首款SUV"为何不是最热门的6座车"。随后，理想汽车CEO李想转发这则...[详细]

2025-06-25 09:37:18

据称自动驾驶科技公司文远知行已悄悄提交香港上市申请

6月23日消息，据界面新闻今日援引知情人士消息，自动驾驶科技公司文远知行已秘密提交香港上市申请。查询获悉，文...[详细]

2025-06-25 09:37:18

亚马逊 Prime Video 被曝内容每小时中有至少6分钟广告，时长几乎翻倍

6月12日消息，据外媒Adweek 报道，亚马逊已将PrimeVideo 的广告时长增加至每小时4到6分钟。其实早在2024年10月，...[详细]

2025-06-15 08:49:28

亚马逊 Zoox 自动驾驶车辆碰撞事故引发召回，一周后继续测试

5月7日消息，据亚马逊旗下的自动驾驶汽车公司 Zoox 以及提交给联邦安全监管机构的一份文件显示，该公司在拉斯维...[详细]

2025-05-09 08:03:32

人工智能助力亚马逊雨林野火监测，成功率达 93%

3 月 6 日消息，一项最新研究表明，一种模拟人脑功能的人工智能技术有望成为自动检测野火的强大工具，大幅缩短应...[详细]

2025-03-08 21:21:09

告别“生肉”指日可待：亚马逊 Prime Video 为影视节目引入 AI 辅助配音

3 月 6 日消息，亚马逊旗下流媒体平台 Prime Video 当地时间周三宣布，开始尝试在部分授权影视作品中引入 AI 辅...[详细]

2025-03-08 21:21:09

亚马逊eero推出7/Pro 7 无线路由器：内置天线，BE5000/BE10800规格

2 月 20 日消息，亚马逊旗下网络设备品牌 eero 最初 2015 年 2 月亮相，而在当地时间昨日 eero 宣布推出两款 Wi...[详细]

2025-02-21 08:48:02

今日话题

热点推荐

盖洛普研究：美国教师使用AI工具后平均每周能省下至少5.9小时

热点排行

友情链接

湖北河南陕西山东西藏四川云南

融媒体

科技中国公众号

科技中国公众号

联系方式

商务QQ：19667318