CRISP:一种基于稀疏自编码器(SAE)的持久化概念遗忘方法,针对大语言模型(LLMs)中需要删除的有害知识,兼顾精准性与模型效用的保留。
• 目标识别:自动选取在目标语料中频繁激活但在保留语料中较少激活的SAE特征,通过激活计数差异与相对激活率双重指标筛选显著特征。
• 参数优化:采用LoRA进行参数高效微调,联合优化三类损失——遗忘损失(抑制目标特征激活)、保持损失(保证保留语料的隐藏状态接近原模型)及连贯性损失(维护文本生成的语义和语法连贯)。
• 实验验证:在WMDP生物安全和网络安全两大安全关键领域的基准上,CRISP在Llama-3.1-8B与Gemma-2-2B模型中均显著优于现有RMU与ELM方法,提升整体得分5-34个百分点,兼顾了有害知识的有效去除与无害知识的准确保留。
• 细粒度控制:通过特征级分析,CRISP实现了目标概念与无害概念的语义上清晰分离,避免了传统方法对相关但无害知识的过度影响及文本生成的流畅性损失。
• 先进性体现:区别于多数推理时刻干预的SAE方法,CRISP通过参数更新实现知识的持久遗忘,防止恶意逆转和绕过,适合开源模型和白盒场景。
• 方法适用性与限制:依赖高质量预训练SAE,当前验证集中于安全领域,理论上尚无完全知识清除保证,未来需加强对抗鲁棒性研究。
CRISP代表了机器遗忘领域在精准而持久去除特定知识同时保护模型能力的最新进展,适用于应对LLM的安全、隐私和合规需求。
详细阅读👉 arxiv.org/abs/2508.13650
机器学习 人工智能 大语言模型 机器遗忘 稀疏自编码器 模型安全 自然语言处理