人才强校 | 信电学院智能与系统安全实验室在人工智能安全领域研究取得重要进展

近日,信息与电气工程学院智能与系统安全实验室研究论文《基于方向映射和对抗蒸馏的后门防御方法》(BeDKD: Backdoor Defense Based on Directional Mapping Module and Adversarial Knowledge Distillation)被人工智能领域顶级会议AAAI-2026(The 40th Annual AAAI Conference on Artificial Intelligence,CCF-A类会议论文)接收为主会Poster论文。

图片1.png

BeDKD方法架构图

随着深度神经网络在自然语言处理任务中的广泛应用,后门攻击已成为威胁模型安全的重要隐患。攻击者将隐蔽的触发模式植入少量数据中制作中毒的训练集。当模型正常训练后即自动植入特定模式的后门,使模型在面对特定输入时输出攻击者制定的回答,严重威胁智能系统的可信部署。现有的后门防御依赖大量干净数据来削弱后门,但通常难以处理残留的触发器效应,导致攻击成功率(ASR)持续偏高。因此,在实现后门防御与保持模型性能之间取得令人满意的平衡仍然是一个重大挑战。为解决上述问题,我们提出了一种基于动态知识蒸馏与定向映射调制器的后门防御框架,该方法仅需少量干净数据即可高效检测部分中毒数据,并在保持模型原有性能的同时,显著降低后门攻击成功率。

该论文第一作者为信电学院-智能与系统安全实验室2024级博士研究生吴政娴,文娟副教授和彭万里副教授为论文的通讯作者,实验室薛一鸣教授参与指导。论文成果受到国家自然科学基金项目(No.62272463、No.62402117)的资助,本研究工作得到中国农业大学校级高性能计算平台支持。

代码链接:https://github.com/CAU-ISS-Lab/Backdoor-Attack-Defense-LLMs/tree/main/BeDKD

供稿:信息与电气工程学院

供图:信息与电气工程学院

编辑:李杨

责编:孟祥慈

分享