AudioHijack:听不见的指令以 96% 的成功率劫持 AI 语音模型
浙江大学研究人员开发了 AudioHijack,这是一种攻击方法:在音频中嵌入难以察觉的命令,以 79–96% 的成功率操纵大型音频语言模型。该攻击在圣弗朗西斯科举行的第 47 届 IEEE 安全与隐私研讨会上进行了展示。AudioHijack 的工作原理是:在数字音频波形内部修改数值,这种改动对人类听众而言难以察觉,但仍会影响 AI 模型对信号的解读。研究称,被操纵的音频即使在剪辑中包含合法的用户指令,也能够覆盖或重定向模型的行为。 “训练这个信号只需要半小时,然后因为这个信号与上下文无关,你就可以在任何你想要的时候攻击目标模型,无论用户说什么,”浙江大学第一作者、博士生孟晨(Meng Chen)表示。 How AudioHijack Differs from Traditional Attacks AudioHijack differs from traditional prompt injection attacks because it does not manipulate what the user says to the AI. Instead, it alters th
Oliver Grant·6 分钟前