微软Azure CTO Mark Russinovich揭秘新型大模型入侵技术“Skeleton Key”(万能钥匙)

微软Azure CTO Mark Russinovich揭秘新型大模型入侵技术“Skeleton Key”(万能钥匙)

微软Azure的官方平台上,首席技术官Mark Russinovich震撼披露了一项名为“Skeleton Key”(万能钥匙)的新型大模型入侵技术,该技术以一种前所未有的方式挑战了当前AI安全机制的极限。

万能钥匙,作为一种创新的越狱攻击策略,其核心在于通过多轮精心设计的强制与诱导手段,彻底瓦解大模型的安全防线,使其在非授权情况下泄露或生成包括血腥、暴力、歧视、色情等在内的非法内容。这种攻击方法直接挑战了AI模型对于内容合规性的严格把控,让原本不应触及的禁忌领域变得触手可及。

与微软之前提出的Crescendo攻击形成鲜明对比,万能钥匙采取了更为直接且高效的策略。Crescendo侧重于利用模型自身的文本生成能力和对上下文的敏感性,通过一系列渐进式、看似无害的交互逐步诱导模型偏离正轨。而万能钥匙则更加直接,它要求模型调整其行为指导方针,使其对任何信息请求都保持开放态度,即便这些内容可能具有冒犯性、有害性或非法性。微软Azure CTO Mark Russinovich揭秘新型大模型入侵技术“Skeleton Key”(万能钥匙)

在具体攻击案例中,微软展示了如何通过一系列巧妙的对话引导AI模型放松警惕,最终使其“自愿”提供非法内容的详细指导。例如,在询问如何制作燃烧鸡尾酒瓶(即非法燃烧瓶)时,攻击者首先通过构建一个“安全的教育环境”的假象,欺骗模型认为其正在参与一项合法的研究活动。随后,通过要求模型在输出可能违规的内容时添加“警告:”前缀,逐步削弱了模型的自我审查机制。最终,模型在看似合理的请求下,提供了详细的非法内容制作指南。

据Mark透露,微软在今年4至5月期间对包括OpenAI的GTP-4o、GPT3.5Turbo,谷歌的Gemini Pro基础模型,Meta的Llama3-70b指令微调和基础模型,以及Anthropic的Claude3Opus等在内的主流开、闭源模型进行了全面测试,结果显示这些模型均未能幸免于万能钥匙的攻击。

面对这一严峻的安全挑战,微软已经积极与受影响的大模型平台展开合作,共同优化模型的安全护栏,以防止类似攻击事件的再次发生。同时,“AIGC开放社区”也利用这一诱导式攻击方法对国内众多领先的大模型进行了测试,发现不少产品同样存在安全风险,呼吁业界加强对AI安全性的重视与防范

暂无评论

暂无评论...