新年之初,ChatGPT 竟沦为「恐怖活动」的助手?在为一名美国现役军人提供爆炸相关知识后,该军人成功引爆了一辆特斯拉 Cybertruck 于酒店门口……
这并非科幻电影的虚构情节,而是 AI 安全风险在现实世界中悄然上演的真实写照。知名 AI 投资人 Rob Toews 在《福布斯》专栏中预警,2025 年我们将目睹「首起真实的 AI 安全事件」的发生。
我们已迈入与另一种智能生命共存的时代,Rob Toews 写道,它如同人类一般难以捉摸,且充满欺骗性。
无独有偶,另一份新鲜出炉的行业预测同样聚焦于这一问题。北京智源研究院在 2025 年十大 AI 技术趋势中,全面描绘了从基础研究到应用落地,再到 AI 安全的完整发展蓝图。尤为值得关注的是,AI 安全作为一个独立的技术领域,被智源研究院评为第十大趋势:
模型能力提升与风险预防需并重,AI 安全治理体系将持续完善。
报告指出:作为复杂系统,大模型的扩展带来了涌现现象,但复杂系统特有的涌现结果不可预测、循环反馈等属性,对传统工程的安全防护机制构成了挑战。基础模型在自主决策方面的持续进步带来了潜在的失控风险,如何引入新的技术监管手段,如何在人工监管中平衡行业发展与风险管控,成为 AI 领域各方值得持续探讨的议题。
AI 大模型安全领域,暗流涌动
2024 年,AI 大模型在实现飞跃式发展的同时,也让我们清晰地看到了安全这根敏感神经如何被触动。
研究表明,AI 安全风险可分为三类:内生安全问题、衍生安全问题和外生安全问题。
「内生安全问题」(如「数据污染」、「价值对齐问题」、「决策黑盒」)堪称大模型的「基因缺陷」——庞大的架构、海量的参数、复杂的内部交互机制,使得模型既强大又难以驾驭。
众人皆知的「poem」复读漏洞——仅需重复一个词,就能让 ChatGPT 泄露真实个人信息,这便是大模型在学习过程中,除了提取语言知识外,还会「死记硬背」一些数据,结果导致数据隐私以一种荒谬的方式被泄露。
机器之心曾尝试让 ChatGPT 不断重复「AI」一词,起初它乖乖从命,不断重复,但在重复了 1395 次「AI」后,它突然转变话题,开始提及 Santa Monica,而这些内容很可能是 ChatGPT 训练数据的一部分。
Prompt 攻击之所以有效,是因为系统提示和用户输入均采用相同的自然语言文本字符串格式,大语言模型无法仅根据数据类型来区分指令和输入。
「越狱」手段更是层出不穷。从「奶奶漏洞」、「冒险家漏洞」、「作家漏洞」到最新的「Deceptive Delight」技术,攻击者仅需三次对话,就有 65% 的概率绕过安全限制,让模型生成违禁内容。
Anthropic 的最新研究更是揭示,大语言模型居然学会了「伪装对齐」。
更令人忧虑的是大模型在行业应用中的表现。大模型在通用对话中流畅自如,但清华大学、中关村实验室、蚂蚁集团等机构联合撰写的《大模型安全实践(2024)》白皮书指出,在金融、医疗等对模型输出专业性和准确性要求极高的领域,大模型的应用面临严峻挑战,包括严重幻觉、缺乏复杂推理能力等问题。
展望 2025 年,智源研究院预测 Agentic AI 将成为大模型应用的主流形态,这些具备更强自主性的智能体将深度融入我们的工作与生活,同时也加剧了系统失控的风险。
试想未来两到三年内,我们可能生活在一个每个人都有数十或数百个智能体为我们服务的世界,安全基础设施的建设将变得至关重要。那么,谁来提供这些安全基础设施?如何管理这些 AI 智能体?如何确保它们不会失控?
当前的大模型安全评测主要聚焦于内容安全,对于智能体这类复杂应用架构和未来 AGI(通用人工智能)的安全评估体系仍显不足。
AI 安全风险的另一大来源是「衍生安全问题」,随着 AI 的滥用,其他领域也发生了一些重大安全事故,如假新闻、深度伪造诈骗、侵犯知识产权、教唆青少年自杀、作弊等,这对社会治理提出了重大挑战。
「真实」这一基本命题正遭受前所未有的挑战。西藏日喀则地震期间,「地震中被压废墟下戴帽小孩是 AI 生成」的新闻冲上热搜,多个平台账号在转发图片时都信以为真。除了金融诈骗,深度伪造技术也将网络性暴力推向极端,在「厌女文化」盛行的韩国,这一问题尤为严重。世界经济论坛甚至将 AI 操纵选举列为 2024 年的头号风险。
[图片说明:此图片被多个平台账号发布,并与本次地震关联,引发网友关注和转发。经媒体查证,该图片由 AI 工具创作,原始作者在 2024 年 11 月 18 日发布了相同画面的短视频,并声明为 AI 生成。]
版权是另一个重大问题。OpenAI、Anthropic、Suno 等行业领头羊已深陷版权泥沼。最近,爱奇艺起诉某大模型公司 AI 魔改经典影视剧片段,开创了国内 AI 视频侵权诉讼的先河。
第三类「外生安全问题」则指向人工智能系统的外部网络攻击对抗,如平台、框架的安全漏洞、模型被盗、数据泄露等风险,这些属于传统信息安全范畴。
以数据泄露为例,其形势愈发严峻。目前 AI 模型推理的较优选择仍是在明文状态下进行,用户会输入大量真实、敏感的数据以获取模型建议。有报告指出,2024 年企业员工上传到生成式 AI 工具的敏感数据增长了 485%,包括客户支持信息、源代码和研发数据。
由于不同类型的数据(如文本、图像、视频、音频)在数据规模和处理需求上存在巨大差异,被寄予厚望的多模态大模型使得数据的安全防护变得更为复杂。
破浪前行,构建多维度安全航道
人类已推开深度智能时代的大门,安全问题也迎来了质变时刻。
2024 年,业界、政府、国际组织在 AI 治理方面做了大量工作,从技术研究、治理框架到国际合作,进行了多种形式的探索。数字时代积累的安全对抗能力,使中国在大模型应用与治理方面走在了世界前列。
在监管层面,中国是全球最早对生成式 AI 进行规范的国家之一。继 2023 年 5 月发布《生成式人工智能服务管理暂行办法》后,《网络安全技术生成式人工智能服务安全基本要求》也已进入公开征求意见阶段,许多规范细节正在制定中。
在底层关键技术研究方面,国内业界取得了积极成果。例如,北京智源研究院研发了防御大模型和 AI 监管大模型,在对齐优化方面进行了创新。
由于模型在预训练后形成的分布结构较为稳固,大模型存在「抗拒微调对齐」的特性,后期单纯通过微调来实现对齐往往效果不佳。对此,智源提出在预训练阶段就将对齐所需的表征能力融入模型架构中。
在对齐优化过程中,针对未对齐答案和对齐答案之间的偏差,智源采用了迭代训练的方法,更有利于模型从原始问题到对齐问题的训练,取得了良好效果。
在多模态对齐方面,智源推出的「align anything」框架实现了多模态信息的全面对齐,其创新之处在于将多模态信息、现实世界的具身认知以及人类意图进行细粒度的对齐整合,在 LLaMA 模型的微调过程中已展现出显著效果。
蚂蚁集团则通过结合知识图谱的优点(逻辑推理能力强、知识准确可靠)与大模型,来解决大模型的可控性问题。通过在大模型预训练、提示指令、思维链、RAG(检索增强生成)和模型对齐等环节中引入符号知识,有效增强了模型输出的专业性和可靠性。
大模型作为一种通用技术,既可用于「攻」,也可用于「防」。在拥抱大模型,以 AI 对抗 AI 方面,华为、蚂蚁集团、360 集团、深信服等厂商进行了有益探索。
华为提出了业界首个 L4 级 AI 安全智能体,通过大模型结合一些安全知识图谱实现安全的纵深推理,发现一些以前未曾发现过的安全攻击。
蚂蚁集团发布了大模型安全一体化解决方案「蚁天鉴」,包含大模型安全检测平台「蚁鉴」和大模型风险防御平台「天鉴」两大产品,具备检测与防御两大核心安全技术能力。
「蚁鉴」是全球首个实现工业级应用的可信 AI 检测平台,以生成式能力检测生成式系统,覆盖内容安全、数据安全、科技伦理等全风险类型,适用于文本、表格、图像、音频、视频等全数据模态。]
在防御能力方面,「天鉴」会动态监测用户与模型的交互,防止诱导攻击,同时对生成的回答内容进行风险过滤,确保大模型上线后从用户输入到生成输出的整体安全防御。
360 集团推出了基于类脑分区专家协同架构的安全大模型,通过 EB 级安全数据训练,已具备 L4 级「自动驾驶」能力,实现了从威胁检测到溯源分析的全流程自动化。
深信服的「安全 GPT」可提供 7×24 小时实时在线智能值守,提升安全运营效率,同时深度挖掘传统安全设备难以检测的高对抗、高绕过的 Web 攻击、钓鱼攻击。
除了监管和关键技术的推进,行业也在积极加强 AI 安全协作。