检测为何失败：合成媒体时代可验证AI溯源的案例

引言：超越检测的危机

2024年1月，一通从未发生的电话几乎改变了美国民主的进程。

一个与乔·拜登总统的声音无法区分的AI生成声音，敦促最多25,000名新罕布什尔州选民在初选期间待在家里。这条消息是精心设计的、令人信服的、完全捏造的。当调查人员追踪到这通电话来自一位使用商业语音克隆工具的政治顾问时，损害已经造成——一个根本性的真相已经暴露。

我们无法通过检测来解决合成媒体危机。

拜登机器人电话不是一个孤立事件。这是AI生成虚假信息全球流行病中的一个信号事件。从针对香港工程公司Arup的2560万美元深度伪造抢劫，到斯洛伐克、印度等地的选举操纵，模式是明显的：我们当前的防御在根本层面上正在失败。

本文检验证据，分析为什么基于检测的方法在结构上是不足的，并为可验证AI溯源（VAP）的范式转变提出论据——这种密码学基础设施在创建时认证内容，而不是在事后尝试识别操纵。

关键证据：跨越六大洲的文档化事件，显示检测准确率低至26%的实证研究，以及从EU AI法案到NIST指南的新兴监管共识，都表明溯源而非检测代表了前进的道路。

第一部分：全球事件登记

2024年：合成媒体成为主流的一年

2024-2025年AI生成虚假信息的规模超过了所有先前的预测。以下是说明危机范围、多样性和影响的文档化事件的代表性目录——而非详尽清单。

美国：选举基础设施遭受攻击

新罕布什尔州机器人电话成为美国的监管警钟。FCC在三周内做出了里程碑式的裁决，根据《电话消费者保护法》宣布AI生成的声音为非法。最终处罚：600万美元罚款，26位州检察长支持联邦执法行动。

候选人发表煽动性言论的深度伪造视频
冒充选举官员的AI语音克隆
通过加密渠道分发的选举舞弊合成"证据"

英国：阵亡将士纪念日险情

2023年11月：伦敦市长萨迪克·汗的AI生成音频显示他就阵亡将士纪念日纪念活动发表煽动性言论。时机是经过计算的：就在极右翼团体计划反抗议活动时发布。伦敦警察厅进行了调查，但得出结论认为他们缺乏起诉的法律框架。

斯洛伐克：48小时攻击窗口

2023年9月：反对派领袖米哈尔·西梅奇卡讨论选票操纵的AI生成音频在法定的48小时选举前媒体沉默期内发布。攻击者利用了一个结构性弱点：旨在确保公平选举的媒体沉默成为了反驳的屏障。

香港：2560万美元的视频通话

英国工程公司Arup的一名财务人员在一次视频会议中被骗转账2560万美元，会议中的每个参与者都是AI再造的——包括公司的CFO。攻击持续了大约15分钟。受害者向5个不同的银行账户进行了15次单独转账。

WEF分析：企业深度伪造欺诈损失平均每次事件超过50万美元；预计到2027年全球损失将达到400亿美元。

印度：5000万次AI语音通话

印度2024年大选看到了前所未有规模的AI部署：投票前两个月内超过5000万次AI语音克隆通话。研究发现，竞选期间75%的印度选民接触到了政治深度伪造。事实核查人员无法以声明生成的速度处理它们。

以色列-加沙：信息战

2023年10月的冲突在双方都产生了大量AI图像，包括在事实核查人员能够做出反应之前就在全球传播的伪造暴行图像。这场冲突展示了合成媒体如何加剧战争迷雾，使人们无法自信地确定基本事实。

模式：速度击败验证

在所有这些事件中，出现了一个一致的模式：合成内容的传播速度超过了验证的速度。根本的不对称性有利于攻击者：

生成是即时的。现代工具在几秒钟内产生令人信服的合成媒体。

分发是无摩擦的。社交媒体算法无论真实性如何都会放大互动。

检测是缓慢的。结果在病毒式传播后才到来。

辟谣无法消除曝光。更正无法消除虚假信息的影响。

这种不对称性无法通过更好的检测来解决。它需要一种不同的范式。

第二部分：检测为何结构性不足

数字不会说谎

2023年7月，OpenAI停用了其AI文本分类器——运营仅六个月后。原因很明显：该工具在识别AI生成文本方面仅达到26%的准确率，假阳性率为9%。构建ChatGPT的公司无法可靠地检测自己的输出。

这次失败不是实施问题。它反映了适用于所有检测方法的根本局限性。

24.5%

人类对高质量深度伪造的检测准确率

26%

OpenAI文本分类器准确率（已停用）

50%

视频检测准确率下降（实验室到真实世界）

61%

非母语英语论文被误判为AI

人类检测表现仅略好于随机。对包括86,155名参与者的56项研究进行的荟萃分析发现，人类正确识别高质量深度伪造视频的准确率仅为24.5%——比随机猜测还差。
自动检测在现实条件下失败。RAID基准研究在1000万份文档上测试了12种检测工具，发现当假阳性率被限制在1%以下时，大多数检测器"无法保持准确性"。
真实世界性能崩溃。Deepfake-Eval-2024基准记录了与学术基准性能相比视频检测50%的准确率下降。

对抗性军备竞赛

检测方法面临一个根本的不对称性：每一项检测进步都可以被纳入生成训练。正如布鲁金斯学会研究员亚历克斯·恩格勒所观察到的：

"深度伪造可以做到字面上的完美：存在一个可达到的点，在这个点上深度伪造与真实内容完全无法区分。"

这反映了生成对抗网络（GAN）的数学结构，其中判别器的反馈改进了生成器的输出。训练检测系统会创造更好的生成器。军备竞赛在结构上是无法获胜的。

规避技术已商业化可用

改写工具将AI文本检测准确率从90%以上降至约30%
"UnMarker"攻击在约5分钟内从包括Google的SynthID和Meta的StableSignature在内的主要系统中移除水印
像Undetectable AI这样的服务明确营销检测绕过功能
对抗性攻击可以通过有针对性的修改将检测准确率降低超过99%

偏见问题

检测失败不是均匀分布的。斯坦福大学的研究发现，非母语英语使用者撰写的论文中有61.22%被错误地标记为AI生成，几乎所有（97.8%）被至少一个检测器标记。

在大规模情况下，这会造成系统性歧视。一个每年处理480,000份评估的机构，即使只有1%的假阳性率，也会产生每年4,800次不当指控。在法律、就业或教育环境中，这种错误会毁掉生命。

证据差距

即使检测产生准确的结果，这些结果在法律程序中也面临挑战。检测输出是概率性评估，而非确定性判定。法院对声称能够确定性地识别合成内容的专家证词持怀疑态度。

第三部分：向溯源的监管转变

EU AI法案：全球模板

欧盟的人工智能法案于2024年8月生效，2026年8月开始全面执行，代表了迄今为止最全面的溯源授权。

第50条确立了核心要求：生成合成内容的AI系统提供商必须确保输出"以机器可读格式标记，并可检测为人工生成或操纵"。

EU AI法案：可接受的实施技术

水印 — 对内容的不可感知修改
元数据标识 — 机器可读的溯源记录
密码学方法 — 证明溯源和真实性
日志方法 — 生成和修改的审计跟踪
指纹 — 内容衍生标识符

处罚：1500万欧元或全球年营业额的3%——以较高者为准。

美国：机构行动引领立法

FCC（2024年2月）

根据现有的《电话消费者保护法》条款宣布AI生成的声音为非法，无需新立法即可对机器人电话计划进行执法。

FTC（2024年4月）

更新了冒充规则，明确涵盖AI驱动的欺诈，为深度伪造创建者和促进分发的平台创造责任。

TAKE IT DOWN法案（2025年5月）

第一部实质性监管AI生成内容的联邦法律，将包括深度伪造在内的非自愿亲密图像定为刑事犯罪，最高可判处三年监禁。

NIST：技术权威发声

美国国家标准与技术研究院2024年11月的报告（NIST AI 100-4）代表了权威的美国政府技术评估。其结论是明确的：

"没有完美的解决方案来管理合成内容带来的风险。"

报告建议以溯源机制为中心的"纵深防御"方法。它明确将C2PA确定为领先的溯源标准，并建议将"带有密码签名的元数据记录"作为技术基础。

国际共识：G7、OECD及其他

G7广岛AI进程指导原则明确呼吁先进AI开发者：

"在技术可行的情况下，开发和部署可靠的内容认证和溯源机制，包括水印或其他技术，使用户能够识别AI生成的内容。"

2024年5月更新并被47个国家采纳的OECD AI原则要求AI行为者应确保在AI系统整个生命周期内的可追溯性。

第四部分：溯源技术——进展与差距

C2PA：新兴标准

内容溯源和真实性联盟已成为内容认证的领先技术标准。拥有200多个联盟成员，包括Adobe、微软、谷歌、英特尔、BBC、索尼、OpenAI和Meta，C2PA代表了前所未有的行业一致性。

C2PA的工作原理

内容凭证在捕获或生成时创建
凭证记录来源、创建者身份、时间戳和编辑历史
X.509证书提供凭证来源的密码学认证
SHA-256哈希在内容和凭证之间创建防篡改绑定
对内容的更改会使凭证无效，除非正确重新签名

采用加速

OpenAI将C2PA集成到DALL-E 3（2024年2月）
YouTube为经过验证的素材显示C2PA标签
Google Pixel 10提供硬件级C2PA支持
高通Snapdragon 8 Gen3包含C2PA功能
LinkedIn显示内容凭证指示器
ISO将标准快速通道为ISO/CD 22144（2024年10月）

当前局限性

C2PA漏洞

元数据剥离：C2PA凭证通常在截图、社交媒体上传和标准图像处理中丢失
信任模型弱点：任何人都可以以约289美元/年的价格购买有效的签名证书
排除列表：硬件实现允许在不使签名失效的情况下进行重大更改
水印漏洞：谷歌的SynthID仍然容易受到保留含义的攻击

完整VAP基础设施需要什么

普遍采用

溯源有效性取决于凭证在整个分发链中存活。平台保存和显示凭证的要求至关重要。

硬件集成

芯片级溯源支持在捕获时建立真实性，而不是通过可被绕过的后处理。

信任模型改进

超越商业证书机构，转向经验证的身份绑定、分级信任级别，以及可能的去中心化验证。

互操作性

溯源系统必须跨平台、设备和司法管辖区协同工作。

第五部分：从检测到验证——范式转变

改变问题

检测和溯源方法之间的根本区别在于所问的问题：

检测问的是：

"这内容是假的吗？"

溯源问的是：

"这内容可以被认证吗？"

区别是深刻的。检测试图通过总是可以被规避的模式识别来证明否定（不存在操纵）。溯源建立一个肯定（来源和完整性的密码学证明），只有通过打破数学保证才能被破坏。

方面	检测范式	溯源范式
默认假设	内容是真实的，除非检测为假	内容是未验证的，除非被认证
举证责任	防御者必须抓住攻击者	攻击者必须打破密码学
错误模式	假阴性允许操纵	缺少凭证表示不确定性
改进路径	收益递减的军备竞赛	收益复合的基础设施建设

"骗子红利"问题

法学学者罗伯特·切斯尼和丹尼尔·西特龙确定了"骗子红利"——合成媒体存在带来的次级伤害。即使没有创建深度伪造，恶意行为者也可以将真实证据斥为伪造。合成媒体的存在本身就提供了普遍的可否认性。

检测无法解决骗子红利问题。更好的检测工具不能阻止声称真实内容是假的。只有肯定性认证才能解决这个问题——建立什么是真实的，而不是试图识别什么是假的。

溯源系统通过创建具有密码学真实性保证的内容类别来缩小骗子红利。当经过认证的内容存在时，将其斥为伪造需要声称密码学系统已被破坏——这是一个可以客观评估的声明。

第六部分：对利益相关者的影响

监管者和政策制定者

监管的必要性是明确的：强制要求溯源，而非检测。EU AI法案提供了模板。有效的监管应该：

对跨模态的AI生成内容要求生成时溯源
在分发过程中强制平台保留溯源凭证
建立互操作性要求以防止碎片化、不兼容的系统
定义分级信任级别，区分经过验证的身份和匿名证书
创建执行机制，处罚足以确保合规

平台和分发者

社交媒体平台、消息服务和内容分发系统必须从以检测为重点的内容审核过渡到溯源保留基础设施：

在上传、转码和分发过程中保留凭证
向用户显著显示溯源信号
在算法处理中区分经过认证的内容与未验证的内容
支持针对独立信任锚的验证查询

内容创作者和记者

对于新闻、纪录片证据和官方通信，溯源创造了竞争优势：

经过认证的内容具有未验证内容所没有的分量
凭证链证明尽职调查和来源核实
防篡改证据保护免受发布后操纵声明的影响
机构信任通过正确签名的凭证传递

法院和法律系统

向基于溯源的真实性的过渡将需要法律基础设施的适应：

证据规则必须处理密码学签名的内容
专家证词标准应区分密码学验证和基于模式的检测
举证责任分配应根据凭证可用性进行调整
证据链概念必须扩展到数字溯源记录

结论：构建验证层

本分析中提出的证据支持几个明确的结论：

问题是全球性和系统性的。

AI生成的虚假信息已影响了每个主要地区的选举，造成了大规模欺诈，并加剧了冲突。这不是未来的威胁；这是当前的危机。

检测从根本上是不足的。

低准确率、固有偏见、商业规避工具和理论限制的结合意味着检测无法跟上生成的步伐。这反映了有利于攻击者的结构性不对称。

溯源代表范式转变。

从被动检测转向主动认证改变了根本动态。来源和完整性的密码学证明提供了模式匹配无法提供的保证。

监管共识正在形成。

EU AI法案、G7原则、OECD建议和NIST指南都指向溯源基础设施。方向是明确的；实施速度是变量。

社会面临的选择是继续将资源投入一场我们无法获胜的检测军备竞赛，还是构建能够将根本动态转向有利于真实性的验证基础设施。

VeritasChain协议（VCP）

VeritasChain协议代表了我们对这一基础设施挑战的贡献。基于哈希链、数字签名和Merkle树构建，VCP提供了将"相信我"转变为"验证这个"的密码学审计跟踪。我们与IETF SCITT工作组的合作、跨50多个司法管辖区的监管参与，以及与新兴标准的一致性，使VCP成为溯源必要性的生产就绪基础设施。

合成媒体危机不会自行解决。检测不会追上。媒体素养无法足够快地扩展。

只有在创建时认证并在整个分发过程中验证的基础设施才能应对这一挑战。

溯源的时代已经到来。

VeritasChain标准组织（VSO）为算法系统开发开放的密码学审计标准。

更多信息，请访问veritaschain.org或联系info@veritaschain.org。

参考资料与延伸阅读

监管文件

EU AI法案，第50条：透明度义务
NIST AI 100-4：减少合成内容带来的风险（2024年11月）
FCC声明性裁决FCC 24-17：机器人电话中的AI生成声音（2024年2月）
G7广岛AI进程指导原则（2023年10月）

技术标准

C2PA技术规范v2.1
ISO/CD 22144：内容凭证（快速通道）
IETF SCITT架构：draft-ietf-scitt-architecture

研究与分析

"深度伪造检测中的人类表现：系统综述和荟萃分析" - ScienceDirect（2024）
"当检测失败时对抗深度伪造" - 布鲁金斯学会
"GPT检测器对非母语英语写作者存在偏见" - 斯坦福/加州大学伯克利分校（2023）
"深度伪造、选举与缩小骗子红利" - 布伦南司法中心

事件文档

CNN："财务人员在深度伪造'CFO'骗局中支付2500万美元"（2024年2月）
世界经济论坛："从2500万美元深度伪造攻击中吸取的教训"（2025年2月）
洛伊研究所："不要听信耳朵：全球选举年的音频深度伪造"（2024）

文档ID：VSO-BLOG-2025-001

版本：1.0

日期：2026年1月

分类：公开