Safe Refusal Provenance(安全拒绝证明)
核心创新:
C2PA证明的是:
"此内容已生成"
CAP-SRP证明的是:
"此请求已被阻止"
" 当AI提供商声称"我们阻止了数百万有害请求"时,没有任何独立方能够验证这一说法。2026年1月的Grok事件暴露了这一结构性缺陷:xAI的系统在声称具备审核功能的同时,却生成了数千张非自愿亲密图像(NCII)。CAP-SRP为基于验证的AI问责制提供了密码学基础设施。 "
传统日志无法验证AI安全性的原因
| 威胁 | 描述 | CAP-SRP缓解措施 |
|---|---|---|
| 选择性日志 | 只记录有利的结果 | 完整性不变量 |
| 日志篡改 | 修改历史记录 | 哈希链完整性 |
| 回溯日期 | 使用虚假时间戳创建记录 | 外部锚定(RFC 3161/SCITT) |
| 分裂视图 | 向不同方展示不同的日志 | 默克尔证明 |
| 伪造 | 创建虚假的拒绝记录 | 尝试-结果配对 |
证明AI内容决策的核心事件类型
请求已接收
在任何安全评估之前记录。记录生成请求已到达。
生成成功
内容已生成并交付给用户。
生成被拒绝
由于检测到策略违规而阻止请求。
系统故障
由于系统错误导致生成失败(非策略相关)。
100ms
请求 → GEN_ATTEMPT
60秒
GEN_ATTEMPT → 结果
1秒
结果事件记录
关键要求:评估前记录
GEN_ATTEMPT必须在任何安全评估开始之前记录。这可以防止只记录"安全"请求的选择性日志。
CAP-SRP的数学核心
∑ GEN_ATTEMPT = ∑ GEN + ∑ GEN_DENY + ∑ GEN_ERROR
对于任何时间窗口,尝试次数必须与所有结果的总和完全相等。
检测到未匹配的尝试
→ 系统隐藏了结果
检测到孤立结果
→ 系统伪造了拒绝
每次尝试有多个结果
→ 数据完整性故障
def verify_completeness(events: List[dict], time_window: Tuple) -> Result: """ 验证时间窗口内事件的完整性不变量。 返回:包含状态、未匹配尝试、孤立结果的Result """ filtered = [e for e in events if time_window[0] <= e["Timestamp"] <= time_window[1]] attempts = {e["EventID"]: e for e in filtered if e["EventType"] == "GEN_ATTEMPT"} outcomes = [e for e in filtered if e["EventType"] in ["GEN", "GEN_DENY", "GEN_ERROR"]] matched_attempts = set() orphan_outcomes = [] for outcome in outcomes: attempt_id = outcome.get("AttemptID") if attempt_id in attempts: if attempt_id in matched_attempts: return Result(valid=False, error="DUPLICATE_OUTCOME") matched_attempts.add(attempt_id) else: orphan_outcomes.append(outcome["EventID"]) unmatched_attempts = set(attempts.keys()) - matched_attempts return Result( valid=(len(unmatched_attempts) == 0 and len(orphan_outcomes) == 0), unmatched_attempts=list(unmatched_attempts), orphan_outcomes=orphan_outcomes )
GEN_DENY事件的标准化分类
CSAM_RISK
儿童性虐待材料风险
NCII_RISK
非自愿亲密图像
MINOR_SEXUALIZATION
未成年人性化内容
REAL_PERSON_DEEPFAKE
未授权的真人逼真描绘
VIOLENCE_EXTREME
极端暴力、血腥、酷刑
HATE_CONTENT
歧视性内容
TERRORIST_CONTENT
恐怖主义相关内容
SELF_HARM_PROMOTION
自残行为鼓励
COPYRIGHT_VIOLATION
明确的知识产权侵犯
根据不同组织需求的分级采用
中小企业、早期采用者
自愿透明性
企业、VLOP
EU AI法案第12条
受监管行业
DSA第37条审计
CAP-SRP如何应对全球AI法规
| 法规 | 管辖区 | 生效日期 | CAP-SRP实施 |
|---|---|---|---|
| EU AI法案第12条 | 欧盟 | 2026年8月 | 自动日志、风险识别、6个月保留 |
| 数字服务法(DSA) | 欧盟 | 已生效 | 第37条审计、GEN_DENY统计 |
| 科罗拉多州AI法(SB24-205) | 美国(CO) | 2026年2月 | 影响评估、3年保留 |
| TAKE IT DOWN法 | 美国(联邦) | 2026年5月 | NCII证据、48小时响应证明、GEN_DENY |
| 英国在线安全法 | 英国 | 已生效 | 第1类服务需金级 |
CAP-SRP补充现有的透明性基础设施
| 方面 | C2PA | CAP-SRP |
|---|---|---|
| 问题 | "这是真实的吗?" | "AI做了什么决定?" |
| 焦点 | 内容来源 | 系统问责 |
| 比喻 | 内容护照 | 系统黑匣子 |
CAP-SRP作为领域特定配置文件与IETF SCITT(供应链完整性、透明性和信任)集成。
为您的AI内容系统实施密码学问责制
"根本问题不是'AI系统能否检测有害内容?'
而是'第三方能否验证声称的检测确实发生过?'"
— CAP-SRP 规范 v1.0
"验证,而非信任"
本作品采用 CC BY 4.0 国际许可协议
CAP-SRP 规范 v1.0.0 — 发布日期: 2026-01-28