CAP-SRP 状态: 正式发布 v1.0 — 全球首个证明AI内容拒绝的标准
CAP扩展: 安全拒绝证明

CAP-SRP v1.0

Safe Refusal Provenance(安全拒绝证明)

核心创新:

C2PA证明的是:

"此内容已生成"

CAP-SRP证明的是:

"此请求已被阻止"

" 当AI提供商声称"我们阻止了数百万有害请求"时,没有任何独立方能够验证这一说法。2026年1月的Grok事件暴露了这一结构性缺陷:xAI的系统在声称具备审核功能的同时,却生成了数千张非自愿亲密图像(NCII)。CAP-SRP为基于验证的AI问责制提供了密码学基础设施。 "

否定证明问题

传统日志无法验证AI安全性的原因

传统日志

  • 可以记录生成的内容
  • 无法证明生成的内容
  • 无法验证拒绝声明
  • 容易受到选择性日志攻击

使用CAP-SRP后

  • 每个请求的密码学证明
  • 可验证的拒绝记录(GEN_DENY)
  • 完整性不变量验证
  • 外部锚定防篡改

威胁模型:对抗性AI提供商

威胁 描述 CAP-SRP缓解措施
选择性日志 只记录有利的结果 完整性不变量
日志篡改 修改历史记录 哈希链完整性
回溯日期 使用虚假时间戳创建记录 外部锚定(RFC 3161/SCITT)
分裂视图 向不同方展示不同的日志 默克尔证明
伪造 创建虚假的拒绝记录 尝试-结果配对

SRP事件模型

证明AI内容决策的核心事件类型

SRP事件生命周期

┌─────────────────────────────────────────────────────────────────────────┐ │ SRP事件生命周期 │ ├─────────────────────────────────────────────────────────────────────────┤ │ │ │ 用户请求 │ │ │ │ │ ▼ │ │ ┌─────────────────┐ │ │ │ GEN_ATTEMPT │ ◄─── 必须首先记录(安全评估前) │ │ └────────┬────────┘ │ │ │ │ │ ▼ │ │ ┌─────────────────┐ │ │ │ 安全性检查 │ │ │ │ ├─ CSAM_RISK │ │ │ │ ├─ NCII_RISK │ │ │ │ ├─ VIOLENCE │ │ │ │ └─ Policy │ │ │ └────────┬────────┘ │ │ │ │ │ ┌────┴────┬─────────────┐ │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ ┌───────┐ ┌────────┐ ┌───────────┐ │ │ │ GEN │ │GEN_DENY│ │ GEN_ERROR │ │ │ │(通过) │ │(拒绝) │ │ (错误) │ │ │ └───────┘ └────────┘ └───────────┘ │ │ │ │ 不变量: count(GEN_ATTEMPT) == count(GEN) + count(GEN_DENY) │ │ + count(GEN_ERROR) │ │ │ └─────────────────────────────────────────────────────────────────────────┘

GEN_ATTEMPT

请求已接收

在任何安全评估之前记录。记录生成请求已到达。

GEN

生成成功

内容已生成并交付给用户。

GEN_DENY

生成被拒绝

由于检测到策略违规而阻止请求。

GEN_ERROR

系统故障

由于系统错误导致生成失败(非策略相关)。

时间要求

100ms

请求 → GEN_ATTEMPT

60秒

GEN_ATTEMPT → 结果

1秒

结果事件记录

关键要求:评估前记录

GEN_ATTEMPT必须在任何安全评估开始之前记录。这可以防止只记录"安全"请求的选择性日志。

完整性不变量

CAP-SRP的数学核心

∑ GEN_ATTEMPT = ∑ GEN + ∑ GEN_DENY + ∑ GEN_ERROR

对于任何时间窗口,尝试次数必须与所有结果的总和完全相等。

尝试数 > 结果数

检测到未匹配的尝试

→ 系统隐藏了结果

结果数 > 尝试数

检测到孤立结果

→ 系统伪造了拒绝

重复结果

每次尝试有多个结果

→ 数据完整性故障

验证算法(O(n)复杂度)

def verify_completeness(events: List[dict], time_window: Tuple) -> Result:
    """
    验证时间窗口内事件的完整性不变量。
    返回:包含状态、未匹配尝试、孤立结果的Result
    """
    filtered = [e for e in events 
                if time_window[0] <= e["Timestamp"] <= time_window[1]]
    
    attempts = {e["EventID"]: e 
                for e in filtered 
                if e["EventType"] == "GEN_ATTEMPT"}
    
    outcomes = [e for e in filtered 
                if e["EventType"] in ["GEN", "GEN_DENY", "GEN_ERROR"]]
    
    matched_attempts = set()
    orphan_outcomes = []
    
    for outcome in outcomes:
        attempt_id = outcome.get("AttemptID")
        if attempt_id in attempts:
            if attempt_id in matched_attempts:
                return Result(valid=False, error="DUPLICATE_OUTCOME")
            matched_attempts.add(attempt_id)
        else:
            orphan_outcomes.append(outcome["EventID"])
    
    unmatched_attempts = set(attempts.keys()) - matched_attempts
    
    return Result(
        valid=(len(unmatched_attempts) == 0 and len(orphan_outcomes) == 0),
        unmatched_attempts=list(unmatched_attempts),
        orphan_outcomes=orphan_outcomes
    )

风险类别

GEN_DENY事件的标准化分类

CSAM_RISK

儿童性虐待材料风险

NCII_RISK

非自愿亲密图像

MINOR_SEXUALIZATION

未成年人性化内容

REAL_PERSON_DEEPFAKE

未授权的真人逼真描绘

VIOLENCE_EXTREME

极端暴力、血腥、酷刑

HATE_CONTENT

歧视性内容

TERRORIST_CONTENT

恐怖主义相关内容

SELF_HARM_PROMOTION

自残行为鼓励

COPYRIGHT_VIOLATION

明确的知识产权侵犯

合规级别

根据不同组织需求的分级采用

铜级

中小企业、早期采用者

  • 事件日志(INGEST, TRAIN, GEN, EXPORT)
  • SHA-256哈希链
  • Ed25519数字签名
  • 6个月保留期

自愿透明性

银级

企业、VLOP

  • 全部铜级 + SRP扩展
  • GEN_ATTEMPT & GEN_DENY事件
  • 完整性不变量
  • 每日外部锚定
  • 证据包生成
  • 2年保留期

EU AI法案第12条

金级

受监管行业

  • 全部银级要求
  • 每小时外部锚定
  • HSM密钥管理
  • SCITT透明服务
  • 实时审计API
  • 5年保留期

DSA第37条审计

监管合规映射

CAP-SRP如何应对全球AI法规

法规 管辖区 生效日期 CAP-SRP实施
EU AI法案第12条 欧盟 2026年8月 自动日志、风险识别、6个月保留
数字服务法(DSA) 欧盟 已生效 第37条审计、GEN_DENY统计
科罗拉多州AI法(SB24-205) 美国(CO) 2026年2月 影响评估、3年保留
TAKE IT DOWN法 美国(联邦) 2026年5月 NCII证据、48小时响应证明、GEN_DENY
英国在线安全法 英国 已生效 第1类服务需金级

与标准的集成

CAP-SRP补充现有的透明性基础设施

C2PA集成

方面 C2PA CAP-SRP
问题 "这是真实的吗?" "AI做了什么决定?"
焦点 内容来源 系统问责
比喻 内容护照 系统黑匣子

SCITT集成

CAP-SRP作为领域特定配置文件与IETF SCITT(供应链完整性、透明性和信任)集成。

  • CAP事件 → SCITT签名声明
  • 事件链 → 仅追加日志
  • 默克尔证明 → COSE收据
  • 外部锚定 → 透明服务

开始使用CAP-SRP

为您的AI内容系统实施密码学问责制

"根本问题不是'AI系统能否检测有害内容?'
而是'第三方能否验证声称的检测确实发生过?'"

— CAP-SRP 规范 v1.0

"验证,而非信任"

本作品采用 CC BY 4.0 国际许可协议

CAP-SRP 规范 v1.0.0 — 发布日期: 2026-01-28