AI决策可审计性基准 v1.0

当前问题

算法交易可审计性面临的现状挑战

黑箱化决策

AI驱动的交易决策不透明。当监管机构问"为什么？"时，没有可审计的答案。

有日志，但是...

日志已记录，但真实性和顺序无法证明。时间戳可能成为争议点。

审计最后卡在Evidence质量

审计在最后阶段失败：证据质量。手动收集需要数天，格式不统一。

Reference Implementation

Auditability Benchmark — Reference Implementation

一个仅限本地运行、审计安全的参考实现，用于执行AI决策可审计性基准测试并导出监管就绪的证据。

VAP Scorecard Explorer 是AI决策可审计性基准（10项标准 / 20分满分）的参考实现。

使审计和保证团队能够：

执行一致、可重复的评估
记录评分依据和证据备注
导出审计证据包（ZIP / PDF）

隐私与安全

所有处理在本地运行。无网络通信。无外部API。无分析追踪。

打开Scorecard Explorer （仅限本地）

基准规格和评分标准作为官方参考公开发布。

VAP Scorecard Explorer — 更新历史

v1.2 当前版本

• 新增高管模式：🔧技术人员 / 👔高管一键切换
• 新增"为什么需要此评估"部分：明确EU AI Act、MiFID II、SEC Rule 17a-4的监管背景
• 各标准的高管一行说明：去除技术术语，显示"审计师能否验证？"等业务视角摘要
• 30项确认清单：每个标准3个具体确认项，点击切换状态（✓已确认 / ~部分 / ○未确认）
• 确认状态汇总仪表板：实时统计确认情况，突出优先处理项
• 清单图例说明：明确各状态含义（"可立即向审计说明"/"需补充资料"/"目前无法说明"）
• 保存时弹出通知："✓ 已保存"在屏幕底部显示2秒
• 复选框点击区域扩大：整行可点击，悬停时视觉反馈
• 安全模态框新增简体中文按钮：🇺🇸 English / 🇯🇵 日本語 / 🇨🇳 简体中文三语选择
• 模态框语言选择继承：注意画面选择的语言直接应用到主界面
• 清单状态持久化：保存到LocalStorage，页面刷新后保持
• 移动端响应式CSS强化：修复高管模式布局问题

v1.1

• 简体中文（zh-CN）完整支持：翻译所有UI文本、评估标准、评分规则和指南
• 术语统一：采用"可审计性""可由第三方验证""篡改可检测"等正式中文技术术语
• 标准2新增实现中立免责声明："这些仅为示例。任何能够检测未授权修改的加密构造均可接受。"

这是什么

诊断评分，而非实施方案

目的

这不是技术采用建议。

该基准使组织能够使用行业标准指标诊断其可审计性。结果直接关联到外部审计和监管合规的证据质量。

内部团队自我评估工具
第三方评估框架
厂商中立、技术无关

注意：该基准不提供认证或背书。它提供的是一个独立的、基于证据的评估框架。

20

最高分

评估标准 10项

每项得分 0 / 1 / 2

PoC时间约3小时

10项评估标准

按审计相关性排序。证据为中心的标准在前，技术实施细节在后。

#1 0 / 1 / 2

Third-Party Verifiability

第三方可验证性

"外部第三方能否独立验证审计轨迹？"

0无法外部验证

1需要厂商协助才能部分验证

2使用标准工具可完全独立验证

#2 0 / 1 / 2

Tamper Evidence

篡改检测

"能否检测到未授权的修改？"

0无篡改检测，可静默修改

1有基本校验和但不完整

2密码学完整性（哈希链、Merkle树）

#3 0 / 1 / 2

Sequence Fixation

顺序固定

"Decision → Order → Execution 的顺序是否不可变？"

0事件可以重新排序

1有时间戳但无密码学绑定

2密码学链接的单调递增序列

#4 0 / 1 / 2

Decision Provenance

决策溯源

"能否追溯输入、条件和理由？"

0仅记录结果

1部分输入已记录但不完整

2完整溯源：数据、参数、模型状态、逻辑

#5 0 / 1 / 2

Responsibility Boundaries

责任边界

"谁批准、修改或覆盖了每个操作？"

0无归属，使用通用账户

1记录用户名但无签名

2所有批准/覆盖都有数字签名

#6 0 / 1 / 2

Audit Submission Readiness

审计提交就绪性

"能否为监管审查导出证据？"

0需要手动收集，耗时数天

1部分导出，需单独提取

2一键导出，5分钟内完成

#7 0 / 1 / 2

Retention & Durability

保留期限与持久性

"记录是否保留了所需期限（如7年）？"

0无策略，数据可能丢失

1有策略但执行不完整

2冗余和完整性检查的强制保留

#8 0 / 1 / 2

Timestamp Reliability

时间戳可靠性

"时间戳是否与可信来源同步？"

0仅本地系统时钟

1NTP同步但无漂移监控

2PTP或RFC 3161，有文档化精度

#9 0 / 1 / 2

Cryptographic Strength

密码学强度

"算法是否符合当前安全标准？"

0已弃用算法（MD5、SHA-1）

1算法适当但无密钥管理

2强算法（Ed25519、SHA-256+）有密钥生命周期

#10 0 / 1 / 2

Cryptographic Agility

密码学迁移性（PQC准备）

"系统能否迁移到新算法？"

0硬编码，迁移会破坏验证

1有算法标识符但未测试

2已验证的PQC迁移路径文档化

3小时PoC评估

全部10项标准的最小可行测试流程

总时间：约3小时

1

导出与验证

30分钟

导出样本日志（10-100条记录）。交给不熟悉系统的人。

规则：不打电话，不找厂商支持，不用内部工具。

2

篡改测试

20分钟

修改一条历史记录的一个字段。运行完整性检查。

通过：自动检测并告警，定位修改位置。

3

顺序检查

15分钟

找到 Decision → Order → Execution 链。验证密码学绑定。

测试：尝试插入回溯日期的事件。如果可以，得0分。

4

溯源与归属

35分钟

选择上周的一个随机决策。重建：输入、参数、逻辑、批准人。

目标：10分钟内获得完整上下文 = 得2分。

5

审计导出

30分钟

模拟："监管机构要求账户X、日期Y的所有活动"

目标：一键导出，5分钟内完成完整包 = 得2分。

6

技术审查

50分钟

审查保留策略、时间源、加密算法、迁移计划。

覆盖：标准#7-10（保留、时间戳、加密强度、迁移性）

下载完整PoC指南 (VSO-SCORE-002)

Evidence Pack模板

审计和监管审查的第三方提交模板

CONFIDENTIAL 第三方提交模板 | Version 1.0

模板内容

总分：/20分，带评估等级
分数明细：全部10项标准的单独得分
Evidence Index：文件名 + SHA-256哈希
签名（Attestation）：评估者签名和日期

Evidence Index 示例

#1 audit_log_2025-01.json

SHA-256: a7f3c9d2...

#2 tamper_test_results.pdf

SHA-256: b8e4d1f5...

下载Evidence Pack模板

EU AI Act监管映射

与高风险AI系统的EU AI Act (2024/1689) 对齐

EU AI Act条款	要求	基准覆盖
Article 12	记录保存 / 日志	✓ 直接对应标准 1-7
Article 13	透明度	◐ 部分对应标准 4, 5
Article 14	人工监督	◐ 部分对应标准 5
Article 17	质量管理	✓ 支持标准 6, 7

MiFID II / RTS 25协同：标准#8（时间戳可靠性）也满足RTS 25时钟同步要求（HFT±100μs，其他±1ms）。

下载EU AI Act Annex (VSO-SCORE-004)

适用对象

从标准化可审计性测量中获益的行业利益相关者

审计/鉴证

设定审计的通用基准线。客观比较系统。

标准化评估标准
提交用Evidence Pack
跨组织比较

RegTech厂商

用可量化指标展示产品的可审计性。

具体分数做营销
产品差异化
监管合规证明

券商/交易所

将透明度转化为竞争优势。加速审计提交。

客户信任差异化
更快的监管响应
降低审计成本

分数解读

评估结果的解读指南

16-20

Strong（强可审计性）

已准备好接受外部审计和监管审查。继续保持最佳实践。

11-15

Moderate（中等可审计性）

先解决0分项。优先处理快速见效的改进。

6-10

Limited（有限可审计性）

需要重大改进。优先处理证据为中心的标准#1-6。

0-5

Inadequate（不足）

存在根本性差距。需要考虑系统重新设计。

下载与资源

所有基准文档和资源

Scorecard

VSO-SCORE-001

10项标准、评分规则、自我评估表

PoC指南

VSO-SCORE-002

分步测试流程（约3小时）

Evidence Pack

提交模板

带签名的第三方提交模板

EU AI Act Annex

VSO-SCORE-004

Article 12, 13, 14, 17监管映射

在GitHub查看所有文件

常见问题

关于基准的常见问题

必须采用VCP才能使用这个基准吗？

不需要。这个基准是可审计性的测量工具，与技术选择无关。但是，要接近满分20分通常需要密码学完整性机制——VCP是其中一个选择。

审计事务所可以用这个来评估客户吗？

可以。基准采用CC BY 4.0许可。审计事务所可以在标注来源的情况下用于客户业务。Evidence Pack提供了标准化的提交格式。

机密数据会泄露到外部吗？

不一定。基准设计用于内部自我评估。对于第三方提交，Evidence Pack使用SHA-256哈希来证明文件完整性，无需公开实际内容。你可以控制共享什么。

应该提交什么？

使用Evidence Pack模板：总分、10项标准明细、Evidence Index（文件名 + SHA-256哈希）、评估者签名。基于哈希的Index可以证明证据真实性而无需完全数据披露。

多少分算"合格"？

16-20分表示强可审计性，已准备好外部审计。11-15是中等——先解决0分项。10分以下在监管对接前需要重大改进。

有认证可以获得吗？

这个基准用于自我评估和第三方评估。如需正式认证，请参阅以VCP合规为基础的VC-Certified认证项目。

AI决策可审计性基准 v1.2