AI意思決定監査可能性ベンチマーク v1.0

いま起きている問題

アルゴリズム取引の監査可能性における現状の課題

ブラックボックス化した意思決定

AI駆動の取引決定は不透明。規制当局が「なぜ？」と問うても、監査可能な答えがない。

ログはあるが...

ログは記録されているが、真正性と順序が証明できない。タイムスタンプは争点になりうる。

監査で最後に詰まるのがEvidenceの品質

監査は最終段階で躓く：証拠の品質。手作業での収集は数日かかり、フォーマットは不統一。

Reference Implementation

Auditability Benchmark — Reference Implementation

AI Decision Auditability Benchmarkを実行し、規制対応用エビデンスをエクスポートするための、ローカル専用・監査セーフなリファレンス実装です。

VAP Scorecard Explorer は、AI Decision Auditability Benchmark（10基準 / 20点満点）のリファレンス実装です。

監査・保証チームが以下を実行可能：

一貫性のある再現可能な評価を実施
スコアリング根拠とエビデンスノートを記録
Audit Evidence Pack（ZIP / PDF）をエクスポート

プライバシー＆セキュリティ

すべての処理はローカルで実行。ネットワーク通信なし。外部APIなし。アナリティクスなし。

Scorecard Explorerを開く（ローカル専用）

ベンチマーク仕様とスコアリング基準は正式リファレンスとしてオープン公開されています。

VAP Scorecard Explorer — アップデート履歴

v1.2 現行

• エグゼクティブモード新搭載：🔧技術者向け / 👔経営者向けのワンクリック切替
• 「なぜこの評価が必要か」セクション追加：EU AI Act、MiFID II、SEC Rule 17a-4の規制背景を明示
• 各基準の経営者向け一行説明：技術用語を排除し「監査法人が検証できるか？」等のビジネス視点サマリーを表示
• 30項目の確認チェックリスト：各基準に3項目の具体的な確認項目、クリックで状態切替（✓確認済み / ~一部対応 / ○未確認）
• 確認ステータス集計ダッシュボード：リアルタイムで確認状況をカウント、優先対応項目をハイライト
• チェックリスト凡例追加：各状態の意味を明示（「監査で即説明可能」「追加資料が必要」「現状では説明不可」）
• 保存時のトースト通知：「✓ 保存しました」を画面下部に2秒間表示
• チェックボックスのクリック領域拡大：行全体をクリック可能に、ホバー時のビジュアルフィードバック追加
• セキュリティモーダルに簡体字ボタン追加：🇺🇸 English / 🇯🇵 日本語 / 🇨🇳 简体中文の3言語選択
• モーダル言語選択の引継ぎ：注意画面で選んだ言語がメイン画面にそのまま適用
• チェックリスト状態の永続化：LocalStorageに保存、ページリロード後も維持
• モバイルレスポンシブCSSの強化：経営者モードのレイアウト崩れを修正

v1.1

• 簡体字中国語（zh-CN）の完全対応：全UIテキスト、評価基準、ルーブリック、ガイダンスを翻訳
• 用語の統一：「可审计性」「可由第三方验证」「篡改可检测」等の正式な中国語技術用語を採用
• Criterion 2に実装中立性の免責文を追加：「これらは例示に過ぎません。不正な変更を検知可能にする暗号学的構成であれば、いずれも許容されます」

これは何か

実装提案ではなく、監査可能性の診断スコア

目的

これは技術導入の提案ではありません。

このベンチマークは、業界標準の指標を使って組織が自らの監査可能性を診断することを可能にします。結果は外部監査や規制対応のEvidence Qualityに直結します。

社内チーム向けの自己評価ツール
第三者評価フレームワーク
ベンダー中立、技術非依存

注意：このベンチマークは認証や推奨を提供するものではありません。独立したエビデンスベースの評価フレームワークです。

20

最大ポイント

評価基準 10項目

各基準の点数 0 / 1 / 2

PoC所要時間約3時間

10の評価基準

監査関連性の順序で配列。証拠中心の基準が先、技術実装の詳細は後。

#1 0 / 1 / 2

Third-Party Verifiability

第三者検証可能性

"外部の第三者が独立して監査証跡を検証できるか？"

0外部検証不可能

1ベンダー支援で部分的に検証可能

2標準ツールで完全に独立検証可能

#2 0 / 1 / 2

Tamper Evidence

改ざん検知

"不正な変更を検知できるか？"

0改ざん検知なし、無断変更可能

1基本的なチェックサムはあるが不完全

2暗号学的整合性（ハッシュチェーン、Merkleツリー）

#3 0 / 1 / 2

Sequence Fixation

順序の固定

"Decision → Order → Execution の順序は不変か？"

0イベントの順序変更可能

1タイムスタンプはあるが暗号的紐付けなし

2暗号的リンクによる単調増加シーケンス

#4 0 / 1 / 2

Decision Provenance

判断由来

"入力、条件、根拠を追跡できるか？"

0結果のみ記録

1一部の入力は記録されるが不完全

2完全な由来：データ、パラメータ、モデル状態、ロジック

#5 0 / 1 / 2

Responsibility Boundaries

責任境界

"誰が承認、変更、オーバーライドしたか？"

0帰属なし、汎用アカウント

1ユーザー名記録あるが署名なし

2全承認/オーバーライドにデジタル署名

#6 0 / 1 / 2

Audit Submission Readiness

監査提出性

"規制レビュー用にエビデンスをエクスポートできるか？"

0手作業での収集が必要、数日かかる

1部分的なエクスポート、別途抽出が必要

2ワンクリックエクスポート、5分未満で完了

#7 0 / 1 / 2

Retention & Durability

保持期間・耐久運用

"必要な期間（例：7年）記録を保持しているか？"

0ポリシーなし、データ消失の可能性

1ポリシーはあるが執行が不完全

2冗長性と整合性チェック付きの強制保持

#8 0 / 1 / 2

Timestamp Reliability

時刻の信頼性

"タイムスタンプは信頼できるソースと同期しているか？"

0ローカルシステムクロックのみ

1NTP同期あるがドリフト監視なし

2PTPまたはRFC 3161、文書化された精度

#9 0 / 1 / 2

Cryptographic Strength

暗号強度

"アルゴリズムは現在のセキュリティ基準を満たすか？"

0非推奨アルゴリズム（MD5、SHA-1）

1適切だが鍵管理なし

2強力（Ed25519、SHA-256+）鍵ライフサイクル管理付き

#10 0 / 1 / 2

Cryptographic Agility

暗号移行性（PQC準備）

"システムは新しいアルゴリズムに移行できるか？"

0ハードコード、移行で検証が壊れる

1アルゴリズム識別子あるがテスト未実施

2検証済みのPQC移行パス文書化

3時間でできるPoC評価

全10基準の最小限テスト手順

総所要時間：約3時間

1

エクスポート＆検証

30分

サンプルログを10〜100件エクスポート。システムに不慣れな人に渡す。

ルール：電話なし、ベンダーサポートなし、社内ツールなし。

2

改ざんテスト

20分

1件の過去レコードの1フィールドを変更。整合性チェックを実行。

合格：アラート付き自動検知、変更箇所特定。

3

順序チェック

15分

Decision → Order → Execution のチェーンを見つける。暗号的紐付けを確認。

テスト：バックデートしたイベントを挿入してみる。可能ならスコア0。

4

由来＆帰属

35分

先週のランダムな判断を選ぶ。再構築：入力、パラメータ、ロジック、承認者。

目標：10分未満で完全なコンテキスト取得 = スコア2。

5

監査エクスポート

30分

シミュレーション：「規制当局がアカウントX、日付Yの全活動を要求」

目標：ワンクリックエクスポート、5分未満で完全なパッケージ = スコア2。

6

技術レビュー

50分

保持ポリシー、時刻ソース、暗号アルゴリズム、移行計画をレビュー。

対象：基準#7-10（保持、タイムスタンプ、暗号強度、移行性）

完全版PoCガイドをダウンロード (VSO-SCORE-002)

Evidence Pack テンプレート

監査・規制レビュー用の第三者提出テンプレート

CONFIDENTIAL 第三者提出用テンプレート | Version 1.0

テンプレート内容

総合スコア：/20点、評価レベル付き
スコア内訳：全10基準の個別スコア
Evidence Index：ファイル名 + SHA-256ハッシュ
署名（Attestation）：評価者の署名と日付

Evidence Index サンプル

#1 audit_log_2025-01.json

SHA-256: a7f3c9d2...

#2 tamper_test_results.pdf

SHA-256: b8e4d1f5...

Evidence Pack テンプレートをダウンロード

EU AI Act 規制マッピング

高リスクAIシステム向けEU AI Act (2024/1689) との対応関係

EU AI Act 条項	要件	ベンチマーク対応
Article 12	記録保持 / ロギング	✓ 直接対応基準 1-7
Article 13	透明性	◐ 部分対応基準 4, 5
Article 14	人間による監視	◐ 部分対応基準 5
Article 17	品質管理	✓ サポート基準 6, 7

MiFID II / RTS 25 との相乗効果：基準#8（時刻の信頼性）はRTS 25のクロック同期要件（HFTで±100μs、その他で±1ms）にも対応。

EU AI Act Annex をダウンロード (VSO-SCORE-004)

誰向けか

標準化された監査可能性測定から恩恵を受ける業界関係者

監査 / アシュアランス

監査の基準線を揃える。システムを客観的に比較。

標準化された評価基準
提出用Evidence Pack
組織間比較

RegTech ベンダー

自社製品の監査可能性を定量で示す。

具体的スコアでマーケティング
製品差別化
規制対応の証明

ブローカー / 取引所

透明性を商品にする。監査提出も速くなる。

顧客信頼の差別化要因
規制対応の迅速化
監査コスト削減

スコア解釈

評価結果の解釈ガイド

16-20

Strong（強い監査可能性）

外部監査・規制レビューにReady。ベストプラクティスの維持を継続。

11-15

Moderate（中程度の監査可能性）

0点項目から潰す。クイックウィンを優先。

6-10

Limited（限定的な監査可能性）

大幅な改善が必要。証拠中心の基準#1-6を優先。

0-5

Inadequate（不十分）

根本的なギャップあり。設計からやり直しを検討。

ダウンロード＆リソース

全てのベンチマーク文書とリソース

Scorecard

VSO-SCORE-001

10基準、スコアリングルーブリック、自己評価シート

PoC ガイド

VSO-SCORE-002

ステップバイステップのテスト手順（約3時間）

Evidence Pack

提出用テンプレート

署名付き第三者提出テンプレート

EU AI Act Annex

VSO-SCORE-004

Article 12, 13, 14, 17 への規制マッピング

GitHub で全ファイルを見る

FAQ

ベンチマークに関するよくある質問

これはVCPを導入しないと使えない？

いいえ。このベンチマークは技術選択に関係なく使える監査可能性の測定ツールです。ただし、20点に近いスコアを達成するには通常、暗号学的整合性メカニズムが必要です—VCPはその選択肢の一つです。

監査法人がクライアント評価に使ってもいい？

はい。ベンチマークはCC BY 4.0でライセンスされています。監査法人は帰属表示付きでクライアント業務に使用できます。Evidence Packは標準化された提出フォーマットを提供します。

機密データは外に出る？

必ずしもそうではありません。ベンチマークは社内の自己評価用に設計されています。第三者提出の場合、Evidence PackはSHA-256ハッシュを使用して実際のコンテンツを公開せずにファイルの整合性を証明します。何を共有するかはあなたがコントロールします。

何を提出すればいい？

Evidence Packテンプレートを使用：総合スコア、10基準の内訳、Evidence Index（ファイル名 + SHA-256ハッシュ）、評価者の署名。ハッシュベースのIndexは完全なデータ開示を必要とせずにエビデンスの真正性を証明します。

何点ならOK？

16-20点は強い監査可能性を示し、外部監査の準備完了。11-15は中程度—まず0点項目を対処。10点未満は規制対応前に大幅な改善が必要です。

認証は受けられる？

このベンチマークは自己評価と第三者評価用です。正式な認証については、VCPコンプライアンスを基盤とするVC-Certifiedプログラムをご覧ください。

AI意思決定監査可能性ベンチマーク v1.2