VSO-SCORE-001 | Version 1.0 | 2025年12月

AI意思決定監査可能性ベンチマーク v1.0

VeritasChain Protocol (VCP) に準拠

アルゴリズム取引の透明性を、共通スコアで測る

ベンダー中立・標準準拠の監査可能性評価ベンチマーク — VCP実装の有無にかかわらず利用可能

第三者が独立に検証できるかを点数化
改ざん検知、順序固定、判断由来まで網羅(10基準)
監査提出に使える Evidence Pack テンプレ付き

いま起きている問題

アルゴリズム取引の監査可能性における現状の課題

ブラックボックス化した意思決定

AI駆動の取引決定は不透明。規制当局が「なぜ?」と問うても、監査可能な答えがない。

ログはあるが...

ログは記録されているが、真正性と順序が証明できない。タイムスタンプは争点になりうる。

監査で最後に詰まるのがEvidenceの品質

監査は最終段階で躓く:証拠の品質。手作業での収集は数日かかり、フォーマットは不統一。

Reference Implementation

Auditability Benchmark — Reference Implementation

AI Decision Auditability Benchmarkを実行し、規制対応用エビデンスをエクスポートするための、ローカル専用・監査セーフなリファレンス実装です。

VAP Scorecard Explorer は、AI Decision Auditability Benchmark(10基準 / 20点満点)のリファレンス実装です。

監査・保証チームが以下を実行可能:

  • 一貫性のある再現可能な評価を実施
  • スコアリング根拠とエビデンスノートを記録
  • Audit Evidence Pack(ZIP / PDF)をエクスポート

プライバシー&セキュリティ

すべての処理はローカルで実行。ネットワーク通信なし。外部APIなし。アナリティクスなし。

VAP Scorecard Explorer - UIプレビュー Scorecard Explorerを開く (ローカル専用)

ベンチマーク仕様とスコアリング基準は 正式リファレンスとしてオープン公開されています。

これは何か

実装提案ではなく、監査可能性の診断スコア

目的

これは技術導入の提案ではありません

このベンチマークは、業界標準の指標を使って組織が自らの監査可能性を診断することを可能にします。結果は外部監査や規制対応のEvidence Qualityに直結します。

  • 社内チーム向けの自己評価ツール
  • 第三者評価フレームワーク
  • ベンダー中立、技術非依存

注意:このベンチマークは認証や推奨を提供するものではありません。独立したエビデンスベースの評価フレームワークです。

20
最大ポイント
評価基準 10項目
各基準の点数 0 / 1 / 2
PoC所要時間 約3時間

10の評価基準

監査関連性の順序で配列。証拠中心の基準が先、技術実装の詳細は後。

#1 0 / 1 / 2

Third-Party Verifiability

第三者検証可能性

"外部の第三者が独立して監査証跡を検証できるか?"

0外部検証不可能
1ベンダー支援で部分的に検証可能
2標準ツールで完全に独立検証可能
#2 0 / 1 / 2

Tamper Evidence

改ざん検知

"不正な変更を検知できるか?"

0改ざん検知なし、無断変更可能
1基本的なチェックサムはあるが不完全
2暗号学的整合性(ハッシュチェーン、Merkleツリー)
#3 0 / 1 / 2

Sequence Fixation

順序の固定

"Decision → Order → Execution の順序は不変か?"

0イベントの順序変更可能
1タイムスタンプはあるが暗号的紐付けなし
2暗号的リンクによる単調増加シーケンス
#4 0 / 1 / 2

Decision Provenance

判断由来

"入力、条件、根拠を追跡できるか?"

0結果のみ記録
1一部の入力は記録されるが不完全
2完全な由来:データ、パラメータ、モデル状態、ロジック
#5 0 / 1 / 2

Responsibility Boundaries

責任境界

"誰が承認、変更、オーバーライドしたか?"

0帰属なし、汎用アカウント
1ユーザー名記録あるが署名なし
2全承認/オーバーライドにデジタル署名
#6 0 / 1 / 2

Audit Submission Readiness

監査提出性

"規制レビュー用にエビデンスをエクスポートできるか?"

0手作業での収集が必要、数日かかる
1部分的なエクスポート、別途抽出が必要
2ワンクリックエクスポート、5分未満で完了
#7 0 / 1 / 2

Retention & Durability

保持期間・耐久運用

"必要な期間(例:7年)記録を保持しているか?"

0ポリシーなし、データ消失の可能性
1ポリシーはあるが執行が不完全
2冗長性と整合性チェック付きの強制保持
#8 0 / 1 / 2

Timestamp Reliability

時刻の信頼性

"タイムスタンプは信頼できるソースと同期しているか?"

0ローカルシステムクロックのみ
1NTP同期あるがドリフト監視なし
2PTPまたはRFC 3161、文書化された精度
#9 0 / 1 / 2

Cryptographic Strength

暗号強度

"アルゴリズムは現在のセキュリティ基準を満たすか?"

0非推奨アルゴリズム(MD5、SHA-1)
1適切だが鍵管理なし
2強力(Ed25519、SHA-256+)鍵ライフサイクル管理付き
#10 0 / 1 / 2

Cryptographic Agility

暗号移行性(PQC準備)

"システムは新しいアルゴリズムに移行できるか?"

0ハードコード、移行で検証が壊れる
1アルゴリズム識別子あるがテスト未実施
2検証済みのPQC移行パス文書化

3時間でできるPoC評価

全10基準の最小限テスト手順

総所要時間:約3時間
1

エクスポート&検証

30分

サンプルログを10〜100件エクスポート。システムに不慣れな人に渡す。

ルール:電話なし、ベンダーサポートなし、社内ツールなし。

2

改ざんテスト

20分

1件の過去レコードの1フィールドを変更。整合性チェックを実行。

合格:アラート付き自動検知、変更箇所特定。

3

順序チェック

15分

Decision → Order → Execution のチェーンを見つける。暗号的紐付けを確認。

テスト:バックデートしたイベントを挿入してみる。可能ならスコア0。

4

由来&帰属

35分

先週のランダムな判断を選ぶ。再構築:入力、パラメータ、ロジック、承認者。

目標:10分未満で完全なコンテキスト取得 = スコア2。

5

監査エクスポート

30分

シミュレーション:「規制当局がアカウントX、日付Yの全活動を要求」

目標:ワンクリックエクスポート、5分未満で完全なパッケージ = スコア2。

6

技術レビュー

50分

保持ポリシー、時刻ソース、暗号アルゴリズム、移行計画をレビュー。

対象:基準#7-10(保持、タイムスタンプ、暗号強度、移行性)

Evidence Pack テンプレート

監査・規制レビュー用の第三者提出テンプレート

CONFIDENTIAL 第三者提出用テンプレート | Version 1.0

テンプレート内容

  • 総合スコア:/20点、評価レベル付き
  • スコア内訳:全10基準の個別スコア
  • Evidence Index:ファイル名 + SHA-256ハッシュ
  • 署名(Attestation):評価者の署名と日付

Evidence Index サンプル

#1 audit_log_2025-01.json
SHA-256: a7f3c9d2...
#2 tamper_test_results.pdf
SHA-256: b8e4d1f5...

EU AI Act 規制マッピング

高リスクAIシステム向けEU AI Act (2024/1689) との対応関係

EU AI Act 条項 要件 ベンチマーク対応
Article 12 記録保持 / ロギング ✓ 直接対応 基準 1-7
Article 13 透明性 ◐ 部分対応 基準 4, 5
Article 14 人間による監視 ◐ 部分対応 基準 5
Article 17 品質管理 ✓ サポート 基準 6, 7

MiFID II / RTS 25 との相乗効果:基準#8(時刻の信頼性)はRTS 25のクロック同期要件(HFTで±100μs、その他で±1ms)にも対応。

誰向けか

標準化された監査可能性測定から恩恵を受ける業界関係者

監査 / アシュアランス

監査の基準線を揃える。システムを客観的に比較。

  • 標準化された評価基準
  • 提出用Evidence Pack
  • 組織間比較

RegTech ベンダー

自社製品の監査可能性を定量で示す。

  • 具体的スコアでマーケティング
  • 製品差別化
  • 規制対応の証明

ブローカー / 取引所

透明性を商品にする。監査提出も速くなる。

  • 顧客信頼の差別化要因
  • 規制対応の迅速化
  • 監査コスト削減

スコア解釈

評価結果の解釈ガイド

16-20

Strong(強い監査可能性)

外部監査・規制レビューにReady。ベストプラクティスの維持を継続。

11-15

Moderate(中程度の監査可能性)

0点項目から潰す。クイックウィンを優先。

6-10

Limited(限定的な監査可能性)

大幅な改善が必要。証拠中心の基準#1-6を優先。

0-5

Inadequate(不十分)

根本的なギャップあり。設計からやり直しを検討。

ダウンロード&リソース

全てのベンチマーク文書とリソース

FAQ

ベンチマークに関するよくある質問

これはVCPを導入しないと使えない?

いいえ。このベンチマークは技術選択に関係なく使える監査可能性の測定ツールです。ただし、20点に近いスコアを達成するには通常、暗号学的整合性メカニズムが必要です—VCPはその選択肢の一つです。

監査法人がクライアント評価に使ってもいい?

はい。ベンチマークはCC BY 4.0でライセンスされています。監査法人は帰属表示付きでクライアント業務に使用できます。Evidence Packは標準化された提出フォーマットを提供します。

機密データは外に出る?

必ずしもそうではありません。ベンチマークは社内の自己評価用に設計されています。第三者提出の場合、Evidence PackはSHA-256ハッシュを使用して実際のコンテンツを公開せずにファイルの整合性を証明します。何を共有するかはあなたがコントロールします。

何を提出すればいい?

Evidence Packテンプレートを使用:総合スコア、10基準の内訳、Evidence Index(ファイル名 + SHA-256ハッシュ)、評価者の署名。ハッシュベースのIndexは完全なデータ開示を必要とせずにエビデンスの真正性を証明します。

何点ならOK?

16-20点は強い監査可能性を示し、外部監査の準備完了。11-15は中程度—まず0点項目を対処。10点未満は規制対応前に大幅な改善が必要です。

認証は受けられる?

このベンチマークは自己評価と第三者評価用です。正式な認証については、VCPコンプライアンスを基盤とするVC-Certifiedプログラムをご覧ください。

VeritasChain Standards Organization (VSO) により発行
VCP標準エコシステムの一部として公開