The increasing exploitation of Artificial Intelligence (AI) enabled systems in critical domains has made trustworthiness concerns a paramount showstopper, requiring verifiable accountability, often by regulation (e.g., the EU AI Act). Classical software verification and validation techniques, such as procedural audits, formal methods, or model documentation, are the mechanisms used to achieve this. However, these methods are either expensive or heavily manual and ill-suited for the opaque, "black box" nature of most AI models. An intractable conflict emerges: high auditability and verifiability are required by law, but such transparency conflicts with the need to protect assets being audited-e.g., confidential data and proprietary models-leading to weakened accountability. To address this challenge, this paper introduces ZKMLOps, a novel MLOps verification framework that operationalizes Zero-Knowledge Proofs (ZKPs)-cryptographic protocols allowing a prover to convince a verifier that a statement is true without revealing additional information-within Machine-Learning Operations lifecycles. By integrating ZKPs with established software engineering patterns, ZKMLOps provides a modular and repeatable process for generating verifiable cryptographic proof of compliance. We evaluate the framework's practicality through a study of regulatory compliance in financial risk auditing and assess feasibility through an empirical evaluation of top ZKP protocols, analyzing performance trade-offs for ML models of increasing complexity.
- 論文ID: 2510.26576
- タイトル: "Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems
- 著者: Filippo Scaramuzza, Renato Cordeiro Ferreira, Tomaz Maia Suller, Giovanni Quattrocchi, Damian Andrew Tamburri, Willem-Jan van den Heuvel
- 分類: cs.SE(ソフトウェアエンジニアリング)
- 提出日: 2025年10月30日(arXiv)
- 論文リンク: https://arxiv.org/abs/2510.26576
人工知能システムが重要領域で広く応用されるにつれ、信頼性の問題が重要な障壁となり、EU AI法などの規制要件は検証可能な説明責任を要求しています。従来のソフトウェア検証・確認技術(プログラム監査、形式手法、モデルドキュメンテーションなど)は、コストが高く、大量の手作業が必要であり、AIモデルの「ブラックボックス」特性に適していません。本論文は、機械学習操作ライフサイクルにゼロ知識証明(ZKP)を統合することで、監査の透明性と資産保護の矛盾を解決するZKMLOpsフレームワークを提案し、モジュール化された反復可能なコンプライアンス検証プロセスを提供します。
本研究が解決しようとするのはAIシステム監査における根本的な矛盾です:法律は高度な監査可能性と検証可能性を要求していますが、この透明性は監査対象資産(機密データと専有モデルなど)を保護する必要と相反しています。
- 規制圧力の増加:EU AI法などの規制により、多くの産業AI展開が高リスクに分類され、コンプライアンス証拠の提供が要求されています
- 重要領域への応用拡大:金融、医療、交通などの安全性が重要な領域でのAIシステム応用が増加しています
- 従来の監査方法の不適用:数百万のパラメータを持つ不透明なAIモデルに対して、既存のソフトウェア検証技術の効果は限定的です
- プログラム監査:コストが高く、大量の手作業に依存しています
- 形式手法:実装ロジックが明確で確定的にモデル化できる場合にのみ有効です
- モデルドキュメンテーション:AIモデルの「ブラックボックス」特性に対応できません
- 透明性の矛盾:監査に必要な成果物の開示は知的財産権や個人データの漏洩につながる可能性があります
フォルクスワーゲンの排ガス不正事件などの事例に触発され、著者らは、機密情報を漏らさずに検証可能なコンプライアンス証明を提供できる方法の必要性を認識しました。ゼロ知識証明技術はこの問題を解決するための可能性を提供します。
- ZKMLOpsフレームワークの提案:MLOpsライフサイクルにゼロ知識証明を体系的に統合する初めてのアーキテクチャ
- 実用性の検証:金融リスク監査の規制コンプライアンスユースケースを通じたフレームワークの実用的価値の実証
- 実行可能性の評価:複数のZKPプロトコルの実証的評価と、異なる複雑度のMLモデルのパフォーマンストレードオフ分析
- エンジニアリング実装:複雑な暗号学的プロセスをモジュール化、反復可能、保守可能なエンジニアリングプロセスに変換
タスク:MLOpsライフサイクルにおけるAIシステム監査の体系的実装。組織が特定の要件と規制への準拠を証明する検証可能な暗号学的証拠を提供できるようにしながら、専有情報と機密データを保護します。
入力:AIモデル、データセット、監査要件
出力:ゼロ知識証明と検証結果
制約:知的財産権とデータプライバシーの保護
ZKMLOpsフレームワークはヘキサゴナルアーキテクチャ(六角形アーキテクチャ)を採用し、3つの主要層に分かれています:
- 方法論層:MLシステム検証ライフサイクルガイドライン(コンポーネント1-4)
- 実装層:信頼できるサービスアーキテクチャ(コンポーネント5-8)
- ステークホルダー層:信頼ステークホルダーインターフェース(コンポーネント9)
1. MLシステム検証ライフサイクル(コンポーネント1-4)
- MLOps検証ライフサイクルの選択:監査目的に基づいて4つのステージのいずれかを選択
- データと前処理の検証
- 訓練とオフラインメトリクスの検証
- 推論の検証
- オンラインメトリクスの検証
- モデル選択:展開モデルの技術要件に基づいて検証技術を選択
- プロトコル選択:アプリケーションアーキテクチャに最適なZKPプロトコルを選択
- ZKP追跡可能性仕様:監査目的、決定軌跡、選択されたプロトコルを含むドキュメントを生成
2. 信頼できるサービスアーキテクチャ(コンポーネント5-8)
- ヘキサゴナルアーキテクチャコア:監査ワークフローのビジネスロジックを実装
- 成果物ストレージ:監査プロセス中の入出力成果物を管理
- ZKPスクリプト:異なるZKPプロトコルの具体的実装を実行
- 内部状態機械:4つのZKPステップの実行を調整(セットアップ、鍵交換、証明、検証)
状態機械設計:
オーケストレーションSagaパターンと状態パターンを採用し、各監査ワークフローを4つの基本ステップに分解します:
依存性注入パターン:
設定ファイルを通じて実行時に必要なアダプタを注入し、複数のZKPプロトコルの柔軟な切り替えをサポートします。
反腐敗層:
ポートとアダプタパターンを使用して外部依存性を抽象化します:
- ルーター(インバウンドポート):REST APIインターフェース
- インタープリタ、設定、ストレージ(アウトバウンドポート):スクリプト実行とデータ管理
- 暗号学とソフトウェアエンジニアリングの融合:ZKP技術をソフトウェアエンジニアリングライフサイクルに体系的に統合する初めての試み
- モジュール化設計:アーキテクチャパターンを通じてコア監査ロジックと具体的なZKP実装を分離
- プロトコル選択決定木:監査目的、MLOpsステージ、モデルタイプに基づいた体系的なプロトコル選択方法を提供
- 非同期ワークフロー対応:監査シナリオにおける計算集約的な証明生成の需要に対応
ZKPプロトコル比較:
- ezkl:ONNX形式対応、GPU加速
- SNARK:Circomを通じて実装
- STARK:Cairoを通じて実装
- GKR:ニューラルネットワーク向けに特別最適化
テストモデル:
- フィードフォワードニューラルネットワーク(FNN)
- 小規模畳み込みニューラルネットワーク(Small CNN)
- MNIST CNN
- LeNet5
- VGG11(GKRのみ)
- 証明時間:ゼロ知識証明生成に必要な時間
- 検証時間:証明検証に必要な時間
- 証明サイズ:生成された証明のストレージスペース
- ハードウェア:8コアIntel Xeon E5-2698 v4プロセッサ、32GB RAM
- オペレーティングシステム:Ubuntu 22.04.4 LTS
- 統計手法:各実験条件を10回の異なるランダム初期化で実行し、平均値を計算
金融リスクモデルコンプライアンス監査:
- シナリオ:金融機関が監査会社に対し、その信用リスクスコアが承認されたモデルから生成されたことを証明
- 要件:専有モデルパラメータを公開せずに推論の正確性を検証
- プロトコル選択:ezkl(非対話型、透明なセットアップ、標準表現、簡潔性、量子耐性)
フィードフォワードニューラルネットワーク(FNN)パフォーマンス比較:
| プロトコル | 証明時間(ms) | 検証時間(ms) | 証明サイズ(bytes) |
|---|
| SNARK | 752 | 555 | 805.4 |
| STARK | 314,998.1 | 12.11 | 280,000 |
| ezkl | 492.79 | 9.80 | 23,958.9 |
LeNet5パフォーマンス比較:
| プロトコル | 証明時間(ms) | 検証時間(ms) | 証明サイズ(bytes) |
|---|
| SNARK | 18,788.5 | 611 | 804.4 |
| GKR | 331.99 | 91.31 | 45,718.75 |
| ezkl | 65,678.21 | 100.80 | 767,120.3 |
- プロトコル選択のモデル依存性:最適なZKPプロトコルは特定のMLモデルとパフォーマンス指標に高度に依存しています
- 明確なパフォーマンストレードオフ:
- ezklは単純なモデルで最高のパフォーマンスを発揮
- SNARKは複雑なモデルで証明生成が最速で、証明サイズが最小
- GKRは特別に最適化されたモデル(LeNet5)で優れたパフォーマンスを発揮
- 非同期監査への適用可能性:ezklの検証時間の優位性は、非同期監査ワークフローに特に適しています
金融ユースケースは、実際の規制環境でのフレームワークの応用を成功裏に実証しました:
- 監査会社は鍵と証明のみを検証する必要があります
- 金融機関は機密情報を一切開示する必要がありません
- プロセス全体が検証可能で知的財産権を保護します
推論検証:ZEN、vCNN、zkCNNなど、ニューラルネットワーク推論のゼロ知識証明に焦点
訓練検証:最近の研究は訓練プロセスとオンラインメトリクス検証に拡張
信頼できるAI応用:ZKAudit、FaaSなど、特定の信頼できるAIシナリオを対象
- 体系的なエンジニアリングアプローチ:単一の技術デモンストレーションではなく、初めて完全なMLOps統合フレームワークを提供
- 実用性志向:実際のユースケースとパフォーマンス評価を通じて実行可能性を証明
- モジュール化設計:複数のZKPプロトコルの柔軟な統合と拡張をサポート
- 技術的実行可能性:ZKP技術はMLOpsライフサイクルに効果的に統合でき、監査の透明性とプライバシー保護の矛盾を解決できます
- エンジニアリング的価値:ソフトウェアエンジニアリングパターンの応用により、複雑な暗号学的プロセスは保守可能なエンジニアリング実践に変換できます
- 実用性の検証:金融監査ユースケースは、実際の規制環境でのフレームワークの適用可能性を証明しています
- 外部的妥当性:医療、自動運転などの他の規制領域でのフレームワークの適用可能性は検証が必要です
- 評価範囲:主に推論検証ステージに焦点を当てており、他のMLOpsステージの評価は相対的に限定的です
- モデル規模:実験で使用されたモデルは比較的小規模であり、大規模モデルのパフォーマンス特性は異なる可能性があります
- プロトコル成熟度:観察されたパフォーマンスは理論的効率ではなく、基礎となる暗号学ライブラリの成熟度を反映している可能性があります
- 実環境での検証:産業ケーススタディを通じたフレームワークのパフォーマンスとスケーラビリティの検証
- 機能拡張:データセット公平性、モデルロバスト性など、他の信頼できるAI属性の監査ワークフロー実装
- 大規模モデル対応:大規模言語モデルなどの複雑なAIシステムをサポートするためのフレームワーク最適化
- 問題定義の明確性:AI監査における透明性とプライバシー保護の根本的な矛盾を正確に特定
- 方法の革新性が強い:ZKP技術をMLOpsに体系的にエンジニアリング応用する初めての試み
- 優れたアーキテクチャ設計:ヘキサゴナルアーキテクチャ、状態パターンなどのソフトウェアエンジニアリングパターンの適切な応用
- 包括的な実験設計:理論分析と実際のユースケース検証、パフォーマンス評価と実行可能性論証の両方を含む
- 高い実用的価値:実際の規制ニーズを解決し、直接的な応用価値を持つ
- 評価の限界:主に推論検証に焦点を当てており、訓練やデータ前処理などのステージへの対応が不十分
- スケーラビリティの疑問:大規模産業AIシステムへの適用可能性は、さらなる検証が必要です
- コスト分析の欠落:詳細な計算コストと経済効益分析が不足しています
- セキュリティ考慮の不足:ZKPプロトコル自体のセキュリティ仮定と潜在的な攻撃ベクトルの議論が不十分です
- 学術的貢献:MLOps領域に新しい研究方向をもたらし、暗号学とソフトウェアエンジニアリングの学際的融合を推進
- 実用的価値:規制機関と企業に対して実行可能なコンプライアンス検証ソリューションを提供
- 技術推進:より多くの実際の応用シナリオでのZKP技術採用を促進する可能性
- 規制コンプライアンス:金融、医療などの強規制産業のAIシステム監査
- 知的財産権保護:モデルパフォーマンスを検証する必要があるが、モデルの詳細を公開できないシナリオ
- 多者協力:フェデレーション学習など、貢献を検証しながらデータプライバシーを保護する必要がある協力シナリオ
- サプライチェーン監査:AIサービスプロバイダーが実装の詳細を公開せずにサービス品質をクライアントに証明
論文は72の関連文献を引用しており、主に以下を含みます:
- ゼロ知識証明の基礎理論(Goldreich、Blumなど)
- ZKML応用研究(ZEN、zkCNN、ZKAuditなど)
- ソフトウェアエンジニアリングパターン(Clean Architecture、Design Patternsなど)
- 信頼できるAIとMLOps関連研究(Liu et al.、Kreuzberger et al.など)
総合評価:これは高品質のソフトウェアエンジニアリング研究論文であり、最先端の暗号学技術と実際のエンジニアリング要件を成功裏に組み合わせ、AIシステム監査のための革新的なソリューションを提供しています。論文は技術革新、実用性、エンジニアリング化の面で顕著な貢献を持ち、信頼できるAIの発展を推進する上で重要な意義を持っています。