2025-11-11T08:49:09.253291

"Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems

Scaramuzza, Ferreira, Suller et al.

The increasing exploitation of Artificial Intelligence (AI) enabled systems in critical domains has made trustworthiness concerns a paramount showstopper, requiring verifiable accountability, often by regulation (e.g., the EU AI Act). Classical software verification and validation techniques, such as procedural audits, formal methods, or model documentation, are the mechanisms used to achieve this. However, these methods are either expensive or heavily manual and ill-suited for the opaque, "black box" nature of most AI models. An intractable conflict emerges: high auditability and verifiability are required by law, but such transparency conflicts with the need to protect assets being audited-e.g., confidential data and proprietary models-leading to weakened accountability. To address this challenge, this paper introduces ZKMLOps, a novel MLOps verification framework that operationalizes Zero-Knowledge Proofs (ZKPs)-cryptographic protocols allowing a prover to convince a verifier that a statement is true without revealing additional information-within Machine-Learning Operations lifecycles. By integrating ZKPs with established software engineering patterns, ZKMLOps provides a modular and repeatable process for generating verifiable cryptographic proof of compliance. We evaluate the framework's practicality through a study of regulatory compliance in financial risk auditing and assess feasibility through an empirical evaluation of top ZKP protocols, analyzing performance trade-offs for ML models of increasing complexity.

academic

"Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems

基本信息

论文ID: 2510.26576
标题: "Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems
作者: Filippo Scaramuzza, Renato Cordeiro Ferreira, Tomaz Maia Suller, Giovanni Quattrocchi, Damian Andrew Tamburri, Willem-Jan van den Heuvel
分类: cs.SE (Software Engineering)
发表时间: 2025年10月30日提交至arXiv
论文链接: https://arxiv.org/abs/2510.26576

摘要

随着人工智能系统在关键领域的广泛应用，可信度问题成为了一个重要障碍，监管要求（如欧盟AI法案）需要可验证的问责制。传统的软件验证和确认技术（如程序审计、形式化方法或模型文档）存在成本高昂、大量手工操作且不适合AI模型"黑盒"特性的问题。本文提出了ZKMLOps框架，通过在机器学习操作生命周期中集成零知识证明（ZKPs）来解决审计透明度与资产保护之间的矛盾，提供模块化和可重复的合规性验证过程。

研究背景与动机

核心问题

该研究要解决AI系统审计中的根本性冲突：法律要求高度的可审计性和可验证性，但这种透明度与保护被审计资产（如机密数据和专有模型）的需求相冲突。

问题重要性

监管压力增加：欧盟AI法案等法规将许多工业AI部署归类为高风险，要求提供合规性证据
关键领域应用：AI系统在金融、医疗、交通等安全关键领域的应用不断增长
传统审计方法不适用：现有的软件验证技术对于具有数百万参数的不透明AI模型效果有限

现有方法局限性

程序审计：成本高昂且大量依赖手工操作
形式化方法：只在实现逻辑明确且可确定性建模时有效
模型文档：无法处理AI模型的"黑盒"特性
透明度冲突：披露审计所需的工件可能泄露知识产权或个人数据

研究动机

受大众汽车排放丑闻等事件启发，作者认识到需要一种能够在不泄露敏感信息的情况下提供可验证合规性证明的方法，零知识证明技术为解决这一问题提供了可能。

核心贡献

提出ZKMLOps框架：首个将零知识证明系统性集成到MLOps生命周期的新型架构
实用性验证：通过金融风险审计的监管合规用例展示框架的实际应用价值
可行性评估：对多种ZKP协议进行实证评估，分析不同复杂度ML模型的性能权衡
工程化实现：将复杂的密码学程序转化为模块化、可重复、可维护的工程过程

方法详解

任务定义

任务：在MLOps生命周期中实现系统性的AI系统审计，使组织能够提供可验证的密码学证明来证明其系统符合特定要求和法规，同时保护专有信息和敏感数据。

输入：AI模型、数据集、审计要求输出：零知识证明及验证结果约束：保护知识产权和数据隐私

模型架构

整体架构设计

ZKMLOps框架采用六边形架构（Hexagonal Architecture），分为三个主要层次：

方法论层面：ML系统验证生命周期指导原则（组件1-4）
实现层面：可信服务架构（组件5-8）
利益相关者层面：信任利益相关者接口（组件9）

核心组件功能

1. ML系统验证生命周期（组件1-4）

MLOps验证生命周期选择：基于审计目的选择四个阶段之一
- 数据和预处理验证
- 训练和离线指标验证
- 推理验证
- 在线指标验证
模型选择：根据部署模型的技术要求选择验证技术
协议选择：选择最适合应用架构的ZKP协议
ZKP可追溯性规范：生成包含审计目的、决策轨迹和选定协议的文档

2. 可信服务架构（组件5-8）

六边形架构核心：实现审计工作流的业务逻辑
工件存储：管理审计过程中的输入输出工件
ZKP脚本：执行不同ZKP协议的具体实现
内部状态机：协调四个ZKP步骤的执行（设置、密钥交换、证明、验证）

技术实现细节

状态机设计：采用编排Saga模式和状态模式，将每个审计工作流分解为四个基础步骤：

Setup → Key Exchange → Proof → Verification

依赖注入模式：通过配置文件在运行时注入所需的适配器，支持多种ZKP协议的灵活切换。

反腐败层：使用端口和适配器模式实现外部依赖的抽象，包括：

路由器（入站端口）：REST API接口
解释器、配置、存储（出站端口）：脚本执行和数据管理

技术创新点

密码学与软件工程的融合：首次将ZKP技术系统性地集成到软件工程生命周期中
模块化设计：通过架构模式解耦核心审计逻辑与具体ZKP实现
协议选择决策树：提供基于审计目的、MLOps阶段和模型类型的系统性协议选择方法
异步工作流支持：适应审计场景中计算密集型证明生成的需求

实验设置

评估数据

ZKP协议对比：

ezkl：支持ONNX格式，GPU加速
SNARK：通过Circom实现
STARK：通过Cairo实现
GKR：专门针对神经网络优化

测试模型：

前馈神经网络（FNN）
小型卷积神经网络（Small CNN）
MNIST CNN
LeNet5
VGG11（仅GKR）

评价指标

证明时间：生成零知识证明所需的时间
验证时间：验证证明所需的时间
证明大小：生成证明的存储空间

实验环境

硬件：8核Intel Xeon E5-2698 v4处理器，32GB RAM
操作系统：Ubuntu 22.04.4 LTS
统计方法：每个实验条件运行10次随机初始化，计算平均值

用例验证

金融风险模型合规性审计：

场景：金融机构向审计公司证明其信用风险评分由声明的批准模型生成
要求：在不暴露专有模型参数的情况下验证推理正确性
协议选择：ezkl（非交互式、透明设置、标准表示、简洁性、量子安全）

实验结果

主要结果

前馈神经网络（FNN）性能对比：

协议	证明时间(ms)	验证时间(ms)	证明大小(bytes)
SNARK	752	555	805.4
STARK	314,998.1	12.11	280,000
ezkl	492.79	9.80	23,958.9

LeNet5性能对比：

协议	证明时间(ms)	验证时间(ms)	证明大小(bytes)
SNARK	18,788.5	611	804.4
GKR	331.99	91.31	45,718.75
ezkl	65,678.21	100.80	767,120.3

关键发现

协议选择的模型依赖性：最优ZKP协议高度依赖于具体ML模型和性能指标
性能权衡明显：
- ezkl在简单模型上表现最佳
- SNARK在复杂模型上证明生成最快，证明大小最小
- GKR在专门优化的模型（LeNet5）上性能卓越
异步审计适用性：ezkl的验证时间优势使其特别适合异步审计工作流