2025-11-11T08:49:09.253291

"Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems

Scaramuzza, Ferreira, Suller et al.
The increasing exploitation of Artificial Intelligence (AI) enabled systems in critical domains has made trustworthiness concerns a paramount showstopper, requiring verifiable accountability, often by regulation (e.g., the EU AI Act). Classical software verification and validation techniques, such as procedural audits, formal methods, or model documentation, are the mechanisms used to achieve this. However, these methods are either expensive or heavily manual and ill-suited for the opaque, "black box" nature of most AI models. An intractable conflict emerges: high auditability and verifiability are required by law, but such transparency conflicts with the need to protect assets being audited-e.g., confidential data and proprietary models-leading to weakened accountability. To address this challenge, this paper introduces ZKMLOps, a novel MLOps verification framework that operationalizes Zero-Knowledge Proofs (ZKPs)-cryptographic protocols allowing a prover to convince a verifier that a statement is true without revealing additional information-within Machine-Learning Operations lifecycles. By integrating ZKPs with established software engineering patterns, ZKMLOps provides a modular and repeatable process for generating verifiable cryptographic proof of compliance. We evaluate the framework's practicality through a study of regulatory compliance in financial risk auditing and assess feasibility through an empirical evaluation of top ZKP protocols, analyzing performance trade-offs for ML models of increasing complexity.
academic

"Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems

基本信息

  • 论文ID: 2510.26576
  • 标题: "Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems
  • 作者: Filippo Scaramuzza, Renato Cordeiro Ferreira, Tomaz Maia Suller, Giovanni Quattrocchi, Damian Andrew Tamburri, Willem-Jan van den Heuvel
  • 分类: cs.SE (Software Engineering)
  • 发表时间: 2025年10月30日提交至arXiv
  • 论文链接: https://arxiv.org/abs/2510.26576

摘要

随着人工智能系统在关键领域的广泛应用,可信度问题成为了一个重要障碍,监管要求(如欧盟AI法案)需要可验证的问责制。传统的软件验证和确认技术(如程序审计、形式化方法或模型文档)存在成本高昂、大量手工操作且不适合AI模型"黑盒"特性的问题。本文提出了ZKMLOps框架,通过在机器学习操作生命周期中集成零知识证明(ZKPs)来解决审计透明度与资产保护之间的矛盾,提供模块化和可重复的合规性验证过程。

研究背景与动机

核心问题

该研究要解决AI系统审计中的根本性冲突:法律要求高度的可审计性和可验证性,但这种透明度与保护被审计资产(如机密数据和专有模型)的需求相冲突

问题重要性

  1. 监管压力增加:欧盟AI法案等法规将许多工业AI部署归类为高风险,要求提供合规性证据
  2. 关键领域应用:AI系统在金融、医疗、交通等安全关键领域的应用不断增长
  3. 传统审计方法不适用:现有的软件验证技术对于具有数百万参数的不透明AI模型效果有限

现有方法局限性

  1. 程序审计:成本高昂且大量依赖手工操作
  2. 形式化方法:只在实现逻辑明确且可确定性建模时有效
  3. 模型文档:无法处理AI模型的"黑盒"特性
  4. 透明度冲突:披露审计所需的工件可能泄露知识产权或个人数据

研究动机

受大众汽车排放丑闻等事件启发,作者认识到需要一种能够在不泄露敏感信息的情况下提供可验证合规性证明的方法,零知识证明技术为解决这一问题提供了可能。

核心贡献

  1. 提出ZKMLOps框架:首个将零知识证明系统性集成到MLOps生命周期的新型架构
  2. 实用性验证:通过金融风险审计的监管合规用例展示框架的实际应用价值
  3. 可行性评估:对多种ZKP协议进行实证评估,分析不同复杂度ML模型的性能权衡
  4. 工程化实现:将复杂的密码学程序转化为模块化、可重复、可维护的工程过程

方法详解

任务定义

任务:在MLOps生命周期中实现系统性的AI系统审计,使组织能够提供可验证的密码学证明来证明其系统符合特定要求和法规,同时保护专有信息和敏感数据。

输入:AI模型、数据集、审计要求 输出:零知识证明及验证结果 约束:保护知识产权和数据隐私

模型架构

整体架构设计

ZKMLOps框架采用六边形架构(Hexagonal Architecture),分为三个主要层次:

  1. 方法论层面:ML系统验证生命周期指导原则(组件1-4)
  2. 实现层面:可信服务架构(组件5-8)
  3. 利益相关者层面:信任利益相关者接口(组件9)

核心组件功能

1. ML系统验证生命周期(组件1-4)

  • MLOps验证生命周期选择:基于审计目的选择四个阶段之一
    • 数据和预处理验证
    • 训练和离线指标验证
    • 推理验证
    • 在线指标验证
  • 模型选择:根据部署模型的技术要求选择验证技术
  • 协议选择:选择最适合应用架构的ZKP协议
  • ZKP可追溯性规范:生成包含审计目的、决策轨迹和选定协议的文档

2. 可信服务架构(组件5-8)

  • 六边形架构核心:实现审计工作流的业务逻辑
  • 工件存储:管理审计过程中的输入输出工件
  • ZKP脚本:执行不同ZKP协议的具体实现
  • 内部状态机:协调四个ZKP步骤的执行(设置、密钥交换、证明、验证)

技术实现细节

状态机设计: 采用编排Saga模式状态模式,将每个审计工作流分解为四个基础步骤:

Setup → Key Exchange → Proof → Verification

依赖注入模式: 通过配置文件在运行时注入所需的适配器,支持多种ZKP协议的灵活切换。

反腐败层: 使用端口和适配器模式实现外部依赖的抽象,包括:

  • 路由器(入站端口):REST API接口
  • 解释器、配置、存储(出站端口):脚本执行和数据管理

技术创新点

  1. 密码学与软件工程的融合:首次将ZKP技术系统性地集成到软件工程生命周期中
  2. 模块化设计:通过架构模式解耦核心审计逻辑与具体ZKP实现
  3. 协议选择决策树:提供基于审计目的、MLOps阶段和模型类型的系统性协议选择方法
  4. 异步工作流支持:适应审计场景中计算密集型证明生成的需求

实验设置

评估数据

ZKP协议对比

  • ezkl:支持ONNX格式,GPU加速
  • SNARK:通过Circom实现
  • STARK:通过Cairo实现
  • GKR:专门针对神经网络优化

测试模型

  • 前馈神经网络(FNN)
  • 小型卷积神经网络(Small CNN)
  • MNIST CNN
  • LeNet5
  • VGG11(仅GKR)

评价指标

  1. 证明时间:生成零知识证明所需的时间
  2. 验证时间:验证证明所需的时间
  3. 证明大小:生成证明的存储空间

实验环境

  • 硬件:8核Intel Xeon E5-2698 v4处理器,32GB RAM
  • 操作系统:Ubuntu 22.04.4 LTS
  • 统计方法:每个实验条件运行10次随机初始化,计算平均值

用例验证

金融风险模型合规性审计

  • 场景:金融机构向审计公司证明其信用风险评分由声明的批准模型生成
  • 要求:在不暴露专有模型参数的情况下验证推理正确性
  • 协议选择:ezkl(非交互式、透明设置、标准表示、简洁性、量子安全)

实验结果

主要结果

前馈神经网络(FNN)性能对比

协议证明时间(ms)验证时间(ms)证明大小(bytes)
SNARK752555805.4
STARK314,998.112.11280,000
ezkl492.799.8023,958.9

LeNet5性能对比

协议证明时间(ms)验证时间(ms)证明大小(bytes)
SNARK18,788.5611804.4
GKR331.9991.3145,718.75
ezkl65,678.21100.80767,120.3

关键发现

  1. 协议选择的模型依赖性:最优ZKP协议高度依赖于具体ML模型和性能指标
  2. 性能权衡明显
    • ezkl在简单模型上表现最佳
    • SNARK在复杂模型上证明生成最快,证明大小最小
    • GKR在专门优化的模型(LeNet5)上性能卓越
  3. 异步审计适用性:ezkl的验证时间优势使其特别适合异步审计工作流

实用性验证

金融用例成功展示了框架在真实监管环境中的应用:

  • 审计公司只需验证密钥和证明
  • 金融机构无需披露任何机密信息
  • 整个过程可验证且保护知识产权

相关工作

零知识机器学习(ZKML)研究

推理验证:ZEN、vCNN、zkCNN等专注于神经网络推理的零知识证明 训练验证:近期工作扩展到训练过程和在线指标验证 可信AI应用:ZKAudit、FaaS等针对特定可信AI场景

本文相对优势

  1. 系统性工程方法:首次提供完整的MLOps集成框架,而非单一技术演示
  2. 实用性导向:通过真实用例和性能评估证明可行性
  3. 模块化设计:支持多种ZKP协议的灵活集成和扩展

结论与讨论

主要结论

  1. 技术可行性:ZKP技术可以有效集成到MLOps生命周期中,解决审计透明度与隐私保护的冲突
  2. 工程化价值:通过软件工程模式的应用,复杂的密码学过程可以转化为可维护的工程实践
  3. 实用性验证:金融审计用例证明了框架在真实监管环境中的适用性

局限性

  1. 外部有效性:框架在其他监管领域(如医疗、自动驾驶)的适用性有待验证
  2. 评估范围:主要关注推理验证阶段,其他MLOps阶段的评估相对有限
  3. 模型规模:实验使用的模型相对较小,大型模型的性能特征可能不同
  4. 协议成熟度:观察到的性能可能反映底层密码学库的成熟度而非理论效率

未来方向

  1. 真实环境验证:通过工业案例研究验证框架的性能和可扩展性
  2. 功能扩展:实现其他可信AI属性的审计工作流,如数据集公平性、模型鲁棒性
  3. 大规模模型支持:优化框架以支持大型语言模型等复杂AI系统

深度评价

优点

  1. 问题定义清晰:准确识别了AI审计中透明度与隐私保护的根本性冲突
  2. 方法创新性强:首次将ZKP技术系统性地工程化应用于MLOps
  3. 架构设计优秀:六边形架构、状态模式等软件工程模式的恰当应用
  4. 实验设计全面:既有理论分析又有实际用例验证,既有性能评估又有可行性论证
  5. 实用价值高:解决了实际监管需求,具有直接的应用价值

不足

  1. 评估局限性:主要关注推理验证,对训练、数据预处理等阶段的支持不够充分
  2. 可扩展性疑问:对于大规模工业AI系统的适用性需要进一步验证
  3. 成本分析缺失:缺乏详细的计算成本和经济效益分析
  4. 安全性考虑:对ZKP协议本身的安全性假设和潜在攻击向量讨论不够深入

影响力

  1. 学术贡献:为MLOps领域引入了新的研究方向,推动了密码学与软件工程的交叉融合
  2. 实用价值:为监管机构和企业提供了可操作的合规性验证解决方案
  3. 技术推动:可能促进ZKP技术在更多实际应用场景中的采用

适用场景

  1. 监管合规:金融、医疗等强监管行业的AI系统审计
  2. 知识产权保护:需要验证模型性能但不能泄露模型细节的场景
  3. 多方协作:联邦学习等需要验证贡献但保护数据隐私的协作场景
  4. 供应链审计:AI服务提供商向客户证明服务质量而不暴露实现细节

参考文献

论文引用了72篇相关文献,主要包括:

  • 零知识证明基础理论(Goldreich, Blum等)
  • ZKML应用研究(ZEN, zkCNN, ZKAudit等)
  • 软件工程模式(Clean Architecture, Design Patterns等)
  • 可信AI和MLOps相关工作(Liu et al., Kreuzberger et al.等)

总体评价:这是一篇高质量的软件工程研究论文,成功地将前沿密码学技术与实际工程需求相结合,为AI系统审计提供了创新性的解决方案。论文在技术创新、实用性和工程化方面都有显著贡献,对推动可信AI的发展具有重要意义。