The increasing exploitation of Artificial Intelligence (AI) enabled systems in critical domains has made trustworthiness concerns a paramount showstopper, requiring verifiable accountability, often by regulation (e.g., the EU AI Act). Classical software verification and validation techniques, such as procedural audits, formal methods, or model documentation, are the mechanisms used to achieve this. However, these methods are either expensive or heavily manual and ill-suited for the opaque, "black box" nature of most AI models. An intractable conflict emerges: high auditability and verifiability are required by law, but such transparency conflicts with the need to protect assets being audited-e.g., confidential data and proprietary models-leading to weakened accountability. To address this challenge, this paper introduces ZKMLOps, a novel MLOps verification framework that operationalizes Zero-Knowledge Proofs (ZKPs)-cryptographic protocols allowing a prover to convince a verifier that a statement is true without revealing additional information-within Machine-Learning Operations lifecycles. By integrating ZKPs with established software engineering patterns, ZKMLOps provides a modular and repeatable process for generating verifiable cryptographic proof of compliance. We evaluate the framework's practicality through a study of regulatory compliance in financial risk auditing and assess feasibility through an empirical evaluation of top ZKP protocols, analyzing performance trade-offs for ML models of increasing complexity.
- 논문 ID: 2510.26576
- 제목: "Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems
- 저자: Filippo Scaramuzza, Renato Cordeiro Ferreira, Tomaz Maia Suller, Giovanni Quattrocchi, Damian Andrew Tamburri, Willem-Jan van den Heuvel
- 분류: cs.SE (소프트웨어 공학)
- 제출 시간: 2025년 10월 30일 arXiv 제출
- 논문 링크: https://arxiv.org/abs/2510.26576
인공지능 시스템이 중요 분야에 광범위하게 적용됨에 따라 신뢰성 문제가 중요한 장애물이 되었으며, 규제 요구사항(예: EU AI 법안)은 검증 가능한 책임성을 요구합니다. 기존의 소프트웨어 검증 및 확인 기술(예: 프로그램 감시, 형식 검증 또는 모델 문서화)은 비용이 높고 많은 수작업이 필요하며 AI 모델의 "블랙박스" 특성에 부적합합니다. 본 논문은 머신러닝 운영 생명주기에 영지식 증명(ZKPs)을 통합하여 감시 투명성과 자산 보호 간의 모순을 해결하는 ZKMLOps 프레임워크를 제안하며, 모듈식이고 반복 가능한 규정 준수 검증 프로세스를 제공합니다.
본 연구가 해결하는 AI 시스템 감시의 근본적 갈등: 법률은 높은 수준의 감시 가능성과 검증 가능성을 요구하지만, 이러한 투명성은 감시 대상 자산(예: 기밀 데이터 및 독점 모델)을 보호하려는 필요성과 충돌합니다.
- 증가하는 규제 압력: EU AI 법안 등의 규정이 많은 산업 AI 배포를 고위험으로 분류하여 규정 준수 증거 제공을 요구
- 중요 분야 응용: 금융, 의료, 교통 등 안전 중요 분야에서 AI 시스템 응용의 지속적 증가
- 기존 감시 방법의 부적절성: 현존하는 소프트웨어 검증 기술은 수백만 개의 매개변수를 가진 불투명한 AI 모델에 대해 효과가 제한적
- 프로그램 감시: 비용이 높고 많은 수작업에 의존
- 형식 검증: 구현 논리가 명확하고 결정론적으로 모델링될 수 있을 때만 효과적
- 모델 문서화: AI 모델의 "블랙박스" 특성을 처리할 수 없음
- 투명성 충돌: 감시에 필요한 산출물 공개는 지적재산권 또는 개인 데이터 유출 가능성
폭스바겐 배출 스캔들 등의 사건에서 영감을 받아, 저자들은 민감한 정보를 유출하지 않으면서 검증 가능한 규정 준수 증명을 제공할 수 있는 방법의 필요성을 인식했으며, 영지식 증명 기술이 이 문제 해결을 위한 가능성을 제공합니다.
- ZKMLOps 프레임워크 제안: MLOps 생명주기에 영지식 증명을 체계적으로 통합한 첫 번째 새로운 아키텍처
- 실용성 검증: 금융 위험 감시의 규제 규정 준수 사용 사례를 통해 프레임워크의 실제 응용 가치 입증
- 실행 가능성 평가: 다양한 ZKP 프로토콜에 대한 실증적 평가, 서로 다른 복잡도의 ML 모델에 대한 성능 트레이드오프 분석
- 공학적 구현: 복잡한 암호학 프로세스를 모듈식, 반복 가능, 유지보수 가능한 공학 프로세스로 변환
작업: MLOps 생명주기에서 AI 시스템의 체계적 감시를 구현하여 조직이 특정 요구사항 및 규정 준수를 증명하는 검증 가능한 암호학적 증명을 제공할 수 있도록 하면서 동시에 독점 정보 및 민감 데이터를 보호합니다.
입력: AI 모델, 데이터셋, 감시 요구사항
출력: 영지식 증명 및 검증 결과
제약: 지적재산권 및 데이터 개인정보 보호
ZKMLOps 프레임워크는 육각형 아키텍처(Hexagonal Architecture)를 채택하며, 세 가지 주요 계층으로 구성됩니다:
- 방법론 계층: ML 시스템 검증 생명주기 지도 원칙(구성요소 1-4)
- 구현 계층: 신뢰할 수 있는 서비스 아키텍처(구성요소 5-8)
- 이해관계자 계층: 신뢰 이해관계자 인터페이스(구성요소 9)
1. ML 시스템 검증 생명주기(구성요소 1-4)
- MLOps 검증 생명주기 선택: 감시 목적에 따라 네 가지 단계 중 하나 선택
- 데이터 및 전처리 검증
- 훈련 및 오프라인 지표 검증
- 추론 검증
- 온라인 지표 검증
- 모델 선택: 배포된 모델의 기술적 요구사항에 따라 검증 기술 선택
- 프로토콜 선택: 응용 아키텍처에 가장 적합한 ZKP 프로토콜 선택
- ZKP 추적 가능성 명세: 감시 목적, 의사결정 궤적 및 선택된 프로토콜을 포함하는 문서 생성
2. 신뢰할 수 있는 서비스 아키텍처(구성요소 5-8)
- 육각형 아키텍처 핵심: 감시 워크플로우의 비즈니스 로직 구현
- 산출물 저장소: 감시 프로세스 중 입출력 산출물 관리
- ZKP 스크립트: 다양한 ZKP 프로토콜의 구체적 구현 실행
- 내부 상태 머신: 네 가지 ZKP 단계의 실행 조율(설정, 키 교환, 증명, 검증)
상태 머신 설계:
오케스트레이션 Saga 패턴과 상태 패턴을 채택하여 각 감시 워크플로우를 네 가지 기본 단계로 분해합니다:
의존성 주입 패턴:
런타임에 구성 파일을 통해 필요한 어댑터를 주입하여 다양한 ZKP 프로토콜의 유연한 전환을 지원합니다.
부패 방지 계층:
포트 및 어댑터 패턴을 사용하여 외부 의존성의 추상화를 구현하며, 다음을 포함합니다:
- 라우터(인바운드 포트): REST API 인터페이스
- 인터프리터, 구성, 저장소(아웃바운드 포트): 스크립트 실행 및 데이터 관리
- 암호학과 소프트웨어 공학의 융합: ZKP 기술을 소프트웨어 공학 생명주기에 체계적으로 통합한 첫 사례
- 모듈식 설계: 아키텍처 패턴을 통해 핵심 감시 로직과 구체적 ZKP 구현 분리
- 프로토콜 선택 의사결정 트리: 감시 목적, MLOps 단계 및 모델 유형에 기반한 체계적 프로토콜 선택 방법 제공
- 비동기 워크플로우 지원: 감시 시나리오에서 계산 집약적인 증명 생성의 필요성에 대응
ZKP 프로토콜 비교:
- ezkl: ONNX 형식 지원, GPU 가속
- SNARK: Circom을 통한 구현
- STARK: Cairo를 통한 구현
- GKR: 신경망 최적화 전문
테스트 모델:
- 피드포워드 신경망(FNN)
- 소형 합성곱 신경망(Small CNN)
- MNIST CNN
- LeNet5
- VGG11(GKR만 해당)
- 증명 시간: 영지식 증명 생성에 필요한 시간
- 검증 시간: 증명 검증에 필요한 시간
- 증명 크기: 생성된 증명의 저장 공간
- 하드웨어: 8코어 Intel Xeon E5-2698 v4 프로세서, 32GB RAM
- 운영체제: Ubuntu 22.04.4 LTS
- 통계 방법: 각 실험 조건에 대해 10회 무작위 초기화 실행, 평균값 계산
금융 위험 모델 규정 준수 감시:
- 시나리오: 금융 기관이 신용 위험 점수가 승인된 선언된 모델에서 생성되었음을 감시 회사에 증명
- 요구사항: 독점 모델 매개변수를 노출하지 않으면서 추론 정확성 검증
- 프로토콜 선택: ezkl(비상호작용식, 투명 설정, 표준 표현, 간결성, 양자 안전)
피드포워드 신경망(FNN) 성능 비교:
| 프로토콜 | 증명 시간(ms) | 검증 시간(ms) | 증명 크기(바이트) |
|---|
| SNARK | 752 | 555 | 805.4 |
| STARK | 314,998.1 | 12.11 | 280,000 |
| ezkl | 492.79 | 9.80 | 23,958.9 |
LeNet5 성능 비교:
| 프로토콜 | 증명 시간(ms) | 검증 시간(ms) | 증명 크기(바이트) |
|---|
| SNARK | 18,788.5 | 611 | 804.4 |
| GKR | 331.99 | 91.31 | 45,718.75 |
| ezkl | 65,678.21 | 100.80 | 767,120.3 |
- 프로토콜 선택의 모델 의존성: 최적 ZKP 프로토콜은 구체적 ML 모델 및 성능 지표에 크게 의존
- 명확한 성능 트레이드오프:
- ezkl은 단순 모델에서 최고 성능
- SNARK는 복잡한 모델에서 증명 생성이 가장 빠르고 증명 크기가 가장 작음
- GKR은 특별히 최적화된 모델(LeNet5)에서 우수한 성능
- 비동기 감시 적용 가능성: ezkl의 검증 시간 우위는 비동기 감시 워크플로우에 특히 적합
금융 사용 사례는 실제 규제 환경에서 프레임워크의 응용을 성공적으로 입증:
- 감시 회사는 키와 증명만 검증하면 됨
- 금융 기관은 기밀 정보를 공개할 필요 없음
- 전체 프로세스는 검증 가능하며 지적재산권 보호
추론 검증: ZEN, vCNN, zkCNN 등 신경망 추론의 영지식 증명에 초점
훈련 검증: 훈련 프로세스 및 온라인 지표 검증으로 확대된 최근 연구
신뢰할 수 있는 AI 응용: ZKAudit, FaaS 등 특정 신뢰할 수 있는 AI 시나리오 대상
- 체계적 공학 방법: 단일 기술 시연이 아닌 완전한 MLOps 통합 프레임워크 제공
- 실용성 지향: 실제 사용 사례 및 성능 평가를 통해 실행 가능성 입증
- 모듈식 설계: 다양한 ZKP 프로토콜의 유연한 통합 및 확장 지원
- 기술 실행 가능성: ZKP 기술을 MLOps 생명주기에 효과적으로 통합하여 감시 투명성과 개인정보 보호 간의 갈등 해결 가능
- 공학적 가치: 소프트웨어 공학 패턴의 적용을 통해 복잡한 암호학 프로세스를 유지보수 가능한 공학 실무로 변환 가능
- 실용성 검증: 금융 감시 사용 사례는 실제 규제 환경에서 프레임워크의 적용 가능성 입증
- 외부 타당성: 다른 규제 분야(예: 의료, 자동 운전)에서 프레임워크의 적용 가능성은 추가 검증 필요
- 평가 범위: 주로 추론 검증 단계에 초점, 다른 MLOps 단계의 평가는 상대적으로 제한적
- 모델 규모: 실험에 사용된 모델은 상대적으로 소규모, 대형 모델의 성능 특성은 다를 수 있음
- 프로토콜 성숙도: 관찰된 성능은 기본 암호학 라이브러리의 성숙도를 반영할 수 있으며 이론적 효율성이 아닐 수 있음
- 실제 환경 검증: 산업 사례 연구를 통해 프레임워크의 성능 및 확장성 검증
- 기능 확장: 데이터셋 공정성, 모델 견고성 등 다른 신뢰할 수 있는 AI 속성의 감시 워크플로우 구현
- 대규모 모델 지원: 대형 언어 모델 등 복잡한 AI 시스템을 지원하도록 프레임워크 최적화
- 명확한 문제 정의: AI 감시에서 투명성과 개인정보 보호 간의 근본적 갈등을 정확히 파악
- 강한 방법론 혁신성: ZKP 기술을 MLOps에 체계적으로 공학화하여 적용한 첫 사례
- 우수한 아키텍처 설계: 육각형 아키텍처, 상태 패턴 등 소프트웨어 공학 패턴의 적절한 적용
- 포괄적 실험 설계: 이론적 분석과 실제 사용 사례 검증, 성능 평가 및 실행 가능성 논증 모두 포함
- 높은 실용 가치: 실제 규제 요구사항 해결, 직접적 응용 가치 보유
- 평가 한계: 주로 추론 검증에 초점, 훈련, 데이터 전처리 등 다른 단계에 대한 지원 부족
- 확장성 의문: 대규모 산업 AI 시스템에 대한 적용 가능성은 추가 검증 필요
- 비용 분석 부재: 상세한 계산 비용 및 경제적 효익 분석 부족
- 보안 고려 부족: ZKP 프로토콜 자체의 보안 가정 및 잠재적 공격 벡터에 대한 심층 논의 부족
- 학술 기여: MLOps 분야에 새로운 연구 방향 도입, 암호학과 소프트웨어 공학의 교차 융합 촉진
- 실용 가치: 규제 기관 및 기업에 실행 가능한 규정 준수 검증 솔루션 제공
- 기술 추진: 더 많은 실제 응용 시나리오에서 ZKP 기술 채택 촉진 가능성
- 규제 규정 준수: 금융, 의료 등 강한 규제 산업의 AI 시스템 감시
- 지적재산권 보호: 모델 성능 검증이 필요하지만 모델 세부사항을 공개할 수 없는 시나리오
- 다자간 협력: 연합 학습 등 기여도 검증이 필요하지만 데이터 개인정보를 보호해야 하는 협력 시나리오
- 공급망 감시: AI 서비스 제공자가 구현 세부사항을 노출하지 않으면서 서비스 품질을 고객에게 증명하는 시나리오
논문은 72개의 관련 문헌을 인용하며, 주요 내용은 다음을 포함합니다:
- 영지식 증명 기초 이론(Goldreich, Blum 등)
- ZKML 응용 연구(ZEN, zkCNN, ZKAudit 등)
- 소프트웨어 공학 패턴(Clean Architecture, Design Patterns 등)
- 신뢰할 수 있는 AI 및 MLOps 관련 연구(Liu et al., Kreuzberger et al. 등)
종합 평가: 본 논문은 첨단 암호학 기술과 실제 공학 요구사항을 성공적으로 결합하여 AI 시스템 감시를 위한 혁신적 솔루션을 제공하는 고품질 소프트웨어 공학 연구 논문입니다. 기술 혁신, 실용성 및 공학화 측면에서 모두 현저한 기여를 하고 있으며, 신뢰할 수 있는 AI 발전을 촉진하는 데 중요한 의미를 가집니다.