2025-11-11T08:49:09.253291

"Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems

Scaramuzza, Ferreira, Suller et al.

The increasing exploitation of Artificial Intelligence (AI) enabled systems in critical domains has made trustworthiness concerns a paramount showstopper, requiring verifiable accountability, often by regulation (e.g., the EU AI Act). Classical software verification and validation techniques, such as procedural audits, formal methods, or model documentation, are the mechanisms used to achieve this. However, these methods are either expensive or heavily manual and ill-suited for the opaque, "black box" nature of most AI models. An intractable conflict emerges: high auditability and verifiability are required by law, but such transparency conflicts with the need to protect assets being audited-e.g., confidential data and proprietary models-leading to weakened accountability. To address this challenge, this paper introduces ZKMLOps, a novel MLOps verification framework that operationalizes Zero-Knowledge Proofs (ZKPs)-cryptographic protocols allowing a prover to convince a verifier that a statement is true without revealing additional information-within Machine-Learning Operations lifecycles. By integrating ZKPs with established software engineering patterns, ZKMLOps provides a modular and repeatable process for generating verifiable cryptographic proof of compliance. We evaluate the framework's practicality through a study of regulatory compliance in financial risk auditing and assess feasibility through an empirical evaluation of top ZKP protocols, analyzing performance trade-offs for ML models of increasing complexity.

academic

"Muéstrame que Cumples... Sin Mostrarme Nada": Auditoría de Software de Conocimiento Cero para Sistemas Habilitados por IA

Información Básica

ID del Artículo: 2510.26576
Título: "Muéstrame que Cumples... Sin Mostrarme Nada": Auditoría de Software de Conocimiento Cero para Sistemas Habilitados por IA
Autores: Filippo Scaramuzza, Renato Cordeiro Ferreira, Tomaz Maia Suller, Giovanni Quattrocchi, Damian Andrew Tamburri, Willem-Jan van den Heuvel
Clasificación: cs.SE (Ingeniería de Software)
Fecha de Presentación: Enviado a arXiv el 30 de octubre de 2025
Enlace del Artículo: https://arxiv.org/abs/2510.26576

Resumen

Con la aplicación generalizada de sistemas de inteligencia artificial en campos críticos, la confiabilidad se ha convertido en un obstáculo importante, y los requisitos regulatorios (como la Ley de IA de la Unión Europea) requieren responsabilidad verificable. Las técnicas tradicionales de verificación y validación de software (como auditoría de programas, métodos formales o documentación de modelos) presentan problemas de alto costo, gran dependencia de operaciones manuales e inadecuación para la naturaleza de "caja negra" de los modelos de IA. Este artículo propone el marco ZKMLOps, que integra pruebas de conocimiento cero (ZKPs) en el ciclo de vida de operaciones de aprendizaje automático para resolver la contradicción entre transparencia de auditoría y protección de activos, proporcionando un proceso de verificación de cumplimiento modular y repetible.

Antecedentes de Investigación y Motivación

Problema Central

Esta investigación aborda un conflicto fundamental en la auditoría de sistemas de IA: los requisitos legales exigen un alto nivel de auditabilidad y verificabilidad, pero esta transparencia entra en conflicto con la necesidad de proteger los activos auditados (como datos confidenciales y modelos propietarios).

Importancia del Problema

Presión regulatoria creciente: Regulaciones como la Ley de IA de la Unión Europea clasifican muchas implementaciones industriales de IA como de alto riesgo, requiriendo evidencia de cumplimiento
Aplicaciones en campos críticos: El crecimiento continuo de aplicaciones de sistemas de IA en finanzas, medicina, transporte y otros campos críticos para la seguridad
Inaplicabilidad de métodos de auditoría tradicionales: Las técnicas de verificación de software existentes tienen eficacia limitada para modelos de IA opacos con millones de parámetros

Limitaciones de Métodos Existentes

Auditoría de programas: Alto costo y gran dependencia de operaciones manuales
Métodos formales: Efectivos solo cuando la lógica de implementación es clara y modelable de manera determinista
Documentación de modelos: Incapaz de manejar la naturaleza de "caja negra" de los modelos de IA
Conflicto de transparencia: Divulgar artefactos requeridos para auditoría puede filtrar propiedad intelectual o datos personales

Motivación de la Investigación

Inspirados por eventos como el escándalo de emisiones de Volkswagen, los autores reconocen la necesidad de un método que pueda proporcionar pruebas de cumplimiento verificables sin filtrar información sensible. La tecnología de pruebas de conocimiento cero ofrece una posible solución a este problema.

Contribuciones Principales

Propuesta del Marco ZKMLOps: Primera arquitectura que integra sistemáticamente pruebas de conocimiento cero en el ciclo de vida de MLOps
Validación Práctica: Demostración del valor de aplicación práctica del marco a través de un caso de uso de cumplimiento regulatorio de auditoría de riesgo financiero
Evaluación de Viabilidad: Evaluación empírica de múltiples protocolos ZKP, analizando compensaciones de rendimiento para modelos de ML de diferentes complejidades
Implementación de Ingeniería: Transformación de procesos criptográficos complejos en procesos de ingeniería modulares, repetibles y mantenibles

Explicación Detallada del Método

Definición de Tareas

Tarea: Implementar auditoría sistemática de sistemas de IA en el ciclo de vida de MLOps, permitiendo que las organizaciones proporcionen pruebas criptográficas verificables demostrando que sus sistemas cumplen con requisitos y regulaciones específicas, mientras protegen información propietaria y datos sensibles.

Entrada: Modelo de IA, conjunto de datos, requisitos de auditoría Salida: Prueba de conocimiento cero y resultados de verificación Restricciones: Protección de propiedad intelectual y privacidad de datos

Arquitectura del Modelo

Diseño de Arquitectura General

El marco ZKMLOps adopta una arquitectura hexagonal (Hexagonal Architecture), dividida en tres capas principales:

Nivel Metodológico: Principios rectores del ciclo de vida de verificación de sistemas ML (componentes 1-4)
Nivel de Implementación: Arquitectura de servicios confiables (componentes 5-8)
Nivel de Partes Interesadas: Interfaz de partes interesadas de confianza (componente 9)

Funcionalidad de Componentes Principales

1. Ciclo de Vida de Verificación de Sistemas ML (Componentes 1-4)

Selección del Ciclo de Vida de Verificación de MLOps: Seleccionar una de cuatro fases basada en el propósito de auditoría
- Verificación de datos y preprocesamiento
- Verificación de entrenamiento e indicadores sin conexión
- Verificación de inferencia
- Verificación de indicadores en línea
Selección de Modelo: Seleccionar técnicas de verificación basadas en requisitos técnicos del modelo implementado
Selección de Protocolo: Elegir el protocolo ZKP más adecuado para la arquitectura de aplicación
Especificación de Trazabilidad ZKP: Generar documentación que contenga propósito de auditoría, trayectoria de decisiones y protocolo seleccionado

2. Arquitectura de Servicios Confiables (Componentes 5-8)

Núcleo de Arquitectura Hexagonal: Implementar la lógica empresarial del flujo de trabajo de auditoría
Almacenamiento de Artefactos: Gestionar artefactos de entrada y salida durante el proceso de auditoría
Scripts ZKP: Ejecutar implementaciones específicas de diferentes protocolos ZKP
Máquina de Estados Interna: Coordinar la ejecución de cuatro pasos ZKP (configuración, intercambio de claves, prueba, verificación)

Detalles de Implementación Técnica

Diseño de Máquina de Estados: Utilizar patrón Saga de orquestación y patrón de estado, descomponiendo cada flujo de trabajo de auditoría en cuatro pasos fundamentales:

Configuración → Intercambio de Claves → Prueba → Verificación

Patrón de Inyección de Dependencias: Inyectar adaptadores requeridos en tiempo de ejecución a través de archivos de configuración, soportando cambio flexible de múltiples protocolos ZKP.

Capa Anticorrupción: Implementar abstracción de dependencias externas usando patrón de puertos y adaptadores, incluyendo:

Enrutador (puerto de entrada): Interfaz API REST
Intérprete, configuración, almacenamiento (puertos de salida): Ejecución de scripts y gestión de datos

Puntos de Innovación Técnica

Fusión de Criptografía e Ingeniería de Software: Primera integración sistemática de tecnología ZKP en el ciclo de vida de ingeniería de software
Diseño Modular: Desacoplamiento de lógica de auditoría central de implementaciones ZKP específicas a través de patrones arquitectónicos
Árbol de Decisión de Selección de Protocolo: Proporcionar método sistemático de selección de protocolo basado en propósito de auditoría, fase de MLOps y tipo de modelo
Soporte de Flujo de Trabajo Asincrónico: Adaptarse a la necesidad de generación de pruebas computacionalmente intensivas en escenarios de auditoría

Configuración Experimental

Datos de Evaluación

Comparación de Protocolos ZKP:

ezkl: Soporta formato ONNX, aceleración GPU
SNARK: Implementado a través de Circom
STARK: Implementado a través de Cairo
GKR: Optimizado específicamente para redes neuronales

Modelos de Prueba:

Red Neuronal Feedforward (FNN)
Red Neuronal Convolucional Pequeña (Small CNN)
CNN MNIST
LeNet5
VGG11 (solo GKR)

Métricas de Evaluación

Tiempo de Prueba: Tiempo requerido para generar una prueba de conocimiento cero
Tiempo de Verificación: Tiempo requerido para verificar una prueba
Tamaño de Prueba: Espacio de almacenamiento de la prueba generada

Entorno Experimental

Hardware: Procesador Intel Xeon E5-2698 v4 de 8 núcleos, 32GB RAM
Sistema Operativo: Ubuntu 22.04.4 LTS
Método Estadístico: Ejecutar 10 inicializaciones aleatorias para cada condición experimental, calcular promedios

Validación de Caso de Uso

Auditoría de Cumplimiento de Modelo de Riesgo Financiero:

Escenario: Institución financiera demuestra a empresa auditora que su puntuación de riesgo crediticio se genera mediante el modelo aprobado declarado
Requisito: Verificar corrección de inferencia sin exponer parámetros de modelo propietarios
Selección de Protocolo: ezkl (no interactivo, configuración transparente, representación estándar, concisión, seguridad cuántica)

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento de Red Neuronal Feedforward (FNN):

Protocolo	Tiempo de Prueba (ms)	Tiempo de Verificación (ms)	Tamaño de Prueba (bytes)
SNARK	752	555	805.4
STARK	314,998.1	12.11	280,000
ezkl	492.79	9.80	23,958.9

Comparación de Rendimiento de LeNet5:

Protocolo	Tiempo de Prueba (ms)	Tiempo de Verificación (ms)	Tamaño de Prueba (bytes)
SNARK	18,788.5	611	804.4
GKR	331.99	91.31	45,718.75
ezkl	65,678.21	100.80	767,120.3

Hallazgos Clave

Dependencia de Selección de Protocolo del Modelo: El protocolo ZKP óptimo depende altamente del modelo de ML específico y métricas de rendimiento
Compensaciones de Rendimiento Evidentes:
- ezkl muestra mejor rendimiento en modelos simples
- SNARK genera pruebas más rápidamente en modelos complejos, con tamaño de prueba más pequeño
- GKR muestra rendimiento superior en modelos especialmente optimizados (LeNet5)
Aplicabilidad de Auditoría Asincrónica: La ventaja de tiempo de verificación de ezkl lo hace particularmente adecuado para flujos de trabajo de auditoría asincrónica

Validación Práctica

El caso de uso financiero demuestra exitosamente la aplicación del marco en entornos regulatorios reales:

La empresa auditora solo necesita verificar claves y pruebas
La institución financiera no necesita divulgar información confidencial alguna
Todo el proceso es verificable y protege la propiedad intelectual

Trabajo Relacionado

Investigación en Aprendizaje Automático de Conocimiento Cero (ZKML)

Verificación de Inferencia: ZEN, vCNN, zkCNN y otros enfocados en pruebas de conocimiento cero para inferencia de redes neuronales Verificación de Entrenamiento: Trabajos recientes extendidos a procesos de entrenamiento y verificación de indicadores en línea Aplicaciones de IA Confiable: ZKAudit, FaaS y otros dirigidos a escenarios específicos de IA confiable

Ventajas Relativas de Este Artículo

Enfoque de Ingeniería Sistemática: Primera vez proporcionando marco completo de integración de MLOps, en lugar de demostración de tecnología única
Orientación Práctica: Prueba de viabilidad a través de casos reales y evaluación de rendimiento
Diseño Modular: Soporta integración flexible y extensión de múltiples protocolos ZKP

Conclusiones y Discusión

Conclusiones Principales

Viabilidad Técnica: La tecnología ZKP puede integrarse efectivamente en el ciclo de vida de MLOps, resolviendo el conflicto entre transparencia de auditoría y protección de privacidad
Valor de Ingeniería: A través de la aplicación de patrones de ingeniería de software, procesos criptográficos complejos pueden transformarse en prácticas de ingeniería mantenibles
Validación Práctica: El caso de uso de auditoría financiera demuestra la aplicabilidad del marco en entornos regulatorios reales

Limitaciones

Validez Externa: La aplicabilidad del marco en otros campos regulatorios (como medicina, conducción autónoma) requiere verificación adicional
Alcance de Evaluación: Enfoque principal en fase de verificación de inferencia, evaluación relativamente limitada de otras fases de MLOps
Escala de Modelo: Los modelos utilizados en experimentos son relativamente pequeños, las características de rendimiento de modelos grandes pueden diferir
Madurez de Protocolo: El rendimiento observado puede reflejar la madurez de bibliotecas criptográficas subyacentes en lugar de eficiencia teórica

Direcciones Futuras

Validación en Entorno Real: Verificar rendimiento y escalabilidad del marco a través de estudios de casos industriales
Extensión Funcional: Implementar flujos de trabajo de auditoría para otros atributos de IA confiable, como equidad de conjunto de datos y robustez de modelo
Soporte de Modelos a Gran Escala: Optimizar marco para soportar sistemas de IA complejos como modelos de lenguaje grande

Evaluación Profunda

Fortalezas

Definición Clara del Problema: Identificación precisa del conflicto fundamental entre transparencia y protección de privacidad en auditoría de IA
Fuerte Innovación de Método: Primera aplicación sistemática e ingenierizada de tecnología ZKP en MLOps
Excelente Diseño de Arquitectura: Aplicación apropiada de patrones de ingeniería de software como arquitectura hexagonal y patrón de estado
Diseño Experimental Completo: Tanto análisis teórico como validación de casos prácticos, tanto evaluación de rendimiento como argumentación de viabilidad
Alto Valor Práctico: Solución de necesidades regulatorias reales con valor de aplicación directo

Insuficiencias

Limitaciones de Evaluación: Enfoque principal en verificación de inferencia, soporte insuficiente para entrenamiento, preprocesamiento de datos y otras fases
Dudas sobre Escalabilidad: La aplicabilidad a sistemas de IA industriales a gran escala requiere verificación adicional
Análisis de Costo Faltante: Falta análisis detallado de costo computacional y beneficio económico
Consideraciones de Seguridad Insuficientes: Discusión insuficiente de suposiciones de seguridad de protocolos ZKP en sí y posibles vectores de ataque

Impacto

Contribución Académica: Introduce nueva dirección de investigación para el campo de MLOps, promoviendo fusión interdisciplinaria de criptografía e ingeniería de software
Valor Práctico: Proporciona solución de verificación de cumplimiento operacional para agencias regulatorias y empresas
Impulso Tecnológico: Puede promover adopción de tecnología ZKP en más escenarios de aplicación práctica

Escenarios Aplicables

Cumplimiento Regulatorio: Auditoría de sistemas de IA en industrias altamente reguladas como finanzas y medicina
Protección de Propiedad Intelectual: Escenarios que requieren verificación de rendimiento de modelo sin filtración de detalles de implementación
Colaboración Multipartita: Escenarios como aprendizaje federado que requieren verificación de contribución mientras se protege privacidad de datos
Auditoría de Cadena de Suministro: Proveedores de servicios de IA demostrando calidad de servicio a clientes sin exponer detalles de implementación

Referencias

El artículo cita 72 referencias relacionadas, incluyendo principalmente:

Teoría fundamental de pruebas de conocimiento cero (Goldreich, Blum, etc.)
Investigación de aplicaciones ZKML (ZEN, zkCNN, ZKAudit, etc.)
Patrones de ingeniería de software (Clean Architecture, Design Patterns, etc.)
Trabajos relacionados con IA confiable y MLOps (Liu et al., Kreuzberger et al., etc.)

Evaluación General: Este es un artículo de investigación de alta calidad en ingeniería de software que integra exitosamente tecnología criptográfica de vanguardia con necesidades de ingeniería práctica, proporcionando una solución innovadora para auditoría de sistemas de IA. El artículo tiene contribuciones significativas en innovación técnica, practicidad e ingeniería, con importancia significativa para promover el desarrollo de IA confiable.