2025-11-11T08:49:09.253291

"Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems

Scaramuzza, Ferreira, Suller et al.
The increasing exploitation of Artificial Intelligence (AI) enabled systems in critical domains has made trustworthiness concerns a paramount showstopper, requiring verifiable accountability, often by regulation (e.g., the EU AI Act). Classical software verification and validation techniques, such as procedural audits, formal methods, or model documentation, are the mechanisms used to achieve this. However, these methods are either expensive or heavily manual and ill-suited for the opaque, "black box" nature of most AI models. An intractable conflict emerges: high auditability and verifiability are required by law, but such transparency conflicts with the need to protect assets being audited-e.g., confidential data and proprietary models-leading to weakened accountability. To address this challenge, this paper introduces ZKMLOps, a novel MLOps verification framework that operationalizes Zero-Knowledge Proofs (ZKPs)-cryptographic protocols allowing a prover to convince a verifier that a statement is true without revealing additional information-within Machine-Learning Operations lifecycles. By integrating ZKPs with established software engineering patterns, ZKMLOps provides a modular and repeatable process for generating verifiable cryptographic proof of compliance. We evaluate the framework's practicality through a study of regulatory compliance in financial risk auditing and assess feasibility through an empirical evaluation of top ZKP protocols, analyzing performance trade-offs for ML models of increasing complexity.
academic

"Muéstrame que Cumples... Sin Mostrarme Nada": Auditoría de Software de Conocimiento Cero para Sistemas Habilitados por IA

Información Básica

  • ID del Artículo: 2510.26576
  • Título: "Muéstrame que Cumples... Sin Mostrarme Nada": Auditoría de Software de Conocimiento Cero para Sistemas Habilitados por IA
  • Autores: Filippo Scaramuzza, Renato Cordeiro Ferreira, Tomaz Maia Suller, Giovanni Quattrocchi, Damian Andrew Tamburri, Willem-Jan van den Heuvel
  • Clasificación: cs.SE (Ingeniería de Software)
  • Fecha de Presentación: Enviado a arXiv el 30 de octubre de 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.26576

Resumen

Con la aplicación generalizada de sistemas de inteligencia artificial en campos críticos, la confiabilidad se ha convertido en un obstáculo importante, y los requisitos regulatorios (como la Ley de IA de la Unión Europea) requieren responsabilidad verificable. Las técnicas tradicionales de verificación y validación de software (como auditoría de programas, métodos formales o documentación de modelos) presentan problemas de alto costo, gran dependencia de operaciones manuales e inadecuación para la naturaleza de "caja negra" de los modelos de IA. Este artículo propone el marco ZKMLOps, que integra pruebas de conocimiento cero (ZKPs) en el ciclo de vida de operaciones de aprendizaje automático para resolver la contradicción entre transparencia de auditoría y protección de activos, proporcionando un proceso de verificación de cumplimiento modular y repetible.

Antecedentes de Investigación y Motivación

Problema Central

Esta investigación aborda un conflicto fundamental en la auditoría de sistemas de IA: los requisitos legales exigen un alto nivel de auditabilidad y verificabilidad, pero esta transparencia entra en conflicto con la necesidad de proteger los activos auditados (como datos confidenciales y modelos propietarios).

Importancia del Problema

  1. Presión regulatoria creciente: Regulaciones como la Ley de IA de la Unión Europea clasifican muchas implementaciones industriales de IA como de alto riesgo, requiriendo evidencia de cumplimiento
  2. Aplicaciones en campos críticos: El crecimiento continuo de aplicaciones de sistemas de IA en finanzas, medicina, transporte y otros campos críticos para la seguridad
  3. Inaplicabilidad de métodos de auditoría tradicionales: Las técnicas de verificación de software existentes tienen eficacia limitada para modelos de IA opacos con millones de parámetros

Limitaciones de Métodos Existentes

  1. Auditoría de programas: Alto costo y gran dependencia de operaciones manuales
  2. Métodos formales: Efectivos solo cuando la lógica de implementación es clara y modelable de manera determinista
  3. Documentación de modelos: Incapaz de manejar la naturaleza de "caja negra" de los modelos de IA
  4. Conflicto de transparencia: Divulgar artefactos requeridos para auditoría puede filtrar propiedad intelectual o datos personales

Motivación de la Investigación

Inspirados por eventos como el escándalo de emisiones de Volkswagen, los autores reconocen la necesidad de un método que pueda proporcionar pruebas de cumplimiento verificables sin filtrar información sensible. La tecnología de pruebas de conocimiento cero ofrece una posible solución a este problema.

Contribuciones Principales

  1. Propuesta del Marco ZKMLOps: Primera arquitectura que integra sistemáticamente pruebas de conocimiento cero en el ciclo de vida de MLOps
  2. Validación Práctica: Demostración del valor de aplicación práctica del marco a través de un caso de uso de cumplimiento regulatorio de auditoría de riesgo financiero
  3. Evaluación de Viabilidad: Evaluación empírica de múltiples protocolos ZKP, analizando compensaciones de rendimiento para modelos de ML de diferentes complejidades
  4. Implementación de Ingeniería: Transformación de procesos criptográficos complejos en procesos de ingeniería modulares, repetibles y mantenibles

Explicación Detallada del Método

Definición de Tareas

Tarea: Implementar auditoría sistemática de sistemas de IA en el ciclo de vida de MLOps, permitiendo que las organizaciones proporcionen pruebas criptográficas verificables demostrando que sus sistemas cumplen con requisitos y regulaciones específicas, mientras protegen información propietaria y datos sensibles.

Entrada: Modelo de IA, conjunto de datos, requisitos de auditoría Salida: Prueba de conocimiento cero y resultados de verificación Restricciones: Protección de propiedad intelectual y privacidad de datos

Arquitectura del Modelo

Diseño de Arquitectura General

El marco ZKMLOps adopta una arquitectura hexagonal (Hexagonal Architecture), dividida en tres capas principales:

  1. Nivel Metodológico: Principios rectores del ciclo de vida de verificación de sistemas ML (componentes 1-4)
  2. Nivel de Implementación: Arquitectura de servicios confiables (componentes 5-8)
  3. Nivel de Partes Interesadas: Interfaz de partes interesadas de confianza (componente 9)

Funcionalidad de Componentes Principales

1. Ciclo de Vida de Verificación de Sistemas ML (Componentes 1-4)

  • Selección del Ciclo de Vida de Verificación de MLOps: Seleccionar una de cuatro fases basada en el propósito de auditoría
    • Verificación de datos y preprocesamiento
    • Verificación de entrenamiento e indicadores sin conexión
    • Verificación de inferencia
    • Verificación de indicadores en línea
  • Selección de Modelo: Seleccionar técnicas de verificación basadas en requisitos técnicos del modelo implementado
  • Selección de Protocolo: Elegir el protocolo ZKP más adecuado para la arquitectura de aplicación
  • Especificación de Trazabilidad ZKP: Generar documentación que contenga propósito de auditoría, trayectoria de decisiones y protocolo seleccionado

2. Arquitectura de Servicios Confiables (Componentes 5-8)

  • Núcleo de Arquitectura Hexagonal: Implementar la lógica empresarial del flujo de trabajo de auditoría
  • Almacenamiento de Artefactos: Gestionar artefactos de entrada y salida durante el proceso de auditoría
  • Scripts ZKP: Ejecutar implementaciones específicas de diferentes protocolos ZKP
  • Máquina de Estados Interna: Coordinar la ejecución de cuatro pasos ZKP (configuración, intercambio de claves, prueba, verificación)

Detalles de Implementación Técnica

Diseño de Máquina de Estados: Utilizar patrón Saga de orquestación y patrón de estado, descomponiendo cada flujo de trabajo de auditoría en cuatro pasos fundamentales:

Configuración → Intercambio de Claves → Prueba → Verificación

Patrón de Inyección de Dependencias: Inyectar adaptadores requeridos en tiempo de ejecución a través de archivos de configuración, soportando cambio flexible de múltiples protocolos ZKP.

Capa Anticorrupción: Implementar abstracción de dependencias externas usando patrón de puertos y adaptadores, incluyendo:

  • Enrutador (puerto de entrada): Interfaz API REST
  • Intérprete, configuración, almacenamiento (puertos de salida): Ejecución de scripts y gestión de datos

Puntos de Innovación Técnica

  1. Fusión de Criptografía e Ingeniería de Software: Primera integración sistemática de tecnología ZKP en el ciclo de vida de ingeniería de software
  2. Diseño Modular: Desacoplamiento de lógica de auditoría central de implementaciones ZKP específicas a través de patrones arquitectónicos
  3. Árbol de Decisión de Selección de Protocolo: Proporcionar método sistemático de selección de protocolo basado en propósito de auditoría, fase de MLOps y tipo de modelo
  4. Soporte de Flujo de Trabajo Asincrónico: Adaptarse a la necesidad de generación de pruebas computacionalmente intensivas en escenarios de auditoría

Configuración Experimental

Datos de Evaluación

Comparación de Protocolos ZKP:

  • ezkl: Soporta formato ONNX, aceleración GPU
  • SNARK: Implementado a través de Circom
  • STARK: Implementado a través de Cairo
  • GKR: Optimizado específicamente para redes neuronales

Modelos de Prueba:

  • Red Neuronal Feedforward (FNN)
  • Red Neuronal Convolucional Pequeña (Small CNN)
  • CNN MNIST
  • LeNet5
  • VGG11 (solo GKR)

Métricas de Evaluación

  1. Tiempo de Prueba: Tiempo requerido para generar una prueba de conocimiento cero
  2. Tiempo de Verificación: Tiempo requerido para verificar una prueba
  3. Tamaño de Prueba: Espacio de almacenamiento de la prueba generada

Entorno Experimental

  • Hardware: Procesador Intel Xeon E5-2698 v4 de 8 núcleos, 32GB RAM
  • Sistema Operativo: Ubuntu 22.04.4 LTS
  • Método Estadístico: Ejecutar 10 inicializaciones aleatorias para cada condición experimental, calcular promedios

Validación de Caso de Uso

Auditoría de Cumplimiento de Modelo de Riesgo Financiero:

  • Escenario: Institución financiera demuestra a empresa auditora que su puntuación de riesgo crediticio se genera mediante el modelo aprobado declarado
  • Requisito: Verificar corrección de inferencia sin exponer parámetros de modelo propietarios
  • Selección de Protocolo: ezkl (no interactivo, configuración transparente, representación estándar, concisión, seguridad cuántica)

Resultados Experimentales

Resultados Principales

Comparación de Rendimiento de Red Neuronal Feedforward (FNN):

ProtocoloTiempo de Prueba (ms)Tiempo de Verificación (ms)Tamaño de Prueba (bytes)
SNARK752555805.4
STARK314,998.112.11280,000
ezkl492.799.8023,958.9

Comparación de Rendimiento de LeNet5:

ProtocoloTiempo de Prueba (ms)Tiempo de Verificación (ms)Tamaño de Prueba (bytes)
SNARK18,788.5611804.4
GKR331.9991.3145,718.75
ezkl65,678.21100.80767,120.3

Hallazgos Clave

  1. Dependencia de Selección de Protocolo del Modelo: El protocolo ZKP óptimo depende altamente del modelo de ML específico y métricas de rendimiento
  2. Compensaciones de Rendimiento Evidentes:
    • ezkl muestra mejor rendimiento en modelos simples
    • SNARK genera pruebas más rápidamente en modelos complejos, con tamaño de prueba más pequeño
    • GKR muestra rendimiento superior en modelos especialmente optimizados (LeNet5)
  3. Aplicabilidad de Auditoría Asincrónica: La ventaja de tiempo de verificación de ezkl lo hace particularmente adecuado para flujos de trabajo de auditoría asincrónica

Validación Práctica

El caso de uso financiero demuestra exitosamente la aplicación del marco en entornos regulatorios reales:

  • La empresa auditora solo necesita verificar claves y pruebas
  • La institución financiera no necesita divulgar información confidencial alguna
  • Todo el proceso es verificable y protege la propiedad intelectual

Trabajo Relacionado

Investigación en Aprendizaje Automático de Conocimiento Cero (ZKML)

Verificación de Inferencia: ZEN, vCNN, zkCNN y otros enfocados en pruebas de conocimiento cero para inferencia de redes neuronales Verificación de Entrenamiento: Trabajos recientes extendidos a procesos de entrenamiento y verificación de indicadores en línea Aplicaciones de IA Confiable: ZKAudit, FaaS y otros dirigidos a escenarios específicos de IA confiable

Ventajas Relativas de Este Artículo

  1. Enfoque de Ingeniería Sistemática: Primera vez proporcionando marco completo de integración de MLOps, en lugar de demostración de tecnología única
  2. Orientación Práctica: Prueba de viabilidad a través de casos reales y evaluación de rendimiento
  3. Diseño Modular: Soporta integración flexible y extensión de múltiples protocolos ZKP

Conclusiones y Discusión

Conclusiones Principales

  1. Viabilidad Técnica: La tecnología ZKP puede integrarse efectivamente en el ciclo de vida de MLOps, resolviendo el conflicto entre transparencia de auditoría y protección de privacidad
  2. Valor de Ingeniería: A través de la aplicación de patrones de ingeniería de software, procesos criptográficos complejos pueden transformarse en prácticas de ingeniería mantenibles
  3. Validación Práctica: El caso de uso de auditoría financiera demuestra la aplicabilidad del marco en entornos regulatorios reales

Limitaciones

  1. Validez Externa: La aplicabilidad del marco en otros campos regulatorios (como medicina, conducción autónoma) requiere verificación adicional
  2. Alcance de Evaluación: Enfoque principal en fase de verificación de inferencia, evaluación relativamente limitada de otras fases de MLOps
  3. Escala de Modelo: Los modelos utilizados en experimentos son relativamente pequeños, las características de rendimiento de modelos grandes pueden diferir
  4. Madurez de Protocolo: El rendimiento observado puede reflejar la madurez de bibliotecas criptográficas subyacentes en lugar de eficiencia teórica

Direcciones Futuras

  1. Validación en Entorno Real: Verificar rendimiento y escalabilidad del marco a través de estudios de casos industriales
  2. Extensión Funcional: Implementar flujos de trabajo de auditoría para otros atributos de IA confiable, como equidad de conjunto de datos y robustez de modelo
  3. Soporte de Modelos a Gran Escala: Optimizar marco para soportar sistemas de IA complejos como modelos de lenguaje grande

Evaluación Profunda

Fortalezas

  1. Definición Clara del Problema: Identificación precisa del conflicto fundamental entre transparencia y protección de privacidad en auditoría de IA
  2. Fuerte Innovación de Método: Primera aplicación sistemática e ingenierizada de tecnología ZKP en MLOps
  3. Excelente Diseño de Arquitectura: Aplicación apropiada de patrones de ingeniería de software como arquitectura hexagonal y patrón de estado
  4. Diseño Experimental Completo: Tanto análisis teórico como validación de casos prácticos, tanto evaluación de rendimiento como argumentación de viabilidad
  5. Alto Valor Práctico: Solución de necesidades regulatorias reales con valor de aplicación directo

Insuficiencias

  1. Limitaciones de Evaluación: Enfoque principal en verificación de inferencia, soporte insuficiente para entrenamiento, preprocesamiento de datos y otras fases
  2. Dudas sobre Escalabilidad: La aplicabilidad a sistemas de IA industriales a gran escala requiere verificación adicional
  3. Análisis de Costo Faltante: Falta análisis detallado de costo computacional y beneficio económico
  4. Consideraciones de Seguridad Insuficientes: Discusión insuficiente de suposiciones de seguridad de protocolos ZKP en sí y posibles vectores de ataque

Impacto

  1. Contribución Académica: Introduce nueva dirección de investigación para el campo de MLOps, promoviendo fusión interdisciplinaria de criptografía e ingeniería de software
  2. Valor Práctico: Proporciona solución de verificación de cumplimiento operacional para agencias regulatorias y empresas
  3. Impulso Tecnológico: Puede promover adopción de tecnología ZKP en más escenarios de aplicación práctica

Escenarios Aplicables

  1. Cumplimiento Regulatorio: Auditoría de sistemas de IA en industrias altamente reguladas como finanzas y medicina
  2. Protección de Propiedad Intelectual: Escenarios que requieren verificación de rendimiento de modelo sin filtración de detalles de implementación
  3. Colaboración Multipartita: Escenarios como aprendizaje federado que requieren verificación de contribución mientras se protege privacidad de datos
  4. Auditoría de Cadena de Suministro: Proveedores de servicios de IA demostrando calidad de servicio a clientes sin exponer detalles de implementación

Referencias

El artículo cita 72 referencias relacionadas, incluyendo principalmente:

  • Teoría fundamental de pruebas de conocimiento cero (Goldreich, Blum, etc.)
  • Investigación de aplicaciones ZKML (ZEN, zkCNN, ZKAudit, etc.)
  • Patrones de ingeniería de software (Clean Architecture, Design Patterns, etc.)
  • Trabajos relacionados con IA confiable y MLOps (Liu et al., Kreuzberger et al., etc.)

Evaluación General: Este es un artículo de investigación de alta calidad en ingeniería de software que integra exitosamente tecnología criptográfica de vanguardia con necesidades de ingeniería práctica, proporcionando una solución innovadora para auditoría de sistemas de IA. El artículo tiene contribuciones significativas en innovación técnica, practicidad e ingeniería, con importancia significativa para promover el desarrollo de IA confiable.