2025-11-11T08:49:09.253291

"Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems

Scaramuzza, Ferreira, Suller et al.

The increasing exploitation of Artificial Intelligence (AI) enabled systems in critical domains has made trustworthiness concerns a paramount showstopper, requiring verifiable accountability, often by regulation (e.g., the EU AI Act). Classical software verification and validation techniques, such as procedural audits, formal methods, or model documentation, are the mechanisms used to achieve this. However, these methods are either expensive or heavily manual and ill-suited for the opaque, "black box" nature of most AI models. An intractable conflict emerges: high auditability and verifiability are required by law, but such transparency conflicts with the need to protect assets being audited-e.g., confidential data and proprietary models-leading to weakened accountability. To address this challenge, this paper introduces ZKMLOps, a novel MLOps verification framework that operationalizes Zero-Knowledge Proofs (ZKPs)-cryptographic protocols allowing a prover to convince a verifier that a statement is true without revealing additional information-within Machine-Learning Operations lifecycles. By integrating ZKPs with established software engineering patterns, ZKMLOps provides a modular and repeatable process for generating verifiable cryptographic proof of compliance. We evaluate the framework's practicality through a study of regulatory compliance in financial risk auditing and assess feasibility through an empirical evaluation of top ZKP protocols, analyzing performance trade-offs for ML models of increasing complexity.

academic

"Zeigen Sie mir, dass Sie konform sind... ohne mir etwas zu zeigen": Zero-Knowledge-Softwareauditing für KI-gestützte Systeme

Grundinformationen

Paper-ID: 2510.26576
Titel: "Show Me You Comply... Without Showing Me Anything": Zero-Knowledge Software Auditing for AI-Enabled Systems
Autoren: Filippo Scaramuzza, Renato Cordeiro Ferreira, Tomaz Maia Suller, Giovanni Quattrocchi, Damian Andrew Tamburri, Willem-Jan van den Heuvel
Klassifizierung: cs.SE (Softwaretechnik)
Einreichungsdatum: 30. Oktober 2025 bei arXiv eingereicht
Paper-Link: https://arxiv.org/abs/2510.26576

Zusammenfassung

Mit der weit verbreiteten Anwendung von KI-Systemen in kritischen Bereichen ist Vertrauenswürdigkeit zu einem wichtigen Hindernis geworden. Regulatorische Anforderungen (wie das EU-KI-Gesetz) erfordern nachweisbare Rechenschaftspflicht. Traditionelle Softwareverifikations- und Validierungstechniken (wie Programmaudits, formale Methoden oder Modelldokumentation) sind kostspielig, arbeitsintensiv und ungeeignet für die "Black-Box"-Natur von KI-Modellen. Dieses Paper stellt das ZKMLOps-Framework vor, das durch die Integration von Zero-Knowledge-Beweisen (ZKPs) in den Machine-Learning-Operations-Lebenszyklus den Widerspruch zwischen Audit-Transparenz und Vermögensschutz löst und einen modularen und wiederholbaren Compliance-Verifizierungsprozess bietet.

Forschungshintergrund und Motivation

Kernproblem

Diese Forschung adressiert einen grundlegenden Konflikt beim Auditing von KI-Systemen: Rechtliche Anforderungen verlangen ein hohes Maß an Auditierbarkeit und Verifizierbarkeit, aber diese Transparenz steht im Widerspruch zu dem Bedarf, die auditierten Vermögenswerte (wie vertrauliche Daten und proprietäre Modelle) zu schützen.

Bedeutung des Problems

Erhöhter Regulierungsdruck: Vorschriften wie das EU-KI-Gesetz klassifizieren viele industrielle KI-Bereitstellungen als Hochrisiko und erfordern Compliance-Nachweise
Anwendungen in kritischen Bereichen: Die Anwendung von KI-Systemen in sicherheitskritischen Bereichen wie Finanzen, Medizin und Verkehr nimmt ständig zu
Unzulänglichkeit traditioneller Audit-Methoden: Bestehende Softwareverifikationstechniken sind für undurchsichtige KI-Modelle mit Millionen von Parametern von begrenztem Nutzen

Einschränkungen bestehender Methoden

Programmaudits: Kostspielig und stark auf manuelle Arbeit angewiesen
Formale Methoden: Wirksam nur, wenn die Implementierungslogik klar und deterministisch modellierbar ist
Modelldokumentation: Kann die "Black-Box"-Natur von KI-Modellen nicht bewältigen
Transparenz-Konflikt: Die Offenlegung für das Auditing erforderlicher Artefakte könnte geistiges Eigentum oder persönliche Daten preisgeben

Forschungsmotivation

Inspiriert durch Ereignisse wie den Volkswagen-Abgasskandal erkannten die Autoren die Notwendigkeit einer Methode, die nachweisbare Compliance-Beweise liefern kann, ohne sensible Informationen preiszugeben. Zero-Knowledge-Proof-Technologie bietet eine mögliche Lösung für dieses Problem.

Kernbeiträge

Vorschlag des ZKMLOps-Frameworks: Erste Architektur, die Zero-Knowledge-Beweise systematisch in den MLOps-Lebenszyklus integriert
Praktizitätsvalidierung: Demonstration des praktischen Anwendungswerts des Frameworks durch einen Anwendungsfall zur regulatorischen Compliance im Finanzrisiko-Audit
Machbarkeitsbewertung: Empirische Bewertung mehrerer ZKP-Protokolle mit Analyse von Leistungs-Kompromissen für ML-Modelle unterschiedlicher Komplexität
Engineering-Implementierung: Umwandlung komplexer kryptographischer Verfahren in modulare, wiederholbare und wartbare Engineering-Prozesse

Methodische Details

Aufgabendefinition

Aufgabe: Implementierung systematischer KI-System-Audits im MLOps-Lebenszyklus, die es Organisationen ermöglichen, kryptographische Nachweise zu erbringen, dass ihre Systeme bestimmte Anforderungen und Vorschriften erfüllen, während proprietäre Informationen und sensible Daten geschützt werden.

Eingaben: KI-Modell, Datensatz, Audit-Anforderungen Ausgaben: Zero-Knowledge-Beweis und Verifizierungsergebnisse Einschränkungen: Schutz von geistigem Eigentum und Datenschutz

Modellarchitektur

Gesamtarchitektur-Design

Das ZKMLOps-Framework nutzt eine hexagonale Architektur (Hexagonal Architecture) mit drei Hauptebenen:

Methodische Ebene: Richtlinien für den ML-System-Verifizierungslebenszyklus (Komponenten 1-4)
Implementierungsebene: Vertrauenswürdige Service-Architektur (Komponenten 5-8)
Stakeholder-Ebene: Vertrauens-Stakeholder-Schnittstellen (Komponente 9)

Kernkomponentenfunktionalität

1. ML-System-Verifizierungslebenszyklus (Komponenten 1-4)

MLOps-Verifizierungslebenszyklus-Auswahl: Auswahl einer von vier Phasen basierend auf Audit-Zweck
- Daten- und Vorverarbeitungsverifizierung
- Trainings- und Offline-Metrik-Verifizierung
- Inferenz-Verifizierung
- Online-Metrik-Verifizierung
Modellauswahl: Auswahl von Verifizierungstechniken basierend auf technischen Anforderungen des bereitgestellten Modells
Protokollauswahl: Auswahl des für die Anwendungsarchitektur am besten geeigneten ZKP-Protokolls
ZKP-Nachverfolgungsspezifikation: Generierung von Dokumentation mit Audit-Zweck, Entscheidungsverlauf und ausgewähltem Protokoll

2. Vertrauenswürdige Service-Architektur (Komponenten 5-8)

Hexagonale Architektur-Kern: Implementierung der Geschäftslogik des Audit-Workflows
Artefakt-Speicher: Verwaltung von Ein- und Ausgabeartefakten während des Audit-Prozesses
ZKP-Skripte: Ausführung spezifischer Implementierungen verschiedener ZKP-Protokolle
Interne Zustandsmaschine: Koordination der Ausführung von vier ZKP-Schritten (Setup, Schlüsselaustausch, Beweis, Verifizierung)

Technische Implementierungsdetails

Zustandsmaschinen-Design: Verwendung des Orchestrierungs-Saga-Musters und des State-Patterns, um jeden Audit-Workflow in vier grundlegende Schritte zu zerlegen:

Setup → Schlüsselaustausch → Beweis → Verifizierung

Dependency-Injection-Muster: Injektion erforderlicher Adapter zur Laufzeit über Konfigurationsdateien, um flexibles Umschalten zwischen mehreren ZKP-Protokollen zu unterstützen.

Anti-Corruption-Schicht: Verwendung des Port- und Adapter-Musters zur Abstraktion externer Abhängigkeiten, einschließlich:

Router (eingehende Ports): REST-API-Schnittstelle
Interpreter, Konfiguration, Speicher (ausgehende Ports): Skriptausführung und Datenverwaltung

Technische Innovationspunkte

Fusion von Kryptographie und Softwaretechnik: Erste systematische Integration von ZKP-Technologie in den Softwareentwicklungslebenszyklus
Modulares Design: Entkopplung der Kern-Audit-Logik von spezifischen ZKP-Implementierungen durch Architekturmuster
Entscheidungsbaum zur Protokollauswahl: Systematische Methode zur Protokollauswahl basierend auf Audit-Zweck, MLOps-Phase und Modelltyp
Asynchrone Workflow-Unterstützung: Anpassung an rechenintensive Beweis-Generierung in Audit-Szenarien

Experimentelle Einrichtung

Bewertungsdaten

ZKP-Protokoll-Vergleich:

ezkl: Unterstützt ONNX-Format, GPU-Beschleunigung
SNARK: Implementiert über Circom
STARK: Implementiert über Cairo
GKR: Speziell für neuronale Netze optimiert

Test-Modelle:

Feedforward-Neuronales Netz (FNN)
Kleines Convolutional Neural Network (Small CNN)
MNIST CNN
LeNet5
VGG11 (nur GKR)

Bewertungsmetriken

Beweis-Zeit: Zeit, die zur Generierung eines Zero-Knowledge-Beweises erforderlich ist
Verifizierungszeit: Zeit, die zur Verifizierung eines Beweises erforderlich ist
Beweis-Größe: Speicherplatz des generierten Beweises

Experimentelle Umgebung

Hardware: 8-Kern Intel Xeon E5-2698 v4 Prozessor, 32 GB RAM
Betriebssystem: Ubuntu 22.04.4 LTS
Statistische Methode: Jede experimentelle Bedingung 10-mal mit zufälliger Initialisierung durchgeführt, Durchschnittswerte berechnet

Anwendungsfall-Validierung

Compliance-Audit für Finanzrisiko-Modelle:

Szenario: Finanzinstitution beweist gegenüber Audit-Unternehmen, dass seine Kreditrisiko-Bewertung vom erklärten genehmigten Modell generiert wurde
Anforderung: Verifizierung der Inferenz-Korrektheit ohne Preisgabe proprietärer Modellparameter
Protokollauswahl: ezkl (nicht-interaktiv, transparentes Setup, Standarddarstellung, Prägnanz, Quantensicherheit)

Experimentelle Ergebnisse

Hauptergebnisse

Feedforward-Neuronales Netz (FNN) Leistungsvergleich:

Protokoll	Beweis-Zeit (ms)	Verifizierungszeit (ms)	Beweis-Größe (Bytes)
SNARK	752	555	805,4
STARK	314.998,1	12,11	280.000
ezkl	492,79	9,80	23.958,9

LeNet5 Leistungsvergleich:

Protokoll	Beweis-Zeit (ms)	Verifizierungszeit (ms)	Beweis-Größe (Bytes)
SNARK	18.788,5	611	804,4
GKR	331,99	91,31	45.718,75
ezkl	65.678,21	100,80	767.120,3

Wichtige Erkenntnisse

Modellabhängigkeit der Protokollauswahl: Das optimale ZKP-Protokoll hängt stark vom spezifischen ML-Modell und den Leistungsmetriken ab
Deutliche Leistungs-Kompromisse:
- ezkl zeigt die beste Leistung bei einfachen Modellen
- SNARK bietet die schnellste Beweis-Generierung bei komplexen Modellen und die kleinste Beweis-Größe
- GKR zeigt überragende Leistung bei speziell optimierten Modellen (LeNet5)
Eignung für asynchrone Audits: Die Verifizierungszeit-Vorteile von ezkl machen es besonders geeignet für asynchrone Audit-Workflows

Praktizitätsvalidierung

Der Finanzanwendungsfall demonstriert erfolgreich die Anwendung des Frameworks in echten regulatorischen Umgebungen:

Audit-Unternehmen müssen nur Schlüssel und Beweis verifizieren
Finanzinstitution muss keine vertraulichen Informationen preisgeben
Der gesamte Prozess ist nachweisbar und schützt geistiges Eigentum

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Technische Machbarkeit: ZKP-Technologie kann effektiv in den MLOps-Lebenszyklus integriert werden und löst den Widerspruch zwischen Audit-Transparenz und Datenschutz
Engineering-Wert: Durch Anwendung von Softwareengineering-Mustern können komplexe kryptographische Prozesse in wartbare Engineering-Praktiken umgewandelt werden
Praktizitätsvalidierung: Der Finanz-Audit-Anwendungsfall beweist die Anwendbarkeit des Frameworks in echten regulatorischen Umgebungen

Einschränkungen

Externe Validität: Die Anwendbarkeit des Frameworks in anderen Regulierungsbereichen (wie Medizin, autonomes Fahren) muss noch verifiziert werden
Bewertungsumfang: Hauptfokus auf die Inferenz-Verifizierungsphase, Bewertung anderer MLOps-Phasen ist relativ begrenzt
Modellgröße: Verwendete Modelle in Experimenten sind relativ klein; Leistungsmerkmale großer Modelle könnten unterschiedlich sein
Protokoll-Reife: Beobachtete Leistung könnte die Reife zugrunde liegender kryptographischer Bibliotheken widerspiegeln statt theoretischer Effizienz

Zukünftige Richtungen

Validierung in echten Umgebungen: Verifizierung der Leistung und Skalierbarkeit des Frameworks durch Industriefallstudien
Funktionale Erweiterung: Implementierung von Audit-Workflows für andere vertrauenswürdige KI-Eigenschaften wie Datensatz-Fairness und Modell-Robustheit
Unterstützung großer Modelle: Optimierung des Frameworks zur Unterstützung großer Sprachmodelle und anderer komplexer KI-Systeme

Tiefgreifende Bewertung

Stärken

Klare Problemdefinition: Genaue Identifikation des grundlegenden Konflikts zwischen Transparenz und Datenschutz beim KI-Auditing
Starke Methoden-Innovation: Erste systematische Engineering-Anwendung von ZKP-Technologie auf MLOps
Ausgezeichnetes Architektur-Design: Angemessene Anwendung von Softwareengineering-Mustern wie hexagonaler Architektur und State-Pattern
Umfassende Experimentelle Gestaltung: Sowohl theoretische Analyse als auch praktische Anwendungsfall-Validierung, sowohl Leistungsbewertung als auch Machbarkeitsnachweise
Hoher praktischer Wert: Löst echte regulatorische Anforderungen mit direktem Anwendungswert

Mängel

Bewertungs-Einschränkungen: Hauptfokus auf Inferenz-Verifizierung; Unterstützung für Training, Datenvorverarbeitung und andere Phasen ist unzureichend
Skalierbarkeits-Fragen: Anwendbarkeit auf großskalige industrielle KI-Systeme muss weiter verifiziert werden
Fehlende Kostenanalyse: Mangel an detaillierter Analyse von Rechenkosten und wirtschaftlichem Nutzen
Unzureichende Sicherheitsüberlegungen: Diskussion der Sicherheitsannahmen von ZKP-Protokollen und potenzieller Angriffsvektoren ist nicht ausreichend tiefgreifend

Auswirkungen

Akademischer Beitrag: Führt neue Forschungsrichtung in MLOps ein und fördert Querschnittsintegration von Kryptographie und Softwaretechnik
Praktischer Wert: Bietet Regulierungsbehörden und Unternehmen umsetzbaren Compliance-Verifizierungslösungen
Technologischer Antrieb: Könnte die Übernahme von ZKP-Technologie in mehr praktischen Anwendungsszenarien fördern

Anwendungsszenarien

Regulatorische Compliance: KI-System-Auditing in stark regulierten Branchen wie Finanzen und Medizin
Schutz geistigen Eigentums: Szenarien, in denen Modell-Leistung verifiziert werden muss, ohne Modelldetails preiszugeben
Multi-Party-Zusammenarbeit: Szenarien wie Federated Learning, die Beitrag-Verifizierung erfordern, aber Datenschutz bewahren müssen
Supply-Chain-Auditing: KI-Service-Provider beweisen Service-Qualität gegenüber Kunden ohne Implementierungsdetails preiszugeben

Literaturverzeichnis

Das Paper zitiert 72 verwandte Arbeiten, hauptsächlich einschließlich:

Grundlagentheorie zu Zero-Knowledge-Beweisen (Goldreich, Blum, etc.)
ZKML-Anwendungsforschung (ZEN, zkCNN, ZKAudit, etc.)
Softwareengineering-Muster (Clean Architecture, Design Patterns, etc.)
Vertrauenswürdige KI und MLOps verwandte Arbeiten (Liu et al., Kreuzberger et al., etc.)

Gesamtbewertung: Dies ist ein hochqualitatives Softwaretechnik-Forschungspapier, das erfolgreich fortschrittliche Kryptographie-Technologie mit praktischen Engineering-Anforderungen verbindet und eine innovative Lösung für KI-System-Auditing bietet. Das Paper leistet bedeutende Beiträge in technischer Innovation, Praktizität und Engineering-Umsetzung und hat wichtige Bedeutung für die Förderung der Entwicklung vertrauenswürdiger KI.