2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic

Optimierte schichtweise Approximation für effiziente private Inferenz auf vollständig homomorpher Verschlüsselung

Grundinformationen

  • Paper-ID: 2310.10349
  • Titel: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
  • Autoren: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
  • Klassifizierung: cs.CR (Kryptographie und Sicherheit), cs.AI (Künstliche Intelligenz)
  • Veröffentlichungsdatum: Oktober 2023 (arXiv v4: 14. Oktober 2025)
  • Paper-Link: https://arxiv.org/abs/2310.10349

Zusammenfassung

Dieser Artikel präsentiert eine optimierte schichtweise Approximationsmethode (OLA) für effiziente private Inferenz auf vollständig homomorpher Verschlüsselung (FHE). Die Methode optimiert den Genauigkeitsverlust und den Zeitaufwand durch die Verwendung unterschiedlicher Approximationspolynome für jede Schicht im Szenario der Post-Training-Approximation (PTA). Die OLA-Methode reduziert die Inferenzzeit für ResNet-20- und ResNet-32-Modelle um 3,02 bzw. 2,82 Faktoren und ersetzt erfolgreich die GELU-Funktion im ConvNeXt-Modell durch ein Polynom dritten Grades.

Forschungshintergrund und Motivation

Problemdefinition

Im Bereich des datenschutzgerechten maschinellen Lernens (PPML) ermöglicht vollständig homomorphe Verschlüsselung (FHE) direkte Berechnungen auf verschlüsselten Daten. Allerdings unterstützen FHE-Schemata nur grundlegende arithmetische Operationen (Addition und Multiplikation) und können nicht direkt nicht-arithmetische Aktivierungsfunktionen (wie ReLU, GELU, Sigmoid usw.) verarbeiten.

Bedeutung des Problems

  1. Wachsender Datenschutzbedarf: Mit der Entwicklung des Cloud Computing benötigt MLaaS (Machine Learning as a Service) Dienste, die Datenschutz gewährleisten
  2. Praktische Anforderungen: Bestehende Methoden erfordern zu lange Inferenzzeiten für praktische Anwendungen
  3. Modellkompatibilität: Erfordernis für private Inferenz ohne Modellumschulung

Einschränkungen bestehender Methoden

  1. AAT-Methode: Erfordert Modellumschulung und zeigt schlechte Leistung bei großen Datensätzen
  2. PTA-Methode: Verwendet einheitliche hochgradige Polynomapproximation für alle Schichten, was zu langen Inferenzzeiten führt
  3. Recheneffizienz: Bestehende Methoden berücksichtigen nicht den unterschiedlichen Einfluss verschiedener Schichten auf die Klassifizierungsgenauigkeit

Forschungsmotivation

Zur Behebung des Hauptengpasses der PTA-Methode – der langen Inferenzzeit – wird ein systematisches schichtweises Optimierungsgerüst vorgeschlagen, das durch die Verwendung unterschiedlicher Polynomgrade für verschiedene Schichten Genauigkeit und Effizienz ausbalanciert.

Kernbeiträge

  1. OLA-Rahmenwerk: Erstmalige Vorstellung einer schichtweisen Optimierungsmethode für das PTA-Szenario mit unterschiedlichen Polynomgraden pro Schicht
  2. Verteilungsbewusste Approximation: Basierend auf gewichteter Methode der kleinsten Quadrate unter Berücksichtigung der tatsächlichen Eingabeverteilung von Aktivierungsfunktionen
  3. Dynamischer Programmierungsalgorithmus: Bereitstellung eines Algorithmus mit polynomialer Zeitkomplexität zur Lösung der optimalen Gradverteilung
  4. Erhebliche Leistungssteigerung: Erreichung von 2,82- bis 3,02-facher Inferenzbeschleunigung auf ResNet- und ConvNeXt-Modellen
  5. Theoretische Analyse: Vollständige mathematische Grundlagen und Konvergenzbeweis

Methodische Details

Aufgabendefinition

Eingabe: Vortrainiertes tiefes neuronales Netzwerk mit nicht-arithmetischen Aktivierungsfunktionen Ausgabe: Optimale Polynomgradverteilung für jede Schicht Einschränkungen: Inferenzzeit-Budget K, Genauigkeitsverlust-Schwellenwert Ziel: Minimierung der durchschnittlichen Verlust-Varianz unter Einhaltung von Zeitbeschränkungen

Modellarchitektur

1. Verteilungsbewusste Approximation (Theorem 1)

Für eine Aktivierungsfunktion f(x) und Eingabeverteilung φ(x) ist das optimale d-Grad-Approximationspolynom:

P_φ[d; f](x) = Σ(l=0 to d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

wobei {h_l(x)} eine orthogonale Polynombasis durch das Gram-Schmidt-Verfahren ist.

2. Modellierung der durchschnittlichen Verlust-Varianz

Der Approximationsfehler wird als Zufallsvariable behandelt, wobei die Varianz der Verlustfunktion:

Var[ΔL] = Σ(i=1 to N_L) A_i E_φi[d_i; f]

wobei:

  • A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²: Einflussgewicht der i-ten Schicht auf Genauigkeit
  • E_φid_i; f: Minimales MSE der i-ten Schicht

3. Optimierungsproblem-Formulierung

minimize: V(d) = Σ(i=1 to N_L) A_i E_i(d_i)
subject to: T(d) = Σ(i=1 to N_L) T_i(d_i) ≤ K

4. Lösung durch dynamische Programmierung (Algorithmus 1)

  • Zeitkomplexität: O(N_L × N_K × |S|)
  • Speicherkomplexität: O(N_L × N_K)
  • Rekursionsbeziehung: P(l+1,k) basiert auf optimalen Lösungen von {P(l,k')}

Technische Innovationen

  1. Schichtweise Differenzierung: Erstmalige systematische Zuweisung unterschiedlicher Polynomgrade für verschiedene Schichten
  2. Eingabeverteilungsmodellierung: Verwendung tatsächlicher Zwischenschicht-Datenverteilungen statt theoretischer Verteilungen
  3. Skalierte verteilungsbewusste Approximation: Anpassung der Verteilungsvarianz durch Parameter r zur Verbesserung der Approximationspräzision in Bereichen niedriger Wahrscheinlichkeit
  4. Modulus-Ketten-Management: Optimierung von FHE-Parametern für verschiedene Grade zur Reduzierung von Bootstrapping-Overhead

Experimentelle Einrichtung

Datensätze

  • CIFAR-10/100: Kleine Bildklassifizierungsdatensätze
  • ImageNet: Großer Bildklassifizierungsdatensatz
  • Vorverarbeitung: Normalisierung und Datenerweiterung

Bewertungsmetriken

  • Inferenzzeit: Tatsächliche Ausführungszeit in FHE-Umgebung
  • Top-1-Genauigkeit: Klassifizierungsgenauigkeit
  • τ(d): Diskretisiertes Verzögerungsmaß
  • Beschleunigungsfaktor: Zeitreduktion relativ zur Baseline

Vergleichsmethoden

  • Minimax-Approximation: Lee et al. 4 zusammengesetzte Minimax-Polynommethode
  • Einheitlicher Grad-Ansatz: Alle Schichten verwenden denselben Polynomgrad
  • AAT-Methode: HyPHEN, DeepReDuce und andere Umschulungsmethoden

Implementierungsdetails

  • FHE-Schema: RNS-CKKS
  • Sicherheitsstufe: 128-Bit
  • Gradsuchraum: S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
  • Diskretisierungseinheit: ν = 1/4
  • Bibliothek: Lattigo v3.0.5

Experimentelle Ergebnisse

Hauptergebnisse

ModellDatensatzMethodeGenauigkeit (%)τ(d)Beschleunigung
ResNet-20CIFAR-10Minimax91,552.788-
ResNet-20CIFAR-10OLA90,691.1062,52×
ResNet-32CIFAR-10Minimax92,454.624-
ResNet-32CIFAR-10OLA91,691.9272,40×

FHE-Testergebnisse in der Praxis:

  • ResNet-20: Inferenzzeit von 1.231s auf 407s reduziert (3,02× Beschleunigung)
  • ResNet-32: Inferenzzeit von 1.913s auf 679s reduziert (2,82× Beschleunigung)

Ablationsstudien

KomponenteVerteilungsbewusstDynamische ProgrammierungResNet-20 τ(d)ResNet-110 τ(d)
Basis1.44021.172
+Verteilungsbewusst1.14210.725
+Dynamische Programmierung1.1069.448

Erkenntnisse:

  • Verteilungsbewusste Approximation trägt zur größten Leistungssteigerung bei
  • Dynamische Programmierung zeigt größere Effektivität in tieferen Netzwerken (ResNet-110 Reduktion um 11,91%)

ConvNeXt-Modellergebnisse

  • ConvNeXt-T (CIFAR-10): Erreichung von 91,42% Genauigkeit mit nur Polynom dritten Grades
  • ConvNeXt-S (ImageNet): Erreichung von 84,64% Genauigkeit mit Polynomgraden ≤31

Analyse des Vorverarbeitungs-Overhead

DatensatzModellEingabeverteilungsanalyse (s)Dynamische Programmierung (s)
CIFAR-10ResNet-208,127,76
CIFAR-10ResNet-11017,97773,07
ImageNetResNet-189.510,946,23

Verwandte Arbeiten

Forschungsrichtungen im HE-basierten PPML

  1. PTA-Methode: Lee et al. 4,5, Kim et al. 6 - Fokus auf lineare Operationsoptimierung
  2. AAT-Methode: HyPHEN 17, DeepReDuce 43 - Erfordert Modellumschulung
  3. Hybridmethoden: Kombination von HE und MPC-Schemata

Behandlung nicht-arithmetischer Operationen

  1. TFHE-Schema: Unterstützt Bitoperationen, großer Speicher-Overhead
  2. CKKS-Schema: Unterstützt Verpackung, erfordert Funktionsapproximation
  3. Polynomapproximation: Minimax-, Methode der kleinsten Quadrate und andere Verfahren

Vorteile dieses Artikels

  • Erstmalige Vorstellung eines systematischen schichtweisen Optimierungsrahmens
  • Vollständige theoretische Grundlagen mit umfassender experimenteller Validierung
  • Erhebliche Leistungssteigerung im PTA-Szenario

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Effektivität der schichtweisen Approximation: Verschiedene Schichten beeinflussen die Klassifizierungsgenauigkeit tatsächlich unterschiedlich; schichtweise Optimierung ist gerechtfertigt
  2. Verbesserung der Praktikabilität: Erhebliche Inferenzbeschleunigung bringt FHE-basierte PI näher an praktische Anwendungen
  3. Theoretische Vollständigkeit: Bereitstellung eines vollständigen mathematischen Rahmens und eines effizienten Lösungsalgorithmus

Einschränkungen

  1. Vorverarbeitungs-Overhead: Für große Datensätze (ImageNet) erfordert die Eingabeverteilungsanalyse längere Zeit
  2. Speicheranforderungen: Der Algorithmus der dynamischen Programmierung verursacht höheren Speicherverbrauch in tieferen Netzwerken
  3. Einschränkung auf Aktivierungsfunktionen: Hauptsächlich für univariate Aktivierungsfunktionen; Erweiterung auf multivariate Funktionen wie Softmax erforderlich

Zukünftige Richtungen

  1. Transformer-Unterstützung: Erweiterung auf private Inferenz großer Sprachmodelle
  2. Multivariate Funktionen: Entwicklung von Approximationsmethoden für Softmax und ähnliche Funktionen
  3. Adaptive Optimierung: Dynamische Anpassung der Approximationsstrategie basierend auf Hardwareressourcen
  4. Integration mit föderiertem Lernen: Kombination mit anderen Datenschutztechniken

Tiefgreifende Bewertung

Stärken

  1. Hohe Innovativität: Erstmalige systematische Lösung des schichtweisen Optimierungsproblems in PTA
  2. Solide theoretische Grundlagen: Strenge mathematische Herleitung und vollständige Theorembeweise
  3. Umfassende Experimente: Vollständige Validierung über mehrere Datensätze und Modellarchitekturen
  4. Hoher praktischer Wert: Erhebliche Leistungssteigerung macht die Methode für praktische Anwendungen geeignet
  5. Klare Darstellung: Logische Papierstruktur und präzise technische Beschreibung

Mängel

  1. Rechenkomplexität: Obwohl polynomiale Zeit, können Herausforderungen bei übergroßen Netzwerken auftreten
  2. Parameterempfindlichkeit: Auswahl des Skalierungsparameters r erfordert empirische Abstimmung
  3. Generalisierungsfähigkeit: Hauptsächlich auf CNN-Architekturen validiert; Anwendbarkeit auf andere Architekturen bedarf weiterer Untersuchung
  4. Sicherheitsanalyse: Mangelnde tiefgreifende Analyse zusätzlicher Sicherheitsrisiken durch Approximation

Auswirkungen

  1. Akademischer Beitrag: Neue Optimierungsideen für das FHE-basierte PPML-Feld
  2. Praktischer Wert: Wichtiger Schritt zur Umsetzung von datenschutzgerechter KI in praktischen Anwendungen
  3. Reproduzierbarkeit: Detaillierte Implementierungsdetails und Open-Source-Zusagen
  4. Inspirationswert: Schichtweise Optimierungsideen sind auf andere Datenschutzszenarien übertragbar

Anwendungsszenarien

  1. Cloud-AI-Dienste: Machine-Learning-Dienste, die Datenschutz gewährleisten müssen
  2. Medizinische KI: Diagnosesysteme mit sensiblen medizinischen Daten
  3. Finanzielle Risikokontrolle: Datenschutzgerechte Kreditbewertung und Risikoanalyse
  4. Föderiertes Lernen: Ergänzungstechnologie für sichere Aggregation

Literaturverzeichnis

  1. Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
  2. Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
  3. Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
  4. Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

Zusammenfassung: Die in diesem Artikel vorgeschlagene OLA-Methode hat große Bedeutung im Bereich der FHE-basierten privaten Inferenz. Durch schichtweise Optimierung wird die Inferenzeffizienz erheblich verbessert und eine wichtige Grundlage für praktische Anwendungen datenschutzgerechter KI geschaffen. Trotz einiger Einschränkungen machen ihre Innovativität und praktischer Wert sie zu einem wichtigen Beitrag in diesem Bereich.