Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic
Optimierte schichtweise Approximation für effiziente private Inferenz auf vollständig homomorpher Verschlüsselung
Dieser Artikel präsentiert eine optimierte schichtweise Approximationsmethode (OLA) für effiziente private Inferenz auf vollständig homomorpher Verschlüsselung (FHE). Die Methode optimiert den Genauigkeitsverlust und den Zeitaufwand durch die Verwendung unterschiedlicher Approximationspolynome für jede Schicht im Szenario der Post-Training-Approximation (PTA). Die OLA-Methode reduziert die Inferenzzeit für ResNet-20- und ResNet-32-Modelle um 3,02 bzw. 2,82 Faktoren und ersetzt erfolgreich die GELU-Funktion im ConvNeXt-Modell durch ein Polynom dritten Grades.
Im Bereich des datenschutzgerechten maschinellen Lernens (PPML) ermöglicht vollständig homomorphe Verschlüsselung (FHE) direkte Berechnungen auf verschlüsselten Daten. Allerdings unterstützen FHE-Schemata nur grundlegende arithmetische Operationen (Addition und Multiplikation) und können nicht direkt nicht-arithmetische Aktivierungsfunktionen (wie ReLU, GELU, Sigmoid usw.) verarbeiten.
Wachsender Datenschutzbedarf: Mit der Entwicklung des Cloud Computing benötigt MLaaS (Machine Learning as a Service) Dienste, die Datenschutz gewährleisten
Praktische Anforderungen: Bestehende Methoden erfordern zu lange Inferenzzeiten für praktische Anwendungen
Modellkompatibilität: Erfordernis für private Inferenz ohne Modellumschulung
Zur Behebung des Hauptengpasses der PTA-Methode – der langen Inferenzzeit – wird ein systematisches schichtweises Optimierungsgerüst vorgeschlagen, das durch die Verwendung unterschiedlicher Polynomgrade für verschiedene Schichten Genauigkeit und Effizienz ausbalanciert.
OLA-Rahmenwerk: Erstmalige Vorstellung einer schichtweisen Optimierungsmethode für das PTA-Szenario mit unterschiedlichen Polynomgraden pro Schicht
Verteilungsbewusste Approximation: Basierend auf gewichteter Methode der kleinsten Quadrate unter Berücksichtigung der tatsächlichen Eingabeverteilung von Aktivierungsfunktionen
Dynamischer Programmierungsalgorithmus: Bereitstellung eines Algorithmus mit polynomialer Zeitkomplexität zur Lösung der optimalen Gradverteilung
Erhebliche Leistungssteigerung: Erreichung von 2,82- bis 3,02-facher Inferenzbeschleunigung auf ResNet- und ConvNeXt-Modellen
Theoretische Analyse: Vollständige mathematische Grundlagen und Konvergenzbeweis
Skalierte verteilungsbewusste Approximation: Anpassung der Verteilungsvarianz durch Parameter r zur Verbesserung der Approximationspräzision in Bereichen niedriger Wahrscheinlichkeit
Modulus-Ketten-Management: Optimierung von FHE-Parametern für verschiedene Grade zur Reduzierung von Bootstrapping-Overhead
Effektivität der schichtweisen Approximation: Verschiedene Schichten beeinflussen die Klassifizierungsgenauigkeit tatsächlich unterschiedlich; schichtweise Optimierung ist gerechtfertigt
Verbesserung der Praktikabilität: Erhebliche Inferenzbeschleunigung bringt FHE-basierte PI näher an praktische Anwendungen
Theoretische Vollständigkeit: Bereitstellung eines vollständigen mathematischen Rahmens und eines effizienten Lösungsalgorithmus
Vorverarbeitungs-Overhead: Für große Datensätze (ImageNet) erfordert die Eingabeverteilungsanalyse längere Zeit
Speicheranforderungen: Der Algorithmus der dynamischen Programmierung verursacht höheren Speicherverbrauch in tieferen Netzwerken
Einschränkung auf Aktivierungsfunktionen: Hauptsächlich für univariate Aktivierungsfunktionen; Erweiterung auf multivariate Funktionen wie Softmax erforderlich
Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.
Zusammenfassung: Die in diesem Artikel vorgeschlagene OLA-Methode hat große Bedeutung im Bereich der FHE-basierten privaten Inferenz. Durch schichtweise Optimierung wird die Inferenzeffizienz erheblich verbessert und eine wichtige Grundlage für praktische Anwendungen datenschutzgerechter KI geschaffen. Trotz einiger Einschränkungen machen ihre Innovativität und praktischer Wert sie zu einem wichtigen Beitrag in diesem Bereich.