Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic
Approximation Stratifiée Optimisée pour l'Inférence Privée Efficace sur le Chiffrement Entièrement Homomorphe
Cet article propose une méthode d'approximation stratifiée optimisée (OLA) pour réaliser une inférence privée efficace sur le chiffrement entièrement homomorphe (FHE). Cette méthode optimise la perte de précision et la consommation de temps en utilisant des polynômes d'approximation différents pour chaque couche, améliorant significativement l'efficacité de l'inférence dans le scénario d'approximation post-entraînement (PTA). La méthode OLA réduit le temps d'inférence des modèles ResNet-20 et ResNet-32 respectivement de 3,02 fois et 2,82 fois, et remplace avec succès la fonction GELU dans le modèle ConvNeXt par un polynôme de degré 3 uniquement.
Dans l'apprentissage automatique préservant la confidentialité (PPML), le chiffrement entièrement homomorphe (FHE) permet d'effectuer directement des calculs sur des données chiffrées. Cependant, les schémas FHE ne supportent que les opérations arithmétiques élémentaires (addition et multiplication) et ne peuvent pas traiter directement les fonctions d'activation non-arithmétiques (telles que ReLU, GELU, sigmoid, etc.).
Croissance des besoins en confidentialité: Avec le développement du cloud computing, MLaaS (Machine Learning as a Service) doit fournir des services tout en protégeant la confidentialité des données
Exigences de praticité: Les méthodes existantes présentent des temps d'inférence trop longs pour satisfaire les besoins des applications réelles
Compatibilité des modèles: Nécessité de réaliser une inférence privée sans réentraîner les modèles
Face au goulot d'étranglement principal de la méthode PTA — le temps d'inférence excessif — proposer un cadre d'optimisation stratifiée systématique qui équilibre la précision et l'efficacité en utilisant des polynômes d'approximation de degrés différents pour différentes couches.
Proposition du cadre OLA: Première proposition d'une méthode d'approximation stratifiée optimisée pour le scénario PTA, utilisant des polynômes de degrés différents pour chaque couche
Approximation Consciente de la Distribution: Basée sur la méthode des moindres carrés pondérés, considérant la distribution réelle des entrées des fonctions d'activation de chaque couche
Algorithme de Programmation Dynamique: Fournit un algorithme d'optimisation à complexité polynomiale pour résoudre l'allocation optimale des degrés
Amélioration Significative des Performances: Réalise une accélération d'inférence de 2,82 à 3,02 fois sur les modèles ResNet et ConvNeXt
Analyse Théorique: Fournit une base théorique mathématique complète et des preuves de convergence
Entrée: Modèle de réseau de neurones profonds pré-entraîné contenant des fonctions d'activation non-arithmétiques
Sortie: Allocation optimale des degrés polynomiaux pour chaque couche
Contraintes: Budget de temps d'inférence K, seuil de perte de précision
Objectif: Minimiser la variance moyenne de la perte, satisfaire les contraintes de temps
Traitement Différencié Stratifié: Première allocation systématique de degrés polynomiaux différents pour différentes couches
Modélisation de la Distribution d'Entrée: Utilisation de la distribution réelle des données inter-couches plutôt que de distributions théoriques
Approximation Consciente de la Distribution Mise à l'Échelle: Ajustement de la variance de distribution via le paramètre r pour améliorer la précision d'approximation dans les régions de faible probabilité
Gestion de la Chaîne de Moduli: Optimisation des paramètres FHE pour différents degrés, réduisant les frais de bootstrapping
Efficacité de l'Approximation Stratifiée: L'impact différencié de chaque couche sur la précision de classification est confirmé, l'optimisation stratifiée est justifiée
Amélioration de la Praticité: L'accélération significative de l'inférence rapproche l'inférence privée basée sur FHE des applications réelles
Complétude Théorique: Fournit un cadre théorique mathématique complet et un algorithme de résolution efficace
Frais de Prétraitement: Pour les ensembles de données à grande échelle (ImageNet), l'analyse de distribution d'entrée nécessite un temps considérable
Besoins Mémoire: L'algorithme de programmation dynamique consomme une mémoire importante dans les réseaux profonds
Limitation des Fonctions d'Activation: Principalement orienté vers les fonctions d'activation univariées, nécessite une extension pour les fonctions multivariées comme softmax
Complexité Computationnelle: Bien que polynomiale, peut présenter des défis sur les réseaux ultra-larges
Sensibilité aux Paramètres: Le choix du paramètre d'échelle r nécessite un ajustement empirique
Capacité de Généralisation: Principalement validé sur les architectures CNN, l'applicabilité à d'autres architectures nécessite une vérification supplémentaire
Analyse de Sécurité: Manque d'analyse approfondie des risques de sécurité supplémentaires introduits par l'approximation
Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.
Résumé: La méthode OLA proposée dans cet article revêt une importance significative dans le domaine de l'inférence privée basée sur FHE. En optimisant stratifiée, elle améliore considérablement l'efficacité de l'inférence, jetant les bases importantes pour l'application pratique de l'IA préservant la confidentialité. Malgré certaines limitations, son innovation et sa valeur pratique en font une contribution importante dans ce domaine.