2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic

Approximation Stratifiée Optimisée pour l'Inférence Privée Efficace sur le Chiffrement Entièrement Homomorphe

Informations Fondamentales

  • Identifiant de l'article: 2310.10349
  • Titre: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
  • Auteurs: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
  • Classification: cs.CR (Cryptographie et Sécurité), cs.AI (Intelligence Artificielle)
  • Date de publication: Octobre 2023 (arXiv v4: 14 octobre 2025)
  • Lien de l'article: https://arxiv.org/abs/2310.10349

Résumé

Cet article propose une méthode d'approximation stratifiée optimisée (OLA) pour réaliser une inférence privée efficace sur le chiffrement entièrement homomorphe (FHE). Cette méthode optimise la perte de précision et la consommation de temps en utilisant des polynômes d'approximation différents pour chaque couche, améliorant significativement l'efficacité de l'inférence dans le scénario d'approximation post-entraînement (PTA). La méthode OLA réduit le temps d'inférence des modèles ResNet-20 et ResNet-32 respectivement de 3,02 fois et 2,82 fois, et remplace avec succès la fonction GELU dans le modèle ConvNeXt par un polynôme de degré 3 uniquement.

Contexte de Recherche et Motivation

Définition du Problème

Dans l'apprentissage automatique préservant la confidentialité (PPML), le chiffrement entièrement homomorphe (FHE) permet d'effectuer directement des calculs sur des données chiffrées. Cependant, les schémas FHE ne supportent que les opérations arithmétiques élémentaires (addition et multiplication) et ne peuvent pas traiter directement les fonctions d'activation non-arithmétiques (telles que ReLU, GELU, sigmoid, etc.).

Importance du Problème

  1. Croissance des besoins en confidentialité: Avec le développement du cloud computing, MLaaS (Machine Learning as a Service) doit fournir des services tout en protégeant la confidentialité des données
  2. Exigences de praticité: Les méthodes existantes présentent des temps d'inférence trop longs pour satisfaire les besoins des applications réelles
  3. Compatibilité des modèles: Nécessité de réaliser une inférence privée sans réentraîner les modèles

Limitations des Méthodes Existantes

  1. Méthode AAT: Nécessite un réentraînement du modèle et présente des résultats médiocres sur les ensembles de données à grande échelle
  2. Méthode PTA: Utilise une approximation polynomiale uniforme de haut degré pour toutes les couches, entraînant des temps d'inférence excessifs
  3. Efficacité computationnelle: Les méthodes existantes ne considèrent pas l'impact différencié de chaque couche sur la précision de la classification

Motivation de la Recherche

Face au goulot d'étranglement principal de la méthode PTA — le temps d'inférence excessif — proposer un cadre d'optimisation stratifiée systématique qui équilibre la précision et l'efficacité en utilisant des polynômes d'approximation de degrés différents pour différentes couches.

Contributions Principales

  1. Proposition du cadre OLA: Première proposition d'une méthode d'approximation stratifiée optimisée pour le scénario PTA, utilisant des polynômes de degrés différents pour chaque couche
  2. Approximation Consciente de la Distribution: Basée sur la méthode des moindres carrés pondérés, considérant la distribution réelle des entrées des fonctions d'activation de chaque couche
  3. Algorithme de Programmation Dynamique: Fournit un algorithme d'optimisation à complexité polynomiale pour résoudre l'allocation optimale des degrés
  4. Amélioration Significative des Performances: Réalise une accélération d'inférence de 2,82 à 3,02 fois sur les modèles ResNet et ConvNeXt
  5. Analyse Théorique: Fournit une base théorique mathématique complète et des preuves de convergence

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Modèle de réseau de neurones profonds pré-entraîné contenant des fonctions d'activation non-arithmétiques Sortie: Allocation optimale des degrés polynomiaux pour chaque couche Contraintes: Budget de temps d'inférence K, seuil de perte de précision Objectif: Minimiser la variance moyenne de la perte, satisfaire les contraintes de temps

Architecture du Modèle

1. Approximation Consciente de la Distribution (Théorème 1)

Pour une fonction d'activation f(x) et une distribution d'entrée φ(x), le polynôme d'approximation optimal de degré d est:

P_φ[d; f](x) = Σ(l=0 to d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

où {h_l(x)} est une base polynomiale orthogonale obtenue par le processus de Gram-Schmidt.

2. Modélisation de la Variance de Perte Moyenne

En considérant l'erreur d'approximation comme une variable aléatoire, la fonction de perte a une variance:

Var[ΔL] = Σ(i=1 to N_L) A_i E_φi[d_i; f]

où:

  • A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²: poids d'influence de la couche i sur la précision
  • E_φid_i; f: MSE minimisée de la couche i

3. Formulation du Problème d'Optimisation

minimiser: V(d) = Σ(i=1 to N_L) A_i E_i(d_i)
sous contrainte: T(d) = Σ(i=1 to N_L) T_i(d_i) ≤ K

4. Résolution par Programmation Dynamique (Algorithme 1)

  • Complexité temporelle: O(N_L × N_K × |S|)
  • Complexité spatiale: O(N_L × N_K)
  • Relation de récurrence: P(l+1,k) construite à partir des solutions optimales de {P(l,k')}

Points d'Innovation Technique

  1. Traitement Différencié Stratifié: Première allocation systématique de degrés polynomiaux différents pour différentes couches
  2. Modélisation de la Distribution d'Entrée: Utilisation de la distribution réelle des données inter-couches plutôt que de distributions théoriques
  3. Approximation Consciente de la Distribution Mise à l'Échelle: Ajustement de la variance de distribution via le paramètre r pour améliorer la précision d'approximation dans les régions de faible probabilité
  4. Gestion de la Chaîne de Moduli: Optimisation des paramètres FHE pour différents degrés, réduisant les frais de bootstrapping

Configuration Expérimentale

Ensembles de Données

  • CIFAR-10/100: Ensembles de données de classification d'images à petite échelle
  • ImageNet: Ensemble de données de classification d'images à grande échelle
  • Prétraitement: Normalisation et augmentation de données

Indicateurs d'Évaluation

  • Temps d'inférence: Temps d'exécution réel dans l'environnement FHE
  • Précision Top-1: Précision de classification
  • τ(d): Indicateur de délai discrétisé
  • Ratio d'accélération: Réduction de temps relative à la ligne de base

Méthodes de Comparaison

  • Approximation Minimax: Méthode polynomiale minimax composite de Lee et al. 4
  • Méthode de Degré Uniforme: Utilisation du même degré polynomial pour toutes les couches
  • Méthode AAT: HyPHEN, DeepReDuce et autres méthodes de réentraînement

Détails d'Implémentation

  • Schéma FHE: RNS-CKKS
  • Niveau de sécurité: 128-bit
  • Espace de recherche des degrés: S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
  • Unité de discrétisation: ν = 1/4
  • Bibliothèque: Lattigo v3.0.5

Résultats Expérimentaux

Résultats Principaux

ModèleEnsemble de DonnéesMéthodePrécision(%)τ(d)Ratio d'Accélération
ResNet-20CIFAR-10Minimax91,552 788-
ResNet-20CIFAR-10OLA90,691 1062,52×
ResNet-32CIFAR-10Minimax92,454 624-
ResNet-32CIFAR-10OLA91,691 9272,40×

Résultats des Tests FHE Réels:

  • ResNet-20: Temps d'inférence réduit de 1 231s à 407s (accélération 3,02×)
  • ResNet-32: Temps d'inférence réduit de 1 913s à 679s (accélération 2,82×)

Expériences d'Ablation

ComposantConscient de la DistributionProgrammation DynamiqueResNet-20 τ(d)ResNet-110 τ(d)
Baseline1 44021 172
+Conscient de la Distribution1 14210 725
+Programmation Dynamique1 1069 448

Découvertes:

  • L'approximation consciente de la distribution contribue à l'amélioration de performance la plus importante
  • La programmation dynamique est plus efficace dans les réseaux profonds (réduction de 11,91% pour ResNet-110)

Résultats du Modèle ConvNeXt

  • ConvNeXt-T (CIFAR-10): Réalise 91,42% de précision avec un polynôme de degré 3 uniquement
  • ConvNeXt-S (ImageNet): Réalise 84,64% de précision avec des polynômes de degré ≤ 31

Analyse des Frais de Prétraitement

Ensemble de DonnéesModèleAnalyse de Distribution d'Entrée(s)Programmation Dynamique(s)
CIFAR-10ResNet-208,127,76
CIFAR-10ResNet-11017,97773,07
ImageNetResNet-189 510,946,23

Travaux Connexes

Directions de Recherche en PPML Basée sur HE

  1. Méthode PTA: Lee et al. 4,5, Kim et al. 6 - Focalisés sur l'optimisation des opérations linéaires
  2. Méthode AAT: HyPHEN 17, DeepReDuce 43 - Nécessitent un réentraînement du modèle
  3. Méthodes Hybrides: Schémas combinant HE et MPC

Traitement des Opérations Non-Arithmétiques

  1. Schéma TFHE: Supporte les opérations bit, frais mémoire importants
  2. Schéma CKKS: Supporte l'empaquetage, nécessite une approximation de fonction
  3. Approximation Polynomiale: Méthodes minimax, moindres carrés, etc.

Avantages de cet Article

  • Première proposition d'un cadre systématique d'optimisation stratifiée
  • Fondations théoriques complètes, vérification expérimentale suffisante
  • Amélioration significative des performances dans le scénario PTA

Conclusion et Discussion

Conclusions Principales

  1. Efficacité de l'Approximation Stratifiée: L'impact différencié de chaque couche sur la précision de classification est confirmé, l'optimisation stratifiée est justifiée
  2. Amélioration de la Praticité: L'accélération significative de l'inférence rapproche l'inférence privée basée sur FHE des applications réelles
  3. Complétude Théorique: Fournit un cadre théorique mathématique complet et un algorithme de résolution efficace

Limitations

  1. Frais de Prétraitement: Pour les ensembles de données à grande échelle (ImageNet), l'analyse de distribution d'entrée nécessite un temps considérable
  2. Besoins Mémoire: L'algorithme de programmation dynamique consomme une mémoire importante dans les réseaux profonds
  3. Limitation des Fonctions d'Activation: Principalement orienté vers les fonctions d'activation univariées, nécessite une extension pour les fonctions multivariées comme softmax

Directions Futures

  1. Support des Transformers: Extension à l'inférence privée des grands modèles de langage
  2. Fonctions Multivariées: Développement de méthodes d'approximation pour les fonctions comme softmax
  3. Optimisation Adaptative: Ajustement dynamique des stratégies d'approximation selon les ressources matérielles
  4. Intégration d'Apprentissage Fédéré: Combinaison avec d'autres techniques de protection de la confidentialité

Évaluation Approfondie

Points Forts

  1. Innovation Forte: Première résolution systématique du problème d'optimisation stratifiée en PTA
  2. Théorie Solide: Dérivations mathématiques rigoureuses, preuves de théorèmes complètes
  3. Expérimentation Complète: Vérification exhaustive sur plusieurs ensembles de données et architectures de modèles
  4. Valeur Pratique Élevée: L'amélioration significative des performances rend la méthode applicable en pratique
  5. Rédaction Claire: Structure d'article rationnelle, description précise des détails techniques

Insuffisances

  1. Complexité Computationnelle: Bien que polynomiale, peut présenter des défis sur les réseaux ultra-larges
  2. Sensibilité aux Paramètres: Le choix du paramètre d'échelle r nécessite un ajustement empirique
  3. Capacité de Généralisation: Principalement validé sur les architectures CNN, l'applicabilité à d'autres architectures nécessite une vérification supplémentaire
  4. Analyse de Sécurité: Manque d'analyse approfondie des risques de sécurité supplémentaires introduits par l'approximation

Impact

  1. Contribution Académique: Fournit une nouvelle perspective d'optimisation pour le domaine du PPML basé sur FHE
  2. Valeur Pratique: Avancée importante vers l'application réelle de l'IA préservant la confidentialité
  3. Reproductibilité: Fournit des détails d'implémentation détaillés et engagement d'open-source
  4. Signification Inspirante: L'idée d'optimisation stratifiée peut s'étendre à d'autres scénarios de calcul privé

Scénarios Applicables

  1. Services IA en Cloud: Services d'apprentissage automatique nécessitant la protection de la confidentialité des données utilisateur
  2. IA Médicale: Systèmes de diagnostic traitant des données médicales sensibles
  3. Contrôle des Risques Financiers: Évaluation de crédit et analyse des risques préservant la confidentialité
  4. Apprentissage Fédéré: Technologie complémentaire pour l'agrégation sécurisée

Références

  1. Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
  2. Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
  3. Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
  4. Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

Résumé: La méthode OLA proposée dans cet article revêt une importance significative dans le domaine de l'inférence privée basée sur FHE. En optimisant stratifiée, elle améliore considérablement l'efficacité de l'inférence, jetant les bases importantes pour l'application pratique de l'IA préservant la confidentialité. Malgré certaines limitations, son innovation et sa valeur pratique en font une contribution importante dans ce domaine.