2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.

Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.

academic

Approximation Stratifiée Optimisée pour l'Inférence Privée Efficace sur le Chiffrement Entièrement Homomorphe

Informations Fondamentales

Identifiant de l'article: 2310.10349
Titre: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
Auteurs: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
Classification: cs.CR (Cryptographie et Sécurité), cs.AI (Intelligence Artificielle)
Date de publication: Octobre 2023 (arXiv v4: 14 octobre 2025)
Lien de l'article: https://arxiv.org/abs/2310.10349

Résumé

Cet article propose une méthode d'approximation stratifiée optimisée (OLA) pour réaliser une inférence privée efficace sur le chiffrement entièrement homomorphe (FHE). Cette méthode optimise la perte de précision et la consommation de temps en utilisant des polynômes d'approximation différents pour chaque couche, améliorant significativement l'efficacité de l'inférence dans le scénario d'approximation post-entraînement (PTA). La méthode OLA réduit le temps d'inférence des modèles ResNet-20 et ResNet-32 respectivement de 3,02 fois et 2,82 fois, et remplace avec succès la fonction GELU dans le modèle ConvNeXt par un polynôme de degré 3 uniquement.

Contexte de Recherche et Motivation

Définition du Problème

Dans l'apprentissage automatique préservant la confidentialité (PPML), le chiffrement entièrement homomorphe (FHE) permet d'effectuer directement des calculs sur des données chiffrées. Cependant, les schémas FHE ne supportent que les opérations arithmétiques élémentaires (addition et multiplication) et ne peuvent pas traiter directement les fonctions d'activation non-arithmétiques (telles que ReLU, GELU, sigmoid, etc.).

Importance du Problème

Croissance des besoins en confidentialité: Avec le développement du cloud computing, MLaaS (Machine Learning as a Service) doit fournir des services tout en protégeant la confidentialité des données
Exigences de praticité: Les méthodes existantes présentent des temps d'inférence trop longs pour satisfaire les besoins des applications réelles
Compatibilité des modèles: Nécessité de réaliser une inférence privée sans réentraîner les modèles

Limitations des Méthodes Existantes

Méthode AAT: Nécessite un réentraînement du modèle et présente des résultats médiocres sur les ensembles de données à grande échelle
Méthode PTA: Utilise une approximation polynomiale uniforme de haut degré pour toutes les couches, entraînant des temps d'inférence excessifs
Efficacité computationnelle: Les méthodes existantes ne considèrent pas l'impact différencié de chaque couche sur la précision de la classification

Motivation de la Recherche

Face au goulot d'étranglement principal de la méthode PTA — le temps d'inférence excessif — proposer un cadre d'optimisation stratifiée systématique qui équilibre la précision et l'efficacité en utilisant des polynômes d'approximation de degrés différents pour différentes couches.

Contributions Principales

Proposition du cadre OLA: Première proposition d'une méthode d'approximation stratifiée optimisée pour le scénario PTA, utilisant des polynômes de degrés différents pour chaque couche
Approximation Consciente de la Distribution: Basée sur la méthode des moindres carrés pondérés, considérant la distribution réelle des entrées des fonctions d'activation de chaque couche
Algorithme de Programmation Dynamique: Fournit un algorithme d'optimisation à complexité polynomiale pour résoudre l'allocation optimale des degrés
Amélioration Significative des Performances: Réalise une accélération d'inférence de 2,82 à 3,02 fois sur les modèles ResNet et ConvNeXt
Analyse Théorique: Fournit une base théorique mathématique complète et des preuves de convergence

Explication Détaillée de la Méthode

Définition de la Tâche

Entrée: Modèle de réseau de neurones profonds pré-entraîné contenant des fonctions d'activation non-arithmétiques Sortie: Allocation optimale des degrés polynomiaux pour chaque couche Contraintes: Budget de temps d'inférence K, seuil de perte de précision Objectif: Minimiser la variance moyenne de la perte, satisfaire les contraintes de temps

Architecture du Modèle

1. Approximation Consciente de la Distribution (Théorème 1)

Pour une fonction d'activation f(x) et une distribution d'entrée φ(x), le polynôme d'approximation optimal de degré d est:

P_φ[d; f](x) = Σ(l=0 to d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

où {h_l(x)} est une base polynomiale orthogonale obtenue par le processus de Gram-Schmidt.

2. Modélisation de la Variance de Perte Moyenne

En considérant l'erreur d'approximation comme une variable aléatoire, la fonction de perte a une variance:

Var[ΔL] = Σ(i=1 to N_L) A_i E_φi[d_i; f]

où:

A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²: poids d'influence de la couche i sur la précision
E_φid_i; f: MSE minimisée de la couche i

3. Formulation du Problème d'Optimisation

minimiser: V(d) = Σ(i=1 to N_L) A_i E_i(d_i)
sous contrainte: T(d) = Σ(i=1 to N_L) T_i(d_i) ≤ K

4. Résolution par Programmation Dynamique (Algorithme 1)

Complexité temporelle: O(N_L × N_K × |S|)
Complexité spatiale: O(N_L × N_K)
Relation de récurrence: P(l+1,k) construite à partir des solutions optimales de {P(l,k')}

Points d'Innovation Technique

Traitement Différencié Stratifié: Première allocation systématique de degrés polynomiaux différents pour différentes couches
Modélisation de la Distribution d'Entrée: Utilisation de la distribution réelle des données inter-couches plutôt que de distributions théoriques
Approximation Consciente de la Distribution Mise à l'Échelle: Ajustement de la variance de distribution via le paramètre r pour améliorer la précision d'approximation dans les régions de faible probabilité
Gestion de la Chaîne de Moduli: Optimisation des paramètres FHE pour différents degrés, réduisant les frais de bootstrapping

Configuration Expérimentale

Ensembles de Données

CIFAR-10/100: Ensembles de données de classification d'images à petite échelle
ImageNet: Ensemble de données de classification d'images à grande échelle
Prétraitement: Normalisation et augmentation de données

Indicateurs d'Évaluation

Temps d'inférence: Temps d'exécution réel dans l'environnement FHE
Précision Top-1: Précision de classification
τ(d): Indicateur de délai discrétisé
Ratio d'accélération: Réduction de temps relative à la ligne de base

Méthodes de Comparaison

Approximation Minimax: Méthode polynomiale minimax composite de Lee et al. 4
Méthode de Degré Uniforme: Utilisation du même degré polynomial pour toutes les couches
Méthode AAT: HyPHEN, DeepReDuce et autres méthodes de réentraînement

Détails d'Implémentation

Schéma FHE: RNS-CKKS
Niveau de sécurité: 128-bit
Espace de recherche des degrés: S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
Unité de discrétisation: ν = 1/4
Bibliothèque: Lattigo v3.0.5

Résultats Expérimentaux

Résultats Principaux

Modèle	Ensemble de Données	Méthode	Précision(%)	τ(d)	Ratio d'Accélération
ResNet-20	CIFAR-10	Minimax	91,55	2 788	-
ResNet-20	CIFAR-10	OLA	90,69	1 106	2,52×
ResNet-32	CIFAR-10	Minimax	92,45	4 624	-
ResNet-32	CIFAR-10	OLA	91,69	1 927	2,40×

Résultats des Tests FHE Réels:

ResNet-20: Temps d'inférence réduit de 1 231s à 407s (accélération 3,02×)
ResNet-32: Temps d'inférence réduit de 1 913s à 679s (accélération 2,82×)

Expériences d'Ablation

Composant	Conscient de la Distribution	Programmation Dynamique	ResNet-20 τ(d)	ResNet-110 τ(d)
Baseline	✗	✗	1 440	21 172
+Conscient de la Distribution	✓	✗	1 142	10 725
+Programmation Dynamique	✓	✓	1 106	9 448

Découvertes:

L'approximation consciente de la distribution contribue à l'amélioration de performance la plus importante
La programmation dynamique est plus efficace dans les réseaux profonds (réduction de 11,91% pour ResNet-110)

Résultats du Modèle ConvNeXt

ConvNeXt-T (CIFAR-10): Réalise 91,42% de précision avec un polynôme de degré 3 uniquement
ConvNeXt-S (ImageNet): Réalise 84,64% de précision avec des polynômes de degré ≤ 31

Analyse des Frais de Prétraitement

Ensemble de Données	Modèle	Analyse de Distribution d'Entrée(s)	Programmation Dynamique(s)
CIFAR-10	ResNet-20	8,12	7,76
CIFAR-10	ResNet-110	17,97	773,07
ImageNet	ResNet-18	9 510,94	6,23

Travaux Connexes

Directions de Recherche en PPML Basée sur HE

Méthode PTA: Lee et al. 4,5, Kim et al. 6 - Focalisés sur l'optimisation des opérations linéaires
Méthode AAT: HyPHEN 17, DeepReDuce 43 - Nécessitent un réentraînement du modèle
Méthodes Hybrides: Schémas combinant HE et MPC

Traitement des Opérations Non-Arithmétiques

Schéma TFHE: Supporte les opérations bit, frais mémoire importants
Schéma CKKS: Supporte l'empaquetage, nécessite une approximation de fonction
Approximation Polynomiale: Méthodes minimax, moindres carrés, etc.

Avantages de cet Article

Première proposition d'un cadre systématique d'optimisation stratifiée
Fondations théoriques complètes, vérification expérimentale suffisante
Amélioration significative des performances dans le scénario PTA

Conclusion et Discussion

Conclusions Principales

Efficacité de l'Approximation Stratifiée: L'impact différencié de chaque couche sur la précision de classification est confirmé, l'optimisation stratifiée est justifiée
Amélioration de la Praticité: L'accélération significative de l'inférence rapproche l'inférence privée basée sur FHE des applications réelles
Complétude Théorique: Fournit un cadre théorique mathématique complet et un algorithme de résolution efficace

Limitations

Frais de Prétraitement: Pour les ensembles de données à grande échelle (ImageNet), l'analyse de distribution d'entrée nécessite un temps considérable
Besoins Mémoire: L'algorithme de programmation dynamique consomme une mémoire importante dans les réseaux profonds
Limitation des Fonctions d'Activation: Principalement orienté vers les fonctions d'activation univariées, nécessite une extension pour les fonctions multivariées comme softmax

Directions Futures

Support des Transformers: Extension à l'inférence privée des grands modèles de langage
Fonctions Multivariées: Développement de méthodes d'approximation pour les fonctions comme softmax
Optimisation Adaptative: Ajustement dynamique des stratégies d'approximation selon les ressources matérielles
Intégration d'Apprentissage Fédéré: Combinaison avec d'autres techniques de protection de la confidentialité

Évaluation Approfondie

Points Forts

Innovation Forte: Première résolution systématique du problème d'optimisation stratifiée en PTA
Théorie Solide: Dérivations mathématiques rigoureuses, preuves de théorèmes complètes
Expérimentation Complète: Vérification exhaustive sur plusieurs ensembles de données et architectures de modèles
Valeur Pratique Élevée: L'amélioration significative des performances rend la méthode applicable en pratique
Rédaction Claire: Structure d'article rationnelle, description précise des détails techniques

Insuffisances

Complexité Computationnelle: Bien que polynomiale, peut présenter des défis sur les réseaux ultra-larges
Sensibilité aux Paramètres: Le choix du paramètre d'échelle r nécessite un ajustement empirique
Capacité de Généralisation: Principalement validé sur les architectures CNN, l'applicabilité à d'autres architectures nécessite une vérification supplémentaire
Analyse de Sécurité: Manque d'analyse approfondie des risques de sécurité supplémentaires introduits par l'approximation

Impact

Contribution Académique: Fournit une nouvelle perspective d'optimisation pour le domaine du PPML basé sur FHE
Valeur Pratique: Avancée importante vers l'application réelle de l'IA préservant la confidentialité
Reproductibilité: Fournit des détails d'implémentation détaillés et engagement d'open-source
Signification Inspirante: L'idée d'optimisation stratifiée peut s'étendre à d'autres scénarios de calcul privé

Scénarios Applicables

Services IA en Cloud: Services d'apprentissage automatique nécessitant la protection de la confidentialité des données utilisateur
IA Médicale: Systèmes de diagnostic traitant des données médicales sensibles
Contrôle des Risques Financiers: Évaluation de crédit et analyse des risques préservant la confidentialité
Apprentissage Fédéré: Technologie complémentaire pour l'agrégation sécurisée

Références

Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

Résumé: La méthode OLA proposée dans cet article revêt une importance significative dans le domaine de l'inférence privée basée sur FHE. En optimisant stratifiée, elle améliore considérablement l'efficacité de l'inférence, jetant les bases importantes pour l'application pratique de l'IA préservant la confidentialité. Malgré certaines limitations, son innovation et sa valeur pratique en font une contribution importante dans ce domaine.