2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic

Approssimazione Stratificata Ottimizzata per l'Inferenza Privata Efficiente su Crittografia Completamente Omomorfa

Informazioni Fondamentali

  • ID Articolo: 2310.10349
  • Titolo: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
  • Autori: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
  • Classificazione: cs.CR (Crittografia e Sicurezza), cs.AI (Intelligenza Artificiale)
  • Data di Pubblicazione: Ottobre 2023 (arXiv v4: 14 ottobre 2025)
  • Link Articolo: https://arxiv.org/abs/2310.10349

Riassunto

Questo articolo propone un metodo di approssimazione stratificata ottimizzata (OLA) per implementare l'inferenza privata efficiente su crittografia completamente omomorfa (FHE). Il metodo ottimizza la perdita di accuratezza e il consumo di tempo utilizzando diversi polinomi di approssimazione per ogni strato, migliorando significativamente l'efficienza dell'inferenza nello scenario di approssimazione post-addestramento (PTA). Il metodo OLA riduce il tempo di inferenza per i modelli ResNet-20 e ResNet-32 rispettivamente di 3,02 volte e 2,82 volte, e sostituisce con successo la funzione GELU nel modello ConvNeXt con un polinomio di solo 3 gradi.

Contesto di Ricerca e Motivazione

Definizione del Problema

Nell'apprendimento automatico che preserva la privacy (PPML), la crittografia completamente omomorfa (FHE) consente il calcolo diretto su dati crittografati, ma gli schemi FHE supportano solo operazioni aritmetiche di base (addizione e moltiplicazione) e non possono gestire direttamente funzioni di attivazione non aritmetiche (come ReLU, GELU, sigmoid, ecc.).

Importanza del Problema

  1. Crescente Necessità di Privacy: Con lo sviluppo del cloud computing, MLaaS (Machine Learning as a Service) deve fornire servizi proteggendo la privacy dei dati
  2. Requisiti di Praticità: I metodi esistenti hanno tempi di inferenza troppo lunghi per soddisfare le esigenze delle applicazioni pratiche
  3. Compatibilità dei Modelli: È necessario implementare l'inferenza privata senza riaddestrare i modelli

Limitazioni dei Metodi Esistenti

  1. Metodo AAT: Richiede il riaddestramento del modello e mostra prestazioni scadenti su set di dati su larga scala
  2. Metodo PTA: Utilizza un'approssimazione polinomiale uniforme di alto grado per tutti gli strati, causando tempi di inferenza eccessivi
  3. Efficienza Computazionale: I metodi esistenti non considerano l'impatto differenziato di ogni strato sull'accuratezza della classificazione

Motivazione della Ricerca

Affrontando il principale collo di bottiglia del metodo PTA—il tempo di inferenza eccessivo—si propone un framework di ottimizzazione stratificata sistematico che bilancia l'accuratezza e l'efficienza utilizzando polinomi di approssimazione di diversi gradi per diversi strati.

Contributi Principali

  1. Propone il Framework OLA: Primo metodo di approssimazione stratificata ottimizzata per lo scenario PTA, utilizzando polinomi di diversi gradi per ogni strato
  2. Approssimazione Consapevole della Distribuzione: Basata sul metodo dei minimi quadrati ponderati, considera la distribuzione effettiva degli input delle funzioni di attivazione per ogni strato
  3. Algoritmo di Programmazione Dinamica: Fornisce un algoritmo di ottimizzazione con complessità temporale polinomiale per risolvere l'allocazione ottimale dei gradi
  4. Miglioramento Significativo delle Prestazioni: Realizza un'accelerazione dell'inferenza di 2,82-3,02 volte sui modelli ResNet e ConvNeXt
  5. Analisi Teorica: Fornisce una base teorica matematica completa e prove di convergenza

Dettagli del Metodo

Definizione del Compito

Input: Modello di rete neurale profonda pre-addestrato contenente funzioni di attivazione non aritmetiche Output: Allocazione ottimale del grado polinomiale per ogni strato Vincoli: Budget di tempo di inferenza K, soglia di perdita di accuratezza Obiettivo: Minimizzare la varianza media della perdita, soddisfacendo i vincoli di tempo

Architettura del Modello

1. Approssimazione Consapevole della Distribuzione (Teorema 1)

Per una funzione di attivazione f(x) e una distribuzione di input φ(x), il polinomio di approssimazione ottimale di grado d è:

P_φ[d; f](x) = Σ(l=0 to d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

dove {h_l(x)} è la base polinomiale ortogonale ottenuta attraverso il processo di Gram-Schmidt.

2. Modellazione della Varianza Media della Perdita

Trattando l'errore di approssimazione come una variabile casuale, la funzione di perdita della varianza è:

Var[ΔL] = Σ(i=1 to N_L) A_i E_φi[d_i; f]

dove:

  • A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²: peso dell'influenza dello strato i sull'accuratezza
  • E_φid_i; f: MSE minimizzato dello strato i

3. Formulazione del Problema di Ottimizzazione

minimizzare: V(d) = Σ(i=1 to N_L) A_i E_i(d_i)
soggetto a: T(d) = Σ(i=1 to N_L) T_i(d_i) ≤ K

4. Risoluzione mediante Programmazione Dinamica (Algoritmo 1)

  • Complessità Temporale: O(N_L × N_K × |S|)
  • Complessità Spaziale: O(N_L × N_K)
  • Relazione Ricorsiva: P(l+1,k) è costruita basandosi sulle soluzioni ottimali di {P(l,k')}

Punti di Innovazione Tecnica

  1. Trattamento Differenziato Stratificato: Primo approccio sistematico per allocare diversi gradi polinomiali a diversi strati
  2. Modellazione della Distribuzione di Input: Utilizza la distribuzione effettiva dei dati tra strati piuttosto che distribuzioni teoriche
  3. Approssimazione Consapevole della Distribuzione Scalata: Regola la varianza della distribuzione attraverso il parametro r, migliorando la precisione dell'approssimazione nelle regioni a bassa probabilità
  4. Gestione della Catena di Moduli: Ottimizza i parametri FHE per diversi gradi, riducendo l'overhead di bootstrapping

Configurazione Sperimentale

Set di Dati

  • CIFAR-10/100: Set di dati di classificazione di immagini su piccola scala
  • ImageNet: Set di dati di classificazione di immagini su larga scala
  • Pre-elaborazione: Normalizzazione e aumento dei dati

Metriche di Valutazione

  • Tempo di Inferenza: Tempo di esecuzione effettivo nell'ambiente FHE
  • Accuratezza Top-1: Accuratezza della classificazione
  • τ(d): Indicatore di ritardo temporale discretizzato
  • Rapporto di Accelerazione: Riduzione del tempo rispetto al baseline

Metodi di Confronto

  • Approssimazione Minimax: Metodo polinomiale minimax composito di Lee et al. 4
  • Metodo Grado Uniforme: Utilizzo dello stesso grado polinomiale per tutti gli strati
  • Metodo AAT: HyPHEN, DeepReDuce e altri metodi di riaddestramento

Dettagli di Implementazione

  • Schema FHE: RNS-CKKS
  • Livello di Sicurezza: 128-bit
  • Spazio di Ricerca dei Gradi: S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
  • Unità di Discretizzazione: ν = 1/4
  • Libreria: Lattigo v3.0.5

Risultati Sperimentali

Risultati Principali

ModelloSet di DatiMetodoAccuratezza(%)τ(d)Rapporto di Accelerazione
ResNet-20CIFAR-10Minimax91,552.788-
ResNet-20CIFAR-10OLA90,691.1062,52×
ResNet-32CIFAR-10Minimax92,454.624-
ResNet-32CIFAR-10OLA91,691.9272,40×

Risultati dei Test FHE Effettivi:

  • ResNet-20: Tempo di inferenza ridotto da 1.231s a 407s (accelerazione 3,02×)
  • ResNet-32: Tempo di inferenza ridotto da 1.913s a 679s (accelerazione 2,82×)

Esperimenti di Ablazione

ComponenteConsapevole della DistribuzioneProgrammazione DinamicaResNet-20 τ(d)ResNet-110 τ(d)
Base1.44021.172
+Consapevole della Distribuzione1.14210.725
+Programmazione Dinamica1.1069.448

Scoperte:

  • L'approssimazione consapevole della distribuzione fornisce il maggiore miglioramento delle prestazioni
  • La programmazione dinamica è più efficace nelle reti profonde (riduzione dell'11,91% in ResNet-110)

Risultati del Modello ConvNeXt

  • ConvNeXt-T (CIFAR-10): Realizza il 91,42% di accuratezza utilizzando solo un polinomio di 3 gradi
  • ConvNeXt-S (ImageNet): Realizza il 84,64% di accuratezza utilizzando polinomi di grado ≤31

Analisi dell'Overhead di Pre-elaborazione

Set di DatiModelloAnalisi della Distribuzione di Input(s)Programmazione Dinamica(s)
CIFAR-10ResNet-208,127,76
CIFAR-10ResNet-11017,97773,07
ImageNetResNet-189.510,946,23

Lavori Correlati

Direzioni di Ricerca HE-based PPML

  1. Metodo PTA: Lee et al. 4,5, Kim et al. 6 - Focalizzati sull'ottimizzazione delle operazioni lineari
  2. Metodo AAT: HyPHEN 17, DeepReDuce 43 - Richiedono il riaddestramento del modello
  3. Metodi Ibridi: Schemi che combinano HE e MPC

Gestione delle Operazioni Non Aritmetiche

  1. Schema TFHE: Supporta operazioni bit, grande overhead di memoria
  2. Schema CKKS: Supporta il packing, richiede approssimazione di funzioni
  3. Approssimazione Polinomiale: Metodi minimax, minimi quadrati, ecc.

Vantaggi di Questo Articolo

  • Primo framework sistematico per l'ottimizzazione stratificata
  • Fondamenti teorici completi, verifica sperimentale sufficiente
  • Miglioramento significativo delle prestazioni nello scenario PTA

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia dell'Approssimazione Stratificata: Diversi strati hanno effettivamente un impatto differenziato sull'accuratezza della classificazione, l'ottimizzazione stratificata è razionale
  2. Miglioramento della Praticità: L'accelerazione significativa dell'inferenza avvicina l'inferenza privata basata su FHE alle applicazioni pratiche
  3. Completezza Teorica: Fornisce un framework teorico matematico completo e un algoritmo di risoluzione efficiente

Limitazioni

  1. Overhead di Pre-elaborazione: Per set di dati su larga scala (ImageNet), l'analisi della distribuzione di input richiede tempo considerevole
  2. Requisiti di Memoria: L'algoritmo di programmazione dinamica ha un consumo di memoria significativo nelle reti profonde
  3. Limitazioni delle Funzioni di Attivazione: Principalmente per funzioni di attivazione univariate, richiede estensione per funzioni multivariate come softmax

Direzioni Future

  1. Supporto Transformer: Estensione all'inferenza privata di modelli di linguaggio di grandi dimensioni
  2. Funzioni Multivariate: Sviluppo di metodi di approssimazione per funzioni come softmax
  3. Ottimizzazione Adattiva: Regolazione dinamica della strategia di approssimazione in base alle risorse hardware
  4. Integrazione dell'Apprendimento Federato: Combinazione con altre tecniche di protezione della privacy

Valutazione Approfondita

Punti di Forza

  1. Forte Innovatività: Primo approccio sistematico al problema dell'ottimizzazione stratificata in PTA
  2. Teoria Solida: Derivazioni matematiche rigorose, prove di teoremi complete
  3. Esperimenti Completi: Verifica completa su più set di dati e architetture di modelli
  4. Alto Valore Pratico: Il miglioramento significativo delle prestazioni rende il metodo applicabile nella pratica
  5. Scrittura Chiara: Struttura dell'articolo razionale, descrizione accurata dei dettagli tecnici

Insufficienze

  1. Complessità Computazionale: Sebbene sia tempo polinomiale, potrebbe affrontare sfide in reti su scala ultra-grande
  2. Sensibilità ai Parametri: La scelta del parametro di scaling r richiede regolazione empirica
  3. Capacità di Generalizzazione: Principalmente verificato su architetture CNN, l'applicabilità ad altre architetture richiede ulteriore verifica
  4. Analisi di Sicurezza: Manca un'analisi approfondita dei rischi di sicurezza aggiuntivi introdotti dall'approssimazione

Impatto

  1. Contributo Accademico: Fornisce nuove prospettive di ottimizzazione per il campo PPML basato su FHE
  2. Valore Pratico: Rappresenta un passo importante verso l'applicazione pratica dell'IA che preserva la privacy
  3. Riproducibilità: Fornisce dettagli di implementazione dettagliati e impegno per l'open source
  4. Significato Ispiratore: L'idea di ottimizzazione stratificata può essere estesa ad altri scenari di calcolo privato

Scenari Applicabili

  1. Servizi AI nel Cloud: Servizi di apprendimento automatico che richiedono la protezione della privacy dei dati utente
  2. IA Medica: Sistemi diagnostici che elaborano dati medici sensibili
  3. Controllo del Rischio Finanziario: Valutazione del credito e analisi del rischio che preservano la privacy
  4. Apprendimento Federato: Come tecnologia complementare per l'aggregazione sicura

Bibliografia

  1. Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
  2. Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
  3. Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
  4. Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

Sintesi: Il metodo OLA proposto in questo articolo ha un significato importante nel campo dell'inferenza privata basata su FHE. Attraverso l'ottimizzazione stratificata, migliora significativamente l'efficienza dell'inferenza, gettando le basi importanti per l'applicazione pratica dell'IA che preserva la privacy. Nonostante alcune limitazioni, la sua innovatività e il suo valore pratico lo rendono un contributo importante in questo campo.