2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.

Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.

academic

Approssimazione Stratificata Ottimizzata per l'Inferenza Privata Efficiente su Crittografia Completamente Omomorfa

Informazioni Fondamentali

ID Articolo: 2310.10349
Titolo: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
Autori: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
Classificazione: cs.CR (Crittografia e Sicurezza), cs.AI (Intelligenza Artificiale)
Data di Pubblicazione: Ottobre 2023 (arXiv v4: 14 ottobre 2025)
Link Articolo: https://arxiv.org/abs/2310.10349

Riassunto

Questo articolo propone un metodo di approssimazione stratificata ottimizzata (OLA) per implementare l'inferenza privata efficiente su crittografia completamente omomorfa (FHE). Il metodo ottimizza la perdita di accuratezza e il consumo di tempo utilizzando diversi polinomi di approssimazione per ogni strato, migliorando significativamente l'efficienza dell'inferenza nello scenario di approssimazione post-addestramento (PTA). Il metodo OLA riduce il tempo di inferenza per i modelli ResNet-20 e ResNet-32 rispettivamente di 3,02 volte e 2,82 volte, e sostituisce con successo la funzione GELU nel modello ConvNeXt con un polinomio di solo 3 gradi.

Contesto di Ricerca e Motivazione

Definizione del Problema

Nell'apprendimento automatico che preserva la privacy (PPML), la crittografia completamente omomorfa (FHE) consente il calcolo diretto su dati crittografati, ma gli schemi FHE supportano solo operazioni aritmetiche di base (addizione e moltiplicazione) e non possono gestire direttamente funzioni di attivazione non aritmetiche (come ReLU, GELU, sigmoid, ecc.).

Importanza del Problema

Crescente Necessità di Privacy: Con lo sviluppo del cloud computing, MLaaS (Machine Learning as a Service) deve fornire servizi proteggendo la privacy dei dati
Requisiti di Praticità: I metodi esistenti hanno tempi di inferenza troppo lunghi per soddisfare le esigenze delle applicazioni pratiche
Compatibilità dei Modelli: È necessario implementare l'inferenza privata senza riaddestrare i modelli

Limitazioni dei Metodi Esistenti

Metodo AAT: Richiede il riaddestramento del modello e mostra prestazioni scadenti su set di dati su larga scala
Metodo PTA: Utilizza un'approssimazione polinomiale uniforme di alto grado per tutti gli strati, causando tempi di inferenza eccessivi
Efficienza Computazionale: I metodi esistenti non considerano l'impatto differenziato di ogni strato sull'accuratezza della classificazione

Motivazione della Ricerca

Affrontando il principale collo di bottiglia del metodo PTA—il tempo di inferenza eccessivo—si propone un framework di ottimizzazione stratificata sistematico che bilancia l'accuratezza e l'efficienza utilizzando polinomi di approssimazione di diversi gradi per diversi strati.

Contributi Principali

Propone il Framework OLA: Primo metodo di approssimazione stratificata ottimizzata per lo scenario PTA, utilizzando polinomi di diversi gradi per ogni strato
Approssimazione Consapevole della Distribuzione: Basata sul metodo dei minimi quadrati ponderati, considera la distribuzione effettiva degli input delle funzioni di attivazione per ogni strato
Algoritmo di Programmazione Dinamica: Fornisce un algoritmo di ottimizzazione con complessità temporale polinomiale per risolvere l'allocazione ottimale dei gradi
Miglioramento Significativo delle Prestazioni: Realizza un'accelerazione dell'inferenza di 2,82-3,02 volte sui modelli ResNet e ConvNeXt
Analisi Teorica: Fornisce una base teorica matematica completa e prove di convergenza

Dettagli del Metodo

Definizione del Compito

Input: Modello di rete neurale profonda pre-addestrato contenente funzioni di attivazione non aritmetiche Output: Allocazione ottimale del grado polinomiale per ogni strato Vincoli: Budget di tempo di inferenza K, soglia di perdita di accuratezza Obiettivo: Minimizzare la varianza media della perdita, soddisfacendo i vincoli di tempo

Architettura del Modello

1. Approssimazione Consapevole della Distribuzione (Teorema 1)

Per una funzione di attivazione f(x) e una distribuzione di input φ(x), il polinomio di approssimazione ottimale di grado d è:

P_φ[d; f](x) = Σ(l=0 to d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

dove {h_l(x)} è la base polinomiale ortogonale ottenuta attraverso il processo di Gram-Schmidt.

2. Modellazione della Varianza Media della Perdita

Trattando l'errore di approssimazione come una variabile casuale, la funzione di perdita della varianza è:

Var[ΔL] = Σ(i=1 to N_L) A_i E_φi[d_i; f]

dove:

A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²: peso dell'influenza dello strato i sull'accuratezza
E_φid_i; f: MSE minimizzato dello strato i

3. Formulazione del Problema di Ottimizzazione

minimizzare: V(d) = Σ(i=1 to N_L) A_i E_i(d_i)
soggetto a: T(d) = Σ(i=1 to N_L) T_i(d_i) ≤ K

4. Risoluzione mediante Programmazione Dinamica (Algoritmo 1)

Complessità Temporale: O(N_L × N_K × |S|)
Complessità Spaziale: O(N_L × N_K)
Relazione Ricorsiva: P(l+1,k) è costruita basandosi sulle soluzioni ottimali di {P(l,k')}

Punti di Innovazione Tecnica

Trattamento Differenziato Stratificato: Primo approccio sistematico per allocare diversi gradi polinomiali a diversi strati
Modellazione della Distribuzione di Input: Utilizza la distribuzione effettiva dei dati tra strati piuttosto che distribuzioni teoriche
Approssimazione Consapevole della Distribuzione Scalata: Regola la varianza della distribuzione attraverso il parametro r, migliorando la precisione dell'approssimazione nelle regioni a bassa probabilità
Gestione della Catena di Moduli: Ottimizza i parametri FHE per diversi gradi, riducendo l'overhead di bootstrapping

Configurazione Sperimentale

Set di Dati

CIFAR-10/100: Set di dati di classificazione di immagini su piccola scala
ImageNet: Set di dati di classificazione di immagini su larga scala
Pre-elaborazione: Normalizzazione e aumento dei dati

Metriche di Valutazione

Tempo di Inferenza: Tempo di esecuzione effettivo nell'ambiente FHE
Accuratezza Top-1: Accuratezza della classificazione
τ(d): Indicatore di ritardo temporale discretizzato
Rapporto di Accelerazione: Riduzione del tempo rispetto al baseline

Metodi di Confronto

Approssimazione Minimax: Metodo polinomiale minimax composito di Lee et al. 4
Metodo Grado Uniforme: Utilizzo dello stesso grado polinomiale per tutti gli strati
Metodo AAT: HyPHEN, DeepReDuce e altri metodi di riaddestramento

Dettagli di Implementazione

Schema FHE: RNS-CKKS
Livello di Sicurezza: 128-bit
Spazio di Ricerca dei Gradi: S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
Unità di Discretizzazione: ν = 1/4
Libreria: Lattigo v3.0.5

Risultati Sperimentali

Risultati Principali

Modello	Set di Dati	Metodo	Accuratezza(%)	τ(d)	Rapporto di Accelerazione
ResNet-20	CIFAR-10	Minimax	91,55	2.788	-
ResNet-20	CIFAR-10	OLA	90,69	1.106	2,52×
ResNet-32	CIFAR-10	Minimax	92,45	4.624	-
ResNet-32	CIFAR-10	OLA	91,69	1.927	2,40×

Risultati dei Test FHE Effettivi:

ResNet-20: Tempo di inferenza ridotto da 1.231s a 407s (accelerazione 3,02×)
ResNet-32: Tempo di inferenza ridotto da 1.913s a 679s (accelerazione 2,82×)

Esperimenti di Ablazione

Componente	Consapevole della Distribuzione	Programmazione Dinamica	ResNet-20 τ(d)	ResNet-110 τ(d)
Base	✗	✗	1.440	21.172
+Consapevole della Distribuzione	✓	✗	1.142	10.725
+Programmazione Dinamica	✓	✓	1.106	9.448

Scoperte:

L'approssimazione consapevole della distribuzione fornisce il maggiore miglioramento delle prestazioni
La programmazione dinamica è più efficace nelle reti profonde (riduzione dell'11,91% in ResNet-110)

Risultati del Modello ConvNeXt

ConvNeXt-T (CIFAR-10): Realizza il 91,42% di accuratezza utilizzando solo un polinomio di 3 gradi
ConvNeXt-S (ImageNet): Realizza il 84,64% di accuratezza utilizzando polinomi di grado ≤31

Analisi dell'Overhead di Pre-elaborazione

Set di Dati	Modello	Analisi della Distribuzione di Input(s)	Programmazione Dinamica(s)
CIFAR-10	ResNet-20	8,12	7,76
CIFAR-10	ResNet-110	17,97	773,07
ImageNet	ResNet-18	9.510,94	6,23

Lavori Correlati

Direzioni di Ricerca HE-based PPML

Metodo PTA: Lee et al. 4,5, Kim et al. 6 - Focalizzati sull'ottimizzazione delle operazioni lineari
Metodo AAT: HyPHEN 17, DeepReDuce 43 - Richiedono il riaddestramento del modello
Metodi Ibridi: Schemi che combinano HE e MPC

Gestione delle Operazioni Non Aritmetiche

Schema TFHE: Supporta operazioni bit, grande overhead di memoria
Schema CKKS: Supporta il packing, richiede approssimazione di funzioni
Approssimazione Polinomiale: Metodi minimax, minimi quadrati, ecc.

Vantaggi di Questo Articolo

Primo framework sistematico per l'ottimizzazione stratificata
Fondamenti teorici completi, verifica sperimentale sufficiente
Miglioramento significativo delle prestazioni nello scenario PTA

Conclusioni e Discussione

Conclusioni Principali

Efficacia dell'Approssimazione Stratificata: Diversi strati hanno effettivamente un impatto differenziato sull'accuratezza della classificazione, l'ottimizzazione stratificata è razionale
Miglioramento della Praticità: L'accelerazione significativa dell'inferenza avvicina l'inferenza privata basata su FHE alle applicazioni pratiche
Completezza Teorica: Fornisce un framework teorico matematico completo e un algoritmo di risoluzione efficiente

Limitazioni

Overhead di Pre-elaborazione: Per set di dati su larga scala (ImageNet), l'analisi della distribuzione di input richiede tempo considerevole
Requisiti di Memoria: L'algoritmo di programmazione dinamica ha un consumo di memoria significativo nelle reti profonde
Limitazioni delle Funzioni di Attivazione: Principalmente per funzioni di attivazione univariate, richiede estensione per funzioni multivariate come softmax

Direzioni Future

Supporto Transformer: Estensione all'inferenza privata di modelli di linguaggio di grandi dimensioni
Funzioni Multivariate: Sviluppo di metodi di approssimazione per funzioni come softmax
Ottimizzazione Adattiva: Regolazione dinamica della strategia di approssimazione in base alle risorse hardware
Integrazione dell'Apprendimento Federato: Combinazione con altre tecniche di protezione della privacy

Valutazione Approfondita

Punti di Forza

Forte Innovatività: Primo approccio sistematico al problema dell'ottimizzazione stratificata in PTA
Teoria Solida: Derivazioni matematiche rigorose, prove di teoremi complete
Esperimenti Completi: Verifica completa su più set di dati e architetture di modelli
Alto Valore Pratico: Il miglioramento significativo delle prestazioni rende il metodo applicabile nella pratica
Scrittura Chiara: Struttura dell'articolo razionale, descrizione accurata dei dettagli tecnici

Insufficienze

Complessità Computazionale: Sebbene sia tempo polinomiale, potrebbe affrontare sfide in reti su scala ultra-grande
Sensibilità ai Parametri: La scelta del parametro di scaling r richiede regolazione empirica
Capacità di Generalizzazione: Principalmente verificato su architetture CNN, l'applicabilità ad altre architetture richiede ulteriore verifica
Analisi di Sicurezza: Manca un'analisi approfondita dei rischi di sicurezza aggiuntivi introdotti dall'approssimazione

Impatto

Contributo Accademico: Fornisce nuove prospettive di ottimizzazione per il campo PPML basato su FHE
Valore Pratico: Rappresenta un passo importante verso l'applicazione pratica dell'IA che preserva la privacy
Riproducibilità: Fornisce dettagli di implementazione dettagliati e impegno per l'open source
Significato Ispiratore: L'idea di ottimizzazione stratificata può essere estesa ad altri scenari di calcolo privato

Scenari Applicabili

Servizi AI nel Cloud: Servizi di apprendimento automatico che richiedono la protezione della privacy dei dati utente
IA Medica: Sistemi diagnostici che elaborano dati medici sensibili
Controllo del Rischio Finanziario: Valutazione del credito e analisi del rischio che preservano la privacy
Apprendimento Federato: Come tecnologia complementare per l'aggregazione sicura

Bibliografia

Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

Sintesi: Il metodo OLA proposto in questo articolo ha un significato importante nel campo dell'inferenza privata basata su FHE. Attraverso l'ottimizzazione stratificata, migliora significativamente l'efficienza dell'inferenza, gettando le basi importanti per l'applicazione pratica dell'IA che preserva la privacy. Nonostante alcune limitazioni, la sua innovatività e il suo valore pratico lo rendono un contributo importante in questo campo.