Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic
Approssimazione Stratificata Ottimizzata per l'Inferenza Privata Efficiente su Crittografia Completamente Omomorfa
Questo articolo propone un metodo di approssimazione stratificata ottimizzata (OLA) per implementare l'inferenza privata efficiente su crittografia completamente omomorfa (FHE). Il metodo ottimizza la perdita di accuratezza e il consumo di tempo utilizzando diversi polinomi di approssimazione per ogni strato, migliorando significativamente l'efficienza dell'inferenza nello scenario di approssimazione post-addestramento (PTA). Il metodo OLA riduce il tempo di inferenza per i modelli ResNet-20 e ResNet-32 rispettivamente di 3,02 volte e 2,82 volte, e sostituisce con successo la funzione GELU nel modello ConvNeXt con un polinomio di solo 3 gradi.
Nell'apprendimento automatico che preserva la privacy (PPML), la crittografia completamente omomorfa (FHE) consente il calcolo diretto su dati crittografati, ma gli schemi FHE supportano solo operazioni aritmetiche di base (addizione e moltiplicazione) e non possono gestire direttamente funzioni di attivazione non aritmetiche (come ReLU, GELU, sigmoid, ecc.).
Crescente Necessità di Privacy: Con lo sviluppo del cloud computing, MLaaS (Machine Learning as a Service) deve fornire servizi proteggendo la privacy dei dati
Requisiti di Praticità: I metodi esistenti hanno tempi di inferenza troppo lunghi per soddisfare le esigenze delle applicazioni pratiche
Compatibilità dei Modelli: È necessario implementare l'inferenza privata senza riaddestrare i modelli
Affrontando il principale collo di bottiglia del metodo PTA—il tempo di inferenza eccessivo—si propone un framework di ottimizzazione stratificata sistematico che bilancia l'accuratezza e l'efficienza utilizzando polinomi di approssimazione di diversi gradi per diversi strati.
Propone il Framework OLA: Primo metodo di approssimazione stratificata ottimizzata per lo scenario PTA, utilizzando polinomi di diversi gradi per ogni strato
Approssimazione Consapevole della Distribuzione: Basata sul metodo dei minimi quadrati ponderati, considera la distribuzione effettiva degli input delle funzioni di attivazione per ogni strato
Algoritmo di Programmazione Dinamica: Fornisce un algoritmo di ottimizzazione con complessità temporale polinomiale per risolvere l'allocazione ottimale dei gradi
Miglioramento Significativo delle Prestazioni: Realizza un'accelerazione dell'inferenza di 2,82-3,02 volte sui modelli ResNet e ConvNeXt
Analisi Teorica: Fornisce una base teorica matematica completa e prove di convergenza
Input: Modello di rete neurale profonda pre-addestrato contenente funzioni di attivazione non aritmetiche
Output: Allocazione ottimale del grado polinomiale per ogni strato
Vincoli: Budget di tempo di inferenza K, soglia di perdita di accuratezza
Obiettivo: Minimizzare la varianza media della perdita, soddisfacendo i vincoli di tempo
Trattamento Differenziato Stratificato: Primo approccio sistematico per allocare diversi gradi polinomiali a diversi strati
Modellazione della Distribuzione di Input: Utilizza la distribuzione effettiva dei dati tra strati piuttosto che distribuzioni teoriche
Approssimazione Consapevole della Distribuzione Scalata: Regola la varianza della distribuzione attraverso il parametro r, migliorando la precisione dell'approssimazione nelle regioni a bassa probabilità
Gestione della Catena di Moduli: Ottimizza i parametri FHE per diversi gradi, riducendo l'overhead di bootstrapping
Efficacia dell'Approssimazione Stratificata: Diversi strati hanno effettivamente un impatto differenziato sull'accuratezza della classificazione, l'ottimizzazione stratificata è razionale
Miglioramento della Praticità: L'accelerazione significativa dell'inferenza avvicina l'inferenza privata basata su FHE alle applicazioni pratiche
Completezza Teorica: Fornisce un framework teorico matematico completo e un algoritmo di risoluzione efficiente
Overhead di Pre-elaborazione: Per set di dati su larga scala (ImageNet), l'analisi della distribuzione di input richiede tempo considerevole
Requisiti di Memoria: L'algoritmo di programmazione dinamica ha un consumo di memoria significativo nelle reti profonde
Limitazioni delle Funzioni di Attivazione: Principalmente per funzioni di attivazione univariate, richiede estensione per funzioni multivariate come softmax
Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.
Sintesi: Il metodo OLA proposto in questo articolo ha un significato importante nel campo dell'inferenza privata basata su FHE. Attraverso l'ottimizzazione stratificata, migliora significativamente l'efficienza dell'inferenza, gettando le basi importanti per l'applicazione pratica dell'IA che preserva la privacy. Nonostante alcune limitazioni, la sua innovatività e il suo valore pratico lo rendono un contributo importante in questo campo.