Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic
Aproximación Estratificada Optimizada para Inferencia Privada Eficiente en Cifrado Totalmente Homomórfico
Este artículo propone un método de aproximación estratificada optimizada (OLA) para implementar inferencia privada eficiente en cifrado totalmente homomórfico (FHE). El método optimiza la pérdida de precisión y el consumo de tiempo mediante el uso de diferentes polinomios de aproximación para cada capa, mejorando significativamente la eficiencia de inferencia en escenarios de aproximación posterior al entrenamiento (PTA). El método OLA reduce el tiempo de inferencia de los modelos ResNet-20 y ResNet-32 en 3.02 y 2.82 veces respectivamente, y reemplaza exitosamente la función GELU en el modelo ConvNeXt con un polinomio de solo 3 grados.
En el aprendizaje automático que preserva la privacidad (PPML), el cifrado totalmente homomórfico (FHE) permite realizar cálculos directamente en datos cifrados, pero los esquemas FHE solo soportan operaciones aritméticas básicas (suma y multiplicación), sin poder procesar directamente funciones de activación no aritméticas (como ReLU, GELU, sigmoid, etc.).
Crecimiento de Requisitos de Privacidad: Con el desarrollo de la computación en la nube, MLaaS (Machine Learning as a Service) necesita proporcionar servicios mientras protege la privacidad de los datos
Requisitos de Practicidad: Los métodos existentes tienen tiempos de inferencia demasiado largos, lo que dificulta satisfacer las necesidades de aplicaciones prácticas
Compatibilidad de Modelos: Se requiere implementar inferencia privada sin reentrenar el modelo
Dirigida al cuello de botella principal del método PTA —tiempo de inferencia excesivamente largo—, se propone un marco de optimización estratificada sistemática que equilibra la precisión y la eficiencia mediante el uso de polinomios de aproximación con diferentes grados para diferentes capas.
Propuesta del Marco OLA: Primera propuesta de un método de aproximación estratificada optimizada para escenarios PTA, utilizando polinomios de diferentes grados para cada capa
Aproximación Consciente de la Distribución: Basada en mínimos cuadrados ponderados, considera la distribución real de entrada de funciones de activación en cada capa
Algoritmo de Programación Dinámica: Proporciona un algoritmo de complejidad temporal polinómica para resolver la asignación óptima de grados
Mejora Significativa de Rendimiento: Logra aceleración de inferencia de 2.82-3.02 veces en modelos ResNet y ConvNeXt
Análisis Teórico: Proporciona base teórica matemática completa y pruebas de convergencia
Entrada: Modelo de red neuronal profunda preentrenado que contiene funciones de activación no aritméticas
Salida: Asignación óptima de grados polinómicos para cada capa
Restricciones: Presupuesto de tiempo de inferencia K, umbral de pérdida de precisión
Objetivo: Minimizar la varianza de pérdida promedio, satisfaciendo restricciones de tiempo
Tratamiento Diferenciado Estratificado: Primera aproximación sistemática para asignar diferentes grados polinómicos a diferentes capas
Modelado de Distribución de Entrada: Utiliza la distribución real de datos entre capas en lugar de distribuciones teóricas
Aproximación Consciente de Distribución Escalada: Ajusta la varianza de distribución mediante parámetro r, mejorando la precisión de aproximación en regiones de baja probabilidad
Gestión de Cadena de Módulos: Optimiza parámetros FHE para diferentes grados, reduciendo gastos de bootstrapping
Efectividad de Aproximación Estratificada: El impacto diferenciado de diferentes capas en la precisión de clasificación es real, la optimización estratificada es justificada
Mejora de Practicidad: La aceleración significativa de inferencia acerca la PI basada en FHE a aplicaciones prácticas
Completitud Teórica: Proporciona marco teórico matemático completo y algoritmo de resolución eficiente
Gastos de Preprocesamiento: Para conjuntos de datos a gran escala (ImageNet), el análisis de distribución de entrada requiere tiempo considerable
Requisitos de Memoria: El algoritmo de programación dinámica consume más memoria en redes profundas
Restricción de Funciones de Activación: Principalmente dirigido a funciones de activación univariadas, requiere extensión para funciones multivariadas como softmax
Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.
Resumen: El método OLA propuesto en este artículo tiene importancia significativa en el campo de inferencia privada basada en FHE. Mediante optimización estratificada, mejora significativamente la eficiencia de inferencia, sentando una base importante para la aplicación práctica de IA con protección de privacidad. A pesar de algunas limitaciones, su innovación y valor práctico lo convierten en una contribución importante en este campo.