2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.

Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.

academic

Aproximación Estratificada Optimizada para Inferencia Privada Eficiente en Cifrado Totalmente Homomórfico

Información Básica

ID del Artículo: 2310.10349
Título: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
Autores: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial)
Fecha de Publicación: Octubre de 2023 (arXiv v4: 14 de octubre de 2025)
Enlace del Artículo: https://arxiv.org/abs/2310.10349

Resumen

Este artículo propone un método de aproximación estratificada optimizada (OLA) para implementar inferencia privada eficiente en cifrado totalmente homomórfico (FHE). El método optimiza la pérdida de precisión y el consumo de tiempo mediante el uso de diferentes polinomios de aproximación para cada capa, mejorando significativamente la eficiencia de inferencia en escenarios de aproximación posterior al entrenamiento (PTA). El método OLA reduce el tiempo de inferencia de los modelos ResNet-20 y ResNet-32 en 3.02 y 2.82 veces respectivamente, y reemplaza exitosamente la función GELU en el modelo ConvNeXt con un polinomio de solo 3 grados.

Contexto de Investigación y Motivación

Definición del Problema

En el aprendizaje automático que preserva la privacidad (PPML), el cifrado totalmente homomórfico (FHE) permite realizar cálculos directamente en datos cifrados, pero los esquemas FHE solo soportan operaciones aritméticas básicas (suma y multiplicación), sin poder procesar directamente funciones de activación no aritméticas (como ReLU, GELU, sigmoid, etc.).

Importancia del Problema

Crecimiento de Requisitos de Privacidad: Con el desarrollo de la computación en la nube, MLaaS (Machine Learning as a Service) necesita proporcionar servicios mientras protege la privacidad de los datos
Requisitos de Practicidad: Los métodos existentes tienen tiempos de inferencia demasiado largos, lo que dificulta satisfacer las necesidades de aplicaciones prácticas
Compatibilidad de Modelos: Se requiere implementar inferencia privada sin reentrenar el modelo

Limitaciones de Métodos Existentes

Método AAT: Requiere reentrenamiento del modelo y tiene un desempeño deficiente en conjuntos de datos a gran escala
Método PTA: Utiliza aproximación polinómica de alto grado uniforme para todas las capas, resultando en tiempos de inferencia excesivamente largos
Eficiencia Computacional: Los métodos existentes no consideran el impacto diferenciado de cada capa en la precisión de clasificación

Motivación de la Investigación

Dirigida al cuello de botella principal del método PTA —tiempo de inferencia excesivamente largo—, se propone un marco de optimización estratificada sistemática que equilibra la precisión y la eficiencia mediante el uso de polinomios de aproximación con diferentes grados para diferentes capas.

Contribuciones Principales

Propuesta del Marco OLA: Primera propuesta de un método de aproximación estratificada optimizada para escenarios PTA, utilizando polinomios de diferentes grados para cada capa
Aproximación Consciente de la Distribución: Basada en mínimos cuadrados ponderados, considera la distribución real de entrada de funciones de activación en cada capa
Algoritmo de Programación Dinámica: Proporciona un algoritmo de complejidad temporal polinómica para resolver la asignación óptima de grados
Mejora Significativa de Rendimiento: Logra aceleración de inferencia de 2.82-3.02 veces en modelos ResNet y ConvNeXt
Análisis Teórico: Proporciona base teórica matemática completa y pruebas de convergencia

Explicación Detallada del Método

Definición de la Tarea

Entrada: Modelo de red neuronal profunda preentrenado que contiene funciones de activación no aritméticas Salida: Asignación óptima de grados polinómicos para cada capa Restricciones: Presupuesto de tiempo de inferencia K, umbral de pérdida de precisión Objetivo: Minimizar la varianza de pérdida promedio, satisfaciendo restricciones de tiempo

Arquitectura del Modelo

1. Aproximación Consciente de la Distribución (Teorema 1)

Para una función de activación f(x) y distribución de entrada φ(x), el polinomio de aproximación óptimo de grado d es:

P_φ[d; f](x) = Σ(l=0 a d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

donde {h_l(x)} es la base polinómica ortogonal obtenida mediante el proceso de Gram-Schmidt.

2. Modelado de Varianza de Pérdida Promedio

Considerando el error de aproximación como una variable aleatoria, la función de pérdida tiene varianza:

Var[ΔL] = Σ(i=1 a N_L) A_i E_φi[d_i; f]

donde:

A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²: peso de influencia de la capa i en la precisión
E_φid_i; f: MSE minimizado de la capa i

3. Formulación del Problema de Optimización

minimizar: V(d) = Σ(i=1 a N_L) A_i E_i(d_i)
sujeto a: T(d) = Σ(i=1 a N_L) T_i(d_i) ≤ K

4. Resolución mediante Programación Dinámica (Algoritmo 1)

Complejidad Temporal: O(N_L × N_K × |S|)
Complejidad Espacial: O(N_L × N_K)
Relación de Recurrencia: P(l+1,k) se construye basándose en soluciones óptimas de {P(l,k')}

Puntos de Innovación Técnica

Tratamiento Diferenciado Estratificado: Primera aproximación sistemática para asignar diferentes grados polinómicos a diferentes capas
Modelado de Distribución de Entrada: Utiliza la distribución real de datos entre capas en lugar de distribuciones teóricas
Aproximación Consciente de Distribución Escalada: Ajusta la varianza de distribución mediante parámetro r, mejorando la precisión de aproximación en regiones de baja probabilidad
Gestión de Cadena de Módulos: Optimiza parámetros FHE para diferentes grados, reduciendo gastos de bootstrapping

Configuración Experimental

Conjuntos de Datos

CIFAR-10/100: Conjuntos de datos de clasificación de imágenes a pequeña escala
ImageNet: Conjunto de datos de clasificación de imágenes a gran escala
Preprocesamiento: Normalización y aumento de datos

Métricas de Evaluación

Tiempo de Inferencia: Tiempo de ejecución real en entorno FHE
Precisión Top-1: Precisión de clasificación
τ(d): Indicador de retardo de tiempo discretizado
Razón de Aceleración: Reducción de tiempo relativa al baseline

Métodos de Comparación

Aproximación Minimax: Método de polinomio minimax compuesto de Lee et al. 4
Método de Grado Uniforme: Polinomios de grado idéntico para todas las capas
Método AAT: HyPHEN, DeepReDuce y otros métodos de reentrenamiento

Detalles de Implementación

Esquema FHE: RNS-CKKS
Nivel de Seguridad: 128-bit
Espacio de Búsqueda de Grados: S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
Unidad de Discretización: ν = 1/4
Biblioteca: Lattigo v3.0.5

Resultados Experimentales

Resultados Principales

Modelo	Conjunto de Datos	Método	Precisión(%)	τ(d)	Razón de Aceleración
ResNet-20	CIFAR-10	Minimax	91.55	2,788	-
ResNet-20	CIFAR-10	OLA	90.69	1,106	2.52×
ResNet-32	CIFAR-10	Minimax	92.45	4,624	-
ResNet-32	CIFAR-10	OLA	91.69	1,927	2.40×

Resultados de Pruebas FHE Reales:

ResNet-20: Tiempo de inferencia reducido de 1,231s a 407s (aceleración de 3.02×)
ResNet-32: Tiempo de inferencia reducido de 1,913s a 679s (aceleración de 2.82×)

Experimentos de Ablación

Componente	Consciente de Distribución	Programación Dinámica	ResNet-20 τ(d)	ResNet-110 τ(d)
Base	✗	✗	1,440	21,172
+Consciente de Distribución	✓	✗	1,142	10,725
+Programación Dinámica	✓	✓	1,106	9,448

Hallazgos:

La aproximación consciente de distribución contribuye la mayor mejora de rendimiento
La programación dinámica es más efectiva en redes profundas (reducción del 11.91% en ResNet-110)

Resultados del Modelo ConvNeXt

ConvNeXt-T (CIFAR-10): Logra 91.42% de precisión utilizando solo polinomios de 3 grados
ConvNeXt-S (ImageNet): Logra 84.64% de precisión utilizando polinomios con grados ≤31

Análisis de Gastos de Preprocesamiento

Conjunto de Datos	Modelo	Análisis de Distribución de Entrada(s)	Programación Dinámica(s)
CIFAR-10	ResNet-20	8.12	7.76
CIFAR-10	ResNet-110	17.97	773.07
ImageNet	ResNet-18	9,510.94	6.23

Trabajo Relacionado

Direcciones de Investigación en PPML Basado en HE

Método PTA: Lee et al. 4,5, Kim et al. 6 - Enfocados en optimización de operaciones lineales
Método AAT: HyPHEN 17, DeepReDuce 43 - Requieren reentrenamiento de modelos
Métodos Híbridos: Esquemas que combinan HE y MPC

Procesamiento de Operaciones No Aritméticas

Esquema TFHE: Soporta operaciones bit a bit, con gran sobrecarga de memoria
Esquema CKKS: Soporta empaquetamiento, requiere aproximación de funciones
Aproximación Polinómica: Métodos minimax, mínimos cuadrados, etc.

Ventajas de Este Artículo

Primera propuesta de marco sistemático de optimización estratificada
Base teórica completa, verificación experimental exhaustiva
Logra mejora significativa de rendimiento en escenarios PTA

Conclusiones y Discusión

Conclusiones Principales

Efectividad de Aproximación Estratificada: El impacto diferenciado de diferentes capas en la precisión de clasificación es real, la optimización estratificada es justificada
Mejora de Practicidad: La aceleración significativa de inferencia acerca la PI basada en FHE a aplicaciones prácticas
Completitud Teórica: Proporciona marco teórico matemático completo y algoritmo de resolución eficiente

Limitaciones

Gastos de Preprocesamiento: Para conjuntos de datos a gran escala (ImageNet), el análisis de distribución de entrada requiere tiempo considerable
Requisitos de Memoria: El algoritmo de programación dinámica consume más memoria en redes profundas
Restricción de Funciones de Activación: Principalmente dirigido a funciones de activación univariadas, requiere extensión para funciones multivariadas como softmax

Direcciones Futuras

Soporte para Transformers: Extensión a inferencia privada de modelos de lenguaje grande
Funciones Multivariadas: Desarrollo de métodos de aproximación para funciones como softmax
Optimización Adaptativa: Ajuste dinámico de estrategias de aproximación según recursos de hardware
Integración de Aprendizaje Federado: Combinación con otras técnicas de protección de privacidad

Evaluación Profunda

Fortalezas

Innovación Fuerte: Primera solución sistemática del problema de optimización estratificada en PTA
Teoría Sólida: Derivación matemática rigurosa, pruebas de teoremas completas
Experimentación Exhaustiva: Verificación integral en múltiples conjuntos de datos y arquitecturas de modelos
Alto Valor Práctico: La mejora significativa de rendimiento hace que el método tenga potencial de aplicación práctica
Escritura Clara: Estructura de artículo razonable, descripción precisa de detalles técnicos

Insuficiencias

Complejidad Computacional: Aunque es tiempo polinómico, aún puede enfrentar desafíos en redes a escala ultra grande
Sensibilidad de Parámetros: La selección del parámetro de escala r requiere ajuste empírico
Capacidad de Generalización: Principalmente verificado en arquitecturas CNN, la aplicabilidad a otras arquitecturas requiere verificación adicional
Análisis de Seguridad: Carece de análisis profundo de riesgos de seguridad adicionales introducidos por aproximación

Impacto

Contribución Académica: Proporciona nuevas perspectivas de optimización para el campo PPML basado en FHE
Valor Práctico: Impulsa un paso importante hacia la aplicación práctica de IA con protección de privacidad
Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código abierto
Significado Inspirador: La idea de optimización estratificada puede extenderse a otros escenarios de computación privada

Escenarios Aplicables

Servicios de IA en la Nube: Servicios de aprendizaje automático que necesitan proteger la privacidad de datos de usuarios
IA Médica: Sistemas de diagnóstico que procesan datos médicos sensibles
Control de Riesgos Financieros: Evaluación de crédito y análisis de riesgos con protección de privacidad
Aprendizaje Federado: Como tecnología complementaria para agregación segura

Referencias

Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

Resumen: El método OLA propuesto en este artículo tiene importancia significativa en el campo de inferencia privada basada en FHE. Mediante optimización estratificada, mejora significativamente la eficiencia de inferencia, sentando una base importante para la aplicación práctica de IA con protección de privacidad. A pesar de algunas limitaciones, su innovación y valor práctico lo convierten en una contribución importante en este campo.