2025-11-19T21:37:14.535760

Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption

Lee, Lee, Kim et al.
Recent studies have explored the deployment of privacy-preserving deep neural networks utilizing homomorphic encryption (HE), especially for private inference (PI). Many works have attempted the approximation-aware training (AAT) approach in PI, changing the activation functions of a model to low-degree polynomials that are easier to compute on HE by allowing model retraining. However, due to constraints in the training environment, it is often necessary to consider post-training approximation (PTA), using the pre-trained parameters of the existing plaintext model without retraining. Existing PTA studies have uniformly approximated the activation function in all layers to a high degree to mitigate accuracy loss from approximation, leading to significant time consumption. This study proposes an optimized layerwise approximation (OLA), a systematic framework that optimizes both accuracy loss and time consumption by using different approximation polynomials for each layer in the PTA scenario. For efficient approximation, we reflect the layerwise impact on the classification accuracy by considering the actual input distribution of each activation function while constructing the optimization problem. Additionally, we provide a dynamic programming technique to solve the optimization problem and achieve the optimized layerwise degrees in polynomial time. As a result, the OLA method reduces inference times for the ResNet-20 model and the ResNet-32 model by 3.02 times and 2.82 times, respectively, compared to prior state-of-the-art implementations employing uniform degree polynomials. Furthermore, we successfully classified CIFAR-10 by replacing the GELU function in the ConvNeXt model with only 3-degree polynomials using the proposed method, without modifying the backbone model.
academic

Aproximación Estratificada Optimizada para Inferencia Privada Eficiente en Cifrado Totalmente Homomórfico

Información Básica

  • ID del Artículo: 2310.10349
  • Título: Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption
  • Autores: Junghyun Lee, Joon-Woo Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Yongjune Kim, Jong-Seon No
  • Clasificación: cs.CR (Criptografía y Seguridad), cs.AI (Inteligencia Artificial)
  • Fecha de Publicación: Octubre de 2023 (arXiv v4: 14 de octubre de 2025)
  • Enlace del Artículo: https://arxiv.org/abs/2310.10349

Resumen

Este artículo propone un método de aproximación estratificada optimizada (OLA) para implementar inferencia privada eficiente en cifrado totalmente homomórfico (FHE). El método optimiza la pérdida de precisión y el consumo de tiempo mediante el uso de diferentes polinomios de aproximación para cada capa, mejorando significativamente la eficiencia de inferencia en escenarios de aproximación posterior al entrenamiento (PTA). El método OLA reduce el tiempo de inferencia de los modelos ResNet-20 y ResNet-32 en 3.02 y 2.82 veces respectivamente, y reemplaza exitosamente la función GELU en el modelo ConvNeXt con un polinomio de solo 3 grados.

Contexto de Investigación y Motivación

Definición del Problema

En el aprendizaje automático que preserva la privacidad (PPML), el cifrado totalmente homomórfico (FHE) permite realizar cálculos directamente en datos cifrados, pero los esquemas FHE solo soportan operaciones aritméticas básicas (suma y multiplicación), sin poder procesar directamente funciones de activación no aritméticas (como ReLU, GELU, sigmoid, etc.).

Importancia del Problema

  1. Crecimiento de Requisitos de Privacidad: Con el desarrollo de la computación en la nube, MLaaS (Machine Learning as a Service) necesita proporcionar servicios mientras protege la privacidad de los datos
  2. Requisitos de Practicidad: Los métodos existentes tienen tiempos de inferencia demasiado largos, lo que dificulta satisfacer las necesidades de aplicaciones prácticas
  3. Compatibilidad de Modelos: Se requiere implementar inferencia privada sin reentrenar el modelo

Limitaciones de Métodos Existentes

  1. Método AAT: Requiere reentrenamiento del modelo y tiene un desempeño deficiente en conjuntos de datos a gran escala
  2. Método PTA: Utiliza aproximación polinómica de alto grado uniforme para todas las capas, resultando en tiempos de inferencia excesivamente largos
  3. Eficiencia Computacional: Los métodos existentes no consideran el impacto diferenciado de cada capa en la precisión de clasificación

Motivación de la Investigación

Dirigida al cuello de botella principal del método PTA —tiempo de inferencia excesivamente largo—, se propone un marco de optimización estratificada sistemática que equilibra la precisión y la eficiencia mediante el uso de polinomios de aproximación con diferentes grados para diferentes capas.

Contribuciones Principales

  1. Propuesta del Marco OLA: Primera propuesta de un método de aproximación estratificada optimizada para escenarios PTA, utilizando polinomios de diferentes grados para cada capa
  2. Aproximación Consciente de la Distribución: Basada en mínimos cuadrados ponderados, considera la distribución real de entrada de funciones de activación en cada capa
  3. Algoritmo de Programación Dinámica: Proporciona un algoritmo de complejidad temporal polinómica para resolver la asignación óptima de grados
  4. Mejora Significativa de Rendimiento: Logra aceleración de inferencia de 2.82-3.02 veces en modelos ResNet y ConvNeXt
  5. Análisis Teórico: Proporciona base teórica matemática completa y pruebas de convergencia

Explicación Detallada del Método

Definición de la Tarea

Entrada: Modelo de red neuronal profunda preentrenado que contiene funciones de activación no aritméticas Salida: Asignación óptima de grados polinómicos para cada capa Restricciones: Presupuesto de tiempo de inferencia K, umbral de pérdida de precisión Objetivo: Minimizar la varianza de pérdida promedio, satisfaciendo restricciones de tiempo

Arquitectura del Modelo

1. Aproximación Consciente de la Distribución (Teorema 1)

Para una función de activación f(x) y distribución de entrada φ(x), el polinomio de aproximación óptimo de grado d es:

P_φ[d; f](x) = Σ(l=0 a d) h_l(x) ∫ φ(t)f(t)h_l(t)dt

donde {h_l(x)} es la base polinómica ortogonal obtenida mediante el proceso de Gram-Schmidt.

2. Modelado de Varianza de Pérdida Promedio

Considerando el error de aproximación como una variable aleatoria, la función de pérdida tiene varianza:

Var[ΔL] = Σ(i=1 a N_L) A_i E_φi[d_i; f]

donde:

  • A_i = (1/N_T) Σ_k Σ_j (∂L/∂a_{i,j})²: peso de influencia de la capa i en la precisión
  • E_φid_i; f: MSE minimizado de la capa i

3. Formulación del Problema de Optimización

minimizar: V(d) = Σ(i=1 a N_L) A_i E_i(d_i)
sujeto a: T(d) = Σ(i=1 a N_L) T_i(d_i) ≤ K

4. Resolución mediante Programación Dinámica (Algoritmo 1)

  • Complejidad Temporal: O(N_L × N_K × |S|)
  • Complejidad Espacial: O(N_L × N_K)
  • Relación de Recurrencia: P(l+1,k) se construye basándose en soluciones óptimas de {P(l,k')}

Puntos de Innovación Técnica

  1. Tratamiento Diferenciado Estratificado: Primera aproximación sistemática para asignar diferentes grados polinómicos a diferentes capas
  2. Modelado de Distribución de Entrada: Utiliza la distribución real de datos entre capas en lugar de distribuciones teóricas
  3. Aproximación Consciente de Distribución Escalada: Ajusta la varianza de distribución mediante parámetro r, mejorando la precisión de aproximación en regiones de baja probabilidad
  4. Gestión de Cadena de Módulos: Optimiza parámetros FHE para diferentes grados, reduciendo gastos de bootstrapping

Configuración Experimental

Conjuntos de Datos

  • CIFAR-10/100: Conjuntos de datos de clasificación de imágenes a pequeña escala
  • ImageNet: Conjunto de datos de clasificación de imágenes a gran escala
  • Preprocesamiento: Normalización y aumento de datos

Métricas de Evaluación

  • Tiempo de Inferencia: Tiempo de ejecución real en entorno FHE
  • Precisión Top-1: Precisión de clasificación
  • τ(d): Indicador de retardo de tiempo discretizado
  • Razón de Aceleración: Reducción de tiempo relativa al baseline

Métodos de Comparación

  • Aproximación Minimax: Método de polinomio minimax compuesto de Lee et al. 4
  • Método de Grado Uniforme: Polinomios de grado idéntico para todas las capas
  • Método AAT: HyPHEN, DeepReDuce y otros métodos de reentrenamiento

Detalles de Implementación

  • Esquema FHE: RNS-CKKS
  • Nivel de Seguridad: 128-bit
  • Espacio de Búsqueda de Grados: S = {3,7,15,31,63,88,127,154,210,255,261,393,511,603,703,813,917,1023}
  • Unidad de Discretización: ν = 1/4
  • Biblioteca: Lattigo v3.0.5

Resultados Experimentales

Resultados Principales

ModeloConjunto de DatosMétodoPrecisión(%)τ(d)Razón de Aceleración
ResNet-20CIFAR-10Minimax91.552,788-
ResNet-20CIFAR-10OLA90.691,1062.52×
ResNet-32CIFAR-10Minimax92.454,624-
ResNet-32CIFAR-10OLA91.691,9272.40×

Resultados de Pruebas FHE Reales:

  • ResNet-20: Tiempo de inferencia reducido de 1,231s a 407s (aceleración de 3.02×)
  • ResNet-32: Tiempo de inferencia reducido de 1,913s a 679s (aceleración de 2.82×)

Experimentos de Ablación

ComponenteConsciente de DistribuciónProgramación DinámicaResNet-20 τ(d)ResNet-110 τ(d)
Base1,44021,172
+Consciente de Distribución1,14210,725
+Programación Dinámica1,1069,448

Hallazgos:

  • La aproximación consciente de distribución contribuye la mayor mejora de rendimiento
  • La programación dinámica es más efectiva en redes profundas (reducción del 11.91% en ResNet-110)

Resultados del Modelo ConvNeXt

  • ConvNeXt-T (CIFAR-10): Logra 91.42% de precisión utilizando solo polinomios de 3 grados
  • ConvNeXt-S (ImageNet): Logra 84.64% de precisión utilizando polinomios con grados ≤31

Análisis de Gastos de Preprocesamiento

Conjunto de DatosModeloAnálisis de Distribución de Entrada(s)Programación Dinámica(s)
CIFAR-10ResNet-208.127.76
CIFAR-10ResNet-11017.97773.07
ImageNetResNet-189,510.946.23

Trabajo Relacionado

Direcciones de Investigación en PPML Basado en HE

  1. Método PTA: Lee et al. 4,5, Kim et al. 6 - Enfocados en optimización de operaciones lineales
  2. Método AAT: HyPHEN 17, DeepReDuce 43 - Requieren reentrenamiento de modelos
  3. Métodos Híbridos: Esquemas que combinan HE y MPC

Procesamiento de Operaciones No Aritméticas

  1. Esquema TFHE: Soporta operaciones bit a bit, con gran sobrecarga de memoria
  2. Esquema CKKS: Soporta empaquetamiento, requiere aproximación de funciones
  3. Aproximación Polinómica: Métodos minimax, mínimos cuadrados, etc.

Ventajas de Este Artículo

  • Primera propuesta de marco sistemático de optimización estratificada
  • Base teórica completa, verificación experimental exhaustiva
  • Logra mejora significativa de rendimiento en escenarios PTA

Conclusiones y Discusión

Conclusiones Principales

  1. Efectividad de Aproximación Estratificada: El impacto diferenciado de diferentes capas en la precisión de clasificación es real, la optimización estratificada es justificada
  2. Mejora de Practicidad: La aceleración significativa de inferencia acerca la PI basada en FHE a aplicaciones prácticas
  3. Completitud Teórica: Proporciona marco teórico matemático completo y algoritmo de resolución eficiente

Limitaciones

  1. Gastos de Preprocesamiento: Para conjuntos de datos a gran escala (ImageNet), el análisis de distribución de entrada requiere tiempo considerable
  2. Requisitos de Memoria: El algoritmo de programación dinámica consume más memoria en redes profundas
  3. Restricción de Funciones de Activación: Principalmente dirigido a funciones de activación univariadas, requiere extensión para funciones multivariadas como softmax

Direcciones Futuras

  1. Soporte para Transformers: Extensión a inferencia privada de modelos de lenguaje grande
  2. Funciones Multivariadas: Desarrollo de métodos de aproximación para funciones como softmax
  3. Optimización Adaptativa: Ajuste dinámico de estrategias de aproximación según recursos de hardware
  4. Integración de Aprendizaje Federado: Combinación con otras técnicas de protección de privacidad

Evaluación Profunda

Fortalezas

  1. Innovación Fuerte: Primera solución sistemática del problema de optimización estratificada en PTA
  2. Teoría Sólida: Derivación matemática rigurosa, pruebas de teoremas completas
  3. Experimentación Exhaustiva: Verificación integral en múltiples conjuntos de datos y arquitecturas de modelos
  4. Alto Valor Práctico: La mejora significativa de rendimiento hace que el método tenga potencial de aplicación práctica
  5. Escritura Clara: Estructura de artículo razonable, descripción precisa de detalles técnicos

Insuficiencias

  1. Complejidad Computacional: Aunque es tiempo polinómico, aún puede enfrentar desafíos en redes a escala ultra grande
  2. Sensibilidad de Parámetros: La selección del parámetro de escala r requiere ajuste empírico
  3. Capacidad de Generalización: Principalmente verificado en arquitecturas CNN, la aplicabilidad a otras arquitecturas requiere verificación adicional
  4. Análisis de Seguridad: Carece de análisis profundo de riesgos de seguridad adicionales introducidos por aproximación

Impacto

  1. Contribución Académica: Proporciona nuevas perspectivas de optimización para el campo PPML basado en FHE
  2. Valor Práctico: Impulsa un paso importante hacia la aplicación práctica de IA con protección de privacidad
  3. Reproducibilidad: Proporciona detalles de implementación detallados y compromiso de código abierto
  4. Significado Inspirador: La idea de optimización estratificada puede extenderse a otros escenarios de computación privada

Escenarios Aplicables

  1. Servicios de IA en la Nube: Servicios de aprendizaje automático que necesitan proteger la privacidad de datos de usuarios
  2. IA Médica: Sistemas de diagnóstico que procesan datos médicos sensibles
  3. Control de Riesgos Financieros: Evaluación de crédito y análisis de riesgos con protección de privacidad
  4. Aprendizaje Federado: Como tecnología complementaria para agregación segura

Referencias

  1. Lee et al. "Low-complexity deep convolutional neural networks on fully homomorphic encryption using multiplexed convolutions." ICML 2022.
  2. Kim et al. "Optimized privacy-preserving cnn inference with fully homomorphic encryption." IEEE TIFS 2023.
  3. Gilad-Bachrach et al. "Cryptonets: Applying neural networks to encrypted data with high throughput and accuracy." ICML 2016.
  4. Cheon et al. "A full rns variant of approximate homomorphic encryption." SAC 2018.

Resumen: El método OLA propuesto en este artículo tiene importancia significativa en el campo de inferencia privada basada en FHE. Mediante optimización estratificada, mejora significativamente la eficiencia de inferencia, sentando una base importante para la aplicación práctica de IA con protección de privacidad. A pesar de algunas limitaciones, su innovación y valor práctico lo convierten en una contribución importante en este campo.