Fully Homomorphic Encryption (FHE) allows computations to be performed on encrypted data, significantly enhancing user privacy. However, the I/O challenges associated with deploying FHE applications remains understudied. We analyze the impact of storage I/O on the performance of FHE applications and summarize key lessons from the status quo. Key results include that storage I/O can degrade the performance of ASICs by as much as 357$\times$ and reduce GPUs performance by up to 22$\times$.
- ID del Artículo: 2511.04946
- Título: The Future of Fully Homomorphic Encryption System: from a Storage I/O Perspective
- Autores: Lei Chen, Erci Xu, Yiming Sun, Shengyu Fan, Xianglong Deng, Guiming Shi, Guang Fan, Liang Kong, Yilan Zhu, Shoumeng Yan, Mingzhe Zhang (del Grupo Ant, Universidad Jiao Tong de Shanghai, Universidad de Ciencias y Tecnología de China, Universidad Tsinghua)
- Clasificación: cs.CR (Criptografía y Seguridad), cs.DC (Computación Distribuida)
- Fecha de Publicación: Enviado a arXiv el 7 de noviembre de 2025
- Enlace del Artículo: https://arxiv.org/abs/2511.04946
El cifrado totalmente homomórfico (FHE) permite ejecutar cálculos directamente sobre datos cifrados, mejorando significativamente la protección de la privacidad del usuario. Sin embargo, los desafíos de E/S de almacenamiento en la implementación de aplicaciones FHE aún no han sido suficientemente investigados. Este artículo analiza el impacto de la E/S de almacenamiento en el rendimiento de aplicaciones FHE y resume las lecciones clave del estado actual. Los resultados principales muestran que: la E/S de almacenamiento puede reducir el rendimiento de ASIC hasta 357×, y el rendimiento de GPU hasta 22×.
Este artículo se enfoca en el cuello de botella de E/S de almacenamiento, gravemente descuidado en la implementación de sistemas FHE. Aunque la investigación existente ha logrado avances significativos en aceleración computacional (reduciendo la lentitud de CPU de 10^5× a solo 3×), el impacto de la E/S de almacenamiento ha sido poco estudiado.
- Necesidades reales en escenarios de computación en la nube: En entornos multinusuario en la nube, cada usuario posee textos cifrados independientes y claves de evaluación (evaluation keys), cuyos datos pueden exceder la capacidad de memoria del dispositivo
- Explosión de escala de datos: Los flujos de trabajo FHE amplifican significativamente la escala de datos (por ejemplo, imagen de 3KB → polinomio de texto plano de 8MB → texto cifrado de 16MB → clave de evaluación de 5GB)
- Concurrencia multiusuario: Los servidores deben servir simultáneamente a múltiples usuarios, sin poder mantener todos los datos de usuario en memoria de ancho de banda alto (HBM)
La investigación de aceleradores FHE existentes se basa en dos suposiciones poco realistas:
- Suposición 1: Todos los datos se almacenan en HBM
- Suposición 2: Los gastos de obtención de datos de HBM a caché en chip pueden eliminarse completamente mediante estrategias de prefetch estáticas óptimas, algoritmos de reutilización de datos y caché en chip de gran capacidad (200-500 MiB)
Estas suposiciones son difíciles de mantener en implementaciones reales de computación en la nube, porque:
- La capacidad de HBM es limitada (aproximadamente decenas de GB)
- En entornos multiusuario, no se puede reservar espacio para todos los datos de usuario
- Los modelos grandes (como LLM de 13B parámetros requieren 26GB de pesos + 1.6GB de caché KV) ocupan gran cantidad de HBM
- Las estrategias de prefetch estáticas tienen efecto limitado cuando múltiples aplicaciones compiten por recursos
Este artículo evalúa cuantitativamente el impacto real de la E/S en el rendimiento de FHE mediante experimentos sistemáticos, proporcionando orientación para la implementación práctica de sistemas FHE.
- Primer estudio sistemático: Primer análisis profundo del impacto de la E/S de almacenamiento en el rendimiento de aceleradores FHE, llenando un vacío en la investigación de este campo
- Evaluación experimental integral: Utilizando el simulador SimGrid, pruebas de aplicaciones FHE representativas bajo múltiples dispositivos de almacenamiento (HBM, DDR5, PCIe, RDMA) y configuraciones de red
- Tres hallazgos clave:
- El acceso a E/S reduce significativamente el rendimiento de aplicaciones FHE (máximo 357× en ASIC, máximo 22× en GPU)
- La computación distribuida no siempre resuelve el problema, en algunos casos reduce el rendimiento
- El impacto del gasto de E/S varía según la aplicación y la configuración de parámetros FHE
- Direcciones de investigación futura: Propone soluciones como programación locality-first, procesamiento cercano a datos, e implementaciones de aplicaciones amigables con E/S
- Compromiso de recursos abiertos: Se compromete a publicar traces y software para promover investigación posterior
Esta investigación tiene como objetivo cuantificar el impacto de la E/S de almacenamiento en el rendimiento de extremo a extremo de aplicaciones FHE, incluyendo específicamente:
- Entrada: Diferentes niveles de almacenamiento (HBM, DDR, PCIe, RDMA), diferentes configuraciones de red (Ethernet, FastFabric), diferentes aplicaciones (ResNet-20, HELR)
- Salida: Métricas de rendimiento normalizadas, descomposición de tiempo de ejecución (computación/E/S/comunicación)
- Restricciones: Simulación de arranque en frío y escenarios multiusuario en entornos de nube reales
- Codifica la entrada (como un vector de longitud n) en un polinomio de N coeficientes (N/2 ≥ n)
- Utiliza el Teorema Chino del Resto (CRT) para descomponer enteros grandes en múltiples enteros pequeños (llamados limbs)
- El módulo Q típicamente excede 1000 bits
- Ampliación de datos: Imagen de 3KB → polinomio de 8MB (N=2^16 coeficientes)
- Utiliza la clave pública para cifrar el polinomio de texto plano en texto cifrado (contiene dos polinomios)
- Introduce polinomios de error aleatorio para garantizar la seguridad RLWE
- Ampliación de datos: Texto plano de 8MB → texto cifrado de 16MB
Soporta 5 operaciones básicas (ver Tabla 1):
- PAdd/HAdd: Adición de texto plano-cifrado/cifrado-cifrado, complejidad O(N)
- PMult/HMult: Multiplicación de texto plano-cifrado/cifrado-cifrado, acelerada a O(N logN) usando NTT
- HRot: Operación de rotación circular, utilizada para implementar operaciones acumulativas
- Características clave: HMult y HRot requieren acceso a claves de evaluación (ResNet-20 requiere más de 100 claves de evaluación diferentes, totalizando >5GB)
Procesos inversos de cifrado y codificación
- Sharp: Acelerador ASIC más avanzado (ISCA 2023)
- Utiliza el simulador del artículo original
- Línea base: rendimiento ideal (asumiendo HBM suficientemente grande, con todas las optimizaciones habilitadas)
- TensorFHE: Solución de aceleración GPU más avanzada (HPCA 2023)
- Utiliza código público ejecutado en GPU NVIDIA A100 40GB
- Línea base: rendimiento óptimo con todos los datos en memoria GPU
- HBM: Ancho de banda de 1 TiB/s
- DDR5-5600: 358.4 GiB/s (8 canales)
- PCIe5 ×16: 64 GiB/s
- RDMA Disk: 12.5 GiB/s
- Arranque en frío: Evita caché de dispositivo, simulando entorno de nube multiusuario
- Solo evaluación de rendimiento: El acceso a datos FHE típicamente es de decenas a cientos de MB
- Simulación distribuida: Utiliza simulador SimGrid, topología de estrella, soporta Ethernet (400Gb/s) y FastFabric (300GiB/s)
- HELR: Entrenamiento de regresión logística (conjunto de datos MNIST, 1024 imágenes/lote, 32 iteraciones de entrenamiento)
- ResNet-20: Inferencia CNN (conjunto de datos CIFAR-10, implementación usando CKKS)
Adopta el modelo de paralelismo residue-polynomial-level (rPLP):
- Representa polinomios de coeficientes grandes como una serie de polinomios residuales de coeficientes pequeños
- Cada servidor calcula polinomios residuales independientes
- La mayoría de operaciones pueden calcularse localmente, reduciendo comunicación
- Primera cuantificación del impacto de E/S: Rompe la limitación de investigación existente que ignora E/S, evaluando sistemáticamente escenarios de implementación reales
- Marco de evaluación multidimensional: Análisis integral que combina niveles de almacenamiento, configuraciones de red, tipos de acelerador y características de aplicación
- Análisis de tasa de acierto de caché: Revela la tasa de acierto de caché requerida para lograr rendimiento objetivo bajo diferentes anchos de banda de almacenamiento (por ejemplo, 80% de rendimiento requiere 90.2%-99.9% de tasa de acierto)
- Paradoja de computación distribuida: Descubre que la computación distribuida en algunas configuraciones reduce el rendimiento, desafiando el conocimiento convencional
- MNIST: Utilizado para entrenamiento de regresión logística HELR
- Tamaño de lote: 1024 imágenes
- Iteraciones de entrenamiento: 32
- CIFAR-10: Utilizado para inferencia ResNet-20
- Inferencia de imagen única
- Tamaño de imagen: 32×32×3
- Rendimiento normalizado: Relación de rendimiento relativa a la línea base ideal
- Tiempo de ejecución: Tiempo de ejecución absoluto (segundos)
- Descomposición de tiempo: Proporción de gastos de computación/E/S/comunicación
- Aceleración: Mejora de rendimiento de computación distribuida relativa a máquina única
- Presión de E/S: Promedio de bytes accedidos por ciclo
- Línea base 1 (Sharp): Asume capacidad HBM ilimitada, con optimizaciones de prefetch, programación y reutilización de datos habilitadas
- Línea base 2 (TensorFHE): Configuración óptima con todos los datos en memoria GPU
- Dimensiones de comparación: Diferentes niveles de almacenamiento, diferentes redes, diferentes números de servidores (1/2/4/8/16/32)
- Simulador Sharp:
- Coeficientes de polinomio: enteros de 1555 bits
- Caché en chip: cientos de MB
- Presión de E/S: promedio 3381 bytes/ciclo
- Configuración TensorFHE:
- ResNet-20: enteros de 840 bits
- HELR: enteros de 1092 bits
- Presión de E/S: promedio 101 bytes/ciclo
- Tamaño de clave de evaluación: 5.5× del de Sharp
- Configuración SimGrid:
- Topología: red de estrella
- Profiling offline de todos los kernels GPU
- Importa resultados de profiling para simular ejecución distribuida
Reducción de rendimiento ASIC (Sharp):
- HBM: ResNet-20 reduce 2.63×, HELR reduce 5.5× (promedio 4.0×)
- DDR5: ResNet-20 reduce 5.56×, HELR reduce 13.4×
- PCIe: ResNet-20 reduce 26.5×, HELR reduce 70.6×
- RDMA: ResNet-20 reduce 131.7×, HELR reduce 357.2× (reducción máxima)
Reducción de rendimiento GPU (TensorFHE):
- HBM: Reducción ligera de 1.2×
- DDR5: Reducción de 1.5×
- PCIe: Reducción de 3.8×
- RDMA: ResNet-20 reduce 15.2×, HELR reduce 22×
Causa fundamental:
- La presión de E/S de Sharp es extremadamente alta (3381 bytes/ciclo) vs. TensorFHE (101 bytes/ciclo)
- La capacidad de procesamiento de GPU es relativamente baja, la presión de E/S es relativamente moderada
Para lograr 80% del rendimiento de línea base, la tasa de acierto de caché requerida:
- ResNet-20: HBM 90.2%, DDR 96.2%, PCIe 99.3%, RDMA 99.9%
- HELR: Requisitos más altos, RDMA requiere tasa de acierto cercana a 100%
Implicación: El almacenamiento de bajo ancho de banda requiere tasa de acierto de caché extremadamente alta, prácticamente difícil de lograr
Rendimiento de TensorFHE:
- Aceleración con 32 servidores:
- Ethernet: 6.6× (efectivo)
- FastFabric: 9.7× (más efectivo)
Rendimiento de Sharp (situación compleja):
Usando Ethernet con 32 servidores:
- HBM: Rendimiento reduce 6.08× (¡optimización negativa!)
- DDR: Rendimiento reduce 2.74× (¡optimización negativa!)
- PCIe: Aceleración 1.72×
- RDMA: Aceleración 5.78×
Usando FastFabric con 32 servidores:
- HBM: Casi sin mejora (0.94×)
- DDR: Aceleración 1.99×
- PCIe: Aceleración 6.42×
- RDMA: Aceleración 11.96×
Causa fundamental (Figura 7 descomposición de tiempo):
Sharp usando 32 servidores (PCIe+Ethernet):
- Gasto de computación: 3.8%→0.3% (reducción significativa)
- Gasto de E/S: 96.2%→7.2% (reducción significativa)
- Gasto de comunicación: 0%→92.5% (¡se convierte en nuevo cuello de botella!)
TensorFHE usando 32 servidores:
- Gasto de computación: 40.1% (aún significativo, característica de procesamiento por lotes de GPU)
- Gasto de E/S: 18.1%
- Gasto de comunicación: 41.8%
HELR vs. ResNet-20:
- HELR contiene gran cantidad de operaciones de rotación (implementa producto interno de vectores), requiere acceso frecuente a claves de evaluación
- Requisito de E/S de HELR en Sharp: 5130 bytes/ciclo vs. ResNet-20 de 1633 bytes/ciclo (3.1×)
- La reducción de rendimiento de HELR es más severa (por ejemplo, 357× en RDMA)
Impacto de diferentes parámetros FHE:
- Tamaño de polinomio de Sharp: 1.85× de TensorFHE (ResNet-20) y 1.43× (HELR)
- Pero tamaño de clave de evaluación de TensorFHE: 5.5× de Sharp
- Volumen total de E/S de TensorFHE: 2.8× de Sharp (ResNet-20) y 4.5× (HELR)
Aunque el artículo no realiza experimentos de ablación tradicionales, logra efectos similares mediante comparación multidimensional:
- Ablación de nivel de almacenamiento: HBM→DDR→PCIe→RDMA, ancho de banda progresivamente reducido, observar cambios de rendimiento
- Ablación de configuración de red: Ethernet vs. FastFabric, verificar impacto de ancho de banda de comunicación
- Ablación de número de servidores: 1/2/4/8/16/32 servidores, analizar escalabilidad
- Comparación de tipo de acelerador: ASIC vs. GPU, revelar sensibilidad de E/S de diferentes arquitecturas
Escenario típico de ResNet-20 en Sharp (almacenamiento PCIe + red Ethernet):
- Máquina única: Tiempo de ejecución aproximadamente 3.8 segundos, E/S ocupa 96.2%
- 32 servidores: Tiempo de ejecución aproximadamente 2.2 segundos, comunicación ocupa 92.5%
- Mejora de rendimiento limitada: Solo aceleración de 1.72×, muy por debajo del teórico 32×
Caso extremo de HELR en almacenamiento RDMA:
- Rendimiento de Sharp reduce 357×, prácticamente inutilizable
- Causa fundamental: bajo ancho de banda (12.5 GiB/s) + alto requisito de E/S (5130 bytes/ciclo)
- Cuello de botella de E/S ubicuo: Incluso HBM causa reducción de rendimiento de 4×
- ASIC más sensible: Debido a capacidad de procesamiento extremadamente alta, E/S se convierte en cuello de botella severo
- Computación distribuida no es panacea: En almacenamiento de alto ancho de banda + red de bajo ancho de banda, la distribución reduce rendimiento
- Características de aplicación críticas: Aplicaciones intensivas en rotación (como HELR) se ven más afectadas por E/S
- Selección de parámetros importante: Diferentes parámetros FHE resultan en diferentes patrones de E/S y rendimiento
El artículo revisa la evolución de aceleradores FHE (Figura 1):
- Línea base CPU: 10^5× más lento que computación de texto plano
- Aceleradores tempranos (2021-2022):
- F1+ (MICRO'21)
- BTS (ISCA'22)
- CraterLake (ISCA'22)
- ARK (MICRO'22)
- Progreso reciente (2023-2024):
- Sharp (ISCA'23): solo 3× diferencia
- TensorFHE (HPCA'23)
- Trinity (MICRO'24)
- HEAP (HPCA'24)
La mayoría de investigación de aceleradores asume:
- Ubicación de datos: Todos los datos en HBM
- Técnicas de optimización:
- Estrategias de prefetch estáticas óptimas
- Optimización de algoritmos de reutilización de datos (como optimización de rotación de ARK)
- Caché en chip de gran capacidad (200-500 MiB)
- ARK 30: Optimización de algoritmo solo aplicable a patrones de computación específicos (como rotaciones de paso igual en ResNet-20), no aplicable a HELR y ordenamiento
- Sharp 29: Reporta rendimiento ideal, no considera restricciones reales de E/S
- TensorFHE 21: Implementación GPU, presión de E/S relativamente menor pero aún afectada
- Llena vacío: Primer estudio sistemático del impacto de E/S
- Escenario real: Considera entorno de nube multiusuario
- Análisis cuantitativo: Proporciona datos de rendimiento específicos
- Evaluación integral: Cubre múltiples configuraciones y aplicaciones
- E/S es cuello de botella clave en implementación FHE: La E/S de almacenamiento puede reducir rendimiento de ASIC hasta 357×, GPU hasta 22×, muy superior a los beneficios de optimización computacional
- Suposiciones existentes poco realistas: Las suposiciones de que todos los datos están en HBM y los gastos pueden eliminarse son difíciles de mantener en entornos de nube
- Computación distribuida no es solución universal: En algunas configuraciones (almacenamiento de alto ancho de banda + red de bajo ancho de banda), la distribución reduce rendimiento
- Sensibilidad a aplicación y parámetros: Diferentes aplicaciones y selecciones de parámetros FHE resultan en comportamientos de E/S significativamente diferentes
- Experimentos de simulación: Utiliza simulador SimGrid en lugar de hardware real, puede haber diferencias de precisión
- Cobertura de aplicación limitada: Solo prueba dos aplicaciones, ResNet-20 y HELR
- Esquema FHE único: Solo evalúa esquema CKKS, no cubre BGV, BFV, TFHE, etc.
- Carga de trabajo estática: No considera cambios dinámicos de carga multiusuario
- Modelo de red simplificado: Utiliza topología de estrella, no considera topologías de red más complejas
- Falta verificación de implementación real: No verifica hallazgos en entornos de nube reales
El artículo propone tres direcciones de investigación:
- Problema: Computación distribuida no siempre es beneficiosa
- Solución:
- Asignar servidores dedicados a usuarios para reducir acceso a E/S
- Investigar patrones de acceso de usuario
- Canalizar acceso para ocultar gastos de cambio de contexto
- Desafío: Equilibrar eficiencia de recursos con rendimiento
- Motivación: Claves de evaluación solo se acceden en operaciones específicas (HRot, HMult)
- Solución:
- Integrar componentes de computación FHE en dispositivos de almacenamiento
- Diseñar unidades de computación especializadas para operaciones específicas
- Ejecutar computación intensiva en E/S en extremo de almacenamiento
- Ventaja: Reduce significativamente gastos de E/S entre host y almacenamiento
- Observación: Adición FHE no requiere acceso a claves de evaluación
- Solución:
- Reestructurar programas para aprovechar características de E/S
- Puede aumentar gasto computacional pero reducir E/S
- Combinar con capacidad de acelerador FHE en rápido crecimiento
- Ejemplo: Reemplazar algunas operaciones de multiplicación/rotación con múltiples adiciones
- Llena vacío crítico: Primer estudio sistemático del cuello de botella de E/S en FHE, rompiendo perspectiva única de investigación de aceleración computacional
- Significado práctico importante: Dirigido a escenarios reales de implementación en nube, no entorno de laboratorio idealizado
- Tiempo oportuno: Después de logros significativos en aceleración computacional FHE, señala oportunamente el próximo desafío crítico
- Evaluación multidimensional: Nivel de almacenamiento × configuración de red × tipo de acelerador × aplicación × número de servidores
- Configuración realista: Arranque en frío, evitar caché, simular entorno de nube multiusuario
- Comparación suficiente: Cubre jerarquía de almacenamiento completa desde HBM a RDMA
- Cuantificación precisa: Proporciona datos de rendimiento específicos (como 357×, 22×) en lugar de descripciones vagas
- Conclusiones contra-intuitivas: Computación distribuida puede reducir rendimiento, desafiando conocimiento convencional
- Análisis de tasa de acierto de caché: Revela irrealidad de requisito de 99.9% de tasa de acierto
- Descomposición de tiempo: Muestra claramente proceso de cuello de botella moviéndose de E/S a comunicación
- Diferencias de aplicación: Análisis profundo de impacto de diferentes aplicaciones y parámetros
- Introducción de contexto suficiente: Explicación detallada de flujo de trabajo FHE y ampliación de datos
- Figuras ricas: 11 figuras apoyan efectivamente argumentos
- Lógica rigurosa: De problema → experimento → hallazgo → dirección, niveles claros
- Compromiso de reproducibilidad: Se compromete a publicar traces y software
- Simulación en lugar de medición real: Simulación SimGrid puede no capturar completamente comportamiento de hardware real (como coherencia de caché, latencia de programación)
- Cobertura de aplicación estrecha: Solo dos aplicaciones, difícil representar completamente ecosistema de aplicaciones FHE
- Esquema FHE único: CKKS para números de punto flotante, no evalúa esquemas de enteros (BGV, BFV) o esquemas binarios (TFHE, FHEW)
- Carga estática: No considera llegada dinámica de solicitudes de usuario, fluctuación de carga, prioridades
- Falta modelo teórico: No establece modelo matemático de gasto de E/S vs. parámetros del sistema
- Estrategia de prefetch no profunda: No analiza detalladamente efectos de diferentes estrategias de prefetch
- Gestión de caché simplificada: No considera estrategias complejas de reemplazo de caché y caché multinivel
- Análisis de potencia faltante: Impacto de gasto de E/S en consumo de energía no cubierto
- Falta detalle en direcciones futuras: Tres direcciones solo descripción conceptual, falta diseño específico
- Sin verificación de prototipo: Soluciones como procesamiento cercano a datos sin verificación de prototipo de viabilidad
- Análisis de trade-off insuficiente: Costo, complejidad, escenarios aplicables de cada solución no suficientemente discutidos
- Dependencia de simulador Sharp: Depende de simulador de artículo original, no puede verificar precisión
- Modelo de red simplificado: Topología de estrella no representa red de centro de datos real (como Clos, Fat-tree)
- Seguridad no considerada: Aislamiento entre usuarios multiusuario, ataques de canal lateral no cubiertos
- Cambio de paradigma: Extiende enfoque de investigación FHE de computación pura a nivel de sistema
- Efecto de advertencia: Recuerda a investigadores prestar atención a cuello de botella de E/S, evitar optimización excesiva de computación
- Datos de referencia: Proporciona datos de rendimiento bajo diferentes configuraciones, puede servir como referencia para investigación posterior
- Estimula investigación: Tres direcciones futuras pueden catalizar serie de trabajos posteriores
- Orientación de implementación: Proporciona base cuantitativa para implementación FHE en nube por proveedores de servicios
- Diseño de arquitectura: Guía diseño de subsistema de E/S de próxima generación de aceleradores FHE
- Selección de parámetros: Ayuda a desarrolladores de aplicaciones seleccionar parámetros FHE según características de E/S
- Evaluación de costo: Proporciona predicción de rendimiento para fijación de precios de servicio FHE en nube
- Compromiso de código abierto: Traces y software serán publicados, facilitando verificación y extensión
- Configuración detallada: Descripción de configuración experimental suficiente, reproducible
- Dependencia de código público: TensorFHE utiliza implementación pública
- Pero desafío existe: Simulador Sharp no público, reproducción completa difícil
- Planificación de servicio FHE en nube: Proveedores de servicios en nube evalúan viabilidad y requisitos de recursos de servicio FHE
- Diseño de acelerador FHE: Diseñadores de hardware equilibran capacidad computacional con subsistema de E/S
- Optimización de aplicación: Desarrolladores de aplicación FHE optimizan algoritmos según características de E/S
- Investigación de sistema: Investigadores de sistema de almacenamiento exploran patrones de E/S especiales de FHE
- Escenario de usuario único: Artículo enfocado en entorno multinusuario en nube, usuario único puede no estar limitado por E/S
- Datos pequeños: Cuando datos completamente caben en HBM, impacto de E/S menor
- Esquema FHE no-CKKS: Otros esquemas FHE pueden tener características de E/S diferentes
- Computación de borde: Restricciones de recursos y modelos de uso de dispositivos de borde diferentes de nube
- Verificación en hardware real: Implementación y medición en entorno de nube real
- Más esquemas FHE: Extensión a BGV, BFV, TFHE, etc.
- Más aplicaciones: Consultas de base de datos, análisis genómico, computación financiera, etc.
- Carga dinámica: Simulación de patrón de llegada de solicitud de usuario real
- Análisis de seguridad: Impacto de optimización de E/S en ataques de canal lateral
- Implementación de prototipo: Implementar prototipo de dispositivo de almacenamiento FHE con procesamiento cercano a datos
- Modelado teórico: Establecer modelo de rendimiento de gasto de E/S
- Algoritmo de programación: Diseñar programador de tareas FHE consciente de localidad
El artículo cita 46 referencias, incluyendo referencias clave:
- 29 Sharp (ISCA'23): Acelerador ASIC más avanzado, principal objeto de comparación en este artículo
- 21 TensorFHE (HPCA'23): Solución de aceleración GPU
- 30 ARK (MICRO'22): Propone optimización de reutilización de datos
- 40 CraterLake (ISCA'22): Diseño ASIC temprano
- 15 CKKS: Esquema FHE que soporta números de punto flotante, adoptado en este artículo
- 12 BGV: Esquema FHE de enteros
- 11,20 BFV: Otro esquema de enteros
- 16 TFHE: Esquema FHE binario
- 24 HELR: Entrenamiento de regresión logística
- 34 ResNet-20: Inferencia CNN
- 13 SimGrid: Simulador de sistema distribuido
Evaluación General: Este es un artículo de investigación de sistema con perspectiva única, experimentos sólidos y hallazgos importantes. Llena un vacío crítico en investigación FHE sobre el cuello de botella de E/S, proporcionando advertencia importante y orientación para implementación práctica de FHE. Aunque existen limitaciones como experimentos de simulación y cobertura de aplicación limitada, su contribución principal—revelar severidad del cuello de botella de E/S—posee valor académico y práctico importante. Las tres direcciones futuras propuestas, especialmente procesamiento cercano a datos, pueden liderar nueva dirección en investigación de sistemas FHE. Para proveedores de servicios en nube, diseñadores de hardware y desarrolladores de aplicaciones FHE, este es un artículo de lectura obligatoria.