Fully Homomorphic Encryption (FHE) allows computations to be performed on encrypted data, significantly enhancing user privacy. However, the I/O challenges associated with deploying FHE applications remains understudied. We analyze the impact of storage I/O on the performance of FHE applications and summarize key lessons from the status quo. Key results include that storage I/O can degrade the performance of ASICs by as much as 357$\times$ and reduce GPUs performance by up to 22$\times$.
- ID de l'article : 2511.04946
- Titre : The Future of Fully Homomorphic Encryption System: from a Storage I/O Perspective
- Auteurs : Lei Chen, Erci Xu, Yiming Sun, Shengyu Fan, Xianglong Deng, Guiming Shi, Guang Fan, Liang Kong, Yilan Zhu, Shoumeng Yan, Mingzhe Zhang (Ant Group, Université Jiao Tong de Shanghai, Université des Sciences et Technologies de Chine, Université Tsinghua)
- Classification : cs.CR (Cryptographie et Sécurité), cs.DC (Informatique Distribuée)
- Date de Soumission : 7 novembre 2025 à arXiv
- Lien de l'article : https://arxiv.org/abs/2511.04946
Le chiffrement entièrement homomorphe (FHE) permet d'exécuter directement des calculs sur des données chiffrées, renforçant considérablement la protection de la vie privée des utilisateurs. Cependant, les défis d'entrée/sortie (E/S) rencontrés lors du déploiement d'applications FHE n'ont pas été suffisamment étudiés. Cet article analyse l'impact de l'E/S de stockage sur les performances des applications FHE et résume les enseignements clés de l'état actuel. Les résultats fondamentaux montrent que l'E/S de stockage peut réduire les performances des ASIC jusqu'à 357×, et celles des GPU jusqu'à 22×.
Cet article se concentre sur le goulot d'étranglement d'E/S de stockage gravement négligé dans le déploiement des systèmes FHE. Bien que les recherches existantes aient réalisé des progrès significatifs dans l'accélération du calcul (réduisant le ralentissement du CPU de 10^5× à seulement 3×), l'impact de l'E/S de stockage a rarement été étudié.
- Besoins réalistes des scénarios informatiques en nuage : Dans les environnements informatiques en nuage multi-utilisateurs, chaque utilisateur possède des textes chiffrés et des clés d'évaluation indépendants, dont les données peuvent dépasser la capacité de la mémoire de l'appareil
- Explosion de la taille des données : Les flux de travail FHE amplifient considérablement la taille des données (par exemple, image 3 KB → polynôme en clair 8 MB → texte chiffré 16 MB → clé d'évaluation 5 GB)
- Concurrence multi-utilisateurs : Les serveurs doivent servir plusieurs utilisateurs simultanément, sans pouvoir conserver toutes les données utilisateur dans la mémoire à large bande passante (HBM)
Les recherches existantes sur les accélérateurs FHE reposent sur deux hypothèses irréalistes :
- Hypothèse 1 : Toutes les données sont stockées dans la HBM
- Hypothèse 2 : Les frais d'accès aux données de la HBM au cache sur puce peuvent être complètement éliminés par des stratégies de préchargement statique optimal, des algorithmes d'optimisation de la réutilisation des données et un cache sur puce de grande capacité (200-500 MiB)
Ces hypothèses sont difficiles à justifier dans les déploiements informatiques en nuage réels, car :
- La capacité HBM est limitée (environ des dizaines de GB)
- Dans les environnements multi-utilisateurs, il est impossible de réserver de l'espace pour toutes les données utilisateur
- Les grands modèles (par exemple, les LLM de 13 milliards de paramètres nécessitent 26 GB de poids + 1,6 GB de cache KV) occupent une grande quantité de HBM
- Les stratégies de préchargement statique ont une efficacité limitée lorsque plusieurs applications concurrencent les ressources
Cet article évalue quantitativement et systématiquement l'impact réel de l'E/S sur les performances de FHE par le biais d'expériences, fournissant des conseils pour le déploiement réel des systèmes FHE.
- Première étude systématique : Première analyse approfondie de l'impact de l'E/S de stockage sur les performances des accélérateurs FHE, comblant une lacune majeure dans ce domaine
- Évaluation expérimentale complète : Utilisation du simulateur SimGrid pour tester des applications FHE représentatives sur divers appareils de stockage (HBM, DDR5, PCIe, RDMA) et configurations réseau
- Trois découvertes clés :
- L'accès E/S réduit considérablement les performances des applications FHE (ASIC jusqu'à 357×, GPU jusqu'à 22×)
- L'informatique distribuée ne peut pas toujours résoudre le problème ; dans certains cas, elle réduit même les performances
- L'impact des frais d'E/S varie selon l'application et les paramètres FHE
- Directions de recherche futures : Proposition de solutions telles que l'ordonnancement locality-first, le traitement près des données et les implémentations d'applications I/O-friendly
- Engagement de ressources ouvertes : Engagement de rendre publics les traces et les logiciels pour promouvoir les recherches ultérieures
Cette recherche vise à évaluer quantitativement l'impact de l'E/S de stockage sur les performances de bout en bout des applications FHE, incluant spécifiquement :
- Entrées : Différents niveaux de stockage (HBM, DDR, PCIe, RDMA), différentes configurations réseau (Ethernet, FastFabric), différentes applications (ResNet-20, HELR)
- Sorties : Métriques de performance normalisées, décomposition du temps d'exécution (calcul/E/S/communication)
- Contraintes : Simulation des scénarios de démarrage à froid et multi-utilisateurs des environnements informatiques en nuage réels
- Codage de l'entrée (par exemple, un vecteur de longueur n) en un polynôme de N coefficients (N/2 ≥ n)
- Utilisation du théorème des restes chinois (CRT) pour décomposer les grands entiers en plusieurs petits entiers (appelés limbes)
- Le modulo Q dépasse généralement 1000 bits
- Amplification des données : Image 3 KB → polynôme 8 MB (N=2^16 coefficients)
- Chiffrement du polynôme en clair en texte chiffré (contenant deux polynômes) à l'aide de la clé publique
- Introduction d'un polynôme d'erreur aléatoire pour garantir la sécurité RLWE
- Amplification des données : Clair 8 MB → texte chiffré 16 MB
Supporte 5 opérations fondamentales (voir Tableau 1) :
- PAdd/HAdd : Addition clair-texte chiffré/texte chiffré-texte chiffré, complexité O(N)
- PMult/HMult : Multiplication clair-texte chiffré/texte chiffré-texte chiffré, accélérée à O(N logN) par NTT
- HRot : Opération de rotation circulaire, utilisée pour implémenter les opérations d'accumulation
- Caractéristiques clés : HMult et HRot nécessitent d'accéder aux clés d'évaluation (ResNet-20 nécessite plus de 100 clés d'évaluation différentes, totalisant >5 GB)
Processus inverse du chiffrement et du codage
- Sharp : Accélérateur ASIC le plus avancé (ISCA 2023)
- Utilisation du simulateur de l'article original
- Ligne de base : performance idéale (hypothèse HBM suffisante, tous les optimisations activées)
- TensorFHE : Solution d'accélération GPU la plus avancée (HPCA 2023)
- Utilisation du code public sur GPU NVIDIA A100 40GB
- Ligne de base : performance optimale avec toutes les données en mémoire GPU
- HBM : Bande passante 1 TiB/s
- DDR5-5600 : 358,4 GiB/s (8 canaux)
- PCIe5 ×16 : 64 GiB/s
- RDMA Disk : 12,5 GiB/s
- Démarrage à froid : Contournement du cache de l'appareil, simulation d'environnements informatiques en nuage multi-utilisateurs
- Évaluation du débit uniquement : L'accès aux données FHE est généralement de dizaines à centaines de MB
- Simulation distribuée : Utilisation du simulateur SimGrid, topologie en étoile, support Ethernet(400Gb/s) et FastFabric(300GiB/s)
- HELR : Entraînement de régression logistique (ensemble de données MNIST, 1024 images/lot, 32 itérations d'entraînement)
- ResNet-20 : Inférence CNN (ensemble de données CIFAR-10, implémentation CKKS)
Adoption du modèle residue-polynomial-level parallelism (rPLP) :
- Représentation du grand polynôme de coefficients comme une série de petits polynômes de coefficients résiduels
- Chaque serveur calcule indépendamment les polynômes résiduels
- La plupart des opérations peuvent être calculées localement, réduisant la communication
- Première quantification de l'impact E/S : Rupture avec la limitation des recherches existantes ignorant l'E/S, évaluation systématique des scénarios de déploiement réels
- Cadre d'évaluation multidimensionnel : Analyse complète combinant niveaux de stockage, configurations réseau, types d'accélérateurs et caractéristiques d'application
- Analyse du taux de succès du cache : Révélation du taux de succès du cache requis pour atteindre les performances cibles sur différentes bandes passantes de stockage (par exemple, 80% de performance nécessite 90,2%-99,9% de taux de succès)
- Paradoxe du calcul distribué : Découverte que le calcul distribué réduit parfois les performances dans certaines configurations, remettant en question les connaissances conventionnelles
- MNIST : Utilisé pour l'entraînement de régression logistique HELR
- Taille du lot : 1024 images
- Itérations d'entraînement : 32
- CIFAR-10 : Utilisé pour l'inférence ResNet-20
- Inférence d'une seule image
- Taille de l'image : 32×32×3
- Performance normalisée : Rapport de performance par rapport à la ligne de base idéale
- Temps d'exécution : Temps d'exécution absolu (secondes)
- Décomposition du temps : Proportion des frais de calcul/E/S/communication
- Accélération : Amélioration des performances du calcul distribué par rapport à une seule machine
- Pression E/S : Nombre moyen d'octets accédés par cycle
- Ligne de base 1 (Sharp) : Hypothèse de capacité HBM illimitée, activation du préchargement, ordonnancement et optimisations de réutilisation des données
- Ligne de base 2 (TensorFHE) : Configuration optimale avec toutes les données en mémoire GPU
- Dimensions de comparaison : Différents niveaux de stockage, différents réseaux, différents nombres de serveurs (1/2/4/8/16/32)
- Simulateur Sharp :
- Coefficients polynomiaux : entiers 1555 bits
- Cache sur puce : centaines de MB
- Pression E/S : moyenne 3381 octets/cycle
- Configuration TensorFHE :
- ResNet-20 : entiers 840 bits
- HELR : entiers 1092 bits
- Pression E/S : moyenne 101 octets/cycle
- Taille de la clé d'évaluation : 5,5× celle de Sharp
- Configuration SimGrid :
- Topologie : réseau en étoile
- Profilage hors ligne de tous les noyaux GPU
- Importation des résultats de profilage pour simuler l'exécution distribuée
Réduction des Performances ASIC (Sharp) :
- HBM : ResNet-20 réduit 2,63×, HELR réduit 5,5× (moyenne 4,0×)
- DDR5 : ResNet-20 réduit 5,56×, HELR réduit 13,4×
- PCIe : ResNet-20 réduit 26,5×, HELR réduit 70,6×
- RDMA : ResNet-20 réduit 131,7×, HELR réduit 357,2× (réduction maximale)
Réduction des Performances GPU (TensorFHE) :
- HBM : Réduction légère 1,2×
- DDR5 : Réduction 1,5×
- PCIe : Réduction 3,8×
- RDMA : ResNet-20 réduit 15,2×, HELR réduit 22×
Cause Fondamentale :
- Pression E/S extrêmement élevée de Sharp (3381 octets/cycle) vs. TensorFHE (101 octets/cycle)
- La capacité de traitement relative du GPU est inférieure, la pression E/S relative est atténuée
Pour atteindre 80% des performances de base, taux de succès du cache requis :
- ResNet-20 : HBM 90,2%, DDR 96,2%, PCIe 99,3%, RDMA 99,9%
- HELR : Exigences plus élevées, RDMA nécessite un taux de succès proche de 100%
Enseignement : Le stockage à faible bande passante nécessite un taux de succès du cache extrêmement élevé, difficile à réaliser en pratique
Performance TensorFHE :
- Accélération avec 32 serveurs :
- Ethernet : 6,6× (efficace)
- FastFabric : 9,7× (plus efficace)
Performance Sharp (Situation Complexe) :
Utilisation d'Ethernet avec 32 serveurs :
- HBM : Réduction des performances 6,08× (optimisation négative !)
- DDR : Réduction des performances 2,74× (optimisation négative !)
- PCIe : Accélération 1,72×
- RDMA : Accélération 5,78×
Utilisation de FastFabric avec 32 serveurs :
- HBM : Presque aucune amélioration (0,94×)
- DDR : Accélération 1,99×
- PCIe : Accélération 6,42×
- RDMA : Accélération 11,96×
Cause Fondamentale (Décomposition du Temps Figure 7) :
Sharp utilisant 32 serveurs (PCIe+Ethernet) :
- Frais de calcul : 3,8%→0,3% (réduction significative)
- Frais E/S : 96,2%→7,2% (réduction significative)
- Frais de communication : 0%→92,5% (devient le nouveau goulot d'étranglement !)
TensorFHE utilisant 32 serveurs :
- Frais de calcul : 40,1% (toujours significatif, caractéristique du traitement par lots GPU)
- Frais E/S : 18,1%
- Frais de communication : 41,8%
HELR vs. ResNet-20 :
- HELR contient un grand nombre d'opérations de rotation (implémentation du produit interne vectoriel), nécessitant un accès fréquent aux clés d'évaluation
- Besoin E/S de HELR dans Sharp : 5130 octets/cycle vs. ResNet-20 1633 octets/cycle (3,1×)
- La réduction des performances de HELR est plus grave (par exemple, 357× sur RDMA)
Impact des Différents Paramètres FHE :
- Taille polynomiale Sharp : 1,85× celle de TensorFHE (ResNet-20) et 1,43× (HELR)
- Mais taille de la clé d'évaluation TensorFHE : 5,5× celle de Sharp
- Volume total de données E/S TensorFHE : 2,8× celui de Sharp (ResNet-20) et 4,5× (HELR)
Bien que l'article ne mène pas d'expériences d'ablation au sens traditionnel, il réalise des effets similaires par comparaison multidimensionnelle :
- Ablation du Niveau de Stockage : HBM→DDR→PCIe→RDMA, réduction progressive de la bande passante, observation des changements de performance
- Ablation de la Configuration Réseau : Ethernet vs. FastFabric, vérification de l'impact de la bande passante de communication
- Ablation du Nombre de Serveurs : 1/2/4/8/16/32 serveurs, analyse de l'extensibilité
- Comparaison des Types d'Accélérateurs : ASIC vs. GPU, révélation de la sensibilité E/S de différentes architectures
Scénario Typique de ResNet-20 sur Sharp (Stockage PCIe+Réseau Ethernet) :
- Machine unique : Temps d'exécution environ 3,8 secondes, E/S occupe 96,2%
- 32 serveurs : Temps d'exécution environ 2,2 secondes, communication occupe 92,5%
- Amélioration des Performances Limitée : Seulement 1,72× d'accélération, bien inférieure aux 32× théoriques
Cas Extrême de HELR sur Stockage RDMA :
- Réduction des performances Sharp 357×, pratiquement inutilisable
- Cause fondamentale : Bande passante faible (12,5 GiB/s) + besoin E/S élevé (5130 octets/cycle)
- Goulot d'étranglement E/S Omniprésent : Même HBM entraîne une réduction de 4× des performances
- ASIC Plus Sensible : En raison de la capacité de traitement extrêmement élevée, l'E/S devient un goulot d'étranglement grave
- Calcul Distribué Non Panacée : Dans le stockage à haute bande passante + réseau à faible bande passante, le calcul distribué réduit même les performances
- Caractéristiques d'Application Critiques : Les applications intensives en rotation (comme HELR) sont plus affectées par l'E/S
- Choix des Paramètres Important : Différents paramètres FHE entraînent différents modèles E/S et performances
L'article examine l'évolution des accélérateurs FHE (Figure 1) :
- Ligne de base CPU : Ralentissement 10^5× par rapport au calcul en clair
- Accélérateurs Précoces (2021-2022) :
- F1+ (MICRO'21)
- BTS (ISCA'22)
- CraterLake (ISCA'22)
- ARK (MICRO'22)
- Progrès Récents (2023-2024) :
- Sharp (ISCA'23) : Seulement 3× de différence
- TensorFHE (HPCA'23)
- Trinity (MICRO'24)
- HEAP (HPCA'24)
La plupart des recherches sur les accélérateurs supposent :
- Localisation des Données : Toutes les données en HBM
- Techniques d'Optimisation :
- Stratégies de préchargement statique optimal
- Optimisations d'algorithmes de réutilisation des données (par exemple, optimisation de rotation d'ARK)
- Cache sur puce de grande capacité (200-500 MiB)
- ARK 30 : L'optimisation algorithmique ne s'applique qu'aux modèles de calcul spécifiques (par exemple, rotations de même pas dans ResNet-20), non applicable à HELR et au tri
- Sharp 29 : Rapporte les performances idéales, ne considère pas les contraintes E/S réelles
- TensorFHE 21 : Implémentation GPU, pression E/S relative plus faible mais toujours affectée
- Combler le Vide : Première étude systématique de l'impact E/S
- Scénarios Réels : Considération des environnements informatiques en nuage multi-utilisateurs
- Analyse Quantitative : Fourniture de données de performance concrètes
- Évaluation Complète : Couverture de multiples configurations et applications
- L'E/S est un Goulot d'Étranglement Clé du Déploiement FHE : L'E/S de stockage peut réduire les performances des ASIC jusqu'à 357×, des GPU jusqu'à 22×, dépassant largement les bénéfices des optimisations de calcul
- Les Hypothèses Existantes Sont Irréalistes : L'hypothèse que toutes les données sont en HBM et que les frais peuvent être éliminés est difficile à justifier dans les environnements informatiques en nuage
- Le Calcul Distribué N'est Pas une Panacée : Dans certaines configurations (stockage à haute bande passante + réseau à faible bande passante), le calcul distribué réduit même les performances
- Sensibilité aux Applications et Paramètres : Différentes applications et choix de paramètres FHE entraînent des comportements E/S significativement différents
- Expériences Simulées : Utilisation du simulateur SimGrid plutôt que du matériel réel, possibilité de différences de précision
- Couverture d'Application Limitée : Seulement deux applications testées, ResNet-20 et HELR
- Schéma FHE Unique : Évaluation uniquement du schéma CKKS, non couverts BGV, BFV, TFHE, etc.
- Charge de Travail Statique : Non considération des variations de charge multi-utilisateurs dynamiques
- Modèle Réseau Simplifié : Utilisation de topologie en étoile, non considération de topologies réseau plus complexes
- Manque de Vérification de Déploiement Réel : Vérification des découvertes non effectuée dans des environnements informatiques en nuage réels
L'article propose trois directions de recherche :
- Problème : Le calcul distribué n'est pas toujours bénéfique
- Solution :
- Attribution de serveurs dédiés aux utilisateurs pour réduire l'accès E/S
- Étude des modèles d'accès utilisateur
- Ordonnancement en pipeline pour masquer les frais de changement de contexte
- Défi : Équilibre entre efficacité des ressources et performance
- Motivation : Les clés d'évaluation ne sont accédées que pour des opérations spécifiques (HRot, HMult)
- Solution :
- Intégration des composants de calcul FHE dans les appareils de stockage
- Conception d'unités de calcul spécialisées pour des opérations spécifiques
- Exécution des calculs intensifs en E/S côté stockage
- Avantage : Réduction significative de l'E/S entre l'hôte et le stockage
- Observation : L'addition FHE ne nécessite pas d'accès aux clés d'évaluation
- Solution :
- Restructuration des programmes pour exploiter les caractéristiques E/S
- Possibilité d'augmentation des frais de calcul mais réduction de l'E/S
- Combinaison avec la croissance rapide de la capacité de traitement des accélérateurs FHE
- Exemple : Remplacement de certaines opérations de multiplication/rotation par plusieurs additions
- Combler une Lacune Critique : Première étude systématique du goulot d'étranglement E/S de FHE, brisant la perspective unique de la recherche en accélération du calcul
- Importance Pratique Significative : Ciblage des scénarios réels de déploiement en nuage, plutôt que des environnements de laboratoire idéalisés
- Timing Approprié : Après des progrès significatifs en accélération du calcul FHE, identification opportune du prochain défi critique
- Évaluation Multidimensionnelle : Niveaux de stockage × configurations réseau × types d'accélérateurs × applications × nombres de serveurs
- Configurations Réalistes : Démarrage à froid, contournement du cache, simulation d'environnements informatiques en nuage multi-utilisateurs
- Comparaisons Suffisantes : Couverture de la hiérarchie de stockage complète de HBM à RDMA
- Quantification Précise : Fourniture de données de performance concrètes (par exemple, 357×, 22×) plutôt que de descriptions vagues
- Conclusions Contre-Intuitives : Le calcul distribué peut réduire les performances, remettant en question les connaissances conventionnelles
- Analyse du Taux de Succès du Cache : Révélation de l'irréalisme de l'exigence de 99,9% de taux de succès
- Décomposition du Temps : Démonstration claire du passage du goulot d'étranglement de l'E/S à la communication
- Différences d'Application : Analyse approfondie des mécanismes d'impact de différentes applications et paramètres
- Introduction Suffisante du Contexte : Explication détaillée du flux de travail FHE et de l'amplification des données
- Figures Riches : 11 figures soutiennent efficacement les arguments
- Logique Rigoureuse : Progression claire du problème → expériences → découvertes → directions
- Engagement de Reproductibilité : Engagement de rendre publics les traces et les logiciels
- Simulation Plutôt que Mesure : La simulation SimGrid peut ne pas capturer complètement le comportement du matériel réel (par exemple, cohérence du cache, délais d'ordonnancement)
- Couverture d'Application Étroite : Seulement deux applications, difficile de représenter complètement l'écosystème des applications FHE
- Schéma FHE Unique : CKKS pour les nombres flottants, non évalué pour les schémas entiers (BGV, BFV) ou binaires (TFHE, FHEW)
- Charge Statique : Non considération de l'arrivée dynamique des demandes utilisateur, des fluctuations de charge, des priorités, etc.
- Manque de Modèle Théorique : Pas d'établissement de modèle mathématique reliant les frais E/S aux paramètres système
- Stratégies de Préchargement Non Approfondies : Pas d'analyse détaillée de l'efficacité de différentes stratégies de préchargement
- Gestion du Cache Simplifiée : Non considération de stratégies complexes de remplacement du cache et du cache multi-niveaux
- Analyse de Consommation Énergétique Absente : Impact des frais E/S sur la consommation énergétique non abordé
- Manque de Détails dans les Directions Futures : Les trois directions ne sont que des descriptions conceptuelles, manquant de détails de conception
- Pas de Vérification de Prototype : Les solutions telles que le traitement près des données n'ont pas de prototype implémenté pour vérifier la faisabilité
- Analyse Insuffisante des Trade-offs : Les coûts, la complexité et les scénarios d'application de chaque solution ne sont pas suffisamment discutés
- Dépendance du Simulateur Sharp : Dépendance du simulateur de l'article original, impossibilité de vérifier sa précision
- Modèle Réseau Simplifié : La topologie en étoile ne représente pas les réseaux de centres de données réels (par exemple, Clos, Fat-tree)
- Sécurité Non Considérée : Isolation entre utilisateurs multi-utilisateurs, attaques par canal auxiliaire non abordées
- Changement de Paradigme : Extension du focus de la recherche FHE du calcul pur au niveau système
- Effet d'Avertissement : Rappel aux chercheurs de prêter attention au goulot d'étranglement E/S, évitant l'optimisation excessive du calcul
- Données de Référence : Fourniture de données de performance sous différentes configurations, pouvant servir de référence pour les recherches ultérieures
- Stimulation de la Recherche : Les trois directions futures peuvent catalyser une série de travaux ultérieurs
- Conseils de Déploiement : Fourniture de preuves quantitatives pour le déploiement FHE par les fournisseurs de services en nuage
- Conception d'Architecture : Orientation de la conception du sous-système E/S des accélérateurs FHE de prochaine génération
- Sélection de Paramètres : Aide aux développeurs d'applications FHE à choisir les paramètres FHE en fonction des caractéristiques E/S
- Évaluation des Coûts : Fourniture de prédictions de performance pour la tarification des services FHE en nuage
- Engagement Open Source : Les traces et les logiciels seront rendus publics, favorisant la vérification et l'extension
- Configuration Détaillée : Description suffisante de la configuration expérimentale, permettant la reproduction
- Dépendances de Code Public : TensorFHE utilise une implémentation publique
- Mais Défis Existants : Le simulateur Sharp n'est pas public, la reproduction complète est difficile
- Planification de Services FHE en Nuage : Évaluation par les fournisseurs de services en nuage de la faisabilité et des besoins en ressources des services FHE
- Conception d'Accélérateurs FHE : Équilibre par les concepteurs matériels entre la capacité de calcul et le sous-système E/S
- Optimisation d'Applications : Optimisation des algorithmes par les développeurs d'applications FHE en fonction des caractéristiques E/S
- Recherche Système : Exploration par les chercheurs en systèmes de stockage des modèles E/S spéciaux de FHE
- Scénarios Mono-Utilisateur : Cet article se concentre sur les environnements informatiques en nuage multi-utilisateurs, les scénarios mono-utilisateurs peuvent ne pas être limités par l'E/S
- Données de Petite Taille : Lorsque les données s'adaptent complètement à la HBM, l'impact E/S est faible
- Schémas FHE Non-CKKS : D'autres schémas FHE peuvent avoir des caractéristiques E/S différentes
- Informatique de Périphérie : Les contraintes de ressources et les modèles d'utilisation des appareils de périphérie diffèrent du nuage
- Vérification sur Matériel Réel : Déploiement et mesure dans des environnements informatiques en nuage réels
- Plus de Schémas FHE : Extension à BGV, BFV, TFHE, etc.
- Plus d'Applications : Requêtes de base de données, analyse génomique, calcul financier, etc.
- Charge Dynamique : Simulation des modèles d'arrivée réels des demandes utilisateur
- Analyse de Sécurité : Impact des optimisations E/S sur les attaques par canal auxiliaire
- Implémentation de Prototype : Implémentation d'un prototype de dispositif de stockage FHE avec traitement près des données
- Modélisation Théorique : Établissement d'un modèle de performance des frais E/S
- Algorithme d'Ordonnancement : Conception d'un ordonnanceur de tâches FHE tenant compte de la localité
L'article cite 46 références, les références clés incluent :
- 29 Sharp (ISCA'23) : Accélérateur ASIC le plus avancé, principal objet de comparaison de cet article
- 21 TensorFHE (HPCA'23) : Solution d'accélération GPU
- 30 ARK (MICRO'22) : Proposition d'optimisations de réutilisation des données
- 40 CraterLake (ISCA'22) : Conception ASIC précoce
- 15 CKKS : Schéma FHE supportant les nombres flottants, adopté dans cet article
- 12 BGV : Schéma FHE entier
- 11,20 BFV : Autre schéma entier
- 16 TFHE : Schéma FHE binaire
- 24 HELR : Entraînement de régression logistique
- 34 ResNet-20 : Inférence CNN
- 13 SimGrid : Simulateur de systèmes distribués
Évaluation Globale : Ceci est un article de recherche système avec une perspective unique, des expériences solides et des découvertes importantes. Il comble une lacune critique dans la recherche FHE - le goulot d'étranglement E/S - et fournit des avertissements et des conseils importants pour le déploiement réel de FHE. Bien qu'il présente des limitations telles que les expériences simulées et la couverture d'application limitée, sa contribution fondamentale - la révélation de la gravité du goulot d'étranglement E/S - possède une valeur académique et pratique importante. Les trois directions futures proposées, en particulier le traitement près des données, peuvent ouvrir de nouvelles voies pour la recherche sur les systèmes FHE. Pour les fournisseurs de services en nuage, les concepteurs matériels et les développeurs d'applications FHE, ceci est un article incontournable.