2025-11-14T18:25:11.461015

The Future of Fully Homomorphic Encryption System: from a Storage I/O Perspective

Chen, Xu, Sun et al.

Fully Homomorphic Encryption (FHE) allows computations to be performed on encrypted data, significantly enhancing user privacy. However, the I/O challenges associated with deploying FHE applications remains understudied. We analyze the impact of storage I/O on the performance of FHE applications and summarize key lessons from the status quo. Key results include that storage I/O can degrade the performance of ASICs by as much as 357$\times$ and reduce GPUs performance by up to 22$\times$.

academic

L'Avenir des Systèmes de Chiffrement Entièrement Homomorphe : une Perspective d'Entrée/Sortie de Stockage

Informations Fondamentales

ID de l'article : 2511.04946
Titre : The Future of Fully Homomorphic Encryption System: from a Storage I/O Perspective
Auteurs : Lei Chen, Erci Xu, Yiming Sun, Shengyu Fan, Xianglong Deng, Guiming Shi, Guang Fan, Liang Kong, Yilan Zhu, Shoumeng Yan, Mingzhe Zhang (Ant Group, Université Jiao Tong de Shanghai, Université des Sciences et Technologies de Chine, Université Tsinghua)
Classification : cs.CR (Cryptographie et Sécurité), cs.DC (Informatique Distribuée)
Date de Soumission : 7 novembre 2025 à arXiv
Lien de l'article : https://arxiv.org/abs/2511.04946

Résumé

Le chiffrement entièrement homomorphe (FHE) permet d'exécuter directement des calculs sur des données chiffrées, renforçant considérablement la protection de la vie privée des utilisateurs. Cependant, les défis d'entrée/sortie (E/S) rencontrés lors du déploiement d'applications FHE n'ont pas été suffisamment étudiés. Cet article analyse l'impact de l'E/S de stockage sur les performances des applications FHE et résume les enseignements clés de l'état actuel. Les résultats fondamentaux montrent que l'E/S de stockage peut réduire les performances des ASIC jusqu'à 357×, et celles des GPU jusqu'à 22×.

Contexte et Motivation de la Recherche

Problème à Résoudre

Cet article se concentre sur le goulot d'étranglement d'E/S de stockage gravement négligé dans le déploiement des systèmes FHE. Bien que les recherches existantes aient réalisé des progrès significatifs dans l'accélération du calcul (réduisant le ralentissement du CPU de 10^5× à seulement 3×), l'impact de l'E/S de stockage a rarement été étudié.

Importance du Problème

Besoins réalistes des scénarios informatiques en nuage : Dans les environnements informatiques en nuage multi-utilisateurs, chaque utilisateur possède des textes chiffrés et des clés d'évaluation indépendants, dont les données peuvent dépasser la capacité de la mémoire de l'appareil
Explosion de la taille des données : Les flux de travail FHE amplifient considérablement la taille des données (par exemple, image 3 KB → polynôme en clair 8 MB → texte chiffré 16 MB → clé d'évaluation 5 GB)
Concurrence multi-utilisateurs : Les serveurs doivent servir plusieurs utilisateurs simultanément, sans pouvoir conserver toutes les données utilisateur dans la mémoire à large bande passante (HBM)

Limitations des Approches Existantes

Les recherches existantes sur les accélérateurs FHE reposent sur deux hypothèses irréalistes :

Hypothèse 1 : Toutes les données sont stockées dans la HBM
Hypothèse 2 : Les frais d'accès aux données de la HBM au cache sur puce peuvent être complètement éliminés par des stratégies de préchargement statique optimal, des algorithmes d'optimisation de la réutilisation des données et un cache sur puce de grande capacité (200-500 MiB)

Ces hypothèses sont difficiles à justifier dans les déploiements informatiques en nuage réels, car :

La capacité HBM est limitée (environ des dizaines de GB)
Dans les environnements multi-utilisateurs, il est impossible de réserver de l'espace pour toutes les données utilisateur
Les grands modèles (par exemple, les LLM de 13 milliards de paramètres nécessitent 26 GB de poids + 1,6 GB de cache KV) occupent une grande quantité de HBM
Les stratégies de préchargement statique ont une efficacité limitée lorsque plusieurs applications concurrencent les ressources

Motivation de la Recherche

Cet article évalue quantitativement et systématiquement l'impact réel de l'E/S sur les performances de FHE par le biais d'expériences, fournissant des conseils pour le déploiement réel des systèmes FHE.

Contributions Fondamentales

Première étude systématique : Première analyse approfondie de l'impact de l'E/S de stockage sur les performances des accélérateurs FHE, comblant une lacune majeure dans ce domaine
Évaluation expérimentale complète : Utilisation du simulateur SimGrid pour tester des applications FHE représentatives sur divers appareils de stockage (HBM, DDR5, PCIe, RDMA) et configurations réseau
Trois découvertes clés :
- L'accès E/S réduit considérablement les performances des applications FHE (ASIC jusqu'à 357×, GPU jusqu'à 22×)
- L'informatique distribuée ne peut pas toujours résoudre le problème ; dans certains cas, elle réduit même les performances
- L'impact des frais d'E/S varie selon l'application et les paramètres FHE
Directions de recherche futures : Proposition de solutions telles que l'ordonnancement locality-first, le traitement près des données et les implémentations d'applications I/O-friendly
Engagement de ressources ouvertes : Engagement de rendre publics les traces et les logiciels pour promouvoir les recherches ultérieures

Explication Détaillée de la Méthodologie

Définition de la Tâche

Cette recherche vise à évaluer quantitativement l'impact de l'E/S de stockage sur les performances de bout en bout des applications FHE, incluant spécifiquement :

Entrées : Différents niveaux de stockage (HBM, DDR, PCIe, RDMA), différentes configurations réseau (Ethernet, FastFabric), différentes applications (ResNet-20, HELR)
Sorties : Métriques de performance normalisées, décomposition du temps d'exécution (calcul/E/S/communication)
Contraintes : Simulation des scénarios de démarrage à froid et multi-utilisateurs des environnements informatiques en nuage réels

Explication Détaillée du Flux de Travail FHE

1. Codage (Encode)

Codage de l'entrée (par exemple, un vecteur de longueur n) en un polynôme de N coefficients (N/2 ≥ n)
Utilisation du théorème des restes chinois (CRT) pour décomposer les grands entiers en plusieurs petits entiers (appelés limbes)
Le modulo Q dépasse généralement 1000 bits
Amplification des données : Image 3 KB → polynôme 8 MB (N=2^16 coefficients)

2. Chiffrement (Encrypt)

Chiffrement du polynôme en clair en texte chiffré (contenant deux polynômes) à l'aide de la clé publique
Introduction d'un polynôme d'erreur aléatoire pour garantir la sécurité RLWE
Amplification des données : Clair 8 MB → texte chiffré 16 MB

3. Calcul (Compute)

Supporte 5 opérations fondamentales (voir Tableau 1) :

PAdd/HAdd : Addition clair-texte chiffré/texte chiffré-texte chiffré, complexité O(N)
PMult/HMult : Multiplication clair-texte chiffré/texte chiffré-texte chiffré, accélérée à O(N logN) par NTT
HRot : Opération de rotation circulaire, utilisée pour implémenter les opérations d'accumulation
Caractéristiques clés : HMult et HRot nécessitent d'accéder aux clés d'évaluation (ResNet-20 nécessite plus de 100 clés d'évaluation différentes, totalisant >5 GB)

4. Déchiffrement et Décodage (Decrypt & Decode)

Processus inverse du chiffrement et du codage

Conception de l'Architecture Expérimentale

Sélection des Accélérateurs

Sharp : Accélérateur ASIC le plus avancé (ISCA 2023)
- Utilisation du simulateur de l'article original
- Ligne de base : performance idéale (hypothèse HBM suffisante, tous les optimisations activées)
TensorFHE : Solution d'accélération GPU la plus avancée (HPCA 2023)
- Utilisation du code public sur GPU NVIDIA A100 40GB
- Ligne de base : performance optimale avec toutes les données en mémoire GPU

Niveaux de Stockage

HBM : Bande passante 1 TiB/s
DDR5-5600 : 358,4 GiB/s (8 canaux)
PCIe5 ×16 : 64 GiB/s
RDMA Disk : 12,5 GiB/s

Configuration Expérimentale

Démarrage à froid : Contournement du cache de l'appareil, simulation d'environnements informatiques en nuage multi-utilisateurs
Évaluation du débit uniquement : L'accès aux données FHE est généralement de dizaines à centaines de MB
Simulation distribuée : Utilisation du simulateur SimGrid, topologie en étoile, support Ethernet(400Gb/s) et FastFabric(300GiB/s)

Charges de Travail d'Application

HELR : Entraînement de régression logistique (ensemble de données MNIST, 1024 images/lot, 32 itérations d'entraînement)
ResNet-20 : Inférence CNN (ensemble de données CIFAR-10, implémentation CKKS)

Modèle de Parallélisation

Adoption du modèle residue-polynomial-level parallelism (rPLP) :

Représentation du grand polynôme de coefficients comme une série de petits polynômes de coefficients résiduels
Chaque serveur calcule indépendamment les polynômes résiduels
La plupart des opérations peuvent être calculées localement, réduisant la communication

Points d'Innovation Technique

Première quantification de l'impact E/S : Rupture avec la limitation des recherches existantes ignorant l'E/S, évaluation systématique des scénarios de déploiement réels
Cadre d'évaluation multidimensionnel : Analyse complète combinant niveaux de stockage, configurations réseau, types d'accélérateurs et caractéristiques d'application
Analyse du taux de succès du cache : Révélation du taux de succès du cache requis pour atteindre les performances cibles sur différentes bandes passantes de stockage (par exemple, 80% de performance nécessite 90,2%-99,9% de taux de succès)
Paradoxe du calcul distribué : Découverte que le calcul distribué réduit parfois les performances dans certaines configurations, remettant en question les connaissances conventionnelles

Configuration Expérimentale

Ensembles de Données

MNIST : Utilisé pour l'entraînement de régression logistique HELR
- Taille du lot : 1024 images
- Itérations d'entraînement : 32
CIFAR-10 : Utilisé pour l'inférence ResNet-20
- Inférence d'une seule image
- Taille de l'image : 32×32×3

Métriques d'Évaluation

Performance normalisée : Rapport de performance par rapport à la ligne de base idéale
Temps d'exécution : Temps d'exécution absolu (secondes)
Décomposition du temps : Proportion des frais de calcul/E/S/communication
Accélération : Amélioration des performances du calcul distribué par rapport à une seule machine
Pression E/S : Nombre moyen d'octets accédés par cycle

Méthodes de Comparaison

Ligne de base 1 (Sharp) : Hypothèse de capacité HBM illimitée, activation du préchargement, ordonnancement et optimisations de réutilisation des données
Ligne de base 2 (TensorFHE) : Configuration optimale avec toutes les données en mémoire GPU
Dimensions de comparaison : Différents niveaux de stockage, différents réseaux, différents nombres de serveurs (1/2/4/8/16/32)

Détails d'Implémentation

Simulateur Sharp :
- Coefficients polynomiaux : entiers 1555 bits
- Cache sur puce : centaines de MB
- Pression E/S : moyenne 3381 octets/cycle
Configuration TensorFHE :
- ResNet-20 : entiers 840 bits
- HELR : entiers 1092 bits
- Pression E/S : moyenne 101 octets/cycle
- Taille de la clé d'évaluation : 5,5× celle de Sharp
Configuration SimGrid :
- Topologie : réseau en étoile
- Profilage hors ligne de tous les noyaux GPU
- Importation des résultats de profilage pour simuler l'exécution distribuée

Résultats Expérimentaux

Résultats Principaux

Observation 1 : L'E/S de Stockage Réduit Considérablement les Performances (Figure 4)

Réduction des Performances ASIC (Sharp) :

HBM : ResNet-20 réduit 2,63×, HELR réduit 5,5× (moyenne 4,0×)
DDR5 : ResNet-20 réduit 5,56×, HELR réduit 13,4×
PCIe : ResNet-20 réduit 26,5×, HELR réduit 70,6×
RDMA : ResNet-20 réduit 131,7×, HELR réduit 357,2× (réduction maximale)

Réduction des Performances GPU (TensorFHE) :

HBM : Réduction légère 1,2×
DDR5 : Réduction 1,5×
PCIe : Réduction 3,8×
RDMA : ResNet-20 réduit 15,2×, HELR réduit 22×

Cause Fondamentale :

Pression E/S extrêmement élevée de Sharp (3381 octets/cycle) vs. TensorFHE (101 octets/cycle)
La capacité de traitement relative du GPU est inférieure, la pression E/S relative est atténuée

Observation 2 : Exigences du Taux de Succès du Cache (Figure 5)

Pour atteindre 80% des performances de base, taux de succès du cache requis :

ResNet-20 : HBM 90,2%, DDR 96,2%, PCIe 99,3%, RDMA 99,9%
HELR : Exigences plus élevées, RDMA nécessite un taux de succès proche de 100%

Enseignement : Le stockage à faible bande passante nécessite un taux de succès du cache extrêmement élevé, difficile à réaliser en pratique

Résultats du Calcul Distribué

Observation 3 : Nature Duale du Calcul Distribué (Figure 6)

Performance TensorFHE :

Accélération avec 32 serveurs :
- Ethernet : 6,6× (efficace)
- FastFabric : 9,7× (plus efficace)

Performance Sharp (Situation Complexe) : Utilisation d'Ethernet avec 32 serveurs :

HBM : Réduction des performances 6,08× (optimisation négative !)
DDR : Réduction des performances 2,74× (optimisation négative !)
PCIe : Accélération 1,72×
RDMA : Accélération 5,78×

Utilisation de FastFabric avec 32 serveurs :

HBM : Presque aucune amélioration (0,94×)
DDR : Accélération 1,99×
PCIe : Accélération 6,42×
RDMA : Accélération 11,96×

Cause Fondamentale (Décomposition du Temps Figure 7) : Sharp utilisant 32 serveurs (PCIe+Ethernet) :

Frais de calcul : 3,8%→0,3% (réduction significative)
Frais E/S : 96,2%→7,2% (réduction significative)
Frais de communication : 0%→92,5% (devient le nouveau goulot d'étranglement !)

TensorFHE utilisant 32 serveurs :

Frais de calcul : 40,1% (toujours significatif, caractéristique du traitement par lots GPU)
Frais E/S : 18,1%
Frais de communication : 41,8%

Analyse des Différences d'Application

Observation 4 : Sensibilité E/S Différente des Applications

HELR vs. ResNet-20 :

HELR contient un grand nombre d'opérations de rotation (implémentation du produit interne vectoriel), nécessitant un accès fréquent aux clés d'évaluation
Besoin E/S de HELR dans Sharp : 5130 octets/cycle vs. ResNet-20 1633 octets/cycle (3,1×)
La réduction des performances de HELR est plus grave (par exemple, 357× sur RDMA)

Impact des Différents Paramètres FHE :

Taille polynomiale Sharp : 1,85× celle de TensorFHE (ResNet-20) et 1,43× (HELR)
Mais taille de la clé d'évaluation TensorFHE : 5,5× celle de Sharp
Volume total de données E/S TensorFHE : 2,8× celui de Sharp (ResNet-20) et 4,5× (HELR)

Expériences d'Ablation

Bien que l'article ne mène pas d'expériences d'ablation au sens traditionnel, il réalise des effets similaires par comparaison multidimensionnelle :

Ablation du Niveau de Stockage : HBM→DDR→PCIe→RDMA, réduction progressive de la bande passante, observation des changements de performance
Ablation de la Configuration Réseau : Ethernet vs. FastFabric, vérification de l'impact de la bande passante de communication
Ablation du Nombre de Serveurs : 1/2/4/8/16/32 serveurs, analyse de l'extensibilité
Comparaison des Types d'Accélérateurs : ASIC vs. GPU, révélation de la sensibilité E/S de différentes architectures

Étude de Cas

Scénario Typique de ResNet-20 sur Sharp (Stockage PCIe+Réseau Ethernet) :

Machine unique : Temps d'exécution environ 3,8 secondes, E/S occupe 96,2%
32 serveurs : Temps d'exécution environ 2,2 secondes, communication occupe 92,5%
Amélioration des Performances Limitée : Seulement 1,72× d'accélération, bien inférieure aux 32× théoriques

Cas Extrême de HELR sur Stockage RDMA :

Réduction des performances Sharp 357×, pratiquement inutilisable
Cause fondamentale : Bande passante faible (12,5 GiB/s) + besoin E/S élevé (5130 octets/cycle)

Découvertes Expérimentales

Goulot d'étranglement E/S Omniprésent : Même HBM entraîne une réduction de 4× des performances
ASIC Plus Sensible : En raison de la capacité de traitement extrêmement élevée, l'E/S devient un goulot d'étranglement grave
Calcul Distribué Non Panacée : Dans le stockage à haute bande passante + réseau à faible bande passante, le calcul distribué réduit même les performances
Caractéristiques d'Application Critiques : Les applications intensives en rotation (comme HELR) sont plus affectées par l'E/S
Choix des Paramètres Important : Différents paramètres FHE entraînent différents modèles E/S et performances

Travaux Connexes

Accélération du Calcul FHE

L'article examine l'évolution des accélérateurs FHE (Figure 1) :

Ligne de base CPU : Ralentissement 10^5× par rapport au calcul en clair
Accélérateurs Précoces (2021-2022) :
- F1+ (MICRO'21)
- BTS (ISCA'22)
- CraterLake (ISCA'22)
- ARK (MICRO'22)
Progrès Récents (2023-2024) :
- Sharp (ISCA'23) : Seulement 3× de différence
- TensorFHE (HPCA'23)
- Trinity (MICRO'24)
- HEAP (HPCA'24)

Hypothèses des Travaux Existants

La plupart des recherches sur les accélérateurs supposent :

Localisation des Données : Toutes les données en HBM
Techniques d'Optimisation :
- Stratégies de préchargement statique optimal
- Optimisations d'algorithmes de réutilisation des données (par exemple, optimisation de rotation d'ARK)
- Cache sur puce de grande capacité (200-500 MiB)

Relation de Cet Article avec les Travaux Connexes

ARK 30 : L'optimisation algorithmique ne s'applique qu'aux modèles de calcul spécifiques (par exemple, rotations de même pas dans ResNet-20), non applicable à HELR et au tri
Sharp 29 : Rapporte les performances idéales, ne considère pas les contraintes E/S réelles
TensorFHE 21 : Implémentation GPU, pression E/S relative plus faible mais toujours affectée

Avantages de Cet Article

Combler le Vide : Première étude systématique de l'impact E/S
Scénarios Réels : Considération des environnements informatiques en nuage multi-utilisateurs
Analyse Quantitative : Fourniture de données de performance concrètes
Évaluation Complète : Couverture de multiples configurations et applications

Conclusion et Discussion

Conclusions Principales

L'E/S est un Goulot d'Étranglement Clé du Déploiement FHE : L'E/S de stockage peut réduire les performances des ASIC jusqu'à 357×, des GPU jusqu'à 22×, dépassant largement les bénéfices des optimisations de calcul
Les Hypothèses Existantes Sont Irréalistes : L'hypothèse que toutes les données sont en HBM et que les frais peuvent être éliminés est difficile à justifier dans les environnements informatiques en nuage
Le Calcul Distribué N'est Pas une Panacée : Dans certaines configurations (stockage à haute bande passante + réseau à faible bande passante), le calcul distribué réduit même les performances
Sensibilité aux Applications et Paramètres : Différentes applications et choix de paramètres FHE entraînent des comportements E/S significativement différents

Limitations

Expériences Simulées : Utilisation du simulateur SimGrid plutôt que du matériel réel, possibilité de différences de précision
Couverture d'Application Limitée : Seulement deux applications testées, ResNet-20 et HELR
Schéma FHE Unique : Évaluation uniquement du schéma CKKS, non couverts BGV, BFV, TFHE, etc.
Charge de Travail Statique : Non considération des variations de charge multi-utilisateurs dynamiques
Modèle Réseau Simplifié : Utilisation de topologie en étoile, non considération de topologies réseau plus complexes
Manque de Vérification de Déploiement Réel : Vérification des découvertes non effectuée dans des environnements informatiques en nuage réels

Directions Futures

L'article propose trois directions de recherche :

1. Ordonnancement Locality-First

Problème : Le calcul distribué n'est pas toujours bénéfique
Solution :
- Attribution de serveurs dédiés aux utilisateurs pour réduire l'accès E/S
- Étude des modèles d'accès utilisateur
- Ordonnancement en pipeline pour masquer les frais de changement de contexte
Défi : Équilibre entre efficacité des ressources et performance

2. Traitement Près des Données (Plus Prometteur)

Motivation : Les clés d'évaluation ne sont accédées que pour des opérations spécifiques (HRot, HMult)
Solution :
- Intégration des composants de calcul FHE dans les appareils de stockage
- Conception d'unités de calcul spécialisées pour des opérations spécifiques
- Exécution des calculs intensifs en E/S côté stockage
Avantage : Réduction significative de l'E/S entre l'hôte et le stockage

3. Implémentation d'Applications I/O-Friendly

Observation : L'addition FHE ne nécessite pas d'accès aux clés d'évaluation
Solution :
- Restructuration des programmes pour exploiter les caractéristiques E/S
- Possibilité d'augmentation des frais de calcul mais réduction de l'E/S
- Combinaison avec la croissance rapide de la capacité de traitement des accélérateurs FHE
Exemple : Remplacement de certaines opérations de multiplication/rotation par plusieurs additions

Évaluation Approfondie

Points Forts

1. Perspective de Recherche Unique et Importante

Combler une Lacune Critique : Première étude systématique du goulot d'étranglement E/S de FHE, brisant la perspective unique de la recherche en accélération du calcul
Importance Pratique Significative : Ciblage des scénarios réels de déploiement en nuage, plutôt que des environnements de laboratoire idéalisés
Timing Approprié : Après des progrès significatifs en accélération du calcul FHE, identification opportune du prochain défi critique

2. Conception Expérimentale Complète et Rigoureuse

Évaluation Multidimensionnelle : Niveaux de stockage × configurations réseau × types d'accélérateurs × applications × nombres de serveurs
Configurations Réalistes : Démarrage à froid, contournement du cache, simulation d'environnements informatiques en nuage multi-utilisateurs
Comparaisons Suffisantes : Couverture de la hiérarchie de stockage complète de HBM à RDMA
Quantification Précise : Fourniture de données de performance concrètes (par exemple, 357×, 22×) plutôt que de descriptions vagues

3. Découvertes Perspicaces

Conclusions Contre-Intuitives : Le calcul distribué peut réduire les performances, remettant en question les connaissances conventionnelles
Analyse du Taux de Succès du Cache : Révélation de l'irréalisme de l'exigence de 99,9% de taux de succès
Décomposition du Temps : Démonstration claire du passage du goulot d'étranglement de l'E/S à la communication
Différences d'Application : Analyse approfondie des mécanismes d'impact de différentes applications et paramètres

4. Écriture Claire et Structure Complète

Introduction Suffisante du Contexte : Explication détaillée du flux de travail FHE et de l'amplification des données
Figures Riches : 11 figures soutiennent efficacement les arguments
Logique Rigoureuse : Progression claire du problème → expériences → découvertes → directions
Engagement de Reproductibilité : Engagement de rendre publics les traces et les logiciels

Insuffisances

1. Limitations Expérimentales

Simulation Plutôt que Mesure : La simulation SimGrid peut ne pas capturer complètement le comportement du matériel réel (par exemple, cohérence du cache, délais d'ordonnancement)
Couverture d'Application Étroite : Seulement deux applications, difficile de représenter complètement l'écosystème des applications FHE
Schéma FHE Unique : CKKS pour les nombres flottants, non évalué pour les schémas entiers (BGV, BFV) ou binaires (TFHE, FHEW)
Charge Statique : Non considération de l'arrivée dynamique des demandes utilisateur, des fluctuations de charge, des priorités, etc.

2. Profondeur d'Analyse Améliorable

Manque de Modèle Théorique : Pas d'établissement de modèle mathématique reliant les frais E/S aux paramètres système
Stratégies de Préchargement Non Approfondies : Pas d'analyse détaillée de l'efficacité de différentes stratégies de préchargement
Gestion du Cache Simplifiée : Non considération de stratégies complexes de remplacement du cache et du cache multi-niveaux
Analyse de Consommation Énergétique Absente : Impact des frais E/S sur la consommation énergétique non abordé

3. Solutions Préliminaires

Manque de Détails dans les Directions Futures : Les trois directions ne sont que des descriptions conceptuelles, manquant de détails de conception
Pas de Vérification de Prototype : Les solutions telles que le traitement près des données n'ont pas de prototype implémenté pour vérifier la faisabilité
Analyse Insuffisante des Trade-offs : Les coûts, la complexité et les scénarios d'application de chaque solution ne sont pas suffisamment discutés

4. Problèmes de Configuration Expérimentale

Dépendance du Simulateur Sharp : Dépendance du simulateur de l'article original, impossibilité de vérifier sa précision
Modèle Réseau Simplifié : La topologie en étoile ne représente pas les réseaux de centres de données réels (par exemple, Clos, Fat-tree)
Sécurité Non Considérée : Isolation entre utilisateurs multi-utilisateurs, attaques par canal auxiliaire non abordées

Impact

Contribution au Domaine

Changement de Paradigme : Extension du focus de la recherche FHE du calcul pur au niveau système
Effet d'Avertissement : Rappel aux chercheurs de prêter attention au goulot d'étranglement E/S, évitant l'optimisation excessive du calcul
Données de Référence : Fourniture de données de performance sous différentes configurations, pouvant servir de référence pour les recherches ultérieures
Stimulation de la Recherche : Les trois directions futures peuvent catalyser une série de travaux ultérieurs

Valeur Pratique

Conseils de Déploiement : Fourniture de preuves quantitatives pour le déploiement FHE par les fournisseurs de services en nuage
Conception d'Architecture : Orientation de la conception du sous-système E/S des accélérateurs FHE de prochaine génération
Sélection de Paramètres : Aide aux développeurs d'applications FHE à choisir les paramètres FHE en fonction des caractéristiques E/S
Évaluation des Coûts : Fourniture de prédictions de performance pour la tarification des services FHE en nuage

Reproductibilité

Engagement Open Source : Les traces et les logiciels seront rendus publics, favorisant la vérification et l'extension
Configuration Détaillée : Description suffisante de la configuration expérimentale, permettant la reproduction
Dépendances de Code Public : TensorFHE utilise une implémentation publique
Mais Défis Existants : Le simulateur Sharp n'est pas public, la reproduction complète est difficile

Scénarios Applicables

Scénarios Appropriés

Planification de Services FHE en Nuage : Évaluation par les fournisseurs de services en nuage de la faisabilité et des besoins en ressources des services FHE
Conception d'Accélérateurs FHE : Équilibre par les concepteurs matériels entre la capacité de calcul et le sous-système E/S
Optimisation d'Applications : Optimisation des algorithmes par les développeurs d'applications FHE en fonction des caractéristiques E/S
Recherche Système : Exploration par les chercheurs en systèmes de stockage des modèles E/S spéciaux de FHE

Scénarios Moins Appropriés

Scénarios Mono-Utilisateur : Cet article se concentre sur les environnements informatiques en nuage multi-utilisateurs, les scénarios mono-utilisateurs peuvent ne pas être limités par l'E/S
Données de Petite Taille : Lorsque les données s'adaptent complètement à la HBM, l'impact E/S est faible
Schémas FHE Non-CKKS : D'autres schémas FHE peuvent avoir des caractéristiques E/S différentes
Informatique de Périphérie : Les contraintes de ressources et les modèles d'utilisation des appareils de périphérie diffèrent du nuage

Directions d'Extension Potentielles

Vérification sur Matériel Réel : Déploiement et mesure dans des environnements informatiques en nuage réels
Plus de Schémas FHE : Extension à BGV, BFV, TFHE, etc.
Plus d'Applications : Requêtes de base de données, analyse génomique, calcul financier, etc.
Charge Dynamique : Simulation des modèles d'arrivée réels des demandes utilisateur
Analyse de Sécurité : Impact des optimisations E/S sur les attaques par canal auxiliaire
Implémentation de Prototype : Implémentation d'un prototype de dispositif de stockage FHE avec traitement près des données
Modélisation Théorique : Établissement d'un modèle de performance des frais E/S
Algorithme d'Ordonnancement : Conception d'un ordonnanceur de tâches FHE tenant compte de la localité

Références

L'article cite 46 références, les références clés incluent :

Accélérateurs FHE

29 Sharp (ISCA'23) : Accélérateur ASIC le plus avancé, principal objet de comparaison de cet article
21 TensorFHE (HPCA'23) : Solution d'accélération GPU
30 ARK (MICRO'22) : Proposition d'optimisations de réutilisation des données
40 CraterLake (ISCA'22) : Conception ASIC précoce

Schémas FHE

15 CKKS : Schéma FHE supportant les nombres flottants, adopté dans cet article
12 BGV : Schéma FHE entier
11,20 BFV : Autre schéma entier
16 TFHE : Schéma FHE binaire

Applications

24 HELR : Entraînement de régression logistique
34 ResNet-20 : Inférence CNN

Outils Système

13 SimGrid : Simulateur de systèmes distribués

Évaluation Globale : Ceci est un article de recherche système avec une perspective unique, des expériences solides et des découvertes importantes. Il comble une lacune critique dans la recherche FHE - le goulot d'étranglement E/S - et fournit des avertissements et des conseils importants pour le déploiement réel de FHE. Bien qu'il présente des limitations telles que les expériences simulées et la couverture d'application limitée, sa contribution fondamentale - la révélation de la gravité du goulot d'étranglement E/S - possède une valeur académique et pratique importante. Les trois directions futures proposées, en particulier le traitement près des données, peuvent ouvrir de nouvelles voies pour la recherche sur les systèmes FHE. Pour les fournisseurs de services en nuage, les concepteurs matériels et les développeurs d'applications FHE, ceci est un article incontournable.