Holographic video communication is considered a paradigm shift in visual communications, becoming increasingly popular for its ability to offer immersive experiences. This article provides an overview of holographic video communication and outlines the requirements of a holographic video communication system. Particularly, following a brief review of semantic com- munication, an architecture for a semantic-enabled holographic video communication system is presented. Key technologies, including semantic sampling, joint semantic-channel coding, and semantic-aware transmission, are designed based on the proposed architecture. Two related use cases are presented to demonstrate the performance gain of the proposed methods. Finally, potential research topics are discussed to pave the way for the realization of semantic-enabled holographic video communications.
- ID de l'article: 2510.13408
- Titre: Semantic Communication Enabled Holographic Video Processing and Transmission
- Auteurs: Jingkai Ying, Zhiyuan Qi, Yulong Feng, Zhijin Qin, Zhu Han, Rahim Tafazolli, Yonina C. Eldar
- Classification: eess.IV cs.AI cs.IT cs.MM eess.SP math.IT
- Date de publication: 15 octobre 2025 (prépublication arXiv)
- Lien de l'article: https://arxiv.org/abs/2510.13408
La communication vidéo holographique est considérée comme un changement de paradigme dans le domaine de la communication visuelle, attirant une attention croissante en raison de sa capacité à offrir des expériences immersives. Cet article présente un aperçu de la communication vidéo holographique et énonce les exigences des systèmes de communication vidéo holographique. En particulier, après un bref examen de la communication sémantique, une architecture de système de communication vidéo holographique améliorée par la sémantique est proposée. Sur la base de l'architecture proposée, les technologies clés sont conçues, notamment l'échantillonnage sémantique, le codage conjoint sémantique-canal et la transmission sensible à la sémantique. Les gains de performance de la méthode proposée sont démontrés par deux cas d'usage pertinents. Enfin, les directions de recherche potentielles sont discutées, ouvrant la voie à la réalisation de la communication vidéo holographique améliorée par la sémantique.
La communication vidéo holographique (HVC) en tant que paradigme dominant de la communication visuelle future fait face à d'énormes défis technologiques :
- Croissance explosive du volume de données : La vidéo holographique nécessite une bande passante de transmission de 0,1-1 Tbps, pouvant atteindre 10 Tbps en pic
- Exigences strictes de latence : La latence de transmission de l'interface aérienne doit être inférieure à 1 ms, et la latence réseau de bout en bout inférieure à 20 ms
- Exigences de fiabilité élevée : Le taux d'erreur de paquet doit atteindre le niveau 10^-7
- Limitations des systèmes existants : Même les réseaux 6G ne peuvent pas entièrement garantir le support de services HVC de haute qualité
La communication vidéo holographique est une technologie clé pour réaliser le métavers et de nombreuses applications (telles que les conférences holographiques, l'éducation, le divertissement), et a été identifiée par les réseaux sans fil 6G comme un cas d'usage typique de la communication immersive.
La recherche existante sur la transmission vidéo holographique présente les problèmes suivants :
- Basée sur le paradigme traditionnel de transmission par bits, consommant d'énormes ressources
- Manque de conception d'optimisation spécifique aux caractéristiques du contenu holographique
- Utilisation insuffisante de la puissante capacité de représentation non-linéaire de l'apprentissage profond
La communication sémantique, en transmettant le sens de l'information plutôt que les bits, peut efficacement extraire et compresser les informations significatives du contenu holographique, réduisant considérablement les exigences de bande passante, et fournir des performances globalement optimales grâce à l'entraînement conjoint de bout en bout.
- Proposition d'une nouvelle architecture de communication vidéo holographique sensible à la sémantique : Intégrant l'échantillonnage sémantique, le codage conjoint sémantique-canal, la transmission sensible à la sémantique et autres modules clés
- Conception d'une méthode d'échantillonnage sémantique basée sur les mécanismes d'attention : Capable de capturer les régions clés du nuage de points
- Développement d'un schéma de codage-modulation conjoint sémantique-canal efficace et robuste : Transmission adaptative du nuage de points basée sur les caractéristiques sémantiques et les conditions du canal
- Fourniture de deux cas d'usage de validation : Démontrant les gains de performance de l'échantillonnage sémantique et du codage-modulation conjoint
Cet article étudie comment appliquer les techniques de communication sémantique à la transmission vidéo holographique, en se concentrant particulièrement sur la transmission efficace des données de nuage de points. L'entrée est constituée de données holographiques brutes (principalement des nuages de points), la sortie est le contenu holographique de haute qualité reconstruit au niveau du récepteur, avec des contraintes incluant les limitations de bande passante, les exigences de latence et le bruit du canal.
Le système HVC sensible à la sémantique proposé utilise un serveur comme nœud de traitement intermédiaire, formant des liaisons de transmission montante et descendante :
Liaison montante :
- Capteur → Échantillonnage sémantique → Codage conjoint sémantique-canal → Transmission sensible à la sémantique → Décodage et reconstruction du serveur
Liaison descendante :
- Serveur → Codage conjoint sémantique-canal → Transmission sensible à la sémantique → Décodage et affichage côté utilisateur
- Module d'Échantillonnage Sémantique
- Utilisation d'un perceptron multicouche (MLP) pour intégrer les points dans l'espace latent
- Division du nuage de points en patchs, chaque patch contenant un point central et ses k plus proches voisins
- Couche d'attention locale traitant les intégrations de chaque patch pour générer des caractéristiques intermédiaires et une carte sémantique
- Calcul du score de chaque point basé sur l'écart-type normalisé et sélection des M premiers points
- Codage Conjoint Sémantique-Canal (JSCC)
- Encodeur : Utilisant PointNet++ pour le traitement initial, Point Transformer pour l'affinage des caractéristiques sémantiques
- Conception à deux branches : La branche principale capture les caractéristiques structurelles à grain fin, la branche auxiliaire extrait les caractéristiques sémantiques à grain grossier
- Décodeur : Utilisant Point Transformer pour affiner les caractéristiques bruitées, reconstruction du nuage de points d'entrée par suréchantillonnage
- Transmission Sensible à la Sémantique
- Modèle de modulation différentiable : Utilisant la sortie JSCC des caractéristiques sémantiques comme probabilité des positions des points de constellation de modulation
- Transmission adaptative : Génération de points de segmentation basée sur la sortie JSCC, les points de constellation après segmentation ne sont pas transmis
- Adaptation au canal : Connexion des informations de canal avec la sortie JSCC pour apprendre des caractéristiques plus robustes
- Architecture avec serveur intermédiaire : Résolution du problème selon lequel les appareils terminaux ne peuvent pas traiter les énormes exigences de stockage et de calcul du HVC
- Échantillonnage de nuage de points piloté par la sémantique : Comparé aux méthodes mathématiques statistiques traditionnelles, capable de préserver plus efficacement la structure géométrique et la capacité de représentation spécifique à la tâche
- Modulation différentiable par échantillonnage probabiliste : Évitant le problème de non-différentiabilité lors de la quantification directe de la sortie JSCC en points de constellation
- Extraction de caractéristiques sémantiques à deux branches : Capture simultanée d'informations sémantiques à différentes granularités
- Classification de nuage de points : Utilisation d'ensembles de données de nuage de points contenant 2048 points pour l'évaluation des tâches de classification
- Reconstruction de nuage de points : Utilisation d'ensembles de données de nuage de points standard pour évaluer la qualité de reconstruction
- Précision de classification : Évaluation de la performance d'échantillonnage sémantique
- D1 PSNR/D2 PSNR : Évaluation de la qualité de reconstruction du nuage de points
- D1 : Rapport signal-bruit de crête de l'erreur quadratique moyenne point à point
- D2 : Rapport signal-bruit de crête de l'erreur quadratique moyenne point-projection plane tenant compte des caractéristiques de perception du système visuel humain
- Distance de Chamfer : Mesure de la différence géométrique entre le nuage de points reconstruit et le nuage de points original
Comparaison d'échantillonnage sémantique :
- Échantillonnage par point le plus éloigné (FPS)
- S-Net
- SampleNet
Comparaison de codage-modulation conjoint :
- Schéma séparé G-PCC + LDPC
- SEPT (schéma JSCC basé sur l'apprentissage profond)
- Adoption d'une stratégie d'entraînement en deux étapes : première étape d'entraînement avec nuage de points complet, deuxième étape de gel du réseau en aval et entraînement du modèle d'échantillonnage
- Fonction de perte combinant les métriques de reconstruction (distance de Chamfer) et la perte de tâche (entropie croisée)
- Modèle de canal utilisant le canal d'évanouissement de Rayleigh
- Améliorations significatives par rapport aux méthodes traditionnelles à faibles ratios d'échantillonnage
- À un ratio d'échantillonnage de 0,125, la précision de classification augmente d'environ 15% par rapport à FPS
- Avantages évidents par rapport aux méthodes d'apprentissage profond telles que S-Net et SampleNet
- À SNR=15dB et avec le même nombre de points de constellation transmis, D2 PSNR augmente de plus de 3dB par rapport à la méthode de base
- Même à SNR=0dB, la performance reste supérieure à celle de la méthode de base à SNR=15dB
- Le schéma séparé traditionnel ne peut pas se décoder normalement à SNR=0dB en raison de l'effet de falaise
Les résultats de visualisation montrent que la méthode d'échantillonnage sémantique peut efficacement préserver les caractéristiques structurelles d'objets tels que les avions à différents ratios d'échantillonnage, validant que le modèle optimisé pour la précision de classification garantit également une bonne performance de reconstruction.
- Efficacité du mécanisme d'attention : L'échantillonnage sémantique basé sur l'attention peut capturer plus efficacement les informations sémantiques du nuage de points
- Avantages de l'optimisation conjointe : Le JSCC entraîné de bout en bout présente une meilleure résistance au bruit par rapport aux schémas séparés
- Robustesse à faible rapport signal-bruit : La méthode de communication sémantique maintient une bonne performance même dans des conditions de canal défavorables
- Compression de nuage de points standardisée par MPEG (V-PCC et G-PCC)
- Méthodes de compression de nuage de points basées sur l'apprentissage profond
- Les architectures HVC existantes sont principalement basées sur les technologies de transmission et de réseau traditionnelles
- Extraction et compression sémantique pilotées par l'apprentissage profond
- Cadre de codage conjoint sémantique-canal
- Systèmes de communication sémantique pour les modalités d'image, vidéo, etc.
Comparé aux travaux existants, cet article applique systématiquement pour la première fois la communication sémantique à la transmission vidéo holographique, proposant une architecture système complète et des implémentations technologiques clés.
- La communication sémantique fournit une voie efficace pour résoudre les défis de bande passante et de latence de la transmission vidéo holographique
- L'architecture sensible à la sémantique proposée peut considérablement améliorer l'efficacité de transmission et la performance de résistance au bruit
- Le nuage de points, en tant que forme de représentation de données 3D la plus appropriée à l'étape actuelle, fournit un chemin viable pour la réalisation du HVC
- Complexité de calcul élevée : Les méthodes de communication sémantique basées sur l'apprentissage profond présentent des frais de calcul importants
- Limitations de représentation des données : Concentration principale sur les nuages de points, recherche insuffisante sur les représentations plus proches des hologrammes idéaux comme les champs de lumière
- Utilisation insuffisante de la corrélation temporelle : Les méthodes existantes se concentrent principalement sur la compression intra-trame, manquant d'utilisation suffisante de la redondance temporelle
L'article propose trois directions de recherche importantes :
- Utilisation de la corrélation temporelle : Exploration des informations sémantiques de la vidéo holographique dans la dimension temporelle
- Optimisation de la complexité de calcul : Conception de mécanismes d'attention plus légers, équilibrant performance et complexité
- Recherche sur la transmission de champ de lumière : Conversion efficace du champ de lumière en représentations plus matures telles que les nuages de points ou les images multi-vues
- Force systématique : Proposition d'une architecture HVC sensible à la sémantique complète, couvrant l'ensemble du processus de l'échantillonnage à la transmission
- Innovation technologique : L'architecture avec serveur intermédiaire, l'échantillonnage piloté par la sémantique, la modulation différentiable et autres conceptions présentent une innovation
- Expériences suffisantes : Validation de l'efficacité des technologies clés par deux cas d'usage
- Caractère prospectif : Fourniture d'un chemin technologique important pour la communication immersive à l'ère de la 6G
- Échelle expérimentale limitée : Les cas d'usage sont principalement basés sur des nuages de points à petite échelle, manquant de validation expérimentale sur vidéo holographique à grande échelle
- Analyse théorique insuffisante : Manque d'analyse théorique sur la préservation des informations sémantiques et l'efficacité de transmission
- Considérations pratiques : Discussion insuffisante sur les limitations matérielles et les problèmes de consommation d'énergie dans le déploiement réel
- Valeur académique : Ouverture d'une nouvelle direction de recherche interdisciplinaire entre la communication sémantique et la transmission vidéo holographique
- Valeur pratique : Fourniture de références technologiques pour le support de la communication immersive par les réseaux 6G
- Reproductibilité : L'article fournit des détails techniques suffisants, présentant une bonne reproductibilité
- Systèmes de conférence holographique dans l'environnement réseau 6G
- Transmission de contenu 3D dans les applications du métavers
- Transmission de flux de données 3D en temps réel pour les appareils AR/VR
- Services de médias immersifs dans l'environnement de l'informatique en périphérie
L'article cite 15 références importantes, couvrant les travaux fondamentaux dans les domaines connexes de la communication holographique, de la communication sémantique et du traitement de nuages de points, fournissant une excellente base de connaissances pour les lecteurs.
Évaluation Globale : Ceci est un article de haute qualité et prospectif qui applique systématiquement les techniques de communication sémantique au domaine de la transmission vidéo holographique, proposant une architecture système innovante et des solutions technologiques clés. Bien qu'il y ait de la place pour l'amélioration dans la validation expérimentale à grande échelle et l'analyse théorique, il fournit une base technologique importante et une direction de développement pour la recherche sur la communication immersive à l'ère de la 6G.