INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Fernández-Menduiña, Pavez, Ortega et al.
Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
academic
INT-DTT+ : Transformations Dépendantes des Données à Faible Complexité pour le Codage Vidéo
Cet article propose un cadre de transformations dépendantes des données à faible complexité INT-DTT+ pour le codage vidéo. Les transformations trigonométriques discrètes traditionnelles (telles que DCT-2 et DST-7) établissent un équilibre entre performance de codage et efficacité computationnelle, mais les transformations dépendantes des données (comme KLT et les transformations séparables basées sur graphes GBST) offrent une meilleure compression énergétique tout en manquant de symétries exploitables pour réduire la complexité computationnelle. L'article construit un cadre basé sur DTT+ (une famille GBST obtenue par mise à jour de rang un du graphe DTT), propose d'abord un algorithme d'apprentissage de graphe pour l'estimation conjointe des mises à jour de rang un des graphes ligne et colonne, puis utilise la structure progressive de DTT+ pour décomposer le noyau en DTT de base et matrice de Cauchy structurée. En exploitant les DTT entiers à faible complexité et les matrices de Cauchy creuses, INT-DTT+ est construit comme une approximation entière. Validé dans le scénario de transformations dépendantes du mode du standard VVC, INT-DTT+ réalise une économie de BD-rate supérieure à 3% par rapport à la ligne de base VVC MTS, avec une complexité comparable à celle du DCT-2 entier.
La conception de transformations dans les systèmes de codage vidéo fait face à un dilemme « performance-complexité » :
Limitations des DTT traditionnels : Les transformations trigonométriques discrètes comme DCT-2 et DST-7 disposent d'algorithmes rapides, mais leur adaptabilité aux caractéristiques statistiques spécifiques des signaux est limitée
Dilemme des transformations dépendantes des données : KLT est théoriquement optimal mais manque d'implémentation rapide ; les KLT séparables et GBST réduisent la quantité de paramètres, mais manquent toujours de symétries exploitables pour réduire les calculs
Goulot d'étranglement pratique : Les transformations apprises existantes sont rarement utilisées dans les codecs réels en raison de l'absence d'algorithmes rapides
Amélioration de l'efficacité de codage : Les transformations dépendantes du mode (MDT) peuvent exploiter les caractéristiques statistiques des résidus de chaque mode de prédiction pour améliorer la compression énergétique
Besoins d'application industrielle : Les nouveaux codecs comme VVC nécessitent d'améliorer les performances de compression tout en maintenant une faible complexité
Pont entre théorie et pratique : Trouver un équilibre entre l'optimalité théorique (KLT) et la faisabilité pratique (DTT)
sep-KLT : Nécessite l'apprentissage de n² paramètres, complexité computationnelle élevée (O(n²) multiplications), pas d'algorithme rapide
GBST : Bien que la contrainte de paramètres améliore la robustesse, manque toujours de structure exploitable
Méthodes de quantification directe : La quantification directe des noyaux flottants en entiers ne peut pas réduire la complexité computationnelle
Travaux antérieurs des auteurs : L'algorithme FFT rapide pour DTT+ n'est supérieur à la multiplication matricielle naïve que pour les grandes tailles de blocs, et le problème d'apprentissage des paramètres n'est pas résolu
Les contributions principales de cet article incluent :
Algorithme d'apprentissage de graphe conjoint : Propose une méthode d'apprentissage de graphe pour DTT+, estimant conjointement les paramètres de mise à jour de rang un des graphes ligne et colonne (αr, βr, αc, βc, ir, ic), capturant la structure de covariance du bloc entier
Cadre d'implémentation entière INT-DTT+ :
Exploite la propriété de décomposition progressive de DTT+ (DTT de base + matrice de Cauchy)
Conçoit une stratégie de creusement de matrice de Cauchy basée sur la propriété d'entrelacement des valeurs propres
Construit une approximation entière à faible complexité, comparable en complexité au DCT-2 entier
Méthode de conception RDOT : Intègre DTT+ dans le cadre de transformation optimisée en débit-distorsion (RDOT), rendant la transformation apprise complémentaire aux noyaux MTS existants de VVC
Stratégie de clustering de poids : Propose une méthode de clustering de paramètres basée sur k-means, réduisant davantage les besoins de stockage (réduction de 66%-94% par rapport à sep-KLT)
Validation systématique : Dans le scénario de résidus de prédiction intra-image du standard VVC, réalise une économie de BD-rate supérieure à 3%, avec un incrément de complexité équivalent à un seul calcul de DCT-2 entier
Entrée : Bloc de résidu de prédiction xi ∈ R^(n×n) (par exemple, résidu de prédiction intra-image VVC) Sortie : Coefficients de transformation yi = T^⊤ xi Objectif : Concevoir la matrice de transformation T de sorte qu'elle :
S'adapte aux caractéristiques statistiques du signal (performance de compression énergétique)
Possède une faible complexité computationnelle (arithmétique entière, structure creuse)
Ait de faibles besoins de stockage (peu de paramètres)
Puisse s'intégrer au cadre de codage existant (compatibilité RDO)
1. Initialisation : Partitionne aléatoirement les échantillons en nt clusters
2. Itération jusqu'à convergence :
a. Pour chaque cluster Ij, résout φ_j* et calcule la transformation Tj
b. Met à jour l'assignation des clusters via RDO (équation 4)
3. Sortie : Ensemble de transformations apprises {Tj}
Entrée : Bloc d'image xi, matrices entières K'_dq et F'_q
1. Calcule les coefficients DTT de base : yi = U^⊤xi
2. Multiplication par matrice diagonale : zi = K'_dq yi
3. Multiplication par matrice creuse : qi = zi + F'_q zi
Sortie : Coefficients INT-DTT+ qi
Analyse de Complexité :
Étape 1 : Supposée déjà calculée dans RDO (pas de surcharge supplémentaire)
Étape 2 : n multiplications (matrice diagonale)
Étape 3 : Dépend du degré de creusement de F'_q, généralement ≤ n²/2 opérations
Directions explicitement proposées dans l'article :
Modes de prédiction inter-image : Extension aux résidus de compensation de mouvement
Évaluation sensible au matériel : Tests de temps d'exécution réel et de consommation d'énergie
Autres codecs : Validation sur standards AV1, EVC, etc.
Extensions potentielles :
4. Mises à jour d'ordre supérieur : Mises à jour de rang deux ou supérieur
5. Extension non-séparable : Transformations non-séparables à faible complexité préservée
6. Apprentissage bout en bout : Optimisation conjointe avec encodeurs de réseaux de neurones
7. Optimisation perceptuelle : Intégration de mesures de qualité perceptuelle
Caractère novateur : Première réalisation de transformations dépendantes des données au niveau pratique, peut changer le paradigme de conception d'encodeur
Valeur théorique : Le cadre de mise à jour de rang un peut inspirer d'autres problèmes de traitement de signaux
Potentiel industriel : La participation de Dolby indique l'intérêt de l'industrie, possibilité de normalisation
Cet article représente un progrès important dans la conception de transformations pour le codage vidéo, comblant avec succès le fossé entre l'optimalité théorique (KLT) et la faisabilité pratique (DTT). L'innovation centrale consiste à exploiter la structure spéciale de la mise à jour de rang un, combinant l'adaptabilité aux données avec des algorithmes rapides, réalisant un objectif longtemps recherché mais non atteint dans ce domaine.
Les principaux avantages incluent l'élégance théorique (cadre mathématique complet), la praticabilité ingénierie (complexité comparable à DCT), et la suffisance expérimentale (validation multidimensionnelle), en faisant une technologie pratique très prometteuse. Les principales limitations résident dans la profondeur et l'étendue de l'évaluation, particulièrement concernant l'implémentation matérielle et la capacité de généralisation inter-scénarios.
Pour les chercheurs en codage vidéo, cet article fournit un nouveau paradigme de conception de transformations dépendantes des données ; pour les praticiens industriels, INT-DTT+ est une solution déployable pour améliorer l'efficacité de codage ; pour les théoriciens, le cadre de mise à jour de rang un peut inspirer la recherche sur d'autres problèmes de matrices structurées.
Indice de Recommandation : 9/10 - Fortement recommandé aux chercheurs dans les domaines du codage vidéo, du traitement de signaux sur graphes et de l'algèbre linéaire numérique.