INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Fernández-Menduiña, Pavez, Ortega et al.
Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
academic
INT-DTT+: Transformadas de Bajo Nivel de Complejidad Dependientes de Datos para Codificación de Vídeo
Título: INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Autores: Samuel Fernández-Menduiña, Eduardo Pavez, Antonio Ortega (Universidad del Sur de California), Tsung-Wei Huang, Thuong Nguyen Canh, Guan-Ming Su, Peng Yin (Dolby Laboratories)
Clasificación: eess.IV (Procesamiento de Imágenes y Vídeo), cs.IT, math.IT
Este artículo propone un marco de transformadas dependientes de datos de bajo nivel de complejidad denominado INT-DTT+ para abordar el problema del diseño de transformadas en codificación de vídeo. Aunque las transformadas trigonométricas discretas tradicionales (como DCT-2 y DST-7) logran un equilibrio entre rendimiento de codificación y eficiencia computacional, las transformadas dependientes de datos (como KLT y transformadas separables basadas en grafos GBST) ofrecen mejor compresión de energía pero carecen de simetría explotable para reducir la complejidad computacional. El artículo construye un marco basado en DTT+ (una familia de GBST obtenida mediante actualización de rango uno del grafo DTT), proponiendo primero un algoritmo de aprendizaje de grafos que estima conjuntamente las actualizaciones de rango uno de los grafos de filas y columnas, y luego aprovecha la estructura progresiva de DTT+ para descomponer el núcleo en una DTT base y una matriz de Cauchy estructurada. Mediante la utilización de DTT entera de bajo nivel de complejidad y matrices de Cauchy dispersas, se construye la aproximación entera INT-DTT+. Verificado en el escenario de transformadas dependientes de modo del estándar VVC, INT-DTT+ logra ahorros de BD-rate superiores al 3% en comparación con la línea base VVC MTS, con complejidad comparable a la DCT-2 entera.
El diseño de transformadas en sistemas de codificación de vídeo enfrenta el dilema "rendimiento-complejidad":
Limitaciones de DTT tradicionales: Las transformadas trigonométricas discretas como DCT-2 y DST-7 poseen algoritmos rápidos, pero su adaptabilidad a características estadísticas específicas de señales es limitada
Dilema de transformadas dependientes de datos: KLT es teóricamente óptima pero carece de implementación rápida; KLT separable y GBST reducen la cantidad de parámetros pero aún carecen de simetría explotable para reducir cálculos
Cuello de botella en aplicaciones prácticas: Las transformadas aprendidas existentes rara vez se utilizan en codificadores reales debido a la falta de algoritmos rápidos
Mejora de eficiencia de codificación: Las transformadas dependientes de modo (MDT) pueden mejorar la compresión de energía aprovechando las características estadísticas de residuos para cada modo de predicción
Demanda de aplicaciones industriales: Los nuevos codificadores como VVC requieren mejorar el rendimiento de compresión mientras mantienen bajo nivel de complejidad
Puente entre teoría y práctica: Se necesita encontrar un equilibrio entre lo teóricamente óptimo (KLT) y lo prácticamente viable (DTT)
sep-KLT: Requiere aprender n² parámetros, complejidad computacional alta (O(n²) multiplicaciones), sin algoritmo rápido
GBST: Aunque limita la cantidad de parámetros mejorando robustez, aún carece de estructura explotable
Métodos de cuantificación directa: Cuantificar directamente núcleos de punto flotante a enteros no reduce la complejidad computacional
Trabajo previo de los autores: El algoritmo FFT rápido de DTT+ solo es superior a la multiplicación de matrices ingenua en tamaños de bloque grandes, y no resuelve el problema de aprendizaje de parámetros
Las contribuciones principales del artículo incluyen:
Algoritmo de aprendizaje de grafos conjunto: Se propone un método de aprendizaje de grafos para DTT+ que estima conjuntamente los parámetros de actualización de rango uno de los grafos de filas y columnas (αr, βr, αc, βc, ir, ic), capturando la estructura de covarianza de todo el bloque
Marco de implementación entera INT-DTT+:
Aprovecha la propiedad de descomposición progresiva de DTT+ (DTT base + matriz de Cauchy)
Diseña estrategia de dispersión de matriz de Cauchy basada en propiedades de entrelazamiento de valores propios
Construye aproximación entera de bajo nivel de complejidad, con complejidad comparable a DCT-2 entera
Método de diseño RDOT: Integra DTT+ en el marco de transformadas optimizadas en tasa-distorsión (RDOT), haciendo que la transformada aprendida sea complementaria a los núcleos MTS existentes de VVC
Estrategia de agrupamiento de pesos: Propone método de agrupamiento de parámetros basado en k-means, reduciendo aún más los requisitos de almacenamiento (66%-94% menos que sep-KLT)
Verificación sistemática: En el escenario de residuos de predicción intramarco del estándar VVC, logra ahorros de BD-rate superiores al 3%, con incremento de complejidad equivalente a solo un cálculo de DCT-2 entera
Entrada: Bloque de residuo predicho xi ∈ R^(n×n) (por ejemplo, residuo de predicción intramarco VVC) Salida: Coeficientes transformados yi = T^⊤ xi Objetivo: Diseñar matriz de transformación T tal que:
Se adapte a características estadísticas de señales (rendimiento de compresión de energía)
Posea bajo nivel de complejidad computacional (operaciones enteras, estructura dispersa)
Requiera bajo almacenamiento (pocos parámetros)
Sea integrable en marco de codificación existente (compatible con RDO)
1. Inicializar: Dividir muestras aleatoriamente en nt grupos
2. Iterar hasta convergencia:
a. Para cada grupo Ij, resolver φ_j* y calcular transformación Tj
b. Actualizar asignación de grupos mediante RDO (ecuación 4)
3. Salida: Conjunto de transformadas aprendidas {Tj}
Entrada: Bloque de imagen xi, matrices enteras K'_dq y F'_q
1. Calcular coeficientes DTT base: yi = U^⊤xi
2. Multiplicación por matriz diagonal: zi = K'_dq yi
3. Multiplicación por matriz dispersa: qi = zi + F'_q zi
Salida: Coeficientes INT-DTT+ qi
Análisis de Complejidad:
Paso 1: Asumiendo ya calculado en RDO (sin costo adicional)
Paso 2: n multiplicaciones (matriz diagonal)
Paso 3: Depende de dispersidad de F'_q, típicamente ≤n²/2 operaciones
Direcciones explícitamente propuestas en artículo:
Modos de predicción intermarco: Extender a residuos de compensación de movimiento
Evaluación consciente de hardware: Pruebas de tiempo de ejecución real y consumo de energía
Otros codificadores: Estándares AV1, EVC, etc.
Extensiones potenciales:
4. Actualizaciones de orden superior: Actualizaciones de rango dos o superior
5. Extensión no-separable: Transformadas no-separables con bajo nivel de complejidad mantenido
6. Aprendizaje de extremo a extremo: Optimización conjunta con codificadores de redes neuronales
7. Optimización perceptual: Integración de métricas de calidad perceptual
Este artículo representa un avance importante en el campo del diseño de transformadas para codificación de vídeo, cerrando exitosamente la brecha entre lo teóricamente óptimo (KLT) y lo prácticamente viable (DTT). La innovación central radica en aprovechar la estructura especial de actualización de rango uno, combinando adaptabilidad a datos con algoritmos rápidos, logrando un objetivo perseguido durante mucho tiempo en este campo.
Las principales fortalezas incluyen elegancia teórica (marco matemático completo), practicidad de ingeniería (complejidad comparable a DCT), suficiencia experimental (verificación multidimensional), haciendo de esta una tecnología práctica altamente prometedora. Las principales limitaciones radican en que la profundidad y amplitud de la evaluación aún pueden mejorarse, particularmente en implementación de hardware y capacidad de generalización entre escenarios.
Para investigadores en codificación de vídeo, este artículo proporciona nuevo paradigma para diseño de transformadas dependientes de datos; para profesionales industriales, INT-DTT+ es solución desplegable para mejorar eficiencia de codificación; para teóricos, el marco de actualización de rango uno puede inspirar investigación en otros problemas de matrices estructuradas.
Índice de Recomendación: 9/10 - Altamente recomendado para investigadores en codificación de vídeo, procesamiento de señales en grafos y álgebra lineal numérica.