INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Fernández-Menduiña, Pavez, Ortega et al.
Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
academic
INT-DTT+: Trasformazioni Dipendenti dai Dati a Bassa Complessità per la Codifica Video
Questo articolo propone un framework di trasformazioni dipendenti dai dati a bassa complessità denominato INT-DTT+ per la codifica video. Le trasformazioni trigonometriche discrete tradizionali (come DCT-2 e DST-7) raggiungono un equilibrio tra prestazioni di codifica ed efficienza computazionale, tuttavia le trasformazioni dipendenti dai dati (come KLT e trasformazioni separabili basate su grafi GBST) forniscono una migliore compressione energetica ma mancano di simmetrie sfruttabili per ridurre la complessità computazionale. L'articolo costruisce il framework basato su DTT+ (una famiglia di GBST ottenuta tramite aggiornamenti di rango uno del grafo DTT), proponendo innanzitutto un algoritmo di apprendimento del grafo che stima congiuntamente gli aggiornamenti di rango uno dei grafi riga e colonna, quindi sfruttando la struttura progressiva di DTT+ per decomporre il nucleo in una DTT di base e una matrice di Cauchy strutturata. Attraverso l'utilizzo di DTT interi a bassa complessità e matrici di Cauchy rarefatte, viene costruita l'approssimazione intera INT-DTT+. Verificato nello scenario di trasformazioni dipendenti dal modo dello standard VVC, INT-DTT+ realizza un risparmio di BD-rate superiore al 3% rispetto alla baseline VVC MTS, con complessità equivalente a quella della DCT-2 intera.
La progettazione delle trasformazioni nei sistemi di codifica video affronta il dilemma "prestazioni-complessità":
Limitazioni delle DTT tradizionali: Le trasformazioni trigonometriche discrete come DCT-2 e DST-7, sebbene dispongano di algoritmi veloci, hanno adattabilità limitata alle caratteristiche statistiche specifiche dei segnali
Dilemma delle trasformazioni dipendenti dai dati: KLT è teoricamente ottimale ma manca di implementazioni veloci; KLT separabile e GBST riducono la quantità di parametri ma non presentano ancora simmetrie sfruttabili per ridurre i calcoli
Collo di bottiglia applicativo: Le trasformazioni apprese esistenti sono raramente utilizzate negli encoder/decoder pratici a causa della mancanza di algoritmi veloci
Miglioramento dell'efficienza di codifica: Le trasformazioni dipendenti dal modo (MDT) possono sfruttare le caratteristiche statistiche dei residui di predizione di ciascun modo per migliorare la compressione energetica
Esigenze di applicazione industriale: I nuovi encoder come VVC richiedono di aumentare le prestazioni di compressione mantenendo bassa la complessità
Ponte tra teoria e pratica: È necessario trovare un equilibrio tra l'ottimalità teorica (KLT) e la fattibilità pratica (DTT)
GBST: Sebbene vincoli sulla quantità di parametri migliorino la robustezza, manca ancora di strutture sfruttabili
Metodi di quantizzazione diretta: La quantizzazione diretta del nucleo in virgola mobile a intero non riduce la complessità computazionale
Lavori precedenti degli autori: L'algoritmo FFT veloce di DTT+ è superiore alla moltiplicazione di matrici naive solo per dimensioni di blocco grandi e non risolve il problema dell'apprendimento dei parametri
L'articolo presenta i seguenti contributi principali:
Algoritmo di Apprendimento del Grafo Congiunto: Propone un metodo di apprendimento del grafo per DTT+ che stima congiuntamente i parametri degli aggiornamenti di rango uno dei grafi riga e colonna (αr, βr, αc, βc, ir, ic), catturando la struttura di covarianza dell'intero blocco
Framework di Implementazione Intera INT-DTT+:
Sfrutta la proprietà di decomposizione progressiva di DTT+ (DTT di base + matrice di Cauchy)
Progetta una strategia di rarefazione della matrice di Cauchy basata sulla proprietà di intercalamento degli autovalori
Costruisce un'approssimazione intera a bassa complessità, con complessità paragonabile a quella della DCT-2 intera
Metodo di Progettazione RDOT: Integra DTT+ nel framework di trasformazione ottimizzata in tasso-distorsione (RDOT), rendendo la trasformazione appresa complementare ai nuclei MTS VVC esistenti
Strategia di Clustering dei Pesi: Propone un metodo di clustering dei parametri basato su k-means che riduce ulteriormente i requisiti di memorizzazione (riduzione del 66%-94% rispetto a sep-KLT)
Verifica Sistematica: Nel scenario dei residui di predizione intraquadro dello standard VVC, realizza un risparmio di BD-rate superiore al 3% con incremento di complessità equivalente a un solo calcolo di DCT-2 intera
Input: Blocco residuo di predizione xi ∈ R^(n×n) (ad es., residuo di predizione intraquadro VVC) Output: Coefficienti trasformati yi = T^⊤ xi Obiettivo: Progettare la matrice di trasformazione T in modo che:
Si adatti alle caratteristiche statistiche del segnale (prestazioni di compressione energetica)
Abbia bassa complessità computazionale (operazioni intere, struttura sparsa)
Abbia bassi requisiti di memorizzazione (pochi parametri)
Possa essere integrata nel framework di codifica esistente (compatibilità RDO)
Proprietà 1 (Decomposizione Progressiva): Dato L = Udiag(λ)U^⊤ e L̃ = Ũdiag(λ̃)Ũ^⊤, si ha:
Ũ^⊤ = diag(a)C(λ̃, βλ)diag(z)U^⊤
Dove C è la matrice di Cauchy: C_ij = 1/(λ̃_i - βλ_j)
Significato: È possibile calcolare prima i coefficienti DTT di base U^⊤x, quindi trasformarli alla base DTT+ tramite la matrice di Cauchy
Proprietà 2 (Intercalamento degli Autovalori): Quando α,β > 0:
βλ_1 ≤ λ̃_1 ≤ βλ_2 ≤ ... ≤ βλ_n ≤ λ̃_n
Significato: |λ̃_j - βλ_i| aumenta al crescere di |i-j|, causando il decadimento dei coefficienti della matrice di Cauchy, che può quindi essere rarefatta
1. Inizializzazione: Partiziona casualmente i campioni in nt cluster
2. Iterazione fino a convergenza:
a. Per ogni cluster Ij, risolvi φ_j* e calcola la trasformazione Tj
b. Aggiorna l'assegnazione ai cluster tramite RDO (equazione 4)
3. Output: Insieme di trasformazioni apprese {Tj}
Input: Blocco immagine xi, matrici intere K'_dq e F'_q
1. Calcola coefficienti DTT di base: yi = U^⊤xi
2. Moltiplicazione per matrice diagonale: zi = K'_dq yi
3. Moltiplicazione per matrice sparsa: qi = zi + F'_q zi
Output: Coefficienti INT-DTT+ qi
Analisi della Complessità:
Passo 1: Presuppone che sia già calcolato in RDO (nessun costo aggiuntivo)
Passo 2: n moltiplicazioni (matrice diagonale)
Passo 3: Dipende dalla sparsità di F'_q, tipicamente ≤ n²/2 operazioni
Modi di Predizione Interquadro: Estensione ai residui di compensazione del movimento
Valutazione Consapevole dell'Hardware: Test di runtime effettivo e consumo energetico
Altri Encoder: Standard AV1, EVC, ecc.
Potenziali Estensioni:
4. Aggiornamenti di Ordine Superiore: Aggiornamenti di rango due o superiore
5. Estensione Non Separabile: Trasformazioni non separabili a bassa complessità
6. Apprendimento End-to-End: Ottimizzazione congiunta con encoder neurali
7. Ottimizzazione Percettiva: Integrazione di metriche di qualità percettiva
Carattere Pioneristico: Prima implementazione pratica di trasformazioni dipendenti dai dati, potrebbe cambiare il paradigma di progettazione dell'encoder
Valore Teorico: Il framework di aggiornamento di rango uno può ispirare ricerche su altri problemi di elaborazione dei segnali
Potenziale Industriale: La partecipazione di Dolby suggerisce interesse dell'industria, con possibilità di standardizzazione
Questo articolo rappresenta un progresso significativo nel campo della progettazione delle trasformazioni per la codifica video, colmando con successo il divario tra l'ottimalità teorica (KLT) e la fattibilità pratica (DTT). L'innovazione centrale consiste nello sfruttare la struttura speciale degli aggiornamenti di rango uno, combinando adattabilità ai dati con algoritmi veloci, un obiettivo a lungo perseguito ma non realizzato in questo settore.
I principali vantaggi includono eleganza teorica (framework matematico completo), praticità ingegneristica (complessità paragonabile a DCT), completezza sperimentale (verifica multidimensionale), rendendo questa una tecnologia pratica estremamente promettente. Le principali limitazioni risiedono nella profondità e ampiezza della valutazione ancora migliorabile, in particolare nell'implementazione hardware e nella capacità di generalizzazione tra scenari.
Per i ricercatori di codifica video, questo articolo fornisce un nuovo paradigma per la progettazione di trasformazioni dipendenti dai dati; per i professionisti industriali, INT-DTT+ è una soluzione pratica per migliorare l'efficienza di codifica; per i teorici, il framework di aggiornamento di rango uno può ispirare ricerche su altri problemi di matrici strutturate.
Indice di Raccomandazione: 9/10 - Fortemente consigliato ai ricercatori nei campi della codifica video, elaborazione dei segnali su grafi e algebra lineare numerica.