2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, BajiÄ

Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.

academic

Trasferimento dell'Allocazione dei Bit per il Miglioramento della Qualità Percettiva della Codifica Intra VVC

Informazioni Fondamentali

ID Articolo: 2510.10970
Titolo: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
Autori: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
Classificazione: eess.IV (Elaborazione di Immagini e Video)
Data di Pubblicazione/Conferenza: Picture Coding Symposium 2025, Aachen, Germania
Link Articolo: https://arxiv.org/abs/2510.10970

Riassunto

Gli standard di codifica di immagini e video mainstream (inclusi i codec più recenti come H.266/VVC, AVS3 e AV1) adottano un framework di codifica ibrida basato su blocchi. Sebbene questo framework faciliti l'ottimizzazione diretta per il rapporto segnale-rumore di picco (PSNR), presenta difficoltà nell'ottimizzazione di metriche percettivamente allineate (come la similarità strutturale multi-scala MS-SSIM). Per affrontare questa sfida, l'articolo propone un metodo a bassa complessità che migliora la qualità percettiva della codifica intra VVC trasferendo la conoscenza dell'allocazione dei bit dalla compressione di immagini end-to-end. L'articolo introduce un modello leggero addestrato con perdita percettiva per generare mappe di step di quantizzazione, che catturano implicitamente l'importanza percettiva a livello di blocco, consentendo di derivare efficacemente la mappa QP per VVC. Gli esperimenti sui dataset Kodak e CLIC dimostrano vantaggi significativi sia in termini di tempo di esecuzione che di prestazioni delle metriche percettive, con una riduzione del BD-rate di MS-SSIM superiore all'11%.

Contesto di Ricerca e Motivazione

Problema Centrale

Gli standard di codifica video tradizionali basati su blocchi (come VVC) ottimizzano principalmente per MSE/PSNR nell'ottimizzazione rate-distorsione (RDO), ma queste metriche hanno una scarsa correlazione con la qualità percettiva della visione umana. Le metriche percettivamente allineate (come SSIM, MS-SSIM, LPIPS), a causa della mancanza di additività e indipendenza dai blocchi, sono difficili da applicare efficacemente nel framework tradizionale di RDO a livello di blocco.

Importanza del Problema

Differenza tra qualità percettiva e metriche tradizionali: Esiste un divario significativo tra MSE/PSNR e la percezione visiva umana; l'ottimizzazione di queste metriche non garantisce una buona qualità soggettiva
Esigenze di applicazioni pratiche: Le moderne applicazioni video richiedono sempre più qualità percettiva, necessitando di metodi di ottimizzazione percettiva migliori
Sfida della complessità computazionale: L'ottimizzazione diretta di metriche percettive complesse nei codificatori tradizionali ha costi computazionali eccessivi

Limitazioni dei Metodi Esistenti

Compressione end-to-end: Sebbene possa ottimizzare flessibilmente le metriche percettive, è incompatibile con gli standard tradizionali
Metodi tradizionali di ottimizzazione percettiva: Metodi come PerceptQPA hanno effetti limitati
Metodi di distillazione della conoscenza: Metodi come Distillation richiedono l'esecuzione della rete del codificatore due volte, con complessità computazionale eccessiva

Contributi Principali

Propone uno schema di trasferimento dell'allocazione dei bit a bassa complessità: Trasferisce la conoscenza dell'allocazione dei bit percettiva dalla compressione di immagini end-to-end al codificatore VVC attraverso un modello leggero di generazione degli step di quantizzazione
Stabilisce una relazione lineare tra step di quantizzazione e rapporto di bit: Scopre che il rapporto di bit è linearmente correlato all'inverso dello step di quantizzazione, semplificando il processo di generazione della mappa QP
Riduce significativamente la complessità computazionale: Rispetto ai metodi di distillazione esistenti, il tempo di generazione della mappa QP è ridotto a meno di un decimo
Ottiene miglioramenti significativi delle prestazioni su più dataset: La riduzione del BD-rate di MS-SSIM supera l'11%, mantenendo al contempo migliori prestazioni PSNR

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un'immagine di input, generare una mappa QP applicabile al codificatore VVC, in modo che con lo stesso vincolo di bit rate, il risultato della codifica ottenga prestazioni migliori su metriche percettive (SSIM, MS-SSIM, ecc.).

Architettura del Modello

Framework Complessivo

Il metodo comprende due fasi principali:

Fase di addestramento: Addestramento del modello di generazione degli step di quantizzazione con perdita percettiva
Fase di inferenza: Generazione della mappa degli step di quantizzazione e conversione nella mappa QP di VVC

Modello di Generazione degli Step di Quantizzazione

Progettazione dell'architettura: Utilizza blocchi residui impilati e strati di convoluzione con stride 2
Risoluzione di output: Uguale alle caratteristiche latenti (immagine originale sottocampionata 16 volte)
Funzione di attivazione: Utilizza softplus per garantire output positivi:
```
softplus(x) = ln(1 + e^x)
```

Base di Compressione di Immagini End-to-End

Basata sul design di iperprior mainstream, ottimizza la perdita congiunta:

L = λD + R_main + R_hyper

dove λ controlla il compromesso rate-distorsione, D è la distorsione (MSE o metrica percettiva), R_main e R_hyper corrispondono rispettivamente al bit rate delle caratteristiche latenti quantizzate e dell'iperprior.

Punti di Innovazione Tecnica

1. Mappatura da Step di Quantizzazione a Rapporto di Bit

Attraverso esperimenti, scopre la relazione lineare tra rapporto di bit e inverso dello step di quantizzazione:

r_k ≈ 1/QS_k

dove r_k è il rapporto di bit del blocco k, QS_k è lo step di quantizzazione corrispondente.

2. Algoritmo QP Adattivo

Basato sul modello R-λ, la formula di calcolo del QP a livello di blocco è:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. Ottimizzazione della Perdita Percettiva

Addestra tre varianti percettive: 1-SSIM, 1-MS-SSIM e LPIPS, con funzione di perdita congiunta:

L = λ(αD_perc) + R_main + R_hyper

Configurazione Sperimentale

Dataset

Dati di addestramento: Dataset LIU4K, contenente 607.714 patch di dimensione 256×256 estratti casualmente da 1.600 immagini originali e dalle loro versioni sottocampionate 2× e 4× con interpolazione bicubica
Dati di test:
- Set di immagini Kodak: 24 immagini, circa 0,35 MP
- Immagini di validazione/test CLIC 2022: oltre 2 MP

Metriche di Valutazione

Metriche tradizionali: PSNR RGB
Metriche percettive: SSIM, MS-SSIM, LPIPS
Valutazione complessiva: BD-rate (Bjøntegaard Delta Rate)

Metodi di Confronto

VTM-23.0: Software di riferimento VVC baseline
PerceptQPA: Metodo di adattamento QP basato su filtro passa-alto
Distillation: Metodo di distillazione della conoscenza, richiede l'esecuzione della rete del codificatore due volte

Dettagli di Implementazione

Impostazione QP: QP ∈ {37, 32, 27, 22} per l'allineamento del rate
Offset QP massimo: Limitato a 4 per ridurre gli artefatti di blocco
Impostazioni di addestramento: Utilizzo dell'ottimizzatore Adam, tasso di apprendimento iniziale 1e-4, addestramento per 5 epoch
Iperparametri: α impostato rispettivamente a 0,02 (SSIM), 0,08 (MS-SSIM), 0,04 (LPIPS)

Risultati Sperimentali

Risultati Principali

Risultati sul Dataset Kodak

Metodo	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	2,85	-4,26	-11,86	-11,96
Distillation (MS-SSIM)	2,52	-5,83	-12,74	-13,30
Metodo Proposto (MS-SSIM)	0,98	-6,19	-11,88	-10,96

Risultati sul Dataset CLIC

Metodo	PSNR	SSIM	MS-SSIM	LPIPS
PerceptQPA	3,20	-2,42	-9,91	-11,51
Distillation (MS-SSIM)	7,55	-3,61	-10,24	-11,97
Metodo Proposto (MS-SSIM)	2,46	-5,91	-11,26	-10,88

Esperimenti di Ablazione

Impatto del Parametro di Pendenza

Regolando la pendenza da 1,0 a 1,2, è possibile ottenere un adattamento QP più aggressivo:

Ottimizzazione MS-SSIM: BD-rate migliora da -11,88% a -12,47%
Ma le prestazioni PSNR diminuiscono leggermente: da 0,98% a 2,24%

Rapporto di Bit Reale vs Metodo Approssimato

Utilizzando il rapporto di bit reale rispetto al metodo di approssimazione dell'inverso:

Leggero calo delle prestazioni delle metriche percettive
Ma PSNR mantiene migliori prestazioni

Analisi della Complessità Computazionale

Ambiente GPU: La generazione della mappa QP richiede solo circa 20 ms (immagine Kodak)
Ambiente CPU: Circa 700 ms
Rispetto a Distillation: La complessità temporale è ridotta a meno di un decimo

Valutazione della Qualità Visiva

La valutazione visiva a QP 37 mostra:

Aree strutturate: Miglioramento evidente della qualità percettiva
Aree ad alta trama: Produzione di qualità percettiva simile a bit rate più bassi
Effetto complessivo simile a PerceptQPA e Distillation

Lavori Correlati

Metodi Tradizionali di Ottimizzazione Percettiva

PerceptQPA: Adattamento QP basato su filtro passa-alto, considerando le caratteristiche del sistema visivo umano
Metodi basati su JND: Utilizzo della differenza appena percettibile per l'allocazione dei bit

Compressione di Immagini End-to-End

Architettura di iperprior: Framework di compressione di immagini variazionale proposto da Ballé et al.
Ottimizzazione percettiva: Modelli end-to-end addestrati direttamente con perdita percettiva
Struttura a livello di blocco: Modelli end-to-end più vicini al framework di codifica tradizionale

Metodi di Trasferimento della Conoscenza

Metodi di distillazione: Estrazione della conoscenza dell'allocazione dei bit da modelli end-to-end
Trasferimento di caratteristiche: Utilizzo delle rappresentazioni intermedie dei modelli di deep learning

Conclusioni e Discussione

Conclusioni Principali

Efficacia: Trasferimento con successo della conoscenza dell'allocazione dei bit percettiva dalla compressione di immagini end-to-end al codificatore VVC
Efficienza: Riduzione significativa della complessità computazionale, rendendo il metodo pratico
Generalità: Il metodo è efficace per diverse metriche percettive (SSIM, MS-SSIM)

Limitazioni

Effetto limitato dell'ottimizzazione LPIPS: L'ottimizzazione di metriche percettive profonde rimane una sfida
Limitato alla codifica intra: Non ancora esteso all'ottimizzazione temporale della codifica video
Differenze architettoniche: Le differenze architettoniche tra modelli end-to-end e codificatori tradizionali limitano l'effetto del trasferimento della conoscenza

Direzioni Future

Estensione alla codifica video: Incorporazione di informazioni temporali per l'ottimizzazione percettiva
Compiti di visione artificiale: Allocazione dei bit per compiti a valle (come il rilevamento di oggetti)
Allineamento architettonico: Utilizzo di modelli end-to-end più vicini al framework di codifica tradizionale

Valutazione Approfondita

Punti di Forza

Forte innovatività: Propone la relazione lineare tra step di quantizzazione e rapporto di bit, semplificando il processo di trasferimento
Alto valore pratico: Riduce significativamente la complessità computazionale, conferendo al metodo potenziale di applicazione pratica
Esperimenti completi: Verifica sufficiente su più dataset e metriche
Prestazioni eccellenti: Migliora significativamente le metriche percettive mantenendo le prestazioni PSNR

Insufficienze

Analisi teorica insufficiente: Manca l'interpretazione teorica della relazione lineare tra step di quantizzazione e rapporto di bit
Ambito di applicabilità limitato: Principalmente applicabile a SSIM e MS-SSIM, con effetto limitato su LPIPS
Sensibilità ai parametri: Iperparametri come la pendenza richiedono regolazione manuale
Capacità di generalizzazione: La capacità di generalizzazione su diversi tipi di immagini necessita di ulteriore verifica

Impatto

Contributo accademico: Fornisce nuove prospettive per l'ottimizzazione percettiva dei codificatori tradizionali
Valore pratico: Le caratteristiche di bassa complessità conferiscono potenziale di applicazione industriale
Riproducibilità: Descrizione del metodo chiara e impostazioni sperimentali dettagliate

Scenari Applicabili

Streaming video: Applicazioni che necessitano di migliorare la qualità percettiva con larghezza di banda limitata
Compressione di immagini: Archiviazione e trasmissione di immagini con elevati requisiti di qualità percettiva
Applicazioni in tempo reale: Scenari con risorse computazionali limitate ma che richiedono ottimizzazione percettiva

Bibliografia

L'articolo cita 20 importanti riferimenti bibliografici, che coprono gli standard di codifica video, la valutazione della qualità percettiva, la compressione end-to-end e i campi correlati al trasferimento della conoscenza, fornendo una base teorica solida per la ricerca.