Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
Yang, BajiÄ
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic
Trasferimento dell'Allocazione dei Bit per il Miglioramento della Qualità Percettiva della Codifica Intra VVC
Gli standard di codifica di immagini e video mainstream (inclusi i codec più recenti come H.266/VVC, AVS3 e AV1) adottano un framework di codifica ibrida basato su blocchi. Sebbene questo framework faciliti l'ottimizzazione diretta per il rapporto segnale-rumore di picco (PSNR), presenta difficoltà nell'ottimizzazione di metriche percettivamente allineate (come la similarità strutturale multi-scala MS-SSIM). Per affrontare questa sfida, l'articolo propone un metodo a bassa complessità che migliora la qualità percettiva della codifica intra VVC trasferendo la conoscenza dell'allocazione dei bit dalla compressione di immagini end-to-end. L'articolo introduce un modello leggero addestrato con perdita percettiva per generare mappe di step di quantizzazione, che catturano implicitamente l'importanza percettiva a livello di blocco, consentendo di derivare efficacemente la mappa QP per VVC. Gli esperimenti sui dataset Kodak e CLIC dimostrano vantaggi significativi sia in termini di tempo di esecuzione che di prestazioni delle metriche percettive, con una riduzione del BD-rate di MS-SSIM superiore all'11%.
Gli standard di codifica video tradizionali basati su blocchi (come VVC) ottimizzano principalmente per MSE/PSNR nell'ottimizzazione rate-distorsione (RDO), ma queste metriche hanno una scarsa correlazione con la qualità percettiva della visione umana. Le metriche percettivamente allineate (come SSIM, MS-SSIM, LPIPS), a causa della mancanza di additività e indipendenza dai blocchi, sono difficili da applicare efficacemente nel framework tradizionale di RDO a livello di blocco.
Differenza tra qualità percettiva e metriche tradizionali: Esiste un divario significativo tra MSE/PSNR e la percezione visiva umana; l'ottimizzazione di queste metriche non garantisce una buona qualità soggettiva
Esigenze di applicazioni pratiche: Le moderne applicazioni video richiedono sempre più qualità percettiva, necessitando di metodi di ottimizzazione percettiva migliori
Sfida della complessità computazionale: L'ottimizzazione diretta di metriche percettive complesse nei codificatori tradizionali ha costi computazionali eccessivi
Compressione end-to-end: Sebbene possa ottimizzare flessibilmente le metriche percettive, è incompatibile con gli standard tradizionali
Metodi tradizionali di ottimizzazione percettiva: Metodi come PerceptQPA hanno effetti limitati
Metodi di distillazione della conoscenza: Metodi come Distillation richiedono l'esecuzione della rete del codificatore due volte, con complessità computazionale eccessiva
Propone uno schema di trasferimento dell'allocazione dei bit a bassa complessità: Trasferisce la conoscenza dell'allocazione dei bit percettiva dalla compressione di immagini end-to-end al codificatore VVC attraverso un modello leggero di generazione degli step di quantizzazione
Stabilisce una relazione lineare tra step di quantizzazione e rapporto di bit: Scopre che il rapporto di bit è linearmente correlato all'inverso dello step di quantizzazione, semplificando il processo di generazione della mappa QP
Riduce significativamente la complessità computazionale: Rispetto ai metodi di distillazione esistenti, il tempo di generazione della mappa QP è ridotto a meno di un decimo
Ottiene miglioramenti significativi delle prestazioni su più dataset: La riduzione del BD-rate di MS-SSIM supera l'11%, mantenendo al contempo migliori prestazioni PSNR
Dato un'immagine di input, generare una mappa QP applicabile al codificatore VVC, in modo che con lo stesso vincolo di bit rate, il risultato della codifica ottenga prestazioni migliori su metriche percettive (SSIM, MS-SSIM, ecc.).
Basata sul design di iperprior mainstream, ottimizza la perdita congiunta:
L = λD + R_main + R_hyper
dove λ controlla il compromesso rate-distorsione, D è la distorsione (MSE o metrica percettiva), R_main e R_hyper corrispondono rispettivamente al bit rate delle caratteristiche latenti quantizzate e dell'iperprior.
Dati di addestramento: Dataset LIU4K, contenente 607.714 patch di dimensione 256×256 estratti casualmente da 1.600 immagini originali e dalle loro versioni sottocampionate 2× e 4× con interpolazione bicubica
Dati di test:
Set di immagini Kodak: 24 immagini, circa 0,35 MP
Immagini di validazione/test CLIC 2022: oltre 2 MP
Efficacia: Trasferimento con successo della conoscenza dell'allocazione dei bit percettiva dalla compressione di immagini end-to-end al codificatore VVC
Efficienza: Riduzione significativa della complessità computazionale, rendendo il metodo pratico
Generalità: Il metodo è efficace per diverse metriche percettive (SSIM, MS-SSIM)
Effetto limitato dell'ottimizzazione LPIPS: L'ottimizzazione di metriche percettive profonde rimane una sfida
Limitato alla codifica intra: Non ancora esteso all'ottimizzazione temporale della codifica video
Differenze architettoniche: Le differenze architettoniche tra modelli end-to-end e codificatori tradizionali limitano l'effetto del trasferimento della conoscenza
L'articolo cita 20 importanti riferimenti bibliografici, che coprono gli standard di codifica video, la valutazione della qualità percettiva, la compressione end-to-end e i campi correlati al trasferimento della conoscenza, fornendo una base teorica solida per la ricerca.