2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, Bajić
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic

Trasferimento dell'Allocazione dei Bit per il Miglioramento della Qualità Percettiva della Codifica Intra VVC

Informazioni Fondamentali

  • ID Articolo: 2510.10970
  • Titolo: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
  • Autori: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
  • Classificazione: eess.IV (Elaborazione di Immagini e Video)
  • Data di Pubblicazione/Conferenza: Picture Coding Symposium 2025, Aachen, Germania
  • Link Articolo: https://arxiv.org/abs/2510.10970

Riassunto

Gli standard di codifica di immagini e video mainstream (inclusi i codec più recenti come H.266/VVC, AVS3 e AV1) adottano un framework di codifica ibrida basato su blocchi. Sebbene questo framework faciliti l'ottimizzazione diretta per il rapporto segnale-rumore di picco (PSNR), presenta difficoltà nell'ottimizzazione di metriche percettivamente allineate (come la similarità strutturale multi-scala MS-SSIM). Per affrontare questa sfida, l'articolo propone un metodo a bassa complessità che migliora la qualità percettiva della codifica intra VVC trasferendo la conoscenza dell'allocazione dei bit dalla compressione di immagini end-to-end. L'articolo introduce un modello leggero addestrato con perdita percettiva per generare mappe di step di quantizzazione, che catturano implicitamente l'importanza percettiva a livello di blocco, consentendo di derivare efficacemente la mappa QP per VVC. Gli esperimenti sui dataset Kodak e CLIC dimostrano vantaggi significativi sia in termini di tempo di esecuzione che di prestazioni delle metriche percettive, con una riduzione del BD-rate di MS-SSIM superiore all'11%.

Contesto di Ricerca e Motivazione

Problema Centrale

Gli standard di codifica video tradizionali basati su blocchi (come VVC) ottimizzano principalmente per MSE/PSNR nell'ottimizzazione rate-distorsione (RDO), ma queste metriche hanno una scarsa correlazione con la qualità percettiva della visione umana. Le metriche percettivamente allineate (come SSIM, MS-SSIM, LPIPS), a causa della mancanza di additività e indipendenza dai blocchi, sono difficili da applicare efficacemente nel framework tradizionale di RDO a livello di blocco.

Importanza del Problema

  1. Differenza tra qualità percettiva e metriche tradizionali: Esiste un divario significativo tra MSE/PSNR e la percezione visiva umana; l'ottimizzazione di queste metriche non garantisce una buona qualità soggettiva
  2. Esigenze di applicazioni pratiche: Le moderne applicazioni video richiedono sempre più qualità percettiva, necessitando di metodi di ottimizzazione percettiva migliori
  3. Sfida della complessità computazionale: L'ottimizzazione diretta di metriche percettive complesse nei codificatori tradizionali ha costi computazionali eccessivi

Limitazioni dei Metodi Esistenti

  1. Compressione end-to-end: Sebbene possa ottimizzare flessibilmente le metriche percettive, è incompatibile con gli standard tradizionali
  2. Metodi tradizionali di ottimizzazione percettiva: Metodi come PerceptQPA hanno effetti limitati
  3. Metodi di distillazione della conoscenza: Metodi come Distillation richiedono l'esecuzione della rete del codificatore due volte, con complessità computazionale eccessiva

Contributi Principali

  1. Propone uno schema di trasferimento dell'allocazione dei bit a bassa complessità: Trasferisce la conoscenza dell'allocazione dei bit percettiva dalla compressione di immagini end-to-end al codificatore VVC attraverso un modello leggero di generazione degli step di quantizzazione
  2. Stabilisce una relazione lineare tra step di quantizzazione e rapporto di bit: Scopre che il rapporto di bit è linearmente correlato all'inverso dello step di quantizzazione, semplificando il processo di generazione della mappa QP
  3. Riduce significativamente la complessità computazionale: Rispetto ai metodi di distillazione esistenti, il tempo di generazione della mappa QP è ridotto a meno di un decimo
  4. Ottiene miglioramenti significativi delle prestazioni su più dataset: La riduzione del BD-rate di MS-SSIM supera l'11%, mantenendo al contempo migliori prestazioni PSNR

Spiegazione Dettagliata del Metodo

Definizione del Compito

Dato un'immagine di input, generare una mappa QP applicabile al codificatore VVC, in modo che con lo stesso vincolo di bit rate, il risultato della codifica ottenga prestazioni migliori su metriche percettive (SSIM, MS-SSIM, ecc.).

Architettura del Modello

Framework Complessivo

Il metodo comprende due fasi principali:

  1. Fase di addestramento: Addestramento del modello di generazione degli step di quantizzazione con perdita percettiva
  2. Fase di inferenza: Generazione della mappa degli step di quantizzazione e conversione nella mappa QP di VVC

Modello di Generazione degli Step di Quantizzazione

  • Progettazione dell'architettura: Utilizza blocchi residui impilati e strati di convoluzione con stride 2
  • Risoluzione di output: Uguale alle caratteristiche latenti (immagine originale sottocampionata 16 volte)
  • Funzione di attivazione: Utilizza softplus per garantire output positivi:
    softplus(x) = ln(1 + e^x)
    

Base di Compressione di Immagini End-to-End

Basata sul design di iperprior mainstream, ottimizza la perdita congiunta:

L = λD + R_main + R_hyper

dove λ controlla il compromesso rate-distorsione, D è la distorsione (MSE o metrica percettiva), R_main e R_hyper corrispondono rispettivamente al bit rate delle caratteristiche latenti quantizzate e dell'iperprior.

Punti di Innovazione Tecnica

1. Mappatura da Step di Quantizzazione a Rapporto di Bit

Attraverso esperimenti, scopre la relazione lineare tra rapporto di bit e inverso dello step di quantizzazione:

r_k ≈ 1/QS_k

dove r_k è il rapporto di bit del blocco k, QS_k è lo step di quantizzazione corrispondente.

2. Algoritmo QP Adattivo

Basato sul modello R-λ, la formula di calcolo del QP a livello di blocco è:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. Ottimizzazione della Perdita Percettiva

Addestra tre varianti percettive: 1-SSIM, 1-MS-SSIM e LPIPS, con funzione di perdita congiunta:

L = λ(αD_perc) + R_main + R_hyper

Configurazione Sperimentale

Dataset

  1. Dati di addestramento: Dataset LIU4K, contenente 607.714 patch di dimensione 256×256 estratti casualmente da 1.600 immagini originali e dalle loro versioni sottocampionate 2× e 4× con interpolazione bicubica
  2. Dati di test:
    • Set di immagini Kodak: 24 immagini, circa 0,35 MP
    • Immagini di validazione/test CLIC 2022: oltre 2 MP

Metriche di Valutazione

  • Metriche tradizionali: PSNR RGB
  • Metriche percettive: SSIM, MS-SSIM, LPIPS
  • Valutazione complessiva: BD-rate (Bjøntegaard Delta Rate)

Metodi di Confronto

  1. VTM-23.0: Software di riferimento VVC baseline
  2. PerceptQPA: Metodo di adattamento QP basato su filtro passa-alto
  3. Distillation: Metodo di distillazione della conoscenza, richiede l'esecuzione della rete del codificatore due volte

Dettagli di Implementazione

  • Impostazione QP: QP ∈ {37, 32, 27, 22} per l'allineamento del rate
  • Offset QP massimo: Limitato a 4 per ridurre gli artefatti di blocco
  • Impostazioni di addestramento: Utilizzo dell'ottimizzatore Adam, tasso di apprendimento iniziale 1e-4, addestramento per 5 epoch
  • Iperparametri: α impostato rispettivamente a 0,02 (SSIM), 0,08 (MS-SSIM), 0,04 (LPIPS)

Risultati Sperimentali

Risultati Principali

Risultati sul Dataset Kodak

MetodoPSNRSSIMMS-SSIMLPIPS
PerceptQPA2,85-4,26-11,86-11,96
Distillation (MS-SSIM)2,52-5,83-12,74-13,30
Metodo Proposto (MS-SSIM)0,98-6,19-11,88-10,96

Risultati sul Dataset CLIC

MetodoPSNRSSIMMS-SSIMLPIPS
PerceptQPA3,20-2,42-9,91-11,51
Distillation (MS-SSIM)7,55-3,61-10,24-11,97
Metodo Proposto (MS-SSIM)2,46-5,91-11,26-10,88

Esperimenti di Ablazione

Impatto del Parametro di Pendenza

Regolando la pendenza da 1,0 a 1,2, è possibile ottenere un adattamento QP più aggressivo:

  • Ottimizzazione MS-SSIM: BD-rate migliora da -11,88% a -12,47%
  • Ma le prestazioni PSNR diminuiscono leggermente: da 0,98% a 2,24%

Rapporto di Bit Reale vs Metodo Approssimato

Utilizzando il rapporto di bit reale rispetto al metodo di approssimazione dell'inverso:

  • Leggero calo delle prestazioni delle metriche percettive
  • Ma PSNR mantiene migliori prestazioni

Analisi della Complessità Computazionale

  • Ambiente GPU: La generazione della mappa QP richiede solo circa 20 ms (immagine Kodak)
  • Ambiente CPU: Circa 700 ms
  • Rispetto a Distillation: La complessità temporale è ridotta a meno di un decimo

Valutazione della Qualità Visiva

La valutazione visiva a QP 37 mostra:

  • Aree strutturate: Miglioramento evidente della qualità percettiva
  • Aree ad alta trama: Produzione di qualità percettiva simile a bit rate più bassi
  • Effetto complessivo simile a PerceptQPA e Distillation

Lavori Correlati

Metodi Tradizionali di Ottimizzazione Percettiva

  1. PerceptQPA: Adattamento QP basato su filtro passa-alto, considerando le caratteristiche del sistema visivo umano
  2. Metodi basati su JND: Utilizzo della differenza appena percettibile per l'allocazione dei bit

Compressione di Immagini End-to-End

  1. Architettura di iperprior: Framework di compressione di immagini variazionale proposto da Ballé et al.
  2. Ottimizzazione percettiva: Modelli end-to-end addestrati direttamente con perdita percettiva
  3. Struttura a livello di blocco: Modelli end-to-end più vicini al framework di codifica tradizionale

Metodi di Trasferimento della Conoscenza

  1. Metodi di distillazione: Estrazione della conoscenza dell'allocazione dei bit da modelli end-to-end
  2. Trasferimento di caratteristiche: Utilizzo delle rappresentazioni intermedie dei modelli di deep learning

Conclusioni e Discussione

Conclusioni Principali

  1. Efficacia: Trasferimento con successo della conoscenza dell'allocazione dei bit percettiva dalla compressione di immagini end-to-end al codificatore VVC
  2. Efficienza: Riduzione significativa della complessità computazionale, rendendo il metodo pratico
  3. Generalità: Il metodo è efficace per diverse metriche percettive (SSIM, MS-SSIM)

Limitazioni

  1. Effetto limitato dell'ottimizzazione LPIPS: L'ottimizzazione di metriche percettive profonde rimane una sfida
  2. Limitato alla codifica intra: Non ancora esteso all'ottimizzazione temporale della codifica video
  3. Differenze architettoniche: Le differenze architettoniche tra modelli end-to-end e codificatori tradizionali limitano l'effetto del trasferimento della conoscenza

Direzioni Future

  1. Estensione alla codifica video: Incorporazione di informazioni temporali per l'ottimizzazione percettiva
  2. Compiti di visione artificiale: Allocazione dei bit per compiti a valle (come il rilevamento di oggetti)
  3. Allineamento architettonico: Utilizzo di modelli end-to-end più vicini al framework di codifica tradizionale

Valutazione Approfondita

Punti di Forza

  1. Forte innovatività: Propone la relazione lineare tra step di quantizzazione e rapporto di bit, semplificando il processo di trasferimento
  2. Alto valore pratico: Riduce significativamente la complessità computazionale, conferendo al metodo potenziale di applicazione pratica
  3. Esperimenti completi: Verifica sufficiente su più dataset e metriche
  4. Prestazioni eccellenti: Migliora significativamente le metriche percettive mantenendo le prestazioni PSNR

Insufficienze

  1. Analisi teorica insufficiente: Manca l'interpretazione teorica della relazione lineare tra step di quantizzazione e rapporto di bit
  2. Ambito di applicabilità limitato: Principalmente applicabile a SSIM e MS-SSIM, con effetto limitato su LPIPS
  3. Sensibilità ai parametri: Iperparametri come la pendenza richiedono regolazione manuale
  4. Capacità di generalizzazione: La capacità di generalizzazione su diversi tipi di immagini necessita di ulteriore verifica

Impatto

  1. Contributo accademico: Fornisce nuove prospettive per l'ottimizzazione percettiva dei codificatori tradizionali
  2. Valore pratico: Le caratteristiche di bassa complessità conferiscono potenziale di applicazione industriale
  3. Riproducibilità: Descrizione del metodo chiara e impostazioni sperimentali dettagliate

Scenari Applicabili

  1. Streaming video: Applicazioni che necessitano di migliorare la qualità percettiva con larghezza di banda limitata
  2. Compressione di immagini: Archiviazione e trasmissione di immagini con elevati requisiti di qualità percettiva
  3. Applicazioni in tempo reale: Scenari con risorse computazionali limitate ma che richiedono ottimizzazione percettiva

Bibliografia

L'articolo cita 20 importanti riferimenti bibliografici, che coprono gli standard di codifica video, la valutazione della qualità percettiva, la compressione end-to-end e i campi correlati al trasferimento della conoscenza, fornendo una base teorica solida per la ricerca.