Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
Yang, BajiÄ
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
주류 이미지 및 비디오 코딩 표준(H.266/VVC, AVS3, AV1 등 최신 코덱 포함)은 블록 기반 하이브리드 코딩 프레임워크를 채택하고 있습니다. 이 프레임워크는 피크 신호 대 잡음비(PSNR)에 대한 직접 최적화에는 유리하지만, 다중 스케일 구조 유사성(MS-SSIM)과 같은 지각 정렬 지표 최적화에는 어려움이 있습니다. 이 문제를 해결하기 위해 본 논문은 엔드-투-엔드 이미지 압축에서 비트 할당 지식을 전이하여 VVC 프레임 내 코딩의 지각 품질을 향상시키는 저복잡도 방법을 제안합니다. 본 논문은 지각 손실로 훈련된 경량 모델을 도입하여 양자화 스텝 맵을 생성하며, 이는 블록 레벨 지각 중요도를 암묵적으로 포착하여 VVC의 QP 맵을 효과적으로 도출할 수 있게 합니다. Kodak 및 CLIC 데이터셋에서의 실험은 실행 시간 및 지각 지표 성능 측면에서 현저한 이점을 보여주며, MS-SSIM의 BD-rate가 11% 이상 감소합니다.
전통적인 블록 기반 비디오 코딩 표준(예: VVC)은 율-왜곡 최적화(RDO)에서 주로 MSE/PSNR을 대상으로 최적화하지만, 이러한 지표는 인간 시각 지각 품질과의 상관관계가 낮습니다. 반면 지각 정렬 지표(SSIM, MS-SSIM, LPIPS)는 가산성과 블록 독립성이 부족하여 전통적인 블록 레벨 RDO 프레임워크에서 효과적으로 적용하기 어렵습니다.