2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, BajiÄ

Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.

academic

VVC 프레임 내 코딩의 지각 품질 향상을 위한 비트 할당 전이

기본 정보

논문 ID: 2510.10970
제목: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
저자: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
분류: eess.IV (이미지 및 비디오 처리)
발표 시간/학회: Picture Coding Symposium 2025, Aachen, Germany
논문 링크: https://arxiv.org/abs/2510.10970

초록

주류 이미지 및 비디오 코딩 표준(H.266/VVC, AVS3, AV1 등 최신 코덱 포함)은 블록 기반 하이브리드 코딩 프레임워크를 채택하고 있습니다. 이 프레임워크는 피크 신호 대 잡음비(PSNR)에 대한 직접 최적화에는 유리하지만, 다중 스케일 구조 유사성(MS-SSIM)과 같은 지각 정렬 지표 최적화에는 어려움이 있습니다. 이 문제를 해결하기 위해 본 논문은 엔드-투-엔드 이미지 압축에서 비트 할당 지식을 전이하여 VVC 프레임 내 코딩의 지각 품질을 향상시키는 저복잡도 방법을 제안합니다. 본 논문은 지각 손실로 훈련된 경량 모델을 도입하여 양자화 스텝 맵을 생성하며, 이는 블록 레벨 지각 중요도를 암묵적으로 포착하여 VVC의 QP 맵을 효과적으로 도출할 수 있게 합니다. Kodak 및 CLIC 데이터셋에서의 실험은 실행 시간 및 지각 지표 성능 측면에서 현저한 이점을 보여주며, MS-SSIM의 BD-rate가 11% 이상 감소합니다.

연구 배경 및 동기

핵심 문제

전통적인 블록 기반 비디오 코딩 표준(예: VVC)은 율-왜곡 최적화(RDO)에서 주로 MSE/PSNR을 대상으로 최적화하지만, 이러한 지표는 인간 시각 지각 품질과의 상관관계가 낮습니다. 반면 지각 정렬 지표(SSIM, MS-SSIM, LPIPS)는 가산성과 블록 독립성이 부족하여 전통적인 블록 레벨 RDO 프레임워크에서 효과적으로 적용하기 어렵습니다.

문제의 중요성

지각 품질과 전통 지표의 차이: MSE/PSNR과 인간 시각 지각 사이에 현저한 격차가 존재하며, 이러한 지표를 최적화해도 우수한 주관적 품질을 보장하지 못합니다.
실제 응용 요구: 현대 비디오 응용은 지각 품질에 대한 요구가 점점 높아지고 있으며, 더 나은 지각 최적화 방법이 필요합니다.
계산 복잡도 문제: 전통 인코더에서 복잡한 지각 지표를 직접 최적화하는 것은 계산 비용이 매우 높습니다.

기존 방법의 한계

엔드-투-엔드 압축: 지각 지표를 유연하게 최적화할 수 있지만 전통 표준과 호환되지 않습니다.
전통적 지각 최적화 방법: PerceptQPA 등의 방법은 효과가 제한적입니다.
지식 증류 방법: Distillation 방법은 인코더 네트워크를 두 번 실행해야 하므로 계산 복잡도가 매우 높습니다.

핵심 기여

저복잡도 비트 할당 전이 방안 제안: 경량 양자화 스텝 생성 모델을 통해 엔드-투-엔드 이미지 압축의 지각 비트 할당 지식을 VVC 인코더로 전이합니다.
양자화 스텝과 비트 비율 간의 선형 관계 수립: 비트 비율이 양자화 스텝의 역수와 선형 관계를 가짐을 발견하여 QP 맵 생성 프로세스를 단순화합니다.
계산 복잡도 현저히 감소: 기존 증류 방법 대비 QP 맵 생성 시간을 10분의 1 이하로 감소시킵니다.
다중 데이터셋에서 현저한 성능 향상: MS-SSIM의 BD-rate가 11% 이상 감소하면서 더 나은 PSNR 성능을 유지합니다.

방법 상세 설명

작업 정의

입력 이미지가 주어졌을 때, VVC 인코더에 적용 가능한 QP 맵을 생성하여 동일한 비트율 제약 하에서 인코딩 결과가 지각 지표(SSIM, MS-SSIM 등)에서 더 나은 성능을 얻도록 합니다.

모델 아키텍처

전체 프레임워크

방법은 두 가지 주요 단계로 구성됩니다:

훈련 단계: 지각 손실로 양자화 스텝 생성 모델을 훈련합니다.
추론 단계: 양자화 스텝 맵을 생성하고 VVC의 QP 맵으로 변환합니다.

양자화 스텝 생성 모델

아키텍처 설계: 스택된 잔차 블록과 스트라이드 2 컨볼루션 레이어를 채택합니다.
출력 해상도: 잠재 특성과 동일(원본 이미지 16배 다운샘플링)
활성화 함수: softplus를 사용하여 출력이 양수임을 보장합니다:
```
softplus(x) = ln(1 + e^x)
```

엔드-투-엔드 이미지 압축 기초

주류 초선험(hyperprior) 설계를 기반으로 결합 손실을 최적화합니다:

L = λD + R_main + R_hyper

여기서 λ는 율-왜곡 균형을 제어하고, D는 왜곡(MSE 또는 지각 지표), R_main과 R_hyper는 각각 양자화된 잠재 특성과 초선험의 비트율입니다.

기술 혁신 포인트

1. 양자화 스텝에서 비트 비율로의 매핑

실험을 통해 비트 비율과 양자화 스텝 역수의 선형 관계를 발견했습니다:

r_k ≈ 1/QS_k

여기서 r_k는 블록 k의 비트 비율, QS_k는 해당하는 양자화 스텝입니다.

2. QP 적응 알고리즘

R-λ 모델을 기반으로 블록 레벨 QP 계산 공식:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. 지각 손실 최적화

세 가지 지각 변형을 훈련합니다: 1-SSIM, 1-MS-SSIM, LPIPS. 결합 손실 함수:

L = λ(αD_perc) + R_main + R_hyper

실험 설정

데이터셋

훈련 데이터: LIU4K 데이터셋, 1,600개의 원본 이미지 및 2×/4× 쌍입방 다운샘플링 버전에서 무작위로 자른 256×256 패치 607,714개 포함
테스트 데이터:
- Kodak 이미지 세트: 24개 이미지, 약 0.35MP
- CLIC 2022 검증/테스트 이미지: 2MP 이상