2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, Bajić
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic

VVC 프레임 내 코딩의 지각 품질 향상을 위한 비트 할당 전이

기본 정보

  • 논문 ID: 2510.10970
  • 제목: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
  • 저자: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
  • 분류: eess.IV (이미지 및 비디오 처리)
  • 발표 시간/학회: Picture Coding Symposium 2025, Aachen, Germany
  • 논문 링크: https://arxiv.org/abs/2510.10970

초록

주류 이미지 및 비디오 코딩 표준(H.266/VVC, AVS3, AV1 등 최신 코덱 포함)은 블록 기반 하이브리드 코딩 프레임워크를 채택하고 있습니다. 이 프레임워크는 피크 신호 대 잡음비(PSNR)에 대한 직접 최적화에는 유리하지만, 다중 스케일 구조 유사성(MS-SSIM)과 같은 지각 정렬 지표 최적화에는 어려움이 있습니다. 이 문제를 해결하기 위해 본 논문은 엔드-투-엔드 이미지 압축에서 비트 할당 지식을 전이하여 VVC 프레임 내 코딩의 지각 품질을 향상시키는 저복잡도 방법을 제안합니다. 본 논문은 지각 손실로 훈련된 경량 모델을 도입하여 양자화 스텝 맵을 생성하며, 이는 블록 레벨 지각 중요도를 암묵적으로 포착하여 VVC의 QP 맵을 효과적으로 도출할 수 있게 합니다. Kodak 및 CLIC 데이터셋에서의 실험은 실행 시간 및 지각 지표 성능 측면에서 현저한 이점을 보여주며, MS-SSIM의 BD-rate가 11% 이상 감소합니다.

연구 배경 및 동기

핵심 문제

전통적인 블록 기반 비디오 코딩 표준(예: VVC)은 율-왜곡 최적화(RDO)에서 주로 MSE/PSNR을 대상으로 최적화하지만, 이러한 지표는 인간 시각 지각 품질과의 상관관계가 낮습니다. 반면 지각 정렬 지표(SSIM, MS-SSIM, LPIPS)는 가산성과 블록 독립성이 부족하여 전통적인 블록 레벨 RDO 프레임워크에서 효과적으로 적용하기 어렵습니다.

문제의 중요성

  1. 지각 품질과 전통 지표의 차이: MSE/PSNR과 인간 시각 지각 사이에 현저한 격차가 존재하며, 이러한 지표를 최적화해도 우수한 주관적 품질을 보장하지 못합니다.
  2. 실제 응용 요구: 현대 비디오 응용은 지각 품질에 대한 요구가 점점 높아지고 있으며, 더 나은 지각 최적화 방법이 필요합니다.
  3. 계산 복잡도 문제: 전통 인코더에서 복잡한 지각 지표를 직접 최적화하는 것은 계산 비용이 매우 높습니다.

기존 방법의 한계

  1. 엔드-투-엔드 압축: 지각 지표를 유연하게 최적화할 수 있지만 전통 표준과 호환되지 않습니다.
  2. 전통적 지각 최적화 방법: PerceptQPA 등의 방법은 효과가 제한적입니다.
  3. 지식 증류 방법: Distillation 방법은 인코더 네트워크를 두 번 실행해야 하므로 계산 복잡도가 매우 높습니다.

핵심 기여

  1. 저복잡도 비트 할당 전이 방안 제안: 경량 양자화 스텝 생성 모델을 통해 엔드-투-엔드 이미지 압축의 지각 비트 할당 지식을 VVC 인코더로 전이합니다.
  2. 양자화 스텝과 비트 비율 간의 선형 관계 수립: 비트 비율이 양자화 스텝의 역수와 선형 관계를 가짐을 발견하여 QP 맵 생성 프로세스를 단순화합니다.
  3. 계산 복잡도 현저히 감소: 기존 증류 방법 대비 QP 맵 생성 시간을 10분의 1 이하로 감소시킵니다.
  4. 다중 데이터셋에서 현저한 성능 향상: MS-SSIM의 BD-rate가 11% 이상 감소하면서 더 나은 PSNR 성능을 유지합니다.

방법 상세 설명

작업 정의

입력 이미지가 주어졌을 때, VVC 인코더에 적용 가능한 QP 맵을 생성하여 동일한 비트율 제약 하에서 인코딩 결과가 지각 지표(SSIM, MS-SSIM 등)에서 더 나은 성능을 얻도록 합니다.

모델 아키텍처

전체 프레임워크

방법은 두 가지 주요 단계로 구성됩니다:

  1. 훈련 단계: 지각 손실로 양자화 스텝 생성 모델을 훈련합니다.
  2. 추론 단계: 양자화 스텝 맵을 생성하고 VVC의 QP 맵으로 변환합니다.

양자화 스텝 생성 모델

  • 아키텍처 설계: 스택된 잔차 블록과 스트라이드 2 컨볼루션 레이어를 채택합니다.
  • 출력 해상도: 잠재 특성과 동일(원본 이미지 16배 다운샘플링)
  • 활성화 함수: softplus를 사용하여 출력이 양수임을 보장합니다:
    softplus(x) = ln(1 + e^x)
    

엔드-투-엔드 이미지 압축 기초

주류 초선험(hyperprior) 설계를 기반으로 결합 손실을 최적화합니다:

L = λD + R_main + R_hyper

여기서 λ는 율-왜곡 균형을 제어하고, D는 왜곡(MSE 또는 지각 지표), R_main과 R_hyper는 각각 양자화된 잠재 특성과 초선험의 비트율입니다.

기술 혁신 포인트

1. 양자화 스텝에서 비트 비율로의 매핑

실험을 통해 비트 비율과 양자화 스텝 역수의 선형 관계를 발견했습니다:

r_k ≈ 1/QS_k

여기서 r_k는 블록 k의 비트 비율, QS_k는 해당하는 양자화 스텝입니다.

2. QP 적응 알고리즘

R-λ 모델을 기반으로 블록 레벨 QP 계산 공식:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. 지각 손실 최적화

세 가지 지각 변형을 훈련합니다: 1-SSIM, 1-MS-SSIM, LPIPS. 결합 손실 함수:

L = λ(αD_perc) + R_main + R_hyper

실험 설정

데이터셋

  1. 훈련 데이터: LIU4K 데이터셋, 1,600개의 원본 이미지 및 2×/4× 쌍입방 다운샘플링 버전에서 무작위로 자른 256×256 패치 607,714개 포함
  2. 테스트 데이터:
    • Kodak 이미지 세트: 24개 이미지, 약 0.35MP
    • CLIC 2022 검증/테스트 이미지: 2MP 이상

평가 지표

  • 전통 지표: RGB PSNR
  • 지각 지표: SSIM, MS-SSIM, LPIPS
  • 종합 평가: BD-rate(Bjøntegaard Delta Rate)

비교 방법

  1. VTM-23.0: VVC 참조 소프트웨어 기준선
  2. PerceptQPA: 고주파 필터 기반 QP 적응 방법
  3. Distillation: 지식 증류 방법, 인코더 네트워크를 두 번 실행 필요

구현 세부사항

  • QP 설정: QP ∈ {37, 32, 27, 22} 율 정렬
  • 최대 QP 오프셋: 블록 효과 완화를 위해 4로 제한
  • 훈련 설정: Adam 옵티마이저 사용, 초기 학습률 1e-4, 5 에포크 훈련
  • 하이퍼파라미터: α는 각각 0.02(SSIM), 0.08(MS-SSIM), 0.04(LPIPS)로 설정

실험 결과

주요 결과

Kodak 데이터셋 결과

방법PSNRSSIMMS-SSIMLPIPS
PerceptQPA2.85-4.26-11.86-11.96
Distillation (MS-SSIM)2.52-5.83-12.74-13.30
본 논문 방법 (MS-SSIM)0.98-6.19-11.88-10.96

CLIC 데이터셋 결과

방법PSNRSSIMMS-SSIMLPIPS
PerceptQPA3.20-2.42-9.91-11.51
Distillation (MS-SSIM)7.55-3.61-10.24-11.97
본 논문 방법 (MS-SSIM)2.46-5.91-11.26-10.88

절제 실험

기울기 파라미터의 영향

기울기를 1.0에서 1.2로 조정하면 더 적극적인 QP 적응을 구현할 수 있습니다:

  • MS-SSIM 최적화: BD-rate가 -11.88%에서 -12.47%로 향상
  • 하지만 PSNR 성능은 약간 저하: 0.98%에서 2.24%로 증가

실제 비트 비율 vs 근사 방법

실제 비트 비율을 역수 근사 방법과 비교:

  • 지각 지표 성능은 약간 저하
  • 하지만 PSNR은 더 나은 성능 유지

계산 복잡도 분석

  • GPU 환경: QP 맵 생성에 약 20ms 소요(Kodak 이미지)
  • CPU 환경: 약 700ms
  • Distillation 대비: 시간 복잡도가 10분의 1 이하로 감소

시각 품질 평가

QP 37에서의 시각 평가 결과:

  • 구조 영역: 지각 품질이 명확히 개선됨
  • 고 텍스처 영역: 더 낮은 비트율에서 유사한 지각 품질 생성
  • 전체 효과는 PerceptQPA 및 Distillation과 유사함

관련 연구

전통적 지각 최적화 방법

  1. PerceptQPA: 고주파 필터 기반 QP 적응, 인간 시각 시스템 특성 고려
  2. JND 기반 방법: 겨우 감지할 수 있는 차이를 이용한 비트 할당

엔드-투-엔드 이미지 압축

  1. 초선험 아키텍처: Ballé 등이 제안한 변분 이미지 압축 프레임워크
  2. 지각 최적화: 지각 손실로 직접 훈련된 엔드-투-엔드 모델
  3. 블록 레벨 구조: 전통 코딩 프레임워크에 더 가까운 엔드-투-엔드 모델

지식 전이 방법

  1. 증류 방법: 엔드-투-엔드 모델에서 비트 할당 지식 추출
  2. 특성 전이: 심층 학습 모델의 중간 표현 활용

결론 및 논의

주요 결론

  1. 효과성: 엔드-투-엔드 이미지 압축의 지각 비트 할당 지식을 VVC 인코더로 성공적으로 전이
  2. 효율성: 계산 복잡도를 현저히 감소시켜 방법의 실용성 확보
  3. 일반성: 다양한 지각 지표(SSIM, MS-SSIM)에 효과적

한계

  1. LPIPS 최적화 효과 제한: 심층 지각 지표의 최적화는 여전히 도전 과제
  2. 프레임 내 코딩만 적용: 비디오 코딩의 시간 영역 최적화로 확장되지 않음
  3. 아키텍처 차이: 엔드-투-엔드 모델과 전통 인코더의 아키텍처 차이가 지식 전이 효과를 제한

향후 방향

  1. 비디오 코딩 확장: 시간 영역 정보를 결합한 지각 최적화
  2. 기계 시각 작업: 목표 탐지 등 하위 작업을 위한 비트 할당
  3. 아키텍처 정렬: 전통 코딩 프레임워크에 더 가까운 엔드-투-엔드 모델 채택

심층 평가

장점

  1. 높은 혁신성: 양자화 스텝과 비트 비율의 선형 관계를 제안하여 전이 프로세스를 단순화
  2. 높은 실용 가치: 계산 복잡도를 대폭 감소시켜 실제 응용 잠재력 확보
  3. 포괄적 실험: 다중 데이터셋 및 지표에서 충분한 검증 수행
  4. 우수한 성능: PSNR 성능을 유지하면서 지각 지표를 현저히 향상

부족한 점

  1. 이론 분석 부족: 양자화 스텝-비트 비율 선형 관계에 대한 이론적 설명 부재
  2. 적용 범위 제한: 주로 SSIM 및 MS-SSIM에 적용 가능하며 LPIPS 효과는 제한적
  3. 파라미터 민감성: 기울기 등 하이퍼파라미터는 수동 조정 필요
  4. 일반화 능력: 다양한 유형의 이미지에서의 일반화 능력은 추가 검증 필요

영향력

  1. 학술 기여: 전통 인코더의 지각 최적화에 새로운 사고방식 제공
  2. 실용 가치: 저복잡도 특성으로 산업 응용 잠재력 보유
  3. 재현성: 방법 설명이 명확하고 실험 설정이 상세함

적용 시나리오

  1. 비디오 스트리밍: 제한된 대역폭에서 지각 품질 향상이 필요한 응용
  2. 이미지 압축: 지각 품질 요구가 높은 이미지 저장 및 전송
  3. 실시간 응용: 계산 자원이 제한되지만 지각 최적화가 필요한 시나리오

참고 문헌

본 논문은 비디오 코딩 표준, 지각 품질 평가, 엔드-투-엔드 압축 및 지식 전이 등 관련 분야의 핵심 연구를 포함한 20편의 중요 문헌을 인용하여 연구에 견고한 이론적 기초를 제공합니다.