2025-11-18T08:58:13.020607

Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding

Yang, Bajić
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic

Передача распределения битов для улучшения воспринимаемого качества внутрикадрового кодирования VVC

Основная информация

  • ID статьи: 2510.10970
  • Название: Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
  • Авторы: Runyu Yang, Ivan V. Bajić (Simon Fraser University)
  • Классификация: eess.IV (обработка изображений и видео)
  • Дата публикации/конференция: Picture Coding Symposium 2025, Aachen, Germany
  • Ссылка на статью: https://arxiv.org/abs/2510.10970

Аннотация

Современные стандарты сжатия изображений и видео (включая H.266/VVC, AVS3 и AV1) используют гибридную схему кодирования на основе блоков. Хотя эта схема удобна для прямой оптимизации пиковой отношения сигнал-шум (PSNR), она испытывает трудности при оптимизации метрик, согласованных с восприятием (таких как многомасштабная структурная схожесть MS-SSIM). Для решения этой проблемы в статье предлагается низкосложный метод, который повышает воспринимаемое качество внутрикадрового кодирования VVC путём передачи знаний о распределении битов из сквозного сжатия изображений. Авторы вводят лёгкую модель, обученную на основе функции потерь восприятия, для генерации карты размеров квантования, которая неявно захватывает важность восприятия на уровне блоков, что позволяет эффективно получить карту QP для VVC. Эксперименты на наборах данных Kodak и CLIC демонстрируют значительные преимущества как по времени выполнения, так и по производительности метрик восприятия, с уменьшением BD-rate для MS-SSIM более чем на 11%.

Исследовательский контекст и мотивация

Основная проблема

Традиционные стандарты видеокодирования на основе блоков (такие как VVC) в оптимизации скорость-искажение (RDO) в основном ориентированы на MSE/PSNR, однако эти метрики слабо коррелируют с качеством восприятия человеком. Метрики, согласованные с восприятием (такие как SSIM, MS-SSIM, LPIPS), сложно применять в традиционной схеме блочного RDO из-за отсутствия аддитивности и независимости блоков.

Значимость проблемы

  1. Различие между воспринимаемым качеством и традиционными метриками: MSE/PSNR существенно отличаются от восприятия человеком, и оптимизация этих метрик не гарантирует хорошее субъективное качество
  2. Требования практических приложений: Современные видеоприложения предъявляют всё более высокие требования к воспринимаемому качеству, требуя лучших методов оптимизации восприятия
  3. Вызовы вычислительной сложности: Прямая оптимизация сложных метрик восприятия в традиционных кодировщиках требует чрезмерных вычислительных затрат

Ограничения существующих методов

  1. Сквозное сжатие: Хотя позволяет гибко оптимизировать метрики восприятия, несовместимо с традиционными стандартами
  2. Традиционные методы оптимизации восприятия: Такие как PerceptQPA, показывают ограниченную эффективность
  3. Методы дистилляции знаний: Например, методы Distillation требуют двукратного запуска сети кодировщика, что приводит к чрезмерной вычислительной сложности

Основные вклады

  1. Предложена низкосложная схема передачи распределения битов: Через лёгкую модель генерации размеров квантования передаёт знания о восприятии распределения битов из сквозного сжатия изображений в кодировщик VVC
  2. Установлена линейная связь между размером квантования и коэффициентом битов: Обнаружено, что коэффициент битов линейно связан с обратной величиной размера квантования, что упрощает процесс генерации карты QP
  3. Значительно снижена вычислительная сложность: По сравнению с существующими методами дистилляции время генерации карты QP сокращено в десять раз и более
  4. Достигнуто значительное улучшение производительности на нескольких наборах данных: Уменьшение BD-rate для MS-SSIM более чем на 11% при сохранении лучшей производительности PSNR

Подробное описание метода

Определение задачи

Для заданного входного изображения сгенерировать карту QP, применимую к кодировщику VVC, таким образом, чтобы при одинаковых ограничениях по битам результаты кодирования достигали лучшей производительности по метрикам восприятия (SSIM, MS-SSIM и т.д.).

Архитектура модели

Общая схема

Метод включает два основных этапа:

  1. Этап обучения: Обучение модели генерации размеров квантования с использованием функции потерь восприятия
  2. Этап вывода: Генерация карты размеров квантования и преобразование в карту QP для VVC

Модель генерации размеров квантования

  • Проектирование архитектуры: Использует стопки остаточных блоков и свёрточные слои с шагом 2
  • Разрешение выхода: Совпадает с разрешением скрытых признаков (исходное изображение уменьшено в 16 раз)
  • Функция активации: Использует softplus для обеспечения положительности выхода:
    softplus(x) = ln(1 + e^x)
    

Основы сквозного сжатия изображений

На основе популярной архитектуры с гиперприором оптимизируется совместная функция потерь:

L = λD + R_main + R_hyper

где λ управляет компромиссом скорость-искажение, D — искажение (MSE или метрика восприятия), R_main и R_hyper соответственно представляют битовые ставки для квантованных скрытых признаков и гиперприора.

Технические инновации

1. Отображение размера квантования на коэффициент битов

Экспериментально обнаружена линейная связь между коэффициентом битов и обратной величиной размера квантования:

r_k ≈ 1/QS_k

где r_k — коэффициент битов блока k, QS_k — соответствующий размер квантования.

2. Алгоритм адаптации QP

На основе модели R-λ формула расчёта QP на уровне блока:

QP_k = QP + 3log_2(r_k^β_k) ≈ QP - 3log_2(QS_k^β_k)

3. Оптимизация функции потерь восприятия

Обучение трём вариантам восприятия: 1-SSIM, 1-MS-SSIM и LPIPS, совместная функция потерь:

L = λ(αD_perc) + R_main + R_hyper

Экспериментальная установка

Наборы данных

  1. Данные обучения: Набор данных LIU4K, содержащий 607,714 случайно обрезанных патчей размером 256×256 из 1,600 исходных изображений и их версий с двукубической интерполяцией 2× и 4×
  2. Данные тестирования:
    • Набор изображений Kodak: 24 изображения, примерно 0,35 МП
    • Изображения валидации/тестирования CLIC 2022: более 2 МП

Метрики оценки

  • Традиционные метрики: RGB PSNR
  • Метрики восприятия: SSIM, MS-SSIM, LPIPS
  • Комплексная оценка: BD-rate (Bjøntegaard Delta Rate)

Методы сравнения

  1. VTM-23.0: Базовое программное обеспечение VVC
  2. PerceptQPA: Метод адаптации QP на основе высокочастотной фильтрации
  3. Distillation: Метод дистилляции знаний, требующий двукратного запуска сети кодировщика

Детали реализации

  • Установка QP: QP ∈ {37, 32, 27, 22} для выравнивания скорости
  • Максимальное смещение QP: Ограничено 4 для снижения блочных артефактов
  • Параметры обучения: Использован оптимизатор Adam, начальная скорость обучения 1e-4, обучение на 5 эпохах
  • Гиперпараметры: α установлены соответственно на 0,02 (SSIM), 0,08 (MS-SSIM), 0,04 (LPIPS)

Результаты экспериментов

Основные результаты

Результаты на наборе данных Kodak

МетодPSNRSSIMMS-SSIMLPIPS
PerceptQPA2.85-4.26-11.86-11.96
Distillation (MS-SSIM)2.52-5.83-12.74-13.30
Предложенный метод (MS-SSIM)0.98-6.19-11.88-10.96

Результаты на наборе данных CLIC

МетодPSNRSSIMMS-SSIMLPIPS
PerceptQPA3.20-2.42-9.91-11.51
Distillation (MS-SSIM)7.55-3.61-10.24-11.97
Предложенный метод (MS-SSIM)2.46-5.91-11.26-10.88

Абляционные исследования

Влияние параметра наклона

Регулировка наклона от 1,0 до 1,2 позволяет реализовать более агрессивную адаптацию QP:

  • Оптимизация MS-SSIM: BD-rate улучшается с -11,88% до -12,47%
  • Но производительность PSNR немного снижается: с 0,98% до 2,24%

Реальный коэффициент битов против приближённого метода

Использование реального коэффициента битов по сравнению с приближением обратной величины:

  • Производительность метрик восприятия немного снижается
  • Но производительность PSNR остаётся лучше

Анализ вычислительной сложности

  • Среда GPU: Генерация карты QP требует только около 20 мс (изображение Kodak)
  • Среда CPU: Примерно 700 мс
  • По сравнению с Distillation: Вычислительная сложность сокращена в десять раз и более

Оценка визуального качества

Визуальная оценка при QP 37 показывает:

  • Структурированные области: Значительное улучшение воспринимаемого качества
  • Области с высокой текстурой: Производство аналогичного воспринимаемого качества при более низких битовых ставках
  • Общий эффект: Сравним с PerceptQPA и Distillation

Связанные работы

Традиционные методы оптимизации восприятия

  1. PerceptQPA: Адаптация QP на основе высокочастотной фильтрации, учитывающая характеристики зрительной системы человека
  2. Методы на основе JND: Использование едва заметной разницы для распределения битов

Сквозное сжатие изображений

  1. Архитектура с гиперприором: Схема вариационного сжатия изображений, предложенная Ballé и др.
  2. Оптимизация восприятия: Сквозные модели, обученные непосредственно с использованием функций потерь восприятия
  3. Структура на уровне блоков: Сквозные модели, более близкие к традиционным схемам кодирования

Методы передачи знаний

  1. Методы дистилляции: Извлечение знаний о распределении битов из сквозных моделей
  2. Передача признаков: Использование промежуточных представлений моделей глубокого обучения

Заключение и обсуждение

Основные выводы

  1. Эффективность: Успешная передача знаний о восприятии распределения битов из сквозного сжатия изображений в кодировщик VVC
  2. Эффективность: Значительное снижение вычислительной сложности, делающее метод практически применимым
  3. Универсальность: Метод эффективен для различных метрик восприятия (SSIM, MS-SSIM)

Ограничения

  1. Ограниченная эффективность оптимизации LPIPS: Оптимизация глубоких метрик восприятия остаётся вызовом
  2. Ограничение внутрикадровым кодированием: Ещё не расширено на временную оптимизацию видеокодирования
  3. Различия архитектуры: Различия между архитектурой сквозных моделей и традиционных кодировщиков ограничивают эффективность передачи знаний

Направления будущих исследований

  1. Расширение видеокодирования: Интеграция временной информации для оптимизации восприятия
  2. Задачи машинного зрения: Распределение битов для нижестоящих задач (таких как обнаружение объектов)
  3. Выравнивание архитектуры: Использование сквозных моделей, более близких к традиционным схемам кодирования

Глубокая оценка

Преимущества

  1. Высокая инновационность: Предложена линейная связь между размером квантования и коэффициентом битов, упрощающая процесс передачи
  2. Высокая практическая ценность: Значительное снижение вычислительной сложности делает метод потенциально применимым в промышленности
  3. Комплексные эксперименты: Достаточная проверка на нескольких наборах данных и метриках
  4. Отличная производительность: Значительное улучшение метрик восприятия при сохранении производительности PSNR

Недостатки

  1. Недостаточный теоретический анализ: Отсутствует теоретическое объяснение линейной связи между размером квантования и коэффициентом битов
  2. Ограниченная область применения: Главным образом применимо к SSIM и MS-SSIM, ограниченная эффективность для LPIPS
  3. Чувствительность параметров: Гиперпараметры, такие как наклон, требуют ручной настройки
  4. Способность к обобщению: Способность к обобщению на различные типы изображений требует дальнейшей проверки

Влияние

  1. Академический вклад: Предлагает новый подход к оптимизации восприятия для традиционных кодировщиков
  2. Практическая ценность: Низкая сложность делает метод потенциально применимым в промышленности
  3. Воспроизводимость: Метод описан ясно, экспериментальная установка подробна

Применимые сценарии

  1. Потоковое видео: Приложения, требующие улучшения воспринимаемого качества при ограниченной полосе пропускания
  2. Сжатие изображений: Хранение и передача изображений с высокими требованиями к воспринимаемому качеству
  3. Приложения реального времени: Сценарии с ограниченными вычислительными ресурсами, но требующие оптимизации восприятия

Библиография

Статья цитирует 20 важных работ, охватывающих стандарты видеокодирования, оценку качества восприятия, сквозное сжатие и передачу знаний, обеспечивая прочную теоретическую основу для исследования.