Bit Allocation Transfer for Perceptual Quality Enhancement of VVC Intra Coding
Yang, BajiÄ
Mainstream image and video coding standards -- including state-of-the-art codecs like H.266/VVC, AVS3, and AV1 -- adopt a block-based hybrid coding framework. While this framework facilitates straightforward optimization for Peak Signal-to-Noise Ratio (PSNR), it struggles to effectively optimize perceptually-aligned metrics such as Multi-Scale Structural Similarity (MS-SSIM). To address this challenge, this paper proposes a low-complexity method to enhance perceptual quality in VVC intra coding by transferring bit allocation knowledge from end-to-end image compression. We introduce a lightweight model trained with perceptual losses to generate a quantization step map. This map implicitly captures block-level perceptual importance, enabling efficient derivation of a QP map for VVC. Experiments on Kodak and CLIC datasets demonstrate significant advantages, both in execution time and perceptual metric performance, with more than 11% BD-rate reduction in terms of MS-SSIM. Our scheme provides an efficient, practical pathway for perceptual enhancement of traditional codecs.
academic
Передача распределения битов для улучшения воспринимаемого качества внутрикадрового кодирования VVC
Современные стандарты сжатия изображений и видео (включая H.266/VVC, AVS3 и AV1) используют гибридную схему кодирования на основе блоков. Хотя эта схема удобна для прямой оптимизации пиковой отношения сигнал-шум (PSNR), она испытывает трудности при оптимизации метрик, согласованных с восприятием (таких как многомасштабная структурная схожесть MS-SSIM). Для решения этой проблемы в статье предлагается низкосложный метод, который повышает воспринимаемое качество внутрикадрового кодирования VVC путём передачи знаний о распределении битов из сквозного сжатия изображений. Авторы вводят лёгкую модель, обученную на основе функции потерь восприятия, для генерации карты размеров квантования, которая неявно захватывает важность восприятия на уровне блоков, что позволяет эффективно получить карту QP для VVC. Эксперименты на наборах данных Kodak и CLIC демонстрируют значительные преимущества как по времени выполнения, так и по производительности метрик восприятия, с уменьшением BD-rate для MS-SSIM более чем на 11%.
Традиционные стандарты видеокодирования на основе блоков (такие как VVC) в оптимизации скорость-искажение (RDO) в основном ориентированы на MSE/PSNR, однако эти метрики слабо коррелируют с качеством восприятия человеком. Метрики, согласованные с восприятием (такие как SSIM, MS-SSIM, LPIPS), сложно применять в традиционной схеме блочного RDO из-за отсутствия аддитивности и независимости блоков.
Различие между воспринимаемым качеством и традиционными метриками: MSE/PSNR существенно отличаются от восприятия человеком, и оптимизация этих метрик не гарантирует хорошее субъективное качество
Требования практических приложений: Современные видеоприложения предъявляют всё более высокие требования к воспринимаемому качеству, требуя лучших методов оптимизации восприятия
Вызовы вычислительной сложности: Прямая оптимизация сложных метрик восприятия в традиционных кодировщиках требует чрезмерных вычислительных затрат
Сквозное сжатие: Хотя позволяет гибко оптимизировать метрики восприятия, несовместимо с традиционными стандартами
Традиционные методы оптимизации восприятия: Такие как PerceptQPA, показывают ограниченную эффективность
Методы дистилляции знаний: Например, методы Distillation требуют двукратного запуска сети кодировщика, что приводит к чрезмерной вычислительной сложности
Предложена низкосложная схема передачи распределения битов: Через лёгкую модель генерации размеров квантования передаёт знания о восприятии распределения битов из сквозного сжатия изображений в кодировщик VVC
Установлена линейная связь между размером квантования и коэффициентом битов: Обнаружено, что коэффициент битов линейно связан с обратной величиной размера квантования, что упрощает процесс генерации карты QP
Значительно снижена вычислительная сложность: По сравнению с существующими методами дистилляции время генерации карты QP сокращено в десять раз и более
Достигнуто значительное улучшение производительности на нескольких наборах данных: Уменьшение BD-rate для MS-SSIM более чем на 11% при сохранении лучшей производительности PSNR
Для заданного входного изображения сгенерировать карту QP, применимую к кодировщику VVC, таким образом, чтобы при одинаковых ограничениях по битам результаты кодирования достигали лучшей производительности по метрикам восприятия (SSIM, MS-SSIM и т.д.).
На основе популярной архитектуры с гиперприором оптимизируется совместная функция потерь:
L = λD + R_main + R_hyper
где λ управляет компромиссом скорость-искажение, D — искажение (MSE или метрика восприятия), R_main и R_hyper соответственно представляют битовые ставки для квантованных скрытых признаков и гиперприора.
Данные обучения: Набор данных LIU4K, содержащий 607,714 случайно обрезанных патчей размером 256×256 из 1,600 исходных изображений и их версий с двукубической интерполяцией 2× и 4×
Данные тестирования:
Набор изображений Kodak: 24 изображения, примерно 0,35 МП
Изображения валидации/тестирования CLIC 2022: более 2 МП
Статья цитирует 20 важных работ, охватывающих стандарты видеокодирования, оценку качества восприятия, сквозное сжатие и передачу знаний, обеспечивая прочную теоретическую основу для исследования.