INT-DTT+: Low-Complexity Data-Dependent Transforms for Video Coding
Fernández-Menduiña, Pavez, Ortega et al.
Discrete trigonometric transforms (DTTs), such as the DCT-2 and the DST-7, are widely used in video codecs for their balance between coding performance and computational efficiency. In contrast, data-dependent transforms, such as the Karhunen-Loève transform (KLT) and graph-based separable transforms (GBSTs), offer better energy compaction but lack symmetries that can be exploited to reduce computational complexity. This paper bridges this gap by introducing a general framework to design low-complexity data-dependent transforms. Our approach builds on DTT+, a family of GBSTs derived from rank-one updates of the DTT graphs, which can adapt to signal statistics while retaining a structure amenable to fast computation. We first propose a graph learning algorithm for DTT+ that estimates the rank-one updates for rows and column graphs jointly, capturing the statistical properties of the overall block. Then, we exploit the progressive structure of DTT+ to decompose the kernel into a base DTT and a structured Cauchy matrix. By leveraging low-complexity integer DTTs and sparsifying the Cauchy matrix, we construct an integer approximation to DTT+, termed INT-DTT+. This approximation significantly reduces both computational and memory complexities with respect to the separable KLT with minimal performance loss. We validate our approach in the context of mode-dependent transforms for the VVC standard, following a rate-distortion optimized transform (RDOT) design approach. Integrated into the explicit multiple transform selection (MTS) framework of VVC in a rate-distortion optimization setup, INT-DTT+ achieves more than 3% BD-rate savings over the VVC MTS baseline, with complexity comparable to the integer DCT-2 once the base DTT coefficients are available.
academic
INT-DTT+: Низкосложные зависящие от данных преобразования для видеокодирования
В данной статье предлагается структура низкосложного зависящего от данных преобразования INT-DTT+ для видеокодирования. Традиционные дискретные триггерные преобразования (такие как DCT-2 и DST-7) достигают баланса между производительностью кодирования и вычислительной эффективностью, однако зависящие от данных преобразования (такие как KLT и разделяемые преобразования на основе графов GBST) обеспечивают лучшее сжатие энергии, но не имеют используемой симметрии для снижения вычислительной сложности. Статья строит структуру на основе DTT+ (семейство GBST, полученное посредством обновления ранга один графа DTT), сначала предлагает алгоритм обучения графов для совместного оценивания обновлений ранга один строк и столбцов графов, затем использует прогрессивную структуру DTT+ для разложения ядра на базовое DTT и структурированную матрицу Коши. Путём использования низкосложного целочисленного DTT и разреженной матрицы Коши строится целочисленное приближение INT-DTT+. При проверке в сценарии преобразований, зависящих от режима стандарта VVC, INT-DTT+ достигает экономии BD-rate более 3% по сравнению с базовым уровнем VVC MTS при сложности, сравнимой с целочисленным DCT-2.
Проектирование преобразований в системах видеокодирования сталкивается с дилеммой "производительность-сложность":
Ограничения традиционных DTT: Дискретные триггерные преобразования (DCT-2, DST-7) имеют быстрые алгоритмы, но ограниченную адаптивность к статистическим характеристикам конкретных сигналов
Дилемма зависящих от данных преобразований: KLT теоретически оптимально, но не имеет быстрой реализации; разделяемые KLT и GBST снижают количество параметров, но по-прежнему не имеют симметрии для использования при снижении вычислений
Практические узкие места: Существующие изученные преобразования редко используются в практических кодеках из-за отсутствия быстрых алгоритмов
Повышение эффективности кодирования: Преобразования, зависящие от режима (MDT), могут повысить сжатие энергии, используя статистические характеристики остатков для каждого режима предсказания
Потребности промышленного применения: Новые кодеки, такие как VVC, требуют повышения производительности сжатия при сохранении низкой сложности
Мост между теорией и практикой: Необходимо найти баланс между теоретически оптимальным (KLT) и практически осуществимым (DTT)
sep-KLT: Требует изучения n² параметров, высокая вычислительная сложность (O(n²) умножений), отсутствие быстрого алгоритма
GBST: Хотя ограничивает количество параметров и повышает робастность, по-прежнему не имеет используемой структуры
Методы прямого квантования: Прямое квантование матрицы с плавающей точкой в целые числа не может снизить вычислительную сложность
Предыдущие работы авторов: Быстрый алгоритм FFT для DTT+ превосходит наивное матричное умножение только для больших размеров блоков и не решает проблему изучения параметров
Алгоритм совместного обучения графов: Предлагается метод обучения графов для DTT+, посредством совместного оценивания параметров обновления ранга один строк и столбцов графов (αr, βr, αc, βc, ir, ic), захватывающий структуру ковариации всего блока
Структура целочисленной реализации INT-DTT+:
Использование прогрессивного свойства разложения DTT+ (базовое DTT + матрица Коши)
Разработка стратегии разреживания матрицы Коши на основе свойства чередования собственных значений
Построение низкосложного целочисленного приближения, сложность которого сравнима с целочисленным DCT-2
Метод проектирования RDOT: Интеграция DTT+ в структуру оптимизации преобразования по критерию "скорость-искажение" (RDOT), позволяющая изученному преобразованию дополнять существующие ядра MTS в VVC
Стратегия кластеризации весов: Предлагается метод кластеризации параметров на основе k-means, дополнительно снижающий требования к хранению (снижение на 66%-94% по сравнению с sep-KLT)
Системная верификация: В сценарии остатков внутрикадрового предсказания стандарта VVC достигается экономия BD-rate более 3% при увеличении сложности, эквивалентном одному вычислению целочисленного DCT-2
Входные данные: Блок остатка предсказания xi ∈ R^(n×n) (например, остаток внутрикадрового предсказания VVC) Выходные данные: Коэффициенты преобразования yi = T^⊤ xi Цель: Спроектировать матрицу преобразования T такую, что она:
Адаптируется к статистическим характеристикам сигнала (производительность сжатия энергии)
Имеет низкую вычислительную сложность (целочисленные операции, разреженная структура)
Требует низкие требования к хранению (мало параметров)
Может быть интегрирована в существующую структуру кодирования (совместимость с RDO)
1. Инициализация: Случайное разбиение выборок на nt кластеров
2. Итерация до сходимости:
a. Для каждого кластера Ij решить φ_j* и вычислить преобразование Tj
b. Обновить назначение кластеров посредством RDO (уравнение 4)
3. Вывод: Набор изученных преобразований {Tj}
Входные данные: Блок изображения xi, целочисленные матрицы K'_dq и F'_q
1. Вычисление коэффициентов базового DTT: yi = U^⊤xi
2. Умножение на диагональную матрицу: zi = K'_dq yi
3. Умножение на разреженную матрицу: qi = zi + F'_q zi
Выходные данные: Коэффициенты INT-DTT+ qi
Анализ сложности:
Шаг 1: Предполагается уже вычисленным в RDO (без дополнительных затрат)
Шаг 2: n умножений (диагональная матрица)
Шаг 3: Зависит от разреженности F'_q, обычно ≤n²/2 операций
Режимы межкадрового предсказания: Расширение на остатки компенсации движения
Оценка с учётом аппаратуры: Тесты фактического времени выполнения и энергопотребления
Другие кодеки: Верификация на стандартах AV1, EVC и т.д.
Потенциальные расширения:
4. Обновления высшего порядка: Обновления ранга два или выше
5. Неразделяемые расширения: Неразделяемые преобразования с сохранением низкой сложности
6. Сквозное обучение: Совместная оптимизация с нейросетевыми кодировщиками
7. Оптимизация восприятия: Интеграция метрик качества восприятия
Данная статья представляет важный прогресс в области проектирования преобразований для видеокодирования, успешно преодолев разрыв между теоретически оптимальным (KLT) и практически осуществимым (DTT). Основная инновация заключается в использовании специальной структуры обновления ранга один для объединения адаптивности данных и быстрых алгоритмов, что является долгосрочной целью в этой области, которая ранее не была достигнута.
Основные преимущества включают теоретическую элегантность (полная математическая структура), инженерную практичность (сложность, сравнимая с DCT) и полноту экспериментов (многомерная верификация), что делает её весьма перспективной практической технологией. Основные ограничения заключаются в том, что глубина и широта оценки могут быть улучшены, особенно в отношении аппаратной реализации и обобщаемости между сценариями.
Для исследователей видеокодирования статья предоставляет новую парадигму проектирования зависящих от данных преобразований; для промышленных практиков INT-DTT+ является развёртываемым решением для повышения эффективности кодирования; для теоретиков структура обновления ранга один может вдохновить исследования других структурированных матричных задач.
Рекомендуемая оценка: 9/10 - Настоятельно рекомендуется исследователям в области видеокодирования, обработки сигналов на графах и численной линейной алгебры.