A linked bar chart is the augmentation of a traditional bar chart where each bar is partitioned into blocks and pairs of blocks are linked using orthogonal lines that pass over intermediate bars. The order of the blocks readily influences the legibility of the links. We study the algorithmic problem of minimizing the vertical length of these links, for a fixed bar order. The main challenge lies with ``dependent'' links, whose vertical link length cannot be optimized independently per bar. We show that, if the dependent links form a forest, the problem can be solved in $O(nm)$ time, for n bars and m links. If the dependent links between non-adjacent bars form a forest, the problem admits an $O(n^4m)$-time algorithm. Finally, we show that the general case is fixed-parameter tractable in the maximum number of links that are connected to one bar.
academic
Минимизация вертикальной длины в связанных столбчатых диаграммах
Связанные столбчатые диаграммы (Linked Bar Chart) представляют собой расширенную версию традиционных столбчатых диаграмм, где каждый столбец разделён на несколько блоков, соединённых ортогональными линиями, которые должны пересекать промежуточные столбцы. Порядок расположения блоков напрямую влияет на читаемость соединительных линий. В данной работе исследуется алгоритмическая задача минимизации вертикальной длины соединительных линий при фиксированном порядке столбцов. Основная сложность заключается в «зависимых связях» (dependent links), вертикальная длина которых не может быть оптимизирована независимо. Исследование показывает: если зависимые связи образуют лесную структуру, задача решается за время O(nm) (n столбцов, m связей); если зависимые связи между несоседними столбцами образуют лес, решение возможно за O(n⁴m); в общем случае задача является параметризованно разрешимой (FPT) по максимальной степени столбцов.
Традиционные столбчатые диаграммы могут представлять только данные одной категории, однако во многих практических сценариях некоторые значения не принадлежат исключительно одной категории, а связаны с несколькими. Например:
Общие объёмы: объём коммуникации между счётами одновременно отображается в статистике обоих счётов
Попарная неопределённость: избиратели, колеблющиеся между двумя партиями в избирательных опросах; вклад пограничных заводов в загрязнение обеих стран
Визуализация кросс-категориальных данных является важной задачей в анализе данных. Связанные столбчатые диаграммы представляют такие отношения путём добавления соединительных линий между столбцами, однако порядок укладки блоков напрямую влияет на вертикальную длину соединительных линий, что в свою очередь влияет на читаемость и эстетику диаграммы.
Стандартные столбчатые диаграммы не могут напрямую визуализировать кросс-категориальные значения
Хотя связанные столбчатые диаграммы были недавно предложены 17, задача оптимизации порядка укладки блоков ещё не исследовалась
Традиционные задачи рисования графов (например, однопроходное вложение) рассматривают только порядок вершин, не учитывая новое измерение укладки блоков
Данная работа первой систематически исследует алгоритмическую задачу минимизации вертикальной длины соединительных линий в связанных столбчатых диаграммах, обеспечивая теоретическую основу и эффективные алгоритмы для этого нового метода визуализации.
Формализация задачи: Впервые определена задача оптимизации минимизации вертикальной длины соединительных линий в связанных столбчатых диаграммах с введением классификационной системы «независимых связей» и «зависимых связей»
Алгоритм для лесной структуры: Доказано, что когда подграф зависимых связей образует лес, задача решается за O(nm) времени с использованием динамического программирования (теорема 3)
Алгоритм для несоседних лесов: Доказано, что когда несоседние зависимые связи образуют лес, задача решается за O(n⁴m) времени (теорема 6)
FPT алгоритм: Доказано, что в общем случае задача параметризованно разрешима с параметром максимальной степени столбца Δ, с временной сложностью O(Δ^(3δ)·δ·n) (теорема 8)
Нижние границы сложности: Доказано, что когда вершины могут иметь несколько несвязанных блоков с произвольным порядком, задача является сильно NP-трудной (теорема 12)
Независимые связи (IL): Вертикальная длина может быть оптимизирована независимо путём размещения блока в фиксированную целевую позицию t со стоимостью |t - y| + |t - y'|. Три случая:
Некоторый промежуточный столбец выше максимально возможной позиции некоторой конечной точки → целевая позиция = высота наивысшего промежуточного столбца H
Интервалы возможных позиций двух конечных точек не пересекаются → целевая позиция = минимальная позиция более высокого интервала
Позиция некоторой конечной точки фиксирована (соответствует пустой последовательности) → целевая позиция = эта фиксированная позиция
Зависимые связи (DL): Вертикальная длина зависит от относительного положения двух блоков и не может быть назначена статической целевой позиции. Далее разделяются на:
Соседние зависимые связи (ADL): соединяют соседние столбцы
Несоседние зависимые связи (NADL): соединяют несоседние столбцы
Ключевая лемма 1: Подграф зависимых связей является внешнепланарным графом, следовательно, его древесная ширина ≤ 2.
Основная идея: Использование структуры дерева для определения порядка обработки столбцов, вычисление с помощью динамического программирования снизу вверх.
Шаги алгоритма:
Для каждого дерева T в лесу выбрать произвольный корень
Для каждого столбца B обозначить lₚ* как блок, соединённый с родительским узлом (родительская связь)
Определить таблицу динамического программирования:
P(B, k): минимальная стоимость поддерева Tᵦ с k правыми блоками ниже родительской связи
D↓(p, q): минимальная стоимость первых p левых блоков и q правых блоков
D↑(p, q): минимальная стоимость последующих блоков
Стратегия разложения: Родительская связь блока lₚ* в позиции k разделяет столбец на две независимые части:
Система классификации связей: Классификация независимых/зависимых связей позволяет разложить задачу оптимизации, независимые связи могут быть локально оптимизированы, зависимые требуют глобального рассмотрения
Многоуровневое динамическое программирование:
Алгоритм 1: использует структуру дерева для разложения
Алгоритм 2: вводит параметризованные состояния для обработки ADL
Алгоритм 3: использует древесное разложение для общего случая
Использование свойств внешнепланарных графов: Внешнепланарность подграфа зависимых связей гарантирует древесную ширину ≤ 2, обеспечивая теоретическую основу для FPT алгоритма
Стратегия предварительного вычисления: В узле забывания предварительно вычисляется стоимость подмножеств несвязанных блоков, избегая повторных вычислений
Примечание: Данная работа является теоретической статьёй по алгоритмам и не содержит раздела экспериментальной верификации. Статья сосредоточена на проектировании алгоритмов и анализе сложности.
Статья доказывает сложность задачи через редукцию:
Теорема 12 (сильная NP-трудность): Когда вершины могут иметь несколько несвязанных блоков с произвольным порядком, минимизация вертикальной длины соединительных линий является сильно NP-трудной.
Метод доказательства: Редукция из задачи 3-Partition
Конструкция: 2k-1 столбцов, B₀ содержит n несвязанных блоков (соответствующих экземпляру 3-Partition)
Ключевое свойство: только порядок несвязанных блоков B₀ может быть изменён
Эквивалентность: существует схема с нулевой вертикальной длиной ⟺ существует решение 3-Partition
Многоуровневая сложность: Сложность задачи варьируется от O(nm) (лесная структура) до FPT (общий случай) до сильно NP-трудной (расширенная версия)
Практические алгоритмы: Для часто встречающихся структурированных данных (например, унимодальное распределение высоты) существуют эффективные полиномиальные алгоритмы
Параметризованная разрешимость: В общем случае при ограниченной степени столбцов задача может быть эффективно решена
1 Bernhart & Kainen (1979): The book thickness of a graph - Фундаментальная теория однопроходного вложения
6 Cygan et al. (2015): Parameterized algorithms - Стандартный учебник по FPT алгоритмам
11 Frederickson & Hambrusch (1988): Planar linear arrangements of outerplanar graphs - Полиномиальные алгоритмы оптимизации внешнепланарных графов
17 van Beusekom et al. (2024): Visualizing set sizes with dependent and independent uncertainties - Оригинальное предложение связанных столбчатых диаграмм
Общая оценка: Это высококачественная теоретическая статья по вычислительной геометрии, систематически исследующая алгоритмические задачи оптимизации связанных столбчатых диаграмм. Статья отличается теоретической строгостью, искусным проектированием алгоритмов и полным анализом сложности. Основная ценность заключается в установлении прочной теоретической основы для этого нового метода визуализации. Недостатки включают отсутствие экспериментальной верификации и неполную характеризацию сложности общего случая. Если в будущем будут добавлены оценки на реальных данных и разработаны эвристические алгоритмы, это значительно повысит практическую ценность работы.