2025-11-24T07:31:17.262721

Minimizing Vertical Length in Linked Bar Charts

Broek, van Kreveld, Meulemans et al.

A linked bar chart is the augmentation of a traditional bar chart where each bar is partitioned into blocks and pairs of blocks are linked using orthogonal lines that pass over intermediate bars. The order of the blocks readily influences the legibility of the links. We study the algorithmic problem of minimizing the vertical length of these links, for a fixed bar order. The main challenge lies with ``dependent'' links, whose vertical link length cannot be optimized independently per bar. We show that, if the dependent links form a forest, the problem can be solved in $O(nm)$ time, for n bars and m links. If the dependent links between non-adjacent bars form a forest, the problem admits an $O(n^4m)$-time algorithm. Finally, we show that the general case is fixed-parameter tractable in the maximum number of links that are connected to one bar.

academic

Minimierung der vertikalen Länge in verknüpften Balkendiagrammen

Grundinformationen

Papier-ID: 2511.16812
Titel: Minimizing Vertical Length in Linked Bar Charts
Autoren: Steven van den Broek (TU Eindhoven), Marc van Kreveld (Utrecht University), Wouter Meulemans (TU Eindhoven), Arjen Simons (TU Eindhoven)
Klassifizierung: cs.CG (Computational Geometry)
Veröffentlichungszeitpunkt/Konferenz: Am 20. November 2025 bei arXiv eingereicht, Forschung begann 2024 auf dem AGA-Workshop
Papierlink: https://arxiv.org/abs/2511.16812

Zusammenfassung

Verknüpfte Balkendiagramme (Linked Bar Charts) sind eine erweiterte Version traditioneller Balkendiagramme, bei denen jeder Balken in mehrere Blöcke unterteilt wird, die durch orthogonale Linien verbunden sind. Diese Verbindungslinien müssen über dazwischenliegende Balken verlaufen. Die Anordnungsreihenfolge der Blöcke beeinflusst direkt die Lesbarkeit der Verbindungslinien. Dieses Papier untersucht das algorithmische Problem der Minimierung der vertikalen Länge von Verbindungslinien bei fester Balkenreihenfolge. Die Hauptherausforderung liegt in „abhängigen Verbindungen" (dependent links), deren vertikale Länge nicht unabhängig optimiert werden kann. Die Forschung zeigt: Wenn abhängige Verbindungen eine Waldstruktur bilden, kann das Problem in O(nm) Zeit gelöst werden (n Balken, m Verbindungen); wenn abhängige Verbindungen zwischen nicht benachbarten Balken einen Wald bilden, kann es in O(n⁴m) Zeit gelöst werden; im allgemeinen Fall ist das Problem unter dem Parameter der maximalen Balkengradation fixed-parameter tractable (FPT).

Forschungshintergrund und Motivation

1. Zu lösendes Problem

Traditionelle Balkendiagramme können nur Daten einer einzelnen Kategorie darstellen, aber in vielen praktischen Szenarien gehören bestimmte Zahlenwerte nicht eindeutig zu einer Kategorie, sondern sind mit mehreren Kategorien verbunden. Beispiele:

Gemeinsame Mengen: Kommunikationsvolumen zwischen Konten erscheint gleichzeitig in den Statistiken zweier Konten
Paarweise Unsicherheit: Wähler in Wahlumfragen, die zwischen zwei Parteien unschlüssig sind; Beitrag von Grenzfabriken zur Umweltverschmutzung beider Länder

2. Bedeutung des Problems

Die Visualisierung kategorieübergreifender Daten ist ein wichtiges Anliegen der Datenanalyse. Verknüpfte Balkendiagramme stellen diese Beziehungen dar, indem Verbindungslinien zwischen Balken hinzugefügt werden, aber die Stapelreihenfolge der Blöcke beeinflusst direkt die vertikale Länge der Verbindungslinien und damit die Lesbarkeit und Ästhetik des Diagramms.

3. Einschränkungen bestehender Methoden

Standardbalkendiagramme können kategorieübergreifende Zahlenwerte nicht direkt visualisieren
Obwohl verknüpfte Balkendiagramme kürzlich vorgeschlagen wurden 17, wurde das Optimierungsproblem ihrer Blockstapelreihenfolge noch nicht untersucht
Traditionelle Graphzeichnungsprobleme (wie Single-Page Book Embedding) berücksichtigen nur die Vertexreihenfolge, nicht die neue Dimension des Blockstapelns

4. Forschungsmotivation

Dieses Papier untersucht erstmals systematisch das algorithmische Problem der Minimierung vertikaler Verbindungslängen in verknüpften Balkendiagrammen und bietet theoretische Grundlagen und effiziente Algorithmen für diese neue Visualisierungsmethode.

Kernbeiträge

Problemformalisierung: Erstmalige Definition des Optimierungsproblems zur Minimierung vertikaler Verbindungslängen in verknüpften Balkendiagrammen mit Einführung eines Klassifizierungssystems für „unabhängige Verbindungen" und „abhängige Verbindungen"
Waldalgorithmus: Beweis, dass das Problem in O(nm) Zeit durch dynamische Programmierung gelöst werden kann, wenn der abhängige Verbindungsteilgraph einen Wald bildet (Theorem 3)
Nicht-benachbarter Waldalgorithmus: Beweis, dass das Problem in O(n⁴m) Zeit gelöst werden kann, wenn nicht-benachbarte abhängige Verbindungen einen Wald bilden (Theorem 6)
FPT-Algorithmus: Beweis, dass das Problem im allgemeinen Fall fixed-parameter tractable ist, mit dem Parameter der maximalen Balkengradation Δ und Zeitkomplexität O(Δ^(3δ)·δ·n) (Theorem 8)
Komplexitätsuntergrenzen: Beweis, dass das Problem stark NP-schwer ist, wenn Vertices mehrere unverknüpfte Blöcke mit beliebiger Sortierbarkeit haben (Theorem 12)

Methodische Details

Aufgabendefinition

Eingabe: Gewichteter Graph G = (V, E, w), wobei:

V: Feste Sequenz von n Vertices v₁, ..., vₙ
E ⊆ V²: m Kanten
w: V ∪ E → ℝ⁺: Gewichtsfunktion (Vertex-Gewichte = Einzelkategorienwerte, Kantengewichte = kategorieübergreifende Werte)

Ausgabe: Stapelreihenfolge der Blöcke in jedem Balken, sodass:

Die Gesamtlänge vertikaler Verbindungen minimiert wird
Verbindungen mit gemeinsamen Endpunkten sich nicht kreuzen

Einschränkungen:

Die horizontale Reihenfolge der Balken ist festgelegt
Unverknüpfte Blöcke werden am Boden des Balkens platziert
Verbindungen müssen alle dazwischenliegenden Balken überqueren

Kernkonzepte

1. Klassifizierung von Verbindungstypen

Das Papier unterteilt Verbindungen in zwei Hauptkategorien:

Unabhängige Verbindungen (IL): Vertikale Länge kann durch Platzierung eines Blocks an einem festen Ziel t unabhängig optimiert werden, mit Kosten |t - y| + |t - y'|. Drei Fälle:

Ein mittlerer Balken ist höher als die höchstmögliche Position eines Endpunkts → Ziel ist die Höhe des höchsten mittleren Balkens H
Die möglichen Positionsbereiche der beiden Endpunkte überlappen sich nicht intern → Ziel ist die niedrigste Position des höheren Bereichs
Eine Endpunktposition ist festgelegt (entsprechende Sequenz ist leer) → Ziel ist diese festgelegte Position

Abhängige Verbindungen (DL): Vertikale Länge hängt von der relativen Position zweier Blöcke ab und kann kein statisches Ziel zugewiesen bekommen. Weitere Unterteilung in:

Benachbarte abhängige Verbindungen (ADL): Verbinden benachbarte Balken
Nicht-benachbarte abhängige Verbindungen (NADL): Verbinden nicht-benachbarte Balken

Schlüsseleigenschaft 1: Der abhängige Verbindungsteilgraph ist ein äußerer planarer Graph (outerplanar), daher Baumbreite ≤ 2.

2. Positionsdarstellung und Kostenberechnung

Für einen Block b in Balken Bⱼ (entsprechend einer linken Kante lᵢ ∈ Lⱼ) ist seine vertikale Mittelpunktkoordinate:

y(b, k) = ½h(b) + w(vⱼ) + Σ(x=1 bis i-1)h(lₓ) + Σ(x=1 bis k)h(rₓ)

wobei k die Anzahl der rechten Blöcke unter ihm darstellt.

Kostenfunktion:

Unabhängiger Block b an Position i: λ(b, i) = |t - y(b, i)|

Abhängige Verbindung e an Position (i,j):

λ(e, i, j) = {
  |H - y(b,i)| + |H - y(b',j)|  wenn beide Endpunkte unter H liegen
  |y(b,i) - y(b',j)|            sonst
}

Algorithmusdesign

Algorithmus 1: Abhängige Verbindungen bilden einen Wald (O(nm) Zeit)

Kernidee: Nutze die Waldstruktur zur Bestimmung der Verarbeitungsreihenfolge von Balken, berechne durch dynamische Programmierung von unten nach oben.

Algorithmusschritte:

Wähle für jeden Baum T im Wald eine beliebige Wurzel
Für jeden Balken B sei lₚ* der Block, der den Elternknoten verbindet (Elternverbindung)
Definiere Dynamische-Programmierung-Tabelle:
- P(B, k): Minimale Kosten des Teilbaums Tᵦ mit k rechten Blöcken unter der Elternverbindung
- D↓(p, q): Minimale Kosten der ersten p linken Blöcke und q rechten Blöcke
- D↑(p, q): Minimale Kosten der nachfolgenden Blöcke
Zerlegungsstrategie: Der Elternverbindungsblock lₚ* an Position k teilt den Balken in zwei unabhängige Teile:
```
P(B, k) = D↓(p*-1, k) + D↑(p*+1, k+1)
```
Rekursive Berechnung von D↓:
```
D↓(p, q) = min{
  D↓(p-1, q) + cost(lₚ, q),
  D↓(p, q-1) + cost(rᵧ, p)
}
```
Für abhängige Blöcke sind die Kosten: minⱼ λ(e, i, j) + P(B', j)

Zeitkomplexitätsanalyse:

Für jeden Balken mit Gradation d benötigt die Berechnung der D-Tabelle O(d²)
Vorberechnung abhängiger Blockkosten: O(d·d')
Gesamtzeit: O(Σd² + Σd·d') = O(nm)

Algorithmus 2: Nicht-benachbarte abhängige Verbindungen bilden einen Wald (O(n⁴m) Zeit)

Erweiterungshausforderung: Erlaube benachbarte abhängige Verbindungen (ADL), erfordert Behandlung komplexerer Abhängigkeitsbeziehungen.

Schlüsseltechniken:

Erweiterter Wald F: Enthält alle NADL und maximale ADL-Mengen (bilden keine Zyklen)
Erweiterte Zustandsdarstellung: P*(B, k, l, r), parametrisiert durch drei mögliche einseitige abhängige Verbindungen
Behandlung von ADL:
- Seien a←,1, a←,2, ... die linken ADL, a→,1, a→,2, ... die rechten ADL
- Dynamische-Programmierung-Tabellen D↓(p, q, x, y) und D↑(p, q, x, y) müssen ADL-Positionen verfolgen

Rekursionsformel (wenn lₚ ein abhängiger Block ist):

D↓(p, q, x, y) = min über χ von [
  min über x'(D↓(p-1, q, x', y) + λ(a←,i, χ, x')) +
  min über k'(P(B', k', x, χ) + λ(lₚ, k', q))
]

Zeitkomplexität:

Für jedes (p,q)-Paar: O(Δ³) Vorberechnung + O(Δ³) Berechnung von D
Insgesamt O(d²) Paare, O(Δ³d²) pro Balken
Berechnung von P: O(Δ⁴d)
Gesamtzeit: O(n⁴m)

Algorithmus 3: Allgemeiner Fall FPT-Algorithmus (O(Δ^(3δ)·δ·n) Zeit)

Kernmethode: Baumzerlegung (Tree Decomposition)

Algorithmusrahmen:

Konstruiere nice tree decomposition (T, X, r) des abhängigen Verbindungsteilgraphs G'
- Baumbreite ≤ 2 (Eigenschaft äußerer planarer Graphen)
- O(n) Knoten, jeder Beutel enthält höchstens 3 Balken
- Kann in O(n) Zeit konstruiert werden
Definiere Zustand: P*(u, S₁, S₂, S₃)
- u: Knoten in der Baumzerlegung
- Sᵢ: Zustand des Balkens Bᵢ im Beutel (Position jeder abhängigen Verbindung)
- Stellt die minimalen Kosten aller Blöcke und Verbindungen in der „Vergangenheit" (past) von u dar
Zustandsanzahl (Lemma 9):
- Pro Balken: O(Δ^δ) Zustände (injektive Funktionen von δ abhängigen Verbindungen zu Δ Positionen)
- Pro Knoten: O(Δ^(3δ)) Zustände
Verarbeitung nach Knotentyp:
- Blattknoten: P*(u) = 0, O(1) Zeit
- Verbindungsknoten: P*(u, ...) = P*(v, ...) + P*(w, ...), O(Δ^(3δ)·δ) Zeit
- Einführungsknoten: Erbe direkt vom Kindknoten, O(Δ^(3δ)·δ) Zeit
- Vergessensknoten: Am komplexesten, erfordert Behandlung des vergessenen Balkens mit unabhängigen Blöcken und abhängigen Verbindungen
Vergessensknotenbehandlung (Lemma 11):
```
P*(u, S₁, S₂) = min über S∈Sf [
  P*(v, S₁, S₂, S) + IL(S) + DL(S, S₁) + DL(S, S₂)
]
```
- Vorberechnung Dᵢ,ⱼ(p, q): Minimale Kosten der unabhängigen Blockuntermenge, O(Δ³) Zeit
- Pro Zustand: O(Δ^δ·δ) Zeit
- Insgesamt: O(Δ^(3δ)·δ) Zeit

Zeitkomplexität: O(n) Knoten × O(Δ^(3δ)·δ) = O(Δ^(3δ)·δ·n)

Folgerungen:

Wenn Δ = O(1), ist der Algorithmus Polynomialzeit
Wenn nur δ = O(1) (abhängige Verbindungsgradation begrenzt), ist der Algorithmus immer noch Polynomialzeit O(n)

Technische Innovationen

Verbindungsklassifizierungssystem: Die Klassifizierung in unabhängige/abhängige Verbindungen ermöglicht Problemzerlegung, unabhängige Verbindungen können lokal optimiert werden, abhängige Verbindungen erfordern globale Betrachtung
Schichtweise dynamische Programmierung:
- Algorithmus 1: Nutzt Waldstruktur zur Zerlegung
- Algorithmus 2: Führt parametrisierte Zustände zur Behandlung von ADL ein
- Algorithmus 3: Nutzt Baumzerlegung für allgemeinen Fall
Nutzung äußerer planarer Grapheigenschaften: Die äußere Planarität des abhängigen Verbindungsteilgraphs garantiert Baumbreite ≤ 2, bietet theoretische Grundlage für FPT-Algorithmus
Vorberechnungsstrategie: Vorberechnung der Kosten unabhängiger Blockuntermenge in Vergessensknoten vermeidet wiederholte Berechnung

Experimentelle Einrichtung

Hinweis: Dieses Papier ist ein theoretisches Algorithmus-Papier und enthält keinen experimentellen Verifikationsteil. Das Papier konzentriert sich auf Algorithmusdesign und Komplexitätsanalyse.

Komplexitätsbeweis

Das Papier beweist die Schwierigkeit des Problems durch Reduktion:

Theorem 12 (Starke NP-Schwierigkeit): Wenn Vertices mehrere unverknüpfte Blöcke mit beliebiger Sortierbarkeit haben, ist die Minimierung vertikaler Verbindungslängen stark NP-schwer.

Beweismethode: Reduktion vom 3-Partition-Problem

Konstruktion: 2k-1 Balken, B₀ hat n unverknüpfte Blöcke (entsprechend 3-Partition-Instanz)
Schlüsseleigenschaft: Nur die Reihenfolge unverknüpfter Blöcke von B₀ ist anpassbar
Äquivalenz: Es existiert ein Schema mit Länge Null ⟺ Es existiert eine 3-Partition-Lösung

Experimentelle Ergebnisse

Dieses Papier ist eine reine theoretische Arbeit ohne experimentellen Ergebnisteil. Die Hauptergebnisse sind:

Zusammenfassung der Algorithmuskomplexität

Abhängige Verbindungsstruktur	Zeitkomplexität	Theorem
Keine abhängigen Verbindungen	O(nm)	Lemma 5
Waldstruktur	O(nm)	Theorem 3
Nicht-benachbarte als Wald	O(n⁴m)	Theorem 6
Allgemeiner Fall	O(Δ^(3δ)·δ·n)	Theorem 8
Mehrere unverknüpfte Blöcke	Stark NP-schwer	Theorem 12

Theoretische Erkenntnisse

Strukturabhängigkeit: Die Problemkomplexität hängt stark von der Graphstruktur abhängiger Verbindungen ab
Gradationsparametrisierung: Im allgemeinen Fall FPT-lösbar, bei begrenzter Abhängigkeitsgradation Polynomialzeit
Balkenstruktur:
- Einzelnes lokales Maximum → abhängige Verbindungen bilden Pfadmengen
- Einzelnes lokales Minimum → nicht-benachbarte abhängige Verbindungen bilden Wald

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Schichtweise Komplexität: Problemkomplexität reicht von O(nm) (Waldstruktur) über FPT (allgemeiner Fall) bis stark NP-schwer (erweiterte Version)
Praktische Algorithmen: Für häufig vorkommende strukturierte Daten (wie unimodale/unimodale Höhenverteilung) existieren effiziente Polynomialalgorithmen
Parametrisierte Lösbarkeit: Im allgemeinen Fall ist das Problem bei begrenzter Balkengradation effizient lösbar

Einschränkungen

Feste Balkenreihenfolge: Algorithmen setzen voraus, dass die Balkenreihenfolge vorgegeben ist, berücksichtigen keine gemeinsame Optimierung
Theoretische Eigenschaften: Die genaue Komplexität des allgemeinen Falls (P vs. NP) ist noch ungeklärt
Fehlende experimentelle Verifikation: Keine praktische Implementierung und Leistungsbewertung der Algorithmen
Anforderungen an Instanzstruktur: FPT-Algorithmus kann bei hochgradigen Instanzen möglicherweise nicht praktisch sein

Zukünftige Richtungen

Das Papier nennt explizit folgende Forschungsrichtungen:

Komplexitätsbestimmung: Bestimmung, ob der allgemeine Fall bei fester Balkenreihenfolge NP-schwer ist
Gemeinsame Optimierung: Gleichzeitige Optimierung von Balkenreihenfolge und Blockstapelreihenfolge
Designerweiterungen:
- Asymmetrische Verbindungen: Blöcke mit unterschiedlichen Höhen an den Enden
- Andere Metriken: Biegungsminimierung usw.
- Gerichtete Graphen und Multigraphen: Sortierung und Gruppierung mehrerer Verbindungen
- Hypergraphen: Verbindungen zwischen drei oder mehr Balken
Praktische Anwendungen: Algorithmusleistungsbewertung auf echten Datensätzen

Tiefe Bewertung

Stärken

Theoretische Strenge:
- Vollständige Komplexitätsstratifizierung (von Polynomialzeit über FPT bis NP-schwer)
- Strenge mathematische Beweise und Zeitkomplexitätsanalyse
- Klare Problemformalisierung
Geschicktes Algorithmusdesign:
- Klassifizierung unabhängiger/abhängiger Verbindungen bietet effektive Problemzerlegung
- Drei Algorithmen nutzen unterschiedliche Techniken wie Waldstruktur und Baumzerlegung
- Dynamische Programmierung ist elegant gestaltet und nutzt Problemstruktur vollständig
Vollständigkeit der Ergebnisse:
- Abdeckung mehrerer Spezialfälle und allgemeiner Fall
- Bereitstellung von Obergrenzen (Algorithmen) und Untergrenzen (NP-Schwierigkeit)
- Parametrisierte Analyse bietet feinkörnige Komplexitätscharakterisierung
Schreibklarheit:
- Klare Konzeptdefinitionen (wie Verbindungstypen, past usw.)
- Illustrationen unterstützen Verständnis (Abbildungen 3-8)
- Schrittweise Algorithmusdarstellung

Mängel

Fehlende Praktikabilitätsverifikation:
- Keine Experimente mit echten Daten
- Tatsächliche Effizienz des FPT-Algorithmus bei größerem Δ unbekannt
- Fehlender Vergleich mit Heuristiken
Komplexitätslücke im allgemeinen Fall:
- Ob der allgemeine Fall bei fester Balkenreihenfolge NP-schwer ist, bleibt ungeklärt
- Reduktionsbeweis hängt von Annahme mehrerer unverknüpfter Blöcke ab, unterscheidet sich vom Originalproblem
Hohe Algorithmuskomplexität:
- O(n⁴m) von Algorithmus 2 möglicherweise nicht praktisch für große Instanzen
- Exponentielle Abhängigkeit von Δ^(3δ) in Algorithmus 3 explodiert bei höherer Gradation
Eingeschränkter Problemumfang:
- Berücksichtigung nur eines einzelnen Ziels der vertikalen Länge
- Keine Betrachtung anderer wichtiger Qualitätsindikatoren wie Kreuzungsminimierung
- Annahme fester Balkenreihenfolge ist relativ stark

Einfluss

Theoretischer Beitrag:
- Bahnbrechende Untersuchung des algorithmischen Problems verknüpfter Balkendiagramme
- Neue Forschungsrichtung für Visualisierungsoptimierung
- Demonstration der Anwendung parametrisierter Komplexität in der Visualisierung
Praktischer Wert:
- Theoretische Anleitung für praktische Systeme
- Spezielle Fallalgorithmen können direkt angewendet werden
- Bietet Benchmark für Heuristik-Algorithmusdesign
Reproduzierbarkeit:
- Detaillierte Algorithmusbeschreibung
- Vollständige mathematische Ableitungen
- Aber fehlende Codeimplementierung

Anwendungsszenarien

Direkt anwendbar:
- Daten mit unimodaler/unimodaler Balkenverteilung (Algorithmen 1, 2)
- Spärliche Graphen mit kleiner Balkengradation (Algorithmus 3)
- Szenarien mit einfacher abhängiger Verbindungsstruktur
Erweiterung erforderlich:
- Großmaßstäbliche dichte Graphen (benötigen Heuristiken)
- Szenarien mit gemeinsamer Optimierung der Balkenreihenfolge
- Multi-Objective-Optimierung (Länge + Kreuzungen + Biegungen)
Theoretische Anleitung:
- Visualisierungssystemdesign
- Datenvorverarbeitung (wie Balkensortierung zur Waldstrukturbildung)
- Benchmark für Approximationsalgorithmusbewertung

Schlüsselreferenzen

1 Bernhart & Kainen (1979): The book thickness of a graph - Grundlagentheorie des Single-Page Book Embedding

6 Cygan et al. (2015): Parameterized algorithms - Standardlehrbuch für FPT-Algorithmen

11 Frederickson & Hambrusch (1988): Planar linear arrangements of outerplanar graphs - Polynomialalgorithmen für äußere planare Graphoptimierung

17 van Beusekom et al. (2024): Visualizing set sizes with dependent and independent uncertainties - Ursprüngliche Vorschlag verknüpfter Balkendiagramme

Gesamtbewertung: Dies ist ein hochqualitatives theoretisches Papier der Computational Geometry, das das algorithmische Problem der Optimierung verknüpfter Balkendiagramme systematisch untersucht. Das Papier ist theoretisch streng, das Algorithmusdesign ist geschickt und die Komplexitätsanalyse ist vollständig. Der Hauptwert liegt in der Etablierung einer soliden theoretischen Grundlage für diese neue Visualisierungsmethode. Die Mängel sind das Fehlen experimenteller Verifikation und die unvollständige Komplexitätscharakterisierung des allgemeinen Falls. Wenn zukünftig echte Datenauswertung und Heuristik-Algorithmusdesign hinzugefügt werden können, wird der praktische Wert erheblich gesteigert.