Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions.
Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
- Papier-ID: 2510.09554
- Titel: scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
- Autoren: Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
- Institution: Department of Biomedical Informatics, Harvard Medical School, Boston, MA 02115, United States
- Klassifizierung: cs.HC (Human-Computer Interaction), q-bio.QM (Quantitative Methods)
- Lizenz: MIT License
- Papierlink: https://arxiv.org/abs/2510.09554
Zellpopulationsdiagramme sind Visualisierungswerkzeuge zur Darstellung der Verteilung von Zellpopulationen in Einzelzellendaten, die traditionell mit gestapelten Balkendiagrammen dargestellt werden. Dieses Papier behandelt die Probleme dieses Ansatzes, insbesondere die Skalierungsbeschränkungen bei zunehmender Anzahl von Zelltypen und Proben, und stellt scellop vor – einen neuartigen interaktiven Zellpopulations-Viewer, der visuelle Kodierungen kombiniert, die für häufige Benutzeraufgaben bei der Untersuchung von Zellpopulationen über Proben oder Bedingungen hinweg optimiert sind.
- Einschränkungen traditioneller Methoden: Zellpopulationsdiagramme werden traditionell mit gestapelten Balkendiagrammen dargestellt und weisen erhebliche Skalierungsprobleme auf
- Wahrnehmungsprobleme: Forschungen von Cleveland & McGill (1984) zeigen, dass Menschen beim Vergleich von Positionen besser sind als beim Vergleich von Längen, und versätzte Segmente in gestapelten Balkendiagrammen sind besonders schwer zu vergleichen
- Moderne Herausforderungen: Großangelegte Einzelzell-Atlas-Studien können mehr und seltenere Zelltypen erkennen, was visuelle Vergleiche erheblich erschwert
- Farbeinschränkungen: Die Verwendung von sieben oder mehr Farben zur Kodierung von Kategorien beeinträchtigt die Lesbarkeit, und die Erkennungsgenauigkeit nimmt mit zunehmender Farbanzahl ab
- Datenskalenwachstum: Von HuBMAP annotierte RNAseq-Datensätze enthalten durchschnittlich 33 Zelltypen, wobei einige Studien bis zu 30 Zelltypen enthalten
- Praktische Anforderungen: Unterstützung für mehrere Analyseaufgaben wie Heterogenitätsanalyse, Zelltyp-Vergleich und Zellzahlvergleich erforderlich
- Bereichsübergreifende Anwendung: Nicht nur auf Einzelzellanalysen anwendbar, sondern auch auf andere Bereiche wie Metagenomik
- Benutzeranforderungsanalyse: Systematische Analyse von Benutzeraufgaben und -anforderungen für die Zellpopulationsvisualisierung durch eine Benutzerstudie mit 14 Teilnehmern
- Neuartige Visualisierungsgestaltung: Vorschlag einer auf Heatmaps basierenden interaktiven Visualisierungslösung, kombiniert mit erweiterbaren Balkendiagrammen zur Unterstützung mehrstufiger Analysen
- Vollständige Softwareimplementierung: Entwicklung eines plattformübergreifenden Werkzeugs mit Unterstützung für Python (PyPI) und JavaScript (NPM) Umgebungen
- Praktische Bereitstellungsanwendung: Integration in das HuBMAP-Datenportal mit praktischer Anwendungsvalidierung
Basierend auf Benutzerstudien wurden drei Hauptkategorien von Benutzeraufgaben identifiziert:
- Strukturansicht einzelner Proben: Häufigste Zelltypen, Anteil spezifischer Zelltypen, Vergleich mehrerer Zelltypen innerhalb einer Probe
- Vergleich mehrerer Proben: Vergleich des Anteils spezifischer Zelltypen zwischen verschiedenen Proben, Erkennung von Zelltypen in mehreren Proben, Prozentsatz der Beiträge spezifischer Zelltypen zur Gesamtzellzahl aller Proben
- Vergleich mit Metadaten-Assoziation: Häufigste Zelltypen in spezifischen Organen, Korrelation von Zelltyp-Anteilen mit Proben-Metadaten
- Zentrale Heatmap: Verwendung von Proben und Zelltypen als Zeilen und Spalten, Kodierung von Zellzahlen oder Anteilen
- Erweiterbare Balkendiagramme: Jede Heatmap-Zeile kann zu einem detaillierten Balkendiagramm erweitert werden, unterstützt Analysen innerhalb von Proben
- Seitenpanels: Anzeige von Balkendiagrammen und Violinen-Plots für Zellzahlen und Verteilungen
- Interaktive Steuerung: Unterstützung für Normalisierung, Gruppierung, Filterung, Sortierung und andere Operationen
- Frontend: React + visx (D3-basiert) für Visualisierung
- Zustandsverwaltung: Zustand + zundo-Middleware für Rückgängigmachen/Wiederherstellen
- Python-Integration: Jupyter-Widget basierend auf anywidget
- Datenunterstützung: Kompatibilität mit AnnData-Format, Unterstützung des scverse-Ökosystems
- Multi-View-Integration: Kombination von Heatmap-Übersicht und Balkendiagramm-Details, unterstützt Analysen auf verschiedenen Granularitätsebenen
- Hierarchische Struktur-Unterstützung: Unterstützt Gruppierung und Filterung von Zelltyp-Hierarchien
- Flexible Konfiguration: Unterstützt mehrere Normalisierungen, Transformationen und Farbschemata
- Rückwärtskompatibilität: Konfigurierbar als traditionelle gestapelte Balkendiagramm-Ansicht
- Teilnehmer: 14 Domänenexperten, einschließlich 12 experimenteller Biologen, 5 Computerbiologen, 5 Pädagogen, 1 Kliniker
- Forschungsmethode: 30-minütige halbstrukturierte Interviews
- Testplattform: Zellpopulationsdiagramme des HuBMAP-Datenportals
- HuBMAP-Daten: 162 Datensätze, durchschnittlich 33 Zelltypen
- Human Lung Cell Atlas: 484 Datensätze, 51 Zelltypen
- Nieren-RNAseq-Datensatz: Für Online-Demonstration verwendet
- Qualitative Analyse von Benutzerfeedback
- Vergleich der Aufgabenabschlusseffizienz
- Bewertung der Visualisierungsgenauigkeit
Hauptinteraktionsfunktionen, die von Benutzern erwartet werden (nach Wichtigkeit sortiert):
- Normalisierungsoptionen N=10
- Gruppierung nach Zelltyp-Hierarchie N=9
- Übersicht-zu-Detail-Navigation N=9
- Fähigkeit zur Visualisierungsmanipulation N=8
- Zusätzliche Kontextinformationen N=5
Hauptprobleme:
- Farbschema-Probleme N=6
- Zu viele Zelltyp-Granularitäten
- Schwierigkeit, fehlende und allgegenwärtige Zelltypen zu identifizieren
Die Analyse mit Daten des Human Lung Cell Atlas zeigt:
- Krankheitsunterschiede-Erkennung: Patienten mit zystischer Fibrose zeigen unterschiedliche Zellpopulationen, besonders bei Immunzellen
- COVID-Auswirkungen: Bestimmte COVID-Patienten-Datensätze zeigen unterschiedliche Populationsverteilungen
- Einschränkungen traditioneller Methoden: Gestapelte Balkendiagramme sind bei der Verarbeitung großer Datensätze schwierig zu vergleichen, fehlende Zelltypen und kleine Anteile sind schwer direkt zu beobachten
Im Vergleich zu traditionellen gestapelten Balkendiagrammen:
- Bessere Mustererkennung (Heatmap-Übersicht)
- Höhere Genauigkeit beim Populationsvergleich (erweiterbare Balkendiagramme)
- Unterstützung für hierarchische Strukturanzeige
- Bessere Skalierbarkeit
- Cleveland & McGill (1984): Graphische Wahrnehmungstheorie
- Talbot et al. (2014): Balkendiagramm-Wahrnehmungsexperimente
- Nobre et al. (2024): Genauigkeits- und Zeitstudien zu gestapelten Balkendiagrammen vs. anderen Diagrammtypen
- Bertifier: Heatmap-Ansicht mit flexibler Kodierung
- Clustergrammer: Heatmap-Visualisierung hochdimensionaler biologischer Daten
- Funkyheatmap: Datenrahmen-Visualisierung mit gemischten Datentypen
Im Vergleich zu bestehenden Heatmap-Tools unterstützt scellop besonders:
- Strukturprüfung einzelner Proben
- Mehrere Normalisierungs- und Transformationsoperationen
- Manipulation von Zelltyp-Hierarchien
- scellop löst erfolgreich die Skalierungsprobleme traditioneller gestapelter Balkendiagramme bei der Visualisierung großangelegter Einzelzellendaten
- Das auf Benutzerstudien basierende Design unterstützt effektiv alle identifizierten Benutzeraufgaben
- Die Kombination von Heatmap und erweiterbaren Balkendiagrammen bietet ideale mehrstufige Analysefähigkeiten
- Aktuelle Unterstützung hauptsächlich für AnnData-Format, begrenzte Datenlade-Optionen
- Fehlende Netzwerkgraph-Darstellung für hierarchische Zelltypen
- Vergleich von Datensätzen mit unterschiedlichen Zelltyp-Granularitäten kann noch verbessert werden
- Hierarchische Visualisierung: Integration von Netzwerkgraph-Darstellungen wie Collapsible Tree für hierarchische Zelltypen
- Datenformat-Erweiterung: Unterstützung für mehr alternative Dateiformate
- Bereichsübergreifende Anwendung: Erweiterung auf andere Bereiche wie Metagenomik, die gestapelte Balkendiagramme verwenden
- Benutzerzentriertes Design: Designmethode basierend auf systematischen Benutzerstudien, gewährleistet anforderungsgesteuerte Ausrichtung
- Vollständige technische Implementierung: Plattformübergreifende Unterstützung, Integration in tatsächliche Produktionsumgebungen
- Solide theoretische Grundlagen: Basierend auf etablierter visueller Wahrnehmungsforschung
- Hoher praktischer Wert: Bereits in wichtigen Plattformen wie HuBMAP bereitgestellt
- Bewertungsmethode: Mangel an quantitativen vergleichenden Benutzererfahrungsexperimenten
- Skalierbarkeitsvalidierung: Obwohl Skalierbarkeit behauptet wird, fehlen Leistungstests mit extrem großen Datenmengen
- Lernkosten: Neue Interaktionsmuster erfordern möglicherweise eine Anpassungsphase für Benutzer
- Bereichsbeitrag: Wichtiger methodischer Beitrag zur Visualisierung von Einzelzellendaten
- Praktischer Wert: Open-Source-Tool bereits in wichtigen Forschungsplattformen bereitgestellt
- Reproduzierbarkeit: Vollständige Implementierung und Demonstration für einfache Reproduktion und Übernahme
- Einzelzellendaten-Analyse: Hauptzielanwendungsbereich
- Metagenomik: Erweiterte Anwendung erwähnt im Papier
- Beliebige Szenarien mit Kategorienverteilungsvergleich: Universelles Visualisierungsproblem
- Visualisierungsbibliothek: visx (basierend auf D3)
- UI-Framework: React
- Zustandsverwaltung: Zustand + zundo
- Python-Integration: anywidget
- Datenformat: AnnData (zarr-indexed)
- Zoomen und Größenänderung
- Mehrere Sortiermöglichkeiten (Zählung, alphabetisch, Metadaten)
- Datenfilterung und Gruppierung
- Anpassung des Farbschemas
- Export in hochauflösendem PNG
- Rückgängigmachen/Wiederherstellen-Operationen
Das Papier zitiert 42 verwandte Literaturquellen, die wichtige Forschungen aus mehreren Bereichen wie visuelle Wahrnehmung, Bioinformatik und Visualisierungswerkzeuge abdecken und eine solide theoretische Grundlage für die Methodengestaltung bieten.
Gesamtbewertung: Dies ist ein hochqualitatives Forschungspapier an der Schnittstelle von Mensch-Computer-Interaktion und Bioinformatik, das praktische Forschungsanforderungen löst, eine vollständige Lösung bietet und in tatsächlichen Umgebungen validiert wurde. Die benutzerzentrierte Designmethode und die interdisziplinäre Zusammenarbeit des Papiers sind nachahmenswert.