Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions.
Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
- ID Articolo: 2510.09554
- Titolo: scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
- Autori: Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
- Istituzione: Department of Biomedical Informatics, Harvard Medical School, Boston, MA 02115, United States
- Classificazione: cs.HC (Human-Computer Interaction), q-bio.QM (Quantitative Methods)
- Licenza: MIT License
- Link Articolo: https://arxiv.org/abs/2510.09554
I grafici di popolazione cellulare sono strumenti di visualizzazione che mostrano la distribuzione delle popolazioni cellulari nei dati single-cell, tradizionalmente rappresentati mediante grafici a barre impilate. Questo articolo affronta i problemi di questo approccio, in particolare i limiti di scalabilità quando aumentano il numero di tipi cellulari e campioni, proponendo scellop—un nuovo visualizzatore interattivo di popolazioni cellulari che combina codifiche visive ottimizzate per i compiti utente comuni negli studi trasversali di campioni o condizioni.
- Limitazioni dei metodi tradizionali: I grafici di popolazione cellulare sono tradizionalmente rappresentati mediante grafici a barre impilate, che presentano gravi problemi di scalabilità
- Problemi di percezione: La ricerca di Cleveland & McGill (1984) dimostra che gli esseri umani sono più bravi nel confrontare posizioni rispetto alle lunghezze, e i segmenti sfalsati nei grafici a barre impilate sono particolarmente difficili da confrontare
- Sfide contemporanee: Gli studi su atlanti single-cell su larga scala sono in grado di rilevare più tipi cellulari rari, rendendo il confronto visivo ancora più difficile
- Limitazioni cromatiche: L'utilizzo di sette o più colori per codificare categorie compromette la leggibilità, con l'accuratezza di identificazione che diminuisce all'aumentare dei colori
- Crescita della scala dei dati: I dataset RNAseq annotati di HuBMAP contengono in media 33 tipi cellulari, con alcuni studi che ne includono fino a 30
- Esigenze pratiche: Necessità di supportare molteplici compiti analitici come l'analisi dell'eterogeneità, il confronto dei tipi cellulari e il confronto dei conteggi cellulari
- Applicazioni interdisciplinari: Non solo applicabile all'analisi single-cell, ma anche ad altri campi come la metagenomica
- Analisi dei requisiti utente: Attraverso uno studio con 14 partecipanti, analisi sistematica dei compiti utente e dei requisiti per la visualizzazione di popolazioni cellulari
- Design di visualizzazione innovativo: Proposta di un approccio di visualizzazione interattivo basato su mappe di calore, combinato con grafici a barre espandibili per supportare l'analisi multilivello
- Implementazione software completa: Sviluppo di uno strumento multipiattaforma che supporta ambienti Python (PyPI) e JavaScript (NPM)
- Distribuzione pratica: Integrazione nel portale dati HuBMAP, fornendo validazione dell'applicazione pratica
Sulla base della ricerca utente, sono stati identificati tre categorie principali di compiti utente:
- Visualizzazione della struttura di un singolo campione: Tipi cellulari più comuni, proporzione di tipi cellulari specifici, confronto delle proporzioni di più tipi cellulari all'interno dello stesso campione
- Confronto della struttura tra campioni: Confronto della proporzione di tipi cellulari specifici tra diversi campioni, numero di campioni in cui un tipo cellulare è identificato, percentuale di contributo di un tipo cellulare specifico al numero totale di cellule in tutti i campioni
- Confronto associato ai metadati: Tipi cellulari più comuni in un organo specifico, correlazione tra proporzioni di tipi cellulari e metadati del campione
- Mappa di calore centrale: Utilizza campioni e tipi cellulari come righe e colonne, codificando i conteggi cellulari o le proporzioni
- Grafici a barre espandibili: Ogni riga della mappa di calore può essere espansa in un grafico a barre dettagliato, supportando l'analisi all'interno del campione
- Pannello laterale: Visualizza grafici a barre e grafici a violino per i conteggi cellulari e le distribuzioni
- Controlli interattivi: Supporta normalizzazione, raggruppamento, filtraggio e ordinamento
- Frontend: React + visx (basato su D3) per la visualizzazione
- Gestione dello stato: Middleware Zustand + zundo per supportare annullamento/ripetizione
- Integrazione Python: Widget Jupyter basato su anywidget
- Supporto dati: Compatibilità con formato AnnData, supporto dell'ecosistema scverse
- Integrazione multi-vista: Combinazione di panoramica della mappa di calore e dettagli del grafico a barre, supportando analisi a diversi livelli di granularità
- Supporto della struttura gerarchica: Supporta il raggruppamento e il filtraggio della struttura gerarchica dei tipi cellulari
- Configurazione flessibile: Supporta molteplici schemi di normalizzazione, trasformazione e colore
- Compatibilità all'indietro: Configurabile come vista tradizionale di grafico a barre impilate
- Partecipanti: 14 esperti di dominio, inclusi 12 biologi sperimentali, 5 biologi computazionali, 5 educatori e 1 medico clinico
- Metodologia di ricerca: Interviste semi-strutturate di 30 minuti
- Piattaforma di test: Grafici di popolazione cellulare nel portale dati HuBMAP
- Dati HuBMAP: 162 dataset, media di 33 tipi cellulari
- Atlante cellulare polmonare umano: 484 dataset, 51 tipi cellulari
- Dataset RNAseq renale: Utilizzato per la dimostrazione online
- Analisi qualitativa del feedback utente
- Confronto dell'efficienza nel completamento dei compiti
- Valutazione dell'accuratezza della visualizzazione
Funzionalità interattive principali attese dagli utenti (ordinate per importanza):
- Opzioni di normalizzazione N=10
- Raggruppamento per gerarchia di tipi cellulari N=9
- Navigazione da panoramica a dettagli N=9
- Capacità di manipolazione della visualizzazione N=8
- Informazioni di contesto aggiuntive N=5
Problemi principali:
- Problemi di schema cromatico N=6
- Granularità eccessiva dei tipi cellulari
- Difficoltà nell'identificare tipi cellulari mancanti e ubiquitari
L'analisi utilizzando i dati dell'Atlante cellulare polmonare umano mostra:
- Scoperta di differenze patologiche: I pazienti con fibrosi cistica mostrano diverse popolazioni di tipi cellulari, in particolare cellule immunitarie
- Impatto del COVID: Alcuni dataset di pazienti COVID mostrano distribuzioni di popolazione diverse
- Limitazioni dei metodi tradizionali: I grafici a barre impilate sono difficili da confrontare quando si gestiscono grandi quantità di dataset, con tipi cellulari mancanti e proporzioni piccole difficili da osservare direttamente
Rispetto ai grafici a barre impilate tradizionali:
- Migliore capacità di rilevamento di pattern (panoramica della mappa di calore)
- Maggiore accuratezza nel confronto di popolazioni (grafici a barre espandibili)
- Supporto per la visualizzazione di strutture gerarchiche
- Migliore scalabilità
- Cleveland & McGill (1984): Teoria della percezione grafica
- Talbot et al. (2014): Esperimenti sulla percezione dei grafici a barre
- Nobre et al. (2024): Studi su accuratezza e tempo per grafici a barre impilate rispetto ad altri tipi di grafici
- Bertifier: Vista della mappa di calore con codifica flessibile
- Clustergrammer: Visualizzazione di mappe di calore per dati biologici ad alta dimensionalità
- Funkyheatmap: Visualizzazione di frame di dati con tipi di dati misti
Rispetto agli strumenti di mappe di calore esistenti, scellop supporta specificamente:
- Ispezione della struttura di singoli campioni
- Molteplici operazioni di normalizzazione e trasformazione
- Manipolazione della gerarchia dei tipi cellulari
- scellop risolve con successo i problemi di scalabilità dei grafici a barre impilate tradizionali nella visualizzazione di dati single-cell su larga scala
- Il design basato sulla ricerca utente supporta efficacemente tutti i compiti utente identificati
- La combinazione di mappa di calore e grafici a barre espandibili fornisce capacità ideali di analisi multilivello
- Attualmente supporta principalmente il formato AnnData, con opzioni di caricamento dati limitate
- Mancanza di rappresentazione grafica di rete per tipi cellulari gerarchici
- Lo spazio per il miglioramento rimane nel confronto di dataset con granularità di tipi cellulari diversa
- Visualizzazione gerarchica: Integrazione di rappresentazioni grafiche di rete come Collapsible Tree per tipi cellulari gerarchici
- Estensione dei formati dati: Supporto per più formati di file alternativi
- Applicazioni interdisciplinari: Estensione a campi come la metagenomica che utilizzano grafici a barre impilate
- Design incentrato sull'utente: Metodologia di design basata su ricerca utente sistematica, garantendo un orientamento alle esigenze effettive
- Implementazione tecnica completa: Supporto multipiattaforma fornito, integrazione in ambienti di produzione reali
- Fondamenta teoriche solide: Basato su ricerca consolidata sulla percezione visiva
- Alto valore pratico: Già distribuito su piattaforme importanti come HuBMAP
- Metodologia di valutazione: Mancanza di esperimenti di confronto quantitativi dell'esperienza utente
- Verifica della scalabilità: Sebbene si affermi la scalabilità, mancano test di prestazioni su dati di scala estremamente grande
- Costo di apprendimento: Le nuove modalità di interazione potrebbero richiedere un periodo di adattamento per gli utenti
- Contributo al campo: Contributo metodologico importante per la visualizzazione di dati single-cell
- Valore pratico: Strumento open-source già distribuito su piattaforme di ricerca importanti
- Riproducibilità: Implementazione completa e dimostrazioni fornite, facilitando la riproduzione e l'adozione
- Analisi di dati single-cell: Campo di applicazione principale
- Metagenomica: Applicazione di estensione menzionata nel documento
- Qualsiasi scenario che richieda il confronto della distribuzione di dati categorici: Problema di visualizzazione generico
- Libreria di visualizzazione: visx (basata su D3)
- Framework UI: React
- Gestione dello stato: Zustand + zundo
- Integrazione Python: anywidget
- Formato dati: AnnData (zarr-indexed)
- Zoom e ridimensionamento
- Molteplici modalità di ordinamento (conteggio, alfabetico, metadati)
- Filtraggio e raggruppamento dati
- Personalizzazione dello schema cromatico
- Esportazione PNG ad alta risoluzione
- Operazioni di annullamento/ripetizione
L'articolo cita 42 riferimenti correlati, coprendo ricerca importante in molteplici campi inclusi percezione visiva, bioinformatica e strumenti di visualizzazione, fornendo una base teorica solida per il design del metodo.
Valutazione Complessiva: Questo è un articolo di alta qualità nella ricerca interdisciplinare tra interazione uomo-computer e bioinformatica, che affronta esigenze di ricerca pratiche, fornisce una soluzione completa ed è stato validato in ambienti reali. La metodologia di design incentrata sull'utente e la collaborazione interdisciplinare meritano di essere emulate.