Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions.
Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
- ID de l'article : 2510.09554
- Titre : scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
- Auteurs : Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
- Institution : Department of Biomedical Informatics, Harvard Medical School, Boston, MA 02115, États-Unis
- Classification : cs.HC (Interaction Homme-Ordinateur), q-bio.QM (Méthodes Quantitatives)
- Licence : Licence MIT
- Lien de l'article : https://arxiv.org/abs/2510.09554
Les graphiques de populations cellulaires sont des outils de visualisation permettant d'afficher la distribution des populations cellulaires dans les données de cellules uniques, traditionnellement présentés sous forme de diagrammes en barres empilées. Cet article aborde les problèmes de cette approche, en particulier les limitations de scalabilité lorsque le nombre de types cellulaires et d'échantillons augmente. Il propose scellop, un nouveau visualiseur interactif de populations cellulaires combinant des encodages visuels optimisés pour les tâches utilisateur courantes dans les études comparatives entre échantillons ou conditions.
- Limitations des méthodes traditionnelles : Les graphiques de populations cellulaires sont traditionnellement présentés sous forme de diagrammes en barres empilées, présentant des problèmes graves de scalabilité
- Problèmes de perception : La recherche de Cleveland & McGill (1984) démontre que les humains sont meilleurs pour comparer les positions que les longueurs, les segments décalés dans les diagrammes en barres empilées étant particulièrement difficiles à comparer
- Défis modernes : Les grands atlas de cellules uniques peuvent détecter davantage de types cellulaires plus rares, rendant la comparaison visuelle encore plus difficile
- Limitations des couleurs : L'utilisation de sept couleurs ou plus pour encoder les catégories affecte la lisibilité, la précision d'identification diminuant avec l'augmentation du nombre de couleurs
- Croissance de l'échelle des données : Les ensembles de données RNAseq annotées par HuBMAP contiennent en moyenne 33 types cellulaires, certaines études en contenant jusqu'à 30
- Besoins pratiques : Nécessité de soutenir plusieurs tâches analytiques incluant l'analyse de l'hétérogénéité, la comparaison des types cellulaires et la comparaison des dénombrements cellulaires
- Applications interdisciplinaires : Applicable non seulement à l'analyse de cellules uniques, mais aussi à d'autres domaines comme la métagénomique
- Analyse des besoins utilisateurs : Analyse systématique des tâches utilisateur et des besoins en visualisation de populations cellulaires par le biais d'une étude utilisateur impliquant 14 participants
- Conception de visualisation novatrice : Proposition d'une approche de visualisation interactive basée sur une carte thermique, combinée avec des diagrammes en barres dépliables pour soutenir l'analyse multi-niveaux
- Implémentation logicielle complète : Développement d'un outil multiplateforme supportant les environnements Python (PyPI) et JavaScript (NPM)
- Déploiement pratique : Intégration au portail de données HuBMAP, fournissant une validation d'application réelle
Sur la base de l'étude utilisateur, trois catégories principales de tâches utilisateur ont été identifiées :
- Visualisation de la structure d'un seul échantillon : Types cellulaires les plus courants, proportion de types cellulaires spécifiques, comparaison des proportions de plusieurs types cellulaires au sein d'un même échantillon
- Comparaison de la structure multi-échantillons : Comparaison des proportions de types cellulaires spécifiques entre différents échantillons, identification du nombre d'échantillons dans lesquels un type cellulaire est reconnu, pourcentage de contribution d'un type cellulaire spécifique au nombre total de cellules de tous les échantillons
- Comparaison associée aux métadonnées : Types cellulaires les plus courants dans un organe spécifique, corrélation entre les proportions de types cellulaires et les métadonnées des échantillons
- Carte thermique centrale : Utilise les échantillons et les types cellulaires comme lignes et colonnes, encodant les dénombrements ou proportions cellulaires
- Diagrammes en barres dépliables : Chaque ligne de la carte thermique peut être dépliée en un diagramme en barres détaillé, soutenant l'analyse intra-échantillon
- Panneaux latéraux : Affichent les diagrammes en barres et les graphiques en violon montrant les dénombrements et distributions cellulaires
- Contrôles interactifs : Supportent la normalisation, le regroupement, le filtrage et le tri
- Interface : React + visx (basé sur D3) pour la visualisation
- Gestion d'état : Zustand + middleware zundo pour l'annulation/rétablissement
- Intégration Python : Widget Jupyter basé sur anywidget
- Support des données : Compatible avec le format AnnData, supportant l'écosystème scverse
- Intégration multi-vues : Combine une vue d'ensemble en carte thermique et des détails en diagramme en barres, supportant l'analyse à différentes granularités
- Support de la structure hiérarchique : Supporte le regroupement et le filtrage de structures hiérarchiques de types cellulaires
- Configuration flexible : Supporte plusieurs schémas de normalisation, de transformation et de couleurs
- Compatibilité rétroactive : Peut être configuré comme une vue traditionnelle de diagramme en barres empilées
- Participants : 14 experts du domaine, incluant 12 biologistes expérimentaux, 5 biologistes informaticiens, 5 éducateurs et 1 clinicien
- Méthodologie : Entretiens semi-structurés de 30 minutes
- Plateforme de test : Graphiques de populations cellulaires du portail de données HuBMAP
- Données HuBMAP : 162 ensembles de données, moyenne de 33 types cellulaires
- Atlas des Cellules Pulmonaires Humaines : 484 ensembles de données, 51 types cellulaires
- Ensemble de données RNAseq rénal : Utilisé pour la démonstration en ligne
- Analyse qualitative des retours utilisateurs
- Comparaison de l'efficacité de réalisation des tâches
- Évaluation de la précision de la visualisation
Principales fonctionnalités interactives attendues par les utilisateurs (par ordre d'importance) :
- Options de normalisation N=10
- Regroupement par hiérarchie de types cellulaires N=9
- Navigation de l'aperçu aux détails N=9
- Capacité de manipulation de la visualisation N=8
- Informations contextuelles supplémentaires N=5
Problèmes principaux :
- Problèmes de schéma de couleurs N=6
- Granularité excessive des types cellulaires
- Difficulté à identifier les types cellulaires manquants et omniprésents
L'analyse utilisant les données de l'Atlas des Cellules Pulmonaires Humaines montre :
- Découverte de différences liées aux maladies : Les patients atteints de mucoviscidose affichent des populations de types cellulaires différentes, en particulier les cellules immunitaires
- Impact du COVID : Certains ensembles de données de patients COVID affichent des distributions de populations différentes
- Limitations des méthodes traditionnelles : Les diagrammes en barres empilées sont difficiles à comparer lors du traitement de grands ensembles de données, les types cellulaires manquants et les petites proportions étant difficiles à observer directement
Par rapport aux diagrammes en barres empilées traditionnels :
- Meilleure capacité de détection de motifs (aperçu en carte thermique)
- Précision de comparaison de populations plus élevée (diagrammes en barres dépliables)
- Support de l'affichage de structures hiérarchiques
- Meilleure scalabilité
- Cleveland & McGill (1984) : Théorie de la perception graphique
- Talbot et al. (2014) : Expériences de perception de diagrammes en barres
- Nobre et al. (2024) : Études de précision et de temps pour les diagrammes en barres empilées par rapport à d'autres types de graphiques
- Bertifier : Vue de carte thermique avec encodage flexible
- Clustergrammer : Visualisation de carte thermique pour données biologiques de haute dimension
- Funkyheatmap : Visualisation de cadres de données avec types de données mixtes
Par rapport aux outils de cartes thermiques existants, scellop supporte spécifiquement :
- Inspection de la structure d'échantillons individuels
- Plusieurs opérations de normalisation et de transformation
- Manipulation de structures hiérarchiques de types cellulaires
- scellop résout avec succès les problèmes de scalabilité des diagrammes en barres empilées traditionnels dans la visualisation de données de cellules uniques à grande échelle
- La conception basée sur la recherche utilisateur supporte efficacement toutes les tâches utilisateur identifiées
- La combinaison de cartes thermiques et de diagrammes en barres dépliables fournit une capacité d'analyse multi-niveaux idéale
- Support actuel principalement limité au format AnnData, options de chargement de données limitées
- Absence de représentation graphique en réseau pour les types cellulaires hiérarchiques
- Espace d'amélioration pour la comparaison d'ensembles de données avec différentes granularités de types cellulaires
- Visualisation hiérarchique : Intégration de représentations graphiques en réseau comme les arbres repliables pour les types cellulaires hiérarchiques
- Extension des formats de données : Support de plus de formats de fichiers alternatifs
- Applications interdisciplinaires : Extension à d'autres domaines utilisant des diagrammes en barres empilées, comme la métagénomique
- Conception centrée sur l'utilisateur : Approche de conception basée sur une étude utilisateur systématique, garantissant une orientation vers les besoins réels
- Implémentation technique complète : Support multiplateforme, intégration dans un environnement de production réel
- Fondations théoriques solides : Basée sur des recherches matures en perception visuelle
- Valeur pratique élevée : Déjà déployée sur des plateformes importantes comme HuBMAP
- Méthodologie d'évaluation : Absence d'expériences comparatives quantitatives d'expérience utilisateur
- Vérification de scalabilité : Bien que revendiquée, absence de tests de performance sur des données extrêmement volumineuses
- Coût d'apprentissage : Le nouveau modèle d'interaction peut nécessiter une période d'adaptation pour les utilisateurs
- Contribution au domaine : Contribution méthodologique importante à la visualisation de données de cellules uniques
- Valeur pratique : Outil open-source déjà déployé sur des plateformes de recherche importantes
- Reproductibilité : Implémentation complète et démonstrations fournies, facilitant la reproduction et l'adoption
- Analyse de données de cellules uniques : Domaine d'application principal
- Métagénomique : Application d'extension mentionnée dans l'article
- Tout scénario nécessitant la comparaison de distributions de données catégoriques : Problème de visualisation générique
- Bibliothèque de visualisation : visx (basée sur D3)
- Framework UI : React
- Gestion d'état : Zustand + zundo
- Intégration Python : anywidget
- Format de données : AnnData (zarr-indexed)
- Zoom et redimensionnement
- Plusieurs modes de tri (dénombrement, alphabétique, métadonnées)
- Filtrage et regroupement de données
- Personnalisation des schémas de couleurs
- Export PNG haute résolution
- Opérations d'annulation/rétablissement
L'article cite 42 références pertinentes couvrant la perception visuelle, la bioinformatique, les outils de visualisation et d'autres domaines de recherche importants, fournissant une base théorique solide pour la conception de sa méthode.
Évaluation Générale : Ceci est un article de haute qualité à l'intersection de l'interaction homme-ordinateur et de la bioinformatique, résolvant des besoins de recherche réels et fournissant une solution complète déjà validée dans un environnement réel. L'approche de conception centrée sur l'utilisateur et la collaboration interdisciplinaire méritent d'être imitées.