Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions.
Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
- ID del Artículo: 2510.09554
- Título: scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
- Autores: Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
- Institución: Department of Biomedical Informatics, Harvard Medical School, Boston, MA 02115, United States
- Clasificación: cs.HC (Interacción Humano-Computadora), q-bio.QM (Métodos Cuantitativos)
- Licencia: MIT License
- Enlace del Artículo: https://arxiv.org/abs/2510.09554
Los gráficos de poblaciones celulares son herramientas de visualización que muestran la distribución de poblaciones celulares en datos de célula única, tradicionalmente presentados mediante gráficos de barras apiladas. Este artículo aborda los problemas de este enfoque, particularmente las limitaciones de escalabilidad cuando aumentan el número de tipos celulares y muestras, y propone scellop—un nuevo visor interactivo de poblaciones celulares que combina codificaciones visuales optimizadas para tareas de usuario comunes en estudios de poblaciones celulares entre muestras o condiciones.
- Limitaciones de los Métodos Tradicionales: Los gráficos de poblaciones celulares se presentan tradicionalmente mediante gráficos de barras apiladas, que presentan problemas graves de escalabilidad
- Problemas de Percepción: La investigación de Cleveland & McGill (1984) demuestra que los humanos son mejores comparando posiciones que comparando longitudes, y los segmentos desplazados en gráficos de barras apiladas son particularmente difíciles de comparar
- Desafíos Modernos: Los estudios de atlas de célula única a gran escala pueden detectar más tipos celulares raros, lo que hace que la comparación visual sea aún más difícil
- Limitaciones de Color: El uso de siete o más colores para codificar categorías afecta la legibilidad, y la precisión de identificación disminuye con el aumento de colores
- Crecimiento de la Escala de Datos: Los conjuntos de datos RNAseq anotados por HuBMAP contienen un promedio de 33 tipos celulares, con algunos estudios que incluyen hasta 30 tipos celulares
- Necesidades Prácticas: Se requiere apoyo para múltiples tareas analíticas, incluyendo análisis de heterogeneidad, comparación de tipos celulares y comparación de recuentos celulares
- Aplicación Interdisciplinaria: No solo es aplicable al análisis de célula única, sino también a otros campos como la metagenómica
- Análisis de Necesidades del Usuario: Análisis sistemático de tareas de usuario y necesidades de visualización de poblaciones celulares mediante un estudio de usuario con 14 participantes
- Diseño de Visualización Novedoso: Propuesta de una solución de visualización interactiva basada en mapas de calor, combinada con gráficos de barras expandibles para apoyo de análisis multinivel
- Implementación de Software Completa: Desarrollo de una herramienta multiplataforma que soporta entornos Python (PyPI) y JavaScript (NPM)
- Despliegue en Aplicaciones Reales: Integración en el portal de datos HuBMAP, proporcionando validación de aplicación práctica
Basándose en la investigación de usuario, se identificaron tres categorías principales de tareas de usuario:
- Visualización de Estructura de Muestra Única: Tipos celulares más comunes, proporción de tipos celulares específicos, comparación de proporciones de múltiples tipos celulares dentro de la misma muestra
- Comparación de Estructura Multimuestral: Comparación de proporciones de tipos celulares específicos entre diferentes muestras, en cuántas muestras se identifica un tipo celular, porcentaje de contribución de tipos celulares específicos al recuento total de células de todas las muestras
- Comparación Asociada a Metadatos: Tipos celulares más comunes en órganos específicos, correlación de proporciones de tipos celulares con metadatos de muestras
- Mapa de Calor Central: Utiliza muestras y tipos celulares como filas y columnas, codificando recuentos o proporciones celulares
- Gráficos de Barras Expandibles: Cada fila del mapa de calor puede expandirse en un gráfico de barras detallado, apoyando análisis dentro de la muestra
- Panel Lateral: Muestra gráficos de barras y gráficos de violín de recuentos y distribuciones celulares
- Controles Interactivos: Soporta normalización, agrupación, filtrado y ordenamiento
- Frontend: React + visx (basado en D3) para visualización
- Gestión de Estado: Zustand + middleware zundo para soporte de deshacer/rehacer
- Integración Python: Widget de Jupyter basado en anywidget
- Soporte de Datos: Compatible con formato AnnData, soporta ecosistema scverse
- Integración Multivista: Combina descripción general de mapa de calor y detalles de gráfico de barras, apoyando análisis de diferentes granularidades
- Soporte de Estructura Jerárquica: Soporta agrupación y filtrado de estructuras jerárquicas de tipos celulares
- Configuración Flexible: Soporta múltiples esquemas de normalización, transformación y color
- Compatibilidad Hacia Atrás: Configurable como vista de gráfico de barras apiladas tradicional
- Participantes: 14 expertos en el dominio, incluyendo 12 biólogos experimentales, 5 biólogos computacionales, 5 educadores y 1 médico clínico
- Metodología de Investigación: Entrevistas semiestructuradas de 30 minutos
- Plataforma de Prueba: Gráficos de poblaciones celulares en el portal de datos HuBMAP
- Datos HuBMAP: 162 conjuntos de datos, promedio de 33 tipos celulares
- Atlas de Pulmón Humano: 484 conjuntos de datos, 51 tipos celulares
- Conjunto de Datos RNAseq de Riñón: Utilizado para demostración en línea
- Análisis cualitativo de retroalimentación de usuario
- Comparación de eficiencia de finalización de tareas
- Evaluación de precisión de visualización
Funcionalidades de interacción principales esperadas por usuarios (ordenadas por importancia):
- Opciones de normalización N=10
- Agrupación por jerarquía de tipos celulares N=9
- Navegación de descripción general a detalle N=9
- Capacidad de manipular visualización N=8
- Información de contexto adicional N=5
Problemas principales:
- Problemas de esquema de color N=6
- Granularidad excesiva de tipos celulares
- Dificultad para identificar tipos celulares faltantes y ubicuos
El análisis utilizando datos del Atlas de Pulmón Humano muestra:
- Descubrimiento de Diferencias de Enfermedad: Pacientes con fibrosis quística muestran poblaciones de tipos celulares diferentes, particularmente células inmunitarias
- Impacto de COVID: Algunos conjuntos de datos de pacientes con COVID muestran distribuciones de poblaciones diferentes
- Limitaciones de Métodos Tradicionales: Los gráficos de barras apiladas son difíciles de comparar cuando se manejan grandes cantidades de conjuntos de datos, y los tipos celulares faltantes y de pequeña proporción son difíciles de observar directamente
En comparación con gráficos de barras apiladas tradicionales:
- Mejor capacidad de detección de patrones (descripción general de mapa de calor)
- Mayor precisión en comparación de poblaciones (gráficos de barras expandibles)
- Soporte para visualización de estructura jerárquica
- Mejor escalabilidad
- Cleveland & McGill (1984): Teoría de percepción gráfica
- Talbot et al. (2014): Experimentos de percepción de gráficos de barras
- Nobre et al. (2024): Estudio de precisión y tiempo de gráficos de barras apiladas vs otros tipos de gráficos
- Bertifier: Vista de mapa de calor con codificación flexible
- Clustergrammer: Visualización de mapa de calor para datos biológicos de alta dimensión
- Funkyheatmap: Visualización de marcos de datos con tipos de datos mixtos
En comparación con herramientas de mapas de calor existentes, scellop soporta específicamente:
- Inspección de estructura de muestra individual
- Múltiples operaciones de normalización y transformación
- Manipulación de estructura jerárquica de tipos celulares
- scellop resuelve exitosamente los problemas de escalabilidad de los gráficos de barras apilados tradicionales en visualización de datos de célula única a gran escala
- El diseño basado en investigación de usuario soporta efectivamente todas las tareas de usuario identificadas
- La combinación de mapa de calor y gráficos de barras expandibles proporciona capacidad ideal de análisis multinivel
- Actualmente soporta principalmente formato AnnData, con opciones limitadas de carga de datos
- Falta de representación de gráfico de red para tipos celulares jerárquicos
- Aún hay espacio para mejora en la comparación de conjuntos de datos con diferentes granularidades de tipos celulares
- Visualización Jerárquica: Integración de representaciones de gráficos de red como Collapsible Tree para tipos celulares jerárquicos
- Extensión de Formatos de Datos: Soporte para más formatos de archivo alternativos
- Aplicación Interdisciplinaria: Extensión a otros campos como metagenómica que utilizan gráficos de barras apiladas
- Diseño Centrado en el Usuario: Metodología de diseño basada en investigación sistemática de usuario, asegurando orientación hacia necesidades reales
- Implementación Técnica Completa: Proporciona soporte multiplataforma, integración en entorno de producción real
- Base Teórica Sólida: Basada en investigación de percepción visual madura
- Alto Valor Práctico: Ya desplegado en plataformas importantes como HuBMAP
- Metodología de Evaluación: Falta de experimentos cuantitativos comparativos de experiencia de usuario
- Validación de Escalabilidad: Aunque se afirma escalabilidad, falta pruebas de rendimiento con datos de escala extremadamente grande
- Costo de Aprendizaje: El nuevo modo de interacción puede requerir período de adaptación para usuarios
- Contribución al Dominio: Contribución metodológica importante a la visualización de datos de célula única
- Valor Práctico: Herramienta de código abierto ya desplegada en plataformas de investigación importantes
- Reproducibilidad: Proporciona implementación completa y demostración, facilitando reproducción y adopción
- Análisis de Datos de Célula Única: Campo de aplicación objetivo principal
- Metagenómica: Aplicación de extensión mencionada en el artículo
- Cualquier Escenario que Requiera Comparación de Distribuciones de Datos Categóricos: Problema de visualización universal
- Biblioteca de Visualización: visx (basada en D3)
- Marco UI: React
- Gestión de Estado: Zustand + zundo
- Integración Python: anywidget
- Formato de Datos: AnnData (zarr-indexed)
- Zoom y cambio de tamaño
- Múltiples formas de ordenamiento (recuento, alfabético, metadatos)
- Filtrado y agrupación de datos
- Personalización de esquema de color
- Exportación PNG de alta resolución
- Operaciones de deshacer/rehacer
El artículo cita 42 referencias relacionadas, cubriendo múltiples campos incluyendo percepción visual, bioinformática y herramientas de visualización, proporcionando una base teórica sólida para el diseño de su metodología.
Evaluación General: Este es un artículo de alta calidad de investigación interdisciplinaria en interacción humano-computadora y bioinformática, que aborda necesidades científicas reales, proporciona una solución completa y ha sido validada mediante despliegue en entorno real. La metodología de diseño centrada en el usuario y la colaboración interdisciplinaria son dignas de emular.