2025-11-10T02:51:59.969530

scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data

Smits, Akhmetov, Liaw et al.
Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions. Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
academic

scellop: Un Rediseño Escalable de Gráficos de Poblaciones Celulares para Datos de Célula Única

Información Básica

  • ID del Artículo: 2510.09554
  • Título: scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
  • Autores: Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
  • Institución: Department of Biomedical Informatics, Harvard Medical School, Boston, MA 02115, United States
  • Clasificación: cs.HC (Interacción Humano-Computadora), q-bio.QM (Métodos Cuantitativos)
  • Licencia: MIT License
  • Enlace del Artículo: https://arxiv.org/abs/2510.09554

Resumen

Los gráficos de poblaciones celulares son herramientas de visualización que muestran la distribución de poblaciones celulares en datos de célula única, tradicionalmente presentados mediante gráficos de barras apiladas. Este artículo aborda los problemas de este enfoque, particularmente las limitaciones de escalabilidad cuando aumentan el número de tipos celulares y muestras, y propone scellop—un nuevo visor interactivo de poblaciones celulares que combina codificaciones visuales optimizadas para tareas de usuario comunes en estudios de poblaciones celulares entre muestras o condiciones.

Antecedentes de Investigación y Motivación

Definición del Problema

  1. Limitaciones de los Métodos Tradicionales: Los gráficos de poblaciones celulares se presentan tradicionalmente mediante gráficos de barras apiladas, que presentan problemas graves de escalabilidad
  2. Problemas de Percepción: La investigación de Cleveland & McGill (1984) demuestra que los humanos son mejores comparando posiciones que comparando longitudes, y los segmentos desplazados en gráficos de barras apiladas son particularmente difíciles de comparar
  3. Desafíos Modernos: Los estudios de atlas de célula única a gran escala pueden detectar más tipos celulares raros, lo que hace que la comparación visual sea aún más difícil
  4. Limitaciones de Color: El uso de siete o más colores para codificar categorías afecta la legibilidad, y la precisión de identificación disminuye con el aumento de colores

Importancia de la Investigación

  • Crecimiento de la Escala de Datos: Los conjuntos de datos RNAseq anotados por HuBMAP contienen un promedio de 33 tipos celulares, con algunos estudios que incluyen hasta 30 tipos celulares
  • Necesidades Prácticas: Se requiere apoyo para múltiples tareas analíticas, incluyendo análisis de heterogeneidad, comparación de tipos celulares y comparación de recuentos celulares
  • Aplicación Interdisciplinaria: No solo es aplicable al análisis de célula única, sino también a otros campos como la metagenómica

Contribuciones Principales

  1. Análisis de Necesidades del Usuario: Análisis sistemático de tareas de usuario y necesidades de visualización de poblaciones celulares mediante un estudio de usuario con 14 participantes
  2. Diseño de Visualización Novedoso: Propuesta de una solución de visualización interactiva basada en mapas de calor, combinada con gráficos de barras expandibles para apoyo de análisis multinivel
  3. Implementación de Software Completa: Desarrollo de una herramienta multiplataforma que soporta entornos Python (PyPI) y JavaScript (NPM)
  4. Despliegue en Aplicaciones Reales: Integración en el portal de datos HuBMAP, proporcionando validación de aplicación práctica

Explicación Detallada de Métodos

Definición de Tareas

Basándose en la investigación de usuario, se identificaron tres categorías principales de tareas de usuario:

  1. Visualización de Estructura de Muestra Única: Tipos celulares más comunes, proporción de tipos celulares específicos, comparación de proporciones de múltiples tipos celulares dentro de la misma muestra
  2. Comparación de Estructura Multimuestral: Comparación de proporciones de tipos celulares específicos entre diferentes muestras, en cuántas muestras se identifica un tipo celular, porcentaje de contribución de tipos celulares específicos al recuento total de células de todas las muestras
  3. Comparación Asociada a Metadatos: Tipos celulares más comunes en órganos específicos, correlación de proporciones de tipos celulares con metadatos de muestras

Diseño de Arquitectura

Componentes Principales

  1. Mapa de Calor Central: Utiliza muestras y tipos celulares como filas y columnas, codificando recuentos o proporciones celulares
  2. Gráficos de Barras Expandibles: Cada fila del mapa de calor puede expandirse en un gráfico de barras detallado, apoyando análisis dentro de la muestra
  3. Panel Lateral: Muestra gráficos de barras y gráficos de violín de recuentos y distribuciones celulares
  4. Controles Interactivos: Soporta normalización, agrupación, filtrado y ordenamiento

Implementación Técnica

  • Frontend: React + visx (basado en D3) para visualización
  • Gestión de Estado: Zustand + middleware zundo para soporte de deshacer/rehacer
  • Integración Python: Widget de Jupyter basado en anywidget
  • Soporte de Datos: Compatible con formato AnnData, soporta ecosistema scverse

Puntos de Innovación en Diseño

  1. Integración Multivista: Combina descripción general de mapa de calor y detalles de gráfico de barras, apoyando análisis de diferentes granularidades
  2. Soporte de Estructura Jerárquica: Soporta agrupación y filtrado de estructuras jerárquicas de tipos celulares
  3. Configuración Flexible: Soporta múltiples esquemas de normalización, transformación y color
  4. Compatibilidad Hacia Atrás: Configurable como vista de gráfico de barras apiladas tradicional

Configuración Experimental

Estudio de Usuario

  • Participantes: 14 expertos en el dominio, incluyendo 12 biólogos experimentales, 5 biólogos computacionales, 5 educadores y 1 médico clínico
  • Metodología de Investigación: Entrevistas semiestructuradas de 30 minutos
  • Plataforma de Prueba: Gráficos de poblaciones celulares en el portal de datos HuBMAP

Validación de Conjuntos de Datos

  1. Datos HuBMAP: 162 conjuntos de datos, promedio de 33 tipos celulares
  2. Atlas de Pulmón Humano: 484 conjuntos de datos, 51 tipos celulares
  3. Conjunto de Datos RNAseq de Riñón: Utilizado para demostración en línea

Métodos de Evaluación

  • Análisis cualitativo de retroalimentación de usuario
  • Comparación de eficiencia de finalización de tareas
  • Evaluación de precisión de visualización

Resultados Experimentales

Descubrimiento de Necesidades del Usuario

Funcionalidades de interacción principales esperadas por usuarios (ordenadas por importancia):

  • Opciones de normalización N=10
  • Agrupación por jerarquía de tipos celulares N=9
  • Navegación de descripción general a detalle N=9
  • Capacidad de manipular visualización N=8
  • Información de contexto adicional N=5

Problemas principales:

  • Problemas de esquema de color N=6
  • Granularidad excesiva de tipos celulares
  • Dificultad para identificar tipos celulares faltantes y ubicuos

Análisis de Casos de Aplicación

El análisis utilizando datos del Atlas de Pulmón Humano muestra:

  1. Descubrimiento de Diferencias de Enfermedad: Pacientes con fibrosis quística muestran poblaciones de tipos celulares diferentes, particularmente células inmunitarias
  2. Impacto de COVID: Algunos conjuntos de datos de pacientes con COVID muestran distribuciones de poblaciones diferentes
  3. Limitaciones de Métodos Tradicionales: Los gráficos de barras apiladas son difíciles de comparar cuando se manejan grandes cantidades de conjuntos de datos, y los tipos celulares faltantes y de pequeña proporción son difíciles de observar directamente

Ventajas de Rendimiento

En comparación con gráficos de barras apiladas tradicionales:

  • Mejor capacidad de detección de patrones (descripción general de mapa de calor)
  • Mayor precisión en comparación de poblaciones (gráficos de barras expandibles)
  • Soporte para visualización de estructura jerárquica
  • Mejor escalabilidad

Trabajo Relacionado

Investigación de Percepción de Visualización

  • Cleveland & McGill (1984): Teoría de percepción gráfica
  • Talbot et al. (2014): Experimentos de percepción de gráficos de barras
  • Nobre et al. (2024): Estudio de precisión y tiempo de gráficos de barras apiladas vs otros tipos de gráficos

Herramientas de Mapas de Calor

  • Bertifier: Vista de mapa de calor con codificación flexible
  • Clustergrammer: Visualización de mapa de calor para datos biológicos de alta dimensión
  • Funkyheatmap: Visualización de marcos de datos con tipos de datos mixtos

Ventajas de Este Artículo

En comparación con herramientas de mapas de calor existentes, scellop soporta específicamente:

  • Inspección de estructura de muestra individual
  • Múltiples operaciones de normalización y transformación
  • Manipulación de estructura jerárquica de tipos celulares

Conclusiones y Discusión

Conclusiones Principales

  1. scellop resuelve exitosamente los problemas de escalabilidad de los gráficos de barras apilados tradicionales en visualización de datos de célula única a gran escala
  2. El diseño basado en investigación de usuario soporta efectivamente todas las tareas de usuario identificadas
  3. La combinación de mapa de calor y gráficos de barras expandibles proporciona capacidad ideal de análisis multinivel

Limitaciones

  1. Actualmente soporta principalmente formato AnnData, con opciones limitadas de carga de datos
  2. Falta de representación de gráfico de red para tipos celulares jerárquicos
  3. Aún hay espacio para mejora en la comparación de conjuntos de datos con diferentes granularidades de tipos celulares

Direcciones Futuras

  1. Visualización Jerárquica: Integración de representaciones de gráficos de red como Collapsible Tree para tipos celulares jerárquicos
  2. Extensión de Formatos de Datos: Soporte para más formatos de archivo alternativos
  3. Aplicación Interdisciplinaria: Extensión a otros campos como metagenómica que utilizan gráficos de barras apiladas

Evaluación Profunda

Fortalezas

  1. Diseño Centrado en el Usuario: Metodología de diseño basada en investigación sistemática de usuario, asegurando orientación hacia necesidades reales
  2. Implementación Técnica Completa: Proporciona soporte multiplataforma, integración en entorno de producción real
  3. Base Teórica Sólida: Basada en investigación de percepción visual madura
  4. Alto Valor Práctico: Ya desplegado en plataformas importantes como HuBMAP

Deficiencias

  1. Metodología de Evaluación: Falta de experimentos cuantitativos comparativos de experiencia de usuario
  2. Validación de Escalabilidad: Aunque se afirma escalabilidad, falta pruebas de rendimiento con datos de escala extremadamente grande
  3. Costo de Aprendizaje: El nuevo modo de interacción puede requerir período de adaptación para usuarios

Impacto

  1. Contribución al Dominio: Contribución metodológica importante a la visualización de datos de célula única
  2. Valor Práctico: Herramienta de código abierto ya desplegada en plataformas de investigación importantes
  3. Reproducibilidad: Proporciona implementación completa y demostración, facilitando reproducción y adopción

Escenarios Aplicables

  1. Análisis de Datos de Célula Única: Campo de aplicación objetivo principal
  2. Metagenómica: Aplicación de extensión mencionada en el artículo
  3. Cualquier Escenario que Requiera Comparación de Distribuciones de Datos Categóricos: Problema de visualización universal

Detalles Técnicos

Arquitectura de Implementación

  • Biblioteca de Visualización: visx (basada en D3)
  • Marco UI: React
  • Gestión de Estado: Zustand + zundo
  • Integración Python: anywidget
  • Formato de Datos: AnnData (zarr-indexed)

Funcionalidades de Interacción

  • Zoom y cambio de tamaño
  • Múltiples formas de ordenamiento (recuento, alfabético, metadatos)
  • Filtrado y agrupación de datos
  • Personalización de esquema de color
  • Exportación PNG de alta resolución
  • Operaciones de deshacer/rehacer

Referencias

El artículo cita 42 referencias relacionadas, cubriendo múltiples campos incluyendo percepción visual, bioinformática y herramientas de visualización, proporcionando una base teórica sólida para el diseño de su metodología.


Evaluación General: Este es un artículo de alta calidad de investigación interdisciplinaria en interacción humano-computadora y bioinformática, que aborda necesidades científicas reales, proporciona una solución completa y ha sido validada mediante despliegue en entorno real. La metodología de diseño centrada en el usuario y la colaboración interdisciplinaria son dignas de emular.