2025-11-10T02:51:59.969530

scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data

Smits, Akhmetov, Liaw et al.
Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions. Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
academic

scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data

基本信息

  • 论文ID: 2510.09554
  • 标题: scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
  • 作者: Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
  • 机构: Department of Biomedical Informatics, Harvard Medical School, Boston, MA 02115, United States
  • 分类: cs.HC (Human-Computer Interaction), q-bio.QM (Quantitative Methods)
  • 许可证: MIT License
  • 论文链接: https://arxiv.org/abs/2510.09554

摘要

细胞群体图是显示单细胞数据中细胞群体分布的可视化工具,传统上使用堆叠条形图展示。本文解决了这种方法的问题,特别是在细胞类型和样本数量增加时的可扩展性限制,提出了scellop——一个新颖的交互式细胞群体查看器,结合了针对跨样本或条件研究细胞群体常见用户任务优化的视觉编码。

研究背景与动机

问题定义

  1. 传统方法的局限性: 细胞群体图传统上使用堆叠条形图展示,存在严重的可扩展性问题
  2. 感知问题: Cleveland & McGill (1984) 研究表明,人类在比较位置方面优于比较长度,而堆叠条形图中的偏移段落特别难以比较
  3. 现代挑战: 大型单细胞图谱研究能够检测更多、更稀有的细胞类型,使得视觉比较变得更加困难
  4. 颜色限制: 使用七种或更多颜色编码类别会影响可读性,识别准确性随颜色增加而降低

研究重要性

  • 数据规模增长: HuBMAP注释的RNAseq数据集平均包含33种细胞类型,某些研究包含多达30种细胞类型
  • 实际需求: 需要支持异质性分析、细胞类型比较、细胞计数比较等多种分析任务
  • 跨领域应用: 不仅适用于单细胞分析,也可应用于宏基因组学等其他领域

核心贡献

  1. 用户需求分析: 通过14名参与者的用户研究,系统分析了细胞群体可视化的用户任务和需求
  2. 新颖可视化设计: 提出基于热图的交互式可视化方案,结合可展开的条形图支持多层次分析
  3. 完整软件实现: 开发了跨平台工具,支持Python (PyPI) 和JavaScript (NPM) 环境
  4. 实际部署应用: 已集成到HuBMAP数据门户,提供实际应用验证

方法详解

任务定义

基于用户研究,识别出三类主要用户任务:

  1. 单样本结构查看: 最常见细胞类型、特定细胞类型比例、同一样本内多种细胞类型比例比较
  2. 多样本结构比较: 不同样本中特定细胞类型比例比较、细胞类型在多少样本中被识别、特定细胞类型对所有样本总细胞数的贡献百分比
  3. 元数据关联比较: 特定器官最常见细胞类型、细胞类型比例与样本元数据的相关性

架构设计

核心组件

  1. 中央热图: 使用样本和细胞类型作为行和列,编码细胞计数或比例
  2. 可展开条形图: 每个热图行可展开为详细的条形图,支持样本内分析
  3. 侧边面板: 显示细胞计数和分布的条形图和小提琴图
  4. 交互控制: 支持标准化、分组、过滤、排序等操作

技术实现

  • 前端: React + visx (D3-based) 实现可视化
  • 状态管理: Zustand + zundo中间件支持撤销/重做
  • Python集成: 基于anywidget的Jupyter小部件
  • 数据支持: 兼容AnnData格式,支持scverse生态系统

设计创新点

  1. 多视图集成: 结合热图概览和条形图细节,支持不同粒度的分析
  2. 层次结构支持: 支持细胞类型层次结构的分组和过滤
  3. 灵活配置: 支持多种标准化、变换和颜色方案
  4. 向下兼容: 可配置为传统堆叠条形图视图

实验设置

用户研究

  • 参与者: 14名领域专家,包括12名实验生物学家、5名计算生物学家、5名教育工作者、1名临床医生
  • 研究方法: 30分钟半结构化访谈
  • 测试平台: HuBMAP数据门户的细胞群体图

数据集验证

  1. HuBMAP数据: 162个数据集,平均33种细胞类型
  2. 人类肺细胞图谱: 484个数据集,51种细胞类型
  3. 肾脏RNAseq数据集: 用于在线演示

评价方法

  • 定性用户反馈分析
  • 任务完成效率对比
  • 可视化准确性评估

实验结果

用户需求发现

用户期望的主要交互功能(按重要性排序):

  • 标准化选项 N=10
  • 按细胞类型层次分组 N=9
  • 概览到细节导航 N=9
  • 操作可视化能力 N=8
  • 额外上下文信息 N=5

主要问题:

  • 颜色方案问题 N=6
  • 细胞类型粒度过多
  • 缺失和普遍存在的细胞类型难以识别

应用案例分析

使用人类肺细胞图谱数据的分析显示:

  1. 疾病差异发现: 囊性纤维化患者显示不同的细胞类型群体,特别是免疫细胞
  2. COVID影响: 某些COVID患者数据集显示不同的群体分布
  3. 传统方法局限: 堆叠条形图在处理大量数据集时比较困难,缺失细胞类型和小比例难以直接观察

性能优势

相比传统堆叠条形图:

  • 更好的模式检测能力(热图概览)
  • 更高的群体比较准确性(可展开条形图)
  • 支持层次结构显示
  • 更好的可扩展性

相关工作

可视化感知研究

  • Cleveland & McGill (1984): 图形感知理论
  • Talbot et al. (2014): 条形图感知实验
  • Nobre et al. (2024): 堆叠条形图vs其他图表类型的准确性和时间研究

热图工具

  • Bertifier: 灵活编码的热图视图
  • Clustergrammer: 高维生物数据的热图可视化
  • Funkyheatmap: 混合数据类型的数据框可视化

本文优势

相比现有热图工具,scellop特别支持:

  • 个体样本结构检查
  • 多种标准化和变换操作
  • 细胞类型层次结构操作

结论与讨论

主要结论

  1. scellop成功解决了传统堆叠条形图在大规模单细胞数据可视化中的可扩展性问题
  2. 基于用户研究的设计有效支持了所有识别的用户任务
  3. 热图与可展开条形图的组合提供了理想的多层次分析能力

局限性

  1. 当前主要支持AnnData格式,数据加载选项有限
  2. 缺乏层次细胞类型的网络图表示
  3. 不同细胞类型粒度数据集的比较仍有改进空间

未来方向

  1. 层次可视化: 集成Collapsible Tree等网络图表示层次细胞类型
  2. 数据格式扩展: 支持更多替代文件格式
  3. 跨领域应用: 扩展到宏基因组学等其他使用堆叠条形图的领域

深度评价

优点

  1. 用户中心设计: 基于系统用户研究的设计方法,确保实际需求导向
  2. 技术实现完整: 提供跨平台支持,集成到实际生产环境
  3. 理论基础扎实: 基于成熟的视觉感知研究理论
  4. 实用价值高: 已在HuBMAP等重要平台部署使用

不足

  1. 评估方法: 缺乏定量的用户体验对比实验
  2. 可扩展性验证: 虽然声称可扩展,但缺乏极大规模数据的性能测试
  3. 学习成本: 新的交互模式可能需要用户适应期

影响力

  1. 领域贡献: 为单细胞数据可视化提供了重要的方法学贡献
  2. 实用价值: 开源工具且已在重要科研平台部署
  3. 可复现性: 提供完整的实现和演示,便于复现和采用

适用场景

  1. 单细胞数据分析: 主要目标应用领域
  2. 宏基因组学: 论文提及的扩展应用
  3. 任何需要比较分类数据分布的场景: 通用的可视化问题

技术细节

实现架构

  • 可视化库: visx (基于D3)
  • UI框架: React
  • 状态管理: Zustand + zundo
  • Python集成: anywidget
  • 数据格式: AnnData (zarr-indexed)

交互功能

  • 缩放和调整大小
  • 多种排序方式(计数、字母、元数据)
  • 数据过滤和分组
  • 颜色方案自定义
  • 高分辨率PNG导出
  • 撤销/重做操作

参考文献

论文引用了42篇相关文献,涵盖视觉感知、生物信息学、可视化工具等多个领域的重要研究,为其方法设计提供了坚实的理论基础。


总体评价: 这是一篇高质量的人机交互与生物信息学交叉研究论文,解决了实际的科研需求,提供了完整的解决方案,并已在实际环境中部署验证。论文的用户中心设计方法和跨学科协作值得借鉴。