2025-11-10T02:51:59.969530

scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data

Smits, Akhmetov, Liaw et al.
Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions. Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
academic

scellop: Масштабируемый редизайн графиков популяций клеток для данных одиночных клеток

Основная информация

  • ID статьи: 2510.09554
  • Название: scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
  • Авторы: Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
  • Учреждение: Department of Biomedical Informatics, Harvard Medical School, Boston, MA 02115, United States
  • Классификация: cs.HC (Human-Computer Interaction), q-bio.QM (Quantitative Methods)
  • Лицензия: MIT License
  • Ссылка на статью: https://arxiv.org/abs/2510.09554

Аннотация

Графики популяций клеток — это инструменты визуализации, предназначенные для отображения распределения популяций клеток в данных одиночных клеток, традиционно представляемые в виде стопроцентных столбчатых диаграмм. В данной работе рассматриваются проблемы этого подхода, особенно ограничения масштабируемости при увеличении количества типов клеток и образцов. Предлагается scellop — новый интерактивный просмотрщик популяций клеток, объединяющий визуальные кодировки, оптимизированные для распространённых пользовательских задач при исследовании популяций клеток в различных образцах или условиях.

Исследовательский контекст и мотивация

Определение проблемы

  1. Ограничения традиционных методов: Графики популяций клеток традиционно представляются в виде стопроцентных столбчатых диаграмм, которые имеют серьёзные проблемы масштабируемости
  2. Проблемы восприятия: Исследования Cleveland & McGill (1984) показывают, что люди лучше сравнивают позиции, чем длины, а смещённые сегменты в стопроцентных диаграммах особенно сложно сравнивать
  3. Современные вызовы: Крупномасштабные исследования одиночных клеток способны выявлять больше редких типов клеток, что затрудняет визуальное сравнение
  4. Ограничения цветового кодирования: Использование семи или более цветов для кодирования категорий снижает читаемость, а точность идентификации снижается с увеличением количества цветов

Значимость исследования

  • Рост объёма данных: Аннотированные наборы данных RNAseq HuBMAP содержат в среднем 33 типа клеток, некоторые исследования включают до 30 типов клеток
  • Практические потребности: Необходимо поддерживать различные аналитические задачи: анализ гетерогенности, сравнение типов клеток, сравнение количества клеток
  • Междисциплинарное применение: Применимо не только к анализу одиночных клеток, но и к метагеномике и другим областям

Основные вклады

  1. Анализ потребностей пользователей: Систематический анализ пользовательских задач и требований к визуализации популяций клеток на основе исследования с участием 14 пользователей
  2. Новый дизайн визуализации: Предложено интерактивное решение на основе тепловой карты в сочетании с развёртываемыми столбчатыми диаграммами для многоуровневого анализа
  3. Полная реализация программного обеспечения: Разработан кроссплатформенный инструмент с поддержкой окружений Python (PyPI) и JavaScript (NPM)
  4. Практическое развёртывание: Интегрирован в портал данных HuBMAP с практической валидацией

Подробное описание методов

Определение задач

На основе пользовательского исследования выявлены три основных класса пользовательских задач:

  1. Просмотр структуры одного образца: Наиболее распространённые типы клеток, доля определённого типа клеток, сравнение долей нескольких типов клеток в одном образце
  2. Сравнение структуры нескольких образцов: Сравнение доли определённого типа клеток в разных образцах, определение, в скольких образцах выявлен тип клеток, процент вклада определённого типа клеток в общее количество клеток всех образцов
  3. Сравнение с учётом метаданных: Наиболее распространённые типы клеток в определённом органе, корреляция доли типов клеток с метаданными образца

Архитектурный дизайн

Основные компоненты

  1. Центральная тепловая карта: Использует образцы и типы клеток в качестве строк и столбцов, кодирует количество или долю клеток
  2. Развёртываемые столбчатые диаграммы: Каждая строка тепловой карты может быть развёрнута в детальную столбчатую диаграмму для анализа внутри образца
  3. Боковые панели: Отображают столбчатые диаграммы и скрипичные диаграммы количества и распределения клеток
  4. Интерактивные элементы управления: Поддерживают нормализацию, группировку, фильтрацию, сортировку и другие операции

Техническая реализация

  • Фронтенд: React + visx (на основе D3) для визуализации
  • Управление состоянием: Zustand + middleware zundo для поддержки отмены/повтора
  • Интеграция Python: Виджет Jupyter на основе anywidget
  • Поддержка данных: Совместимость с форматом AnnData, поддержка экосистемы scverse

Инновационные решения в дизайне

  1. Интеграция многовидовых представлений: Объединение обзора тепловой карты и деталей столбчатой диаграммы для анализа на разных уровнях детализации
  2. Поддержка иерархической структуры: Поддержка группировки и фильтрации иерархии типов клеток
  3. Гибкая конфигурация: Поддержка различных методов нормализации, преобразований и цветовых схем
  4. Обратная совместимость: Возможность конфигурирования как традиционной стопроцентной столбчатой диаграммы

Экспериментальная установка

Пользовательское исследование

  • Участники: 14 экспертов в области, включая 12 экспериментальных биологов, 5 вычислительных биологов, 5 педагогов, 1 клинициста
  • Методология: Полуструктурированные интервью продолжительностью 30 минут
  • Тестовая платформа: Графики популяций клеток портала данных HuBMAP

Валидация на наборах данных

  1. Данные HuBMAP: 162 набора данных, в среднем 33 типа клеток
  2. Атлас лёгких человека: 484 набора данных, 51 тип клеток
  3. Набор данных RNAseq почки: Используется для онлайн-демонстрации

Методы оценки

  • Качественный анализ обратной связи пользователей
  • Сравнение эффективности выполнения задач
  • Оценка точности визуализации

Результаты экспериментов

Выявленные потребности пользователей

Основные ожидаемые интерактивные функции (в порядке важности):

  • Опции нормализации N=10
  • Группировка по иерархии типов клеток N=9
  • Навигация от обзора к деталям N=9
  • Возможность манипулирования визуализацией N=8
  • Дополнительная контекстная информация N=5

Основные проблемы:

  • Проблемы с цветовой схемой N=6
  • Избыточная детализация типов клеток
  • Сложность идентификации редких и повсеместных типов клеток

Анализ практических применений

Анализ с использованием данных атласа лёгких человека показал:

  1. Выявление различий при заболеваниях: Пациенты с муковисцидозом показывают различные популяции клеток, особенно иммунные клетки
  2. Влияние COVID: Некоторые наборы данных пациентов с COVID показывают различное распределение популяций
  3. Ограничения традиционных методов: Стопроцентные столбчатые диаграммы затрудняют сравнение при работе с большим количеством наборов данных, редкие типы клеток и малые доли сложно наблюдать напрямую

Преимущества производительности

По сравнению с традиционными стопроцентными столбчатыми диаграммами:

  • Лучшая способность обнаружения закономерностей (обзор тепловой карты)
  • Повышенная точность сравнения популяций (развёртываемые столбчатые диаграммы)
  • Поддержка отображения иерархической структуры
  • Улучшенная масштабируемость

Связанные работы

Исследования восприятия визуализации

  • Cleveland & McGill (1984): Теория графического восприятия
  • Talbot et al. (2014): Эксперименты по восприятию столбчатых диаграмм
  • Nobre et al. (2024): Исследования точности и времени для стопроцентных диаграмм и других типов диаграмм

Инструменты тепловых карт

  • Bertifier: Представление тепловой карты с гибким кодированием
  • Clustergrammer: Визуализация тепловой карты для высокомерных биологических данных
  • Funkyheatmap: Визуализация фреймов данных со смешанными типами данных

Преимущества данной работы

По сравнению с существующими инструментами тепловых карт, scellop специально поддерживает:

  • Проверку структуры отдельных образцов
  • Различные операции нормализации и преобразования
  • Манипулирование иерархией типов клеток

Выводы и обсуждение

Основные выводы

  1. scellop успешно решает проблему масштабируемости традиционных стопроцентных столбчатых диаграмм при визуализации крупномасштабных данных одиночных клеток
  2. Дизайн, основанный на пользовательском исследовании, эффективно поддерживает все выявленные пользовательские задачи
  3. Комбинация тепловой карты и развёртываемых столбчатых диаграмм обеспечивает идеальную многоуровневую аналитическую возможность

Ограничения

  1. Текущая реализация в основном поддерживает формат AnnData с ограниченными опциями загрузки данных
  2. Отсутствует сетевое представление иерархических типов клеток
  3. Сравнение наборов данных с различной детализацией типов клеток требует дальнейших улучшений

Направления будущих исследований

  1. Иерархическая визуализация: Интеграция сетевых представлений, таких как Collapsible Tree, для иерархии типов клеток
  2. Расширение форматов данных: Поддержка дополнительных альтернативных форматов файлов
  3. Междисциплинарное применение: Расширение на метагеномику и другие области, использующие стопроцентные столбчатые диаграммы

Глубокая оценка

Преимущества

  1. Дизайн, ориентированный на пользователя: Методология проектирования, основанная на систематическом пользовательском исследовании, обеспечивает ориентацию на реальные потребности
  2. Полная техническая реализация: Предоставляется кроссплатформенная поддержка, интегрирована в реальное производственное окружение
  3. Прочная теоретическая основа: Основана на зрелых исследованиях визуального восприятия
  4. Высокая практическая ценность: Уже развёрнута на важных платформах, таких как HuBMAP

Недостатки

  1. Методология оценки: Отсутствуют количественные сравнительные эксперименты пользовательского опыта
  2. Валидация масштабируемости: Хотя заявляется масштабируемость, отсутствуют тесты производительности на экстремально больших наборах данных
  3. Кривая обучения: Новая модель взаимодействия может потребовать периода адаптации пользователей

Влияние

  1. Вклад в область: Важный методологический вклад в визуализацию данных одиночных клеток
  2. Практическая ценность: Инструмент с открытым исходным кодом, развёрнутый на важных научных платформах
  3. Воспроизводимость: Предоставляется полная реализация и демонстрация для облегчения воспроизведения и внедрения

Применимые сценарии

  1. Анализ данных одиночных клеток: Основная целевая область применения
  2. Метагеномика: Расширенное применение, упомянутое в статье
  3. Любые сценарии, требующие сравнения распределения категориальных данных: Универсальная проблема визуализации

Технические детали

Архитектура реализации

  • Библиотека визуализации: visx (на основе D3)
  • Фреймворк UI: React
  • Управление состоянием: Zustand + zundo
  • Интеграция Python: anywidget
  • Формат данных: AnnData (zarr-indexed)

Интерактивные функции

  • Масштабирование и изменение размера
  • Множественные способы сортировки (по количеству, алфавиту, метаданным)
  • Фильтрация и группировка данных
  • Пользовательские цветовые схемы
  • Экспорт в высокое разрешение PNG
  • Операции отмены/повтора

Список литературы

Статья цитирует 42 связанные работы, охватывающие визуальное восприятие, биоинформатику, инструменты визуализации и другие области, обеспечивая прочную теоретическую основу для методологии проектирования.


Общая оценка: Это высококачественная исследовательская работа на пересечении взаимодействия человека и компьютера и биоинформатики, решающая реальные научные потребности и предоставляющая полное решение, которое было валидировано в реальной среде. Методология проектирования, ориентированная на пользователя, и междисциплинарное сотрудничество в этой работе достойны подражания.