Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions.
Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
- ID статьи: 2510.09554
- Название: scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
- Авторы: Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
- Учреждение: Department of Biomedical Informatics, Harvard Medical School, Boston, MA 02115, United States
- Классификация: cs.HC (Human-Computer Interaction), q-bio.QM (Quantitative Methods)
- Лицензия: MIT License
- Ссылка на статью: https://arxiv.org/abs/2510.09554
Графики популяций клеток — это инструменты визуализации, предназначенные для отображения распределения популяций клеток в данных одиночных клеток, традиционно представляемые в виде стопроцентных столбчатых диаграмм. В данной работе рассматриваются проблемы этого подхода, особенно ограничения масштабируемости при увеличении количества типов клеток и образцов. Предлагается scellop — новый интерактивный просмотрщик популяций клеток, объединяющий визуальные кодировки, оптимизированные для распространённых пользовательских задач при исследовании популяций клеток в различных образцах или условиях.
- Ограничения традиционных методов: Графики популяций клеток традиционно представляются в виде стопроцентных столбчатых диаграмм, которые имеют серьёзные проблемы масштабируемости
- Проблемы восприятия: Исследования Cleveland & McGill (1984) показывают, что люди лучше сравнивают позиции, чем длины, а смещённые сегменты в стопроцентных диаграммах особенно сложно сравнивать
- Современные вызовы: Крупномасштабные исследования одиночных клеток способны выявлять больше редких типов клеток, что затрудняет визуальное сравнение
- Ограничения цветового кодирования: Использование семи или более цветов для кодирования категорий снижает читаемость, а точность идентификации снижается с увеличением количества цветов
- Рост объёма данных: Аннотированные наборы данных RNAseq HuBMAP содержат в среднем 33 типа клеток, некоторые исследования включают до 30 типов клеток
- Практические потребности: Необходимо поддерживать различные аналитические задачи: анализ гетерогенности, сравнение типов клеток, сравнение количества клеток
- Междисциплинарное применение: Применимо не только к анализу одиночных клеток, но и к метагеномике и другим областям
- Анализ потребностей пользователей: Систематический анализ пользовательских задач и требований к визуализации популяций клеток на основе исследования с участием 14 пользователей
- Новый дизайн визуализации: Предложено интерактивное решение на основе тепловой карты в сочетании с развёртываемыми столбчатыми диаграммами для многоуровневого анализа
- Полная реализация программного обеспечения: Разработан кроссплатформенный инструмент с поддержкой окружений Python (PyPI) и JavaScript (NPM)
- Практическое развёртывание: Интегрирован в портал данных HuBMAP с практической валидацией
На основе пользовательского исследования выявлены три основных класса пользовательских задач:
- Просмотр структуры одного образца: Наиболее распространённые типы клеток, доля определённого типа клеток, сравнение долей нескольких типов клеток в одном образце
- Сравнение структуры нескольких образцов: Сравнение доли определённого типа клеток в разных образцах, определение, в скольких образцах выявлен тип клеток, процент вклада определённого типа клеток в общее количество клеток всех образцов
- Сравнение с учётом метаданных: Наиболее распространённые типы клеток в определённом органе, корреляция доли типов клеток с метаданными образца
- Центральная тепловая карта: Использует образцы и типы клеток в качестве строк и столбцов, кодирует количество или долю клеток
- Развёртываемые столбчатые диаграммы: Каждая строка тепловой карты может быть развёрнута в детальную столбчатую диаграмму для анализа внутри образца
- Боковые панели: Отображают столбчатые диаграммы и скрипичные диаграммы количества и распределения клеток
- Интерактивные элементы управления: Поддерживают нормализацию, группировку, фильтрацию, сортировку и другие операции
- Фронтенд: React + visx (на основе D3) для визуализации
- Управление состоянием: Zustand + middleware zundo для поддержки отмены/повтора
- Интеграция Python: Виджет Jupyter на основе anywidget
- Поддержка данных: Совместимость с форматом AnnData, поддержка экосистемы scverse
- Интеграция многовидовых представлений: Объединение обзора тепловой карты и деталей столбчатой диаграммы для анализа на разных уровнях детализации
- Поддержка иерархической структуры: Поддержка группировки и фильтрации иерархии типов клеток
- Гибкая конфигурация: Поддержка различных методов нормализации, преобразований и цветовых схем
- Обратная совместимость: Возможность конфигурирования как традиционной стопроцентной столбчатой диаграммы
- Участники: 14 экспертов в области, включая 12 экспериментальных биологов, 5 вычислительных биологов, 5 педагогов, 1 клинициста
- Методология: Полуструктурированные интервью продолжительностью 30 минут
- Тестовая платформа: Графики популяций клеток портала данных HuBMAP
- Данные HuBMAP: 162 набора данных, в среднем 33 типа клеток
- Атлас лёгких человека: 484 набора данных, 51 тип клеток
- Набор данных RNAseq почки: Используется для онлайн-демонстрации
- Качественный анализ обратной связи пользователей
- Сравнение эффективности выполнения задач
- Оценка точности визуализации
Основные ожидаемые интерактивные функции (в порядке важности):
- Опции нормализации N=10
- Группировка по иерархии типов клеток N=9
- Навигация от обзора к деталям N=9
- Возможность манипулирования визуализацией N=8
- Дополнительная контекстная информация N=5
Основные проблемы:
- Проблемы с цветовой схемой N=6
- Избыточная детализация типов клеток
- Сложность идентификации редких и повсеместных типов клеток
Анализ с использованием данных атласа лёгких человека показал:
- Выявление различий при заболеваниях: Пациенты с муковисцидозом показывают различные популяции клеток, особенно иммунные клетки
- Влияние COVID: Некоторые наборы данных пациентов с COVID показывают различное распределение популяций
- Ограничения традиционных методов: Стопроцентные столбчатые диаграммы затрудняют сравнение при работе с большим количеством наборов данных, редкие типы клеток и малые доли сложно наблюдать напрямую
По сравнению с традиционными стопроцентными столбчатыми диаграммами:
- Лучшая способность обнаружения закономерностей (обзор тепловой карты)
- Повышенная точность сравнения популяций (развёртываемые столбчатые диаграммы)
- Поддержка отображения иерархической структуры
- Улучшенная масштабируемость
- Cleveland & McGill (1984): Теория графического восприятия
- Talbot et al. (2014): Эксперименты по восприятию столбчатых диаграмм
- Nobre et al. (2024): Исследования точности и времени для стопроцентных диаграмм и других типов диаграмм
- Bertifier: Представление тепловой карты с гибким кодированием
- Clustergrammer: Визуализация тепловой карты для высокомерных биологических данных
- Funkyheatmap: Визуализация фреймов данных со смешанными типами данных
По сравнению с существующими инструментами тепловых карт, scellop специально поддерживает:
- Проверку структуры отдельных образцов
- Различные операции нормализации и преобразования
- Манипулирование иерархией типов клеток
- scellop успешно решает проблему масштабируемости традиционных стопроцентных столбчатых диаграмм при визуализации крупномасштабных данных одиночных клеток
- Дизайн, основанный на пользовательском исследовании, эффективно поддерживает все выявленные пользовательские задачи
- Комбинация тепловой карты и развёртываемых столбчатых диаграмм обеспечивает идеальную многоуровневую аналитическую возможность
- Текущая реализация в основном поддерживает формат AnnData с ограниченными опциями загрузки данных
- Отсутствует сетевое представление иерархических типов клеток
- Сравнение наборов данных с различной детализацией типов клеток требует дальнейших улучшений
- Иерархическая визуализация: Интеграция сетевых представлений, таких как Collapsible Tree, для иерархии типов клеток
- Расширение форматов данных: Поддержка дополнительных альтернативных форматов файлов
- Междисциплинарное применение: Расширение на метагеномику и другие области, использующие стопроцентные столбчатые диаграммы
- Дизайн, ориентированный на пользователя: Методология проектирования, основанная на систематическом пользовательском исследовании, обеспечивает ориентацию на реальные потребности
- Полная техническая реализация: Предоставляется кроссплатформенная поддержка, интегрирована в реальное производственное окружение
- Прочная теоретическая основа: Основана на зрелых исследованиях визуального восприятия
- Высокая практическая ценность: Уже развёрнута на важных платформах, таких как HuBMAP
- Методология оценки: Отсутствуют количественные сравнительные эксперименты пользовательского опыта
- Валидация масштабируемости: Хотя заявляется масштабируемость, отсутствуют тесты производительности на экстремально больших наборах данных
- Кривая обучения: Новая модель взаимодействия может потребовать периода адаптации пользователей
- Вклад в область: Важный методологический вклад в визуализацию данных одиночных клеток
- Практическая ценность: Инструмент с открытым исходным кодом, развёрнутый на важных научных платформах
- Воспроизводимость: Предоставляется полная реализация и демонстрация для облегчения воспроизведения и внедрения
- Анализ данных одиночных клеток: Основная целевая область применения
- Метагеномика: Расширенное применение, упомянутое в статье
- Любые сценарии, требующие сравнения распределения категориальных данных: Универсальная проблема визуализации
- Библиотека визуализации: visx (на основе D3)
- Фреймворк UI: React
- Управление состоянием: Zustand + zundo
- Интеграция Python: anywidget
- Формат данных: AnnData (zarr-indexed)
- Масштабирование и изменение размера
- Множественные способы сортировки (по количеству, алфавиту, метаданным)
- Фильтрация и группировка данных
- Пользовательские цветовые схемы
- Экспорт в высокое разрешение PNG
- Операции отмены/повтора
Статья цитирует 42 связанные работы, охватывающие визуальное восприятие, биоинформатику, инструменты визуализации и другие области, обеспечивая прочную теоретическую основу для методологии проектирования.
Общая оценка: Это высококачественная исследовательская работа на пересечении взаимодействия человека и компьютера и биоинформатики, решающая реальные научные потребности и предоставляющая полное решение, которое было валидировано в реальной среде. Методология проектирования, ориентированная на пользователя, и междисциплинарное сотрудничество в этой работе достойны подражания.