Summary: Cell population plots are visualizations showing cell population distributions in biological samples with single-cell data, traditionally shown with stacked bar charts. Here, we address issues with this approach, particularly its limited scalability with increasing number of cell types and samples, and present scellop, a novel interactive cell population viewer combining visual encodings optimized for common user tasks in studying populations of cells across samples or conditions.
Availability and Implementation: Scellop is available under the MIT licence at https://github.com/hms-dbmi/scellop, and is available on PyPI (https://pypi.org/project/cellpop/) and NPM (https://www.npmjs.com/package/cellpop). A demo is available at https://scellop.netlify.app/.
- معرّف الورقة: 2510.09554
- العنوان: scellop: A Scalable Redesign of Cell Population Plots for Single-Cell Data
- المؤلفون: Thomas C. Smits, Nikolay Akhmetov, Tiffany S. Liaw, Mark S. Keller, Eric Mörth, Nils Gehlenborg
- المؤسسة: قسم المعلوماتية الحيوية، كلية الطب بجامعة هارفارد، بوسطن، ماساتشوستس 02115، الولايات المتحدة
- التصنيف: cs.HC (التفاعل بين الإنسان والحاسوب)، q-bio.QM (الطرق الكمية)
- الترخيص: رخصة MIT
- رابط الورقة: https://arxiv.org/abs/2510.09554
مخططات السكان الخلويين هي أدوات تصور توضح توزيع السكان الخلويين في بيانات الخلايا الفردية، وتُعرض تقليديًا باستخدام الرسوم البيانية العمودية المكدسة. تعالج هذه الورقة مشاكل هذا الأسلوب، خاصة قيود قابلية التوسع عند زيادة عدد أنواع الخلايا والعينات، وتقترح scellop - عارض خلايا تفاعلي جديد يجمع بين الترميزات البصرية المُحسّنة للمهام الشائعة للمستخدمين في دراسات السكان الخلويين عبر العينات أو الظروف.
- قيود الطرق التقليدية: تُعرض مخططات السكان الخلويين تقليديًا باستخدام الرسوم البيانية العمودية المكدسة، مما يسبب مشاكل خطيرة في قابلية التوسع
- المشاكل الإدراكية: أظهرت دراسة Cleveland & McGill (1984) أن البشر أفضل في مقارنة المواضع مقابل مقارنة الأطوال، والقطاعات المزاحة في الرسوم البيانية العمودية المكدسة يصعب مقارنتها بشكل خاص
- التحديات الحديثة: تتمكن دراسات الأطالس الخلوية الفردية الكبيرة من اكتشاف المزيد من أنواع الخلايا النادرة، مما يجعل المقارنة البصرية أكثر صعوبة
- قيود الألوان: استخدام سبعة ألوان أو أكثر لترميز الفئات يؤثر على القراءة، وتنخفض دقة التعرف مع زيادة الألوان
- نمو حجم البيانات: تحتوي مجموعات بيانات RNAseq المشروحة في HuBMAP على متوسط 33 نوع خلية، وتتضمن بعض الدراسات ما يصل إلى 30 نوع خلية
- الاحتياجات العملية: الحاجة إلى دعم مهام تحليلية متعددة مثل تحليل عدم التجانس، ومقارنة أنواع الخلايا، ومقارنة عدد الخلايا
- التطبيقات متعددة التخصصات: لا تنطبق فقط على تحليل الخلايا الفردية، بل تنطبق أيضًا على مجالات أخرى مثل الجينوميات الدقيقة
- تحليل احتياجات المستخدمين: من خلال دراسة مستخدمين مع 14 مشاركًا، تم تحليل مهام المستخدمين واحتياجاتهم في تصور السكان الخلويين بشكل منهجي
- تصميم تصور جديد: اقتراح حل تصور تفاعلي قائم على خريطة حرارية، مع دعم الأشرطة البيانية القابلة للتوسع لتحليل متعدد المستويات
- تطبيق برمجي كامل: تطوير أداة متعددة المنصات تدعم بيئات Python (PyPI) و JavaScript (NPM)
- التطبيق العملي الفعلي: تم دمجها في بوابة بيانات HuBMAP، مما يوفر التحقق من التطبيق العملي
بناءً على البحث مع المستخدمين، تم تحديد ثلاث فئات رئيسية من مهام المستخدمين:
- عرض هيكل العينة الفردية: أكثر أنواع الخلايا شيوعًا، نسبة نوع خلية معين، مقارنة نسب أنواع خلايا متعددة داخل نفس العينة
- مقارنة هيكل العينات المتعددة: مقارنة نسبة نوع خلية معين في عينات مختلفة، عدد العينات التي يتم فيها التعرف على نوع خلية، نسبة مساهمة نوع خلية معين في إجمالي عدد الخلايا في جميع العينات
- مقارنة الارتباط بالبيانات الوصفية: أكثر أنواع الخلايا شيوعًا في عضو معين، الارتباط بين نسبة نوع الخلية والبيانات الوصفية للعينة
- خريطة حرارية مركزية: استخدام العينات وأنواع الخلايا كصفوف وأعمدة، ترميز عدد الخلايا أو النسبة
- الأشرطة البيانية القابلة للتوسع: يمكن توسيع كل صف من خريطة حرارية إلى رسم بياني عمودي مفصل، يدعم التحليل داخل العينة
- لوحة جانبية: عرض الأشرطة البيانية والرسوم البيانية للكمان لعدد الخلايا والتوزيع
- عناصر التحكم التفاعلية: دعم التطبيع والتجميع والتصفية والفرز وغيرها من العمليات
- الواجهة الأمامية: React + visx (قائم على D3) لتطبيق التصور
- إدارة الحالة: Zustand + وسيط zundo يدعم الإرجاع والإعادة
- التكامل مع Python: أداة Jupyter بناءً على anywidget
- دعم البيانات: متوافق مع تنسيق AnnData، يدعم نظام scverse البيئي
- التكامل متعدد الآراء: دمج نظرة عامة على خريطة حرارية وتفاصيل الرسم البياني العمودي، يدعم التحليل بدرجات حبيبية مختلفة
- دعم الهيكل الهرمي: دعم تجميع وتصفية هيكل نوع الخلية الهرمي
- التكوين المرن: دعم تطبيعات وتحويلات وأنظمة ألوان متعددة
- التوافق العكسي: يمكن تكوينه كعرض رسم بياني عمودي مكدس تقليدي
- المشاركون: 14 خبيرًا في المجال، بما في ذلك 12 عالم أحياء تجريبي، 5 علماء أحياء حسابيين، 5 معلمين، طبيب سريري واحد
- منهجية البحث: مقابلات شبه منظمة مدتها 30 دقيقة
- منصة الاختبار: مخطط السكان الخلويين في بوابة بيانات HuBMAP
- بيانات HuBMAP: 162 مجموعة بيانات، بمتوسط 33 نوع خلية
- أطلس الرئة البشرية الخلوي: 484 مجموعة بيانات، 51 نوع خلية
- مجموعة بيانات RNAseq للكلى: مستخدمة في العرض التوضيحي عبر الإنترنت
- تحليل التعليقات النوعية من المستخدمين
- مقارنة كفاءة إكمال المهام
- تقييم دقة التصور
الميزات التفاعلية الرئيسية المتوقعة من قبل المستخدمين (مرتبة حسب الأهمية):
- خيارات التطبيع N=10
- التجميع حسب الهيكل الهرمي لنوع الخلية N=9
- التنقل من النظرة العامة إلى التفاصيل N=9
- القدرة على معالجة التصور N=8
- معلومات السياق الإضافية N=5
المشاكل الرئيسية:
- مشاكل نظام الألوان N=6
- حبيبية نوع الخلية المفرطة
- صعوبة التعرف على أنواع الخلايا المفقودة والموجودة بشكل عام
يُظهر التحليل باستخدام بيانات أطلس الرئة البشرية الخلوي:
- اكتشاف الفروقات المرضية: يُظهر مرضى التليف الكيسي توزيعًا مختلفًا لأنواع الخلايا، خاصة الخلايا المناعية
- تأثير COVID: تُظهر بعض مجموعات بيانات مرضى COVID توزيعًا مختلفًا للسكان
- قيود الطرق التقليدية: يصعب على الرسوم البيانية العمودية المكدسة التعامل مع عدد كبير من مجموعات البيانات، وأنواع الخلايا المفقودة والنسب الصغيرة يصعب ملاحظتها مباشرة
مقارنة بالرسوم البيانية العمودية المكدسة التقليدية:
- قدرة أفضل على كشف الأنماط (نظرة عامة على خريطة حرارية)
- دقة مقارنة سكانية أعلى (أشرطة بيانية قابلة للتوسع)
- دعم عرض الهيكل الهرمي
- قابلية توسع أفضل
- Cleveland & McGill (1984): نظرية الإدراك الرسومي
- Talbot et al. (2014): تجارب إدراك الرسوم البيانية العمودية
- Nobre et al. (2024): دراسات الدقة والوقت للرسوم البيانية العمودية المكدسة مقابل أنواع الرسوم البيانية الأخرى
- Bertifier: عرض خريطة حرارية بترميز مرن
- Clustergrammer: تصور خريطة حرارية للبيانات البيولوجية عالية الأبعاد
- Funkyheatmap: تصور إطار البيانات لأنواع البيانات المختلطة
مقارنة بأدوات خريطة حرارية موجودة، يدعم scellop بشكل خاص:
- فحص هيكل العينة الفردية
- عمليات تطبيع وتحويل متعددة
- عمليات هيكل نوع الخلية الهرمي
- حل scellop بنجاح مشاكل قابلية التوسع في الرسوم البيانية العمودية المكدسة التقليدية في تصور بيانات الخلايا الفردية على نطاق واسع
- التصميم القائم على البحث مع المستخدمين يدعم بشكل فعال جميع مهام المستخدمين المحددة
- يوفر الجمع بين خريطة حرارية وأشرطة بيانية قابلة للتوسع قدرة تحليل متعددة المستويات مثالية
- يدعم حاليًا بشكل أساسي تنسيق AnnData، مع خيارات تحميل بيانات محدودة
- يفتقد تمثيل الرسم البياني الشبكي لأنواع الخلايا الهرمية
- لا تزال هناك مجالات لتحسين مقارنة مجموعات البيانات بدرجات حبيبية مختلفة من نوع الخلية
- التصور الهرمي: دمج تمثيلات الرسم البياني الشبكي مثل Collapsible Tree لأنواع الخلايا الهرمية
- توسيع تنسيقات البيانات: دعم المزيد من تنسيقات الملفات البديلة
- التطبيقات متعددة التخصصات: التوسع إلى مجالات أخرى تستخدم الرسوم البيانية العمودية المكدسة مثل الجينوميات الدقيقة
- التصميم المتمركز حول المستخدم: طريقة التصميم القائمة على البحث المنهجي مع المستخدمين، مما يضمن التوجيه بالاحتياجات الفعلية
- التطبيق التقني الكامل: توفير دعم متعدد المنصات، مع التكامل في بيئة الإنتاج الفعلية
- الأساس النظري الراسخ: قائم على نظريات البحث البصري الناضجة
- القيمة العملية العالية: أداة مفتوحة المصدر وقد تم نشرها بالفعل على منصات بحثية مهمة
- طريقة التقييم: تفتقد تجارب مقارنة تجربة المستخدم الكمية
- التحقق من قابلية التوسع: على الرغم من الادعاء بقابلية التوسع، تفتقد اختبارات الأداء على بيانات كبيرة جدًا
- تكلفة التعلم: قد تتطلب أنماط التفاعل الجديدة فترة تكيف للمستخدمين
- المساهمة في المجال: توفير مساهمة منهجية مهمة لتصور بيانات الخلايا الفردية
- القيمة العملية: أداة مفتوحة المصدر وقد تم نشرها بالفعل على منصات بحثية مهمة
- قابلية إعادة الإنتاج: توفير تطبيق كامل وعروض توضيحية، مما يسهل إعادة الإنتاج والاعتماد
- تحليل بيانات الخلايا الفردية: مجال التطبيق الهدف الرئيسي
- الجينوميات الدقيقة: تطبيق التوسع المذكور في الورقة
- أي سيناريو يتطلب مقارنة توزيع البيانات الفئوية: مشكلة تصور عامة
- مكتبة التصور: visx (قائمة على D3)
- إطار واجهة المستخدم: React
- إدارة الحالة: Zustand + zundo
- التكامل مع Python: anywidget
- تنسيق البيانات: AnnData (مفهرسة بـ zarr)
- التكبير وتغيير الحجم
- طرق فرز متعددة (العدد، الأبجدية، البيانات الوصفية)
- تصفية البيانات والتجميع
- تخصيص نظام الألوان
- تصدير PNG عالي الدقة
- عمليات الإرجاع والإعادة
تستشهد الورقة بـ 42 مرجعًا ذا صلة، تغطي أبحاثًا مهمة في مجالات متعددة بما في ذلك الإدراك البصري والمعلوماتية الحيوية وأدوات التصور، مما يوفر أساسًا نظريًا متينًا لتصميم الطريقة.
التقييم الشامل: هذه ورقة بحثية عالية الجودة في مجال البحث المتقاطع بين التفاعل بين الإنسان والحاسوب والمعلوماتية الحيوية، وتحل احتياجات بحثية فعلية، وتوفر حلاً كاملاً، وقد تم التحقق منها بالفعل في بيئة فعلية. تستحق طريقة التصميم المتمركزة حول المستخدم والتعاون متعدد التخصصات في هذه الورقة أن تكون بمثابة نموذج يحتذى به.