A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data
Patock, Ratnapriya, Barman
The identification of disease-gene associations is instrumental in understanding the mechanisms of diseases and developing novel treatments. Besides identifying genes from RNA-Seq datasets, it is often necessary to identify gene clusters that have relationships with a disease. In this work, we propose a graph-based method for using an RNA-Seq dataset with known genes related to a disease and perform a robust clustering analysis to identify clusters of genes. Our method involves the construction of a gene co-expression network, followed by the computation of gene embeddings leveraging Node2Vec+, an algorithm applying weighted biased random walks and skipgram with negative sampling to compute node embeddings from undirected graphs with weighted edges. Finally, we perform spectral clustering to identify clusters of genes. All processes in our entire method are jointly optimized for stability, robustness, and optimality by applying Tree-structured Parzen Estimator. Our method was applied to an RNA-Seq dataset of known genes that have associations with Age-related Macular Degeneration (AMD). We also performed tests to validate and verify the robustness and statistical significance of our methods due to the stochastic nature of the involved processes. Our results show that our method is capable of generating consistent and robust clustering results. Our method can be seamlessly applied to other RNA-Seq datasets due to our process of joint optimization, ensuring the stability and optimality of the several steps in our method, including the construction of a gene co-expression network, computation of gene embeddings, and clustering of genes. Our work will aid in the discovery of natural structures in the RNA-Seq data, and understanding gene regulation and gene functions not just for AMD but for any disease in general.
academic
طريقة رسومية لتحديد مجموعات الجينات من بيانات تسلسل الحمض النووي الريبوسومي
تقترح هذه الدراسة طريقة قائمة على الرسوم البيانية لتحديد مجموعات الجينات المرتبطة بالأمراض من بيانات تسلسل الحمض النووي الريبوسومي. تبني الطريقة أولاً شبكة التعبير المشترك للجينات، ثم تستخدم خوارزمية Node2Vec+ لحساب تضمينات الجينات، وأخيراً تحدد مجموعات الجينات من خلال التجميع الطيفي. يتم تحسين جميع المراحل بشكل مشترك من خلال مقدّر Parzen ذي البنية الشجرية (TPE) لضمان الاستقرار والمتانة والأمثلية. تم تطبيق الطريقة على مجموعة بيانات RNA-Seq لـ 81 جيناً معروفاً مرتبطاً بالتنكس البقعي المرتبط بالعمر (AMD)، وأظهرت التجارب التحقق أن الطريقة تنتج نتائج تجميع متسقة وقوية.
أصبح تنظيم التعبير الجيني آلية رئيسية في وساطة خطر الأمراض البشرية من خلال التباين الوراثي. بينما يعتبر تحديد الجينات الفردية المرتبطة بالأمراض من مجموعات بيانات RNA-Seq مهماً، فإن تحديد مجموعات الجينات ذات العلاقة بالأمراض ضروري بنفس القدر، مما يساعد في:
فهم المسارات البيولوجية المشتركة أو العمليات
تحديد الجينات المحتملة غير المكتشفة
استهداف آليات الأمراض بدلاً من الجينات الفردية للعلاج
تصميم عملية مبتكرة: تقترح عملية تجميع جينات كاملة تتضمن بناء شبكة التعبير المشترك للجينات وحساب تضمينات Node2Vec+ والتجميع الطيفي
استراتيجية التحسين المشترك: تحسّن جميع خطوات العملية بشكل مشترك للمرة الأولى، بدلاً من التحسين التقليدي على مراحل، باستخدام تحسين TPE لـ 9 معاملات فائقة لتعظيم مقياس DBCVI للتجميع
إطار التحقق من المتانة: تصمم مجموعة اختبارات شاملة تتضمن:
100 تجربة متكررة للتحقق من الاتساق
اختبار الأهمية الإحصائية مقابل مجموعات الجينات العشوائية
تقييم الاستقرار باستخدام المعلومات المتبادلة المعدلة (AMI)
الجدوى والقابلية للتوسع:
لا تتطلب موارد حسابية مكلفة مثل GPU
يمكن تطبيقها بسلاسة على مجموعات بيانات RNA-Seq الأخرى
طريقة CS-CORE: استخدام طريقة CS-CORE الإحصائية لحساب مصفوفة التعبير المشترك، وهذه الطريقة قادرة على تصحيح الاختلافات في عمق التسلسل، وهي أكثر دقة من معامل ارتباط بيرسون
بناء الرسم البياني:
العقد: 81 جيناً
الحواف: يتم إضافة حافة غير موجهة مرجحة عندما تكون القيمة المطلقة لقيمة التعبير المشترك CS-CORE أكبر من الحد الأدنى τ
هذه ورقة بحثية عالية الجودة في علم المعلوماتية الحيوية تتمتع بابتكار منهجي قوي وتصميم تجريبي معقول. أكبر نقطة قوة هي استراتيجية التحسين المشترك، التي تتجاوز قيود التحسين التقليدي على مراحل، وتوفر نموذجاً جديداً لتصميم عمليات تجميع الجينات. التحقق من المتانة كافٍ، والأهمية الإحصائية واضحة، والقيمة العملية عالية.
أوجه القصور الرئيسية هي: (1) نقص المقارنة المباشرة مع طرق أخرى؛ (2) التحقق على مجموعة بيانات واحدة فقط؛ (3) نقص التحليل الوظيفي البيولوجي. يُنصح بأن تتضمن الأعمال المستقبلية التحقق على مجموعات بيانات متعددة ومقارنة منهجية مع الطرق التقليدية (مثل WGCNA)، مع إضافة التعليقات التوضيحية الوظيفية والتحقق التجريبي لمجموعات الجينات.
بشكل عام، هذه ورقة بحثية عالية الجودة في علم الأحياء الحسابي، وذات قيمة مرجعية مهمة لتحليل بيانات RNA-Seq وأبحاث الجينات المرتبطة بالأمراض. مؤشر التوصية: 8.5/10