A Graphical Method for Identifying Gene Clusters from RNA Sequencing Data
Patock, Ratnapriya, Barman
The identification of disease-gene associations is instrumental in understanding the mechanisms of diseases and developing novel treatments. Besides identifying genes from RNA-Seq datasets, it is often necessary to identify gene clusters that have relationships with a disease. In this work, we propose a graph-based method for using an RNA-Seq dataset with known genes related to a disease and perform a robust clustering analysis to identify clusters of genes. Our method involves the construction of a gene co-expression network, followed by the computation of gene embeddings leveraging Node2Vec+, an algorithm applying weighted biased random walks and skipgram with negative sampling to compute node embeddings from undirected graphs with weighted edges. Finally, we perform spectral clustering to identify clusters of genes. All processes in our entire method are jointly optimized for stability, robustness, and optimality by applying Tree-structured Parzen Estimator. Our method was applied to an RNA-Seq dataset of known genes that have associations with Age-related Macular Degeneration (AMD). We also performed tests to validate and verify the robustness and statistical significance of our methods due to the stochastic nature of the involved processes. Our results show that our method is capable of generating consistent and robust clustering results. Our method can be seamlessly applied to other RNA-Seq datasets due to our process of joint optimization, ensuring the stability and optimality of the several steps in our method, including the construction of a gene co-expression network, computation of gene embeddings, and clustering of genes. Our work will aid in the discovery of natural structures in the RNA-Seq data, and understanding gene regulation and gene functions not just for AMD but for any disease in general.
academic
RNA সিকোয়েন্সিং ডেটা থেকে জিন ক্লাস্টার সনাক্তকরণের জন্য একটি গ্রাফিক্যাল পদ্ধতি
এই গবেষণায় RNA সিকোয়েন্সিং ডেটা থেকে রোগ-সম্পর্কিত জিন ক্লাস্টার সনাক্ত করার জন্য একটি গ্রাফ-ভিত্তিক পদ্ধতি প্রস্তাব করা হয়েছে। এই পদ্ধতিটি প্রথমে জিন সহ-প্রকাশ নেটওয়ার্ক তৈরি করে, তারপর Node2Vec+ অ্যালগরিদম ব্যবহার করে জিন এমবেডিং গণনা করে এবং অবশেষে স্পেক্ট্রাল ক্লাস্টারিং এর মাধ্যমে জিন ক্লাস্টার সনাক্ত করে। সমস্ত প্রক্রিয়া ট্রি-স্ট্রাকচার্ড পার্জেন এস্টিমেটর (TPE) এর মাধ্যমে যৌথভাবে অপ্টিমাইজ করা হয় যাতে স্থিতিশীলতা, শক্তিশালীতা এবং সর্বোত্তমতা নিশ্চিত করা যায়। এই পদ্ধতিটি বয়স-সম্পর্কিত ম্যাকুলার ডিজেনারেশন (AMD) এর ৮১টি পরিচিত সম্পর্কিত জিনের RNA-Seq ডেটাসেটে প্রয়োগ করা হয়েছে এবং যাচাইকরণ পরীক্ষা দেখায় যে এই পদ্ধতিটি সামঞ্জস্যপূর্ণ এবং শক্তিশালী ক্লাস্টারিং ফলাফল তৈরি করতে পারে।
জিন প্রকাশ নিয়ন্ত্রণ মানব রোগের ঝুঁকির জন্য জেনেটিক বৈচিত্র্যের মধ্যস্থতাকারী একটি মূল প্রক্রিয়া হয়ে উঠেছে। যদিও RNA-Seq ডেটাসেট থেকে পৃথক রোগ-সম্পর্কিত জিন সনাক্ত করা গুরুত্বপূর্ণ, তবে রোগ সম্পর্ক সহ জিন ক্লাস্টার সনাক্ত করা সমানভাবে প্রয়োজনীয়, যা সাহায্য করে:
ভাগ করা জৈব পথ বা প্রক্রিয়া বোঝা
সম্ভাব্য আবিষ্কৃত জিন চিহ্নিত করা
একক জিনের পরিবর্তে রোগ প্রক্রিয়ার বিরুদ্ধে চিকিৎসা করা
ঐতিহ্যবাহী পরিসংখ্যান পদ্ধতি: অনুমান পরীক্ষা ইত্যাদি পদ্ধতি বড় আকারের ডেটাসেটে সহজেই শব্দ ফলাফল এবং মিথ্যা ইতিবাচক তৈরি করে
পদক্ষেপ-দ্বারা-পদক্ষেপ অপ্টিমাইজেশন সমস্যা: বিদ্যমান পদ্ধতিগুলি সাধারণত প্রতিটি পদক্ষেপ আলাদাভাবে অপ্টিমাইজ করে (নেটওয়ার্ক নির্মাণ, এমবেডিং গণনা, ক্লাস্টারিং), সামগ্রিক প্রক্রিয়ার সর্বোত্তমতা নিশ্চিত করতে পারে না
অপর্যাপ্ত শক্তিশালীতা: র্যান্ডম প্রক্রিয়াগুলির জন্য সিস্টেমেটিক যাচাইকরণের অভাব
১. উদ্ভাবনী প্রবাহ ডিজাইন: জিন সহ-প্রকাশ নেটওয়ার্ক নির্মাণ, Node2Vec+ এমবেডিং গণনা এবং স্পেক্ট্রাল ক্লাস্টারিং সহ একটি সম্পূর্ণ জিন ক্লাস্টারিং প্রবাহ প্রস্তাব করা
२. যৌথ অপ্টিমাইজেশন কৌশল: প্রথমবারের মতো সমস্ত প্রবাহ পদক্ষেপ যৌথভাবে অপ্টিমাইজ করা, ঐতিহ্যবাহী পদক্ষেপ-দ্বারা-পদক্ষেপ অপ্টিমাইজেশনের পরিবর্তে, DBCVI ক্লাস্টারিং মেট্রিক সর্বাধিক করার জন্য ৯টি হাইপারপ্যারামিটার অপ্টিমাইজ করতে TPE ব্যবহার করা
३. শক্তিশালীতা যাচাইকরণ ফ্রেমওয়ার্ক: একটি সম্পূর্ণ পরীক্ষা পরিকল্পনা ডিজাইন করা যার মধ্যে রয়েছে:
১০০ বার পুনরাবৃত্তি পরীক্ষা সামঞ্জস্য যাচাই করা
র্যান্ডম জিন সেটের সাথে পরিসংখ্যান তাৎপর্য পরীক্ষা
সমন্বিত পারস্পরিক তথ্য (AMI) ক্লাস্টারিং স্থিতিশীলতা মূল্যায়ন
४. ব্যবহারিকতা এবং স্কেলেবিলিটি:
GPU এর মতো ব্যয়বহুল কম্পিউটিং সম্পদের প্রয়োজন নেই
অন্যান্য RNA-Seq ডেটাসেটে নির্বিঘ্নে প্রয়োগ করা যায়
চিকিৎসা পেশাদারদের ব্যবহারের জন্য ভিজ্যুয়ালাইজেশন ফলাফল প্রদান করা
ইনপুট: nc=১০৫টি নিয়ন্ত্রণ নমুনা এবং ns=৬১টি AMD দেরী পর্যায়ের রোগীর সাথে bulk mRNA-seq ডেটাসেট, যার মধ্যে ৮১টি পরিচিত AMD-সম্পর্কিত জিনের উপর ফোকাস করা
আউটপুট: ৮১টি জিনকে k* কার্যকরী অনুরূপ জিন ক্লাস্টারে ক্লাস্টার করা
সীমাবদ্ধতা:
সিকোয়েন্সিং গভীরতা পার্থক্য পরিচালনা করার প্রয়োজন
CS-CORE পদ্ধতি: সহ-প্রকাশ ম্যাট্রিক্স গণনা করতে CS-CORE পরিসংখ্যান পদ্ধতি ব্যবহার করা, যা সিকোয়েন্সিং গভীরতা পার্থক্য সংশোধন করতে পারে, Pearson সম্পর্ক সহগের তুলনায় আরও নির্ভুল
গ্রাফ নির্মাণ:
নোড: ৮১টি জিন
প্রান্ত: যখন CS-CORE সহ-প্রকাশ মানের পরম মান থ্রেশহোল্ড τ অতিক্রম করে তখন নির্দেশনাহীন ওজনযুক্ত প্রান্ত যোগ করা
এটি পদ্ধতি উদ্ভাবনী শক্তিশালী, পরীক্ষা ডিজাইন যুক্তিসঙ্গত একটি জৈব তথ্য বিজ্ঞান পেপার। সবচেয়ে বড় হাইলাইট যৌথ অপ্টিমাইজেশন কৌশল, ঐতিহ্যবাহী পদক্ষেপ-দ্বারা-পদক্ষেপ অপ্টিমাইজেশনের সীমাবদ্ধতা অতিক্রম করা, জিন ক্লাস্টারিং প্রবাহ ডিজাইনের জন্য নতুন প্যারাডাইম প্রদান করা। শক্তিশালীতা যাচাইকরণ পর্যাপ্ত, পরিসংখ্যান তাৎপর্য স্পষ্ট, ব্যবহারিক মূল্য উচ্চ।
প্রধান অপর্যাপ্ততা: (१) অন্যান্য পদ্ধতির সাথে সরাসরি তুলনার অভাব; (२) একক ডেটাসেটে শুধুমাত্র যাচাই করা; (३) জৈব কার্যকারিতা বিশ্লেষণের অভাব। ভবিষ্যত কাজ একাধিক ডেটাসেটে যাচাই করার পরামর্শ দেওয়া হয় এবং ঐতিহ্যবাহী পদ্ধতির সাথে (যেমন WGCNA) সিস্টেমেটিক তুলনা করা, একই সাথে জিন ক্লাস্টারের কার্যকরী মন্তব্য এবং পরীক্ষামূলক যাচাইকরণ বৃদ্ধি করা।
সামগ্রিকভাবে, এটি উচ্চ মানের কম্পিউটেশনাল জীববিজ্ঞান পেপার, RNA-Seq ডেটা বিশ্লেষণ এবং রোগ জিন গবেষণার জন্য গুরুত্বপূর্ণ রেফারেন্স মূল্য রয়েছে। সুপারিশ সূচক: ८.५/१०