Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million RBC images from diverse acquisition modalities and sources. Extensive evaluations show that RedDino outperforms existing state-of-the-art models on RBC shape classification. Through assessments including linear probing and nearest neighbor classification, we confirm its strong feature representations and generalization ability. Our main contributions are: (1) a foundation model tailored for RBC analysis, (2) ablation studies exploring DINOv2 configurations for RBC modeling, and (3) a detailed evaluation of generalization performance. RedDino addresses key challenges in computational hematology by capturing nuanced morphological features, advancing the development of reliable diagnostic tools. The source code and pretrained models for RedDino are available at https://github.com/Snarci/RedDino, and the pretrained models can be downloaded from our Hugging Face collection at https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc
- পেপার আইডি: 2508.08180
- শিরোনাম: RedDino: A foundation model for red blood cell analysis
- লেখক: Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr
- শ্রেণীবিভাগ: eess.IV cs.AI cs.CV
- প্রকাশনার সময়: ২০২৫ সালের ২২ আগস্ট (arXiv v2)
- পেপার লিংক: https://arxiv.org/abs/2508.08180
লোহিত রক্তকণিকা (RBCs) মানব স্বাস্থ্যের জন্য অত্যন্ত গুরুত্বপূর্ণ এবং নির্ভুল রূপবিজ্ঞান বিশ্লেষণ রক্তবিজ্ঞান রোগ নির্ণয়ের জন্য অপরিহার্য। যদিও ভিত্তি মডেলগুলি চিকিৎসা নির্ণয়ে বিশাল সম্ভাবনা প্রদর্শন করেছে, তবে RBC বিশ্লেষণের জন্য ব্যাপক AI সমাধান এখনও অপ্রতুল। এই পেপারে RedDino উপস্থাপন করা হয়েছে, যা RBC চিত্র বিশ্লেষণের জন্য বিশেষভাবে ডিজাইন করা একটি স্ব-তদারকিকৃত ভিত্তি মডেল। RedDino RBC-এর জন্য বিশেষায়িত DINOv2 স্ব-তদারকিকৃত শিক্ষা কাঠামো ব্যবহার করে, যা বিভিন্ন সংগ্রহ পদ্ধতি এবং উৎস থেকে ১.২৫ মিলিয়ন RBC চিত্র সমন্বিত একটি সাবধানে নির্বাচিত ডেটাসেটে প্রশিক্ষিত। ব্যাপক মূল্যায়ন দেখায় যে RedDino RBC আকৃতি শ্রেণীবিভাগ কাজে বিদ্যমান অত্যাধুনিক মডেলগুলিকে উল্লেখযোগ্যভাবে অতিক্রম করে। রৈখিক অনুসন্ধান এবং নিকটতম প্রতিবেশী শ্রেণীবিভাগের মতো মূল্যায়ন পদ্ধতির মাধ্যমে, মডেলের শক্তিশালী বৈশিষ্ট্য প্রতিনিধিত্ব এবং সাধারণীকরণ ক্ষমতা যাচাই করা হয়েছে।
লোহিত রক্তকণিকার রূপবিজ্ঞান বিশ্লেষণ রক্তবিজ্ঞান নির্ণয়ের ভিত্তি, কিন্তু নিম্নলিখিত মূল চ্যালেঞ্জগুলির সম্মুখীন:
- রঞ্জন এবং ইমেজিং পরিবর্তনশীলতা: বিভিন্ন রঞ্জন প্রোটোকল এবং ইমেজিং ডিভাইস পক্ষপাত প্রবর্তন করে, বিশ্লেষণ জটিলতা বৃদ্ধি করে
- ব্যাচ প্রভাব: বহু-উৎস, বহু-রোগী পরিস্থিতিতে উল্লেখযোগ্য সিস্টেমেটিক পার্থক্য বিদ্যমান
- পেশাদার প্রশিক্ষণের প্রয়োজনীয়তা: ঐতিহ্যবাহী বিশ্লেষণ ব্যাপক পেশাদার প্রশিক্ষণ প্রয়োজন
- বিশেষায়িত AI সরঞ্জামের অভাব: শ্বেত রক্তকণিকা বিশ্লেষণের তুলনায়, লোহিত রক্তকণিকা বিশ্লেষণ পরিপক্ক ভিত্তি মডেলের অভাব রয়েছে
যদিও ভিত্তি মডেলগুলি শ্বেত রক্তকণিকা বিশ্লেষণে উল্লেখযোগ্য সুবিধা প্রদর্শন করেছে, ক্লিনিকাল ফলাফল কার্যকরভাবে পূর্বাভাস দিতে এবং ব্যাচ প্রভাব সমাধান করতে পারে, লোহিত রক্তকণিকা বিশ্লেষণ ক্ষেত্র এখনও এই উন্নত প্রযুক্তির সম্ভাবনা পুরোপুরি অন্বেষণ করেনি। এই গবেষণা এই ফাঁক পূরণ করার লক্ষ্য রাখে, RBC বিশ্লেষণের জন্য বিশেষায়িত ভিত্তি মডেল বিকাশ করে।
- বিশেষায়িত ভিত্তি মডেল: RedDino উপস্থাপন করা হয়েছে, RBC বিশ্লেষণের জন্য অপ্টিমাইজ করা প্রথম স্ব-তদারকিকৃত ভিত্তি মডেল পরিবার
- গভীর কনফিগারেশন গবেষণা: RBC রূপবিজ্ঞান মডেলিংয়ে DINOv2 কনফিগারেশনের কঠোর তুলনামূলক বিশ্লেষণ
- ব্যাপক কর্মক্ষমতা মূল্যায়ন: একাধিক RBC ডেটাসেটে ব্যাপক বেঞ্চমার্কিং, বিদ্যমান অত্যাধুনিক মডেলের উপর উচ্চতর প্রমাণ করে
- শক্তিশালী সাধারণীকরণ ক্ষমতা: ব্যাচ প্রভাবের চ্যালেঞ্জ কার্যকরভাবে প্রশমিত করে, ব্যতিক্রমী ক্রস-ডোমেইন সাধারণীকরণ কর্মক্ষমতা প্রদর্শন করে
RedDino সাধারণ RBC বৈশিষ্ট্য প্রতিনিধিত্ব শিখতে লক্ষ্য করে, ডাউনস্ট্রিম RBC আকৃতি শ্রেণীবিভাগ, অস্বাভাবিকতা সনাক্তকরণ এবং রূপবিজ্ঞান বিশ্লেষণ কাজ সমর্থন করে। ইনপুট হল RBC মাইক্রোস্কোপ চিত্র, আউটপুট হল উচ্চ-মাত্রিক বৈশিষ্ট্য ভেক্টর, যা বিভিন্ন RBC বিশ্লেষণ কাজের জন্য ব্যবহার করা যায়।
RedDino DINOv2 স্ব-তদারকিকৃত শিক্ষা কাঠামোর উপর নির্মিত, Vision Transformer (ViT) কে মেরুদণ্ড নেটওয়ার্ক হিসাবে ব্যবহার করে। মডেল পরিবার তিনটি সংস্করণ অন্তর্ভুক্ত করে:
- RedDino ছোট: বৈশিষ্ট্য মাত্রা 384, ব্যাচ আকার 512, 22 মিলিয়ন প্যারামিটার
- RedDino ভিত্তি: বৈশিষ্ট্য মাত্রা 768, ব্যাচ আকার 384, 86 মিলিয়ন প্যারামিটার
- RedDino বড়: বৈশিষ্ট্য মাত্রা 1024, ব্যাচ আকার 256, 304 মিলিয়ন প্যারামিটার
- Koleo নিয়মিতকরণকারী অপসারণ: মূল DINOv2 বৈশিষ্ট্য পতন প্রতিরোধের জন্য Koleo নিয়মিতকরণ ব্যবহার করে, কিন্তু RBC পরিস্থিতিতে, RBC আকৃতি এবং রঙের প্রাকৃতিক সামঞ্জস্যের কারণে, এই নিয়মিতকরণকারী প্যাথোলজিক্যাল এবং অস্বাভাবিক RBC-এর বৈশিষ্ট্য প্রকাশকে অত্যধিক দমন করে
- Sinkhorn-Knopp কেন্দ্রীকরণ: চলমান গড় কেন্দ্রীকরণ প্রতিস্থাপন করে, প্রতিনিধিত্ব গুণমান উন্নত করে
- কাস্টমাইজড ডেটা বর্ধন: Albumentations লাইব্রেরির 32 ধরনের পিক্সেল-স্তরের বর্ধন দিয়ে DINOv2-এর মূল বর্ধন কৌশল প্রতিস্থাপন করে
- ডেটা স্কেল: 18টি ডেটাসেট থেকে 56,712টি মূল চিত্র, 420+ ব্যক্তি জুড়ে বিস্তৃত
- ডেটা নিষ্কাশন: দুটি পদ্ধতি ব্যবহার করা হয়
- উন্নত CellPose ব্যবহার করে কোষ বিভাজন, 3,076,269টি বিভাজিত কোষ উৎপাদন করে
- 224×224 পিক্সেলের অ-ওভারল্যাপিং চিত্র প্যাচ নিষ্কাশন, 1,250,781টি চিত্র প্যাচ উৎপাদন করে
- ডেটা ভারসাম্য: লোহিত এবং শ্বেত রক্তকণিকার প্রাকৃতিক ভারসাম্যহীনতা প্রশমিত করতে, শ্বেত রক্তকণিকা চিত্র ডেটাসেট অন্তর্ভুক্ত করা হয়েছে
সিস্টেমেটিক পরীক্ষার মাধ্যমে আবিষ্কৃত:
- চিত্র প্যাচ প্রশিক্ষণ একক কোষ প্রশিক্ষণের চেয়ে ভাল
- স্থানীয় ক্রপ অপসারণ কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে
- কাস্টমাইজড বর্ধন পাইপলাইন বৈশিষ্ট্য গুণমান আরও উন্নত করে
প্রশিক্ষণ ডেটা: 18টি জনসাধারণের RBC ডেটাসেট, বিভিন্ন ইমেজিং পদ্ধতি, রেজোলিউশন এবং রঞ্জন কৌশল সহ
পরীক্ষার ডেটা:
- Elsafty ডেটাসেট: 240,000 চিত্র, 9টি শ্রেণী, 4টি ভিন্ন উৎস থেকে
- Chula ডেটাসেট: 20,875 চিত্র, 12টি RBC শ্রেণী
- DSE ডেটাসেট: 5,659 চিত্র, 8টি শ্রেণী
- নির্ভুলতা (Acc)
- ভারসাম্যপূর্ণ নির্ভুলতা (bAcc)
- ওজনযুক্ত F1 স্কোর (wF1)
- ResNet50
- DINOv2 (ছোট/ভিত্তি/বড়)
- DinoBloom (ছোট/ভিত্তি/বড়) - বর্তমান রক্তবিজ্ঞান ডেটার অত্যাধুনিক বৈশিষ্ট্য নিষ্কাশক
- রৈখিক অনুসন্ধান: ডাউনস্ট্রিম কাজের জন্য বৈশিষ্ট্য অভিযোজন ক্ষমতা মূল্যায়ন করে
- K-নিকটতম প্রতিবেশী শ্রেণীবিভাগ (1-NN, 20-NN): ব্যাচ প্রভাবের অধীনে বৈশিষ্ট্যের দৃঢ়তা মূল্যায়ন করে
- ক্রস-উৎস মূল্যায়ন: একটি-বাদ-এক-উৎস যাচাইকরণ কৌশল ব্যবহার করে
- পাঁচ-গুণ ক্রস-যাচাইকরণ: ভারসাম্যহীন ডেটাসেটের জন্য
সবচেয়ে চ্যালেঞ্জিং ক্রস-উৎস মূল্যায়নে, RedDino উল্লেখযোগ্য সুবিধা অর্জন করে:
| মডেল | রৈখিক অনুসন্ধান wF1 | 1-NN wF1 | 20-NN wF1 |
|---|
| ResNet50 | 77.6±8.1 | 64.3±4.8 | 66.2±4.9 |
| DinoBloom-L | 85.4±5.2 | 74.1±5.0 | 77.0±4.5 |
| DINOv2 বড় | 86.0±5.6 | 73.7±6.2 | 76.4±7.0 |
| RedDino ভিত্তি | 88.1±4.9 | 78.8±3.6 | 82.6±2.8 |
| RedDino বড় | 88.5±5.5 | 78.5±4.6 | 81.6±4.7 |
মূল আবিষ্কার:
- RedDino সর্বোত্তম ভিত্তি পদ্ধতির তুলনায় 2.1% এর বেশি উন্নতি (রৈখিক অনুসন্ধান) এবং 3.0% (নিকটতম প্রতিবেশী শ্রেণীবিভাগ)
- গড় উন্নতির পরিমাণ 4.0-6.5%, সামঞ্জস্যপূর্ণ কর্মক্ষমতা সুবিধা প্রদর্শন করে
Chula এবং DSE ডেটাসেটের পাঁচ-গুণ ক্রস-যাচাইকরণে, RedDino একইভাবে চমৎকার পারফরম্যান্স প্রদর্শন করে, প্রায় সমস্ত মেট্রিক্সে ভিত্তি পদ্ধতিগুলি অতিক্রম করে।
মূল কনফিগারেশন উন্নতির প্রভাব:
- Koleo নিয়মিতকরণকারী অপসারণ: কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত করে, প্যাথোলজিক্যাল RBC বৈশিষ্ট্য অত্যধিক দমন প্রতিরোধ করে
- Sinkhorn-Knopp কেন্দ্রীকরণ: চলমান গড় কেন্দ্রীকরণ প্রতিস্থাপনের পরে কর্মক্ষমতা আরও উন্নত হয়
- চিত্র প্যাচ বনাম একক কোষ প্রশিক্ষণ: চিত্র প্যাচ প্রশিক্ষণ কৌশল একক কোষ প্রশিক্ষণের চেয়ে উচ্চতর
- কাস্টমাইজড বর্ধন পাইপলাইন: মূল DINOv2 বর্ধন কৌশলের তুলনায় স্পষ্ট উন্নতি
তিন-উপাদান PCA ভিজ্যুয়ালাইজেশনের মাধ্যমে RedDino বৈশিষ্ট্যের কার্যকারিতা যাচাই করা হয়:
- পটভূমি, কোষ, ঝিল্লি কাঠামো এবং পরজীবী পার্থক্য করতে সক্ষম
- ম্যালেরিয়া সংক্রমিত RBC এবং棘 কোষের মতো অস্বাভাবিক রূপবিজ্ঞানের জন্য চমৎকার বিভেদ ক্ষমতা প্রদর্শন করে
Elsafty ডেটাসেটের UMAP প্রজেকশন ব্যবহার করে দেখায়:
- বিভিন্ন শ্রেণী স্পষ্ট ক্লাস্টার গঠন করে, কোনো উল্লেখযোগ্য ব্যাচ প্রভাব নেই
- ক্লিনিক্যালি পার্থক্য করা কঠিন শ্রেণী (যেমন গোলাকার RBC, উপবৃত্তাকার কোষ ইত্যাদি) বৈশিষ্ট্য স্থানে প্রকৃতপক্ষে ওভারল্যাপ করে
- কোষ ক্লাস্টার অনন্য ক্লাস্টার গঠন করে, মডেল একক কোষ এবং সমষ্টি পার্থক্য করতে পারে তা প্রমাণ করে
- শ্বেত রক্তকণিকা বিশ্লেষণ: DinoBloom এর মতো পরিপক্ক ভিত্তি মডেল ইতিমধ্যে বিদ্যমান, ক্লিনিকাল ফলাফল পূর্বাভাসে চমৎকার কর্মক্ষমতা প্রদর্শন করে
- লোহিত রক্তকণিকা বিশ্লেষণ: তুলনায় উন্নয়ন পিছিয়ে আছে, বিশেষায়িত ভিত্তি মডেলের অভাব রয়েছে
- কম্পিউটার-সহায়ক নির্ণয়: রক্তবিজ্ঞানে ধীরে ধীরে মূল নির্ণয় চ্যালেঞ্জ সমাধানের জন্য গুরুত্বপূর্ণ সরঞ্জাম হয়ে উঠছে
DINOv2 এর মতো স্ব-তদারকিকৃত পদ্ধতি প্রাকৃতিক চিত্রে বিশাল সাফল্য অর্জন করেছে, কিন্তু চিকিৎসা চিত্রে বিশেষত RBC বিশ্লেষণে প্রয়োগ এখনও পুরোপুরি অন্বেষণ করা বাকি রয়েছে।
- কর্মক্ষমতা অগ্রগতি: RedDino RBC শ্রেণীবিভাগ কাজে নতুন অত্যাধুনিক কর্মক্ষমতা অর্জন করেছে
- শক্তিশালী সাধারণীকরণ ক্ষমতা: ব্যাচ প্রভাব কার্যকরভাবে প্রশমিত করে, ক্রস-উৎস পরিস্থিতিতে চমৎকার কর্মক্ষমতা প্রদর্শন করে
- উচ্চ ব্যবহারিক মূল্য: স্বয়ংক্রিয় রক্তবিজ্ঞান নির্ণয়ের জন্য নির্ভরযোগ্য ভিত্তি সরঞ্জাম প্রদান করে
- প্রশিক্ষণ ডেটা সীমাবদ্ধতা: যদিও ডেটাসেট স্কেল বৃহৎ, তবুও কিছু বিরল RBC রূপবিজ্ঞানের প্রতিনিধিত্ব অপ্রতুল হতে পারে
- গণনা সম্পদের প্রয়োজনীয়তা: বড় মডেল সংস্করণ উচ্চ গণনা সম্পদ প্রয়োজন
- মনোনীত ডেটা নির্ভরতা: ডাউনস্ট্রিম কাজ এখনও সূক্ষ্ম-সুরক্ষার জন্য একটি নির্দিষ্ট পরিমাণ মনোনীত ডেটা প্রয়োজন
- প্রয়োগ পরিস্থিতি সম্প্রসারণ: অন্যান্য রক্তবিজ্ঞান কাজে প্রয়োগ অন্বেষণ করা
- মডেল সংকোচন: সম্পদ-সীমিত পরিবেশের জন্য উপযুক্ত আরও হালকা সংস্করণ বিকাশ করা
- মাল্টি-মোডাল ফিউশন: অন্যান্য ধরনের চিকিৎসা ডেটা একত্রিত করে নির্ণয় নির্ভুলতা উন্নত করা
- সমস্যা লক্ষ্যবস্তু শক্তিশালী: RBC বিশ্লেষণ এই গুরুত্বপূর্ণ কিন্তু উপেক্ষিত ক্ষেত্র বিশেষভাবে সমাধান করে
- পদ্ধতি ডিজাইন যুক্তিসঙ্গত: RBC বৈশিষ্ট্যের জন্য DINOv2-এ লক্ষ্যবস্তু উন্নতি করা হয়েছে
- পরীক্ষামূলক ডিজাইন কঠোর: ক্রস-উৎস যাচাইকরণের মতো কঠোর মূল্যায়ন পদ্ধতি ব্যবহার করে, ফলাফল নির্ভরযোগ্যতা নিশ্চিত করে
- ডেটাসেট অবদান বড়: এখন পর্যন্ত বৃহত্তম RBC চিত্র প্রশিক্ষণ সংগ্রহ নির্মাণ করা হয়েছে
- ওপেন-সোর্স বান্ধব: সম্পূর্ণ কোড এবং প্রাক-প্রশিক্ষিত মডেল প্রদান করে
- সীমিত তাত্ত্বিক বিশ্লেষণ: Koleo নিয়মিতকরণকারী অপসারণ কেন কার্যকর তার তাত্ত্বিক ব্যাখ্যা যথেষ্ট গভীর নয়
- অপর্যাপ্ত গণনা খরচ বিশ্লেষণ: বিভিন্ন মডেল সংস্করণের গণনা দক্ষতা বাণিজ্য-অফ বিস্তারিত বিশ্লেষণ করা হয়নি
- ক্লিনিকাল যাচাইকরণ অনুপস্থিত: প্রকৃত ক্লিনিকাল পরিবেশে যাচাইকরণ ফলাফল অনুপস্থিত
- একাডেমিক মূল্য: RBC বিশ্লেষণ ক্ষেত্রের জন্য গুরুত্বপূর্ণ ভিত্তি সরঞ্জাম এবং বেঞ্চমার্ক প্রদান করে
- ব্যবহারিক মূল্য: রক্তবিজ্ঞান নির্ণয়ের স্বয়ংক্রিয়করণ স্তর উল্লেখযোগ্যভাবে উন্নত করার সম্ভাবনা রয়েছে
- পুনরুৎপাদনযোগ্যতা: সম্পূর্ণ ওপেন-সোর্স বাস্তবায়ন প্রদান করে, গবেষণা সম্প্রদায়ের ব্যবহার এবং উন্নতি সহজ করে
- রক্ত প্যাথোলজি নির্ণয় সহায়তা
- বড় আকারের রক্ত পরীক্ষা
- RBC রূপবিজ্ঞান গবেষণা
- রক্তবিজ্ঞান শিক্ষা প্রশিক্ষণ সরঞ্জাম উন্নয়ন
RedDino-এর মূল উদ্ভাবন সাধারণ স্ব-তদারকিকৃত শিক্ষা কাঠামো পেশাদার চিকিৎসা ক্ষেত্রে সফলভাবে অভিযোজিত করা, অনুপযুক্ত নিয়মিতকরণ সীমাবদ্ধতা অপসারণ এবং প্রশিক্ষণ কৌশল অপ্টিমাইজ করে উল্লেখযোগ্য কর্মক্ষমতা উন্নতি অর্জন করা। এটি অন্যান্য চিকিৎসা চিত্র বিশ্লেষণ কাজের ভিত্তি মডেল উন্নয়নের জন্য মূল্যবান রেফারেন্স প্রদান করে।
পরিবেশগত প্রভাব বিবৃতি: পেপার পরীক্ষার কার্বন নির্গমন 4.15 kg CO2eq হিসাবে রিপোর্ট করেছে, পরিবেশগত দায়বদ্ধতার প্রতি মনোযোগ প্রতিফলিত করে।