2025-11-13T11:58:11.146801

RedDino: A foundation model for red blood cell analysis

Zedda, Loddo, Di Ruberto et al.
Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million RBC images from diverse acquisition modalities and sources. Extensive evaluations show that RedDino outperforms existing state-of-the-art models on RBC shape classification. Through assessments including linear probing and nearest neighbor classification, we confirm its strong feature representations and generalization ability. Our main contributions are: (1) a foundation model tailored for RBC analysis, (2) ablation studies exploring DINOv2 configurations for RBC modeling, and (3) a detailed evaluation of generalization performance. RedDino addresses key challenges in computational hematology by capturing nuanced morphological features, advancing the development of reliable diagnostic tools. The source code and pretrained models for RedDino are available at https://github.com/Snarci/RedDino, and the pretrained models can be downloaded from our Hugging Face collection at https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc
academic

RedDino: लाल रक्त कोशिका विश्लेषण के लिए एक आधार मॉडल

मूल जानकारी

  • पेपर ID: 2508.08180
  • शीर्षक: RedDino: A foundation model for red blood cell analysis
  • लेखक: Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr
  • वर्गीकरण: eess.IV cs.AI cs.CV
  • प्रकाशन तिथि: 22 अगस्त 2025 (arXiv v2)
  • पेपर लिंक: https://arxiv.org/abs/2508.08180

सारांश

लाल रक्त कोशिकाएं (RBCs) मानव स्वास्थ्य के लिए अत्यंत महत्वपूर्ण हैं, और सटीक आकृतिविज्ञान विश्लेषण रक्त संबंधी रोगों के निदान के लिए महत्वपूर्ण है। यद्यपि आधार मॉडल चिकित्सा निदान में विशाल संभावनाएं प्रदर्शित करते हैं, फिर भी RBC विश्लेषण के लिए व्यापक AI समाधान की कमी है। इस पेपर में RedDino प्रस्तावित किया गया है, जो RBC छवि विश्लेषण के लिए विशेष रूप से डिज़ाइन किया गया एक स्व-पर्यवेक्षित आधार मॉडल है। RedDino RBC के लिए विशेषीकृत DINOv2 स्व-पर्यवेक्षित शिक्षण ढांचे का उपयोग करता है, जिसे विभिन्न अधिग्रहण मोड और स्रोतों से 1.25 मिलियन RBC छवियों वाले सावधानीपूर्वक तैयार किए गए डेटासेट पर प्रशिक्षित किया गया है। व्यापक मूल्यांकन से पता चलता है कि RedDino RBC आकार वर्गीकरण कार्य पर मौजूदा अत्याधुनिक मॉडल से काफी बेहतर प्रदर्शन करता है। रैखिक जांच और निकटतम पड़ोसी वर्गीकरण जैसी मूल्यांकन विधियों के माध्यम से, मॉडल की मजबूत विशेषता प्रतिनिधित्व और सामान्यीकरण क्षमता को सत्यापित किया गया है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

लाल रक्त कोशिका आकृतिविज्ञान विश्लेषण रक्त संबंधी निदान की नींव है, लेकिन निम्नलिखित मुख्य चुनौतियों का सामना करता है:

  1. रंगाई और इमेजिंग परिवर्तनशीलता: विभिन्न रंगाई प्रोटोकॉल और इमेजिंग उपकरण पूर्वाग्रह का परिचय देते हैं, जिससे विश्लेषण जटिलता बढ़ती है
  2. बैच प्रभाव: बहु-स्रोत, बहु-रोगी परिदृश्यों में महत्वपूर्ण व्यवस्थित अंतर मौजूद हैं
  3. पेशेवर प्रशिक्षण आवश्यकता: पारंपरिक विश्लेषण को व्यापक पेशेवर प्रशिक्षण की आवश्यकता होती है
  4. विशेष AI उपकरणों की कमी: श्वेत रक्त कोशिका विश्लेषण की तुलना में, लाल रक्त कोशिका विश्लेषण में परिपक्व आधार मॉडल की कमी है

अनुसंधान प्रेरणा

यद्यपि आधार मॉडल श्वेत रक्त कोशिका विश्लेषण में महत्वपूर्ण लाभ प्रदर्शित करते हैं, जो नैदानिक परिणामों की प्रभावी भविष्यवाणी कर सकते हैं और बैच प्रभाव समस्याओं को हल कर सकते हैं, लाल रक्त कोशिका विश्लेषण क्षेत्र में इन उन्नत तकनीकों की संभावनाओं का पूरी तरह से पता नहीं लगाया गया है। यह अनुसंधान इस अंतर को भरने और RBC विश्लेषण के लिए विशेष रूप से आधार मॉडल विकसित करने का लक्ष्य रखता है।

मुख्य योगदान

  1. विशेष आधार मॉडल: RedDino प्रस्तावित किया गया है, जो RBC विश्लेषण के लिए अनुकूलित पहला स्व-पर्यवेक्षित आधार मॉडल परिवार है
  2. गहन विन्यास अनुसंधान: RBC आकृतिविज्ञान मॉडलिंग में DINOv2 के विन्यास का कठोर तुलनात्मक विश्लेषण
  3. व्यापक प्रदर्शन मूल्यांकन: कई RBC डेटासेट पर व्यापक बेंचमार्किंग, जो मौजूदा अत्याधुनिक मॉडल की तुलना में श्रेष्ठता प्रदर्शित करता है
  4. मजबूत सामान्यीकरण क्षमता: बैच प्रभाव की चुनौतियों को प्रभावी ढंग से कम करता है, उत्कृष्ट क्रॉस-डोमेन सामान्यीकरण प्रदर्शन दिखाता है

विधि विवरण

कार्य परिभाषा

RedDino सामान्य RBC विशेषता प्रतिनिधित्व सीखने का लक्ष्य रखता है, जो डाउनस्ट्रीम RBC आकार वर्गीकरण, विसंगति पहचान और आकृतिविज्ञान विश्लेषण कार्यों का समर्थन करता है। इनपुट RBC माइक्रोस्कोप छवियां हैं, आउटपुट उच्च-आयामी विशेषता वेक्टर हैं, जिन्हें विभिन्न RBC विश्लेषण कार्यों के लिए उपयोग किया जा सकता है।

मॉडल आर्किटेक्चर

मूल ढांचा

RedDino DINOv2 स्व-पर्यवेक्षित शिक्षण ढांचे पर निर्मित है, जो Vision Transformer (ViT) को बैकबोन नेटवर्क के रूप में अपनाता है। मॉडल परिवार में तीन संस्करण शामिल हैं:

  • RedDino Small: विशेषता आयाम 384, बैच आकार 512, 22 मिलियन पैरामीटर
  • RedDino Base: विशेषता आयाम 768, बैच आकार 384, 86 मिलियन पैरामीटर
  • RedDino Large: विशेषता आयाम 1024, बैच आकार 256, 304 मिलियन पैरामीटर

मुख्य तकनीकी सुधार

  1. Koleo नियमितकरण को हटाना: मूल DINOv2 विशेषता पतन को रोकने के लिए Koleo नियमितकरण का उपयोग करता है, लेकिन RBC परिदृश्य में, RBC आकार और रंग की प्राकृतिक सामंजस्य के कारण, यह नियमितकरण रोग संबंधी और असामान्य RBC की विशेषता अभिव्यक्ति को अत्यधिक दबा देता है
  2. Sinkhorn-Knopp केंद्रीकरण: चलती औसत केंद्रीकरण को प्रतिस्थापित करता है, प्रतिनिधित्व गुणवत्ता में सुधार करता है
  3. अनुकूलित डेटा वृद्धि: Albumentations लाइब्रेरी के 32 पिक्सेल-स्तरीय वृद्धि के साथ DINOv2 की मूल वृद्धि रणनीति को प्रतिस्थापित करता है

डेटा प्रसंस्करण रणनीति

प्रशिक्षण डेटा निर्माण

  • डेटा पैमाना: 18 डेटासेट से 56,712 मूल छवियां, 420 से अधिक व्यक्तियों को कवर करती हैं
  • डेटा निष्कर्षण: दो विधियों का उपयोग
    1. सुधारे गए CellPose का उपयोग करके कोशिका विभाजन, 3,076,269 विभाजित कोशिकाएं उत्पन्न करता है
    2. 224×224 पिक्सेल की गैर-अतिव्यापी छवि पैच निकालता है, 1,250,781 छवि पैच उत्पन्न करता है
  • डेटा संतुलन: लाल और सफेद रक्त कोशिकाओं के प्राकृतिक असंतुलन को कम करने के लिए, श्वेत रक्त कोशिका छवि डेटासेट को शामिल किया गया

प्रशिक्षण रणनीति अनुकूलन

व्यवस्थित प्रयोगों के माध्यम से पाया गया:

  1. छवि पैच प्रशिक्षण एकल कोशिका प्रशिक्षण से बेहतर है
  2. स्थानीय क्रॉपिंग को हटाने से प्रदर्शन में उल्लेखनीय सुधार होता है
  3. अनुकूलित वृद्धि पाइपलाइन विशेषता गुणवत्ता में और सुधार करता है

प्रायोगिक सेटअप

डेटासेट

प्रशिक्षण डेटा: 18 सार्वजनिक RBC डेटासेट, विभिन्न इमेजिंग मोड, रिज़ॉल्यूशन और रंगाई तकनीकें शामिल हैं परीक्षण डेटा:

  • Elsafty डेटासेट: 240,000 छवियां, 9 श्रेणियां, 4 विभिन्न स्रोतों से
  • Chula डेटासेट: 20,875 छवियां, 12 RBC श्रेणियां
  • DSE डेटासेट: 5,659 छवियां, 8 श्रेणियां

मूल्यांकन मेट्रिक्स

  • सटीकता (Acc)
  • संतुलित सटीकता (bAcc)
  • भारित F1 स्कोर (wF1)

तुलना विधियां

  • ResNet50
  • DINOv2 (Small/Base/Large)
  • DinoBloom (Small/Base/Large) - वर्तमान रक्त विज्ञान डेटा के लिए अत्याधुनिक विशेषता निष्कर्षक

मूल्यांकन विधियां

  1. रैखिक जांच: डाउनस्ट्रीम कार्यों के लिए विशेषताओं की अनुकूलन क्षमता का मूल्यांकन करता है
  2. K निकटतम पड़ोसी वर्गीकरण (1-NN, 20-NN): बैच प्रभाव के तहत विशेषताओं की मजबूती का मूल्यांकन करता है
  3. क्रॉस-स्रोत मूल्यांकन: लीव-वन-आउट स्रोत सत्यापन रणनीति का उपयोग करता है
  4. पांच-गुना क्रॉस सत्यापन: असंतुलित डेटासेट के लिए

प्रायोगिक परिणाम

मुख्य परिणाम

Elsafty डेटासेट क्रॉस-स्रोत मूल्यांकन

सबसे चुनौतीपूर्ण क्रॉस-स्रोत मूल्यांकन में, RedDino ने महत्वपूर्ण लाभ प्राप्त किए:

मॉडलरैखिक जांच wF11-NN wF120-NN wF1
ResNet5077.6±8.164.3±4.866.2±4.9
DinoBloom-L85.4±5.274.1±5.077.0±4.5
DINOv2 large86.0±5.673.7±6.276.4±7.0
RedDino base88.1±4.978.8±3.682.6±2.8
RedDino large88.5±5.578.5±4.681.6±4.7

मुख्य निष्कर्ष:

  • RedDino सर्वश्रेष्ठ आधार विधि की तुलना में 2.1% से अधिक (रैखिक जांच) और 3.0% (निकटतम पड़ोसी वर्गीकरण) में सुधार करता है
  • औसत सुधार 4.0-6.5% तक पहुंचता है, सुसंगत प्रदर्शन लाभ दिखाता है

अन्य डेटासेट प्रदर्शन

Chula और DSE डेटासेट पर पांच-गुना क्रॉस सत्यापन में, RedDino समान रूप से उत्कृष्ट प्रदर्शन करता है, लगभग सभी मेट्रिक्स पर आधार विधियों को पार करता है।

विलोपन प्रयोग

मुख्य विन्यास सुधारों का प्रभाव:

  1. Koleo नियमितकरण को हटाना: प्रदर्शन में उल्लेखनीय सुधार, रोग संबंधी RBC विशेषताओं को अत्यधिक दबाने से बचाता है
  2. Sinkhorn-Knopp केंद्रीकरण: चलती औसत केंद्रीकरण को प्रतिस्थापित करने के बाद प्रदर्शन में और सुधार होता है
  3. छवि पैच बनाम एकल कोशिका प्रशिक्षण: छवि पैच प्रशिक्षण रणनीति एकल कोशिका प्रशिक्षण से बेहतर है
  4. अनुकूलित वृद्धि पाइपलाइन: मूल DINOv2 वृद्धि रणनीति की तुलना में स्पष्ट सुधार

दृश्य विश्लेषण

PCA दृश्य

तीन-घटक PCA दृश्य के माध्यम से RedDino विशेषताओं की प्रभावशीलता को सत्यापित किया गया:

  • पृष्ठभूमि, कोशिका, झिल्ली संरचना और परजीवी को अलग कर सकता है
  • मलेरिया संक्रमण के RBC और棘 कोशिकाओं जैसी असामान्य आकृतिविज्ञान के लिए उत्कृष्ट विभेदन क्षमता प्रदर्शित करता है

UMAP दृश्य

Elsafty डेटासेट के UMAP प्रक्षेपण का उपयोग करके दिखाया गया:

  • विभिन्न श्रेणियां स्पष्ट क्लस्टर बनाती हैं, कोई स्पष्ट बैच प्रभाव नहीं
  • नैदानिक रूप से अलग करने में कठिन श्रेणियां (जैसे गोल RBC, अंडाकार कोशिकाएं) विशेषता स्थान में वास्तव में ओवरलैप करती हैं
  • कोशिका समूह अद्वितीय क्लस्टर बनाते हैं, यह साबित करते हुए कि मॉडल एकल कोशिकाओं और समूहों को अलग कर सकता है

संबंधित कार्य

रक्त विज्ञान AI विश्लेषण की वर्तमान स्थिति

  • श्वेत रक्त कोशिका विश्लेषण: पहले से ही DinoBloom जैसे परिपक्व आधार मॉडल हैं, जो नैदानिक परिणाम पूर्वानुमान में उत्कृष्ट प्रदर्शन करते हैं
  • लाल रक्त कोशिका विश्लेषण: तुलनात्मक रूप से विकास में पिछड़ा हुआ है, विशेष आधार मॉडल की कमी है
  • कंप्यूटर-सहायता प्राप्त निदान: रक्त विज्ञान में प्रमुख निदान चुनौतियों को हल करने के लिए धीरे-धीरे महत्वपूर्ण उपकरण बन रहा है

चिकित्सा इमेजिंग में स्व-पर्यवेक्षित शिक्षण का अनुप्रयोग

DINOv2 जैसी स्व-पर्यवेक्षित विधियां प्राकृतिक छवियों पर विशाल सफलता प्राप्त करती हैं, लेकिन चिकित्सा इमेजिंग, विशेष रूप से RBC विश्लेषण में इनका अनुप्रयोग अभी भी पूरी तरह से अन्वेषित किया जाना बाकी है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

  1. प्रदर्शन सफलता: RedDino RBC वर्गीकरण कार्य पर नई अत्याधुनिक प्रदर्शन प्राप्त करता है
  2. मजबूत सामान्यीकरण क्षमता: बैच प्रभाव को प्रभावी ढंग से कम करता है, क्रॉस-स्रोत परिदृश्यों में उत्कृष्ट प्रदर्शन करता है
  3. उच्च व्यावहारिक मूल्य: स्वचालित रक्त विज्ञान निदान के लिए विश्वसनीय आधार उपकरण प्रदान करता है

सीमाएं

  1. प्रशिक्षण डेटा सीमा: यद्यपि डेटासेट पैमाना बड़ा है, फिर भी कुछ दुर्लभ RBC आकृतिविज्ञान का प्रतिनिधित्व अपर्याप्त हो सकता है
  2. कम्प्यूटेशनल संसाधन आवश्यकता: बड़े मॉडल संस्करणों को उच्च कम्प्यूटेशनल संसाधनों की आवश्यकता होती है
  3. लेबल किए गए डेटा पर निर्भरता: डाउनस्ट्रीम कार्यों को अभी भी सूक्ष्म-ट्यूनिंग के लिए एक निश्चित मात्रा में लेबल किए गए डेटा की आवश्यकता है

भविष्य की दिशाएं

  1. अनुप्रयोग परिदृश्य का विस्तार: अन्य रक्त विज्ञान कार्यों में अनुप्रयोग की खोज करता है
  2. मॉडल संपीड़न: संसाधन-सीमित वातावरण के अनुकूल हल्के संस्करण विकसित करता है
  3. बहु-मोडल संलयन: निदान सटीकता में सुधार के लिए अन्य प्रकार के चिकित्सा डेटा को एकीकृत करता है

गहन मूल्यांकन

शक्तियां

  1. समस्या-केंद्रितता मजबूत: RBC विश्लेषण के इस महत्वपूर्ण लेकिन उपेक्षित क्षेत्र को विशेष रूप से संबोधित करता है
  2. विधि डिजाइन तर्कसंगत: RBC विशेषताओं के अनुसार DINOv2 में लक्षित सुधार किए गए हैं
  3. प्रायोगिक डिजाइन कठोर: क्रॉस-स्रोत सत्यापन जैसी कठोर मूल्यांकन विधियों का उपयोग करता है, परिणाम विश्वसनीयता सुनिश्चित करता है
  4. डेटासेट योगदान बड़ा: अब तक का सबसे बड़ा RBC छवि प्रशिक्षण संग्रह निर्मित किया गया है
  5. ओपन सोर्स अनुकूल: पूर्ण कोड और पूर्व-प्रशिक्षित मॉडल प्रदान करता है

कमियां

  1. सीमित सैद्धांतिक विश्लेषण: Koleo नियमितकरण को हटाने के प्रभावी होने के कारण का सैद्धांतिक व्याख्या पर्याप्त नहीं है
  2. कम्प्यूटेशनल लागत विश्लेषण अपर्याप्त: विभिन्न मॉडल संस्करणों की कम्प्यूटेशनल दक्षता ट्रेड-ऑफ का विस्तृत विश्लेषण नहीं किया गया है
  3. नैदानिक सत्यापन की कमी: वास्तविक नैदानिक वातावरण में सत्यापन परिणामों की कमी है

प्रभाव

  1. शैक्षणिक मूल्य: RBC विश्लेषण क्षेत्र के लिए महत्वपूर्ण आधार उपकरण और बेंचमार्क प्रदान करता है
  2. व्यावहारिक मूल्य: रक्त विज्ञान निदान के स्वचालन स्तर को काफी हद तक बढ़ाने की संभावना रखता है
  3. पुनरुत्पादनशीलता: पूर्ण ओपन सोर्स कार्यान्वयन प्रदान करता है, अनुसंधान समुदाय के उपयोग और सुधार को सुविधाजनक बनाता है

लागू परिदृश्य

  • रक्त रोग विज्ञान निदान सहायता
  • बड़े पैमाने पर रक्त स्क्रीनिंग
  • RBC आकृतिविज्ञान अनुसंधान
  • रक्त विज्ञान शिक्षा प्रशिक्षण उपकरण विकास

तकनीकी नवाचार सारांश

RedDino का मुख्य नवाचार सामान्य स्व-पर्यवेक्षित शिक्षण ढांचे को विशेषज्ञ चिकित्सा क्षेत्र में सफलतापूर्वक अनुकूलित करने में निहित है, अनुपयुक्त नियमितकरण बाधाओं को हटाकर और प्रशिक्षण रणनीति को अनुकूलित करके, महत्वपूर्ण प्रदर्शन सुधार प्राप्त किए गए हैं। यह अन्य चिकित्सा इमेजिंग विश्लेषण कार्यों के आधार मॉडल विकास के लिए मूल्यवान संदर्भ प्रदान करता है।


पर्यावरणीय प्रभाव घोषणा: पेपर ने प्रयोगों के कार्बन उत्सर्जन को 4.15 kg CO2eq के रूप में रिपोर्ट किया है, जो पर्यावरणीय जिम्मेदारी के प्रति ध्यान प्रदर्शित करता है।