Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million RBC images from diverse acquisition modalities and sources. Extensive evaluations show that RedDino outperforms existing state-of-the-art models on RBC shape classification. Through assessments including linear probing and nearest neighbor classification, we confirm its strong feature representations and generalization ability. Our main contributions are: (1) a foundation model tailored for RBC analysis, (2) ablation studies exploring DINOv2 configurations for RBC modeling, and (3) a detailed evaluation of generalization performance. RedDino addresses key challenges in computational hematology by capturing nuanced morphological features, advancing the development of reliable diagnostic tools. The source code and pretrained models for RedDino are available at https://github.com/Snarci/RedDino, and the pretrained models can be downloaded from our Hugging Face collection at https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc
- ID de l'article : 2508.08180
- Titre : RedDino: A foundation model for red blood cell analysis
- Auteurs : Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr
- Classification : eess.IV cs.AI cs.CV
- Date de publication : 22 août 2025 (arXiv v2)
- Lien de l'article : https://arxiv.org/abs/2508.08180
Les globules rouges (GR) sont essentiels à la santé humaine, et l'analyse morphologique précise est cruciale pour le diagnostic des maladies hématologiques. Bien que les modèles fondateurs aient démontré un potentiel considérable dans le diagnostic médical, les solutions IA complètes pour l'analyse des GR restent rares. Cet article propose RedDino, un modèle fondateur auto-supervisé spécialement conçu pour l'analyse d'images de globules rouges. RedDino utilise le cadre d'apprentissage auto-supervisé DINOv2 adapté aux GR, entraîné sur un ensemble de données soigneusement curé contenant 1,25 million d'images de GR provenant de différents modes d'acquisition et sources. L'évaluation approfondie démontre que RedDino surpasse significativement les modèles de pointe existants dans les tâches de classification de la forme des GR. La robustesse des représentations de caractéristiques et la capacité de généralisation du modèle sont validées par des méthodes d'évaluation telles que le sondage linéaire et la classification par plus proches voisins.
L'analyse morphologique des globules rouges est fondamentale pour le diagnostic hématologique, mais elle fait face aux défis clés suivants :
- Variabilité de la coloration et de l'imagerie : Les différents protocoles de coloration et équipements d'imagerie introduisent des biais, augmentant la complexité de l'analyse
- Effets de lot : Présence de différences systématiques significatives dans les scénarios multi-sources et multi-patients
- Besoin de formation professionnelle : L'analyse traditionnelle nécessite une formation professionnelle considérable
- Absence d'outils IA spécialisés : Comparée à l'analyse des globules blancs, l'analyse des globules rouges manque de modèles fondateurs matures
Bien que les modèles fondateurs aient démontré des avantages significatifs dans l'analyse des globules blancs, capable de prédire efficacement les résultats cliniques et de résoudre les problèmes d'effets de lot, le potentiel de ces techniques avancées n'a pas été pleinement exploré dans le domaine de l'analyse des globules rouges. Cette recherche vise à combler cette lacune en développant un modèle fondateur spécialisé pour l'analyse des GR.
- Modèle fondateur spécialisé : Proposition de RedDino, première famille de modèles fondateurs auto-supervisés optimisée pour l'analyse des GR
- Étude approfondie des configurations : Analyse comparative rigoureuse des configurations de DINOv2 dans la modélisation morphologique des GR
- Évaluation complète des performances : Benchmarking extensif sur plusieurs ensembles de données de GR, démontrant la supériorité par rapport aux modèles de pointe existants
- Capacité de généralisation robuste : Atténuation efficace des défis posés par les effets de lot, démontrant d'excellentes performances de généralisation inter-domaines
RedDino vise à apprendre des représentations de caractéristiques universelles des GR, soutenant les tâches en aval de classification de la forme des GR, de détection d'anomalies et d'analyse morphologique. L'entrée est une image de microscope de GR, et la sortie est un vecteur de caractéristiques de haute dimension utilisable pour diverses tâches d'analyse des GR.
RedDino est construit sur le cadre d'apprentissage auto-supervisé DINOv2, utilisant Vision Transformer (ViT) comme réseau de base. La famille de modèles comprend trois versions :
- RedDino Small : Dimension des caractéristiques 384, taille de lot 512, 22 millions de paramètres
- RedDino Base : Dimension des caractéristiques 768, taille de lot 384, 86 millions de paramètres
- RedDino Large : Dimension des caractéristiques 1024, taille de lot 256, 304 millions de paramètres
- Suppression du régularisateur Koleo : Le DINOv2 original utilise la régularisation Koleo pour prévenir l'effondrement des caractéristiques, mais dans le contexte des GR, en raison de la cohérence naturelle de la forme et de la couleur des GR, ce régularisateur supprime excessivement l'expression des caractéristiques des GR pathologiques et anormaux
- Centralisation Sinkhorn-Knopp : Remplacement de la centralisation par moyenne mobile, améliorant la qualité de la représentation
- Augmentation de données personnalisée : Remplacement de la stratégie d'augmentation originale de DINOv2 par 32 augmentations au niveau des pixels de la bibliothèque Albumentations
- Échelle des données : 56 712 images brutes provenant de 18 ensembles de données, couvrant plus de 420 individus
- Extraction de données : Deux méthodes employées
- Segmentation cellulaire utilisant CellPose amélioré, produisant 3 076 269 cellules segmentées
- Extraction de blocs d'images non chevauchants de 224×224 pixels, générant 1 250 781 blocs d'images
- Équilibrage des données : Pour atténuer le déséquilibre naturel entre globules rouges et blancs, des ensembles de données d'images de globules blancs ont été incorporés
Les expériences systématiques ont révélé :
- L'entraînement sur des blocs d'images est plus efficace que l'entraînement sur des cellules individuelles
- La suppression des cultures locales améliore significativement les performances
- Le pipeline d'augmentation personnalisé améliore davantage la qualité des caractéristiques
Données d'entraînement : 18 ensembles de données publics de GR, incluant différents modes d'imagerie, résolutions et techniques de coloration
Données de test :
- Ensemble de données Elsafty : 240 000 images, 9 classes, provenant de 4 sources différentes
- Ensemble de données Chula : 20 875 images, 12 classes de GR
- Ensemble de données DSE : 5 659 images, 8 classes
- Précision (Acc)
- Précision équilibrée (bAcc)
- Score F1 pondéré (wF1)
- ResNet50
- DINOv2 (Small/Base/Large)
- DinoBloom (Small/Base/Large) - Extracteur de caractéristiques de pointe actuel pour les données hématologiques
- Sondage linéaire : Évaluation de la capacité des caractéristiques à s'adapter aux tâches en aval
- Classification par K plus proches voisins (1-NN, 20-NN) : Évaluation de la robustesse des caractéristiques face aux effets de lot
- Évaluation inter-sources : Utilisation de la stratégie de validation en laissant une source de côté
- Validation croisée à cinq plis : Pour les ensembles de données déséquilibrés
Dans l'évaluation inter-sources la plus exigeante, RedDino obtient des avantages significatifs :
| Modèle | Sondage linéaire wF1 | 1-NN wF1 | 20-NN wF1 |
|---|
| ResNet50 | 77.6±8.1 | 64.3±4.8 | 66.2±4.9 |
| DinoBloom-L | 85.4±5.2 | 74.1±5.0 | 77.0±4.5 |
| DINOv2 large | 86.0±5.6 | 73.7±6.2 | 76.4±7.0 |
| RedDino base | 88.1±4.9 | 78.8±3.6 | 82.6±2.8 |
| RedDino large | 88.5±5.5 | 78.5±4.6 | 81.6±4.7 |
Résultats clés :
- RedDino surpasse la meilleure méthode de base de plus de 2,1 % (sondage linéaire) et 3,0 % (classification par voisinage)
- L'amélioration moyenne atteint 4,0-6,5 %, démontrant un avantage de performance cohérent
Dans la validation croisée à cinq plis sur les ensembles de données Chula et DSE, RedDino affiche également d'excellentes performances, surpassant les méthodes de base sur presque toutes les métriques.
Impact des améliorations de configuration clés :
- Suppression du régularisateur Koleo : Amélioration significative des performances, évitant que les caractéristiques des GR pathologiques ne soient excessivement supprimées
- Centralisation Sinkhorn-Knopp : Les performances s'améliorent davantage après remplacement de la centralisation par moyenne mobile
- Blocs d'images vs entraînement sur cellules individuelles : La stratégie d'entraînement sur blocs d'images surpasse l'entraînement sur cellules individuelles
- Pipeline d'augmentation personnalisé : Amélioration évidente par rapport à la stratégie d'augmentation originale de DINOv2
Validation de l'efficacité des caractéristiques de RedDino par visualisation PCA à trois composantes :
- Capacité à distinguer le fond, les cellules, les structures membranaires et les parasites
- Excellente capacité de discrimination pour les morphologies anormales telles que les GR infectés par le paludisme et les cellules épineuses
La projection UMAP utilisant l'ensemble de données Elsafty montre :
- Les différentes classes forment des grappes claires sans effets de lot évidents
- Les classes cliniquement difficiles à distinguer (comme les GR circulaires, les elliptocytes, etc.) se chevauchent effectivement dans l'espace des caractéristiques
- Les agrégats cellulaires forment des grappes uniques, prouvant que le modèle peut distinguer les cellules individuelles des agrégats
- Analyse des globules blancs : Modèles fondateurs matures tels que DinoBloom, démontrant d'excellentes performances dans la prédiction des résultats cliniques
- Analyse des globules rouges : Développement relativement en retard, manquant de modèles fondateurs spécialisés
- Diagnostic assisté par ordinateur : Devenant progressivement un outil important pour résoudre les défis diagnostiques critiques en hématologie
Les méthodes auto-supervisées telles que DINOv2 ont obtenu un succès considérable sur les images naturelles, mais leur application en imagerie médicale, en particulier dans l'analyse des GR, reste à explorer pleinement.
- Percée de performance : RedDino réalise une nouvelle performance de pointe dans les tâches de classification des GR
- Capacité de généralisation forte : Atténuation efficace des effets de lot, excellentes performances dans les scénarios inter-sources
- Valeur pratique élevée : Fournit un outil fondateur fiable pour le diagnostic hématologique automatisé
- Limitations des données d'entraînement : Bien que l'ensemble de données soit de grande taille, il peut y avoir une représentation insuffisante de certaines morphologies rares de GR
- Exigences en ressources informatiques : Les versions de grands modèles nécessitent des ressources informatiques considérables
- Dépendance aux données annotées : Les tâches en aval nécessitent toujours une certaine quantité de données annotées pour l'ajustement fin
- Extension des scénarios d'application : Exploration des applications dans d'autres tâches hématologiques
- Compression de modèle : Développement de versions plus légères pour les environnements aux ressources limitées
- Fusion multimodale : Combinaison d'autres types de données médicales pour améliorer la précision diagnostique
- Forte pertinence du problème : Aborde spécifiquement ce domaine important mais négligé de l'analyse des GR
- Conception méthodologique rationnelle : Améliorations ciblées de DINOv2 adaptées aux caractéristiques des GR
- Conception expérimentale rigoureuse : Utilisation de méthodes d'évaluation strictes telles que la validation inter-sources, garantissant la fiabilité des résultats
- Contribution importante aux ensembles de données : Construction du plus grand ensemble d'entraînement d'images de GR à ce jour
- Convivialité open-source : Fourniture de code complet et de modèles pré-entraînés
- Analyse théorique limitée : Explication théorique insuffisante de l'efficacité de la suppression du régularisateur Koleo
- Analyse insuffisante des coûts informatiques : Manque d'analyse détaillée des compromis d'efficacité informatique entre les différentes versions de modèles
- Absence de validation clinique : Manque de résultats de validation en environnement clinique réel
- Valeur académique : Fournit un outil fondateur important et une référence pour le domaine de l'analyse des GR
- Valeur pratique : Potentiel pour améliorer significativement le niveau d'automatisation du diagnostic hématologique
- Reproductibilité : Implémentation open-source complète, facilitant l'utilisation et l'amélioration par la communauté de recherche
- Diagnostic de pathologie hématologique assisté
- Dépistage sanguin à grande échelle
- Recherche en morphologie des GR
- Développement d'outils de formation en hématologie
L'innovation centrale de RedDino réside dans l'adaptation réussie d'un cadre d'apprentissage auto-supervisé générique à un domaine médical spécialisé, réalisant une amélioration significative des performances en supprimant les contraintes de régularisation inadaptées et en optimisant les stratégies d'entraînement. Ceci fournit une référence précieuse pour le développement de modèles fondateurs pour d'autres tâches d'analyse d'imagerie médicale.
Déclaration d'impact environnemental : L'article rapporte que les émissions de carbone des expériences s'élèvent à 4,15 kg CO2eq, reflétant une attention à la responsabilité environnementale.