2025-11-13T11:58:11.146801

RedDino: A foundation model for red blood cell analysis

Zedda, Loddo, Di Ruberto et al.

Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million RBC images from diverse acquisition modalities and sources. Extensive evaluations show that RedDino outperforms existing state-of-the-art models on RBC shape classification. Through assessments including linear probing and nearest neighbor classification, we confirm its strong feature representations and generalization ability. Our main contributions are: (1) a foundation model tailored for RBC analysis, (2) ablation studies exploring DINOv2 configurations for RBC modeling, and (3) a detailed evaluation of generalization performance. RedDino addresses key challenges in computational hematology by capturing nuanced morphological features, advancing the development of reliable diagnostic tools. The source code and pretrained models for RedDino are available at https://github.com/Snarci/RedDino, and the pretrained models can be downloaded from our Hugging Face collection at https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc

academic

RedDino : Un modèle fondateur pour l'analyse des globules rouges

Informations de base

ID de l'article : 2508.08180
Titre : RedDino: A foundation model for red blood cell analysis
Auteurs : Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr
Classification : eess.IV cs.AI cs.CV
Date de publication : 22 août 2025 (arXiv v2)
Lien de l'article : https://arxiv.org/abs/2508.08180

Résumé

Les globules rouges (GR) sont essentiels à la santé humaine, et l'analyse morphologique précise est cruciale pour le diagnostic des maladies hématologiques. Bien que les modèles fondateurs aient démontré un potentiel considérable dans le diagnostic médical, les solutions IA complètes pour l'analyse des GR restent rares. Cet article propose RedDino, un modèle fondateur auto-supervisé spécialement conçu pour l'analyse d'images de globules rouges. RedDino utilise le cadre d'apprentissage auto-supervisé DINOv2 adapté aux GR, entraîné sur un ensemble de données soigneusement curé contenant 1,25 million d'images de GR provenant de différents modes d'acquisition et sources. L'évaluation approfondie démontre que RedDino surpasse significativement les modèles de pointe existants dans les tâches de classification de la forme des GR. La robustesse des représentations de caractéristiques et la capacité de généralisation du modèle sont validées par des méthodes d'évaluation telles que le sondage linéaire et la classification par plus proches voisins.

Contexte de recherche et motivation

Définition du problème

L'analyse morphologique des globules rouges est fondamentale pour le diagnostic hématologique, mais elle fait face aux défis clés suivants :

Variabilité de la coloration et de l'imagerie : Les différents protocoles de coloration et équipements d'imagerie introduisent des biais, augmentant la complexité de l'analyse
Effets de lot : Présence de différences systématiques significatives dans les scénarios multi-sources et multi-patients
Besoin de formation professionnelle : L'analyse traditionnelle nécessite une formation professionnelle considérable
Absence d'outils IA spécialisés : Comparée à l'analyse des globules blancs, l'analyse des globules rouges manque de modèles fondateurs matures

Motivation de la recherche

Bien que les modèles fondateurs aient démontré des avantages significatifs dans l'analyse des globules blancs, capable de prédire efficacement les résultats cliniques et de résoudre les problèmes d'effets de lot, le potentiel de ces techniques avancées n'a pas été pleinement exploré dans le domaine de l'analyse des globules rouges. Cette recherche vise à combler cette lacune en développant un modèle fondateur spécialisé pour l'analyse des GR.

Contributions principales

Modèle fondateur spécialisé : Proposition de RedDino, première famille de modèles fondateurs auto-supervisés optimisée pour l'analyse des GR
Étude approfondie des configurations : Analyse comparative rigoureuse des configurations de DINOv2 dans la modélisation morphologique des GR
Évaluation complète des performances : Benchmarking extensif sur plusieurs ensembles de données de GR, démontrant la supériorité par rapport aux modèles de pointe existants
Capacité de généralisation robuste : Atténuation efficace des défis posés par les effets de lot, démontrant d'excellentes performances de généralisation inter-domaines

Détails de la méthode

Définition de la tâche

RedDino vise à apprendre des représentations de caractéristiques universelles des GR, soutenant les tâches en aval de classification de la forme des GR, de détection d'anomalies et d'analyse morphologique. L'entrée est une image de microscope de GR, et la sortie est un vecteur de caractéristiques de haute dimension utilisable pour diverses tâches d'analyse des GR.

Architecture du modèle

Cadre de base

RedDino est construit sur le cadre d'apprentissage auto-supervisé DINOv2, utilisant Vision Transformer (ViT) comme réseau de base. La famille de modèles comprend trois versions :

RedDino Small : Dimension des caractéristiques 384, taille de lot 512, 22 millions de paramètres
RedDino Base : Dimension des caractéristiques 768, taille de lot 384, 86 millions de paramètres
RedDino Large : Dimension des caractéristiques 1024, taille de lot 256, 304 millions de paramètres

Améliorations techniques clés

Suppression du régularisateur Koleo : Le DINOv2 original utilise la régularisation Koleo pour prévenir l'effondrement des caractéristiques, mais dans le contexte des GR, en raison de la cohérence naturelle de la forme et de la couleur des GR, ce régularisateur supprime excessivement l'expression des caractéristiques des GR pathologiques et anormaux
Centralisation Sinkhorn-Knopp : Remplacement de la centralisation par moyenne mobile, améliorant la qualité de la représentation
Augmentation de données personnalisée : Remplacement de la stratégie d'augmentation originale de DINOv2 par 32 augmentations au niveau des pixels de la bibliothèque Albumentations

Stratégie de traitement des données

Construction des données d'entraînement

Échelle des données : 56 712 images brutes provenant de 18 ensembles de données, couvrant plus de 420 individus
Extraction de données : Deux méthodes employées
1. Segmentation cellulaire utilisant CellPose amélioré, produisant 3 076 269 cellules segmentées
2. Extraction de blocs d'images non chevauchants de 224×224 pixels, générant 1 250 781 blocs d'images
Équilibrage des données : Pour atténuer le déséquilibre naturel entre globules rouges et blancs, des ensembles de données d'images de globules blancs ont été incorporés

Optimisation de la stratégie d'entraînement

Les expériences systématiques ont révélé :

L'entraînement sur des blocs d'images est plus efficace que l'entraînement sur des cellules individuelles
La suppression des cultures locales améliore significativement les performances
Le pipeline d'augmentation personnalisé améliore davantage la qualité des caractéristiques

Configuration expérimentale

Ensembles de données

Données d'entraînement : 18 ensembles de données publics de GR, incluant différents modes d'imagerie, résolutions et techniques de coloration Données de test :

Ensemble de données Elsafty : 240 000 images, 9 classes, provenant de 4 sources différentes
Ensemble de données Chula : 20 875 images, 12 classes de GR
Ensemble de données DSE : 5 659 images, 8 classes

Métriques d'évaluation

Précision (Acc)
Précision équilibrée (bAcc)
Score F1 pondéré (wF1)

Méthodes de comparaison

ResNet50
DINOv2 (Small/Base/Large)
DinoBloom (Small/Base/Large) - Extracteur de caractéristiques de pointe actuel pour les données hématologiques

Méthodes d'évaluation

Sondage linéaire : Évaluation de la capacité des caractéristiques à s'adapter aux tâches en aval
Classification par K plus proches voisins (1-NN, 20-NN) : Évaluation de la robustesse des caractéristiques face aux effets de lot
Évaluation inter-sources : Utilisation de la stratégie de validation en laissant une source de côté
Validation croisée à cinq plis : Pour les ensembles de données déséquilibrés

Résultats expérimentaux

Résultats principaux

Évaluation inter-sources sur l'ensemble de données Elsafty

Dans l'évaluation inter-sources la plus exigeante, RedDino obtient des avantages significatifs :

Modèle	Sondage linéaire wF1	1-NN wF1	20-NN wF1
ResNet50	77.6±8.1	64.3±4.8	66.2±4.9
DinoBloom-L	85.4±5.2	74.1±5.0	77.0±4.5
DINOv2 large	86.0±5.6	73.7±6.2	76.4±7.0
RedDino base	88.1±4.9	78.8±3.6	82.6±2.8
RedDino large	88.5±5.5	78.5±4.6	81.6±4.7

Résultats clés :

RedDino surpasse la meilleure méthode de base de plus de 2,1 % (sondage linéaire) et 3,0 % (classification par voisinage)
L'amélioration moyenne atteint 4,0-6,5 %, démontrant un avantage de performance cohérent

Performance sur d'autres ensembles de données

Dans la validation croisée à cinq plis sur les ensembles de données Chula et DSE, RedDino affiche également d'excellentes performances, surpassant les méthodes de base sur presque toutes les métriques.

Études d'ablation

Impact des améliorations de configuration clés :

Suppression du régularisateur Koleo : Amélioration significative des performances, évitant que les caractéristiques des GR pathologiques ne soient excessivement supprimées
Centralisation Sinkhorn-Knopp : Les performances s'améliorent davantage après remplacement de la centralisation par moyenne mobile
Blocs d'images vs entraînement sur cellules individuelles : La stratégie d'entraînement sur blocs d'images surpasse l'entraînement sur cellules individuelles
Pipeline d'augmentation personnalisé : Amélioration évidente par rapport à la stratégie d'augmentation originale de DINOv2

Analyse de visualisation

Visualisation PCA

Validation de l'efficacité des caractéristiques de RedDino par visualisation PCA à trois composantes :

Capacité à distinguer le fond, les cellules, les structures membranaires et les parasites
Excellente capacité de discrimination pour les morphologies anormales telles que les GR infectés par le paludisme et les cellules épineuses

Visualisation UMAP

La projection UMAP utilisant l'ensemble de données Elsafty montre :

Les différentes classes forment des grappes claires sans effets de lot évidents
Les classes cliniquement difficiles à distinguer (comme les GR circulaires, les elliptocytes, etc.) se chevauchent effectivement dans l'espace des caractéristiques
Les agrégats cellulaires forment des grappes uniques, prouvant que le modèle peut distinguer les cellules individuelles des agrégats

Travaux connexes

État actuel de l'analyse IA en hématologie

Analyse des globules blancs : Modèles fondateurs matures tels que DinoBloom, démontrant d'excellentes performances dans la prédiction des résultats cliniques
Analyse des globules rouges : Développement relativement en retard, manquant de modèles fondateurs spécialisés
Diagnostic assisté par ordinateur : Devenant progressivement un outil important pour résoudre les défis diagnostiques critiques en hématologie

Application de l'apprentissage auto-supervisé en imagerie médicale

Les méthodes auto-supervisées telles que DINOv2 ont obtenu un succès considérable sur les images naturelles, mais leur application en imagerie médicale, en particulier dans l'analyse des GR, reste à explorer pleinement.

Conclusion et discussion

Conclusions principales

Percée de performance : RedDino réalise une nouvelle performance de pointe dans les tâches de classification des GR
Capacité de généralisation forte : Atténuation efficace des effets de lot, excellentes performances dans les scénarios inter-sources
Valeur pratique élevée : Fournit un outil fondateur fiable pour le diagnostic hématologique automatisé

Limitations

Limitations des données d'entraînement : Bien que l'ensemble de données soit de grande taille, il peut y avoir une représentation insuffisante de certaines morphologies rares de GR
Exigences en ressources informatiques : Les versions de grands modèles nécessitent des ressources informatiques considérables
Dépendance aux données annotées : Les tâches en aval nécessitent toujours une certaine quantité de données annotées pour l'ajustement fin

Directions futures

Extension des scénarios d'application : Exploration des applications dans d'autres tâches hématologiques
Compression de modèle : Développement de versions plus légères pour les environnements aux ressources limitées
Fusion multimodale : Combinaison d'autres types de données médicales pour améliorer la précision diagnostique

Évaluation approfondie

Points forts

Forte pertinence du problème : Aborde spécifiquement ce domaine important mais négligé de l'analyse des GR
Conception méthodologique rationnelle : Améliorations ciblées de DINOv2 adaptées aux caractéristiques des GR
Conception expérimentale rigoureuse : Utilisation de méthodes d'évaluation strictes telles que la validation inter-sources, garantissant la fiabilité des résultats
Contribution importante aux ensembles de données : Construction du plus grand ensemble d'entraînement d'images de GR à ce jour
Convivialité open-source : Fourniture de code complet et de modèles pré-entraînés

Insuffisances

Analyse théorique limitée : Explication théorique insuffisante de l'efficacité de la suppression du régularisateur Koleo
Analyse insuffisante des coûts informatiques : Manque d'analyse détaillée des compromis d'efficacité informatique entre les différentes versions de modèles
Absence de validation clinique : Manque de résultats de validation en environnement clinique réel

Impact

Valeur académique : Fournit un outil fondateur important et une référence pour le domaine de l'analyse des GR
Valeur pratique : Potentiel pour améliorer significativement le niveau d'automatisation du diagnostic hématologique
Reproductibilité : Implémentation open-source complète, facilitant l'utilisation et l'amélioration par la communauté de recherche

Scénarios applicables

Diagnostic de pathologie hématologique assisté
Dépistage sanguin à grande échelle
Recherche en morphologie des GR
Développement d'outils de formation en hématologie

Résumé de l'innovation technique

L'innovation centrale de RedDino réside dans l'adaptation réussie d'un cadre d'apprentissage auto-supervisé générique à un domaine médical spécialisé, réalisant une amélioration significative des performances en supprimant les contraintes de régularisation inadaptées et en optimisant les stratégies d'entraînement. Ceci fournit une référence précieuse pour le développement de modèles fondateurs pour d'autres tâches d'analyse d'imagerie médicale.

Déclaration d'impact environnemental : L'article rapporte que les émissions de carbone des expériences s'élèvent à 4,15 kg CO2eq, reflétant une attention à la responsabilité environnementale.