2025-11-13T11:58:11.146801

RedDino: A foundation model for red blood cell analysis

Zedda, Loddo, Di Ruberto et al.

Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million RBC images from diverse acquisition modalities and sources. Extensive evaluations show that RedDino outperforms existing state-of-the-art models on RBC shape classification. Through assessments including linear probing and nearest neighbor classification, we confirm its strong feature representations and generalization ability. Our main contributions are: (1) a foundation model tailored for RBC analysis, (2) ablation studies exploring DINOv2 configurations for RBC modeling, and (3) a detailed evaluation of generalization performance. RedDino addresses key challenges in computational hematology by capturing nuanced morphological features, advancing the development of reliable diagnostic tools. The source code and pretrained models for RedDino are available at https://github.com/Snarci/RedDino, and the pretrained models can be downloaded from our Hugging Face collection at https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc

academic

RedDino: Un modelo fundacional para el análisis de glóbulos rojos

Información Básica

ID del Artículo: 2508.08180
Título: RedDino: A foundation model for red blood cell analysis
Autores: Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr
Clasificación: eess.IV cs.AI cs.CV
Fecha de Publicación: 22 de agosto de 2025 (arXiv v2)
Enlace del Artículo: https://arxiv.org/abs/2508.08180

Resumen

Los glóbulos rojos (GR) son fundamentales para la salud humana, y el análisis morfológico preciso es esencial para el diagnóstico de enfermedades hematológicas. Aunque los modelos fundacionales han demostrado un potencial considerable en el diagnóstico médico, aún existe una escasez de soluciones integrales de IA para el análisis de GR. Este artículo propone RedDino, un modelo fundacional autosupervisado diseñado específicamente para el análisis de imágenes de GR. RedDino adopta el marco de aprendizaje autosupervisado DINOv2 especializado para GR, entrenado en un conjunto de datos cuidadosamente curado que contiene 1.25 millones de imágenes de GR de diferentes modalidades de adquisición y fuentes. La evaluación exhaustiva demuestra que RedDino supera significativamente los modelos de última generación existentes en tareas de clasificación de formas de GR. A través de métodos de evaluación como sondeo lineal y clasificación de vecinos más cercanos, se valida la representación de características robusta y la capacidad de generalización del modelo.

Contexto de Investigación y Motivación

Definición del Problema

El análisis morfológico de glóbulos rojos es fundamental en el diagnóstico hematológico, pero enfrenta los siguientes desafíos clave:

Variabilidad en tinción e imagen: Diferentes protocolos de tinción y equipos de imagen introducen sesgos que aumentan la complejidad del análisis
Efectos de lote: Existen diferencias sistemáticas significativas en escenarios multiuente y multipaciente
Requisitos de capacitación profesional: El análisis tradicional requiere una capacitación profesional extensiva
Falta de herramientas de IA especializadas: En comparación con el análisis de glóbulos blancos, el análisis de GR carece de modelos fundacionales maduros

Motivación de la Investigación

Aunque los modelos fundacionales han demostrado ventajas significativas en el análisis de glóbulos blancos, siendo capaces de predecir efectivamente resultados clínicos y resolver problemas de efectos de lote, el potencial de estas técnicas avanzadas aún no ha sido completamente explorado en el análisis de glóbulos rojos. Esta investigación tiene como objetivo llenar esta brecha desarrollando un modelo fundacional especializado para el análisis de GR.

Contribuciones Principales

Modelo fundacional especializado: Propone RedDino, la primera familia de modelos fundacionales autosupervisados optimizados específicamente para el análisis de GR
Investigación profunda de configuración: Análisis comparativo riguroso de las configuraciones de DINOv2 en el modelado morfológico de GR
Evaluación de rendimiento integral: Evaluación comparativa exhaustiva en múltiples conjuntos de datos de GR, demostrando superioridad sobre los modelos de última generación existentes
Capacidad de generalización robusta: Mitiga efectivamente los desafíos de los efectos de lote, demostrando un rendimiento de generalización entre dominios excepcional

Explicación Detallada de Métodos

Definición de Tareas

RedDino tiene como objetivo aprender representaciones de características genéricas de GR que respalden tareas posteriores de clasificación de formas de GR, detección de anomalías y análisis morfológico. La entrada es una imagen microscópica de GR, y la salida es un vector de características de alta dimensión que puede utilizarse para diversas tareas de análisis de GR.

Arquitectura del Modelo

Marco Base

RedDino se construye sobre el marco de aprendizaje autosupervisado DINOv2, utilizando Vision Transformer (ViT) como red troncal. La familia de modelos incluye tres versiones:

RedDino Small: Dimensión de características 384, tamaño de lote 512, 22 millones de parámetros
RedDino Base: Dimensión de características 768, tamaño de lote 384, 86 millones de parámetros
RedDino Large: Dimensión de características 1024, tamaño de lote 256, 304 millones de parámetros

Mejoras Técnicas Clave

Eliminación del regularizador Koleo: El DINOv2 original utiliza regularización Koleo para prevenir el colapso de características, pero en escenarios de GR, debido a la consistencia natural en forma y color de los GR, este regularizador suprime excesivamente la expresión de características de GR patológicos y anormales
Centralización Sinkhorn-Knopp: Reemplaza la centralización de media móvil, mejorando la calidad de la representación
Aumento de datos personalizado: Reemplaza la estrategia de aumento original de DINOv2 con 32 aumentos a nivel de píxeles de la biblioteca Albumentations

Estrategia de Procesamiento de Datos

Construcción de Datos de Entrenamiento

Escala de datos: 56,712 imágenes originales de 18 conjuntos de datos, cubriendo más de 420 individuos
Extracción de datos: Se emplean dos métodos
1. Segmentación celular utilizando CellPose mejorado, produciendo 3,076,269 células segmentadas
2. Extracción de parches de imagen no superpuestos de 224×224 píxeles, generando 1,250,781 parches de imagen
Equilibrio de datos: Para mitigar el desequilibrio natural entre glóbulos rojos y blancos, se incorporan conjuntos de datos de imágenes de glóbulos blancos

Optimización de Estrategia de Entrenamiento

A través de experimentos sistemáticos se descubrió que:

El entrenamiento con parches de imagen es más efectivo que el entrenamiento con células individuales
La eliminación de recortes locales mejora significativamente el rendimiento
La canalización de aumento personalizado mejora aún más la calidad de las características

Configuración Experimental

Conjuntos de Datos

Datos de entrenamiento: 18 conjuntos de datos públicos de GR, que incluyen diferentes modalidades de imagen, resoluciones y técnicas de tinción Datos de prueba:

Conjunto de datos Elsafty: 240,000 imágenes, 9 clases, de 4 fuentes diferentes
Conjunto de datos Chula: 20,875 imágenes, 12 clases de GR
Conjunto de datos DSE: 5,659 imágenes, 8 clases

Métricas de Evaluación

Precisión (Acc)
Precisión Equilibrada (bAcc)
Puntuación F1 Ponderada (wF1)

Métodos de Comparación

ResNet50
DINOv2 (Small/Base/Large)
DinoBloom (Small/Base/Large) - Extractor de características de última generación para datos hematológicos

Métodos de Evaluación

Sondeo lineal: Evalúa la capacidad de las características para adaptarse a tareas posteriores
Clasificación K-vecinos más cercanos (1-NN, 20-NN): Evalúa la robustez de las características bajo efectos de lote
Evaluación entre fuentes: Utiliza estrategia de validación dejando una fuente fuera
Validación cruzada de cinco pliegues: Para conjuntos de datos desequilibrados

Resultados Experimentales

Resultados Principales

Evaluación Entre Fuentes del Conjunto de Datos Elsafty

En la evaluación entre fuentes más desafiante, RedDino logra ventajas significativas:

Modelo	Sondeo Lineal wF1	1-NN wF1	20-NN wF1
ResNet50	77.6±8.1	64.3±4.8	66.2±4.9
DinoBloom-L	85.4±5.2	74.1±5.0	77.0±4.5
DINOv2 large	86.0±5.6	73.7±6.2	76.4±7.0
RedDino base	88.1±4.9	78.8±3.6	82.6±2.8
RedDino large	88.5±5.5	78.5±4.6	81.6±4.7

Hallazgos Clave:

RedDino supera el mejor método de referencia en más del 2.1% (sondeo lineal) y 3.0% (clasificación de vecinos)
La mejora promedio alcanza 4.0-6.5%, demostrando una ventaja de rendimiento consistente

Rendimiento en Otros Conjuntos de Datos

En validación cruzada de cinco pliegues en los conjuntos de datos Chula y DSE, RedDino también muestra un rendimiento excelente, superando los métodos de referencia en casi todas las métricas.

Experimentos de Ablación

Impacto de las mejoras clave de configuración:

Eliminación del regularizador Koleo: Mejora significativamente el rendimiento, evitando que las características de GR patológicos sean excesivamente suprimidas
Centralización Sinkhorn-Knopp: El rendimiento mejora aún más después de reemplazar la centralización de media móvil
Parches de imagen vs. entrenamiento de células individuales: La estrategia de entrenamiento con parches de imagen supera al entrenamiento con células individuales
Canalización de aumento personalizado: Mejora clara en comparación con la estrategia de aumento original de DINOv2

Análisis de Visualización

Visualización PCA

La visualización PCA de tres componentes valida la efectividad de las características de RedDino:

Puede distinguir entre fondo, células, estructuras de membrana y parásitos
Demuestra una capacidad excepcional para diferenciar GR infectados por malaria y células espiculadas y otras morfologías anormales

Visualización UMAP

La proyección UMAP utilizando el conjunto de datos Elsafty muestra:

Diferentes clases forman agrupamientos claros sin efectos de lote evidentes
Las clases clínicamente difíciles de distinguir (como GR esféricos, eliptocitos, etc.) se superponen efectivamente en el espacio de características
Los aglomerados celulares forman agrupamientos únicos, demostrando que el modelo puede distinguir entre células individuales y agregados

Trabajo Relacionado

Estado Actual del Análisis de IA en Hematología

Análisis de glóbulos blancos: Ya existen modelos fundacionales maduros como DinoBloom, que muestran un rendimiento excelente en la predicción de resultados clínicos
Análisis de glóbulos rojos: Comparativamente rezagado en desarrollo, carece de modelos fundacionales especializados
Diagnóstico asistido por computadora: Se está convirtiendo gradualmente en una herramienta importante para resolver desafíos diagnósticos críticos en hematología

Aplicación del Aprendizaje Autosupervisado en Imágenes Médicas

Métodos autosupervisados como DINOv2 han logrado un éxito considerable en imágenes naturales, pero su aplicación en imágenes médicas, particularmente en análisis de GR, aún requiere exploración exhaustiva.

Conclusiones y Discusión

Conclusiones Principales

Avance en rendimiento: RedDino logra un rendimiento de última generación en tareas de clasificación de GR
Capacidad de generalización fuerte: Mitiga efectivamente los efectos de lote, mostrando un rendimiento excepcional en escenarios entre fuentes
Alto valor práctico: Proporciona una herramienta fundacional confiable para el diagnóstico hematológico automatizado

Limitaciones

Limitaciones de datos de entrenamiento: Aunque el conjunto de datos es relativamente grande, puede haber representación insuficiente de algunas morfologías raras de GR
Requisitos de recursos computacionales: Las versiones de modelos grandes requieren recursos computacionales considerables
Dependencia de datos anotados: Las tareas posteriores aún requieren una cierta cantidad de datos anotados para ajuste fino

Direcciones Futuras

Expansión de escenarios de aplicación: Explorar aplicaciones en otras tareas hematológicas
Compresión de modelos: Desarrollar versiones más ligeras para entornos con recursos limitados
Fusión multimodal: Combinar otros tipos de datos médicos para mejorar la precisión diagnóstica

Evaluación Profunda

Fortalezas

Especificidad del problema fuerte: Aborda específicamente el importante pero descuidado campo del análisis de GR
Diseño de método razonable: Realiza mejoras dirigidas a DINOv2 basadas en características de GR
Diseño experimental riguroso: Emplea métodos de evaluación estrictos como validación entre fuentes, asegurando confiabilidad de resultados
Gran contribución de conjunto de datos: Construye el conjunto de datos de entrenamiento de imágenes de GR más grande hasta la fecha
Amigable con código abierto: Proporciona código completo y modelos preentrenados

Insuficiencias

Análisis teórico limitado: La explicación teórica de por qué la eliminación del regularizador Koleo es efectiva es insuficiente
Análisis de costo computacional insuficiente: No analiza en detalle el equilibrio de eficiencia computacional entre diferentes versiones de modelos
Falta de validación clínica: Carece de resultados de validación en entornos clínicos reales

Impacto

Valor académico: Proporciona una herramienta fundacional importante y un punto de referencia para el campo del análisis de GR
Valor práctico: Tiene potencial para mejorar significativamente el nivel de automatización del diagnóstico hematológico
Reproducibilidad: Proporciona implementación de código abierto completa, facilitando el uso y mejora por parte de la comunidad investigadora

Escenarios Aplicables

Asistencia en diagnóstico de patología sanguínea
Cribado de sangre a gran escala
Investigación de morfología de GR
Desarrollo de herramientas de educación en hematología

Resumen de Innovación Técnica

La innovación central de RedDino radica en adaptar exitosamente un marco de aprendizaje autosupervisado genérico a un dominio médico especializado, logrando mejoras de rendimiento significativas mediante la eliminación de restricciones de regularización inadecuadas y la optimización de estrategias de entrenamiento. Esto proporciona una referencia valiosa para el desarrollo de modelos fundacionales en otras tareas de análisis de imágenes médicas.

Declaración de Impacto Ambiental: El artículo reporta que las emisiones de carbono de los experimentos fueron de 4.15 kg CO2eq, reflejando una preocupación por la responsabilidad ambiental.