Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million RBC images from diverse acquisition modalities and sources. Extensive evaluations show that RedDino outperforms existing state-of-the-art models on RBC shape classification. Through assessments including linear probing and nearest neighbor classification, we confirm its strong feature representations and generalization ability. Our main contributions are: (1) a foundation model tailored for RBC analysis, (2) ablation studies exploring DINOv2 configurations for RBC modeling, and (3) a detailed evaluation of generalization performance. RedDino addresses key challenges in computational hematology by capturing nuanced morphological features, advancing the development of reliable diagnostic tools. The source code and pretrained models for RedDino are available at https://github.com/Snarci/RedDino, and the pretrained models can be downloaded from our Hugging Face collection at https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc
- ID статьи: 2508.08180
- Название: RedDino: A foundation model for red blood cell analysis
- Авторы: Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr
- Классификация: eess.IV cs.AI cs.CV
- Дата публикации: 22 августа 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2508.08180
Эритроциты (RBC) имеют критическое значение для здоровья человека, а точный морфологический анализ является важным для диагностики гематологических заболеваний. Несмотря на огромный потенциал фундаментальных моделей в медицинской диагностике, комплексные решения на основе искусственного интеллекта для анализа RBC остаются дефицитными. В данной работе предлагается RedDino — самообучающаяся фундаментальная модель, специально разработанная для анализа изображений эритроцитов. RedDino использует адаптированную для RBC структуру самообучения DINOv2, обученную на тщательно подобранном наборе данных, содержащем 1,25 миллиона изображений RBC из различных режимов захвата и источников. Обширная оценка показывает, что RedDino значительно превосходит существующие передовые модели в задачах классификации формы эритроцитов. Валидация сильного представления признаков и способности к обобщению модели подтверждена методами линейного зондирования и классификации по ближайшим соседям.
Морфологический анализ эритроцитов является основой гематологической диагностики, но сталкивается со следующими ключевыми вызовами:
- Вариативность окрашивания и визуализации: различные протоколы окрашивания и устройства визуализации вносят смещение, увеличивая сложность анализа
- Эффекты партий: значительные систематические различия в многоисточниковых, многопациентных сценариях
- Требования к подготовке специалистов: традиционный анализ требует обширной профессиональной подготовки
- Отсутствие специализированных инструментов ИИ: по сравнению с анализом лейкоцитов, анализ эритроцитов не имеет зрелых фундаментальных моделей
Хотя фундаментальные модели продемонстрировали значительные преимущества в анализе лейкоцитов, эффективно предсказывая клинические результаты и решая проблемы эффектов партий, потенциал этих передовых технологий в области анализа эритроцитов еще не полностью исследован. Данное исследование направлено на заполнение этого пробела путем разработки фундаментальной модели, специально оптимизированной для анализа RBC.
- Специализированная фундаментальная модель: предложена RedDino, первое семейство самообучающихся фундаментальных моделей, оптимизированных специально для анализа RBC
- Углубленное исследование конфигураций: проведен строгий сравнительный анализ конфигураций DINOv2 при моделировании морфологии RBC
- Комплексная оценка производительности: обширное тестирование на нескольких наборах данных RBC, демонстрирующее превосходство над существующими передовыми моделями
- Сильная способность к обобщению: эффективное смягчение вызовов, вызванных эффектами партий, демонстрирующее отличную кроссдоменную производительность
RedDino предназначена для обучения универсальному представлению признаков RBC, поддерживающему нижестоящие задачи классификации формы RBC, обнаружения аномалий и морфологического анализа. Входными данными являются микроскопические изображения RBC, выходными данными — высокомерные векторы признаков, применимые к различным задачам анализа RBC.
RedDino построена на основе структуры самообучения DINOv2, использующей Vision Transformer (ViT) в качестве основной сети. Семейство моделей включает три версии:
- RedDino Small: размерность признаков 384, размер партии 512, 22 миллиона параметров
- RedDino Base: размерность признаков 768, размер партии 384, 86 миллионов параметров
- RedDino Large: размерность признаков 1024, размер партии 256, 304 миллиона параметров
- Удаление регуляризатора Koleo: исходный DINOv2 использует регуляризацию Koleo для предотвращения коллапса признаков, однако в контексте RBC из-за естественной согласованности формы и цвета эритроцитов этот регуляризатор чрезмерно подавляет выражение признаков патологических и аномальных RBC
- Центрирование Sinkhorn-Knopp: замена центрирования скользящего среднего для повышения качества представления
- Пользовательское расширение данных: замена исходного расширения DINOv2 на 32 пиксельных расширения из библиотеки Albumentations
- Масштаб данных: 56 712 исходных изображений из 18 наборов данных, охватывающих более 420 индивидуумов
- Извлечение данных: применены два метода
- Сегментация клеток с использованием улучшенного CellPose, производящая 3 076 269 сегментированных клеток
- Извлечение неперекрывающихся блоков изображений размером 224×224 пикселя, генерирующее 1 250 781 блок изображения
- Балансировка данных: для смягчения естественного дисбаланса между эритроцитами и лейкоцитами включены наборы данных изображений лейкоцитов
Систематические эксперименты выявили:
- Обучение на блоках изображений превосходит обучение на отдельных клетках
- Удаление локальных обрезок значительно повышает производительность
- Пользовательский конвейер расширения дополнительно повышает качество признаков
Обучающие данные: 18 открытых наборов данных RBC, включающих различные режимы визуализации, разрешения и методы окрашивания
Тестовые данные:
- Набор данных Elsafty: 240 000 изображений, 9 классов, из 4 различных источников
- Набор данных Chula: 20 875 изображений, 12 классов RBC
- Набор данных DSE: 5 659 изображений, 8 классов
- Точность (Acc)
- Сбалансированная точность (bAcc)
- Взвешенный F1-показатель (wF1)
- ResNet50
- DINOv2 (Small/Base/Large)
- DinoBloom (Small/Base/Large) — современный передовой экстрактор признаков для гематологических данных
- Линейное зондирование: оценка способности признаков адаптироваться к нижестоящим задачам
- Классификация K ближайших соседей (1-NN, 20-NN): оценка робастности признаков при эффектах партий
- Кроссисточниковая оценка: использование стратегии валидации с исключением одного источника
- Пятикратная кроссвалидация: для несбалансированных наборов данных
При наиболее сложной кроссисточниковой оценке RedDino достигает значительного преимущества:
| Модель | Линейное зондирование wF1 | 1-NN wF1 | 20-NN wF1 |
|---|
| ResNet50 | 77.6±8.1 | 64.3±4.8 | 66.2±4.9 |
| DinoBloom-L | 85.4±5.2 | 74.1±5.0 | 77.0±4.5 |
| DINOv2 large | 86.0±5.6 | 73.7±6.2 | 76.4±7.0 |
| RedDino base | 88.1±4.9 | 78.8±3.6 | 82.6±2.8 |
| RedDino large | 88.5±5.5 | 78.5±4.6 | 81.6±4.7 |
Ключевые выводы:
- RedDino превосходит лучший базовый метод более чем на 2.1% (линейное зондирование) и на 3.0% (классификация по соседям)
- Средний прирост производительности составляет 4.0-6.5%, демонстрируя последовательное преимущество
При пятикратной кроссвалидации на наборах данных Chula и DSE RedDino также показывает отличные результаты, превосходя базовые методы практически по всем метрикам.
Влияние ключевых улучшений конфигурации:
- Удаление регуляризатора Koleo: значительно повышает производительность, предотвращая чрезмерное подавление признаков патологических RBC
- Центрирование Sinkhorn-Knopp: замена центрирования скользящего среднего дополнительно повышает производительность
- Блоки изображений vs обучение на отдельных клетках: стратегия обучения на блоках изображений превосходит обучение на отдельных клетках
- Пользовательский конвейер расширения: явное улучшение по сравнению с исходной стратегией расширения DINOv2
Трехкомпонентная визуализация PCA подтверждает эффективность признаков RedDino:
- Способность различать фон, клетки, структуры мембран и паразитов
- Отличная способность различать аномальные морфологии, такие как инфицированные малярией RBC и шиповидные клетки
Проекция UMAP набора данных Elsafty показывает:
- Различные классы образуют четкие кластеры без явных эффектов партий
- Клинически трудноразличимые классы (такие как круглые RBC, эллиптоциты и т.д.) действительно перекрываются в пространстве признаков
- Скопления клеток образуют уникальные кластеры, подтверждая способность модели различать отдельные клетки и агрегаты
- Анализ лейкоцитов: уже имеют зрелые фундаментальные модели, такие как DinoBloom, показывающие отличные результаты в предсказании клинических результатов
- Анализ эритроцитов: относительно отстает в развитии, не имеет специализированных фундаментальных моделей
- Компьютерная диагностика: постепенно становится важным инструментом для решения ключевых диагностических задач в гематологии
Методы самообучения, такие как DINOv2, достигли огромного успеха на естественных изображениях, но их применение в медицинской визуализации, особенно в анализе RBC, еще требует полного исследования.
- Прорыв в производительности: RedDino достигает новой передовой производительности в задачах классификации RBC
- Сильная способность к обобщению: эффективно смягчает эффекты партий, показывая отличные результаты в кроссисточниковых сценариях
- Высокая практическая ценность: предоставляет надежный базовый инструмент для автоматизированной гематологической диагностики
- Ограничения обучающих данных: несмотря на большой масштаб набора данных, могут быть недостаточно представлены некоторые редкие морфологии RBC
- Требования к вычислительным ресурсам: версии больших моделей требуют значительных вычислительных ресурсов
- Зависимость от аннотированных данных: нижестоящие задачи по-прежнему требуют определенного объема аннотированных данных для тонкой настройки
- Расширение сценариев применения: исследование применения в других гематологических задачах
- Сжатие модели: разработка более легких версий для адаптации к средам с ограниченными ресурсами
- Мультимодальное слияние: объединение других типов медицинских данных для повышения точности диагностики
- Сильная целевая направленность проблемы: специально решает важную, но часто упускаемую область анализа RBC
- Разумный дизайн методологии: целевые улучшения DINOv2 с учетом характеристик RBC
- Строгий дизайн экспериментов: использование кроссисточниковой валидации и других строгих методов оценки для обеспечения надежности результатов
- Большой вклад в наборы данных: построение крупнейшего на сегодняшний день набора обучающих изображений RBC
- Дружественность к открытому исходному коду: предоставление полного кода и предварительно обученных моделей
- Ограниченный теоретический анализ: недостаточное теоретическое объяснение того, почему удаление регуляризатора Koleo эффективно
- Недостаточный анализ вычислительных затрат: отсутствует подробный анализ компромисса эффективности вычислений для различных версий моделей
- Отсутствие клинической валидации: не хватает результатов валидации в реальной клинической среде
- Академическая ценность: предоставляет важный базовый инструмент и эталон для области анализа RBC
- Практическая ценность: имеет потенциал значительно повысить уровень автоматизации гематологической диагностики
- Воспроизводимость: предоставляет полную реализацию с открытым исходным кодом, облегчая использование и улучшение исследовательским сообществом
- Вспомогательная диагностика гематологических заболеваний
- Крупномасштабный скрининг крови
- Исследование морфологии эритроцитов
- Разработка инструментов обучения гематологии
Основная инновация RedDino заключается в успешной адаптации универсальной структуры самообучения к специализированной медицинской области путем удаления неподходящих ограничений регуляризации и оптимизации стратегии обучения, достигая значительного повышения производительности. Это предоставляет ценный справочный материал для разработки фундаментальных моделей для других задач анализа медицинских изображений.
Заявление об экологическом воздействии: В статье сообщается об объеме выбросов углерода в экспериментах, составляющем 4,15 кг CO2eq, что отражает внимание к экологической ответственности.