2025-11-13T11:58:11.146801

RedDino: A foundation model for red blood cell analysis

Zedda, Loddo, Di Ruberto et al.

Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million RBC images from diverse acquisition modalities and sources. Extensive evaluations show that RedDino outperforms existing state-of-the-art models on RBC shape classification. Through assessments including linear probing and nearest neighbor classification, we confirm its strong feature representations and generalization ability. Our main contributions are: (1) a foundation model tailored for RBC analysis, (2) ablation studies exploring DINOv2 configurations for RBC modeling, and (3) a detailed evaluation of generalization performance. RedDino addresses key challenges in computational hematology by capturing nuanced morphological features, advancing the development of reliable diagnostic tools. The source code and pretrained models for RedDino are available at https://github.com/Snarci/RedDino, and the pretrained models can be downloaded from our Hugging Face collection at https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc

academic

RedDino: A foundation model for red blood cell analysis

基本信息

论文ID: 2508.08180
标题: RedDino: A foundation model for red blood cell analysis
作者: Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr
分类: eess.IV cs.AI cs.CV
发表时间: 2025年8月22日 (arXiv v2)
论文链接: https://arxiv.org/abs/2508.08180

摘要

红细胞(RBCs)对人体健康至关重要，精确的形态学分析对于诊断血液学疾病具有重要意义。尽管基础模型在医学诊断中展现出巨大潜力，但针对RBC分析的综合性AI解决方案仍然匮乏。本文提出RedDino，一个专门为RBC图像分析设计的自监督基础模型。RedDino采用针对RBC特化的DINOv2自监督学习框架，在包含来自不同采集模式和来源的125万张RBC图像的精心策划数据集上进行训练。广泛的评估表明，RedDino在RBC形状分类任务上显著优于现有最先进模型。通过线性探测和最近邻分类等评估方法，验证了模型强大的特征表示和泛化能力。

研究背景与动机

问题定义

红细胞形态学分析是血液学诊断的基础，但面临以下关键挑战：

染色和成像变异性：不同的染色协议和成像设备引入偏差，增加了分析复杂性
批次效应：多来源、多患者场景中存在显著的系统性差异
专业人员培训需求：传统分析需要大量专业培训
缺乏专门的AI工具：与白细胞分析相比，红细胞分析缺乏成熟的基础模型

研究动机

虽然基础模型在白细胞分析中已显示出显著优势，能够有效预测临床结果并解决批次效应问题，但红细胞分析领域尚未充分探索这些先进技术的潜力。本研究旨在填补这一空白，开发专门针对RBC分析的基础模型。

核心贡献

专门的基础模型：提出RedDino，首个专门为RBC分析优化的自监督基础模型家族
深入的配置研究：对DINOv2在RBC形态学建模中的配置进行严格的比较分析
全面的性能评估：在多个RBC数据集上进行广泛基准测试，证明相比现有最先进模型的优越性
强大的泛化能力：有效缓解批次效应带来的挑战，展现出色的跨域泛化性能

RedDino Small: 特征维度384，批次大小512，2200万参数
RedDino Base: 特征维度768，批次大小384，8600万参数
RedDino Large: 特征维度1024，批次大小256，3.04亿参数

关键技术改进

移除Koleo正则化器：原始DINOv2使用Koleo正则化防止特征坍塌，但在RBC场景中，由于RBC形状和颜色的自然一致性，该正则化器会过度抑制病理和异常RBC的特征表达
Sinkhorn-Knopp中心化：替换移动平均中心化，提升表示质量
定制数据增强：用Albumentations库的32种像素级增强替换DINOv2的原始增强策略

数据处理策略

训练数据构建

数据规模：来自18个数据集的56,712张原始图像，涵盖420多个个体
数据提取：采用两种方法
1. 使用改进的CellPose进行细胞分割，产生3,076,269个分割细胞
2. 提取224×224像素的非重叠图像块，生成1,250,781个图像块
数据平衡：为缓解红白细胞的自然不平衡，纳入了白细胞图像数据集

训练策略优化

通过系统实验发现：

使用图像块训练比单个细胞训练效果更好
移除局部裁剪能显著提升性能
定制增强管道进一步提升特征质量

实验设置

数据集

训练数据：18个公开RBC数据集，包含不同成像模式、分辨率和染色技术 测试数据：

Elsafty数据集：240,000张图像，9个类别，来自4个不同来源
Chula数据集：20,875张图像，12个RBC类别
DSE数据集：5,659张图像，8个类别

评价指标

准确率(Acc)
平衡准确率(bAcc)
加权F1分数(wF1)

对比方法

ResNet50
DINOv2 (Small/Base/Large)
DinoBloom (Small/Base/Large) - 当前血液学数据最先进的特征提取器

评估方法

线性探测：评估特征适应下游任务的能力
K近邻分类(1-NN, 20-NN)：评估特征在批次效应下的鲁棒性
交叉源评估：使用留一源验证策略
五折交叉验证：针对不平衡数据集

模型	线性探测wF1	1-NN wF1	20-NN wF1
ResNet50	77.6±8.1	64.3±4.8	66.2±4.9
DinoBloom-L	85.4±5.2	74.1±5.0	77.0±4.5
DINOv2 large	86.0±5.6	73.7±6.2	76.4±7.0
RedDino base	88.1±4.9	78.8±3.6	82.6±2.8
RedDino large	88.5±5.5	78.5±4.6	81.6±4.7