Red blood cells (RBCs) are essential to human health, and their precise morphological analysis is important for diagnosing hematological disorders. Despite the promise of foundation models in medical diagnostics, comprehensive AI solutions for RBC analysis remain scarce. We present RedDino, a self-supervised foundation model designed for RBC image analysis. RedDino uses an RBC-specific adaptation of the DINOv2 self-supervised learning framework and is trained on a curated dataset of 1.25 million RBC images from diverse acquisition modalities and sources. Extensive evaluations show that RedDino outperforms existing state-of-the-art models on RBC shape classification. Through assessments including linear probing and nearest neighbor classification, we confirm its strong feature representations and generalization ability. Our main contributions are: (1) a foundation model tailored for RBC analysis, (2) ablation studies exploring DINOv2 configurations for RBC modeling, and (3) a detailed evaluation of generalization performance. RedDino addresses key challenges in computational hematology by capturing nuanced morphological features, advancing the development of reliable diagnostic tools. The source code and pretrained models for RedDino are available at https://github.com/Snarci/RedDino, and the pretrained models can be downloaded from our Hugging Face collection at https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc
- 论文ID: 2508.08180
- 标题: RedDino: A foundation model for red blood cell analysis
- 作者: Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Carsten Marr
- 分类: eess.IV cs.AI cs.CV
- 发表时间: 2025年8月22日 (arXiv v2)
- 论文链接: https://arxiv.org/abs/2508.08180
红细胞(RBCs)对人体健康至关重要,精确的形态学分析对于诊断血液学疾病具有重要意义。尽管基础模型在医学诊断中展现出巨大潜力,但针对RBC分析的综合性AI解决方案仍然匮乏。本文提出RedDino,一个专门为RBC图像分析设计的自监督基础模型。RedDino采用针对RBC特化的DINOv2自监督学习框架,在包含来自不同采集模式和来源的125万张RBC图像的精心策划数据集上进行训练。广泛的评估表明,RedDino在RBC形状分类任务上显著优于现有最先进模型。通过线性探测和最近邻分类等评估方法,验证了模型强大的特征表示和泛化能力。
红细胞形态学分析是血液学诊断的基础,但面临以下关键挑战:
- 染色和成像变异性:不同的染色协议和成像设备引入偏差,增加了分析复杂性
- 批次效应:多来源、多患者场景中存在显著的系统性差异
- 专业人员培训需求:传统分析需要大量专业培训
- 缺乏专门的AI工具:与白细胞分析相比,红细胞分析缺乏成熟的基础模型
虽然基础模型在白细胞分析中已显示出显著优势,能够有效预测临床结果并解决批次效应问题,但红细胞分析领域尚未充分探索这些先进技术的潜力。本研究旨在填补这一空白,开发专门针对RBC分析的基础模型。
- 专门的基础模型:提出RedDino,首个专门为RBC分析优化的自监督基础模型家族
- 深入的配置研究:对DINOv2在RBC形态学建模中的配置进行严格的比较分析
- 全面的性能评估:在多个RBC数据集上进行广泛基准测试,证明相比现有最先进模型的优越性
- 强大的泛化能力:有效缓解批次效应带来的挑战,展现出色的跨域泛化性能
RedDino旨在学习通用的RBC特征表示,支持下游的RBC形状分类、异常检测和形态学分析任务。输入为RBC显微镜图像,输出为高维特征向量,可用于各种RBC分析任务。
RedDino基于DINOv2自监督学习框架构建,采用Vision Transformer (ViT)作为骨干网络。模型家族包括三个版本:
- RedDino Small: 特征维度384,批次大小512,2200万参数
- RedDino Base: 特征维度768,批次大小384,8600万参数
- RedDino Large: 特征维度1024,批次大小256,3.04亿参数
- 移除Koleo正则化器:原始DINOv2使用Koleo正则化防止特征坍塌,但在RBC场景中,由于RBC形状和颜色的自然一致性,该正则化器会过度抑制病理和异常RBC的特征表达
- Sinkhorn-Knopp中心化:替换移动平均中心化,提升表示质量
- 定制数据增强:用Albumentations库的32种像素级增强替换DINOv2的原始增强策略
- 数据规模:来自18个数据集的56,712张原始图像,涵盖420多个个体
- 数据提取:采用两种方法
- 使用改进的CellPose进行细胞分割,产生3,076,269个分割细胞
- 提取224×224像素的非重叠图像块,生成1,250,781个图像块
- 数据平衡:为缓解红白细胞的自然不平衡,纳入了白细胞图像数据集
通过系统实验发现:
- 使用图像块训练比单个细胞训练效果更好
- 移除局部裁剪能显著提升性能
- 定制增强管道进一步提升特征质量
训练数据:18个公开RBC数据集,包含不同成像模式、分辨率和染色技术
测试数据:
- Elsafty数据集:240,000张图像,9个类别,来自4个不同来源
- Chula数据集:20,875张图像,12个RBC类别
- DSE数据集:5,659张图像,8个类别
- 准确率(Acc)
- 平衡准确率(bAcc)
- 加权F1分数(wF1)
- ResNet50
- DINOv2 (Small/Base/Large)
- DinoBloom (Small/Base/Large) - 当前血液学数据最先进的特征提取器
- 线性探测:评估特征适应下游任务的能力
- K近邻分类(1-NN, 20-NN):评估特征在批次效应下的鲁棒性
- 交叉源评估:使用留一源验证策略
- 五折交叉验证:针对不平衡数据集
在最具挑战性的交叉源评估中,RedDino取得显著优势:
| 模型 | 线性探测wF1 | 1-NN wF1 | 20-NN wF1 |
|---|
| ResNet50 | 77.6±8.1 | 64.3±4.8 | 66.2±4.9 |
| DinoBloom-L | 85.4±5.2 | 74.1±5.0 | 77.0±4.5 |
| DINOv2 large | 86.0±5.6 | 73.7±6.2 | 76.4±7.0 |
| RedDino base | 88.1±4.9 | 78.8±3.6 | 82.6±2.8 |
| RedDino large | 88.5±5.5 | 78.5±4.6 | 81.6±4.7 |
关键发现:
- RedDino相比最佳基线方法提升超过2.1%(线性探测)和3.0%(近邻分类)
- 平均改进幅度达到4.0-6.5%,显示出一致的性能优势
在Chula和DSE数据集的五折交叉验证中,RedDino同样表现优异,在几乎所有指标上都超越了基线方法。
关键配置改进的影响:
- 移除Koleo正则化器:显著提升性能,避免病理RBC特征被过度抑制
- Sinkhorn-Knopp中心化:替换移动平均中心化后性能进一步提升
- 图像块vs单细胞训练:图像块训练策略优于单细胞训练
- 定制增强管道:相比原始DINOv2增强策略有明显改进
通过三组分PCA可视化验证RedDino特征的有效性:
- 能够区分背景、细胞、膜结构和寄生虫
- 对疟疾感染的RBC和棘细胞等异常形态展现出色的区分能力
使用Elsafty数据集的UMAP投影显示:
- 不同类别形成清晰的聚类,无明显批次效应
- 临床上难以区分的类别(如圆形RBC、椭圆细胞等)在特征空间中确实重叠
- 细胞团块形成独特聚类,证明模型能区分单细胞和聚集体
- 白细胞分析:已有成熟的基础模型如DinoBloom,在临床结果预测方面表现出色
- 红细胞分析:相比之下发展滞后,缺乏专门的基础模型
- 计算机辅助诊断:在血液学中逐渐成为解决关键诊断挑战的重要工具
DINOv2等自监督方法在自然图像上取得巨大成功,但在医学影像特别是RBC分析中的应用仍有待充分探索。
- 性能突破:RedDino在RBC分类任务上实现了新的最先进性能
- 泛化能力强:有效缓解批次效应,在跨源场景中表现出色
- 实用价值高:为自动化血液学诊断提供了可靠的基础工具
- 训练数据限制:尽管数据集规模较大,但仍可能存在某些罕见RBC形态的代表性不足
- 计算资源需求:大模型版本需要较高的计算资源
- 标注数据依赖:下游任务仍需要一定量的标注数据进行微调
- 扩展应用场景:探索在其他血液学任务中的应用
- 模型压缩:开发更轻量级的版本以适应资源受限环境
- 多模态融合:结合其他类型的医学数据提升诊断准确性
- 问题针对性强:专门解决RBC分析这一重要但被忽视的领域
- 方法设计合理:针对RBC特点对DINOv2进行了有针对性的改进
- 实验设计严谨:采用交叉源验证等严格评估方法,确保结果可靠性
- 数据集贡献大:构建了迄今最大的RBC图像训练集合
- 开源友好:提供完整的代码和预训练模型
- 理论分析有限:对为什么移除Koleo正则化器有效的理论解释不够深入
- 计算成本分析不足:未详细分析不同模型版本的计算效率权衡
- 临床验证缺乏:缺乏在真实临床环境中的验证结果
- 学术价值:为RBC分析领域提供了重要的基础工具和基准
- 实用价值:有潜力显著提升血液学诊断的自动化水平
- 可复现性:提供完整的开源实现,便于研究社区使用和改进
- 血液病理学诊断辅助
- 大规模血液筛查
- RBC形态学研究
- 血液学教育培训工具开发
RedDino的核心创新在于将通用自监督学习框架成功适配到专业医学领域,通过移除不适合的正则化约束和优化训练策略,实现了显著的性能提升。这为其他医学影像分析任务的基础模型开发提供了有价值的参考。
环境影响声明:论文报告了实验的碳排放量为4.15 kg CO2eq,体现了对环境责任的关注。