2025-11-16T13:49:12.700878

A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection

Ive, Bondaronek, Yadav et al.

Introduction: Healthcare AI models often inherit biases from their training data. While efforts have primarily targeted bias in structured data, mental health heavily depends on unstructured data. This study aims to detect and mitigate linguistic differences related to non-biological differences in the training data of AI models designed to assist in pediatric mental health screening. Our objectives are: (1) to assess the presence of bias by evaluating outcome parity across sex subgroups, (2) to identify bias sources through textual distribution analysis, and (3) to develop a de-biasing method for mental health text data. Methods: We examined classification parity across demographic groups and assessed how gendered language influences model predictions. A data-centric de-biasing method was applied, focusing on neutralizing biased terms while retaining salient clinical information. This methodology was tested on a model for automatic anxiety detection in pediatric patients. Results: Our findings revealed a systematic under-diagnosis of female adolescent patients, with a 4% lower accuracy and a 9% higher False Negative Rate (FNR) compared to male patients, likely due to disparities in information density and linguistic differences in patient notes. Notes for male patients were on average 500 words longer, and linguistic similarity metrics indicated distinct word distributions between genders. Implementing our de-biasing approach reduced diagnostic bias by up to 27%, demonstrating its effectiveness in enhancing equity across demographic groups. Discussion: We developed a data-centric de-biasing framework to address gender-based content disparities within clinical text. By neutralizing biased language and enhancing focus on clinically essential information, our approach demonstrates an effective strategy for mitigating bias in AI healthcare models trained on text.

academic

A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection

基本信息

论文ID: 2501.00129
标题: A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection
作者: Julia Ive, Paulina Bondaronek, Vishal Yadav, Daniel Santel, Tracy Glauser, Tina Cheng, Jeffrey R. Strawn, Greeshma Agasthya, Jordan Tschida, Sanghyun Choo, Mayanka Chandrashekar, Anuj J. Kapadia, John Pestian
分类: cs.CL cs.AI
机构: University College London, Queen Mary University of London, Cincinnati Children's Hospital Medical Center, Oak Ridge National Laboratory等
论文类型: 研究论文

摘要

本研究针对儿童心理健康AI模型中的人口统计学偏见问题，提出了一种数据中心的去偏方法。研究发现女性青少年患者存在系统性诊断不足问题，准确率比男性患者低4%，假阴性率高9%。通过信息密度过滤和性别中性词替换的去偏方法，成功将诊断偏见减少了27%，为医疗AI公平性提供了有效解决方案。

研究背景与动机

问题识别

AI偏见的普遍性: 医疗AI模型经常从训练数据中继承偏见，可能加剧医疗不公平，特别是对少数群体的影响
心理健康的特殊性: 心理健康严重依赖非结构化文本数据（临床笔记），而现有去偏研究主要关注结构化数据
儿童心理健康危机: COVID-19后儿童焦虑症状患病率翻倍，特别是女性青少年群体

重要性

儿童心理健康筛查的复杂性和挑战性
AI在扩展心理健康诊断方面的巨大潜力
确保AI工具在不同人口群体中公平有效的迫切需求

现有方法局限性

传统去偏技术（如词嵌入去偏、对抗训练）不适用于医疗领域
医疗数据的异质性（来自不同医疗机构）未得到充分考虑
缺乏针对医疗文本的专门去偏框架

核心贡献

系统性偏见识别: 首次在儿童焦虑症检测中发现并量化了性别偏见，女性患者假阴性率显著更高
数据中心去偏框架: 提出专门适用于医疗文本的去偏方法，包括信息密度过滤和性别词中性化
有效性验证: 在真实临床数据上验证了方法的有效性，将诊断偏见减少多达27%
可解释性分析: 使用LIME技术分析模型决策依赖的词汇，揭示偏见来源

方法详解

任务定义

输入: 儿童患者的临床笔记文本序列输出: 二分类预测（焦虑症/非焦虑症）目标: 在保持预测准确性的同时，减少不同性别群体间的性能差异

偏见检测框架

1. 分类公平性评估

使用多个指标评估模型偏见：

平衡错误率 (BER): $BER = \frac{(\frac{FP}{FP+TN}) + (\frac{FN}{FN+TP})}{2}$
假阴性率 (FNR): 衡量漏诊率
假阳性率 (FPR): 衡量误诊率
BER比率: 非特权群体与特权群体的BER比值，>1.25表示显著偏见

2. 文本分布分析

分析不同人口群体间的文本特征差异：

平均笔记长度
医学术语百分比
性别偏见词汇百分比
Jaccard距离和熟悉度分数

去偏方法

1. 信息密度过滤 (tf-idf_filt)

使用TF-IDF分数计算句子重要性
移除20%信息量最低的句子
平衡不同群体间的信息密度

2. 性别词去偏 (gen_sub)

自动检测姓名和代词等性别偏见词汇
使用Stanza工具提取专有名词
将性别特定词汇替换为中性替代词
- 姓名 → "person1", "person2"等
- 代词 → "he/she" → "they"

3. 组合方法 (tf-idf_filt+gen_sub)

结合信息密度过滤和性别词替换，发挥协同效应

模型架构

基于Clinical-BigBird的Transformer模型
专门在临床文本上预训练
支持长序列输入（最多4,096个token）
微调参数：2个epoch，学习率1e-5，批大小8

实验设置

数据集

来源: Cincinnati Children's Hospital Medical Center
规模: 130万患者，6300万临床笔记
时间跨度: 2009年1月-2022年3月
焦虑症例: 84,426例通过筛选标准
最终数据: 73,288例患者，781万笔记

年龄分组策略

分为5个年龄组：5、8、10、12、15岁
每组3,700-5,064个训练样本
852-1,278个测试样本
1:1病例对照匹配（按年龄和性别）

数据预处理

去重：余弦相似度≥0.8的笔记
选择最近25条笔记
限制输入长度为1,000个token

评价指标

准确率 (Accuracy)
假阴性率 (FNR) - 主要关注指标
假阳性率 (FPR)
平衡错误率 (BER)
不确定预测百分比（概率在0.4, 0.6区间）

实验结果

主要发现

1. 系统性性别偏见

指标	男性	女性	差异
准确率	-	-4%	女性更低
FNR	-	+9%	女性更高
不确定预测	-	+5%	女性更高
笔记长度	基准	-500词	女性更短

2. 文本分布差异

词汇相似性: Jaccard指数0.54（男女间）
术语分布: Jaccard指数0.34（显著差异）
最低相似性: 5岁和15岁组（Jaccard 0.43）

3. 去偏效果

最佳方法 (tf-idf_filt):

FNR差距减少0.024（27%改善）
Bin 5: FNR差距从0.13降至0.02
Bin 15: FNR差距从0.13降至0.07
BER比率从1.33降至0.98（Bin 10）

消融实验

方法	FNR改善	性能维持	不确定性减少
rnd_filt	无一致效果	✓	-
tf-idf_filt	-0.024	✓	-4%
gen_sub	+0.008	✓	-3%
组合方法	-0.022	✓	-12%

可解释性分析

使用LIME分析模型依赖的词汇：

原始模型: 10%的案例预测依赖偏见词汇
tf-idf_filt: 减少至3%
组合方法: 偏见词汇频率降低50%

跨种族验证

其他种族群体FNR平均高0.05
组合方法将FNR差距减少0.034
证明方法的普适性

相关工作

机器学习公平性

预处理技术：重采样、数据增强
算法修改：对抗去偏、目标函数修改
后处理技术：校准、嵌入变换

NLP去偏方法

属性交换：交换敏感属性词汇
嵌入去偏：移除词嵌入中的性别成分
对抗训练：惩罚受保护属性影响的预测

医疗AI偏见

商业预测算法中的种族偏见
自杀风险预测中的群体差异
病理学模型中的人口统计偏见

结论与讨论

主要结论

偏见普遍存在: 儿童焦虑症检测模型对女性患者存在系统性诊断不足
文本差异是根源: 不同性别患者笔记的信息密度和语言分布存在显著差异
数据中心方法有效: 通过信息密度平衡和语言中性化可显著减少偏见
临床意义重大: 27%的偏见减少对改善女性患者诊断具有重要价值

局限性

数据质量依赖: 方法效果受EHR文本质量和一致性限制
单一偏见类型: 仅关注性别偏见，未涉及其他人口统计特征
泛化能力: 在不同临床环境中的泛化能力需进一步验证
生物学差异: 难以完全区分生物学差异和社会文化差异

未来方向

扩展到其他心理健康疾病和人口群体
开发更精细的偏见检测和缓解技术
结合多模态数据（文本+结构化数据）
建立标准化的医疗AI公平性评估框架

深度评价

优点

问题重要性: 聚焦儿童心理健康这一关键领域，具有重要社会价值
方法创新性: 提出专门适用于医疗文本的数据中心去偏框架
实验充分性: 大规模真实临床数据验证，多维度偏见分析
实用价值: 方法简单有效，易于在临床环境中部署
可解释性: 使用LIME等技术提供模型决策的可解释分析

不足

理论深度: 缺乏对偏见产生机制的深层理论分析
方法局限: 去偏方法相对简单，可能存在过度简化问题
评估单一: 主要关注分类公平性，缺乏校准等其他公平性维度
长期影响: 未评估去偏对模型长期性能和泛化能力的影响

影响力

学术贡献: 为医疗NLP偏见研究提供重要案例和方法参考
实践价值: 为临床AI系统的公平性改进提供具体解决方案
政策意义: 为医疗AI监管和标准制定提供技术支撑
可复现性: 方法描述详细，具有良好的可复现性

适用场景

临床决策支持: 心理健康筛查和诊断辅助系统
医疗质量改进: 识别和缓解现有医疗AI系统中的偏见
监管合规: 满足医疗AI公平性和伦理要求
研究工具: 为其他医疗AI偏见研究提供方法论基础

参考文献

本文引用了公平性机器学习、NLP去偏、医疗AI等领域的重要文献，包括：

Feldman et al. (2015) - 公平性度量标准
Bolukbasi et al. (2016) - 词嵌入去偏
Obermeyer et al. (2019) - 医疗算法种族偏见
Ribeiro et al. (2016) - LIME可解释性方法

总体评价: 这是一篇在医疗AI公平性领域具有重要价值的研究论文，不仅识别了儿童心理健康AI中的性别偏见问题，还提出了实用的解决方案。虽然在理论深度和方法复杂性方面还有提升空间，但其实用价值和社会意义使其成为该领域的重要贡献。