2025-11-16T17:58:12.985277

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Kondrup, Imouza
With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.
academic

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

基本信息

  • 论文ID: 2510.09162
  • 标题: Dr. Bias: Social Disparities in AI-Powered Medical Guidance
  • 作者: Emma Kondrup (Mila - Quebec AI Institute), Anne Imouza (McGill University)
  • 分类: cs.AI cs.CY
  • 发表时间/会议: Accepted at the Symposium on Model Accountability, Sustainability and Healthcare 2025
  • 论文链接: https://arxiv.org/abs/2510.09162

摘要

随着大型语言模型(LLMs)的快速发展,公众现在可以便捷且经济地获得能够个性化回答大多数健康相关问题的应用程序。这些LLMs在某些医疗能力方面正日益具有竞争力,甚至超越专业人员,在资源匮乏的环境中尤其具有前景。然而,支持这些动机的评估严重缺乏对医疗保健社会性质的洞察,忽视了社会群体间的健康差异以及偏见如何转化为LLM生成的医疗建议并影响用户。本研究对LLM在关键临床领域的医疗问题回答进行探索性分析,模拟了不同性别、年龄和种族患者档案提出的问题。通过比较生成回应的自然语言特征,研究发现LLMs在生成医疗建议时,对不同社会群体产生系统性差异,特别是土著和双性人患者接收到的建议可读性较差且更复杂。

研究背景与动机

问题定义

该研究要解决的核心问题是:大型语言模型在提供医疗建议时是否存在系统性的社会偏见,这些偏见如何影响不同人口群体获得的医疗信息质量

重要性

  1. 社会公平性:随着LLMs在医疗咨询中的广泛应用,确保所有人群都能获得公平、高质量的医疗信息至关重要
  2. 健康差异:现实中已存在的健康差异可能通过AI系统进一步扩大
  3. 信任度增长:公众对AI医疗建议的信任度不断提高,使得偏见问题更加紧迫

现有方法局限性

  1. 缺乏社会维度分析:现有LLM医疗应用评估主要关注技术性能,忽视社会公平性
  2. 交叉身份研究不足:缺乏对交叉身份群体(如土著双性人)的深入分析
  3. 系统性偏见检测缺失:缺乏系统性方法检测和量化医疗建议中的偏见

核心贡献

  1. 开发了系统性偏见检测框架:构建了"Dr. Bias"实验管道,能够系统性地检测LLM医疗建议中的社会偏见
  2. 揭示了显著的群体差异:发现土著和双性人群体接收到的医疗建议在可读性和复杂性方面存在显著劣势
  3. 证明了交叉身份效应:首次系统性证明交叉身份群体面临的偏见被显著放大
  4. 提供了多维度分析框架:从可读性、情感分析、医疗紧急程度等多个维度分析偏见
  5. 开源研究工具:在GitHub上公开了完整的实验代码和数据

方法详解

任务定义

输入:不同人口统计学特征的患者档案 + 医疗相关问题 输出:LLM生成的医疗建议 目标:检测和量化不同群体间医疗建议质量的系统性差异

实验设计架构

研究采用两阶段生成管道:

第一阶段:问题生成

  • 模型:Llama-3-8B-Instruct
  • 患者档案构建
    • 年龄组:儿童、青少年、成人、老年人(4类)
    • 性别:男性、女性、双性人(3类)
    • 种族:基于美国人口普查局分类的7个主要种族群体
      • 美洲印第安人或阿拉斯加原住民(AIAN)
      • 亚裔(A)
      • 黑人或非裔美国人(BAA)
      • 西班牙裔或拉丁裔(HL)
      • 中东或北非裔(MENA)
      • 夏威夷原住民或太平洋岛民(NHPI)
      • 白人或欧裔美国人(WEA)
  • 总计:84个患者档案(4×3×7)
  • 问题类别:皮肤、呼吸系统、心脏、心理健康、一般医疗(5类)
  • 生成策略:每个档案生成500个问题(每类100个),使用温度1.5增加多样性

第二阶段:医疗建议生成

  • 总数据量:42,000条医疗建议
  • 输入格式:患者档案描述 + 医疗问题
  • 分析维度:可读性、情感分析、医疗紧急程度

技术创新点

  1. 交叉身份分析:首次系统性地将性别、种族、年龄三个维度进行交叉分析
  2. 多维度评估指标
    • Flesch阅读易度评分
    • Flesch-Kincaid年级水平
    • 建议长度
    • 情感极性和主观性
    • 医疗紧急程度评估
  3. 分层抽样策略:在问题生成中加入情感色调和查询类型的多样性
  4. 统计严谨性:所有结果报告95%置信区间,仅报告p<0.05的统计显著结果

实验设置

数据集

  • 规模:42,000条LLM生成的医疗建议
  • 覆盖范围:84个人口统计学档案 × 5个医疗类别 × 100个问题/类别
  • 质量控制:使用温度参数和多样化提示模板确保真实性

评价指标

可读性指标

  • Flesch阅读易度:分数越高表示文本越易读
  • Flesch-Kincaid年级水平:表示理解文本所需的教育水平
  • 建议长度:文本字数

情感分析指标

  • 情感极性:正面/负面情感倾向
  • 主观性:意见性vs事实性程度
  • 特定情感:喜悦、愤怒、紧张程度

医疗特异性指标

  • 医疗紧急程度:建议中体现的紧急性水平
  • 死亡话题提及:是否涉及死亡相关内容

统计分析方法

  • 显著性检验:p值<0.05
  • 置信区间:95%置信区间
  • 效应量分析:计算群体间均值差异

实验结果

主要结果

性别维度差异

  • 双性人群体显著劣势
    • Flesch阅读易度:-3.53(vs 女性4.815,男性5.873)
    • 年级水平:24.64(vs 女性22.68,男性22.52)
    • 建议更长、更复杂、更难理解

种族维度差异

  • 土著群体系统性劣势
    • AIAN群体在所有医疗类别中Flesch阅读易度最低
    • 心理健康建议中AIAN群体得分低至-8.7296
    • NHPI和BAA群体也面临类似问题
  • 优势群体
    • WEA和A群体始终获得最简洁、易读的建议
    • HL和MENA群体表现中等

医疗类别差异

各医疗类别中都观察到一致的群体差异模式,心理健康类别的差异尤为显著。

医疗紧急程度差异

  • NHPI群体:在医疗紧急程度评估中系统性偏低
  • 最大差异对:WEA-NHPI (Δ=0.0041),A-NHPI (Δ=0.0034)

交叉身份效应

关键发现:交叉身份分析显示偏见效应显著放大

  • 效应倍增:交叉身份群体的差异约为单一身份差异的2倍
  • 最劣势群体:土著双性人、黑人双性人接收到最复杂的建议
  • 最优势群体:白人或亚裔男性/女性接收到最简洁易懂的建议

统计显著性

所有报告的差异都达到统计显著水平(p<0.05),且提供95%置信区间。

相关工作

主要研究方向

  1. LLM医疗偏见研究:Zack等(2024)发现GPT-4在临床决策支持中的种族和性别刻板印象
  2. 交叉身份AI偏见:Buolamwini & Gebru(2018)的开创性工作,Omar等(2025)的医疗领域扩展
  3. 算法公平性:医疗AI系统中的公平性和偏见缓解策略

本文相比相关工作的优势

  1. 更全面的身份维度:首次包含双性人群体的系统性分析
  2. 更细致的交叉分析:三维度交叉身份的深入研究
  3. 更丰富的评估指标:从可读性到医疗紧急程度的多维评估
  4. 更大的数据规模:42,000条医疗建议的大规模分析

结论与讨论

主要结论

  1. 系统性偏见存在:LLM在医疗建议生成中存在显著的社会群体差异
  2. 交叉身份效应:多重边缘化身份的个体面临更严重的偏见
  3. 土著和双性人最为脆弱:这些群体系统性地接收到质量较差的医疗建议
  4. 跨领域一致性:偏见模式在不同医疗类别中保持一致

局限性

  1. 地理局限性:仅使用美国人口普查分类,缺乏国际视角
  2. 分类粗糙性:种族分类缺乏足够细粒度支持精细分析
  3. 模型局限性:仅测试Llama-3-8B-Instruct,需要跨模型验证
  4. 质性分析缺失:缺乏对建议内容实质性差异的深入分析

未来方向

  1. 多层级分类系统:采用更细粒度的人口统计学分类
  2. 质性评估:邀请医疗专家评估建议的准确性和适当性
  3. 焦点小组研究:与边缘化群体进行深入访谈
  4. 跨模型验证:扩展到更多LLM家族
  5. 缓解策略开发:开发和测试偏见缓解技术

深度评价

优点

  1. 研究设计严谨:两阶段生成管道设计巧妙,有效隔离了偏见来源
  2. 统计方法规范:严格的统计检验和置信区间报告
  3. 社会意义重大:关注医疗AI公平性的紧迫社会问题
  4. 方法可复现:详细的方法描述和开源代码
  5. 发现具有冲击力:揭示了令人担忧的系统性偏见模式

不足

  1. 因果关系模糊:未能深入探讨偏见产生的根本机制
  2. 实用性指导有限:缺乏具体的偏见缓解建议
  3. 外部效度待验证:需要在真实医疗咨询场景中验证发现
  4. 文化背景局限:美国中心的分类体系限制了全球适用性

影响力

  1. 学术贡献:为医疗AI公平性研究提供了重要基准
  2. 政策意义:为AI医疗应用监管提供了科学依据
  3. 技术推动:促进LLM开发者关注公平性问题
  4. 社会价值:提高公众对AI医疗偏见的认识

适用场景

  1. AI医疗产品开发:为开发者提供偏见检测框架
  2. 医疗政策制定:为监管机构提供评估标准
  3. 医疗从业者培训:提高对AI偏见的认识
  4. 患者教育:增强AI医疗建议使用的批判性思维

参考文献

论文引用了多项关键研究,包括:

  • Buolamwini & Gebru (2018): 商业性别分类中的交叉准确性差异
  • Zack et al. (2024): GPT-4在医疗保健中延续种族和性别偏见的潜力评估
  • Omar et al. (2025): 大型语言模型医疗决策中的社会人口偏见
  • Hanna et al. (2025): 评估大型语言模型在医疗保健相关任务中的种族和民族偏见

总体评价:这是一项具有重要社会意义的研究,系统性地揭示了LLM医疗建议中的社会偏见问题。研究方法严谨,发现令人关注,为AI医疗公平性领域做出了重要贡献。尽管存在一些局限性,但为未来研究和实践应用奠定了坚实基础。