2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.
Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
academic

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

基本信息

  • 论文ID: 2501.01305
  • 标题: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
  • 作者: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
  • 分类: cs.CL (Computation and Language)
  • 发表时间: 2025年1月2日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.01305
  • 机构: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

摘要

大型语言模型(LLMs)在辅助诊断评估方面日益受到医疗专业人士的关注,有望缓解因患者负荷过重和医疗服务提供者短缺造成的医疗系统压力。为了使LLMs在支持诊断评估中发挥有效作用,它们必须能够密切复制临床医生使用的标准诊断程序。本文专门研究了患者健康问卷-9(PHQ-9)用于重度抑郁症(MDD)和广泛性焦虑症-7(GAD-7)问卷用于广泛性焦虑症(GAD)的诊断评估过程。研究探索了各种提示和微调技术来指导专有和开源LLMs遵循这些诊断流程,并评估了LLM生成的诊断结果与专家验证的真实标准之间的一致性。

研究背景与动机

问题背景

  1. 医疗系统压力: 当前医疗系统面临患者负荷过重和医疗服务提供者短缺的双重压力
  2. 心理健康诊断需求: 心理健康问题日益严重,需要标准化的诊断评估工具
  3. LLMs在医疗领域的潜力: 大型语言模型在自然语言处理任务中表现出色,在医疗对话场景中具有应用潜力

研究重要性

  • 标准化诊断: PHQ-9和GAD-7是临床广泛使用的标准化评估工具
  • 自动化需求: 通过LLMs自动化诊断评估可以减轻临床医生负担
  • 一致性要求: LLMs必须能够复制临床医生的标准诊断程序才能实际应用

现有方法局限性

  1. 评分方法: 仅基于文本相关性评分,缺乏深度理解
  2. 可解释AI方法: 使用LIME/SHAP等代理模型,但临床可解释性有限
  3. 文本片段识别: 缺乏对特定诊断标准的专业化指导

核心贡献

  1. 首创专业化模型: 提出DiagnosticLlama,这是首个基于Llama架构专门针对诊断标准评估的微调模型
  2. 综合评估框架: 建立了涵盖提示和微调两大类方法的全面评估体系
  3. 高质量数据集: 构建了专家验证的LLM标注合成数据集,促进相关研究
  4. 多模型对比: 系统比较了专有模型(GPT-3.5, GPT-4o)和开源模型(Llama-3.1-8b, Mixtral-8x7b)的性能
  5. 标准化方法: 提供了将LLMs应用于PHQ-9和GAD-7诊断评估的标准化方法

方法详解

任务定义

输入: 社交媒体帖子文本(作为患者-临床医生交互的代理) 输出: 针对PHQ-9/GAD-7各项症状的文本片段识别和症状存在性判断 约束: 必须严格遵循PHQ-9和GAD-7的标准诊断流程

模型架构

1. 提示方法 (Prompting Methods)

  • 朴素提示: 直接指令式提示
  • 样例提示: 提供少量示例的few-shot提示
  • 指导式提示: 包含推理步骤指导的Chain-of-Thought提示

2. 微调方法 (Fine-tuning Methods)

  • 基础模型: MentalLlama (基于105K心理健康指令数据训练)
  • DiagnosticLlama: 使用HuggingFace AutoTrain在PRIMATE数据集上微调MentalLlama

数据处理流程

真实标准数据集创建

  1. 基础数据: 使用PRIMATE数据集(社交媒体帖子+PHQ-9标注)
  2. GPT-4o增强: 使用GPT-4o识别对应症状的文本片段
  3. 专家验证: 三名临床专家验证GPT-4o输出(Cohen's Kappa: 0.74 for PHQ-9, 0.72 for GAD-7)
  4. 质量控制: 仅保留专家一致认可的标注结果

技术创新点

  1. 症状特定指导: 针对PHQ-9和GAD-7的每个症状设计专门的提示模板
  2. 多层次评估: 结合hits@k排序和标准分类指标的双重评估体系
  3. 跨模型一致性: 在多个不同规模和类型的LLMs上验证方法有效性
  4. 临床验证: 引入专业临床医生进行质量验证,确保临床相关性

实验设置

数据集

  • PRIMATE数据集: 包含社交媒体帖子及PHQ-9相关标注
  • 专家验证子集:
    • PHQ-9: 40个GPT-4o标注样本经专家验证
    • GAD-7: 17个GPT-4o标注样本经专家验证
  • 模型标注数据: 总计1034个帖子的多模型标注结果

评价指标

  1. hits@k排序指标:
    • hits@1: 最相似文本片段在真实标准前1位的命中率
    • hits@5: 最相似文本片段在真实标准前5位的命中率
  2. 标准分类指标: 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数

对比方法

  • 专有模型: GPT-3.5-Turbo, GPT-4o-mini
  • 开源模型: Llama-3.1-8b, Mixtral-8x7b
  • 微调模型: MentalLlama, DiagnosticLlama
  • 传统方法: BERT, MentalBERT, MentalRoBERTa
  • 机器学习方法: Logistic Regression, Random Forest, XGBoost

实现细节

  • 使用HuggingFace AutoTrain进行无代码微调
  • 相同提示结构应用于所有模型以确保公平比较
  • 受预算和API限制随机选择测试子集

实验结果

主要结果

PHQ-9症状标注结果

专有模型表现:

模型hits@1hits@5AccuracyPrecisionRecallF1-score
GPT-3.5-Turbo87%98%0.930.890.960.92
GPT-4o-mini89%99%0.940.960.980.92

开源模型表现:

模型hits@1hits@5AccuracyPrecisionRecallF1-score
Llama-3.1-8b83%88%0.840.860.780.82
Mixtral-8x7b92%99%0.920.960.950.93

微调模型表现:

模型hits@1hits@5AccuracyPrecisionRecallF1-score
MentalLlama--0.820.830.630.75
DiagnosticLlama68.3%76.2%----

GAD-7症状标注结果

GAD-7的结果与PHQ-9呈现相似趋势,专有模型和开源模型均接近人类标注质量。

重要发现

  1. 模型性能差异: 新一代LLMs显著优于旧版本模型
    • Llama2-7b-chat: F1=0.663
    • Mistral-instruct: F1=0.655
  2. 微调挑战: 微调LLMs用于专业诊断任务极具挑战性
    • MentalLlama直接重复输入,显示微调配置的重要性
    • DiagnosticLlama显示改进但仍需优化
  3. 传统方法对比:
    • BERT: F1=0.69
    • MentalBERT: F1=0.71
    • MentalRoBERTa: F1=0.48
    • 传统ML方法表现更差(最高XGBoost: F1=0.65)

案例分析

论文通过具体示例展示了模型如何识别文本中对应PHQ-9症状的片段,例如识别"I thought I set myself up for success. Now I believe I was dead wrong for joining"对应"感觉自己是失败者"症状。

相关工作

主要研究方向

  1. 评分方法: 基于与PHQ-9/GAD-7症状相关性的文本评分排序
  2. 可解释AI方法: 使用LIME/SHAP等技术对BERT模型输出进行临床解释
  3. 文本片段识别: 预测和总结文本片段,与人工标注对比

本文优势

  • 专业化指导: 高度专门化的模型输出指导,针对特定诊断标准
  • 首创性: 首个基于Llama架构的诊断专用微调模型
  • 系统性: 提供提示和微调两大类方法的系统比较

结论与讨论

主要结论

  1. Few-shot学习有效: LLMs在few-shot设置下能够接近专家临床医生的评估质量
  2. 推理差异: 尽管结果接近,LLMs的推理过程与临床医生仍有显著差异
  3. 微调挑战: 微调LLMs用于心理健康诊断辅助仍面临重大技术挑战
  4. 实用潜力: 研究为缓解医疗系统压力提供了有前景的方向

局限性

  1. 推理一致性: LLMs与临床医生的推理过程匹配度有限
  2. 数据规模: 专家验证的真实标准数据集规模相对较小
  3. 预算限制: API成本限制了大规模实验验证
  4. 微调复杂性: 微调需要大量资源和超参数调优

未来方向

  1. 临床应用: 开发面向临床医生的应用程序
  2. 扩展评估: 将DiagnosticLlama扩展到GAD-7,增加数据集规模
  3. 复杂问卷: 支持非线性结构化问卷(如CSSRS)
  4. 安全约束: 整合术语限制和输出改写以确保安全性

深度评价

优点

  1. 临床相关性强: 直接针对临床广泛使用的标准化评估工具
  2. 方法全面: 涵盖提示和微调两大主流方法
  3. 评估严谨: 引入专业临床医生验证,确保结果可信度
  4. 开源贡献: 提供模型和数据集供社区使用
  5. 实验充分: 多模型、多指标的系统性比较

不足

  1. 数据集规模: 专家验证的数据集相对较小,可能影响结论的泛化性
  2. 领域局限: 仅针对抑郁和焦虑两种疾病,覆盖面有限
  3. 推理分析: 对LLMs推理过程与临床医生差异的分析不够深入
  4. 成本考虑: 实际部署的成本效益分析缺失
  5. 伦理讨论: 对AI辅助心理健康诊断的伦理问题讨论不足

影响力

  1. 学术价值: 为LLMs在心理健康领域的应用提供了重要参考
  2. 实用价值: 为医疗机构部署AI辅助诊断系统提供技术基础
  3. 社会意义: 有望缓解心理健康服务资源短缺问题
  4. 可复现性: 开源代码和数据集支持研究复现和扩展

适用场景

  1. 初步筛查: 适用于大规模心理健康初步筛查
  2. 辅助诊断: 作为临床医生的辅助工具而非替代
  3. 远程医疗: 支持远程心理健康服务
  4. 研究工具: 为心理健康研究提供自动化分析工具

参考文献

论文引用了29篇相关文献,涵盖了LLMs、心理健康评估、提示工程、微调技术等多个相关领域的重要工作,为研究提供了坚实的理论基础。


总体评价: 这是一篇在LLMs应用于心理健康诊断领域的重要探索性工作。论文方法科学、实验充分、结论可信,为该交叉领域的发展做出了有价值的贡献。尽管存在一些局限性,但其开创性意义和实用价值使其成为该领域的重要参考文献。