2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.

academic

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

基本信息

论文ID: 2501.01305
标题: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
作者: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
分类: cs.CL (Computation and Language)
发表时间: 2025年1月2日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2501.01305
机构: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology

摘要

大型语言模型(LLMs)在辅助诊断评估方面日益受到医疗专业人士的关注，有望缓解因患者负荷过重和医疗服务提供者短缺造成的医疗系统压力。为了使LLMs在支持诊断评估中发挥有效作用，它们必须能够密切复制临床医生使用的标准诊断程序。本文专门研究了患者健康问卷-9(PHQ-9)用于重度抑郁症(MDD)和广泛性焦虑症-7(GAD-7)问卷用于广泛性焦虑症(GAD)的诊断评估过程。研究探索了各种提示和微调技术来指导专有和开源LLMs遵循这些诊断流程，并评估了LLM生成的诊断结果与专家验证的真实标准之间的一致性。

研究背景与动机

问题背景

医疗系统压力: 当前医疗系统面临患者负荷过重和医疗服务提供者短缺的双重压力
心理健康诊断需求: 心理健康问题日益严重，需要标准化的诊断评估工具
LLMs在医疗领域的潜力: 大型语言模型在自然语言处理任务中表现出色，在医疗对话场景中具有应用潜力

研究重要性

标准化诊断: PHQ-9和GAD-7是临床广泛使用的标准化评估工具
自动化需求: 通过LLMs自动化诊断评估可以减轻临床医生负担
一致性要求: LLMs必须能够复制临床医生的标准诊断程序才能实际应用

现有方法局限性

评分方法: 仅基于文本相关性评分，缺乏深度理解
可解释AI方法: 使用LIME/SHAP等代理模型，但临床可解释性有限
文本片段识别: 缺乏对特定诊断标准的专业化指导

核心贡献

首创专业化模型: 提出DiagnosticLlama，这是首个基于Llama架构专门针对诊断标准评估的微调模型
综合评估框架: 建立了涵盖提示和微调两大类方法的全面评估体系
高质量数据集: 构建了专家验证的LLM标注合成数据集，促进相关研究
多模型对比: 系统比较了专有模型(GPT-3.5, GPT-4o)和开源模型(Llama-3.1-8b, Mixtral-8x7b)的性能
标准化方法: 提供了将LLMs应用于PHQ-9和GAD-7诊断评估的标准化方法

方法详解

任务定义

输入: 社交媒体帖子文本(作为患者-临床医生交互的代理) 输出: 针对PHQ-9/GAD-7各项症状的文本片段识别和症状存在性判断约束: 必须严格遵循PHQ-9和GAD-7的标准诊断流程

模型架构

1. 提示方法 (Prompting Methods)

朴素提示: 直接指令式提示
样例提示: 提供少量示例的few-shot提示
指导式提示: 包含推理步骤指导的Chain-of-Thought提示

2. 微调方法 (Fine-tuning Methods)

基础模型: MentalLlama (基于105K心理健康指令数据训练)
DiagnosticLlama: 使用HuggingFace AutoTrain在PRIMATE数据集上微调MentalLlama

数据处理流程

真实标准数据集创建

基础数据: 使用PRIMATE数据集(社交媒体帖子+PHQ-9标注)
GPT-4o增强: 使用GPT-4o识别对应症状的文本片段
专家验证: 三名临床专家验证GPT-4o输出(Cohen's Kappa: 0.74 for PHQ-9, 0.72 for GAD-7)
质量控制: 仅保留专家一致认可的标注结果

技术创新点

症状特定指导: 针对PHQ-9和GAD-7的每个症状设计专门的提示模板
多层次评估: 结合hits@k排序和标准分类指标的双重评估体系
跨模型一致性: 在多个不同规模和类型的LLMs上验证方法有效性
临床验证: 引入专业临床医生进行质量验证，确保临床相关性

实验设置

数据集

PRIMATE数据集: 包含社交媒体帖子及PHQ-9相关标注
专家验证子集:
- PHQ-9: 40个GPT-4o标注样本经专家验证
- GAD-7: 17个GPT-4o标注样本经专家验证
模型标注数据: 总计1034个帖子的多模型标注结果

评价指标

hits@k排序指标:
- hits@1: 最相似文本片段在真实标准前1位的命中率
- hits@5: 最相似文本片段在真实标准前5位的命中率
标准分类指标: 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数

对比方法

专有模型: GPT-3.5-Turbo, GPT-4o-mini
开源模型: Llama-3.1-8b, Mixtral-8x7b
微调模型: MentalLlama, DiagnosticLlama
传统方法: BERT, MentalBERT, MentalRoBERTa
机器学习方法: Logistic Regression, Random Forest, XGBoost

实现细节

使用HuggingFace AutoTrain进行无代码微调
相同提示结构应用于所有模型以确保公平比较
受预算和API限制随机选择测试子集

实验结果

主要结果

PHQ-9症状标注结果

专有模型表现:

模型	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
GPT-3.5-Turbo	87%	98%	0.93	0.89	0.96	0.92
GPT-4o-mini	89%	99%	0.94	0.96	0.98	0.92

开源模型表现:

模型	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
Llama-3.1-8b	83%	88%	0.84	0.86	0.78	0.82
Mixtral-8x7b	92%	99%	0.92	0.96	0.95	0.93

微调模型表现:

模型	hits@1	hits@5	Accuracy	Precision	Recall	F1-score
MentalLlama	-	-	0.82	0.83	0.63	0.75
DiagnosticLlama	68.3%	76.2%	-	-	-	-

GAD-7症状标注结果

GAD-7的结果与PHQ-9呈现相似趋势，专有模型和开源模型均接近人类标注质量。

重要发现

模型性能差异: 新一代LLMs显著优于旧版本模型
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
微调挑战: 微调LLMs用于专业诊断任务极具挑战性
- MentalLlama直接重复输入，显示微调配置的重要性
- DiagnosticLlama显示改进但仍需优化
传统方法对比:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- 传统ML方法表现更差(最高XGBoost: F1=0.65)