2025-11-15T23:04:12.069621

GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study

Lorenzoni, Velmovitsky, Alencar et al.
Depression has impacted millions of people worldwide and has become one of the most prevalent mental disorders. Early mental disorder detection can lead to cost savings for public health agencies and avoid the onset of other major comorbidities. Additionally, the shortage of specialized personnel is a critical issue because clinical depression diagnosis is highly dependent on expert professionals and is time consuming. In this study, we explore the use of GPT-4 for clinical depression assessment based on transcript analysis. We examine the model's ability to classify patient interviews into binary categories: depressed and not depressed. A comparative analysis is conducted considering prompt complexity (e.g., using both simple and complex prompts) as well as varied temperature settings to assess the impact of prompt complexity and randomness on the model's performance. Results indicate that GPT-4 exhibits considerable variability in accuracy and F1-Score across configurations, with optimal performance observed at lower temperature values (0.0-0.2) for complex prompts. However, beyond a certain threshold (temperature >= 0.3), the relationship between randomness and performance becomes unpredictable, diminishing the gains from prompt complexity. These findings suggest that, while GPT-4 shows promise for clinical assessment, the configuration of the prompts and model parameters requires careful calibration to ensure consistent results. This preliminary study contributes to understanding the dynamics between prompt engineering and large language models, offering insights for future development of AI-powered tools in clinical settings.
academic

GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study

基本信息

  • 论文ID: 2501.00199
  • 标题: GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study
  • 作者: Giuliano Lorenzoni, Pedro Elkind Velmovitsky, Paulo Alencar, Donald Cowan
  • 分类: cs.CL (Computational Linguistics), cs.AI (Artificial Intelligence)
  • 发表时间: 2024年12月31日 (arXiv预印本)
  • 论文链接: https://arxiv.org/abs/2501.00199

摘要

抑郁症已影响全球数百万人,成为最普遍的精神疾病之一。早期精神疾病检测可为公共卫生机构节约成本并避免其他重大并发症的发生。此外,专业人员短缺是一个关键问题,因为临床抑郁症诊断高度依赖专业人士且耗时较长。

本研究探索使用GPT-4基于访谈转录文本进行临床抑郁症评估。研究检验了模型将患者访谈分类为二元类别(抑郁和非抑郁)的能力。通过考虑提示复杂性(简单和复杂提示)以及不同温度设置进行比较分析,评估提示复杂性和随机性对模型性能的影响。

结果表明,GPT-4在不同配置下的准确率和F1分数存在显著变异性,在复杂提示的较低温度值(0.0-0.2)下观察到最佳性能。然而,超过某个阈值(温度≥0.3)时,随机性与性能之间的关系变得不可预测,削弱了提示复杂性带来的收益。

研究背景与动机

问题定义

本研究要解决的核心问题是如何利用大语言模型GPT-4来辅助临床抑郁症诊断,特别是通过分析患者访谈转录文本进行二元分类(抑郁/非抑郁)。

问题重要性

  1. 全球健康负担:抑郁症是全球最普遍的精神疾病之一,影响数百万人
  2. 早期检测价值:早期发现可显著降低医疗成本并预防严重并发症
  3. 资源短缺:专业精神健康人员严重不足,诊断过程依赖专家且耗时
  4. 技术机遇:大语言模型的发展为自动化精神健康评估提供了新可能

现有方法局限性

  1. 传统机器学习方法:主要使用SVM、TextCNN等方法,在DAIC-WOZ数据集上的应用有限
  2. 特征工程依赖:需要手工提取特征,缺乏端到端的自动化能力
  3. LLM应用不足:虽然有研究使用LLM进行抑郁症检测,但缺乏系统性的提示工程和参数调优研究

研究动机

通过系统性地研究GPT-4在临床抑郁症评估中的应用,特别关注提示工程策略和模型参数(如温度)对性能的影响,为AI辅助精神健康诊断提供实证基础。

核心贡献

  1. 首次系统性研究GPT-4在临床抑郁症二元分类任务中的应用,基于DAIC-WOZ数据集进行全面评估
  2. 提出渐进式提示工程策略,从简单提示到复杂提示再到示例增强,系统分析不同复杂度对性能的影响
  3. 深入分析温度参数对模型稳定性和性能的影响,发现0.0-0.2的最优温度范围
  4. 揭示了提示复杂性与随机性之间的非线性关系,为临床AI应用的参数调优提供指导
  5. 为AI辅助精神健康诊断提供了实用的配置策略,强调了在临床环境中减少假阴性的重要性

方法详解

任务定义

输入:患者访谈的转录文本(来自DAIC-WOZ数据集) 输出:二元分类结果("depressed" 或 "not depressed") 约束:基于PHQ-8量表的标准化诊断标准

实验设计架构

本研究采用五阶段渐进式实验设计:

RQ1:简单提示基线

使用最基本的分类提示,不提供任何上下文或示例,作为性能基线。

RQ2:示例增强提示

在简单提示基础上加入四个示例(两个抑郁案例,两个非抑郁案例),采用few-shot学习策略。

RQ3:复杂提示设计

结合示例和详细的临床上下文,模拟专业心理病理学家的分析视角,提供更丰富的指导信息。

RQ4:温度参数调优

系统性测试不同温度值(0.0, 0.1, 0.2, 0.3, 0.5)对模型性能的影响。

RQ5:稳定性分析

分析输出变异性对GPT-4临床诊断可靠性的影响。

技术创新点

  1. 渐进式提示复杂性设计:从简单到复杂的系统性提示工程方法
  2. 温度-性能关系建模:首次系统性研究温度参数在临床分类任务中的作用
  3. 临床导向的评估框架:重点关注减少假阴性,符合临床实践需求
  4. 无训练直接推理:完全基于预训练模型的零样本和少样本能力

实验设置

数据集

DAIC-WOZ (Distress Analysis Interview Corpus - Wizard-of-Oz)

  • 规模:189个访谈会话,实际使用184-188个(因数据处理问题略有变化)
  • 标注:基于PHQ-8量表,56个抑郁案例,约130个非抑郁案例
  • 数据类型:访谈转录文本
  • 数据分布:约30%抑郁案例,70%非抑郁案例(不平衡数据集)

评价指标

  • 准确率 (Accuracy):整体分类正确率
  • 精确率 (Precision):预测为抑郁中真正抑郁的比例
  • 召回率 (Recall):实际抑郁中被正确识别的比例
  • F1分数:精确率和召回率的调和平均数
  • 混淆矩阵:详细展示分类结果分布

实现细节

  • API接口:OpenAI GPT-4 API
  • 编程环境:Python + Pandas + NumPy + scikit-learn + Matplotlib/Seaborn
  • 温度范围:0.0至0.5,间隔0.1
  • 示例选择:平衡选择两个阳性和两个阴性案例

实验结果

主要结果

RQ1:简单提示基线结果

指标数值
准确率70.74%
精确率54.55%
召回率10.71%
F1分数17.91%

混淆矩阵:127个真阴性,5个假阳性,50个假阴性,6个真阳性

RQ2:示例增强提示结果

指标数值
准确率70.49%
精确率50.00%
召回率77.78%
F1分数60.87%

关键发现:召回率显著提升至77.78%,F1分数从17.91%跃升至60.87%

RQ3:复杂提示结果

指标数值
准确率69.23%
精确率48.39%
召回率55.56%
F1分数51.72%

意外发现:复杂提示性能反而下降,可能由于默认温度设置引入过多随机性

RQ4:温度调优结果

温度准确率精确率召回率F1分数
0.072.28%51.95%74.07%61.07%
0.173.37%53.09%79.63%63.70%
0.271.74%51.16%81.48%62.86%
0.367.93%46.67%64.81%54.26%
0.568.48%47.56%72.22%57.35%

关键实验发现

  1. 最优温度范围:0.0-0.2区间表现最佳,温度0.1时达到最高准确率73.37%和F1分数63.70%
  2. 非线性温度-性能关系:温度≥0.3时性能显著下降,呈现不可预测的波动
  3. 示例学习效果显著:few-shot学习使F1分数从17.91%提升至60.87%
  4. 复杂性悖论:过度复杂的提示在默认温度下反而降低性能
  5. 临床指标优化:低温度设置有效平衡了敏感性和特异性

消融实验分析

通过渐进式实验设计,可以清晰看到各组件的贡献:

  • 基础分类能力:简单提示已具备一定分类能力(70.74%准确率)
  • 示例学习增益:few-shot学习显著提升召回率(从10.71%到77.78%)
  • 温度调优价值:合适的温度设置可进一步优化性能平衡
  • 复杂性代价:过度工程化的提示可能引入噪声

相关工作

传统机器学习方法

现有研究主要采用SVM、TextCNN等传统ML方法在DAIC-WOZ数据集上进行抑郁症检测,重点关注语音特征和文本情感分析,但缺乏端到端的自动化能力。

LLM在精神健康领域的应用

  • E-DAIC研究:使用LLM预测PHQ-8分数,取得3.65的平均绝对误差
  • 跨领域LLM应用:在金融、软件工程等领域的情感分析和分类任务中展现潜力

本文相对优势

  1. 系统性提示工程:首次系统研究提示复杂性对临床分类的影响
  2. 参数敏感性分析:深入分析温度参数对稳定性的影响
  3. 临床导向设计:重点关注减少假阴性,符合临床实践需求

结论与讨论

主要结论

  1. GPT-4具备临床抑郁症分类潜力:在适当配置下可达到73.37%的准确率和63.70%的F1分数
  2. 提示工程策略有效:示例增强显著提升性能,特别是召回率
  3. 温度参数至关重要:0.0-0.2的低温度范围提供最佳稳定性和性能平衡
  4. 复杂性需要谨慎平衡:过度复杂的提示可能引入不必要的变异性
  5. 临床应用需要精细调优:参数配置对一致性和可靠性的影响显著

局限性

  1. 数据集规模限制:仅189个样本,可能影响结果的泛化性
  2. 数据不平衡问题:30%的抑郁率远高于真实人群患病率,可能导致偏差
  3. 单一数据源:仅使用DAIC-WOZ数据集,缺乏跨数据集验证
  4. 随机性影响:模型固有的随机性可能影响结果一致性
  5. 缺乏专业验证:未与临床专家的诊断结果进行对比验证

未来方向

  1. 检索增强生成(RAG):整合外部医学知识库提升诊断准确性
  2. 领域特定微调:使用临床数据对模型进行专门训练
  3. 多模态融合:结合语音、视频等多种模态信息
  4. 控制变异性策略:探索多次运行结果聚合的方法
  5. 大规模临床验证:在更大规模和多样化的临床数据上验证

深度评价

优点

  1. 研究设计严谨:渐进式实验设计清晰展现各因素影响
  2. 实用价值高:为AI辅助精神健康诊断提供实用指导
  3. 参数分析深入:系统性分析温度参数对性能的影响
  4. 临床导向明确:重视减少假阴性,符合临床实践需求
  5. 结果透明详实:提供详细的混淆矩阵和性能指标

不足

  1. 样本规模偏小:189个样本对于深度学习研究相对有限
  2. 缺乏统计显著性检验:未报告结果的统计显著性
  3. 随机性控制不足:未采用多次运行平均来控制随机变异
  4. 基线对比有限:缺乏与其他LLM或传统方法的对比
  5. 临床验证缺失:未与真实临床专家诊断进行对比

影响力

  1. 学术贡献:为LLM在精神健康领域的应用提供重要参考
  2. 实践价值:为临床AI工具开发提供配置策略指导
  3. 方法论价值:提示工程和参数调优方法可推广至其他临床任务
  4. 政策影响:为AI辅助医疗的监管和标准制定提供实证支持

适用场景

  1. 临床辅助诊断:作为精神健康专家的辅助工具
  2. 大规模筛查:在资源有限地区进行初步筛查
  3. 远程医疗:支持在线精神健康服务
  4. 研究工具:用于大规模精神健康研究的数据预处理

参考文献

论文引用了20篇相关文献,涵盖:

  • DAIC-WOZ数据集的相关研究
  • 传统机器学习在抑郁症检测中的应用
  • LLM在各领域的分类和生成任务
  • 精神健康评估的标准化工具(PHQ-8)

总体评价:这是一篇高质量的初步研究,系统性地探索了GPT-4在临床抑郁症评估中的应用潜力。研究设计合理,实验结果有价值,为AI辅助精神健康诊断领域做出了重要贡献。尽管存在样本规模和验证方面的局限,但为后续研究奠定了良好基础。