2025-11-17T04:19:13.460591

Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case

Roy, Surana, Eswaramoorthi et al.

Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.

academic

大規模言語モデルを用いた精神保健診断評価：大規模言語モデルが精神保健診断評価を支援する可能性の探索 -- うつ病と不安症の事例

基本情報

論文ID: 2501.01305
タイトル: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
著者: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
分類: cs.CL（計算言語学）
発表日: 2025年1月2日（arXivプレプリント）
論文リンク: https://arxiv.org/abs/2501.01305
所属機関: サウスカロライナ大学AIインスティテュート、インド研究科学研究所、インド工科大学

要旨

大規模言語モデル（LLMs）は診断評価の支援において医療専門家からの関心が高まっており、患者負荷の過剰と医療提供者の不足による医療システムの圧力を緩和する可能性を示している。LLMsが診断評価の支援において効果的に機能するためには、臨床医が使用する標準的な診断手順を密接に複製できる必要がある。本論文は、大うつ病性障害（MDD）に対する患者健康質問票-9（PHQ-9）および全般性不安症（GAD）に対する広汎性不安症-7（GAD-7）質問票の診断評価プロセスを特に研究している。本研究は、様々なプロンプト技法とファインチューニング技法を探索し、専有およびオープンソースのLLMsがこれらの診断フローに従うよう指導し、LLMが生成した診断結果と専門家検証済みのゴールドスタンダード間の一致性を評価した。

研究背景と動機

問題背景

医療システムの圧力: 現在の医療システムは患者負荷の過剰と医療提供者の不足という二重の圧力に直面している
精神保健診断の必要性: 精神保健問題が増加しており、標準化された診断評価ツールが必要とされている
医療分野におけるLLMsの可能性: 大規模言語モデルは自然言語処理タスクで優れた性能を示しており、医療対話シナリオでの応用可能性を有している

研究の重要性

標準化診断: PHQ-9とGAD-7は臨床で広く使用されている標準化評価ツールである
自動化の必要性: LLMsによる診断評価の自動化は臨床医の負担を軽減できる
一致性の要件: LLMsが実際に応用されるためには、臨床医の標準的な診断手順を複製できる必要がある

既存手法の限界

スコアリング手法: テキスト関連性スコアのみに基づいており、深い理解に欠ける
解釈可能AI手法: LIME/SHAPなどの代理モデルを使用しているが、臨床的解釈可能性に限界がある
テキスト片段識別: 特定の診断基準に対する専門的指導に欠ける

中核的貢献

初の専門化モデル: DiagnosticLlamaを提案。これはLlamaアーキテクチャに基づいた診断基準評価専用の初めてのファインチューニングモデルである
包括的評価フレームワーク: プロンプト技法とファインチューニング技法の2つの主要カテゴリーを網羅した包括的評価体系を構築
高品質データセット: 専門家検証済みのLLM注釈合成データセットを構築し、関連研究を促進
複数モデル比較: 専有モデル（GPT-3.5、GPT-4o）とオープンソースモデル（Llama-3.1-8b、Mixtral-8x7b）の性能を体系的に比較
標準化手法: PHQ-9およびGAD-7診断評価にLLMsを適用するための標準化手法を提供

方法の詳細

タスク定義

入力: ソーシャルメディア投稿テキスト（患者-臨床医相互作用の代理として）出力: PHQ-9/GAD-7の各症状に対するテキスト片段識別と症状存在判定制約: PHQ-9およびGAD-7の標準的な診断フローに厳密に従う必要がある

モデルアーキテクチャ

1. プロンプト手法（Prompting Methods）

素朴なプロンプト: 直接的な指示型プロンプト
例示プロンプト: 少数の例を提供するfew-shotプロンプト
指導型プロンプト: 推論ステップの指導を含むChain-of-Thoughtプロンプト

2. ファインチューニング手法（Fine-tuning Methods）

基盤モデル: MentalLlama（105K精神保健指示データで訓練）
DiagnosticLlama: HuggingFace AutoTrainを使用してPRIMATEデータセット上でMentalLlamaをファインチューニング

データ処理フロー

ゴールドスタンダードデータセットの作成

基礎データ: PRIMATEデータセット（ソーシャルメディア投稿+PHQ-9注釈）を使用
GPT-4o拡張: GPT-4oを使用して対応する症状のテキスト片段を識別
専門家検証: 3名の臨床専門家がGPT-4o出力を検証（Cohen's Kappa: PHQ-9で0.74、GAD-7で0.72）
品質管理: 専門家が一致して認可した注釈結果のみを保持

技術的革新点

症状特異的指導: PHQ-9およびGAD-7の各症状に対する専門的なプロンプトテンプレートの設計
多層評価: hits@kランキングと標準分類指標の二重評価体系の組み合わせ
クロスモデル一致性: 異なるサイズと種類の複数のLLMs上で手法の有効性を検証
臨床検証: 専門の臨床医を導入して品質検証を実施し、臨床的関連性を確保

実験設定

データセット

PRIMATEデータセット: ソーシャルメディア投稿およびPHQ-9関連注釈を含む
専門家検証サブセット:
- PHQ-9: 40個のGPT-4o注釈サンプルが専門家検証済み
- GAD-7: 17個のGPT-4o注釈サンプルが専門家検証済み
モデル注釈データ: 合計1034投稿の複数モデル注釈結果

評価指標

hits@kランキング指標:
- hits@1: 最も類似したテキスト片段がゴールドスタンダード上位1位に入る命中率
- hits@5: 最も類似したテキスト片段がゴールドスタンダード上位5位に入る命中率
標準分類指標: 正確度（Accuracy）、適合率（Precision）、再現率（Recall）、F1スコア

比較手法

専有モデル: GPT-3.5-Turbo、GPT-4o-mini
オープンソースモデル: Llama-3.1-8b、Mixtral-8x7b
ファインチューニングモデル: MentalLlama、DiagnosticLlama
従来手法: BERT、MentalBERT、MentalRoBERTa
機械学習手法: ロジスティック回帰、ランダムフォレスト、XGBoost

実装の詳細

HuggingFace AutoTrainを使用したコード不要のファインチューニング
すべてのモデルに同じプロンプト構造を適用して公平な比較を確保
予算とAPI制限により、テストサブセットをランダムに選択

実験結果

主要な結果

PHQ-9症状注釈結果

専有モデルの性能:

モデル	hits@1	hits@5	正確度	適合率	再現率	F1スコア
GPT-3.5-Turbo	87%	98%	0.93	0.89	0.96	0.92
GPT-4o-mini	89%	99%	0.94	0.96	0.98	0.92

オープンソースモデルの性能:

モデル	hits@1	hits@5	正確度	適合率	再現率	F1スコア
Llama-3.1-8b	83%	88%	0.84	0.86	0.78	0.82
Mixtral-8x7b	92%	99%	0.92	0.96	0.95	0.93

ファインチューニングモデルの性能:

モデル	hits@1	hits@5	正確度	適合率	再現率	F1スコア
MentalLlama	-	-	0.82	0.83	0.63	0.75
DiagnosticLlama	68.3%	76.2%	-	-	-	-

GAD-7症状注釈結果

GAD-7の結果はPHQ-9と同様の傾向を示し、専有モデルとオープンソースモデルの両方が人間の注釈品質に近い結果を示した。

重要な知見

モデル性能の差異: 新世代のLLMsは旧版モデルを大幅に上回る
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
ファインチューニングの課題: 専門的診断タスク用のLLMsのファインチューニングは極めて困難
- MentalLlamaは入力を直接繰り返し、ファインチューニング構成の重要性を示唆
- DiagnosticLlamaは改善を示すが、さらなる最適化が必要
従来手法との比較:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- 従来のML手法はさらに低い性能（最高XGBoost: F1=0.65）

ケーススタディ

論文は具体的な例を通じて、モデルがテキスト内のPHQ-9症状に対応する片段をどのように識別するかを示している。例えば、「I thought I set myself up for success. Now I believe I was dead wrong for joining」が「自分は失敗者だと感じる」症状に対応することを識別している。