Large language models (LLMs) are increasingly attracting the attention of healthcare professionals for their potential to assist in diagnostic assessments, which could alleviate the strain on the healthcare system caused by a high patient load and a shortage of providers. For LLMs to be effective in supporting diagnostic assessments, it is essential that they closely replicate the standard diagnostic procedures used by clinicians. In this paper, we specifically examine the diagnostic assessment processes described in the Patient Health Questionnaire-9 (PHQ-9) for major depressive disorder (MDD) and the Generalized Anxiety Disorder-7 (GAD-7) questionnaire for generalized anxiety disorder (GAD). We investigate various prompting and fine-tuning techniques to guide both proprietary and open-source LLMs in adhering to these processes, and we evaluate the agreement between LLM-generated diagnostic outcomes and expert-validated ground truth. For fine-tuning, we utilize the Mentalllama and Llama models, while for prompting, we experiment with proprietary models like GPT-3.5 and GPT-4o, as well as open-source models such as llama-3.1-8b and mixtral-8x7b.
- 논문 ID: 2501.01305
- 제목: Large Language Models for Mental Health Diagnostic Assessments: Exploring The Potential of Large Language Models for Assisting with Mental Health Diagnostic Assessments -- The Depression and Anxiety Case
- 저자: Kaushik Roy, Harshul Surana, Darssan Eswaramoorthi, Yuxin Zi, Vedant Palit, Ritvik Garimella, Amit Sheth
- 분류: cs.CL (계산 언어학)
- 발표 시간: 2025년 1월 2일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2501.01305
- 기관: University of South Carolina AI Institute, Indian Institute of Research and Science, Indian Institute of Technology
대형 언어 모델(LLMs)은 진단 평가 지원 측면에서 의료 전문가들의 관심이 증가하고 있으며, 환자 과부하 및 의료 서비스 제공자 부족으로 인한 의료 시스템 압력을 완화할 가능성이 있다. LLMs이 진단 평가 지원에서 효과적인 역할을 하기 위해서는 임상의가 사용하는 표준 진단 절차를 밀접하게 재현할 수 있어야 한다. 본 논문은 주요 우울장애(MDD)를 위한 환자 건강 설문지-9(PHQ-9)와 범불안장애(GAD)를 위한 범불안장애-7(GAD-7) 설문지의 진단 평가 절차를 구체적으로 연구했다. 본 연구는 다양한 프롬프팅 및 미세조정 기법을 탐색하여 독점 및 오픈소스 LLMs이 이러한 진단 절차를 따르도록 지도하고, LLM이 생성한 진단 결과와 전문가 검증된 참값 기준 간의 일치도를 평가했다.
- 의료 시스템 압력: 현재 의료 시스템은 환자 과부하 및 의료 서비스 제공자 부족의 이중 압력에 직면
- 정신건강 진단 필요성: 정신건강 문제가 증가하고 있으며 표준화된 진단 평가 도구 필요
- 의료 분야에서의 LLMs 잠재력: 대형 언어 모델은 자연어 처리 작업에서 우수한 성능을 보이며 의료 대화 시나리오에서 응용 가능성 보유
- 표준화된 진단: PHQ-9과 GAD-7은 임상에서 광범위하게 사용되는 표준화된 평가 도구
- 자동화 필요성: LLMs을 통한 진단 평가 자동화는 임상의의 부담 경감 가능
- 일치도 요구사항: LLMs은 실제 응용을 위해 임상의의 표준 진단 절차를 재현할 수 있어야 함
- 평점 방법: 텍스트 관련성 평점에만 기반하며 깊이 있는 이해 부족
- 해석 가능한 AI 방법: LIME/SHAP 등 대리 모델 사용하나 임상 해석 가능성 제한적
- 텍스트 단편 식별: 특정 진단 기준에 대한 전문화된 지도 부족
- 최초 전문화 모델: DiagnosticLlama 제안 - Llama 아키텍처 기반 진단 기준 평가를 위한 최초 미세조정 모델
- 종합 평가 프레임워크: 프롬프팅 및 미세조정 두 가지 주요 방법을 포괄하는 포괄적 평가 체계 구축
- 고품질 데이터셋: 전문가 검증된 LLM 주석 합성 데이터셋 구축으로 관련 연구 촉진
- 다중 모델 비교: 독점 모델(GPT-3.5, GPT-4o)과 오픈소스 모델(Llama-3.1-8b, Mixtral-8x7b)의 성능 체계적 비교
- 표준화 방법: PHQ-9 및 GAD-7 진단 평가에 LLMs 적용을 위한 표준화 방법 제공
입력: 소셜 미디어 게시물 텍스트(환자-임상의 상호작용의 대리)
출력: PHQ-9/GAD-7 각 항목에 대한 텍스트 단편 식별 및 증상 존재 여부 판단
제약: PHQ-9 및 GAD-7의 표준 진단 절차를 엄격히 준수해야 함
- 기본 프롬프팅: 직접 명령식 프롬프팅
- 예시 프롬프팅: 소수 예시를 제공하는 few-shot 프롬프팅
- 지도식 프롬프팅: 추론 단계 지도를 포함하는 Chain-of-Thought 프롬프팅
- 기본 모델: MentalLlama (105K 정신건강 지시 데이터로 학습)
- DiagnosticLlama: HuggingFace AutoTrain을 사용하여 PRIMATE 데이터셋에서 MentalLlama 미세조정
- 기본 데이터: PRIMATE 데이터셋 사용(소셜 미디어 게시물 + PHQ-9 주석)
- GPT-4o 강화: GPT-4o를 사용하여 해당 증상의 텍스트 단편 식별
- 전문가 검증: 3명의 임상 전문가가 GPT-4o 출력 검증(Cohen's Kappa: PHQ-9 0.74, GAD-7 0.72)
- 품질 관리: 전문가 일치 인정 주석만 보존
- 증상 특화 지도: PHQ-9 및 GAD-7의 각 증상에 대한 전문화된 프롬프트 템플릿 설계
- 다층 평가: hits@k 순위 지정 및 표준 분류 지표의 이중 평가 체계 결합
- 교차 모델 일치도: 다양한 규모 및 유형의 LLMs에서 방법 유효성 검증
- 임상 검증: 전문 임상의 도입으로 임상 관련성 보장
- PRIMATE 데이터셋: 소셜 미디어 게시물 및 PHQ-9 관련 주석 포함
- 전문가 검증 부분집합:
- PHQ-9: 40개 GPT-4o 주석 샘플 전문가 검증
- GAD-7: 17개 GPT-4o 주석 샘플 전문가 검증
- 모델 주석 데이터: 총 1034개 게시물의 다중 모델 주석 결과
- hits@k 순위 지정 지표:
- hits@1: 가장 유사한 텍스트 단편이 참값 기준 상위 1위에 있을 명중률
- hits@5: 가장 유사한 텍스트 단편이 참값 기준 상위 5위에 있을 명중률
- 표준 분류 지표: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 점수
- 독점 모델: GPT-3.5-Turbo, GPT-4o-mini
- 오픈소스 모델: Llama-3.1-8b, Mixtral-8x7b
- 미세조정 모델: MentalLlama, DiagnosticLlama
- 전통 방법: BERT, MentalBERT, MentalRoBERTa
- 머신러닝 방법: Logistic Regression, Random Forest, XGBoost
- HuggingFace AutoTrain을 사용한 코드 없는 미세조정
- 공정한 비교를 위해 모든 모델에 동일한 프롬프트 구조 적용
- 예산 및 API 제한으로 인해 테스트 부분집합을 무작위 선택
독점 모델 성능:
| 모델 | hits@1 | hits@5 | 정확도 | 정밀도 | 재현율 | F1 점수 |
|---|
| GPT-3.5-Turbo | 87% | 98% | 0.93 | 0.89 | 0.96 | 0.92 |
| GPT-4o-mini | 89% | 99% | 0.94 | 0.96 | 0.98 | 0.92 |
오픈소스 모델 성능:
| 모델 | hits@1 | hits@5 | 정확도 | 정밀도 | 재현율 | F1 점수 |
|---|
| Llama-3.1-8b | 83% | 88% | 0.84 | 0.86 | 0.78 | 0.82 |
| Mixtral-8x7b | 92% | 99% | 0.92 | 0.96 | 0.95 | 0.93 |
미세조정 모델 성능:
| 모델 | hits@1 | hits@5 | 정확도 | 정밀도 | 재현율 | F1 점수 |
|---|
| MentalLlama | - | - | 0.82 | 0.83 | 0.63 | 0.75 |
| DiagnosticLlama | 68.3% | 76.2% | - | - | - | - |
GAD-7 결과는 PHQ-9와 유사한 경향을 보이며, 독점 모델과 오픈소스 모델 모두 인간 주석 품질에 근접함.
- 모델 성능 차이: 신세대 LLMs이 구형 모델보다 현저히 우수
- Llama2-7b-chat: F1=0.663
- Mistral-instruct: F1=0.655
- 미세조정 과제: 전문 진단 작업을 위한 LLMs 미세조정은 매우 도전적
- MentalLlama는 입력을 직접 반복하여 미세조정 구성의 중요성 표시
- DiagnosticLlama는 개선을 보이나 여전히 최적화 필요
- 전통 방법 비교:
- BERT: F1=0.69
- MentalBERT: F1=0.71
- MentalRoBERTa: F1=0.48
- 전통 ML 방법은 더 낮은 성능(최고 XGBoost: F1=0.65)
논문은 구체적인 예시를 통해 모델이 텍스트에서 PHQ-9 증상에 해당하는 단편을 어떻게 식별하는지 보여줌. 예를 들어 "I thought I set myself up for success. Now I believe I was dead wrong for joining"을 "자신이 실패자라고 느낌" 증상으로 식별.
- 평점 방법: PHQ-9/GAD-7 증상 관련성에 기반한 텍스트 평점 순위 지정
- 해석 가능한 AI 방법: LIME/SHAP 등 기법을 사용하여 BERT 모델 출력의 임상 해석
- 텍스트 단편 식별: 텍스트 단편 예측 및 요약, 인간 주석과 비교
- 전문화된 지도: 특정 진단 기준을 대상으로 하는 고도로 전문화된 모델 출력 지도
- 선도성: Llama 아키텍처 기반 진단 전용 미세조정 모델 최초 개발
- 체계성: 프롬프팅 및 미세조정 두 가지 방법의 체계적 비교 제공
- Few-shot 학습 유효성: LLMs은 few-shot 설정에서 전문가 임상의의 평가 품질에 근접 가능
- 추론 차이: 결과는 유사하나 LLMs의 추론 과정은 임상의와 여전히 현저한 차이 존재
- 미세조정 과제: 정신건강 진단 지원을 위한 LLMs 미세조정은 여전히 주요 기술 과제 직면
- 실용적 잠재력: 의료 시스템 압력 완화를 위한 유망한 방향 제시
- 추론 일치도: LLMs과 임상의의 추론 과정 일치도 제한적
- 데이터 규모: 전문가 검증된 참값 기준 데이터셋 규모 상대적으로 소규모
- 예산 제한: API 비용이 대규모 실험 검증 제한
- 미세조정 복잡성: 미세조정은 대량의 자원 및 하이퍼파라미터 조정 필요
- 임상 응용: 임상의를 위한 응용 프로그램 개발
- 평가 확장: DiagnosticLlama를 GAD-7로 확장, 데이터셋 규모 증가
- 복잡한 설문지: 비선형 구조화 설문지(예: CSSRS) 지원
- 안전 제약: 용어 제한 및 출력 재작성 통합으로 안전성 보장
- 높은 임상 관련성: 임상에서 광범위하게 사용되는 표준화된 평가 도구를 직접 대상
- 포괄적 방법: 프롬프팅 및 미세조정 두 가지 주류 방법 포괄
- 엄격한 평가: 전문 임상의 검증 도입으로 결과 신뢰도 보장
- 오픈소스 기여: 커뮤니티 사용을 위한 모델 및 데이터셋 제공
- 충분한 실험: 다중 모델, 다중 지표의 체계적 비교
- 데이터셋 규모: 전문가 검증 데이터셋 상대적으로 소규모로 결론의 일반화 가능성 영향 가능
- 영역 제한: 우울증과 불안장애 두 가지 질환만 대상으로 커버리지 제한
- 추론 분석: LLMs 추론 과정과 임상의 차이에 대한 분석 부족
- 비용 고려: 실제 배포의 비용-효과 분석 부재
- 윤리 논의: AI 보조 정신건강 진단의 윤리 문제 논의 부족
- 학술적 가치: 정신건강 분야 LLMs 응용에 중요한 참고 자료 제공
- 실용적 가치: 의료 기관의 AI 보조 진단 시스템 배포를 위한 기술 기초 제공
- 사회적 의의: 정신건강 서비스 자원 부족 문제 완화 가능성
- 재현성: 오픈소스 코드 및 데이터셋으로 연구 재현 및 확장 지원
- 초기 선별: 대규모 정신건강 초기 선별에 적용 가능
- 보조 진단: 임상의의 보조 도구로서 대체가 아닌 역할
- 원격 의료: 원격 정신건강 서비스 지원
- 연구 도구: 정신건강 연구를 위한 자동화 분석 도구
논문은 LLMs, 정신건강 평가, 프롬프트 엔지니어링, 미세조정 기법 등 여러 관련 분야의 중요 연구 29편을 인용하여 견고한 이론적 기초를 제공함.
종합 평가: 본 논문은 LLMs의 정신건강 진단 분야 응용에 대한 중요한 탐색적 연구이다. 과학적 방법론, 충분한 실험, 신뢰할 수 있는 결론으로 해당 교차 분야의 발전에 가치 있는 기여를 했다. 일부 한계가 있지만, 개척적 의의와 실용적 가치로 인해 해당 분야의 중요한 참고 문헌이 되었다.