2025-11-15T23:04:12.069621

GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study

Lorenzoni, Velmovitsky, Alencar et al.

Depression has impacted millions of people worldwide and has become one of the most prevalent mental disorders. Early mental disorder detection can lead to cost savings for public health agencies and avoid the onset of other major comorbidities. Additionally, the shortage of specialized personnel is a critical issue because clinical depression diagnosis is highly dependent on expert professionals and is time consuming. In this study, we explore the use of GPT-4 for clinical depression assessment based on transcript analysis. We examine the model's ability to classify patient interviews into binary categories: depressed and not depressed. A comparative analysis is conducted considering prompt complexity (e.g., using both simple and complex prompts) as well as varied temperature settings to assess the impact of prompt complexity and randomness on the model's performance. Results indicate that GPT-4 exhibits considerable variability in accuracy and F1-Score across configurations, with optimal performance observed at lower temperature values (0.0-0.2) for complex prompts. However, beyond a certain threshold (temperature >= 0.3), the relationship between randomness and performance becomes unpredictable, diminishing the gains from prompt complexity. These findings suggest that, while GPT-4 shows promise for clinical assessment, the configuration of the prompts and model parameters requires careful calibration to ensure consistent results. This preliminary study contributes to understanding the dynamics between prompt engineering and large language models, offering insights for future development of AI-powered tools in clinical settings.

academic

GPT-4를 이용한 임상 우울증 평가: LLM 기반 파일럿 연구

기본 정보

논문 ID: 2501.00199
제목: GPT-4 on Clinic Depression Assessment: An LLM-Based Pilot Study
저자: Giuliano Lorenzoni, Pedro Elkind Velmovitsky, Paulo Alencar, Donald Cowan
분류: cs.CL (계산 언어학), cs.AI (인공지능)
발표 시간: 2024년 12월 31일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.00199

초록

우울증은 전 세계 수백만 명에게 영향을 미치고 있으며, 가장 널리 퍼진 정신질환 중 하나가 되었다. 정신질환의 조기 발견은 공공보건 기관의 비용을 절감하고 다른 주요 합병증의 발생을 예방할 수 있다. 더욱이, 전문 인력 부족은 임상 우울증 진단이 전문가에 크게 의존하고 시간이 오래 걸리기 때문에 핵심 문제이다.

본 연구는 면접 전사 텍스트를 기반으로 임상 우울증 평가를 위해 GPT-4를 사용하는 것을 탐색한다. 연구는 환자 면접을 이진 범주(우울증 및 비우울증)로 분류하는 모델의 능력을 검증한다. 프롬프트 복잡성(단순 및 복잡 프롬프트)과 다양한 온도 설정을 고려하여 비교 분석을 수행함으로써 프롬프트 복잡성과 무작위성이 모델 성능에 미치는 영향을 평가한다.

결과는 GPT-4가 다양한 구성에서 정확도와 F1 점수에 상당한 변동성을 보이며, 복잡 프롬프트의 낮은 온도 값(0.0-0.2)에서 최고의 성능을 관찰했음을 나타낸다. 그러나 특정 임계값(온도 ≥ 0.3)을 초과하면 무작위성과 성능 간의 관계가 예측 불가능해지며, 프롬프트 복잡성으로 인한 이점을 약화시킨다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 대규모 언어 모델 GPT-4를 활용하여 임상 우울증 진단을 보조하는 방법이며, 특히 환자 면접 전사 텍스트를 분석하여 이진 분류(우울증/비우울증)를 수행하는 것이다.

문제의 중요성

전 지구적 건강 부담: 우울증은 전 세계 가장 널리 퍼진 정신질환 중 하나이며 수백만 명에게 영향을 미친다
조기 발견의 가치: 조기 발견은 의료 비용을 크게 감소시키고 심각한 합병증을 예방할 수 있다
자원 부족: 정신건강 전문 인력이 심각하게 부족하며, 진단 과정은 전문가에 의존하고 시간이 오래 걸린다
기술적 기회: 대규모 언어 모델의 발전은 정신건강 평가 자동화를 위한 새로운 가능성을 제공한다

기존 방법의 한계

전통적 기계학습 방법: 주로 SVM, TextCNN 등의 방법을 사용하며, DAIC-WOZ 데이터셋에서의 적용이 제한적이다
특성 공학 의존성: 수동으로 특성을 추출해야 하며, 종단 간 자동화 능력이 부족하다
LLM 적용 부족: LLM을 사용한 우울증 감지 연구가 있지만, 체계적인 프롬프트 엔지니어링 및 매개변수 최적화 연구가 부족하다

연구 동기

GPT-4의 임상 우울증 평가 적용을 체계적으로 연구하고, 특히 프롬프트 엔지니어링 전략과 모델 매개변수(예: 온도)가 성능에 미치는 영향에 초점을 맞추어 AI 보조 정신건강 진단을 위한 실증적 기초를 제공한다.

핵심 기여

GPT-4의 임상 우울증 이진 분류 작업에서의 첫 체계적 연구, DAIC-WOZ 데이터셋을 기반으로 한 포괄적 평가
점진적 프롬프트 엔지니어링 전략 제안, 단순 프롬프트에서 복잡 프롬프트 및 예제 강화까지 다양한 복잡도의 영향을 체계적으로 분석
온도 매개변수가 모델 안정성과 성능에 미치는 영향에 대한 심층 분석, 0.0-0.2의 최적 온도 범위 발견
프롬프트 복잡성과 무작위성 간의 비선형 관계 규명, 임상 AI 응용의 매개변수 최적화에 대한 지침 제공
AI 보조 정신건강 진단을 위한 실용적 구성 전략 제시, 임상 환경에서 거짓 음성 감소의 중요성 강조

방법론 상세 설명

작업 정의

입력: 환자 면접의 전사 텍스트(DAIC-WOZ 데이터셋에서 출처) 출력: 이진 분류 결과("우울증" 또는 "비우울증") 제약: PHQ-8 척도를 기반으로 한 표준화된 진단 기준

실험 설계 아키텍처

본 연구는 5단계 점진적 실험 설계를 채택한다:

RQ1: 단순 프롬프트 기준선

상황 정보나 예제 없이 가장 기본적인 분류 프롬프트를 사용하며, 성능 기준선으로 작용한다.

RQ2: 예제 강화 프롬프트

단순 프롬프트에 4개의 예제(우울증 사례 2개, 비우울증 사례 2개)를 추가하여 소수 샷 학습 전략을 채택한다.

RQ3: 복잡 프롬프트 설계

예제와 상세한 임상 맥락을 결합하여 전문 심리병리학자의 분석 관점을 모방하고 더 풍부한 지침 정보를 제공한다.

RQ4: 온도 매개변수 최적화

다양한 온도 값(0.0, 0.1, 0.2, 0.3, 0.5)이 모델 성능에 미치는 영향을 체계적으로 테스트한다.

RQ5: 안정성 분석

출력 변동성이 GPT-4 임상 진단 신뢰성에 미치는 영향을 분석한다.

기술적 혁신점

점진적 프롬프트 복잡성 설계: 단순에서 복잡으로의 체계적 프롬프트 엔지니어링 방법
온도-성능 관계 모델링: 임상 분류 작업에서 온도 매개변수의 역할에 대한 첫 체계적 연구
임상 지향적 평가 프레임워크: 거짓 음성 감소에 초점을 맞추며 임상 실무와 부합
훈련 없는 직접 추론: 사전 훈련된 모델의 영점 샷 및 소수 샷 능력에 완전히 기반

실험 설정

데이터셋

DAIC-WOZ (Distress Analysis Interview Corpus - Wizard-of-Oz)

규모: 189개 면접 세션, 실제 사용 184-188개(데이터 처리 문제로 인한 약간의 변동)
주석: PHQ-8 척도를 기반으로, 56개 우울증 사례, 약 130개 비우울증 사례
데이터 유형: 면접 전사 텍스트
데이터 분포: 약 30% 우울증 사례, 70% 비우울증 사례(불균형 데이터셋)

평가 지표

정확도 (Accuracy): 전체 분류 정확성
정밀도 (Precision): 우울증으로 예측된 것 중 실제 우울증의 비율
재현율 (Recall): 실제 우울증 중 올바르게 식별된 비율
F1 점수: 정밀도와 재현율의 조화 평균
혼동 행렬: 분류 결과 분포의 상세 표시

구현 세부사항

API 인터페이스: OpenAI GPT-4 API
프로그래밍 환경: Python + Pandas + NumPy + scikit-learn + Matplotlib/Seaborn
온도 범위: 0.0에서 0.5, 0.1 간격
예제 선택: 양성 및 음성 사례 각 2개를 균형 있게 선택

실험 결과

주요 결과

RQ1: 단순 프롬프트 기준선 결과

지표	수치
정확도	70.74%
정밀도	54.55%
재현율	10.71%
F1 점수	17.91%

혼동 행렬: 참 음성 127개, 거짓 양성 5개, 거짓 음성 50개, 참 양성 6개

RQ2: 예제 강화 프롬프트 결과

지표	수치
정확도	70.49%
정밀도	50.00%
재현율	77.78%
F1 점수	60.87%

핵심 발견: 재현율이 77.78%로 크게 향상되었으며, F1 점수는 17.91%에서 60.87%로 급증

RQ3: 복잡 프롬프트 결과

지표	수치
정확도	69.23%
정밀도	48.39%
재현율	55.56%
F1 점수	51.72%

예상 외 발견: 복잡 프롬프트 성능이 오히려 저하되었으며, 기본 온도 설정으로 인한 과도한 무작위성 때문일 수 있다

RQ4: 온도 최적화 결과

온도	정확도	정밀도	재현율	F1 점수
0.0	72.28%	51.95%	74.07%	61.07%
0.1	73.37%	53.09%	79.63%	63.70%
0.2	71.74%	51.16%	81.48%	62.86%
0.3	67.93%	46.67%	64.81%	54.26%
0.5	68.48%	47.56%	72.22%	57.35%

주요 실험 발견

최적 온도 범위: 0.0-0.2 구간이 최고의 성능을 보이며, 온도 0.1에서 최고 정확도 73.37%와 F1 점수 63.70%에 도달
비선형 온도-성능 관계: 온도 ≥ 0.3에서 성능이 크게 저하되며 예측 불가능한 변동을 나타냄
예제 학습 효과 현저함: 소수 샷 학습이 F1 점수를 17.91%에서 60.87%로 향상
복잡성 역설: 과도하게 복잡한 프롬프트는 기본 온도에서 성능을 오히려 감소
임상 지표 최적화: 낮은 온도 설정이 민감도와 특이도를 효과적으로 균형

제거 실험 분석

점진적 실험 설계를 통해 각 구성 요소의 기여도를 명확하게 볼 수 있다:

기본 분류 능력: 단순 프롬프트가 이미 일정한 분류 능력을 갖추고 있음(70.74% 정확도)
예제 학습 이득: 소수 샷 학습이 재현율을 크게 향상(10.71%에서 77.78%로)
온도 최적화 가치: 적절한 온도 설정이 성능 균형을 추가로 최적화
복잡성 비용: 과도하게 공학화된 프롬프트가 잡음을 도입할 수 있음

결론 및 논의

주요 결론

GPT-4는 임상 우울증 분류 잠재력을 보유: 적절한 구성에서 73.37%의 정확도와 63.70%의 F1 점수 달성 가능
프롬프트 엔지니어링 전략이 효과적: 예제 강화가 성능을 크게 향상시키며, 특히 재현율 개선
온도 매개변수가 매우 중요: 0.0-0.2의 낮은 온도 범위가 최고의 안정성과 성능 균형 제공
복잡성은 신중하게 균형 필요: 과도하게 복잡한 프롬프트가 불필요한 변동성을 도입할 수 있음
임상 적용은 정밀한 조정 필요: 매개변수 구성이 일관성과 신뢰성에 상당한 영향

한계

데이터셋 규모 제한: 189개 샘플만으로는 결과의 일반화 가능성에 영향을 미칠 수 있음
데이터 불균형 문제: 30%의 우울증 비율은 실제 인구 유병률보다 훨씬 높으며 편향을 초래할 수 있음
단일 데이터 소스: DAIC-WOZ 데이터셋만 사용하며 교차 데이터셋 검증 부족
무작위성 영향: 모델 고유의 무작위성이 결과 일관성에 영향을 미칠 수 있음
전문가 검증 부재: 임상 전문가의 진단 결과와 비교 검증 미실시

향후 방향

검색 증강 생성(RAG): 외부 의학 지식 기반을 통합하여 진단 정확도 향상
영역 특정 미세 조정: 임상 데이터를 사용한 모델 전문 훈련
다중 모달 융합: 음성, 비디오 등 다양한 모달 정보 결합
변동성 제어 전략: 다중 실행 결과 집계 방법 탐색
대규모 임상 검증: 더 큰 규모와 다양한 임상 데이터에서 검증

심층 평가

장점

엄밀한 연구 설계: 점진적 실험 설계가 각 요소의 영향을 명확하게 제시
높은 실용 가치: AI 보조 정신건강 진단을 위한 실용적 지침 제공
심층적 매개변수 분석: 온도 매개변수가 성능에 미치는 영향을 체계적으로 분석
명확한 임상 지향성: 거짓 음성 감소를 중시하며 임상 실무와 부합
투명하고 상세한 결과: 상세한 혼동 행렬과 성능 지표 제공

부족한 점

샘플 규모 편소: 189개 샘플은 심층 학습 연구로서 상대적으로 제한적
통계적 유의성 검증 부재: 결과의 통계적 유의성 미보고
무작위성 제어 부족: 무작위 변동을 제어하기 위한 다중 실행 평균 미적용
기준선 비교 제한: 다른 LLM 또는 전통적 방법과의 비교 부족
임상 검증 부재: 실제 임상 전문가 진단과의 비교 미실시

영향력

학술 기여: LLM의 정신건강 분야 적용에 중요한 참고 자료 제공
실무 가치: 임상 AI 도구 개발을 위한 구성 전략 지침 제공
방법론적 가치: 프롬프트 엔지니어링 및 매개변수 최적화 방법을 다른 임상 작업으로 확대 가능
정책 영향: AI 보조 의료의 규제 및 표준 제정을 위한 실증적 지원

적용 시나리오

임상 보조 진단: 정신건강 전문가의 보조 도구로 활용
대규모 선별: 자원이 제한된 지역에서의 초기 선별
원격 의료: 온라인 정신건강 서비스 지원
연구 도구: 대규모 정신건강 연구의 데이터 전처리용

참고문헌

논문은 다음을 포함하는 20편의 관련 문헌을 인용한다:

DAIC-WOZ 데이터셋 관련 연구
우울증 감지에서의 전통적 기계학습 적용
다양한 분야의 LLM 분류 및 생성 작업
정신건강 평가의 표준화 도구(PHQ-8)

종합 평가: 이는 GPT-4의 임상 우울증 평가 적용 잠재력을 체계적으로 탐색한 고품질의 초기 연구이다. 연구 설계가 합리적이고 실험 결과가 가치 있으며, AI 보조 정신건강 진단 분야에 중요한 기여를 한다. 샘플 규모와 검증 측면의 한계가 있지만, 후속 연구를 위한 견고한 기초를 마련했다.