2025-11-17T15:52:13.050530

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations

Nelson, Wong, Silvestrini et al.

Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.

academic

AI 기반 행동 건강 안전 필터 및 텍스트 기반 대화에서 정신 건강 위기 식별을 위한 데이터셋

기본 정보

논문 ID: 2510.12083
제목: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
저자: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
분류: cs.CL cs.AI
발표 시간: 저널 또는 학술대회가 명시되지 않은 사전 출판본
논문 링크: https://arxiv.org/abs/2510.12083

초록

대규모 언어 모델은 정신 건강 위기를 처리할 때 자주 오류를 범하며, 해로운 또는 부적절한 조언을 제공하거나 심지어 파괴적인 행동을 조장합니다. 본 연구는 두 개의 데이터셋에서 Verily 행동 건강 안전 필터(VBHSF)를 평가했습니다: 1,800개의 모의 메시지를 포함하는 Verily 정신 건강 위기 데이터셋과 794개의 정신 건강 관련 메시지를 포함하는 NVIDIA Aegis AI 콘텐츠 안전 데이터셋 부분집합입니다. 두 데이터셋 모두 임상의에 의해 주석 처리되었습니다. 연구는 또한 두 개의 오픈소스 콘텐츠 중재 가드레일과의 비교 성능 분석을 수행했습니다: OpenAI Omni Moderation Latest 및 NVIDIA NeMo Guardrails입니다. VBHSF는 Verily 정신 건강 위기 데이터셋 v1.0에서 우수한 성능을 보였으며, 모든 정신 건강 위기 감지에서 높은 민감도(0.990)와 특이도(0.992)를 달성했습니다. 특정 위기 범주 식별에서 F1 점수는 0.939이며, 민감도 범위는 0.917-0.992, 특이도 ≥0.978입니다. NVIDIA Aegis AI 콘텐츠 안전 데이터셋 2.0에서 평가할 때, VBHSF는 높은 민감도(0.982)와 정확도(0.921)를 유지했지만 특이도는 감소했습니다(0.859). 기존 가드레일과 비교하여, VBHSF는 모든 경우에서 현저히 높은 민감도(모두 p < 0.001)를 보였으며, NVIDIA NeMo에 비해 더 높은 특이도(p < 0.001)를 가지고 있지만, OpenAI Omni Moderation Latest와는 유의미한 차이가 없습니다(p = 0.094).

연구 배경 및 동기

문제 정의

정신 건강 위기의 식별 및 처리는 점점 더 심각한 사회 문제입니다. 연구 배경은 다음을 나타냅니다:

정신 건강 위기의 보편성 및 상승: 정신 건강 응급 사례가 점점 더 흔해지고 증가하는 추세
감지의 어려움: 임상의들도 위기 감지에서 무작위 추측보다 약간만 나음
간접적 표현: 개인들은 종종 고통을 간접적인 방식으로 표현

기존 기술의 한계

현재 대규모 언어 모델은 정신 건강 위기 처리에서 심각한 결함이 있습니다:

높은 위험의 오류: 자살 경고 신호 놓침, 안전하지 않은 조언 제공, 심지어 해를 조장
일반적 가드레일의 부족: 기존 안전 필터는 주로 일반적 위험(예: 성인 콘텐츠, 일반 폭력)을 대상으로 하며 정신 건강 위기 감지에 적합하지 않음
임상 검증 부족: 기존 벤치마크 데이터셋은 정신 건강 메시지와 임상 주석이 부족

연구 동기

본 연구는 다음의 핵심 공백을 채우는 것을 목표로 합니다:

정신 건강 위기에 특화된 안전 필터 개발
임상 검증된 정신 건강 위기 감지 데이터셋 구축
표준화된 평가 프레임워크 수립

핵심 기여

8개의 정신 건강 위기 차원 정의: 임상 전문가와의 협력을 통해 가장 긴급하고 고위험의 표현 형태를 식별했으며, 여기에는 학대, 방임, 섭식 장애 행동, 정신병, 자해, 자살, 물질 남용, 타인에 대한 폭력 및 혼합 표현이 포함됩니다
VBHSF 시스템 개발: 사용자 메시지에서 위기 신호를 식별하고 분류할 수 있는 Transformer 기반의 전문화된 정신 건강 안전 필터
Verily 정신 건강 위기 데이터셋 v1.0 구축: 실제 디지털 통신 패턴을 반영하는 1,800개의 모의 메시지를 포함하며, 두 명의 현직 임상의에 의해 주석 처리됨
평가 벤치마크 수립: 내부 및 외부 데이터셋에서 성능을 평가하고 최첨단 일반 가드레일과 비교

방법론 상세 설명

작업 정의

입력: 텍스트 메시지(실제 디지털 통신을 모의) 출력:

1단계: 이진 분류(위기/비위기)
2단계: 다중 레이블 분류(8개의 구체적 위기 범주)

모델 아키텍처

Verily 행동 건강 안전 필터(VBHSF)

기본 아키텍처: Transformer 기반 LLM(GPT 아키텍처)
핵심 기술: 고급 프롬프트 엔지니어링 및 임상 추론 활용
2단계 설계:
- 1단계: 전체 위기 감지 분류기
- 2단계: "위기"로 표시된 메시지에 대한 다중 레이블 분류

위기 범주 체계

8개의 임상 관련 위기 범주 정의:

학대(Abuse)
방임(Neglect)
섭식 장애 행동(Eating-disorder behaviors)
정신병(Psychosis)
자해(Self-harm)
자살(Suicide)
물질 남용(Substance misuse)
타인에 대한 폭력(Violence towards others)

기술 혁신 포인트

임상 지향 설계: 일반 안전 필터와 달리 정신 건강 위기의 미묘한 차이에 특화되어 최적화됨
계층적 분류 아키텍처: 2단계 설계는 효율적인 위기 감지와 정확한 범주 분류를 보장
실제 통신 패턴 모의: 데이터셋은 언어 기계 오류, 인터넷 용어, 이모지 등 실제 디지털 통신 특징을 포함
높은 민감도 최적화: 의료 보건 응용에 중요한 미감지를 최소화하기 위해 민감도를 우선시

실험 설정

데이터셋

Verily 정신 건강 위기 데이터셋 v1.0

규모: 1,800개 메시지(900개 위기 메시지 + 900개 비위기 메시지)
구축 방법: 사전 훈련된 언어 모델을 사용한 합성, 실제 디지털 통신 패턴 모의
주석: 두 명의 현직 임상의에 의한 독립적 주석, Cohen's κ = 0.99
언어 특징:
- 언어 기계 오류: 55.90%
- 인터넷 용어: 45.80%
- 이모지 및 기호 표시: 13.50%

NVIDIA Aegis AI 콘텐츠 안전 데이터셋 2.0

규모: 794개 메시지(397개 위기, 397개 비위기)
출처: "자살 및 자해"에 초점을 맞춘 인간 데이터 부분집합
재주석: 레이블 정확성을 보장하기 위해 두 명의 임상의가 6.927%의 데이터를 재분류

평가 지표

주요 지표: 민감도(Sensitivity), 특이도(Specificity), 정확도(Accuracy)
종합 지표: F1 점수, 양성 예측값(PPV), 음성 예측값(NPV)
통계 검정: Cochran's Q 검정 및 McNemar 검정(Bonferroni 보정)

비교 방법

OpenAI Omni Moderation Latest: GPT-4o 기반, 13개의 사전 정의된 범주 포함
NVIDIA NeMo Guardrails: 오픈소스 모델, 23개의 위험 범주 포함

실험 결과

주요 결과

Verily 데이터셋에서의 성능

모델	민감도	특이도	정확도	F1 점수
VBHSF	0.990	0.992	0.991	-
OpenAI	0.419	0.999	0.709	-
NVIDIA	0.759	0.756	0.757	-

NVIDIA 데이터셋에서의 성능

모델	민감도	특이도	정확도
VBHSF	0.982	0.859	0.921
OpenAI	0.882	0.899	0.890
NVIDIA	0.907	0.886	0.897

범주별 성능 분석

VBHSF의 각 위기 범주별 성능:

민감도 범위: 0.917-0.992
특이도: 모든 범주 ≥0.978
매크로 평균 F1 점수: 0.939

통계적 유의성

VBHSF의 민감도는 두 비교 모델보다 현저히 높음(모두 p < 0.001)
VBHSF의 특이도는 NVIDIA NeMo보다 현저히 높음(p < 0.001)
OpenAI와의 특이도에서는 유의미한 차이 없음(p = 0.094)

실제 응용 가치 분석

낮은 유병률 환경에서의 양성 예측값(PPV) 예측:

2% 유병률에서 VBHSF의 PPV는 0.716
OpenAI는 PPV가 약간 높지만(0.895) 낮은 민감도로 인해 많은 미감지 발생
결과는 거짓 양성을 처리하기 위한 인간 감독의 필요성을 나타냄

결론 및 논의

주요 결론

VBHSF 우수한 성능: 기존 일반 가드레일보다 위기 감지에서 현저히 우수
균형잡힌 성능: 높은 민감도를 유지하면서 낮은 거짓 양성률 유지
강한 일반화 능력: 외부 데이터셋에서도 양호한 성능 유지
높은 실용 가치: 선별 도구로 적합하며, 거짓 양성 처리를 위한 인간 감독 필요

한계

언어 제한: 영어만 지원, 다국어 일반화 능력 미지수
단일 턴 대화: 단일 메시지만 처리, 다중 턴 대화에서의 성능 저하 가능성
모의 데이터: 실제 사용자 메시지가 아닌 합성 데이터 사용
데이터 오염 위험: NVIDIA 데이터셋은 가드레일 훈련에 사용된 메시지를 포함할 수 있음

향후 방향

다국어 지원: 다른 언어의 위기 감지로 확장
다중 턴 대화 처리: 대화 맥락에 적용 가능한 안전 필터 개발
실제 데이터 검증: 실제 사용자 데이터에서 성능 검증
표준화 프레임워크: 업계 표준 안전 평가 프로토콜 수립
대적 테스트: 레드팀 테스트 및 대적 평가 방법 개발

심층 평가

장점

높은 임상 관련성:
- 임상 전문가와의 협력을 통해 위기 범주 정의
- 현직 임상의에 의한 데이터 주석
- 의료 보건 응용의 실제 요구 사항에 초점
엄격한 방법론:
- 합리적인 2단계 평가 설계
- 포괄적인 통계 분석, 유의성 검정 포함
- 내외부 검증으로 일반화 능력 보장
두드러진 실용 가치:
- 의료 안전 요구사항에 부합하는 높은 민감도 설계
- 실제 응용 시나리오의 성능 예측 제공
- 인간 감독의 필요성 명확히 함
데이터셋 기여:
- 임상 주석 정신 건강 데이터셋의 공백 해소
- 실제 디지털 통신 특징 모의
- 분야 발전을 위한 중요한 자원 제공

부족한 점

데이터 진정성 문제:
- 완전히 합성 데이터에 의존, 실제 사용자 메시지와 차이 가능성
- 실제 세계 배포 검증 부족
기술 세부사항 부족:
- 모델 아키텍처 설명이 과도하게 간략함
- 훈련 과정 및 하이퍼파라미터의 상세 설명 부족
- 프롬프트 엔지니어링의 구체적 구현 미공개
평가 한계:
- 단일 턴 메시지 처리만 제한됨
- 대적 테스트 및 경계 사례 분석 부족
- 다양한 인구 집단 및 문화적 배경의 차이 미고려
재현성 문제:
- 모델 구현 세부사항이 충분하지 않음
- 데이터셋 구축 과정 설명 부족

영향력

학술적 기여:
- 정신 건강 분야에서 AI 안전 응용의 벤치마크 수립
- 전문화된 안전 필터 연구 발전 촉진
- 중요한 평가 데이터셋 및 방법 제공
실용적 가치:
- 임상 의사 결정 지원 시스템에 직접 적용 가능
- 디지털 건강 플랫폼에 통합 가능
- 대규모 정신 건강 중재를 위한 기술 지원
사회적 의의:
- AI 시스템의 정신 건강 위기 처리 위험 감소에 도움
- 의료 건강 분야에서 책임감 있는 AI 발전 촉진
- 정책 수립을 위한 기술적 근거 제공

적용 시나리오

임상 분류 시스템: 고위험 환자 식별을 위한 초기 선별 도구
디지털 건강 플랫폼: 정신 건강 응용에 통합되어 안전 보장 제공
위기 중재 핫라인: 인간 고객 서비스 담당자의 긴급 상황 식별 보조
교육 및 훈련: 임상의의 위기 식별 훈련용
연구 응용: 정신 건강 AI 안전 연구의 벤치마크 도구

참고문헌

논문은 풍부한 관련 문헌을 인용하며, 주요 내용:

정신 건강 위기 역학 연구
AI 안전 및 콘텐츠 중재 기술
임상 의사 결정 지원 시스템
디지털 정신 건강 중재 연구
의료 건강에서의 자연어 처리 응용

종합 평가: 이것은 AI 안전과 디지털 정신 건강의 교차 분야에서 중요한 가치를 가진 연구 작업입니다. 논문은 현실적이고 긴급한 문제를 해결하며, 방법론이 엄격하고 결과가 설득력 있습니다. 데이터 진정성 및 기술 세부사항 측면에서 일부 한계가 있지만, 임상 관련성과 실용적 가치로 인해 이 분야의 중요한 기여가 됩니다. 본 연구는 향후 AI 정신 건강 안전 연구의 중요한 기초를 마련했습니다.