Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.
academic- 論文ID: 2510.12083
- タイトル: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
- 著者: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
- 分類: cs.CL cs.AI
- 発表時期: 査読前論文(プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.12083
大規模言語モデルは精神保健危機への対応時にしばしば誤りを犯し、有害または不適切なアドバイスを提供し、破壊的な行動を助長することさえあります。本研究は、2つのデータセット上でVerily行動保健安全フィルター(VBHSF)を評価しました:1,800件のシミュレーションメッセージを含むVerily精神保健危機データセットと、794件の精神保健関連メッセージを含むNVIDIA Aegis AIコンテンツ安全データセットのサブセットです。両データセットは臨床医によって注釈付けされました。本研究はまた、2つのオープンソースコンテンツモデレーションガードレールとの比較性能分析も実施しました:OpenAI Omni Moderation LatestおよびNVIDIA NeMo Guardrails。VBHSFはVerily精神保健危機データセットv1.0で優れた性能を示し、あらゆる精神保健危機の検出において高い感度(0.990)と特異度(0.992)を達成しました。特定の危機カテゴリーの識別において、F1スコアは0.939、感度は0.917~0.992の範囲、特異度≥0.978でした。NVIDIA Aegis AIコンテンツ安全データセット2.0で評価した場合、VBHSFは高い感度(0.982)と精度(0.921)を維持しましたが、特異度は低下しました(0.859)。既存のガードレールと比較して、VBHSFはすべての場合において有意に高い感度を示し(すべてp < 0.001)、NVIDIA NeMoに対してより高い特異度を有し(p < 0.001)、OpenAI Omni Moderation Latestとの間に有意な差はありませんでした(p = 0.094)。
精神保健危機の識別と対応は、ますます深刻な社会的課題です。研究背景は以下を示しています:
- 精神保健危機の普遍性と増加:精神保健上の緊急事態がますます一般的になり、増加傾向にあります
- 検出の困難さ:臨床医でさえ危機検出においてランダム予測をわずかに上回る程度です
- 間接的な表現:個人は通常、苦痛を間接的な方法で表現します
現在の大規模言語モデルは精神保健危機の対応において深刻な欠陥があります:
- 高リスク誤り:自殺警告信号の見落とし、不安全なアドバイスの提供、さらには危害の助長を含みます
- 汎用ガードレール不足:既存のセーフティフィルターは主に一般的なリスク(性的コンテンツ、一般的な暴力など)を対象としており、精神保健危機検出には適していません
- 臨床的検証の欠如:既存のベンチマークデータセットは精神保健メッセージと臨床注釈が不足しています
本研究は以下の重要なギャップを埋めることを目的としています:
- 精神保健危機に特化した安全フィルターの開発
- 臨床的に検証された精神保健危機検出データセットの構築
- 標準化された評価フレームワークの確立
- 8つの精神保健危機次元の定義:臨床専門家と協力して、最も緊急で高リスクな表現形態を特定しました。これには虐待、ネグレクト、摂食障害行動、精神病、自傷、自殺、物質乱用、他者への暴力、および混合表現が含まれます
- VBHSFシステムの開発:ユーザーメッセージ内の危機信号を識別および分類できるTransformerベースの専用精神保健安全フィルター
- Verily精神保健危機データセットv1.0の構築:実際のデジタル通信パターンを反映した1,800件のシミュレーションメッセージを含み、2名の実務臨床医によって注釈付けされました
- 評価ベンチマークの確立:内部および外部データセット上でのパフォーマンス評価、および最先端の汎用ガードレールとの比較
入力:テキストメッセージ(実世界のデジタル通信をシミュレート)
出力:
- ステージ1:二値分類(危機/非危機)
- ステージ2:多ラベル分類(8つの具体的な危機カテゴリー)
- 基盤アーキテクチャ:Transformerベースの大規模言語モデル(GPTアーキテクチャ)
- コア技術:高度なプロンプトエンジニアリングと臨床推論の使用
- 2段階設計:
- ステージ1:全体的な危機検出分類器
- ステージ2:「危機」とマークされたメッセージに対する多ラベル分類
8つの臨床関連の危機カテゴリーを定義しました:
- 虐待(Abuse)
- ネグレクト(Neglect)
- 摂食障害行動(Eating-disorder behaviors)
- 精神病(Psychosis)
- 自傷(Self-harm)
- 自殺(Suicide)
- 物質乱用(Substance misuse)
- 他者への暴力(Violence towards others)
- 臨床指向設計:汎用安全フィルターとは異なり、精神保健危機の微妙な違いに特化して最適化されています
- 階層的分類アーキテクチャ:2段階設計により、効率的な危機検出と正確なカテゴリー分類を確保します
- 実際の通信パターンのシミュレーション:データセットには言語的エラー、スラング、絵文字など、実際のデジタル通信の特性が含まれています
- 高感度最適化:医療アプリケーションにおいて重要な見落としを最小化するために感度を優先します
- 規模:1,800件のメッセージ(900件の危機メッセージ + 900件の非危機メッセージ)
- 構築方法:事前学習済み言語モデルを使用して合成し、実際のデジタル通信パターンをシミュレート
- 注釈:2名の実務臨床医による独立した注釈、Cohen's κ = 0.99
- 言語特性:
- 言語的エラー:55.90%
- スラング:45.80%
- 絵文字と記号マーク:13.50%
- 規模:794件のメッセージ(397件の危機、397件の非危機)
- 出典:「自殺と自傷」に焦点を当てた人間データのサブセット
- 再注釈:ラベルの正確性を確保するため、2名の臨床医が6.927%のデータを再分類しました
- 主要指標:感度(Sensitivity)、特異度(Specificity)、精度(Accuracy)
- 統合指標:F1スコア、正予測値(PPV)、負予測値(NPV)
- 統計検定:Cochran's Q検定とMcNemar検定(Bonferroni補正)
- OpenAI Omni Moderation Latest:GPT-4oベース、13の事前定義カテゴリーをカバー
- NVIDIA NeMo Guardrails:オープンソースモデル、23のリスクカテゴリーをカバー
| モデル | 感度 | 特異度 | 精度 | F1スコア |
|---|
| VBHSF | 0.990 | 0.992 | 0.991 | - |
| OpenAI | 0.419 | 0.999 | 0.709 | - |
| NVIDIA | 0.759 | 0.756 | 0.757 | - |
| モデル | 感度 | 特異度 | 精度 |
|---|
| VBHSF | 0.982 | 0.859 | 0.921 |
| OpenAI | 0.882 | 0.899 | 0.890 |
| NVIDIA | 0.907 | 0.886 | 0.897 |
各危機カテゴリーにおけるVBHSFのパフォーマンス:
- 感度範囲:0.917~0.992
- 特異度:すべてのカテゴリーで≥0.978
- マクロ平均F1スコア:0.939
- VBHSFの感度は2つの比較モデルより有意に高い(すべてp < 0.001)
- VBHSFの特異度はNVIDIA NeMoより有意に高い(p < 0.001)
- OpenAIとの特異度に有意な差なし(p = 0.094)
低流行率環境における正予測値(PPV)の投影は以下を示しています:
- 2%の流行率では、VBHSFのPPVは0.716
- OpenAIはPPVがやや高い(0.895)ですが、感度が低すぎるため多くの見落としが生じます
- 結果は誤検知に対処するための人的監督の必要性を示しています
この分野の主要な研究方向には以下が含まれます:
- 危機検出アルゴリズム:従来の機械学習と深層学習の方法
- コンテンツモデレーションシステム:汎用安全ガードレールの発展
- 臨床決定支援:精神保健評価におけるAIの応用
既存の研究と比較して、本研究の利点:
- 専門化設計:汎用コンテンツモデレーションではなく、精神保健危機に特化
- 臨床的検証:実務臨床医による注釈付けにより医学的正確性を確保
- 包括的評価:内部および外部データセット上での検証により汎化能力を確認
- VBHSFの優れたパフォーマンス:既存の汎用ガードレールを大幅に上回る危機検出性能
- バランスの取れた性能:高い感度を維持しながら低い誤検知率を実現
- 強い汎化能力:外部データセット上でも良好なパフォーマンスを維持
- 高い実用価値:スクリーニングツールとして適切で、誤検知に対処するための人的監督が必要
- 言語の制限:英語のみをサポート、多言語への汎化能力は不明
- 単一ターンの対話:単一メッセージのみを処理、複数ターンの対話でのパフォーマンスは低下する可能性
- シミュレーションデータ:実際のユーザーメッセージではなく合成データを使用
- データ汚染のリスク:NVIDIAデータセットはそのガードレール訓練に使用されたメッセージを含む可能性
- 多言語サポート:他の言語への危機検出の拡張
- 複数ターン対話の処理:対話コンテキストに適用可能な安全フィルターの開発
- 実際のデータでの検証:実際のユーザーデータでのパフォーマンス検証
- 標準化フレームワーク:業界標準のセーフティ評価プロトコルの確立
- 対抗的テスト:レッドチームテストと対抗的評価方法の開発
- 臨床的関連性が高い:
- 臨床専門家と協力して危機カテゴリーを定義
- 実務臨床医によるデータ注釈を使用
- 医療アプリケーションの実際のニーズに焦点
- 方法論が厳密:
- 2段階評価設計が合理的
- 有意性検定を含む包括的な統計分析
- 内部および外部検証により汎化能力を確保
- 実用価値が顕著:
- 医療安全要件に適合した高感度設計
- 実世界の応用シナリオでのパフォーマンス投影を提供
- 人的監督の必要性を明確に示す
- データセットの貢献:
- 臨床注釈付き精神保健データセットのギャップを埋める
- 実際のデジタル通信特性をシミュレート
- 領域発展のための重要なリソースを提供
- データの真実性の問題:
- 完全に合成データに依存、実際のユーザーメッセージとの差異の可能性
- 実世界の展開での検証が不足
- 技術的詳細の不足:
- モデルアーキテクチャの説明が過度に簡潔
- 訓練プロセスとハイパーパラメータの詳細な説明が不足
- プロンプトエンジニアリングの具体的な実装が非公開
- 評価の限界:
- 単一ターンメッセージ処理のみに限定
- 対抗的テストと境界ケース分析が不足
- 異なる集団と文化的背景の違いを考慮していない
- 再現性の問題:
- モデル実装の詳細が不十分
- データセット構築プロセスの説明が不充分
- 学術的貢献:
- 精神保健領域におけるAI安全応用のベンチマークを確立
- 専門化された安全フィルターの研究発展を推進
- 重要な評価データセットと方法を提供
- 実用的価値:
- 臨床決定支援システムに直接適用可能
- デジタルヘルスプラットフォームに統合可能
- 大規模精神保健介入の技術支援を提供
- 社会的意義:
- AIシステムが精神保健危機対応で引き起こすリスクを軽減するのに役立つ
- 医療保健領域における責任あるAIの発展を推進
- 政策立案に技術的根拠を提供
- 臨床トリアージシステム:高リスク患者を識別する初期スクリーニングツール
- デジタルヘルスプラットフォーム:精神保健アプリケーションに統合してセーフティを提供
- 危機介入ホットライン:人的カスタマーサービス担当者が緊急事態を識別するのを支援
- 教育と訓練:臨床医の危機識別訓練に使用
- 研究応用:精神保健AI安全研究のベンチマークツール
論文は豊富な関連文献を引用しており、主に以下を含みます:
- 精神保健危機の疫学研究
- AI安全とコンテンツモデレーション技術
- 臨床決定支援システム
- デジタル精神保健介入研究
- 医療保健における自然言語処理の応用
総合評価:これはAI安全とデジタル精神保健の交差領域において重要な価値を持つ研究成果です。論文は現実的で緊急の問題に対処し、方法論が厳密で、結果は説得力があります。データの真実性と技術的詳細の面でいくつかの限界がありますが、その臨床的関連性と実用的価値により、この分野の重要な貢献となっています。本研究は、今後のAI精神保健安全研究の重要な基礎を築いています。