2025-11-17T15:52:13.050530

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations

Nelson, Wong, Silvestrini et al.

Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.

academic

Un Filtre de Sécurité en Santé Comportementale Basé sur l'IA et un Ensemble de Données pour Identifier les Crises de Santé Mentale dans les Conversations Textuelles

Informations Fondamentales

ID de l'article : 2510.12083
Titre : An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
Auteurs : Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
Classification : cs.CL cs.AI
Date de publication : Prépublication, sans journal ou conférence explicitement indiqué
Lien de l'article : https://arxiv.org/abs/2510.12083

Résumé

Les grands modèles de langage commettent fréquemment des erreurs lors du traitement des crises de santé mentale, fournissant des conseils nuisibles ou inappropriés, voire favorisant des comportements destructeurs. Cette étude évalue le Filtre de Sécurité en Santé Comportementale Verily (VBHSF) sur deux ensembles de données : l'Ensemble de Données sur les Crises de Santé Mentale Verily contenant 1 800 messages simulés et un sous-ensemble de l'Ensemble de Données de Sécurité du Contenu IA Aegis NVIDIA contenant 794 messages liés à la santé mentale. Les deux ensembles de données ont été annotés par des cliniciens. L'étude compare également les performances avec deux garde-fous de modération de contenu open-source : OpenAI Omni Moderation Latest et NVIDIA NeMo Guardrails. Le VBHSF démontre d'excellentes performances sur l'Ensemble de Données sur les Crises de Santé Mentale Verily v1.0, atteignant une sensibilité élevée (0,990) et une spécificité (0,992) dans la détection de toute crise de santé mentale. Pour l'identification de catégories de crise spécifiques, le score F1 est de 0,939, avec une sensibilité variant de 0,917 à 0,992 et une spécificité ≥ 0,978. Lors de l'évaluation sur l'Ensemble de Données de Sécurité du Contenu IA Aegis NVIDIA 2.0, le VBHSF maintient une sensibilité élevée (0,982) et une précision (0,921), mais avec une spécificité réduite (0,859). Par rapport aux garde-fous existants, le VBHSF démontre une sensibilité significativement plus élevée dans tous les cas (tous p < 0,001), une spécificité supérieure par rapport à NVIDIA NeMo (p < 0,001), mais sans différence significative avec OpenAI Omni Moderation Latest (p = 0,094).

Contexte et Motivation de la Recherche

Définition du Problème

L'identification et le traitement des crises de santé mentale constituent un problème social de plus en plus grave. Le contexte de la recherche révèle :

Prévalence et augmentation des crises de santé mentale : Les urgences en santé mentale deviennent de plus en plus fréquentes et sont en augmentation
Difficultés de détection : Même les cliniciens ne surpassent que légèrement le hasard dans la détection des crises
Expression indirecte : Les individus expriment généralement leur détresse de manière indirecte

Limitations des Technologies Existantes

Les grands modèles de langage actuels présentent des défauts graves dans le traitement des crises de santé mentale :

Erreurs à haut risque : Incluant le manquement à détecter les signaux d'alerte suicidaires, la fourniture de conseils non sécuritaires, voire la facilitation de préjudices
Insuffisance des garde-fous génériques : Les filtres de sécurité existants ciblent principalement les risques généraux (contenu sexuel, violence générale) et ne conviennent pas à la détection des crises de santé mentale
Absence de validation clinique : Les ensembles de données de référence existants manquent de messages de santé mentale et d'annotations cliniques

Motivation de la Recherche

Cette étude vise à combler les lacunes critiques suivantes :

Développer un filtre de sécurité spécialisé pour les crises de santé mentale
Construire un ensemble de données de détection des crises de santé mentale validé cliniquement
Établir un cadre d'évaluation standardisé

Contributions Principales

Définition de huit dimensions de crise de santé mentale : En collaboration avec des experts cliniques, identification des manifestations les plus urgentes et à haut risque, incluant les abus, la négligence, les comportements liés aux troubles de l'alimentation, la psychose, l'automutilation, le suicide, l'abus de substances, la violence envers autrui et les manifestations mixtes
Développement du système VBHSF : Un filtre de sécurité spécialisé en santé mentale basé sur Transformer, capable d'identifier et de classer les signaux de crise dans les messages des utilisateurs
Construction de l'Ensemble de Données sur les Crises de Santé Mentale Verily v1.0 : Contenant 1 800 messages simulés reflétant les modèles réels de communication numérique, annotés par deux cliniciens en exercice
Établissement d'un repère d'évaluation : Évaluation des performances sur des ensembles de données internes et externes, avec comparaison aux garde-fous génériques de pointe

Explication Détaillée de la Méthodologie

Définition de la Tâche

Entrée : Messages textuels (simulant la communication numérique du monde réel) Sortie :

Étape 1 : Classification binaire (crise/non-crise)
Étape 2 : Classification multi-étiquettes (8 catégories de crise spécifiques)

Architecture du Modèle

Filtre de Sécurité en Santé Comportementale Verily (VBHSF)

Infrastructure de base : LLM basé sur Transformer (architecture GPT)
Technologie centrale : Utilisation d'ingénierie de prompts avancée et de raisonnement clinique
Conception en deux étapes :
- Étape 1 : Classificateur de détection globale des crises
- Étape 2 : Classification multi-étiquettes pour les messages marqués comme « crise »

Système de Catégories de Crise

Définition de 8 catégories de crise cliniquement pertinentes :

Abus (Abuse)
Négligence (Neglect)
Comportements liés aux troubles de l'alimentation (Eating-disorder behaviors)
Psychose (Psychosis)
Automutilation (Self-harm)
Suicide (Suicide)
Abus de substances (Substance misuse)
Violence envers autrui (Violence towards others)

Points d'Innovation Technique

Conception orientée vers la clinique : Contrairement aux garde-fous génériques, optimisée spécifiquement pour les nuances des crises de santé mentale
Architecture de classification hiérarchisée : La conception en deux étapes assure une détection efficace des crises et une classification précise des catégories
Simulation des modèles de communication réels : L'ensemble de données inclut des caractéristiques authentiques de communication numérique telles que les erreurs de mécanismes linguistiques, l'argot internet et les emojis
Optimisation pour la sensibilité élevée : Priorisation de la sensibilité pour minimiser les faux négatifs, ce qui est crucial pour les applications de soins de santé

Configuration Expérimentale

Ensembles de Données

Ensemble de Données sur les Crises de Santé Mentale Verily v1.0

Taille : 1 800 messages (900 messages de crise + 900 messages de non-crise)
Méthode de construction : Synthèse utilisant des modèles de langage pré-entraînés, simulant les modèles réels de communication numérique
Annotation : Annotation indépendante par deux cliniciens en exercice, κ de Cohen = 0,99
Caractéristiques linguistiques :
- Erreurs de mécanismes linguistiques : 55,90 %
- Argot internet : 45,80 %
- Emojis et marqueurs de symboles : 13,50 %

Ensemble de Données de Sécurité du Contenu IA Aegis NVIDIA 2.0

Taille : 794 messages (397 crises, 397 non-crises)
Source : Sous-ensemble de données humaines axé sur « suicide et automutilation »
Ré-annotation : Reclassification par deux cliniciens de 6,927 % des données pour assurer l'exactitude des étiquettes

Métriques d'Évaluation

Métriques principales : Sensibilité (Sensitivity), Spécificité (Specificity), Précision (Accuracy)
Métriques composites : Score F1, Valeur Prédictive Positive (PPV), Valeur Prédictive Négative (NPV)
Tests statistiques : Test Q de Cochran et test de McNemar (correction de Bonferroni)

Méthodes de Comparaison

OpenAI Omni Moderation Latest : Basé sur GPT-4o, couvrant 13 catégories prédéfinies
NVIDIA NeMo Guardrails : Modèle open-source, couvrant 23 catégories de risque

Résultats Expérimentaux

Résultats Principaux

Performances sur l'Ensemble de Données Verily

Modèle	Sensibilité	Spécificité	Précision	Score F1
VBHSF	0,990	0,992	0,991	-
OpenAI	0,419	0,999	0,709	-
NVIDIA	0,759	0,756	0,757	-

Performances sur l'Ensemble de Données NVIDIA

Modèle	Sensibilité	Spécificité	Précision
VBHSF	0,982	0,859	0,921
OpenAI	0,882	0,899	0,890
NVIDIA	0,907	0,886	0,897

Analyse des Performances par Catégorie

Performances du VBHSF sur chaque catégorie de crise :

Plage de sensibilité : 0,917-0,992
Spécificité : ≥ 0,978 pour toutes les catégories
Score F1 macro-moyen : 0,939

Signification Statistique

La sensibilité du VBHSF est significativement supérieure aux deux modèles de comparaison (tous p < 0,001)
La spécificité du VBHSF est significativement supérieure à NVIDIA NeMo (p < 0,001)
Aucune différence significative avec OpenAI en termes de spécificité (p = 0,094)

Analyse de la Valeur Pratique

Les projections de la Valeur Prédictive Positive (PPV) dans les environnements de faible prévalence montrent :

PPV du VBHSF de 0,716 à une prévalence de 2 %
Bien que OpenAI ait un PPV légèrement plus élevé (0,895), sa sensibilité insuffisante entraîne de nombreux faux négatifs
Les résultats indiquent la nécessité d'une supervision humaine pour gérer les faux positifs

Travaux Connexes

Recherche en IA et Santé Mentale

Les principales directions de recherche dans ce domaine incluent :

Algorithmes de détection des crises : Approches d'apprentissage automatique traditionnel et apprentissage profond
Systèmes de modération de contenu : Développement de garde-fous de sécurité génériques
Soutien aux décisions cliniques : Applications de l'IA dans l'évaluation en santé mentale

Contributions Uniques de cet Article

Par rapport aux travaux existants, les avantages de cette recherche incluent :

Conception spécialisée : Ciblée spécifiquement sur les crises de santé mentale plutôt que sur la modération de contenu générique
Validation clinique : Utilisation d'annotations par des cliniciens en exercice, garantissant l'exactitude médicale
Évaluation complète : Vérification de la capacité de généralisation sur des ensembles de données internes et externes

Conclusions et Discussion

Conclusions Principales

Excellentes performances du VBHSF : Surpasse significativement les garde-fous génériques existants dans la détection des crises
Performances équilibrées : Maintient une sensibilité élevée tout en conservant un taux de faux positifs faible
Forte capacité de généralisation : Maintient de bonnes performances sur des ensembles de données externes
Valeur pratique élevée : Convient comme outil de dépistage, nécessitant une supervision humaine pour gérer les faux positifs

Limitations

Limitation linguistique : Support de l'anglais uniquement, capacité de généralisation multilingue inconnue
Conversations à tour unique : Traite uniquement les messages uniques, les performances dans les conversations multi-tours pourraient diminuer
Données simulées : Utilisation de données synthétiques plutôt que de messages réels d'utilisateurs
Risque de contamination des données : L'ensemble de données NVIDIA pourrait contenir des messages utilisés pour entraîner son garde-fou

Directions Futures

Support multilingue : Extension de la détection des crises à d'autres langues
Traitement des conversations multi-tours : Développement de filtres de sécurité adaptés au contexte conversationnel
Validation sur données réelles : Vérification des performances sur des données réelles d'utilisateurs
Cadre standardisé : Établissement de protocoles d'évaluation de sécurité normalisés au niveau de l'industrie
Tests adversariels : Développement de méthodes de test d'équipe rouge et d'évaluation adversarielle

Évaluation Approfondie

Points Forts

Pertinence clinique forte :
- Collaboration avec des experts cliniques pour définir les catégories de crise
- Annotation des données par des cliniciens en exercice
- Attention aux besoins réels des applications de soins de santé
Rigueur méthodologique :
- Conception d'évaluation en deux étapes bien justifiée
- Analyse statistique complète incluant les tests de signification
- Validation interne et externe assurant la capacité de généralisation
Valeur pratique marquée :
- La conception à haute sensibilité est conforme aux exigences de sécurité médicale
- Projections de performances pour les scénarios d'application réels
- Clarification de la nécessité de la supervision humaine
Contribution de l'ensemble de données :
- Comble le vide des ensembles de données de santé mentale annotés cliniquement
- Simule les caractéristiques authentiques de la communication numérique
- Fournit une ressource importante pour le développement du domaine

Insuffisances

Problèmes d'authenticité des données :
- Dépendance complète aux données synthétiques, pouvant différer des messages réels d'utilisateurs
- Absence de validation du déploiement dans le monde réel
Détails techniques insuffisants :
- Description de l'architecture du modèle trop sommaire
- Manque de détails sur le processus d'entraînement et les hyperparamètres
- Implémentation spécifique de l'ingénierie de prompts non divulguée
Limitations de l'évaluation :
- Limité au traitement de messages à tour unique
- Absence de tests adversariels et d'analyse des cas limites
- Pas de considération des différences entre populations et contextes culturels
Problèmes de reproductibilité :
- Détails d'implémentation du modèle insuffisants
- Description insuffisante du processus de construction de l'ensemble de données

Impact

Contributions académiques :
- Établit des repères pour l'application de la sécurité de l'IA dans le domaine de la santé mentale
- Favorise le développement de la recherche sur les filtres de sécurité spécialisés
- Fournit des ensembles de données d'évaluation et des méthodes importants
Valeur pratique :
- Directement applicable aux systèmes de soutien aux décisions cliniques
- Peut être intégré aux plateformes de santé numérique
- Fournit un soutien technologique pour les interventions en santé mentale à grande échelle
Signification sociale :
- Aide à réduire les risques des systèmes d'IA dans le traitement des crises de santé mentale
- Favorise le développement de l'IA responsable dans le domaine de la santé
- Fournit des bases technologiques pour l'élaboration des politiques

Scénarios d'Application

Systèmes de triage clinique : Outil de dépistage initial pour identifier les patients à haut risque
Plateformes de santé numérique : Intégration dans les applications de santé mentale pour assurer la sécurité
Lignes d'intervention en cas de crise : Assistance aux agents humains pour identifier les situations d'urgence
Éducation et formation : Utilisation pour la formation des cliniciens à la reconnaissance des crises
Applications de recherche : Outil de référence pour la recherche en sécurité de l'IA en santé mentale

Références

L'article cite une littérature riche et pertinente, incluant principalement :

Recherche épidémiologique en santé mentale
Technologies de sécurité de l'IA et modération de contenu
Systèmes de soutien aux décisions cliniques
Recherche sur les interventions numériques en santé mentale
Applications du traitement du langage naturel dans le domaine de la santé

Évaluation Globale : Ceci est un travail de recherche d'importance majeure à l'intersection de la sécurité de l'IA et de la santé mentale numérique. L'article aborde un problème réel et urgent, avec une méthodologie rigoureuse et des résultats convaincants. Bien qu'il présente certaines limitations concernant l'authenticité des données et les détails techniques, sa pertinence clinique et sa valeur pratique en font une contribution importante au domaine. Ce travail établit une base importante pour la recherche future en sécurité de l'IA en santé mentale.