2025-11-17T15:52:13.050530

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations

Nelson, Wong, Silvestrini et al.
Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.
academic

Un Filtro di Sicurezza per la Salute Comportamentale Basato su IA e Dataset per l'Identificazione di Crisi di Salute Mentale in Conversazioni Testuali

Informazioni Fondamentali

  • ID Articolo: 2510.12083
  • Titolo: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
  • Autori: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
  • Classificazione: cs.CL cs.AI
  • Data di Pubblicazione: Articolo preprint, senza rivista o conferenza esplicitamente indicata
  • Link dell'Articolo: https://arxiv.org/abs/2510.12083

Riassunto

I modelli linguistici di grandi dimensioni commettono frequentemente errori nel trattamento delle crisi di salute mentale, fornendo consigli dannosi o inappropriati, e persino facilitando comportamenti distruttivi. Questo studio valuta il Filtro di Sicurezza per la Salute Comportamentale Verily (VBHSF) su due dataset: il Dataset di Crisi di Salute Mentale Verily contenente 1.800 messaggi simulati e un sottoinsieme del Dataset di Sicurezza dei Contenuti AI NVIDIA Aegis contenente 794 messaggi correlati alla salute mentale. Entrambi i dataset sono stati annotati da medici clinici. Lo studio include anche un'analisi comparativa delle prestazioni con due guardrail di moderazione dei contenuti open-source: OpenAI Omni Moderation Latest e NVIDIA NeMo Guardrails. VBHSF ha dimostrato prestazioni eccellenti sul Dataset di Crisi di Salute Mentale Verily v1.0, raggiungendo un'elevata sensibilità (0,990) e specificità (0,992) nel rilevamento di qualsiasi crisi di salute mentale. Nell'identificazione di categorie di crisi specifiche, il punteggio F1 è stato di 0,939, con sensibilità compresa tra 0,917-0,992 e specificità ≥0,978. Quando valutato sul Dataset di Sicurezza dei Contenuti AI NVIDIA Aegis 2.0, VBHSF ha mantenuto un'elevata sensibilità (0,982) e accuratezza (0,921), ma con una specificità ridotta (0,859). Rispetto ai guardrail esistenti, VBHSF ha mostrato una sensibilità significativamente più elevata in tutti i casi (tutti p < 0,001), una specificità più elevata rispetto a NVIDIA NeMo (p < 0,001), ma nessuna differenza significativa con OpenAI Omni Moderation Latest (p = 0,094).

Contesto di Ricerca e Motivazione

Definizione del Problema

L'identificazione e il trattamento delle crisi di salute mentale rappresentano un problema sociale sempre più grave. Il contesto della ricerca evidenzia:

  1. Crisi di Salute Mentale Diffuse e in Aumento: Le emergenze psichiatriche sono sempre più comuni e in aumento
  2. Difficoltà di Rilevamento: Anche i medici clinici hanno prestazioni solo leggermente superiori al caso casuale nel rilevamento delle crisi
  3. Espressione Indiretta: Gli individui spesso esprimono la sofferenza in modo indiretto

Limitazioni della Tecnologia Attuale

I modelli linguistici di grandi dimensioni attuali presentano gravi difetti nel trattamento delle crisi di salute mentale:

  • Errori ad Alto Rischio: Includono il mancato rilevamento di segnali di suicidio, la fornitura di consigli non sicuri, e persino la facilitazione di danni
  • Guardrail Generici Insufficienti: I filtri di sicurezza esistenti si concentrano principalmente su rischi generali (come contenuti sessuali, violenza generale) e non sono adatti al rilevamento di crisi di salute mentale
  • Mancanza di Validazione Clinica: I dataset di riferimento esistenti mancano di messaggi sulla salute mentale e annotazioni cliniche

Motivazione della Ricerca

Questo studio mira a colmare i seguenti vuoti critici:

  1. Sviluppare un filtro di sicurezza specializzato per le crisi di salute mentale
  2. Costruire un dataset di rilevamento di crisi di salute mentale convalidato clinicamente
  3. Stabilire un framework di valutazione standardizzato

Contributi Principali

  1. Definizione di Otto Dimensioni di Crisi di Salute Mentale: In collaborazione con esperti clinici, sono state identificate le manifestazioni più urgenti e ad alto rischio, incluse abuso, negligenza, comportamenti di disturbi alimentari, psicosi, autolesionismo, suicidio, abuso di sostanze, violenza verso altri e manifestazioni miste
  2. Sviluppo del Sistema VBHSF: Un filtro di sicurezza specializzato per la salute mentale basato su Transformer, in grado di identificare e classificare i segnali di crisi nei messaggi degli utenti
  3. Costruzione del Dataset di Crisi di Salute Mentale Verily v1.0: Contiene 1.800 messaggi simulati che riflettono i modelli reali di comunicazione digitale, annotati da due medici clinici in pratica
  4. Stabilimento di Benchmark di Valutazione: Valutazione delle prestazioni su dataset interni ed esterni, con confronto con i guardrail all'avanguardia

Spiegazione Dettagliata dei Metodi

Definizione del Compito

Input: Messaggi di testo (simulando la comunicazione digitale nel mondo reale) Output:

  • Fase 1: Classificazione binaria (crisi/non-crisi)
  • Fase 2: Classificazione multi-etichetta (8 categorie di crisi specifiche)

Architettura del Modello

Filtro di Sicurezza per la Salute Comportamentale Verily (VBHSF)

  • Architettura di Base: LLM basato su Transformer (architettura GPT)
  • Tecnologia Principale: Utilizza ingegneria dei prompt avanzata e ragionamento clinico
  • Design a Due Fasi:
    • Fase 1: Classificatore di rilevamento complessivo delle crisi
    • Fase 2: Classificazione multi-etichetta per i messaggi contrassegnati come "crisi"

Sistema di Categorie di Crisi

Sono state definite 8 categorie di crisi clinicamente rilevanti:

  1. Abuso (Abuse)
  2. Negligenza (Neglect)
  3. Comportamenti di Disturbi Alimentari (Eating-disorder behaviors)
  4. Psicosi (Psychosis)
  5. Autolesionismo (Self-harm)
  6. Suicidio (Suicide)
  7. Abuso di Sostanze (Substance misuse)
  8. Violenza verso Altri (Violence towards others)

Punti di Innovazione Tecnica

  1. Design Orientato Clinicamente: A differenza dei guardrail di sicurezza generici, è ottimizzato specificamente per le sfumature delle crisi di salute mentale
  2. Architettura di Classificazione Gerarchica: Il design a due fasi garantisce un rilevamento efficiente delle crisi e una classificazione precisa delle categorie
  3. Simulazione di Modelli di Comunicazione Reali: Il dataset include caratteristiche di comunicazione digitale reale come errori di meccanismi linguistici, gergo internet, emoji e simboli
  4. Ottimizzazione per Alta Sensibilità: Priorità alla sensibilità per minimizzare i falsi negativi, critico per le applicazioni sanitarie

Configurazione Sperimentale

Dataset

Dataset di Crisi di Salute Mentale Verily v1.0

  • Dimensione: 1.800 messaggi (900 messaggi di crisi + 900 messaggi di non-crisi)
  • Metodo di Costruzione: Sintetizzato utilizzando modelli linguistici pre-addestrati, simulando modelli reali di comunicazione digitale
  • Annotazione: Annotati indipendentemente da due medici clinici in pratica, Cohen's κ = 0,99
  • Caratteristiche Linguistiche:
    • Errori di meccanismi linguistici: 55,90%
    • Gergo internet: 45,80%
    • Emoji e marcatori di simboli: 13,50%

Dataset di Sicurezza dei Contenuti AI NVIDIA Aegis 2.0

  • Dimensione: 794 messaggi (397 crisi, 397 non-crisi)
  • Fonte: Sottoinsieme di dati umani focalizzato su "suicidio e autolesionismo"
  • Re-annotazione: Due medici clinici hanno riclassificato il 6,927% dei dati per garantire l'accuratezza delle etichette

Metriche di Valutazione

  • Metriche Principali: Sensibilità (Sensitivity), Specificità (Specificity), Accuratezza (Accuracy)
  • Metriche Composite: Punteggio F1, Valore Predittivo Positivo (PPV), Valore Predittivo Negativo (NPV)
  • Test Statistici: Test di Cochran's Q e Test di McNemar (correzione di Bonferroni)

Metodi di Confronto

  1. OpenAI Omni Moderation Latest: Basato su GPT-4o, copre 13 categorie predefinite
  2. NVIDIA NeMo Guardrails: Modello open-source, copre 23 categorie di rischio

Risultati Sperimentali

Risultati Principali

Prestazioni sul Dataset Verily

ModelloSensibilitàSpecificitàAccuratezzaPunteggio F1
VBHSF0,9900,9920,991-
OpenAI0,4190,9990,709-
NVIDIA0,7590,7560,757-

Prestazioni sul Dataset NVIDIA

ModelloSensibilitàSpecificitàAccuratezza
VBHSF0,9820,8590,921
OpenAI0,8820,8990,890
NVIDIA0,9070,8860,897

Analisi delle Prestazioni per Categoria

Prestazioni di VBHSF su ciascuna categoria di crisi:

  • Intervallo di Sensibilità: 0,917-0,992
  • Specificità: Tutte le categorie ≥0,978
  • Punteggio F1 Macro-medio: 0,939

Significatività Statistica

  • La sensibilità di VBHSF è significativamente superiore a entrambi i modelli di confronto (tutti p < 0,001)
  • La specificità di VBHSF è significativamente superiore a NVIDIA NeMo (p < 0,001)
  • Nessuna differenza significativa con OpenAI in termini di specificità (p = 0,094)

Analisi del Valore Pratico di Applicazione

Le proiezioni del Valore Predittivo Positivo (PPV) in ambienti a bassa prevalenza mostrano:

  • Con prevalenza del 2%, il PPV di VBHSF è 0,716
  • Sebbene OpenAI abbia un PPV leggermente superiore (0,895), la bassa sensibilità porta a numerosi falsi negativi
  • I risultati indicano la necessità di supervisione umana per gestire i falsi positivi

Lavori Correlati

Ricerca sulla Sicurezza dell'IA nella Salute Mentale

Le principali direzioni di ricerca in questo campo includono:

  1. Algoritmi di Rilevamento delle Crisi: Metodi di apprendimento automatico tradizionali e deep learning
  2. Sistemi di Moderazione dei Contenuti: Sviluppo di guardrail di sicurezza generici
  3. Supporto alle Decisioni Cliniche: Applicazioni dell'IA nella valutazione della salute mentale

Contributi Unici di Questo Articolo

I vantaggi di questa ricerca rispetto ai lavori esistenti:

  1. Design Specializzato: Specificamente progettato per le crisi di salute mentale piuttosto che per la moderazione dei contenuti generica
  2. Validazione Clinica: Annotazione da parte di medici clinici in pratica, garantendo l'accuratezza medica
  3. Valutazione Completa: Verifica della capacità di generalizzazione sia su dataset interni che esterni

Conclusioni e Discussione

Conclusioni Principali

  1. VBHSF Mostra Prestazioni Eccellenti: Significativamente superiore ai guardrail generici esistenti nel rilevamento delle crisi
  2. Prestazioni Bilanciate: Mantiene un'elevata sensibilità riducendo al minimo i falsi positivi
  3. Forte Capacità di Generalizzazione: Mantiene buone prestazioni anche su dataset esterni
  4. Alto Valore Pratico: Adatto come strumento di screening, con necessità di supervisione umana per gestire i falsi positivi

Limitazioni

  1. Limitazione Linguistica: Supporta solo l'inglese, la capacità di generalizzazione multilingue è sconosciuta
  2. Conversazione Singola: Elabora solo messaggi singoli, le prestazioni in conversazioni multi-turno potrebbero diminuire
  3. Dati Simulati: Utilizza dati sintetici piuttosto che messaggi reali di utenti
  4. Rischio di Contaminazione dei Dati: Il dataset NVIDIA potrebbe contenere messaggi utilizzati per addestrare i suoi guardrail

Direzioni Future

  1. Supporto Multilingue: Estensione al rilevamento di crisi in altre lingue
  2. Elaborazione di Conversazioni Multi-turno: Sviluppo di filtri di sicurezza applicabili al contesto conversazionale
  3. Validazione su Dati Reali: Verifica delle prestazioni su dati reali di utenti
  4. Framework Standardizzato: Stabilimento di protocolli di valutazione della sicurezza standard del settore
  5. Test Avversariali: Sviluppo di metodi di red team testing e valutazione avversariale

Valutazione Approfondita

Punti di Forza

  1. Forte Rilevanza Clinica:
    • Collaborazione con esperti clinici per definire le categorie di crisi
    • Annotazione dei dati da parte di medici clinici in pratica
    • Attenzione alle esigenze pratiche delle applicazioni sanitarie
  2. Metodologia Rigorosa:
    • Design di valutazione a due fasi ben ragionato
    • Analisi statistica completa, inclusi test di significatività
    • Validazione interna ed esterna per garantire la capacità di generalizzazione
  3. Valore Pratico Prominente:
    • Il design ad alta sensibilità è conforme ai requisiti di sicurezza medica
    • Fornisce proiezioni delle prestazioni per scenari di applicazione reale
    • Chiarisce la necessità della supervisione umana
  4. Contributo del Dataset:
    • Colma il vuoto dei dataset di salute mentale annotati clinicamente
    • Simula le caratteristiche della comunicazione digitale reale
    • Fornisce una risorsa importante per lo sviluppo del settore

Limitazioni

  1. Problemi di Autenticità dei Dati:
    • Dipendenza completa da dati sintetici, potenzialmente diversi dai messaggi reali degli utenti
    • Mancanza di validazione della distribuzione nel mondo reale
  2. Dettagli Tecnici Insufficienti:
    • Descrizione dell'architettura del modello troppo sommaria
    • Mancanza di spiegazioni dettagliate del processo di addestramento e degli iperparametri
    • L'implementazione specifica dell'ingegneria dei prompt non è divulgata
  3. Limitazioni della Valutazione:
    • Limitato all'elaborazione di messaggi singoli
    • Mancanza di test avversariali e analisi dei casi limite
    • Non considera le differenze tra diversi gruppi di popolazione e contesti culturali
  4. Problemi di Riproducibilità:
    • I dettagli dell'implementazione del modello non sono sufficientemente dettagliati
    • La descrizione del processo di costruzione del dataset è insufficiente

Impatto

  1. Contributi Accademici:
    • Stabilisce benchmark per l'applicazione della sicurezza dell'IA nel campo della salute mentale
    • Promuove lo sviluppo della ricerca sui filtri di sicurezza specializzati
    • Fornisce importanti dataset di valutazione e metodologie
  2. Valore Pratico:
    • Direttamente applicabile ai sistemi di supporto alle decisioni cliniche
    • Può essere integrato nelle piattaforme di salute digitale
    • Fornisce supporto tecnologico per interventi di salute mentale su larga scala
  3. Significato Sociale:
    • Aiuta a ridurre i rischi dei sistemi di IA nel trattamento delle crisi di salute mentale
    • Promuove lo sviluppo dell'IA responsabile nel settore sanitario
    • Fornisce basi tecniche per la formulazione delle politiche

Scenari Applicabili

  1. Sistemi di Triage Clinico: Come strumento di screening iniziale per identificare pazienti ad alto rischio
  2. Piattaforme di Salute Digitale: Integrazione nelle applicazioni di salute mentale per fornire garanzie di sicurezza
  3. Linee di Intervento in Crisi: Assistenza ai servizi clienti umani nell'identificazione di situazioni di emergenza
  4. Educazione e Formazione: Utilizzo per la formazione dei medici clinici nel riconoscimento delle crisi
  5. Applicazioni di Ricerca: Come strumento di benchmark per la ricerca sulla sicurezza dell'IA nella salute mentale

Bibliografia

L'articolo cita una ricca letteratura correlata, principalmente includente:

  1. Ricerca epidemiologica sulle crisi di salute mentale
  2. Tecnologie di sicurezza dell'IA e moderazione dei contenuti
  3. Sistemi di supporto alle decisioni cliniche
  4. Ricerca sugli interventi di salute mentale digitale
  5. Applicazioni dell'elaborazione del linguaggio naturale nella sanità

Valutazione Complessiva: Questo è un lavoro di ricerca di importante valore nel campo dell'intersezione tra la sicurezza dell'IA e la salute mentale digitale. L'articolo affronta un problema reale e urgente, con metodologia rigorosa e risultati convincenti. Sebbene presenti alcune limitazioni nell'autenticità dei dati e nei dettagli tecnici, la sua rilevanza clinica e il valore pratico lo rendono un contributo importante in questo campo. Questo lavoro pone una base importante per la ricerca futura sulla sicurezza dell'IA nella salute mentale.