2025-11-17T15:52:13.050530

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations

Nelson, Wong, Silvestrini et al.
Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.
academic

Ein KI-basierter Verhaltensgesundheits-Sicherheitsfilter und Datensatz zur Identifizierung psychischer Gesundheitskrisen in textgestützten Gesprächen

Grundlegende Informationen

  • Papier-ID: 2510.12083
  • Titel: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
  • Autoren: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
  • Klassifizierung: cs.CL cs.AI
  • Veröffentlichungszeit: Preprint-Arbeit, keine explizite Zeitschriften- oder Konferenzangabe
  • Papier-Link: https://arxiv.org/abs/2510.12083

Zusammenfassung

Große Sprachmodelle machen häufig Fehler bei der Behandlung psychischer Gesundheitskrisen und geben schädliche oder unangemessene Ratschläge, die sogar destruktives Verhalten fördern können. Diese Studie bewertet den Verily Behavioral Health Safety Filter (VBHSF) auf zwei Datensätzen: dem Verily Mental Health Crisis Dataset mit 1.800 simulierten Nachrichten und einer Teilmenge des NVIDIA Aegis AI Content Safety Dataset mit 794 psychischen Gesundheitsnachrichten. Beide Datensätze wurden von klinischen Fachleuten annotiert. Die Studie vergleicht auch die Leistung mit zwei Open-Source-Content-Moderation-Guardrails: OpenAI Omni Moderation Latest und NVIDIA NeMo Guardrails. Der VBHSF zeigt hervorragende Leistungen beim Verily Mental Health Crisis Dataset v1.0 mit hoher Sensitivität (0,990) und Spezifität (0,992) bei der Erkennung psychischer Gesundheitskrisen. Bei der Identifizierung spezifischer Krisenkategorien erreicht der F1-Score 0,939 mit einer Sensitivität von 0,917–0,992 und einer Spezifität ≥0,978. Bei der Bewertung auf dem NVIDIA Aegis AI Content Safety Dataset 2.0 behält der VBHSF hohe Sensitivität (0,982) und Genauigkeit (0,921) bei, zeigt aber eine reduzierte Spezifität (0,859). Im Vergleich zu bestehenden Guardrails zeigt der VBHSF in allen Fällen signifikant höhere Sensitivität (alle p < 0,001), höhere Spezifität gegenüber NVIDIA NeMo (p < 0,001), aber keinen signifikanten Unterschied zu OpenAI Omni Moderation Latest (p = 0,094).

Forschungshintergrund und Motivation

Problemdefinition

Die Identifizierung und Behandlung psychischer Gesundheitskrisen ist ein zunehmend ernstes gesellschaftliches Problem. Der Forschungshintergrund zeigt:

  1. Weit verbreitete und steigende psychische Gesundheitskrisen: Psychiatrische Notfälle werden immer häufiger und nehmen zu
  2. Erkennungsschwierigkeiten: Selbst klinische Fachleute schneiden bei der Krisenerkennung nur geringfügig besser ab als zufälliges Raten
  3. Indirekte Ausdrucksweise: Personen drücken Leiden häufig indirekt aus

Einschränkungen bestehender Technologien

Aktuelle große Sprachmodelle haben schwerwiegende Mängel bei der Behandlung psychischer Gesundheitskrisen:

  • Hochrisiko-Fehler: Einschließlich Übersehen von Selbstmordwarnsignalen, Bereitstellung unsicherer Ratschläge und sogar Förderung von Schaden
  • Unzureichende allgemeine Guardrails: Bestehende Sicherheitsfilter konzentrieren sich hauptsächlich auf allgemeine Risiken (wie sexuelle Inhalte, allgemeine Gewalt) und sind nicht für die Erkennung psychischer Gesundheitskrisen geeignet
  • Fehlende klinische Validierung: Bestehende Benchmark-Datensätze entbehren psychischer Gesundheitsnachrichten und klinischer Annotationen

Forschungsmotivation

Diese Studie zielt darauf ab, folgende kritische Lücken zu schließen:

  1. Entwicklung eines speziellen Sicherheitsfilters für psychische Gesundheitskrisen
  2. Aufbau eines klinisch validierten Datensatzes zur Erkennung psychischer Gesundheitskrisen
  3. Etablierung eines standardisierten Bewertungsrahmens

Kernbeiträge

  1. Definition von acht Dimensionen psychischer Gesundheitskrisen: In Zusammenarbeit mit klinischen Experten wurden die dringendsten und höchsten Risikomanifestationen identifiziert, einschließlich Missbrauch, Vernachlässigung, Essstörungsverhalten, Psychose, Selbstverletzung, Suizid, Substanzmissbrauch, Gewalt gegen andere und gemischte Manifestationen
  2. Entwicklung des VBHSF-Systems: Ein spezialisierter Transformer-basierter Sicherheitsfilter für psychische Gesundheit, der Krisensignale in Benutzernachrichten identifizieren und klassifizieren kann
  3. Aufbau des Verily Mental Health Crisis Dataset v1.0: Enthält 1.800 simulierte Nachrichten, die reale Muster der digitalen Kommunikation widerspiegeln und von zwei praktizierenden klinischen Fachleuten annotiert wurden
  4. Etablierung eines Bewertungs-Benchmarks: Bewertung der Leistung auf internen und externen Datensätzen mit Vergleich zu modernen allgemeinen Guardrails

Methodische Details

Aufgabendefinition

Eingabe: Textnachrichten (simulieren reale digitale Kommunikation) Ausgabe:

  • Stufe 1: Binäre Klassifizierung (Krise/Keine Krise)
  • Stufe 2: Multi-Label-Klassifizierung (8 spezifische Krisenkategorien)

Modellarchitektur

Verily Behavioral Health Safety Filter (VBHSF)

  • Grundarchitektur: Transformer-basiertes LLM (GPT-Architektur)
  • Kerntechnologie: Fortgeschrittenes Prompt Engineering und klinisches Denken
  • Zweistufiges Design:
    • Stufe 1: Gesamter Krisenerkennung-Klassifizierer
    • Stufe 2: Multi-Label-Klassifizierung für als "Krise" gekennzeichnete Nachrichten

Krisenkategorie-System

Definiert 8 klinisch relevante Krisenkategorien:

  1. Missbrauch (Abuse)
  2. Vernachlässigung (Neglect)
  3. Essstörungsverhalten (Eating-disorder behaviors)
  4. Psychose (Psychosis)
  5. Selbstverletzung (Self-harm)
  6. Suizid (Suicide)
  7. Substanzmissbrauch (Substance misuse)
  8. Gewalt gegen andere (Violence towards others)

Technische Innovationen

  1. Klinisch orientiertes Design: Im Gegensatz zu allgemeinen Sicherheitsfiltern speziell für die Nuancen psychischer Gesundheitskrisen optimiert
  2. Hierarchische Klassifizierungsarchitektur: Zweistufiges Design gewährleistet effiziente Krisenerkennung und präzise Kategorienklassifizierung
  3. Simulation realer Kommunikationsmuster: Der Datensatz enthält Merkmale echter digitaler Kommunikation wie Grammatikfehler, Internetslang und Emojis
  4. Sensitivitätsoptimierung: Priorisierung der Sensitivität zur Minimierung von Fehlklassifizierungen, was für Gesundheitsanwendungen entscheidend ist

Experimentelle Einrichtung

Datensätze

Verily Mental Health Crisis Dataset v1.0

  • Umfang: 1.800 Nachrichten (900 Krisennachrichten + 900 Nicht-Krisennachrichten)
  • Konstruktionsmethode: Verwendung vortrainierter Sprachmodelle zur Synthese, Simulation realer digitaler Kommunikationsmuster
  • Annotation: Unabhängige Annotation durch zwei praktizierende klinische Fachleute, Cohen's κ = 0,99
  • Sprachmerkmale:
    • Grammatikfehler: 55,90%
    • Internetslang: 45,80%
    • Emojis und Symbole: 13,50%

NVIDIA Aegis AI Content Safety Dataset 2.0

  • Umfang: 794 Nachrichten (397 Krise, 397 Nicht-Krise)
  • Quelle: Menschliche Datenteilmenge mit Fokus auf "Suizid und Selbstverletzung"
  • Neuannotation: Zwei klinische Fachleute klassifizierten 6,927% der Daten neu, um Labelgenauigkeit zu gewährleisten

Bewertungsmetriken

  • Primäre Metriken: Sensitivität (Sensitivity), Spezifität (Specificity), Genauigkeit (Accuracy)
  • Kombinierte Metriken: F1-Score, Positiver Vorhersagewert (PPV), Negativer Vorhersagewert (NPV)
  • Statistische Tests: Cochran's Q-Test und McNemar-Test (Bonferroni-Korrektur)

Vergleichsmethoden

  1. OpenAI Omni Moderation Latest: Basierend auf GPT-4o, deckt 13 vordefinierte Kategorien ab
  2. NVIDIA NeMo Guardrails: Open-Source-Modell, deckt 23 Risikokategorien ab

Experimentelle Ergebnisse

Hauptergebnisse

Leistung auf dem Verily-Datensatz

ModellSensitivitätSpezifitätGenauigkeitF1-Score
VBHSF0,9900,9920,991-
OpenAI0,4190,9990,709-
NVIDIA0,7590,7560,757-

Leistung auf dem NVIDIA-Datensatz

ModellSensitivitätSpezifitätGenauigkeit
VBHSF0,9820,8590,921
OpenAI0,8820,8990,890
NVIDIA0,9070,8860,897

Kategorienspezifische Leistungsanalyse

Leistung des VBHSF über verschiedene Krisenkategorien:

  • Sensitivitätsbereich: 0,917–0,992
  • Spezifität: Alle Kategorien ≥0,978
  • Makro-durchschnittlicher F1-Score: 0,939

Statistische Signifikanz

  • Die Sensitivität des VBHSF ist signifikant höher als bei beiden Vergleichsmodellen (beide p < 0,001)
  • Die Spezifität des VBHSF ist signifikant höher als bei NVIDIA NeMo (p < 0,001)
  • Kein signifikanter Unterschied zu OpenAI in der Spezifität (p = 0,094)

Analyse des praktischen Anwendungswerts

Projektionen des positiven Vorhersagewerts (PPV) in Umgebungen mit niedriger Prävalenz zeigen:

  • Bei 2% Prävalenz beträgt der PPV des VBHSF 0,716
  • Obwohl OpenAI einen etwas höheren PPV (0,895) hat, führt die zu niedrige Sensitivität zu vielen Fehlklassifizierungen
  • Die Ergebnisse zeigen die Notwendigkeit menschlicher Überwachung zur Behandlung von Falschalarmen

Verwandte Arbeiten

Forschung zur KI-Sicherheit in der psychischen Gesundheit

Die Hauptforschungsrichtungen in diesem Bereich umfassen:

  1. Krisenerkennung-Algorithmen: Traditionelle maschinelle Lernmethoden und Deep Learning
  2. Content-Moderation-Systeme: Entwicklung allgemeiner Sicherheits-Guardrails
  3. Klinische Entscheidungsunterstützung: Anwendung von KI in der psychischen Gesundheitsbewertung

Einzigartige Beiträge dieser Arbeit

Im Vergleich zu bestehenden Arbeiten hat diese Forschung folgende Vorteile:

  1. Spezialisiertes Design: Speziell für psychische Gesundheitskrisen statt allgemeiner Content-Moderation
  2. Klinische Validierung: Annotation durch praktizierende klinische Fachleute gewährleistet medizinische Genauigkeit
  3. Umfassende Bewertung: Validierung der Verallgemeinerungsfähigkeit auf internen und externen Datensätzen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Hervorragende VBHSF-Leistung: Signifikant besser als bestehende allgemeine Guardrails bei der Krisenerkennung
  2. Ausgewogene Leistung: Aufrechterhaltung hoher Sensitivität bei gleichzeitig niedriger Falschalarmrate
  3. Starke Verallgemeinerungsfähigkeit: Behält gute Leistung auf externen Datensätzen bei
  4. Hoher praktischer Wert: Geeignet als Screening-Tool mit erforderlicher menschlicher Überwachung zur Behandlung von Falschalarmen

Einschränkungen

  1. Sprachbeschränkung: Nur Englisch unterstützt, Verallgemeinerungsfähigkeit auf mehrere Sprachen unbekannt
  2. Einzelne Nachrichten: Verarbeitet nur einzelne Nachrichten, Leistung in mehrteiligen Gesprächen könnte sinken
  3. Simulierte Daten: Verwendung synthetischer Daten statt echter Benutzernachrichten
  4. Datenverunreinigungsrisiko: NVIDIA-Datensatz könnte Nachrichten enthalten, die zum Trainieren ihrer Guardrails verwendet wurden

Zukünftige Richtungen

  1. Mehrsprachige Unterstützung: Erweiterung auf Krisenerkennung in anderen Sprachen
  2. Mehrteilige Gesprächsverarbeitung: Entwicklung von Sicherheitsfiltern für Gesprächskontexte
  3. Validierung mit echten Daten: Leistungsvalidierung auf echten Benutzerdaten
  4. Standardisierter Rahmen: Etablierung von Industriestandards für Sicherheitsbewertungsprotokolle
  5. Adversarische Tests: Entwicklung von Red-Team-Tests und adversarialen Bewertungsmethoden

Tiefgreifende Bewertung

Stärken

  1. Starke klinische Relevanz:
    • Zusammenarbeit mit klinischen Experten zur Definition von Krisenkategorien
    • Verwendung praktizierender klinischer Fachleute für Datenannotation
    • Fokus auf praktische Anforderungen von Gesundheitsanwendungen
  2. Methodologische Strenge:
    • Angemessenes zweistufiges Bewertungsdesign
    • Umfassende statistische Analyse mit Signifikanztests
    • Interne und externe Validierung gewährleisten Verallgemeinerungsfähigkeit
  3. Hervorragender praktischer Wert:
    • Hochsensitives Design entspricht Anforderungen der medizinischen Sicherheit
    • Leistungsprojektionen für reale Anwendungsszenarien
    • Klare Notwendigkeit menschlicher Überwachung
  4. Datensatz-Beitrag:
    • Füllt Lücke bei klinisch annotierten psychischen Gesundheitsdatensätzen
    • Simulation echter digitaler Kommunikationsmuster
    • Bereitstellung wichtiger Ressourcen für Feldentwicklung

Mängel

  1. Probleme mit Datenauthentizität:
    • Vollständige Abhängigkeit von synthetischen Daten, möglicherweise Unterschiede zu echten Benutzernachrichten
    • Fehlende Validierung bei realer Bereitstellung
  2. Unzureichende technische Details:
    • Zu kurze Modellarchitektur-Beschreibung
    • Fehlende detaillierte Erklärung von Trainingsprozess und Hyperparametern
    • Spezifische Implementierung des Prompt Engineering nicht offengelegt
  3. Bewertungsbeschränkungen:
    • Begrenzt auf Verarbeitung einzelner Nachrichten
    • Fehlende adversariale Tests und Grenzfallanalyse
    • Keine Berücksichtigung von Unterschieden zwischen verschiedenen Bevölkerungsgruppen und kulturellen Hintergründen
  4. Reproduzierungsprobleme:
    • Modellimplementierungsdetails nicht ausreichend detailliert
    • Datensatzkonstruktionsprozess nicht ausreichend beschrieben

Auswirkungen

  1. Akademische Beiträge:
    • Etablierung von Benchmarks für KI-Sicherheit im Bereich psychische Gesundheit
    • Förderung der Forschung zu spezialisierten Sicherheitsfiltern
    • Bereitstellung wichtiger Bewertungsdatensätze und Methoden
  2. Praktischer Wert:
    • Direkt anwendbar auf klinische Entscheidungsunterstützungssysteme
    • Integration in digitale Gesundheitsplattformen
    • Technische Unterstützung für großflächige psychische Gesundheitsinterventionen
  3. Gesellschaftliche Bedeutung:
    • Hilft, Risiken von KI-Systemen bei der Behandlung psychischer Gesundheitskrisen zu reduzieren
    • Förderung verantwortungsvoller KI in der medizinischen Versorgung
    • Bereitstellung technischer Grundlagen für politische Entscheidungsfindung

Anwendungsszenarien

  1. Klinische Triage-Systeme: Als Vorscreening-Tool zur Identifizierung hochriskanter Patienten
  2. Digitale Gesundheitsplattformen: Integration in psychische Gesundheitsanwendungen für Sicherheitsgarantien
  3. Kriseninterventions-Hotlines: Unterstützung von menschlichen Agenten bei der Identifizierung von Notfällen
  4. Bildung und Training: Verwendung für Schulung klinischer Fachleute in der Krisenerkennung
  5. Forschungsanwendungen: Als Benchmark-Tool für psychische Gesundheit KI-Sicherheitsforschung

Literaturverzeichnis

Das Papier zitiert umfangreiche verwandte Literatur, hauptsächlich einschließlich:

  1. Epidemiologische Forschung zu psychischen Gesundheitskrisen
  2. KI-Sicherheit und Content-Moderation-Technologien
  3. Klinische Entscheidungsunterstützungssysteme
  4. Digitale psychische Gesundheitsinterventionsforschung
  5. Anwendung der Verarbeitung natürlicher Sprache in der medizinischen Versorgung

Gesamtbewertung: Dies ist eine Forschungsarbeit von erheblichem Wert an der Schnittstelle von KI-Sicherheit und digitaler psychischer Gesundheit. Das Papier behandelt ein reales und dringendes Problem mit strenger Methodik und überzeugenden Ergebnissen. Obwohl es einige Einschränkungen in Bezug auf Datenauthentizität und technische Details gibt, machen seine klinische Relevanz und praktischer Wert es zu einem wichtigen Beitrag in diesem Bereich. Diese Arbeit legt eine wichtige Grundlage für zukünftige KI-Sicherheitsforschung im Bereich psychische Gesundheit.