2025-11-17T15:52:13.050530

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations

Nelson, Wong, Silvestrini et al.

Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.

academic

Un Filtro de Seguridad de Salud del Comportamiento Basado en IA y Conjunto de Datos para Identificar Crisis de Salud Mental en Conversaciones Basadas en Texto

Información Básica

ID del Artículo: 2510.12083
Título: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
Autores: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
Clasificación: cs.CL cs.AI
Fecha de Publicación: Artículo de preimpresión, sin revista o conferencia explícitamente indicada
Enlace del Artículo: https://arxiv.org/abs/2510.12083

Resumen

Los modelos de lenguaje grande cometen errores frecuentes al procesar crisis de salud mental, proporcionando consejos dañinos o inapropiados, e incluso facilitando comportamientos destructivos. Este estudio evalúa el Filtro de Seguridad de Salud del Comportamiento de Verily (VBHSF) en dos conjuntos de datos: el Conjunto de Datos de Crisis de Salud Mental de Verily que contiene 1,800 mensajes simulados y un subconjunto del Conjunto de Datos de Seguridad de Contenido de IA Aegis de NVIDIA que contiene 794 mensajes relacionados con la salud mental. Ambos conjuntos de datos fueron anotados por médicos clínicos. El estudio también incluye un análisis de rendimiento comparativo con dos barreras de seguridad de moderación de contenido de código abierto: OpenAI Omni Moderation Latest y NVIDIA NeMo Guardrails. El VBHSF mostró un desempeño excepcional en el Conjunto de Datos de Crisis de Salud Mental de Verily v1.0, logrando una alta sensibilidad (0.990) y especificidad (0.992) en la detección de cualquier crisis de salud mental. En la identificación de categorías de crisis específicas, la puntuación F1 fue de 0.939, con sensibilidad que oscila entre 0.917-0.992 y especificidad ≥0.978. Cuando se evaluó en el Conjunto de Datos de Seguridad de Contenido de IA Aegis 2.0 de NVIDIA, el VBHSF mantuvo una alta sensibilidad (0.982) y precisión (0.921), aunque la especificidad fue menor (0.859). En comparación con las barreras de seguridad existentes, el VBHSF mostró una sensibilidad significativamente mayor en todos los casos (todos p < 0.001), mayor especificidad en relación con NVIDIA NeMo (p < 0.001), pero sin diferencias significativas con OpenAI Omni Moderation Latest (p = 0.094).

Antecedentes y Motivación de la Investigación

Definición del Problema

La identificación y el manejo de crisis de salud mental es un problema social cada vez más grave. Los antecedentes de la investigación indican:

Crisis de salud mental prevalentes y en aumento: Las emergencias de salud mental son cada vez más comunes y están en aumento
Dificultad en la detección: Incluso los médicos clínicos solo funcionan ligeramente mejor que el azar en la detección de crisis
Expresión indirecta: Los individuos típicamente expresan el sufrimiento de manera indirecta

Limitaciones de la Tecnología Existente

Los modelos de lenguaje grande actuales tienen deficiencias graves en el manejo de crisis de salud mental:

Errores de alto riesgo: Incluyen perder señales de advertencia de suicidio, proporcionar consejos inseguros, e incluso facilitar daño
Barreras de seguridad genéricas insuficientes: Los filtros de seguridad existentes se enfocan principalmente en riesgos generales (como contenido sexual, violencia general) y no son adecuados para la detección de crisis de salud mental
Falta de validación clínica: Los conjuntos de datos de referencia existentes carecen de mensajes de salud mental y anotaciones clínicas

Motivación de la Investigación

Este estudio tiene como objetivo llenar las siguientes brechas críticas:

Desarrollar un filtro de seguridad especializado para crisis de salud mental
Construir un conjunto de datos de detección de crisis de salud mental validado clínicamente
Establecer un marco de evaluación estandarizado

Contribuciones Principales

Definición de ocho dimensiones de crisis de salud mental: En colaboración con expertos clínicos, se identificaron las manifestaciones más urgentes y de alto riesgo, incluyendo abuso, negligencia, comportamientos de trastornos alimentarios, psicosis, autolesiones, suicidio, abuso de sustancias, violencia hacia otros y manifestaciones mixtas
Desarrollo del sistema VBHSF: Un filtro de seguridad de salud mental especializado basado en Transformer que puede identificar y clasificar señales de crisis en mensajes de usuarios
Construcción del Conjunto de Datos de Crisis de Salud Mental de Verily v1.0: Contiene 1,800 mensajes simulados que reflejan patrones de comunicación digital del mundo real, anotados por dos médicos clínicos en ejercicio
Establecimiento de un punto de referencia de evaluación: Evaluación del rendimiento en conjuntos de datos internos y externos, con comparación con barreras de seguridad genéricas de última generación

Explicación Detallada del Método

Definición de la Tarea

Entrada: Mensajes de texto (simulando comunicación digital del mundo real) Salida:

Etapa 1: Clasificación binaria (crisis/no crisis)
Etapa 2: Clasificación multiétiqueta (8 categorías de crisis específicas)

Arquitectura del Modelo

Filtro de Seguridad de Salud del Comportamiento de Verily (VBHSF)

Arquitectura Base: Modelo de lenguaje basado en Transformer (arquitectura GPT)
Tecnología Principal: Utiliza ingeniería de indicaciones avanzada y razonamiento clínico
Diseño de Dos Etapas:
- Etapa 1: Clasificador de detección de crisis general
- Etapa 2: Clasificación multiétiqueta para mensajes marcados como "crisis"

Sistema de Categorías de Crisis

Se definieron 8 categorías de crisis clínicamente relevantes:

Abuso (Abuse)
Negligencia (Neglect)
Comportamientos de trastornos alimentarios (Eating-disorder behaviors)
Psicosis (Psychosis)
Autolesiones (Self-harm)
Suicidio (Suicide)
Abuso de sustancias (Substance misuse)
Violencia hacia otros (Violence towards others)

Puntos de Innovación Técnica

Diseño orientado clínicamente: A diferencia de los filtros de seguridad genéricos, optimizado específicamente para los matices de las crisis de salud mental
Arquitectura de clasificación jerárquica: El diseño de dos etapas asegura detección de crisis eficiente y clasificación de categorías precisa
Simulación de patrones de comunicación real: El conjunto de datos incluye características de comunicación digital real como errores de mecanismos lingüísticos, jerga de internet y emojis
Optimización de alta sensibilidad: Prioriza la sensibilidad para minimizar falsos negativos, lo cual es crítico para aplicaciones de atención médica

Configuración Experimental

Conjuntos de Datos

Conjunto de Datos de Crisis de Salud Mental de Verily v1.0

Escala: 1,800 mensajes (900 mensajes de crisis + 900 mensajes sin crisis)
Método de Construcción: Sintetizado usando modelos de lenguaje preentrenados, simulando patrones de comunicación digital real
Anotación: Anotados independientemente por dos médicos clínicos en ejercicio, Cohen's κ = 0.99
Características Lingüísticas:
- Errores de mecanismos lingüísticos: 55.90%
- Jerga de internet: 45.80%
- Emojis y marcas de símbolos: 13.50%

Conjunto de Datos de Seguridad de Contenido de IA Aegis 2.0 de NVIDIA

Escala: 794 mensajes (397 crisis, 397 sin crisis)
Fuente: Subconjunto de datos humanos enfocado en "suicidio y autolesiones"
Re-anotación: Dos médicos clínicos reclasificaron el 6.927% de los datos para asegurar precisión de etiquetas

Métricas de Evaluación

Métricas Principales: Sensibilidad (Sensitivity), Especificidad (Specificity), Precisión (Accuracy)
Métricas Integradas: Puntuación F1, Valor Predictivo Positivo (PPV), Valor Predictivo Negativo (NPV)
Pruebas Estadísticas: Prueba de Cochran's Q y Prueba de McNemar (corrección de Bonferroni)

Métodos de Comparación

OpenAI Omni Moderation Latest: Basado en GPT-4o, cubre 13 categorías predefinidas
NVIDIA NeMo Guardrails: Modelo de código abierto, cubre 23 categorías de riesgo

Resultados Experimentales

Resultados Principales

Desempeño en el Conjunto de Datos de Verily

Modelo	Sensibilidad	Especificidad	Precisión	Puntuación F1
VBHSF	0.990	0.992	0.991	-
OpenAI	0.419	0.999	0.709	-
NVIDIA	0.759	0.756	0.757	-

Desempeño en el Conjunto de Datos de NVIDIA

Modelo	Sensibilidad	Especificidad	Precisión
VBHSF	0.982	0.859	0.921
OpenAI	0.882	0.899	0.890
NVIDIA	0.907	0.886	0.897

Análisis de Rendimiento por Categoría

Desempeño del VBHSF en varias categorías de crisis:

Rango de Sensibilidad: 0.917-0.992
Especificidad: Todas las categorías ≥0.978
Puntuación F1 Macro-promediada: 0.939

Significancia Estadística

La sensibilidad del VBHSF es significativamente mayor que ambos modelos de comparación (ambos p < 0.001)
La especificidad del VBHSF es significativamente mayor que NVIDIA NeMo (p < 0.001)
Sin diferencias significativas con OpenAI en especificidad (p = 0.094)

Análisis del Valor de Aplicación Práctica

Las proyecciones del Valor Predictivo Positivo (PPV) en entornos de baja prevalencia muestran:

Con prevalencia del 2%, el PPV del VBHSF es de 0.716
Aunque OpenAI tiene un PPV ligeramente mayor (0.895), su baja sensibilidad resulta en muchos falsos negativos
Los resultados indican la necesidad de supervisión humana para manejar falsos positivos

Trabajo Relacionado

Investigación en Seguridad de IA en Salud Mental

Las principales direcciones de investigación en este campo incluyen:

Algoritmos de detección de crisis: Métodos de aprendizaje automático tradicional y aprendizaje profundo
Sistemas de moderación de contenido: Desarrollo de barreras de seguridad genéricas
Apoyo a decisiones clínicas: Aplicaciones de IA en evaluación de salud mental

Contribuciones Únicas de Este Trabajo

Las ventajas de esta investigación en comparación con trabajos existentes:

Diseño especializado: Específicamente para crisis de salud mental en lugar de moderación de contenido genérica
Validación clínica: Anotación por médicos clínicos en ejercicio, asegurando precisión médica
Evaluación integral: Validación simultánea en conjuntos de datos internos y externos

Conclusiones y Discusión

Conclusiones Principales

VBHSF muestra desempeño excepcional: Significativamente superior a las barreras de seguridad genéricas existentes en detección de crisis
Rendimiento equilibrado: Mantiene alta sensibilidad mientras se preserva una tasa baja de falsos positivos
Capacidad de generalización fuerte: Mantiene buen desempeño en conjuntos de datos externos
Alto valor práctico: Adecuado como herramienta de cribado, requiere supervisión humana para manejar falsos positivos

Limitaciones

Restricción de idioma: Solo soporta inglés, la capacidad de generalización multilingüe es desconocida
Conversación de una sola vuelta: Solo procesa mensajes individuales, el rendimiento en conversaciones multivuelta puede disminuir
Datos simulados: Utiliza datos sintéticos en lugar de mensajes reales de usuarios
Riesgo de contaminación de datos: El conjunto de datos de NVIDIA puede contener mensajes utilizados para entrenar su barrera de seguridad

Direcciones Futuras

Soporte multilingüe: Expandir a detección de crisis en otros idiomas
Procesamiento de conversaciones multivuelta: Desarrollar filtros de seguridad aplicables al contexto de conversación
Validación con datos reales: Verificar el rendimiento en datos reales de usuarios
Marco estandarizado: Establecer protocolos de evaluación de seguridad estándar de la industria
Pruebas adversariales: Desarrollar métodos de prueba de equipo rojo y evaluación adversarial

Evaluación Profunda

Fortalezas

Fuerte relevancia clínica:
- Colaboración con expertos clínicos en la definición de categorías de crisis
- Anotación de datos por médicos clínicos en ejercicio
- Enfoque en necesidades prácticas de aplicaciones de atención médica
Metodología rigurosa:
- Diseño de evaluación de dos etapas bien razonado
- Análisis estadístico integral, incluyendo pruebas de significancia
- Validación interna y externa asegura capacidad de generalización
Valor práctico destacado:
- El diseño de alta sensibilidad se alinea con requisitos de seguridad médica
- Proporciona proyecciones de rendimiento para escenarios de aplicación real
- Clarifica la necesidad de supervisión humana
Contribución del conjunto de datos:
- Llena el vacío de conjuntos de datos de salud mental anotados clínicamente
- Simula características de comunicación digital real
- Proporciona recursos importantes para el desarrollo del campo

Deficiencias

Problemas de autenticidad de datos:
- Dependencia completa de datos sintéticos, puede diferir de mensajes reales de usuarios
- Falta de validación en despliegue del mundo real
Detalles técnicos insuficientes:
- Descripción de arquitectura del modelo demasiado breve
- Falta de explicación detallada del proceso de entrenamiento e hiperparámetros
- La implementación específica de ingeniería de indicaciones no se divulga
Limitaciones de evaluación:
- Limitado al procesamiento de mensajes de una sola vuelta
- Falta de pruebas adversariales y análisis de casos límite
- No considera diferencias entre diferentes poblaciones y contextos culturales
Problemas de reproducibilidad:
- Detalles de implementación del modelo insuficientemente detallados
- Descripción del proceso de construcción del conjunto de datos incompleta

Impacto

Contribución académica:
- Establece un punto de referencia para la aplicación de seguridad de IA en salud mental
- Impulsa el desarrollo de investigación en filtros de seguridad especializados
- Proporciona un conjunto de datos de evaluación importante y metodología
Valor práctico:
- Directamente aplicable a sistemas de apoyo a decisiones clínicas
- Puede integrarse en plataformas de salud digital
- Proporciona soporte tecnológico para intervenciones de salud mental a gran escala
Significancia social:
- Ayuda a reducir riesgos en sistemas de IA en el manejo de crisis de salud mental
- Impulsa el desarrollo de IA responsable en el sector de salud
- Proporciona evidencia técnica para la formulación de políticas

Escenarios de Aplicación

Sistemas de triaje clínico: Como herramienta de cribado inicial para identificar pacientes de alto riesgo
Plataformas de salud digital: Integración en aplicaciones de salud mental para proporcionar salvaguardas de seguridad
Líneas de intervención en crisis: Asistencia a operadores humanos en la identificación de situaciones de emergencia
Educación y capacitación: Para entrenar a médicos clínicos en reconocimiento de crisis
Aplicación de investigación: Como herramienta de referencia para investigación en seguridad de IA en salud mental

Referencias

El artículo cita una amplia literatura relevante, incluyendo principalmente:

Investigación epidemiológica en crisis de salud mental
Tecnología de seguridad de IA y moderación de contenido
Sistemas de apoyo a decisiones clínicas
Investigación en intervenciones digitales de salud mental
Aplicaciones de procesamiento de lenguaje natural en atención médica

Evaluación General: Este es un trabajo de investigación de valor importante en el campo de intersección entre seguridad de IA y salud mental digital. El artículo aborda un problema real y urgente, con metodología rigurosa y resultados convincentes. Aunque existen algunas limitaciones en autenticidad de datos y detalles técnicos, su relevancia clínica y valor práctico lo convierten en una contribución importante al campo. Este trabajo establece una base importante para futuras investigaciones en seguridad de IA en salud mental.