Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.
- ID del Artículo: 2510.12083
- Título: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
- Autores: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
- Clasificación: cs.CL cs.AI
- Fecha de Publicación: Artículo de preimpresión, sin revista o conferencia explícitamente indicada
- Enlace del Artículo: https://arxiv.org/abs/2510.12083
Los modelos de lenguaje grande cometen errores frecuentes al procesar crisis de salud mental, proporcionando consejos dañinos o inapropiados, e incluso facilitando comportamientos destructivos. Este estudio evalúa el Filtro de Seguridad de Salud del Comportamiento de Verily (VBHSF) en dos conjuntos de datos: el Conjunto de Datos de Crisis de Salud Mental de Verily que contiene 1,800 mensajes simulados y un subconjunto del Conjunto de Datos de Seguridad de Contenido de IA Aegis de NVIDIA que contiene 794 mensajes relacionados con la salud mental. Ambos conjuntos de datos fueron anotados por médicos clínicos. El estudio también incluye un análisis de rendimiento comparativo con dos barreras de seguridad de moderación de contenido de código abierto: OpenAI Omni Moderation Latest y NVIDIA NeMo Guardrails. El VBHSF mostró un desempeño excepcional en el Conjunto de Datos de Crisis de Salud Mental de Verily v1.0, logrando una alta sensibilidad (0.990) y especificidad (0.992) en la detección de cualquier crisis de salud mental. En la identificación de categorías de crisis específicas, la puntuación F1 fue de 0.939, con sensibilidad que oscila entre 0.917-0.992 y especificidad ≥0.978. Cuando se evaluó en el Conjunto de Datos de Seguridad de Contenido de IA Aegis 2.0 de NVIDIA, el VBHSF mantuvo una alta sensibilidad (0.982) y precisión (0.921), aunque la especificidad fue menor (0.859). En comparación con las barreras de seguridad existentes, el VBHSF mostró una sensibilidad significativamente mayor en todos los casos (todos p < 0.001), mayor especificidad en relación con NVIDIA NeMo (p < 0.001), pero sin diferencias significativas con OpenAI Omni Moderation Latest (p = 0.094).
La identificación y el manejo de crisis de salud mental es un problema social cada vez más grave. Los antecedentes de la investigación indican:
- Crisis de salud mental prevalentes y en aumento: Las emergencias de salud mental son cada vez más comunes y están en aumento
- Dificultad en la detección: Incluso los médicos clínicos solo funcionan ligeramente mejor que el azar en la detección de crisis
- Expresión indirecta: Los individuos típicamente expresan el sufrimiento de manera indirecta
Los modelos de lenguaje grande actuales tienen deficiencias graves en el manejo de crisis de salud mental:
- Errores de alto riesgo: Incluyen perder señales de advertencia de suicidio, proporcionar consejos inseguros, e incluso facilitar daño
- Barreras de seguridad genéricas insuficientes: Los filtros de seguridad existentes se enfocan principalmente en riesgos generales (como contenido sexual, violencia general) y no son adecuados para la detección de crisis de salud mental
- Falta de validación clínica: Los conjuntos de datos de referencia existentes carecen de mensajes de salud mental y anotaciones clínicas
Este estudio tiene como objetivo llenar las siguientes brechas críticas:
- Desarrollar un filtro de seguridad especializado para crisis de salud mental
- Construir un conjunto de datos de detección de crisis de salud mental validado clínicamente
- Establecer un marco de evaluación estandarizado
- Definición de ocho dimensiones de crisis de salud mental: En colaboración con expertos clínicos, se identificaron las manifestaciones más urgentes y de alto riesgo, incluyendo abuso, negligencia, comportamientos de trastornos alimentarios, psicosis, autolesiones, suicidio, abuso de sustancias, violencia hacia otros y manifestaciones mixtas
- Desarrollo del sistema VBHSF: Un filtro de seguridad de salud mental especializado basado en Transformer que puede identificar y clasificar señales de crisis en mensajes de usuarios
- Construcción del Conjunto de Datos de Crisis de Salud Mental de Verily v1.0: Contiene 1,800 mensajes simulados que reflejan patrones de comunicación digital del mundo real, anotados por dos médicos clínicos en ejercicio
- Establecimiento de un punto de referencia de evaluación: Evaluación del rendimiento en conjuntos de datos internos y externos, con comparación con barreras de seguridad genéricas de última generación
Entrada: Mensajes de texto (simulando comunicación digital del mundo real)
Salida:
- Etapa 1: Clasificación binaria (crisis/no crisis)
- Etapa 2: Clasificación multiétiqueta (8 categorías de crisis específicas)
- Arquitectura Base: Modelo de lenguaje basado en Transformer (arquitectura GPT)
- Tecnología Principal: Utiliza ingeniería de indicaciones avanzada y razonamiento clínico
- Diseño de Dos Etapas:
- Etapa 1: Clasificador de detección de crisis general
- Etapa 2: Clasificación multiétiqueta para mensajes marcados como "crisis"
Se definieron 8 categorías de crisis clínicamente relevantes:
- Abuso (Abuse)
- Negligencia (Neglect)
- Comportamientos de trastornos alimentarios (Eating-disorder behaviors)
- Psicosis (Psychosis)
- Autolesiones (Self-harm)
- Suicidio (Suicide)
- Abuso de sustancias (Substance misuse)
- Violencia hacia otros (Violence towards others)
- Diseño orientado clínicamente: A diferencia de los filtros de seguridad genéricos, optimizado específicamente para los matices de las crisis de salud mental
- Arquitectura de clasificación jerárquica: El diseño de dos etapas asegura detección de crisis eficiente y clasificación de categorías precisa
- Simulación de patrones de comunicación real: El conjunto de datos incluye características de comunicación digital real como errores de mecanismos lingüísticos, jerga de internet y emojis
- Optimización de alta sensibilidad: Prioriza la sensibilidad para minimizar falsos negativos, lo cual es crítico para aplicaciones de atención médica
- Escala: 1,800 mensajes (900 mensajes de crisis + 900 mensajes sin crisis)
- Método de Construcción: Sintetizado usando modelos de lenguaje preentrenados, simulando patrones de comunicación digital real
- Anotación: Anotados independientemente por dos médicos clínicos en ejercicio, Cohen's κ = 0.99
- Características Lingüísticas:
- Errores de mecanismos lingüísticos: 55.90%
- Jerga de internet: 45.80%
- Emojis y marcas de símbolos: 13.50%
- Escala: 794 mensajes (397 crisis, 397 sin crisis)
- Fuente: Subconjunto de datos humanos enfocado en "suicidio y autolesiones"
- Re-anotación: Dos médicos clínicos reclasificaron el 6.927% de los datos para asegurar precisión de etiquetas
- Métricas Principales: Sensibilidad (Sensitivity), Especificidad (Specificity), Precisión (Accuracy)
- Métricas Integradas: Puntuación F1, Valor Predictivo Positivo (PPV), Valor Predictivo Negativo (NPV)
- Pruebas Estadísticas: Prueba de Cochran's Q y Prueba de McNemar (corrección de Bonferroni)
- OpenAI Omni Moderation Latest: Basado en GPT-4o, cubre 13 categorías predefinidas
- NVIDIA NeMo Guardrails: Modelo de código abierto, cubre 23 categorías de riesgo
| Modelo | Sensibilidad | Especificidad | Precisión | Puntuación F1 |
|---|
| VBHSF | 0.990 | 0.992 | 0.991 | - |
| OpenAI | 0.419 | 0.999 | 0.709 | - |
| NVIDIA | 0.759 | 0.756 | 0.757 | - |
| Modelo | Sensibilidad | Especificidad | Precisión |
|---|
| VBHSF | 0.982 | 0.859 | 0.921 |
| OpenAI | 0.882 | 0.899 | 0.890 |
| NVIDIA | 0.907 | 0.886 | 0.897 |
Desempeño del VBHSF en varias categorías de crisis:
- Rango de Sensibilidad: 0.917-0.992
- Especificidad: Todas las categorías ≥0.978
- Puntuación F1 Macro-promediada: 0.939
- La sensibilidad del VBHSF es significativamente mayor que ambos modelos de comparación (ambos p < 0.001)
- La especificidad del VBHSF es significativamente mayor que NVIDIA NeMo (p < 0.001)
- Sin diferencias significativas con OpenAI en especificidad (p = 0.094)
Las proyecciones del Valor Predictivo Positivo (PPV) en entornos de baja prevalencia muestran:
- Con prevalencia del 2%, el PPV del VBHSF es de 0.716
- Aunque OpenAI tiene un PPV ligeramente mayor (0.895), su baja sensibilidad resulta en muchos falsos negativos
- Los resultados indican la necesidad de supervisión humana para manejar falsos positivos
Las principales direcciones de investigación en este campo incluyen:
- Algoritmos de detección de crisis: Métodos de aprendizaje automático tradicional y aprendizaje profundo
- Sistemas de moderación de contenido: Desarrollo de barreras de seguridad genéricas
- Apoyo a decisiones clínicas: Aplicaciones de IA en evaluación de salud mental
Las ventajas de esta investigación en comparación con trabajos existentes:
- Diseño especializado: Específicamente para crisis de salud mental en lugar de moderación de contenido genérica
- Validación clínica: Anotación por médicos clínicos en ejercicio, asegurando precisión médica
- Evaluación integral: Validación simultánea en conjuntos de datos internos y externos
- VBHSF muestra desempeño excepcional: Significativamente superior a las barreras de seguridad genéricas existentes en detección de crisis
- Rendimiento equilibrado: Mantiene alta sensibilidad mientras se preserva una tasa baja de falsos positivos
- Capacidad de generalización fuerte: Mantiene buen desempeño en conjuntos de datos externos
- Alto valor práctico: Adecuado como herramienta de cribado, requiere supervisión humana para manejar falsos positivos
- Restricción de idioma: Solo soporta inglés, la capacidad de generalización multilingüe es desconocida
- Conversación de una sola vuelta: Solo procesa mensajes individuales, el rendimiento en conversaciones multivuelta puede disminuir
- Datos simulados: Utiliza datos sintéticos en lugar de mensajes reales de usuarios
- Riesgo de contaminación de datos: El conjunto de datos de NVIDIA puede contener mensajes utilizados para entrenar su barrera de seguridad
- Soporte multilingüe: Expandir a detección de crisis en otros idiomas
- Procesamiento de conversaciones multivuelta: Desarrollar filtros de seguridad aplicables al contexto de conversación
- Validación con datos reales: Verificar el rendimiento en datos reales de usuarios
- Marco estandarizado: Establecer protocolos de evaluación de seguridad estándar de la industria
- Pruebas adversariales: Desarrollar métodos de prueba de equipo rojo y evaluación adversarial
- Fuerte relevancia clínica:
- Colaboración con expertos clínicos en la definición de categorías de crisis
- Anotación de datos por médicos clínicos en ejercicio
- Enfoque en necesidades prácticas de aplicaciones de atención médica
- Metodología rigurosa:
- Diseño de evaluación de dos etapas bien razonado
- Análisis estadístico integral, incluyendo pruebas de significancia
- Validación interna y externa asegura capacidad de generalización
- Valor práctico destacado:
- El diseño de alta sensibilidad se alinea con requisitos de seguridad médica
- Proporciona proyecciones de rendimiento para escenarios de aplicación real
- Clarifica la necesidad de supervisión humana
- Contribución del conjunto de datos:
- Llena el vacío de conjuntos de datos de salud mental anotados clínicamente
- Simula características de comunicación digital real
- Proporciona recursos importantes para el desarrollo del campo
- Problemas de autenticidad de datos:
- Dependencia completa de datos sintéticos, puede diferir de mensajes reales de usuarios
- Falta de validación en despliegue del mundo real
- Detalles técnicos insuficientes:
- Descripción de arquitectura del modelo demasiado breve
- Falta de explicación detallada del proceso de entrenamiento e hiperparámetros
- La implementación específica de ingeniería de indicaciones no se divulga
- Limitaciones de evaluación:
- Limitado al procesamiento de mensajes de una sola vuelta
- Falta de pruebas adversariales y análisis de casos límite
- No considera diferencias entre diferentes poblaciones y contextos culturales
- Problemas de reproducibilidad:
- Detalles de implementación del modelo insuficientemente detallados
- Descripción del proceso de construcción del conjunto de datos incompleta
- Contribución académica:
- Establece un punto de referencia para la aplicación de seguridad de IA en salud mental
- Impulsa el desarrollo de investigación en filtros de seguridad especializados
- Proporciona un conjunto de datos de evaluación importante y metodología
- Valor práctico:
- Directamente aplicable a sistemas de apoyo a decisiones clínicas
- Puede integrarse en plataformas de salud digital
- Proporciona soporte tecnológico para intervenciones de salud mental a gran escala
- Significancia social:
- Ayuda a reducir riesgos en sistemas de IA en el manejo de crisis de salud mental
- Impulsa el desarrollo de IA responsable en el sector de salud
- Proporciona evidencia técnica para la formulación de políticas
- Sistemas de triaje clínico: Como herramienta de cribado inicial para identificar pacientes de alto riesgo
- Plataformas de salud digital: Integración en aplicaciones de salud mental para proporcionar salvaguardas de seguridad
- Líneas de intervención en crisis: Asistencia a operadores humanos en la identificación de situaciones de emergencia
- Educación y capacitación: Para entrenar a médicos clínicos en reconocimiento de crisis
- Aplicación de investigación: Como herramienta de referencia para investigación en seguridad de IA en salud mental
El artículo cita una amplia literatura relevante, incluyendo principalmente:
- Investigación epidemiológica en crisis de salud mental
- Tecnología de seguridad de IA y moderación de contenido
- Sistemas de apoyo a decisiones clínicas
- Investigación en intervenciones digitales de salud mental
- Aplicaciones de procesamiento de lenguaje natural en atención médica
Evaluación General: Este es un trabajo de investigación de valor importante en el campo de intersección entre seguridad de IA y salud mental digital. El artículo aborda un problema real y urgente, con metodología rigurosa y resultados convincentes. Aunque existen algunas limitaciones en autenticidad de datos y detalles técnicos, su relevancia clínica y valor práctico lo convierten en una contribución importante al campo. Este trabajo establece una base importante para futuras investigaciones en seguridad de IA en salud mental.