2025-11-17T15:52:13.050530

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations

Nelson, Wong, Silvestrini et al.

Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.

academic

Фильтр безопасности поведенческого здоровья на основе ИИ и набор данных для выявления кризисов психического здоровья в текстовых беседах

Основная информация

ID статьи: 2510.12083
Название: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
Авторы: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
Классификация: cs.CL cs.AI
Время публикации: Препринт, журнал или конференция не указаны
Ссылка на статью: https://arxiv.org/abs/2510.12083

Аннотация

Большие языковые модели часто допускают ошибки при работе с кризисами психического здоровья, предоставляя вредные или неадекватные советы и даже способствуя деструктивному поведению. В данном исследовании оценивается фильтр безопасности поведенческого здоровья Verily (VBHSF) на двух наборах данных: наборе данных о кризисах психического здоровья Verily, содержащем 1800 смоделированных сообщений, и подмножестве набора данных безопасности контента AI Aegis NVIDIA, содержащем 794 сообщения, связанные с психическим здоровьем. Оба набора данных аннотированы клиническими врачами. Исследование также включает сравнительный анализ производительности с двумя открытыми системами модерации контента: OpenAI Omni Moderation Latest и NVIDIA NeMo Guardrails. VBHSF демонстрирует отличные результаты на наборе данных о кризисах психического здоровья Verily v1.0, достигая высокой чувствительности (0,990) и специфичности (0,992) при обнаружении любого кризиса психического здоровья. При выявлении конкретных категорий кризисов показатель F1 составляет 0,939, чувствительность варьируется от 0,917 до 0,992, специфичность ≥ 0,978. При оценке на наборе данных безопасности контента AI Aegis 2.0 VBHSF сохраняет высокую чувствительность (0,982) и точность (0,921), но специфичность снижается (0,859). По сравнению с существующими системами защиты VBHSF демонстрирует значительно более высокую чувствительность во всех случаях (все p < 0,001), более высокую специфичность по сравнению с NVIDIA NeMo (p < 0,001), но без значительных различий с OpenAI Omni Moderation Latest (p = 0,094).

Исследовательский контекст и мотивация

Определение проблемы

Выявление и управление кризисами психического здоровья является растущей социальной проблемой. Исследовательский контекст указывает на следующее:

Распространённость и рост кризисов психического здоровья: Психиатрические неотложные состояния становятся всё более распространёнными и растут
Сложность выявления: Даже клинические врачи лишь немного лучше, чем случайное угадывание, при выявлении кризисов
Косвенность выражения: Люди часто выражают страдание косвенным образом

Ограничения существующих технологий

Современные большие языковые модели имеют серьёзные недостатки при работе с кризисами психического здоровья:

Высокий риск ошибок: Включая пропуск признаков суицида, предоставление небезопасных советов и даже содействие причинению вреда
Недостаточность универсальных систем защиты: Существующие фильтры безопасности в основном ориентированы на общие риски (например, сексуальный контент, общее насилие) и не подходят для выявления кризисов психического здоровья
Отсутствие клинической валидации: Существующие эталонные наборы данных не содержат сообщений о психическом здоровье и клинических аннотаций

Мотивация исследования

Данное исследование направлено на заполнение следующих критических пробелов:

Разработка специализированного фильтра безопасности для кризисов психического здоровья
Создание клинически валидированного набора данных для выявления кризисов психического здоровья
Установление стандартизированной системы оценки

Основные вклады

Определены восемь измерений кризисов психического здоровья: В сотрудничестве с клиническими экспертами выявлены наиболее срочные и высокорисковые проявления, включая жестокое обращение, пренебрежение, поведение, связанное с расстройствами пищевого поведения, психоз, самоповреждение, суицид, злоупотребление психоактивными веществами, насилие в отношении других лиц и смешанные проявления
Разработана система VBHSF: Специализированный фильтр безопасности психического здоровья на основе Transformer, способный выявлять и классифицировать сигналы кризиса в сообщениях пользователей
Создан набор данных о кризисах психического здоровья Verily v1.0: Содержит 1800 смоделированных сообщений, отражающих реальные модели цифровой коммуникации, аннотированных двумя практикующими клиническими врачами
Установлены эталоны оценки: Оценена производительность на внутренних и внешних наборах данных и проведено сравнение с передовыми универсальными системами защиты

Подробное описание методологии

Определение задачи

Входные данные: Текстовые сообщения (моделирующие реальную цифровую коммуникацию) Выходные данные:

Этап 1: Бинарная классификация (кризис/не кризис)
Этап 2: Многометочная классификация (8 конкретных категорий кризисов)

Архитектура модели

Фильтр безопасности поведенческого здоровья Verily (VBHSF)

Базовая архитектура: LLM на основе Transformer (архитектура GPT)
Основная технология: Использование продвинутого инжиниринга подсказок и клинического рассуждения
Двухэтапный дизайн:
- Этап 1: Классификатор общего выявления кризисов
- Этап 2: Многометочная классификация для сообщений, отмеченных как "кризис"

Система категорий кризисов

Определены 8 клинически релевантных категорий кризисов:

Жестокое обращение (Abuse)
Пренебрежение (Neglect)
Поведение, связанное с расстройствами пищевого поведения (Eating-disorder behaviors)
Психоз (Psychosis)
Самоповреждение (Self-harm)
Суицид (Suicide)
Злоупотребление психоактивными веществами (Substance misuse)
Насилие в отношении других лиц (Violence towards others)

Технологические инновации

Клинически ориентированный дизайн: В отличие от универсальных фильтров безопасности, специально оптимизирован для тонких различий кризисов психического здоровья
Иерархическая архитектура классификации: Двухэтапный дизайн обеспечивает эффективное выявление кризисов и точную классификацию категорий
Моделирование реальных моделей коммуникации: Набор данных включает реальные характеристики цифровой коммуникации, такие как грамматические ошибки, интернет-сленг, эмодзи и символы
Оптимизация высокой чувствительности: Приоритет отдаётся чувствительности для минимизации пропусков, что критически важно для приложений здравоохранения

Экспериментальная установка

Наборы данных

Набор данных о кризисах психического здоровья Verily v1.0

Размер: 1800 сообщений (900 сообщений о кризисах + 900 сообщений без кризисов)
Метод построения: Синтезированы с использованием предварительно обученной языковой модели, моделирующей реальные модели цифровой коммуникации
Аннотация: Независимо аннотированы двумя практикующими клиническими врачами, Cohen's κ = 0,99
Языковые характеристики:
- Грамматические ошибки: 55,90%
- Интернет-сленг: 45,80%
- Эмодзи и символьные маркеры: 13,50%

Набор данных безопасности контента AI Aegis NVIDIA 2.0

Размер: 794 сообщения (397 о кризисах, 397 без кризисов)
Источник: Подмножество человеческих данных, сосредоточенное на "суициде и самоповреждении"
Переаннотация: Два клинических врача переклассифицировали 6,927% данных для обеспечения точности меток

Метрики оценки

Основные метрики: Чувствительность (Sensitivity), специфичность (Specificity), точность (Accuracy)
Комплексные метрики: Показатель F1, положительная прогностическая ценность (PPV), отрицательная прогностическая ценность (NPV)
Статистические тесты: Тест Cochran's Q и тест McNemar (с коррекцией Bonferroni)

Методы сравнения

OpenAI Omni Moderation Latest: На основе GPT-4o, охватывает 13 предопределённых категорий
NVIDIA NeMo Guardrails: Открытая модель, охватывает 23 категории риска

Результаты экспериментов

Основные результаты

Производительность на наборе данных Verily

Модель	Чувствительность	Специфичность	Точность	F1
VBHSF	0,990	0,992	0,991	-
OpenAI	0,419	0,999	0,709	-
NVIDIA	0,759	0,756	0,757	-

Производительность на наборе данных NVIDIA

Модель	Чувствительность	Специфичность	Точность
VBHSF	0,982	0,859	0,921
OpenAI	0,882	0,899	0,890
NVIDIA	0,907	0,886	0,897

Анализ производительности по категориям

Производительность VBHSF по различным категориям кризисов:

Диапазон чувствительности: 0,917–0,992
Специфичность: Все категории ≥ 0,978
Макро-средний показатель F1: 0,939

Статистическая значимость

Чувствительность VBHSF значительно выше, чем у обеих сравниваемых моделей (оба p < 0,001)
Специфичность VBHSF значительно выше, чем у NVIDIA NeMo (p < 0,001)
Без значительных различий с OpenAI в специфичности (p = 0,094)

Анализ практической ценности применения

Прогнозируемая положительная прогностическая ценность (PPV) в условиях низкой распространённости показывает:

При распространённости 2% PPV VBHSF составляет 0,716
Хотя PPV OpenAI немного выше (0,895), низкая чувствительность приводит к большому количеству пропусков
Результаты показывают необходимость человеческого надзора для обработки ложных срабатываний

Связанные работы

Исследования в области безопасности ИИ для психического здоровья

Основные направления исследований в этой области включают:

Алгоритмы выявления кризисов: Методы традиционного машинного обучения и глубокого обучения
Системы модерации контента: Развитие универсальных систем защиты
Поддержка клинических решений: Применение ИИ в оценке психического здоровья

Уникальные вклады данной работы

Преимущества данного исследования по сравнению с существующими работами:

Специализированный дизайн: Специально для кризисов психического здоровья, а не для универсальной модерации контента
Клиническая валидация: Аннотация практикующими клиническими врачами обеспечивает медицинскую точность
Комплексная оценка: Проверка как на внутренних, так и на внешних наборах данных для оценки способности к обобщению

Заключение и обсуждение

Основные выводы

Отличная производительность VBHSF: Значительно превосходит существующие универсальные системы защиты при выявлении кризисов
Сбалансированная производительность: Сохраняет высокую чувствительность при поддержании низкого уровня ложных срабатываний
Сильная способность к обобщению: Сохраняет хорошую производительность на внешних наборах данных
Высокая практическая ценность: Подходит в качестве инструмента скрининга, требует человеческого надзора для обработки ложных срабатываний

Ограничения

Языковые ограничения: Поддерживает только английский язык, способность к обобщению на другие языки неизвестна
Однооборотные диалоги: Обрабатывает только отдельные сообщения, производительность в многооборотных диалогах может снизиться
Смоделированные данные: Использует синтезированные данные вместо реальных сообщений пользователей
Риск загрязнения данных: Набор данных NVIDIA может содержать сообщения, использованные при обучении их системы защиты

Направления будущих исследований

Поддержка нескольких языков: Расширение выявления кризисов на другие языки
Обработка многооборотных диалогов: Разработка фильтров безопасности, применимых к контексту диалога
Валидация на реальных данных: Проверка производительности на реальных данных пользователей
Стандартизированная система: Установление отраслевых стандартов протоколов оценки безопасности
Состязательное тестирование: Разработка методов красной команды и состязательной оценки

Глубокая оценка

Достоинства

Высокая клиническая релевантность:
- Сотрудничество с клиническими экспертами при определении категорий кризисов
- Использование практикующих клинических врачей для аннотации данных
- Внимание к реальным потребностям приложений здравоохранения
Методологическая строгость:
- Логичный двухэтапный дизайн оценки
- Комплексный статистический анализ, включающий тесты значимости
- Внутренняя и внешняя валидация обеспечивают способность к обобщению
Выдающаяся практическая ценность:
- Дизайн с высокой чувствительностью соответствует требованиям медицинской безопасности
- Прогнозирование производительности для реальных сценариев применения
- Ясное определение необходимости человеческого надзора
Вклад набора данных:
- Заполняет пробел в клинически аннотированных наборах данных о психическом здоровье
- Моделирует реальные характеристики цифровой коммуникации
- Предоставляет важный ресурс для развития области

Недостатки

Проблемы с реальностью данных:
- Полная зависимость от синтезированных данных, которые могут отличаться от реальных сообщений пользователей
- Отсутствие валидации при развёртывании в реальном мире
Недостаточность технических деталей:
- Описание архитектуры модели слишком кратко
- Отсутствие подробного описания процесса обучения и гиперпараметров
- Конкретная реализация инжиниринга подсказок не раскрыта
Ограничения оценки:
- Ограничено обработкой однооборотных сообщений
- Отсутствие состязательного тестирования и анализа граничных случаев
- Не учитываются различия между разными группами населения и культурными контекстами
Проблемы воспроизводимости:
- Недостаточно подробное описание деталей реализации модели
- Неполное описание процесса построения набора данных

Влияние

Академический вклад:
- Установление эталонов для применения безопасности ИИ в области психического здоровья
- Продвижение исследований специализированных фильтров безопасности
- Предоставление важного набора данных оценки и методологии
Практическая ценность:
- Прямое применение в системах поддержки клинических решений
- Интеграция в платформы цифрового здравоохранения
- Техническая поддержка крупномасштабных вмешательств в области психического здоровья
Социальное значение:
- Помощь в снижении рисков систем ИИ при работе с кризисами психического здоровья
- Продвижение ответственного ИИ в области медицинского здравоохранения
- Предоставление технических доказательств для разработки политики

Применимые сценарии

Системы клинической сортировки: Использование в качестве инструмента первичного скрининга для выявления пациентов высокого риска
Платформы цифрового здравоохранения: Интеграция в приложения психического здоровья для обеспечения безопасности
Линии кризисной помощи: Помощь операторам в выявлении срочных ситуаций
Образование и обучение: Использование для обучения клинических врачей выявлению кризисов
Исследовательские приложения: Использование в качестве эталонного инструмента для исследований безопасности ИИ в области психического здоровья

Библиография

Статья ссылается на обширную соответствующую литературу, включая в основном:

Эпидемиологические исследования кризисов психического здоровья
Технологии безопасности ИИ и модерации контента
Системы поддержки клинических решений
Исследования цифровых вмешательств в области психического здоровья
Применение обработки естественного языка в медицинском здравоохранении

Общая оценка: Это исследование имеет важную ценность на пересечении безопасности ИИ и цифрового психического здоровья. Статья решает реальную и срочную проблему, методология строга, результаты убедительны. Несмотря на некоторые ограничения в отношении реальности данных и технических деталей, её клиническая релевантность и практическая ценность делают её важным вкладом в эту область. Данная работа закладывает важную основу для будущих исследований безопасности ИИ в области психического здоровья.