Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.
academicAn AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
- 论文ID: 2510.12083
- 标题: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
- 作者: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
- 分类: cs.CL cs.AI
- 发表时间: 未明确标注期刊或会议,为预印本论文
- 论文链接: https://arxiv.org/abs/2510.12083
大语言模型在处理精神健康危机时经常出现错误,提供有害或不当建议,甚至促成破坏性行为。本研究在两个数据集上评估了Verily行为健康安全过滤器(VBHSF):包含1,800条模拟消息的Verily心理健康危机数据集和包含794条心理健康相关消息的NVIDIA Aegis AI内容安全数据集子集。两个数据集均经过临床医师标注。研究还与两个开源内容审核防护栏进行了比较性能分析:OpenAI Omni Moderation Latest和NVIDIA NeMo Guardrails。VBHSF在Verily心理健康危机数据集v1.0上表现出色,在检测任何心理健康危机方面达到了高敏感性(0.990)和特异性(0.992)。在识别特定危机类别方面,F1分数为0.939,敏感性范围为0.917-0.992,特异性≥0.978。在NVIDIA Aegis AI内容安全数据集2.0上评估时,VBHSF保持了高敏感性(0.982)和准确率(0.921),但特异性有所降低(0.859)。与现有防护栏相比,VBHSF在所有情况下都显示出显著更高的敏感性(均p < 0.001),相对于NVIDIA NeMo具有更高的特异性(p < 0.001),但与OpenAI Omni Moderation Latest无显著差异(p = 0.094)。
精神健康危机的识别和处理是一个日益严峻的社会问题。研究背景表明:
- 精神健康危机普遍且上升:精神健康急诊日益普遍且呈上升趋势
- 检测困难:即使是临床医师在危机检测方面也仅略好于随机猜测
- 表达间接性:个体通常以间接方式表达痛苦
当前大语言模型在精神健康危机处理方面存在严重缺陷:
- 高风险失误:包括错过自杀警告信号、提供不安全建议,甚至促成伤害
- 通用性防护栏不足:现有安全过滤器主要针对一般性风险(如性内容、一般暴力),不适用于精神健康危机检测
- 缺乏临床验证:现有基准数据集缺乏心理健康消息和临床标注
本研究旨在填补以下关键空白:
- 开发专门针对精神健康危机的安全过滤器
- 构建临床验证的心理健康危机检测数据集
- 建立标准化的评估框架
- 定义了八个心理健康危机维度:与临床专家合作,识别出最紧急和高风险的表现形式,包括虐待、忽视、饮食障碍行为、精神病、自伤、自杀、物质滥用、对他人暴力和混合表现
- 开发了VBHSF系统:基于Transformer的专用心理健康安全过滤器,能够识别和分类用户消息中的危机信号
- 构建了Verily心理健康危机数据集v1.0:包含1,800条反映真实数字通信模式的模拟消息,经两名执业临床医师标注
- 建立了评估基准:在内部和外部数据集上评估性能,并与最先进的通用防护栏进行比较
输入:文本消息(模拟真实世界的数字通信)
输出:
- Stage 1:二分类(危机/非危机)
- Stage 2:多标签分类(8个具体危机类别)
- 基础架构:基于Transformer的LLM(GPT架构)
- 核心技术:使用高级提示工程和临床推理
- 两阶段设计:
- Stage 1:整体危机检测分类器
- Stage 2:针对被标记为"危机"的消息进行多标签分类
定义了8个临床相关的危机类别:
- 虐待(Abuse)
- 忽视(Neglect)
- 饮食障碍行为(Eating-disorder behaviors)
- 精神病(Psychosis)
- 自伤(Self-harm)
- 自杀(Suicide)
- 物质滥用(Substance misuse)
- 对他人暴力(Violence towards others)
- 临床导向设计:与通用安全过滤器不同,专门针对精神健康危机的细微差别进行优化
- 分层分类架构:两阶段设计确保高效的危机检测和精确的类别分类
- 真实通信模式模拟:数据集包含语言机制错误、网络用语、表情符号等真实数字通信特征
- 高敏感性优化:优先考虑敏感性以最小化漏检,这对医疗保健应用至关重要
- 规模:1,800条消息(900条危机消息 + 900条非危机消息)
- 构建方法:使用预训练语言模型合成,模拟真实数字通信模式
- 标注:两名执业临床医师独立标注,Cohen's κ = 0.99
- 语言特征:
- 语言机制错误:55.90%
- 网络用语:45.80%
- 表情符号和符号标记:13.50%
- 规模:794条消息(397条危机,397条非危机)
- 来源:专注于"自杀和自伤"的人类数据子集
- 重新标注:两名临床医师重新分类了6.927%的数据以确保标签准确性
- 主要指标:敏感性(Sensitivity)、特异性(Specificity)、准确率(Accuracy)
- 综合指标:F1分数、正预测值(PPV)、负预测值(NPV)
- 统计检验:Cochran's Q检验和McNemar检验(Bonferroni校正)
- OpenAI Omni Moderation Latest:基于GPT-4o,覆盖13个预定义类别
- NVIDIA NeMo Guardrails:开源模型,覆盖23个风险类别
| 模型 | 敏感性 | 特异性 | 准确率 | F1分数 |
|---|
| VBHSF | 0.990 | 0.992 | 0.991 | - |
| OpenAI | 0.419 | 0.999 | 0.709 | - |
| NVIDIA | 0.759 | 0.756 | 0.757 | - |
| 模型 | 敏感性 | 特异性 | 准确率 |
|---|
| VBHSF | 0.982 | 0.859 | 0.921 |
| OpenAI | 0.882 | 0.899 | 0.890 |
| NVIDIA | 0.907 | 0.886 | 0.897 |
VBHSF在各个危机类别上的表现:
- 敏感性范围:0.917-0.992
- 特异性:所有类别≥0.978
- 宏平均F1分数:0.939
- VBHSF的敏感性显著高于两个对比模型(均p < 0.001)
- VBHSF的特异性显著高于NVIDIA NeMo(p < 0.001)
- 与OpenAI在特异性上无显著差异(p = 0.094)
在低流行率环境中的正预测值(PPV)投影显示:
- 在2%流行率下,VBHSF的PPV为0.716
- OpenAI虽然PPV略高(0.895),但敏感性过低导致大量漏检
- 结果表明需要人工监督来处理误报
该领域的主要研究方向包括:
- 危机检测算法:传统机器学习和深度学习方法
- 内容审核系统:通用安全防护栏的发展
- 临床决策支持:AI在精神健康评估中的应用
相比现有工作,本研究的优势:
- 专业化设计:专门针对精神健康危机而非通用内容审核
- 临床验证:使用执业临床医师标注,确保医学准确性
- 综合评估:同时在内部和外部数据集上验证泛化能力
- VBHSF表现优异:在危机检测方面显著优于现有通用防护栏
- 平衡的性能:在保持高敏感性的同时维持较低的误报率
- 泛化能力强:在外部数据集上仍保持良好性能
- 实用价值高:适合作为筛查工具,需要人工监督来处理误报
- 语言限制:仅支持英语,多语言泛化能力未知
- 单轮对话:仅处理单条消息,多轮对话中的性能可能下降
- 模拟数据:使用合成数据而非真实用户消息
- 数据污染风险:NVIDIA数据集可能包含用于训练其防护栏的消息
- 多语言支持:扩展到其他语言的危机检测
- 多轮对话处理:开发适用于对话上下文的安全过滤器
- 真实数据验证:在真实用户数据上验证性能
- 标准化框架:建立行业标准的安全评估协议
- 对抗性测试:开发红队测试和对抗性评估方法
- 临床相关性强:
- 与临床专家合作定义危机类别
- 使用执业临床医师进行数据标注
- 关注医疗保健应用的实际需求
- 方法学严谨:
- 两阶段评估设计合理
- 统计分析全面,包含显著性检验
- 内外部验证确保泛化能力
- 实用价值突出:
- 高敏感性设计符合医疗安全要求
- 提供了现实应用场景的性能投影
- 明确了人工监督的必要性
- 数据集贡献:
- 填补了临床标注心理健康数据集的空白
- 模拟真实数字通信特征
- 为领域发展提供了重要资源
- 数据真实性问题:
- 完全依赖合成数据,与真实用户消息可能存在差异
- 缺乏真实世界部署的验证
- 技术细节不足:
- 模型架构描述过于简略
- 缺乏训练过程和超参数的详细说明
- 提示工程的具体实现未公开
- 评估局限性:
- 仅限于单轮消息处理
- 缺乏对抗性测试和边界情况分析
- 未考虑不同人群和文化背景的差异
- 可复现性问题:
- 学术贡献:
- 为AI安全在精神健康领域的应用建立了基准
- 推动了专业化安全过滤器的研究发展
- 提供了重要的评估数据集和方法
- 实用价值:
- 直接适用于临床决策支持系统
- 可集成到数字健康平台中
- 为大规模心理健康干预提供技术支持
- 社会意义:
- 有助于减少AI系统在心理健康危机处理中的风险
- 推动负责任AI在医疗健康领域的发展
- 为政策制定提供技术依据
- 临床分诊系统:作为初步筛查工具识别高风险患者
- 数字健康平台:集成到心理健康应用中提供安全保障
- 危机干预热线:辅助人工客服识别紧急情况
- 教育和培训:用于临床医师的危机识别训练
- 研究应用:作为心理健康AI安全研究的基准工具
论文引用了丰富的相关文献,主要包括:
- 精神健康危机流行病学研究
- AI安全和内容审核技术
- 临床决策支持系统
- 数字心理健康干预研究
- 自然语言处理在医疗健康中的应用
总体评价:这是一篇在AI安全和数字心理健康交叉领域具有重要价值的研究工作。论文解决了一个现实且紧迫的问题,方法学严谨,结果令人信服。尽管在数据真实性和技术细节方面存在一些局限,但其临床相关性和实用价值使其成为该领域的重要贡献。该工作为未来的AI心理健康安全研究奠定了重要基础。