2025-11-17T15:52:13.050530

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations

Nelson, Wong, Silvestrini et al.

Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.

academic

مرشح سلامة الصحة السلوكية القائم على الذكاء الاصطناعي ومجموعة بيانات لتحديد أزمات الصحة العقلية في المحادثات النصية

المعلومات الأساسية

معرّف الورقة: 2510.12083
العنوان: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
المؤلفون: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
التصنيف: cs.CL cs.AI
وقت النشر: ورقة طباعة أولية، لم يتم تحديد المجلة أو المؤتمر بوضوح
رابط الورقة: https://arxiv.org/abs/2510.12083

الملخص

تفشل نماذج اللغة الكبيرة بشكل متكرر في التعامل مع أزمات الصحة العقلية، حيث تقدم نصائح ضارة أو غير مناسبة، وقد تساهم حتى في السلوكيات المدمرة. تقيّم هذه الدراسة مرشح سلامة الصحة السلوكية من Verily (VBHSF) على مجموعتي بيانات: مجموعة بيانات أزمات الصحة العقلية من Verily التي تحتوي على 1,800 رسالة محاكاة، ومجموعة فرعية من مجموعة بيانات سلامة محتوى NVIDIA Aegis AI التي تحتوي على 794 رسالة متعلقة بالصحة العقلية. تم تصنيف كلا المجموعتين من قبل الأطباء السريريين. تتضمن الدراسة أيضاً تحليل أداء مقارن مع حاجزي حماية اثنين مفتوحي المصدر: OpenAI Omni Moderation Latest و NVIDIA NeMo Guardrails. أظهر VBHSF أداءً ممتازاً على مجموعة بيانات أزمات الصحة العقلية من Verily v1.0، محققاً حساسية عالية (0.990) وخصوصية (0.992) في الكشف عن أي أزمة صحة عقلية. في تحديد فئات الأزمات المحددة، حقق درجة F1 بقيمة 0.939 مع حساسية تتراوح بين 0.917-0.992 وخصوصية ≥0.978. عند التقييم على مجموعة بيانات سلامة محتوى NVIDIA Aegis AI 2.0، حافظ VBHSF على حساسية عالية (0.982) ودقة (0.921)، لكن الخصوصية انخفضت (0.859). مقارنة بالحواجز الموجودة، أظهر VBHSF حساسية أعلى بشكل ملحوظ في جميع الحالات (جميع p < 0.001)، وخصوصية أعلى بالنسبة إلى NVIDIA NeMo (p < 0.001)، لكن لا توجد فروق ذات دلالة إحصائية مع OpenAI Omni Moderation Latest (p = 0.094).

خلفية البحث والدافع

تعريف المشكلة

يعتبر تحديد ومعالجة أزمات الصحة العقلية مشكلة اجتماعية متزايدة الخطورة. تشير خلفية البحث إلى:

انتشار وارتفاع أزمات الصحة العقلية: تزايد حالات الطوارئ المتعلقة بالصحة العقلية وارتفاع معدلاتها
صعوبة الكشف: حتى الأطباء السريريين يحققون أداءً أفضل قليلاً من التخمين العشوائي في كشف الأزمات
التعبير غير المباشر: يعبر الأفراد عادة عن معاناتهم بطرق غير مباشرة

القيود التكنولوجية الحالية

تعاني نماذج اللغة الكبيرة الحالية من عيوب خطيرة في التعامل مع أزمات الصحة العقلية:

أخطاء عالية المخاطر: تشمل تفويت علامات التحذير من الانتحار، وتقديم نصائح غير آمنة، وحتى تعزيز الأذى
عدم كفاية الحواجز العامة: تركز مرشحات الأمان الموجودة على المخاطر العامة (مثل المحتوى الجنسي والعنف العام)، وغير مناسبة لكشف أزمات الصحة العقلية
نقص التحقق السريري: تفتقر مجموعات البيانات المرجعية الموجودة إلى الرسائل المتعلقة بالصحة العقلية والتصنيفات السريرية

دافع البحث

تهدف هذه الدراسة إلى ملء الفجوات الرئيسية التالية:

تطوير مرشح أمان متخصص في أزمات الصحة العقلية
بناء مجموعة بيانات مُتحقق منها سريرياً لكشف أزمات الصحة العقلية
إنشاء إطار عمل تقييم موحد

المساهمات الأساسية

تعريف ثماني أبعاد لأزمات الصحة العقلية: بالتعاون مع الخبراء السريريين، تم تحديد أكثر الأشكال التعبيرية إلحاحاً وعالية المخاطر، بما في ذلك الإساءة والإهمال واضطرابات الأكل والذهان والإيذاء الذاتي والانتحار وإساءة استخدام المواد والعنف تجاه الآخرين والأشكال المختلطة
تطوير نظام VBHSF: مرشح أمان صحة عقلية متخصص قائم على Transformer، قادر على تحديد وتصنيف إشارات الأزمات في رسائل المستخدمين
بناء مجموعة بيانات أزمات الصحة العقلية من Verily v1.0: تحتوي على 1,800 رسالة محاكاة تعكس أنماط الاتصالات الرقمية الحقيقية، مع تصنيف من قبل طبيبين سريريين ممارسين
إنشاء معيار تقييم: تقييم الأداء على مجموعات البيانات الداخلية والخارجية، والمقارنة مع أحدث الحواجز العامة

شرح الطريقة

تعريف المهمة

الإدخال: رسائل نصية (محاكاة للاتصالات الرقمية في العالم الحقيقي) الإخراج:

المرحلة 1: تصنيف ثنائي (أزمة/غير أزمة)
المرحلة 2: تصنيف متعدد التسميات (8 فئات أزمات محددة)

معمارية النموذج

مرشح سلامة الصحة السلوكية من Verily (VBHSF)

البنية الأساسية: نموذج لغة كبير قائم على Transformer (معمارية GPT)
التكنولوجيا الأساسية: استخدام هندسة الأوامر المتقدمة والاستدلال السريري
التصميم ثنائي المراحل:
- المرحلة 1: مصنف كشف الأزمات الشامل
- المرحلة 2: تصنيف متعدد التسميات للرسائل المميزة كـ "أزمة"

نظام فئات الأزمات

تم تعريف 8 فئات أزمات ذات صلة سريرية:

الإساءة (Abuse)
الإهمال (Neglect)
سلوكيات اضطرابات الأكل (Eating-disorder behaviors)
الذهان (Psychosis)
الإيذاء الذاتي (Self-harm)
الانتحار (Suicide)
إساءة استخدام المواد (Substance misuse)
العنف تجاه الآخرين (Violence towards others)

نقاط الابتكار التقني

التصميم الموجه سريرياً: على عكس مرشحات الأمان العامة، تم تحسينه بشكل خاص للتعامل مع الفروقات الدقيقة في أزمات الصحة العقلية
معمارية التصنيف الهرمية: يضمن التصميم ثنائي المراحل كشف أزمات فعال وتصنيف فئات دقيق
محاكاة أنماط الاتصالات الحقيقية: تحتوي مجموعة البيانات على خصائص الاتصالات الرقمية الحقيقية مثل الأخطاء اللغوية والعامية والرموز التعبيرية
تحسين الحساسية العالية: إعطاء الأولوية للحساسية لتقليل الحالات المفقودة، وهو أمر حاسم للتطبيقات الطبية

إعداد التجارب

مجموعات البيانات

مجموعة بيانات أزمات الصحة العقلية من Verily v1.0

الحجم: 1,800 رسالة (900 رسالة أزمة + 900 رسالة غير أزمة)
طريقة البناء: استخدام نموذج لغة مُدرب مسبقاً للتوليف، محاكاة أنماط الاتصالات الرقمية الحقيقية
التصنيف: تصنيف مستقل من قبل طبيبين سريريين ممارسين، Cohen's κ = 0.99
الخصائص اللغوية:
- أخطاء آليات اللغة: 55.90%
- العامية: 45.80%
- الرموز التعبيرية والعلامات الرمزية: 13.50%

مجموعة بيانات سلامة محتوى NVIDIA Aegis AI 2.0

الحجم: 794 رسالة (397 أزمة، 397 غير أزمة)
المصدر: مجموعة فرعية من البيانات البشرية تركز على "الانتحار والإيذاء الذاتي"
إعادة التصنيف: أعاد طبيبان سريريان تصنيف 6.927% من البيانات لضمان دقة التسميات

مقاييس التقييم

المقاييس الرئيسية: الحساسية (Sensitivity)، الخصوصية (Specificity)، الدقة (Accuracy)
المقاييس المركبة: درجة F1، القيمة التنبؤية الإيجابية (PPV)، القيمة التنبؤية السلبية (NPV)
الاختبارات الإحصائية: اختبار Cochran's Q واختبار McNemar (مع تصحيح Bonferroni)

الطرق المقارنة

OpenAI Omni Moderation Latest: قائم على GPT-4o، يغطي 13 فئة محددة مسبقاً
NVIDIA NeMo Guardrails: نموذج مفتوح المصدر، يغطي 23 فئة مخاطر

نتائج التجارب

النتائج الرئيسية

الأداء على مجموعة بيانات Verily

النموذج	الحساسية	الخصوصية	الدقة	درجة F1
VBHSF	0.990	0.992	0.991	-
OpenAI	0.419	0.999	0.709	-
NVIDIA	0.759	0.756	0.757	-

الأداء على مجموعة بيانات NVIDIA

النموذج	الحساسية	الخصوصية	الدقة
VBHSF	0.982	0.859	0.921
OpenAI	0.882	0.899	0.890
NVIDIA	0.907	0.886	0.897

تحليل الأداء حسب الفئة

أداء VBHSF عبر فئات الأزمات المختلفة:

نطاق الحساسية: 0.917-0.992
الخصوصية: جميع الفئات ≥0.978
درجة F1 الكلية: 0.939

الدلالة الإحصائية

حساسية VBHSF أعلى بشكل ملحوظ من كلا النموذجين المقارنين (جميع p < 0.001)
خصوصية VBHSF أعلى بشكل ملحوظ من NVIDIA NeMo (p < 0.001)
لا توجد فروق ذات دلالة إحصائية مع OpenAI في الخصوصية (p = 0.094)

تحليل القيمة العملية

تُظهر الإسقاطات للقيمة التنبؤية الإيجابية (PPV) في بيئات انتشار منخفضة:

عند معدل انتشار 2%، PPV لـ VBHSF هو 0.716
على الرغم من أن OpenAI لديها PPV أعلى قليلاً (0.895)، إلا أن الحساسية المنخفضة تؤدي إلى حالات مفقودة كثيرة
تشير النتائج إلى الحاجة للإشراف البشري للتعامل مع الإنذارات الكاذبة

الأعمال ذات الصلة

أبحاث سلامة الذكاء الاصطناعي في الصحة العقلية

تشمل الاتجاهات البحثية الرئيسية في هذا المجال:

خوارزميات كشف الأزمات: طرق التعلم الآلي التقليدية والعميقة
أنظمة مراجعة المحتوى: تطور حواجز الحماية العامة
دعم القرار السريري: تطبيقات الذكاء الاصطناعي في تقييم الصحة العقلية

المساهمات الفريدة لهذه الورقة

مقارنة بالأعمال الموجودة، تتمتع هذه الدراسة بالمزايا التالية:

التصميم المتخصص: متخصص في أزمات الصحة العقلية وليس مراجعة المحتوى العامة
التحقق السريري: استخدام تصنيفات من الأطباء السريريين الممارسين، مما يضمن الدقة الطبية
التقييم الشامل: التحقق على مجموعات البيانات الداخلية والخارجية معاً

الخلاصة والمناقشة

الاستنتاجات الرئيسية

أداء VBHSF ممتازة: تفوق ملحوظ على حواجز الحماية العامة الموجودة في كشف الأزمات
أداء متوازن: الحفاظ على حساسية عالية مع الحفاظ على معدل منخفض من الإنذارات الكاذبة
قدرة تعميم قوية: الحفاظ على أداء جيدة على مجموعات البيانات الخارجية
قيمة عملية عالية: مناسب كأداة فحص مع الحاجة للإشراف البشري للتعامل مع الإنذارات الكاذبة

القيود

قيود اللغة: يدعم اللغة الإنجليزية فقط، والقدرة على التعميم متعدد اللغات غير معروفة
المحادثات أحادية الدورة: يتعامل فقط مع رسالة واحدة، قد تنخفض الأداء في المحادثات متعددة الأدوار
البيانات المحاكاة: استخدام بيانات اصطناعية بدلاً من رسائل المستخدمين الحقيقية
خطر تلوث البيانات: قد تحتوي مجموعة بيانات NVIDIA على رسائل استُخدمت في تدريب حاجزها

الاتجاهات المستقبلية

الدعم متعدد اللغات: توسيع كشف الأزمات إلى لغات أخرى
معالجة المحادثات متعددة الأدوار: تطوير مرشحات أمان قابلة للتطبيق على سياق المحادثة
التحقق من البيانات الحقيقية: التحقق من الأداء على بيانات المستخدمين الحقيقية
إطار عمل موحد: إنشاء بروتوكول تقييم أمان موحد على مستوى الصناعة
الاختبار الخصومي: تطوير اختبارات الفريق الأحمر وطرق التقييم الخصومي

التقييم المتعمق

المزايا

ارتباط سريري قوي:
- التعاون مع الخبراء السريريين لتعريف فئات الأزمات
- استخدام تصنيفات من الأطباء السريريين الممارسين
- التركيز على الاحتياجات العملية لتطبيقات الرعاية الصحية
صرامة منهجية:
- تصميم التقييم ثنائي المراحل معقول
- تحليل إحصائي شامل يتضمن اختبارات الدلالة
- التحقق الداخلي والخارجي يضمن القدرة على التعميم
قيمة عملية بارزة:
- تصميم الحساسية العالية يتوافق مع متطلبات سلامة الرعاية الصحية
- توفير إسقاطات الأداء لسيناريوهات التطبيق الواقعية
- توضيح الحاجة للإشراف البشري
مساهمة مجموعة البيانات:
- ملء الفجوة في مجموعات البيانات المصنفة سريرياً للصحة العقلية
- محاكاة خصائص الاتصالات الرقمية الحقيقية
- توفير موارد مهمة لتطور المجال

أوجه القصور

مشاكل واقعية البيانات:
- الاعتماد الكامل على البيانات الاصطناعية، قد تختلف عن رسائل المستخدمين الحقيقية
- نقص التحقق من النشر في العالم الحقيقي
نقص التفاصيل التقنية:
- وصف معمارية النموذج موجز جداً
- نقص التفاصيل حول عملية التدريب والمعاملات الفائقة
- عدم الكشف عن التنفيذ المحدد لهندسة الأوامر
قيود التقييم:
- محدود بمعالجة الرسائل أحادية الدورة
- نقص الاختبار الخصومي وتحليل الحالات الحدية
- عدم مراعاة الاختلافات بين المجموعات السكانية والخلفيات الثقافية المختلفة
مشاكل القابلية للتكرار:
- تفاصيل تنفيذ النموذج غير كافية
- وصف عملية بناء مجموعة البيانات غير كامل

التأثير

المساهمات الأكاديمية:
- إنشاء معايير لتطبيق سلامة الذكاء الاصطناعي في مجال الصحة العقلية
- تعزيز تطوير مرشحات الأمان المتخصصة
- توفير مجموعة بيانات تقييم وطرق مهمة
القيمة العملية:
- التطبيق المباشر في أنظمة دعم القرار السريري
- التكامل في منصات الصحة الرقمية
- توفير الدعم التقني للتدخلات الصحية العقلية على نطاق واسع
الأهمية الاجتماعية:
- المساعدة في تقليل المخاطر في أنظمة الذكاء الاصطناعي في معالجة أزمات الصحة العقلية
- تعزيز تطوير الذكاء الاصطناعي المسؤول في مجال الرعاية الصحية
- توفير أساس تقني لصنع السياسات

السيناريوهات القابلة للتطبيق

أنظمة الفحص السريري: كأداة فحص أولية لتحديد المرضى عالي الخطورة
منصات الصحة الرقمية: التكامل في تطبيقات الصحة العقلية لتوفير الحماية الأمنية
خطوط الأزمات: مساعدة موظفي خدمة العملاء البشريين في تحديد الحالات الطارئة
التعليم والتدريب: استخدام في تدريب الأطباء السريريين على التعرف على الأزمات
التطبيقات البحثية: كأداة معيارية لأبحاث سلامة الذكاء الاصطناعي في الصحة العقلية

المراجع

تستشهد الورقة بمراجع غنية ذات صلة، تشمل بشكل أساسي:

أبحاث الأوبئة في أزمات الصحة العقلية
تكنولوجيا سلامة الذكاء الاصطناعي ومراجعة المحتوى
أنظمة دعم القرار السريري
أبحاث التدخلات الرقمية في الصحة العقلية
تطبيقات معالجة اللغة الطبيعية في الرعاية الصحية

التقييم الإجمالي: هذا عمل بحثي ذو قيمة مهمة في مجال التقاطع بين سلامة الذكاء الاصطناعي والصحة العقلية الرقمية. تعالج الورقة مشكلة واقعية وملحة، مع منهجية صارمة ونتائج مقنعة. على الرغم من وجود بعض القيود في واقعية البيانات والتفاصيل التقنية، فإن ارتباطها السريري وقيمتها العملية تجعلها مساهمة مهمة في هذا المجال. يضع هذا العمل أساساً مهماً لأبحاث سلامة الذكاء الاصطناعي في الصحة العقلية في المستقبل.