2025-11-17T15:52:13.050530

An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations

Nelson, Wong, Silvestrini et al.

Large language models often mishandle psychiatric emergencies, offering harmful or inappropriate advice and enabling destructive behaviors. This study evaluated the Verily behavioral health safety filter (VBHSF) on two datasets: the Verily Mental Health Crisis Dataset containing 1,800 simulated messages and the NVIDIA Aegis AI Content Safety Dataset subsetted to 794 mental health-related messages. The two datasets were clinician-labelled and we evaluated performance using the clinician labels. Additionally, we carried out comparative performance analyses against two open source, content moderation guardrails: OpenAI Omni Moderation Latest and NVIDIA NeMo Guardrails. The VBHSF demonstrated, well-balanced performance on the Verily Mental Health Crisis Dataset v1.0, achieving high sensitivity (0.990) and specificity (0.992) in detecting any mental health crises. It achieved an F1-score of 0.939, sensitivity ranged from 0.917-0.992, and specificity was >= 0.978 in identifying specific crisis categories. When evaluated against the NVIDIA Aegis AI Content Safety Dataset 2.0, VBHSF performance remained highly sensitive (0.982) and accuracy (0.921) with reduced specificity (0.859). When compared with the NVIDIA NeMo and OpenAI Omni Moderation Latest guardrails, the VBHSF demonstrated superior performance metrics across both datasets, achieving significantly higher sensitivity in all cases (all p < 0.001) and higher specificity relative to NVIDIA NeMo (p < 0.001), but not to OpenAI Omni Moderation Latest (p = 0.094). NVIDIA NeMo and OpenAI Omni Moderation Latest exhibited inconsistent performance across specific crisis types, with sensitivity for some categories falling below 0.10. Overall, the VBHSF demonstrated robust, generalizable performance that prioritizes sensitivity to minimize missed crises, a crucial feature for healthcare applications.

academic

एक AI-आधारित व्यवहारिक स्वास्थ्य सुरक्षा फ़िल्टर और पाठ-आधारित बातचीत में मानसिक स्वास्थ्य संकट की पहचान के लिए डेटासेट

बुनियादी जानकारी

पेपर ID: 2510.12083
शीर्षक: An AI-Based Behavioral Health Safety Filter and Dataset for Identifying Mental Health Crises in Text-Based Conversations
लेखक: Benjamin W. Nelson, Celeste Wong, Matthew T. Silvestrini, Sooyoon Shin, Alanna Robinson, Jessica Lee, Eric Yang, John Torous, Andrew Trister
वर्गीकरण: cs.CL cs.AI
प्रकाशन समय: प्रीप्रिंट पेपर, पत्रिका या सम्मेलन स्पष्ट रूप से चिह्नित नहीं
पेपर लिंक: https://arxiv.org/abs/2510.12083

सारांश

बड़े भाषा मॉडल मानसिक स्वास्थ्य संकटों को संभालते समय अक्सर त्रुटियाँ करते हैं, हानिकारक या अनुचित सलाह देते हैं, और यहाँ तक कि विनाशकारी व्यवहार को बढ़ावा देते हैं। यह अनुसंधान दो डेटासेट पर Verily व्यवहारिक स्वास्थ्य सुरक्षा फ़िल्टर (VBHSF) का मूल्यांकन करता है: 1,800 सिम्युलेटेड संदेशों वाला Verily मानसिक स्वास्थ्य संकट डेटासेट और 794 मानसिक स्वास्थ्य संबंधित संदेशों वाला NVIDIA Aegis AI सामग्री सुरक्षा डेटासेट उपसमुच्चय। दोनों डेटासेट को नैदानिक चिकित्सकों द्वारा लेबल किया गया है। अनुसंधान दो ओपन-सोर्स सामग्री संशोधन गार्डरेल के साथ तुलनात्मक प्रदर्शन विश्लेषण भी करता है: OpenAI Omni Moderation Latest और NVIDIA NeMo Guardrails। VBHSF ने Verily मानसिक स्वास्थ्य संकट डेटासेट v1.0 पर उत्कृष्ट प्रदर्शन किया, किसी भी मानसिक स्वास्थ्य संकट की पहचान में उच्च संवेदनशीलता (0.990) और विशिष्टता (0.992) प्राप्त की। विशिष्ट संकट श्रेणियों की पहचान में, F1 स्कोर 0.939 था, संवेदनशीलता 0.917-0.992 तक थी, विशिष्टता ≥0.978 थी। NVIDIA Aegis AI सामग्री सुरक्षा डेटासेट 2.0 पर मूल्यांकन करते समय, VBHSF ने उच्च संवेदनशीलता (0.982) और सटीकता (0.921) बनाए रखी, लेकिन विशिष्टता में कमी आई (0.859)। मौजूदा गार्डरेल की तुलना में, VBHSF सभी मामलों में काफी अधिक संवेदनशीलता दिखाता है (सभी p < 0.001), NVIDIA NeMo की तुलना में अधिक विशिष्टता है (p < 0.001), लेकिन OpenAI Omni Moderation Latest के साथ कोई महत्वपूर्ण अंतर नहीं है (p = 0.094)।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

मानसिक स्वास्थ्य संकटों की पहचान और प्रबंधन एक बढ़ती हुई सामाजिक समस्या है। अनुसंधान पृष्ठभूमि निम्नलिखित को दर्शाती है:

मानसिक स्वास्थ्य संकट व्यापक और बढ़ते हुए हैं: मानसिक स्वास्थ्य आपातकालीन स्थितियाँ तेजी से सामान्य और बढ़ रही हैं
पहचान में कठिनाई: यहाँ तक कि नैदानिक चिकित्सक भी संकट पहचान में केवल यादृच्छिक अनुमान से थोड़ा बेहतर हैं
अप्रत्यक्ष अभिव्यक्ति: व्यक्ति आमतौर पर अप्रत्यक्ष तरीकों से पीड़ा व्यक्त करते हैं

मौजूदा तकनीकी सीमाएँ

वर्तमान बड़े भाषा मॉडल मानसिक स्वास्थ्य संकट प्रबंधन में गंभीर कमियाँ हैं:

उच्च जोखिम वाली विफलताएँ: आत्महत्या की चेतावनी संकेतों को याद करना, असुरक्षित सलाह देना, और यहाँ तक कि नुकसान को बढ़ावा देना
सामान्य गार्डरेल अपर्याप्त हैं: मौजूदा सुरक्षा फ़िल्टर मुख्य रूप से सामान्य जोखिमों (जैसे यौन सामग्री, सामान्य हिंसा) के लिए हैं, मानसिक स्वास्थ्य संकट पहचान के लिए उपयुक्त नहीं हैं
नैदानिक सत्यापन की कमी: मौजूदा बेंचमार्क डेटासेट में मानसिक स्वास्थ्य संदेश और नैदानिक लेबलिंग की कमी है

अनुसंधान प्रेरणा

यह अनुसंधान निम्नलिखित महत्वपूर्ण अंतराल को भरने का लक्ष्य रखता है:

मानसिक स्वास्थ्य संकटों के लिए विशेष सुरक्षा फ़िल्टर विकसित करना
नैदानिक रूप से सत्यापित मानसिक स्वास्थ्य संकट पहचान डेटासेट बनाना
मानकीकृत मूल्यांकन ढाँचा स्थापित करना

मुख्य योगदान

आठ मानसिक स्वास्थ्य संकट आयामों को परिभाषित किया: नैदानिक विशेषज्ञों के साथ सहयोग करके, सबसे तत्काल और उच्च जोखिम वाली अभिव्यक्तियों की पहचान की गई, जिनमें दुर्व्यवहार, उपेक्षा, खाने की विकार व्यवहार, मनोविकृति, आत्मनुकसान, आत्महत्या, पदार्थ दुरुपयोग, दूसरों के प्रति हिंसा और मिश्रित अभिव्यक्तियाँ शामिल हैं
VBHSF प्रणाली विकसित की: Transformer-आधारित विशेष मानसिक स्वास्थ्य सुरक्षा फ़िल्टर जो उपयोगकर्ता संदेशों में संकट संकेतों की पहचान और वर्गीकरण कर सकता है
Verily मानसिक स्वास्थ्य संकट डेटासेट v1.0 बनाया: 1,800 सिम्युलेटेड संदेश युक्त जो वास्तविक डिजिटल संचार पैटर्न को प्रतिबिंबित करते हैं, दो अभ्यास करने वाले नैदानिक चिकित्सकों द्वारा लेबल किए गए
मूल्यांकन बेंचमार्क स्थापित किया: आंतरिक और बाहरी डेटासेट पर प्रदर्शन का मूल्यांकन किया और अत्याधुनिक सामान्य गार्डरेल के साथ तुलना की

विधि विवरण

कार्य परिभाषा

इनपुट: पाठ संदेश (वास्तविक दुनिया के डिजिटल संचार को सिम्युलेट करते हुए) आउटपुट:

चरण 1: बाइनरी वर्गीकरण (संकट/गैर-संकट)
चरण 2: बहु-लेबल वर्गीकरण (8 विशिष्ट संकट श्रेणियाँ)

मॉडल आर्किटेक्चर

Verily व्यवहारिक स्वास्थ्य सुरक्षा फ़िल्टर (VBHSF)

आधार आर्किटेक्चर: Transformer-आधारित LLM (GPT आर्किटेक्चर)
मुख्य तकनीक: उन्नत प्रॉम्प्ट इंजीनियरिंग और नैदानिक तर्क का उपयोग
दो-चरणीय डिज़ाइन:
- चरण 1: समग्र संकट पहचान वर्गीकरणकर्ता
- चरण 2: "संकट" के रूप में चिह्नित संदेशों के लिए बहु-लेबल वर्गीकरण

संकट श्रेणी प्रणाली

8 नैदानिक रूप से प्रासंगिक संकट श्रेणियों को परिभाषित किया गया:

दुर्व्यवहार (Abuse)
उपेक्षा (Neglect)
खाने की विकार व्यवहार (Eating-disorder behaviors)
मनोविकृति (Psychosis)
आत्मनुकसान (Self-harm)
आत्महत्या (Suicide)
पदार्थ दुरुपयोग (Substance misuse)
दूसरों के प्रति हिंसा (Violence towards others)

तकनीकी नवाचार बिंदु

नैदानिक-उन्मुख डिज़ाइन: सामान्य सुरक्षा फ़िल्टर के विपरीत, मानसिक स्वास्थ्य संकटों की सूक्ष्मताओं के लिए विशेष रूप से अनुकूलित
स्तरीय वर्गीकरण आर्किटेक्चर: दो-चरणीय डिज़ाइन कुशल संकट पहचान और सटीक श्रेणी वर्गीकरण सुनिश्चित करता है
वास्तविक संचार पैटर्न सिम्युलेशन: डेटासेट में भाषाई तंत्र त्रुटियाँ, इंटरनेट स्लैंग, इमोजी आदि वास्तविक डिजिटल संचार विशेषताएँ शामिल हैं
उच्च संवेदनशीलता अनुकूलन: स्वास्थ्यसेवा अनुप्रयोगों के लिए महत्वपूर्ण, चूक को कम करने के लिए संवेदनशीलता को प्राथमिकता दी जाती है

प्रायोगिक सेटअप

डेटासेट

Verily मानसिक स्वास्थ्य संकट डेटासेट v1.0

आकार: 1,800 संदेश (900 संकट संदेश + 900 गैर-संकट संदेश)
निर्माण विधि: पूर्व-प्रशिक्षित भाषा मॉडल का उपयोग करके सिंथेटिक, वास्तविक डिजिटल संचार पैटर्न को सिम्युलेट करते हुए
लेबलिंग: दो अभ्यास करने वाले नैदानिक चिकित्सकों द्वारा स्वतंत्र रूप से लेबल किए गए, Cohen's κ = 0.99
भाषा विशेषताएँ:
- भाषाई तंत्र त्रुटियाँ: 55.90%
- इंटरनेट स्लैंग: 45.80%
- इमोजी और प्रतीक टैग: 13.50%

NVIDIA Aegis AI सामग्री सुरक्षा डेटासेट 2.0

आकार: 794 संदेश (397 संकट, 397 गैर-संकट)
स्रोत: "आत्महत्या और आत्मनुकसान" पर केंद्रित मानव डेटा उपसमुच्चय
पुनः-लेबलिंग: लेबल सटीकता सुनिश्चित करने के लिए दो नैदानिक चिकित्सकों द्वारा 6.927% डेटा को पुनः वर्गीकृत किया गया

मूल्यांकन मेट्रिक्स

मुख्य मेट्रिक्स: संवेदनशीलता (Sensitivity), विशिष्टता (Specificity), सटीकता (Accuracy)
समग्र मेट्रिक्स: F1 स्कोर, सकारात्मक भविष्यसूचक मान (PPV), नकारात्मक भविष्यसूचक मान (NPV)
सांख्यिकीय परीक्षण: Cochran's Q परीक्षण और McNemar परीक्षण (Bonferroni सुधार)

तुलनात्मक विधियाँ

OpenAI Omni Moderation Latest: GPT-4o पर आधारित, 13 पूर्वनिर्धारित श्रेणियों को कवर करता है
NVIDIA NeMo Guardrails: ओपन-सोर्स मॉडल, 23 जोखिम श्रेणियों को कवर करता है

प्रायोगिक परिणाम

मुख्य परिणाम

Verily डेटासेट पर प्रदर्शन

मॉडल	संवेदनशीलता	विशिष्टता	सटीकता	F1 स्कोर
VBHSF	0.990	0.992	0.991	-
OpenAI	0.419	0.999	0.709	-
NVIDIA	0.759	0.756	0.757	-

NVIDIA डेटासेट पर प्रदर्शन

मॉडल	संवेदनशीलता	विशिष्टता	सटीकता
VBHSF	0.982	0.859	0.921
OpenAI	0.882	0.899	0.890
NVIDIA	0.907	0.886	0.897

श्रेणी-वार प्रदर्शन विश्लेषण

VBHSF विभिन्न संकट श्रेणियों पर प्रदर्शन:

संवेदनशीलता श्रेणी: 0.917-0.992
विशिष्टता: सभी श्रेणियों के लिए ≥0.978
मैक्रो-औसत F1 स्कोर: 0.939

सांख्यिकीय महत्व

VBHSF की संवेदनशीलता दोनों तुलनात्मक मॉडलों से काफी अधिक है (सभी p < 0.001)
VBHSF की विशिष्टता NVIDIA NeMo से काफी अधिक है (p < 0.001)
विशिष्टता में OpenAI के साथ कोई महत्वपूर्ण अंतर नहीं है (p = 0.094)

व्यावहारिक अनुप्रयोग मूल्य विश्लेषण

कम प्रचलन वातावरण में सकारात्मक भविष्यसूचक मान (PPV) प्रक्षेपण:

2% प्रचलन पर, VBHSF का PPV 0.716 है
OpenAI का PPV थोड़ा अधिक है (0.895), लेकिन कम संवेदनशीलता से बड़ी संख्या में चूक होती है
परिणाम गलत सकारात्मक को संभालने के लिए मानव निरीक्षण की आवश्यकता दर्शाते हैं

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

VBHSF उत्कृष्ट प्रदर्शन करता है: संकट पहचान में मौजूदा सामान्य गार्डरेल से काफी बेहतर
संतुलित प्रदर्शन: उच्च संवेदनशीलता बनाए रखते हुए कम गलत सकारात्मक दर
मजबूत सामान्यीकरण क्षमता: बाहरी डेटासेट पर भी अच्छा प्रदर्शन बनाए रखता है
उच्च व्यावहारिक मूल्य: स्क्रीनिंग उपकरण के रूप में उपयुक्त, गलत सकारात्मक को संभालने के लिए मानव निरीक्षण की आवश्यकता है

सीमाएँ

भाषा सीमाएँ: केवल अंग्रेजी समर्थित, बहुभाषी सामान्यीकरण क्षमता अज्ञात है
एकल-मोड़ संवाद: केवल एकल संदेश को संभालता है, बहु-मोड़ संवाद में प्रदर्शन कम हो सकता है
सिम्युलेटेड डेटा: वास्तविक उपयोगकर्ता संदेशों के बजाय सिंथेटिक डेटा का उपयोग
डेटा प्रदूषण जोखिम: NVIDIA डेटासेट में अपने गार्डरेल को प्रशिक्षित करने के लिए उपयोग किए गए संदेश हो सकते हैं

भविष्य की दिशाएँ

बहुभाषी समर्थन: अन्य भाषाओं में संकट पहचान तक विस्तार
बहु-मोड़ संवाद प्रसंस्करण: संवाद संदर्भ के लिए उपयुक्त सुरक्षा फ़िल्टर विकसित करना
वास्तविक डेटा सत्यापन: वास्तविक उपयोगकर्ता डेटा पर प्रदर्शन को सत्यापित करना
मानकीकृत ढाँचा: सुरक्षा मूल्यांकन के लिए उद्योग-मानक प्रोटोकॉल स्थापित करना
प्रतिकूल परीक्षण: लाल दल परीक्षण और प्रतिकूल मूल्यांकन विधियाँ विकसित करना

गहन मूल्यांकन

शक्तियाँ

मजबूत नैदानिक प्रासंगिकता:
- नैदानिक विशेषज्ञों के साथ संकट श्रेणियों को परिभाषित करने के लिए सहयोग
- डेटा लेबलिंग के लिए अभ्यास करने वाले नैदानिक चिकित्सकों का उपयोग
- स्वास्थ्यसेवा अनुप्रयोगों की वास्तविक आवश्यकताओं पर ध्यान केंद्रित
कठोर पद्धति:
- दो-चरणीय मूल्यांकन डिज़ाइन तार्किक है
- व्यापक सांख्यिकीय विश्लेषण, महत्व परीक्षण सहित
- आंतरिक और बाहरी सत्यापन सामान्यीकरण क्षमता सुनिश्चित करता है
उत्कृष्ट व्यावहारिक मूल्य:
- उच्च संवेदनशीलता डिज़ाइन चिकित्सा सुरक्षा आवश्यकताओं के अनुरूप है
- वास्तविक अनुप्रयोग परिदृश्यों में प्रदर्शन प्रक्षेपण प्रदान करता है
- मानव निरीक्षण की आवश्यकता स्पष्ट करता है
डेटासेट योगदान:
- नैदानिक रूप से लेबल किए गए मानसिक स्वास्थ्य डेटासेट के अंतराल को भरता है
- वास्तविक डिजिटल संचार विशेषताओं को सिम्युलेट करता है
- क्षेत्र विकास के लिए महत्वपूर्ण संसाधन प्रदान करता है

कमियाँ

डेटा प्रामाणिकता समस्या:
- पूरी तरह से सिंथेटिक डेटा पर निर्भर, वास्तविक उपयोगकर्ता संदेशों से भिन्न हो सकता है
- वास्तविक दुनिया तैनाती का सत्यापन अनुपस्थित है
तकनीकी विवरण अपर्याप्त:
- मॉडल आर्किटेक्चर विवरण बहुत संक्षिप्त है
- प्रशिक्षण प्रक्रिया और हाइपरपैरामीटर का विस्तृत विवरण अनुपस्थित है
- प्रॉम्प्ट इंजीनियरिंग का विशिष्ट कार्यान्वयन सार्वजनिक नहीं है
मूल्यांकन सीमाएँ:
- केवल एकल-मोड़ संदेश प्रसंस्करण तक सीमित
- प्रतिकूल परीक्षण और सीमांत मामलों का विश्लेषण अनुपस्थित है
- विभिन्न जनसंख्या और सांस्कृतिक पृष्ठभूमि के अंतर पर विचार नहीं किया गया है
पुनरुत्पादन क्षमता समस्याएँ:
- मॉडल कार्यान्वयन विवरण पर्याप्त विस्तृत नहीं हैं
- डेटासेट निर्माण प्रक्रिया विवरण अपर्याप्त है

प्रभाव

शैक्षणिक योगदान:
- मानसिक स्वास्थ्य क्षेत्र में AI सुरक्षा अनुप्रयोग के लिए बेंचमार्क स्थापित करता है
- विशेषीकृत सुरक्षा फ़िल्टर अनुसंधान विकास को बढ़ावा देता है
- महत्वपूर्ण मूल्यांकन डेटासेट और विधियाँ प्रदान करता है
व्यावहारिक मूल्य:
- नैदानिक निर्णय समर्थन प्रणालियों में सीधे लागू होता है
- डिजिटल स्वास्थ्य प्लेटफॉर्म में एकीकृत किया जा सकता है
- बड़े पैमाने पर मानसिक स्वास्थ्य हस्तक्षेप के लिए तकनीकी समर्थन प्रदान करता है
सामाजिक महत्व:
- मानसिक स्वास्थ्य संकट प्रबंधन में AI प्रणालियों के जोखिमों को कम करने में सहायता करता है
- चिकित्सा स्वास्थ्य क्षेत्र में जिम्मेदार AI विकास को बढ़ावा देता है
- नीति निर्माण के लिए तकनीकी साक्ष्य प्रदान करता है

लागू परिदृश्य

नैदानिक ट्रिएज प्रणालियाँ: उच्च जोखिम वाले रोगियों की पहचान के लिए प्रारंभिक स्क्रीनिंग उपकरण के रूप में
डिजिटल स्वास्थ्य प्लेटफॉर्म: मानसिक स्वास्थ्य अनुप्रयोगों में सुरक्षा सुरक्षा प्रदान करने के लिए एकीकृत
संकट हस्तक्षेप हॉटलाइन: आपातकालीन स्थितियों की पहचान में मानव ग्राहक सेवा सहायता के लिए
शिक्षा और प्रशिक्षण: नैदानिक चिकित्सकों के संकट पहचान प्रशिक्षण के लिए
अनुसंधान अनुप्रयोग: मानसिक स्वास्थ्य AI सुरक्षा अनुसंधान के लिए बेंचमार्क उपकरण के रूप में

संदर्भ

पेपर में प्रचुर मात्रा में संबंधित साहित्य का हवाला दिया गया है, मुख्य रूप से शामिल हैं:

मानसिक स्वास्थ्य संकट महामारी विज्ञान अनुसंधान
AI सुरक्षा और सामग्री संशोधन तकनीकें
नैदानिक निर्णय समर्थन प्रणालियाँ
डिजिटल मानसिक स्वास्थ्य हस्तक्षेप अनुसंधान
स्वास्थ्यसेवा में प्राकृतिक भाषा प्रसंस्करण का अनुप्रयोग

समग्र मूल्यांकन: यह AI सुरक्षा और डिजिटल मानसिक स्वास्थ्य के अंतःविषय क्षेत्र में महत्वपूर्ण मूल्य का एक अनुसंधान कार्य है। पेपर एक वास्तविक और तत्काल समस्या को संबोधित करता है, पद्धति कठोर है, और परिणाम प्रेरक हैं। डेटा प्रामाणिकता और तकनीकी विवरण के संदर्भ में कुछ सीमाओं के बावजूद, इसकी नैदानिक प्रासंगिकता और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाता है। यह कार्य भविष्य के AI मानसिक स्वास्थ्य सुरक्षा अनुसंधान के लिए एक महत्वपूर्ण आधार स्थापित करता है।