2025-11-16T17:58:12.985277

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Kondrup, Imouza

With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.

academic

डॉ. बायस: एआई-संचालित चिकित्सा मार्गदर्शन में सामाजिक असमानताएं

बुनियादी जानकारी

पेपर आईडी: 2510.09162
शीर्षक: डॉ. बायस: एआई-संचालित चिकित्सा मार्गदर्शन में सामाजिक असमानताएं
लेखक: एम्मा कोंड्रप (मिला - क्यूबेक एआई संस्थान), ऐनी इमौज़ा (मैकगिल विश्वविद्यालय)
वर्गीकरण: cs.AI cs.CY
प्रकाशन समय/सम्मेलन: मॉडल जवाबदेही, स्थिरता और स्वास्थ्यसेवा 2025 पर संगोष्ठी में स्वीकृत
पेपर लिंक: https://arxiv.org/abs/2510.09162

सारांश

बड़े भाषा मॉडल (एलएलएम) के तीव्र विकास के साथ, जनता अब आसानी से और किफायती तरीके से ऐसे अनुप्रयोगों तक पहुंच सकती है जो अधिकांश स्वास्थ्य संबंधी प्रश्नों का व्यक्तिगत उत्तर दे सकते हैं। ये एलएलएम कुछ चिकित्सा क्षमताओं में तेजी से प्रतिस्पर्धी हो रहे हैं, यहां तक कि पेशेवरों को भी पार कर रहे हैं, विशेषकर संसाधन-सीमित वातावरण में बहुत आशाजनक हैं। हालांकि, इन प्रेरणाओं का समर्थन करने वाले मूल्यांकन स्वास्थ्यसेवा की सामाजिक प्रकृति के बारे में अंतर्दृष्टि में गंभीर रूप से कमी रखते हैं, सामाजिक समूहों के बीच स्वास्थ्य असमानताओं और पूर्वाग्रह कैसे एलएलएम-उत्पन्न चिकित्सा सलाह में परिवर्तित होते हैं और उपयोगकर्ताओं को प्रभावित करते हैं, इसे नज़रअंदाज़ करते हैं। यह अध्ययन महत्वपूर्ण नैदानिक क्षेत्रों में एलएलएम की चिकित्सा प्रश्नों के उत्तर देने का अन्वेषणात्मक विश्लेषण करता है, विभिन्न लिंग, आयु और जातीय रोगी प्रोफाइल द्वारा पूछे गए प्रश्नों का अनुकरण करता है। उत्पन्न प्रतिक्रियाओं की प्राकृतिक भाषा विशेषताओं की तुलना करके, अध्ययन पाता है कि एलएलएम चिकित्सा सलाह उत्पन्न करते समय विभिन्न सामाजिक समूहों में व्यवस्थित अंतर पैदा करते हैं, विशेषकर आदिवासी और द्विलिंगी रोगियों को प्राप्त सलाह की पठनीयता कम और अधिक जटिल होती है।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

यह अध्ययन जो मूल समस्या को हल करना चाहता है: क्या बड़े भाषा मॉडल चिकित्सा सलाह प्रदान करते समय व्यवस्थित सामाजिक पूर्वाग्रह प्रदर्शित करते हैं, और ये पूर्वाग्रह विभिन्न जनसांख्यिकीय समूहों द्वारा प्राप्त चिकित्सा जानकारी की गुणवत्ता को कैसे प्रभावित करते हैं।

महत्व

सामाजिक न्यायसंगतता: चिकित्सा परामर्श में एलएलएम के व्यापक अनुप्रयोग के साथ, यह सुनिश्चित करना महत्वपूर्ण है कि सभी जनसंख्या समूह निष्पक्ष, उच्च-गुणवत्ता की चिकित्सा जानकारी तक पहुंच सकें
स्वास्थ्य असमानताएं: वास्तविकता में पहले से मौजूद स्वास्थ्य असमानताएं एआई प्रणालियों के माध्यम से आगे बढ़ सकती हैं
बढ़ता विश्वास: एआई चिकित्सा सलाह में जनता का विश्वास लगातार बढ़ रहा है, जिससे पूर्वाग्रह समस्या अधिक तत्काल हो जाती है

मौजूदा विधियों की सीमाएं

सामाजिक आयाम विश्लेषण की कमी: मौजूदा एलएलएम चिकित्सा अनुप्रयोग मूल्यांकन मुख्य रूप से तकनीकी प्रदर्शन पर ध्यान केंद्रित करते हैं, सामाजिक न्यायसंगतता को नज़रअंदाज़ करते हैं
अपर्याप्त अंतर्विभागीय पहचान अनुसंधान: अंतर्विभागीय पहचान समूहों (जैसे आदिवासी द्विलिंगी) का गहन विश्लेषण अपर्याप्त है
व्यवस्थित पूर्वाग्रह पहचान की कमी: चिकित्सा सलाह में पूर्वाग्रह का पता लगाने और परिमाण करने के लिए व्यवस्थित विधि की कमी है

मुख्य योगदान

व्यवस्थित पूर्वाग्रह पहचान ढांचा विकसित किया: "डॉ. बायस" प्रायोगिक पाइपलाइन का निर्माण किया, जो एलएलएम चिकित्सा सलाह में सामाजिक पूर्वाग्रह को व्यवस्थित रूप से पहचान सकता है
महत्वपूर्ण समूह अंतर का खुलासा किया: आदिवासी और द्विलिंगी समूहों द्वारा प्राप्त चिकित्सा सलाह में पठनीयता और जटिलता के संदर्भ में महत्वपूर्ण असमानताएं पाई गईं
अंतर्विभागीय पहचान प्रभाव साबित किया: पहली बार व्यवस्थित रूप से साबित किया कि अंतर्विभागीय पहचान समूहों का सामना करने वाला पूर्वाग्रह महत्वपूर्ण रूप से बढ़ा हुआ है
बहु-आयामी विश्लेषण ढांचा प्रदान किया: पठनीयता, भावनात्मक विश्लेषण, चिकित्सा आपातकालीन स्तर आदि कई आयामों से पूर्वाग्रह का विश्लेषण किया
खुला-स्रोत अनुसंधान उपकरण: गिटहब पर संपूर्ण प्रायोगिक कोड और डेटा सार्वजनिक किया

विधि विस्तार

कार्य परिभाषा

इनपुट: विभिन्न जनसांख्यिकीय विशेषताओं वाले रोगी प्रोफाइल + चिकित्सा संबंधी प्रश्न आउटपुट: एलएलएम द्वारा उत्पन्न चिकित्सा सलाह उद्देश्य: विभिन्न समूहों के बीच चिकित्सा सलाह की गुणवत्ता में व्यवस्थित अंतर का पता लगाना और परिमाण करना

प्रायोगिक डिजाइन आर्किटेक्चर

अनुसंधान दो-चरणीय उत्पादन पाइपलाइन का उपयोग करता है:

प्रथम चरण: प्रश्न उत्पादन

मॉडल: लामा-3-8बी-इंस्ट्रक्ट
रोगी प्रोफाइल निर्माण:
- आयु समूह: बचपन, किशोरावस्था, वयस्कता, बुजुर्गावस्था (4 श्रेणियां)
- लिंग: पुरुष, महिला, द्विलिंगी (3 श्रेणियां)
- जातीयता: यूएस जनगणना ब्यूरो वर्गीकरण के आधार पर 7 प्रमुख जातीय समूह
  - अमेरिकी भारतीय या अलास्का मूल निवासी (एआईएएन)
  - एशियाई (ए)
  - काले या अफ्रीकी अमेरिकी (बीएए)
  - हिस्पैनिक या लैटिनो (एचएल)
  - मध्य पूर्वी या उत्तरी अफ्रीकी (मेना)
  - हवाईयन मूल निवासी या प्रशांत द्वीपवासी (एनएचपीआई)
  - सफेद या यूरोपीय अमेरिकी (डब्ल्यूईए)
कुल: 84 रोगी प्रोफाइल (4×3×7)
प्रश्न श्रेणियां: त्वचा, श्वसन प्रणाली, हृदय, मानसिक स्वास्थ्य, सामान्य चिकित्सा (5 श्रेणियां)
उत्पादन रणनीति: प्रत्येक प्रोफाइल के लिए 500 प्रश्न उत्पन्न करें (प्रत्येक श्रेणी में 100), विविधता बढ़ाने के लिए तापमान 1.5 का उपयोग करें

द्वितीय चरण: चिकित्सा सलाह उत्पादन

कुल डेटा मात्रा: 42,000 चिकित्सा सलाह
इनपुट प्रारूप: रोगी प्रोफाइल विवरण + चिकित्सा प्रश्न
विश्लेषण आयाम: पठनीयता, भावनात्मक विश्लेषण, चिकित्सा आपातकालीन स्तर

तकनीकी नवाचार बिंदु

अंतर्विभागीय पहचान विश्लेषण: पहली बार लिंग, जातीयता, आयु के तीन आयामों को व्यवस्थित रूप से अंतर्विभागीय विश्लेषण में रखा
बहु-आयामी मूल्यांकन संकेतक:
- फ्लेश पठनीयता स्कोर
- फ्लेश-किंकेड ग्रेड स्तर
- सलाह की लंबाई
- भावनात्मक ध्रुवता और व्यक्तिपरकता
- चिकित्सा आपातकालीन स्तर मूल्यांकन
स्तरीकृत नमूना रणनीति: प्रश्न उत्पादन में भावनात्मक टोन और क्वेरी प्रकार की विविधता जोड़ी
सांख्यिकीय कठोरता: सभी परिणाम 95% आत्मविश्वास अंतराल के साथ रिपोर्ट किए गए, केवल p<0.05 के सांख्यिकीय रूप से महत्वपूर्ण परिणाम रिपोर्ट किए गए

प्रायोगिक सेटअप

डेटासेट

पैमाना: 42,000 एलएलएम-उत्पन्न चिकित्सा सलाह
कवरेज: 84 जनसांख्यिकीय प्रोफाइल × 5 चिकित्सा श्रेणियां × 100 प्रश्न/श्रेणी
गुणवत्ता नियंत्रण: तापमान पैरामीटर और विविध प्रॉम्प्ट टेम्पलेट का उपयोग करके प्रामाणिकता सुनिश्चित की

मूल्यांकन संकेतक

पठनीयता संकेतक

फ्लेश पठनीयता: स्कोर जितना अधिक होगा, पाठ उतना ही आसान होगा
फ्लेश-किंकेड ग्रेड स्तर: पाठ को समझने के लिए आवश्यक शिक्षा स्तर को दर्शाता है
सलाह की लंबाई: पाठ शब्द संख्या

भावनात्मक विश्लेषण संकेतक

भावनात्मक ध्रुवता: सकारात्मक/नकारात्मक भावनात्मक प्रवृत्ति
व्यक्तिपरकता: विचार बनाम तथ्य की डिग्री
विशिष्ट भावनाएं: खुशी, क्रोध, तनाव की डिग्री

चिकित्सा-विशिष्ट संकेतक

चिकित्सा आपातकालीन स्तर: सलाह में परिलक्षित आपातकालीन स्तर
मृत्यु विषय उल्लेख: क्या मृत्यु संबंधी सामग्री शामिल है

सांख्यिकीय विश्लेषण विधि

महत्व परीक्षण: पी मान <0.05
आत्मविश्वास अंतराल: 95% आत्मविश्वास अंतराल
प्रभाव आकार विश्लेषण: समूहों के बीच माध्य अंतर की गणना

प्रायोगिक परिणाम

मुख्य परिणाम

लिंग आयाम अंतर

द्विलिंगी समूह महत्वपूर्ण नुकसान:
- फ्लेश पठनीयता: -3.53 (बनाम महिला 4.815, पुरुष 5.873)
- ग्रेड स्तर: 24.64 (बनाम महिला 22.68, पुरुष 22.52)
- सलाह अधिक लंबी, अधिक जटिल, समझने में अधिक कठिन

जातीयता आयाम अंतर

आदिवासी समूह व्यवस्थित नुकसान:
- एआईएएन समूह सभी चिकित्सा श्रेणियों में फ्लेश पठनीयता सबसे कम
- मानसिक स्वास्थ्य सलाह में एआईएएन समूह स्कोर -8.7296 तक कम
- एनएचपीआई और बीएए समूह भी समान समस्याओं का सामना करते हैं
लाभान्वित समूह:
- डब्ल्यूईए और ए समूह लगातार सबसे संक्षिप्त, आसान-पठनीय सलाह प्राप्त करते हैं
- एचएल और मेना समूह मध्यम प्रदर्शन करते हैं

चिकित्सा श्रेणी अंतर

सभी चिकित्सा श्रेणियों में समूह अंतर का एक सुसंगत पैटर्न देखा गया, मानसिक स्वास्थ्य श्रेणी में अंतर विशेषकर महत्वपूर्ण है।

चिकित्सा आपातकालीन स्तर अंतर

एनएचपीआई समूह: चिकित्सा आपातकालीन स्तर मूल्यांकन में व्यवस्थित रूप से कम
अधिकतम अंतर जोड़ी: डब्ल्यूईए-एनएचपीआई (Δ=0.0041), ए-एनएचपीआई (Δ=0.0034)

अंतर्विभागीय पहचान प्रभाव

मुख्य खोज: अंतर्विभागीय पहचान विश्लेषण दर्शाता है कि पूर्वाग्रह प्रभाव महत्वपूर्ण रूप से बढ़ा हुआ है

प्रभाव गुणन: अंतर्विभागीय पहचान समूहों का अंतर एकल पहचान अंतर का लगभग 2 गुना है
सबसे नुकसानग्रस्त समूह: आदिवासी द्विलिंगी, काले द्विलिंगी सबसे जटिल सलाह प्राप्त करते हैं
सबसे लाभान्वित समूह: सफेद या एशियाई पुरुष/महिला सबसे संक्षिप्त, आसान-समझने वाली सलाह प्राप्त करते हैं

सांख्यिकीय महत्व

सभी रिपोर्ट किए गए अंतर सांख्यिकीय महत्व स्तर तक पहुंचते हैं (p<0.05), और 95% आत्मविश्वास अंतराल प्रदान करते हैं।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

व्यवस्थित पूर्वाग्रह मौजूद है: एलएलएम चिकित्सा सलाह उत्पादन में महत्वपूर्ण सामाजिक समूह अंतर प्रदर्शित करते हैं
अंतर्विभागीय पहचान प्रभाव: कई सीमांत पहचान वाले व्यक्ति अधिक गंभीर पूर्वाग्रह का सामना करते हैं
आदिवासी और द्विलिंगी सबसे कमजोर: ये समूह व्यवस्थित रूप से कम गुणवत्ता की चिकित्सा सलाह प्राप्त करते हैं
क्रॉस-फील्ड सुसंगतता: पूर्वाग्रह पैटर्न विभिन्न चिकित्सा श्रेणियों में सुसंगत रहता है

सीमाएं

भौगोलिक सीमा: केवल यूएस जनगणना वर्गीकरण का उपयोग, अंतर्राष्ट्रीय दृष्टिकोण की कमी
वर्गीकरण कठोरता: जातीय वर्गीकरण सूक्ष्म विश्लेषण का समर्थन करने के लिए पर्याप्त विस्तृत नहीं है
मॉडल सीमाएं: केवल लामा-3-8बी-इंस्ट्रक्ट का परीक्षण, क्रॉस-मॉडल सत्यापन की आवश्यकता है
गुणात्मक विश्लेषण की कमी: सलाह सामग्री में वास्तविक अंतर का गहन विश्लेषण अपर्याप्त है

भविष्य की दिशाएं

बहु-स्तरीय वर्गीकरण प्रणाली: अधिक सूक्ष्म जनसांख्यिकीय वर्गीकरण अपनाएं
गुणात्मक मूल्यांकन: चिकित्सा विशेषज्ञों को सलाह की सटीकता और उपयुक्तता का मूल्यांकन करने के लिए आमंत्रित करें
फोकस समूह अनुसंधान: सीमांत समूहों के साथ गहन साक्षात्कार
क्रॉस-मॉडल सत्यापन: अधिक एलएलएम परिवारों तक विस्तार करें
पूर्वाग्रह शमन रणनीति विकास: पूर्वाग्रह शमन तकनीकें विकसित और परीक्षण करें

गहन मूल्यांकन

शक्तियां

कठोर अनुसंधान डिजाइन: दो-चरणीय उत्पादन पाइपलाइन डिजाइन चतुर है, पूर्वाग्रह स्रोत को प्रभावी ढंग से अलग करता है
मानक सांख्यिकीय विधि: कठोर सांख्यिकीय परीक्षण और आत्मविश्वास अंतराल रिपोर्टिंग
महत्वपूर्ण सामाजिक अर्थ: चिकित्सा एआई न्यायसंगतता की तत्काल सामाजिक समस्या पर ध्यान केंद्रित करता है
विधि पुनरुत्पादनीय: विस्तृत विधि विवरण और खुला-स्रोत कोड
प्रभावशाली खोजें: चिंताजनक व्यवस्थित पूर्वाग्रह पैटर्न का खुलासा करता है

कमियां

कारणात्मक संबंध अस्पष्ट: पूर्वाग्रह उत्पादन के मूल तंत्र में गहन अन्वेषण नहीं
सीमित व्यावहारिक मार्गदर्शन: विशिष्ट पूर्वाग्रह शमन सुझावों की कमी
बाहरी वैधता सत्यापन प्रतीक्षा: वास्तविक चिकित्सा परामर्श परिदृश्य में खोजों को सत्यापित करने की आवश्यकता है
सांस्कृतिक पृष्ठभूमि सीमा: यूएस-केंद्रित वर्गीकरण प्रणाली वैश्विक प्रयोज्यता को सीमित करती है

प्रभाव

शैक्षणिक योगदान: चिकित्सा एआई न्यायसंगतता अनुसंधान के लिए महत्वपूर्ण बेंचमार्क प्रदान करता है
नीति अर्थ: एआई चिकित्सा अनुप्रयोग विनियमन के लिए वैज्ञानिक आधार प्रदान करता है
तकनीकी प्रेरणा: एलएलएम डेवलपर्स को न्यायसंगतता समस्या पर ध्यान केंद्रित करने के लिए प्रेरित करता है
सामाजिक मूल्य: एआई चिकित्सा पूर्वाग्रह के बारे में जनता की जागरूकता बढ़ाता है

प्रयोज्य परिदृश्य

एआई चिकित्सा उत्पाद विकास: डेवलपर्स के लिए पूर्वाग्रह पहचान ढांचा प्रदान करता है
चिकित्सा नीति निर्माण: नियामक एजेंसियों के लिए मूल्यांकन मानदंड प्रदान करता है
चिकित्सा व्यवसायी प्रशिक्षण: एआई पूर्वाग्रह के बारे में जागरूकता बढ़ाता है
रोगी शिक्षा: एआई चिकित्सा सलाह उपयोग में आलोचनात्मक सोच को मजबूत करता है

संदर्भ

पेपर कई महत्वपूर्ण अनुसंधानों का हवाला देता है, जिनमें शामिल हैं:

बुओलामविनी और गेब्रु (2018): वाणिज्यिक लिंग वर्गीकरण में अंतर्विभागीय सटीकता अंतर
ज़ैक आदि (2024): जीपीटी-4 द्वारा स्वास्थ्यसेवा में जातीय और लिंग पूर्वाग्रह जारी रखने की संभावना का मूल्यांकन
ओमर आदि (2025): बड़े भाषा मॉडल चिकित्सा निर्णय में सामाजिक जनसांख्यिकीय पूर्वाग्रह
हन्ना आदि (2025): स्वास्थ्यसेवा संबंधित कार्यों में बड़े भाषा मॉडल में जातीय और जातीय पूर्वाग्रह का मूल्यांकन

समग्र मूल्यांकन: यह महत्वपूर्ण सामाजिक अर्थ का एक अध्ययन है जो एलएलएम चिकित्सा सलाह में सामाजिक पूर्वाग्रह समस्या को व्यवस्थित रूप से उजागर करता है। अनुसंधान विधि कठोर है, खोजें चिंताजनक हैं, और एआई चिकित्सा न्यायसंगतता क्षेत्र में महत्वपूर्ण योगदान देता है। हालांकि कुछ सीमाएं हैं, लेकिन भविष्य के अनुसंधान और व्यावहारिक अनुप्रयोग के लिए एक ठोस आधार प्रदान करता है।