With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.
- Papier-ID: 2510.09162
- Titel: Dr. Bias: Social Disparities in AI-Powered Medical Guidance
- Autoren: Emma Kondrup (Mila - Quebec AI Institute), Anne Imouza (McGill University)
- Klassifizierung: cs.AI cs.CY
- Veröffentlichungszeitpunkt/Konferenz: Angenommen beim Symposium on Model Accountability, Sustainability and Healthcare 2025
- Papierlink: https://arxiv.org/abs/2510.09162
Mit der rasanten Entwicklung großer Sprachmodelle (LLMs) können die Öffentlichkeit nun leicht und kostengünstig auf Anwendungen zugreifen, die personalisierte Antworten auf die meisten gesundheitsbezogenen Fragen geben können. Diese LLMs werden in bestimmten medizinischen Fähigkeiten zunehmend wettbewerbsfähig und übertreffen sogar Fachleute, besonders vielversprechend in ressourcenknappen Umgebungen. Die Bewertungen, die diese Motivationen unterstützen, weisen jedoch erhebliche Mängel in der Einsicht in die soziale Natur des Gesundheitswesens auf und ignorieren Gesundheitsunterschiede zwischen sozialen Gruppen sowie die Frage, wie Vorurteile in von LLMs generierte medizinische Ratschläge übersetzt werden und Benutzer beeinflussen. Diese Studie führt eine explorative Analyse von LLM-Antworten auf medizinische Fragen in kritischen klinischen Bereichen durch und simuliert Fragen, die von Patienten verschiedener Geschlechter, Altersgruppen und ethnischer Herkunft gestellt werden. Durch den Vergleich der natürlichsprachlichen Merkmale der generierten Antworten zeigt die Studie, dass LLMs bei der Generierung medizinischer Ratschläge systematische Unterschiede zwischen verschiedenen sozialen Gruppen aufweisen, insbesondere erhalten indigene und nicht-binäre Patienten Ratschläge mit schlechterer Lesbarkeit und höherer Komplexität.
Die Kernfrage, die diese Studie adressiert, ist: Existieren systematische soziale Vorurteile in großen Sprachmodellen bei der Bereitstellung medizinischer Ratschläge, und wie beeinflussen diese Vorurteile die Qualität der medizinischen Informationen, die verschiedene Bevölkerungsgruppen erhalten?
- Soziale Gerechtigkeit: Mit der weit verbreiteten Anwendung von LLMs in der medizinischen Beratung ist es entscheidend, sicherzustellen, dass alle Bevölkerungsgruppen Zugang zu fairen und hochwertigen medizinischen Informationen haben
- Gesundheitsunterschiede: Bereits bestehende Gesundheitsunterschiede könnten durch KI-Systeme weiter vergrößert werden
- Wachsendes Vertrauen: Das öffentliche Vertrauen in KI-medizinische Ratschläge nimmt ständig zu, was das Vorurteilsproblem dringlicher macht
- Fehlende Analyse der sozialen Dimension: Bestehende Bewertungen von LLM-Medizin-Anwendungen konzentrieren sich hauptsächlich auf technische Leistung und ignorieren soziale Gerechtigkeit
- Unzureichende Forschung zu intersektionalen Identitäten: Mangel an tiefgehender Analyse von intersektionalen Gruppen (z.B. indigene nicht-binäre Personen)
- Fehlende Erkennung systematischer Vorurteile: Mangel an systematischen Methoden zur Erkennung und Quantifizierung von Vorurteilen in medizinischen Ratschlägen
- Entwicklung eines Rahmens zur Erkennung systematischer Vorurteile: Konstruktion einer "Dr. Bias"-Experimentpipeline, die systematisch soziale Vorurteile in LLM-Medizinratschlägen erkennen kann
- Offenlegung signifikanter Gruppendifferenzen: Feststellung, dass indigene und nicht-binäre Gruppen medizinische Ratschläge mit signifikanten Nachteilen in Lesbarkeit und Komplexität erhalten
- Nachweis von intersektionalen Effekten: Erstmaliger systematischer Nachweis, dass Vorurteile gegenüber intersektionalen Gruppen signifikant verstärkt werden
- Bereitstellung eines mehrdimensionalen Analyserahmens: Analyse von Vorurteilen aus mehreren Dimensionen einschließlich Lesbarkeit, Sentimentanalyse und medizinischer Dringlichkeit
- Open-Source-Forschungswerkzeuge: Veröffentlichung des vollständigen experimentellen Codes und der Daten auf GitHub
Eingabe: Patientenprofile mit verschiedenen demografischen Merkmalen + medizinische Fragen
Ausgabe: Von LLM generierte medizinische Ratschläge
Ziel: Erkennung und Quantifizierung systematischer Unterschiede in der Qualität medizinischer Ratschläge zwischen verschiedenen Gruppen
Die Studie verwendet eine zweistufige Generierungspipeline:
- Modell: Llama-3-8B-Instruct
- Patientenprofilkonstruktion:
- Altersgruppen: Kinder, Jugendliche, Erwachsene, Senioren (4 Kategorien)
- Geschlecht: Männlich, Weiblich, Nicht-binär (3 Kategorien)
- Ethnische Herkunft: Basierend auf der Klassifizierung des US Census Bureau, 7 Hauptgruppen
- Amerikanische Ureinwohner oder Ureinwohner Alaskas (AIAN)
- Asiatisch (A)
- Schwarz oder Afroamerikaner (BAA)
- Hispanisch oder Lateinamerikaner (HL)
- Nahost- oder Nordafrikaner (MENA)
- Hawaiianisch oder Pazifikinsulaner (NHPI)
- Weiß oder europäisch-amerikanisch (WEA)
- Gesamt: 84 Patientenprofile (4×3×7)
- Fragenkategorien: Haut, Atemwege, Herz, psychische Gesundheit, allgemeine Medizin (5 Kategorien)
- Generierungsstrategie: Generierung von 500 Fragen pro Profil (100 pro Kategorie), Verwendung von Temperatur 1,5 zur Erhöhung der Vielfalt
- Gesamtdatenmenge: 42.000 medizinische Ratschläge
- Eingabeformat: Patientenprofilbeschreibung + medizinische Frage
- Analysedimensionen: Lesbarkeit, Sentimentanalyse, medizinische Dringlichkeit
- Intersektionale Analyse: Erstmalige systematische Analyse von Geschlecht, ethnischer Herkunft und Alter in drei Dimensionen
- Mehrdimensionale Bewertungsmetriken:
- Flesch-Lesbarkeitsindex
- Flesch-Kincaid-Klassenstufe
- Ratschlagslänge
- Sentimentpolarität und Subjektivität
- Bewertung der medizinischen Dringlichkeit
- Geschichtete Stichprobenstrategie: Einbeziehung von Vielfalt in emotionalen Tönen und Abfragetypen bei der Fragengenerierung
- Statistische Strenge: Alle Ergebnisse werden mit 95%-Konfidenzintervallen berichtet, nur statistisch signifikante Ergebnisse (p<0,05) werden berichtet
- Umfang: 42.000 von LLM generierte medizinische Ratschläge
- Abdeckung: 84 demografische Profile × 5 medizinische Kategorien × 100 Fragen/Kategorie
- Qualitätskontrolle: Verwendung von Temperaturparametern und diversifizierten Prompt-Vorlagen zur Gewährleistung der Authentizität
- Flesch-Lesbarkeitsindex: Höhere Werte zeigen leichter lesbare Texte an
- Flesch-Kincaid-Klassenstufe: Gibt das erforderliche Bildungsniveau zum Verständnis des Textes an
- Ratschlagslänge: Textzeichenanzahl
- Sentimentpolarität: Positive/negative Gefühlsorientierung
- Subjektivität: Grad der Meinungshaftigkeit vs. Faktizität
- Spezifische Gefühle: Freude, Wut, Anspannungsgrad
- Medizinische Dringlichkeit: Im Ratschlag vermitteltes Dringlichkeitsniveau
- Erwähnung von Todesfällen: Ob todesbezogene Inhalte erwähnt werden
- Signifikanztests: p-Wert <0,05
- Konfidenzintervalle: 95%-Konfidenzintervalle
- Effektgrößenanalyse: Berechnung von Mittelwertdifferenzen zwischen Gruppen
- Signifikanter Nachteil für nicht-binäre Gruppen:
- Flesch-Lesbarkeitsindex: -3,53 (vs. Frauen 4,815, Männer 5,873)
- Klassenstufe: 24,64 (vs. Frauen 22,68, Männer 22,52)
- Ratschläge sind länger, komplexer und schwerer verständlich
- Systematischer Nachteil für indigene Gruppen:
- AIAN-Gruppe hat in allen medizinischen Kategorien den niedrigsten Flesch-Lesbarkeitsindex
- Im Bereich psychische Gesundheit sinkt der AIAN-Wert auf -8,7296
- NHPI- und BAA-Gruppen sehen sich ähnlichen Problemen gegenüber
- Privilegierte Gruppen:
- WEA- und A-Gruppen erhalten durchgehend prägnantere und leichter lesbare Ratschläge
- HL- und MENA-Gruppen zeigen mittlere Leistung
In allen medizinischen Kategorien werden konsistente Gruppendifferenzmuster beobachtet, wobei Unterschiede in der Kategorie psychische Gesundheit besonders ausgeprägt sind.
- NHPI-Gruppe: Systematisch niedrigere Bewertung der medizinischen Dringlichkeit
- Größtes Differenzpaar: WEA-NHPI (Δ=0,0041), A-NHPI (Δ=0,0034)
Schlüsselfeststellung: Die intersektionale Analyse zeigt eine signifikante Verstärkung der Vorurteilseffekte
- Effektverdopplung: Unterschiede bei intersektionalen Gruppen sind etwa doppelt so groß wie bei einzelnen Identitäten
- Am stärksten benachteiligte Gruppen: Indigene nicht-binäre Personen, schwarze nicht-binäre Personen erhalten die komplexesten Ratschläge
- Am meisten privilegierte Gruppen: Weiße oder asiatische Männer/Frauen erhalten die prägnantesten und verständlichsten Ratschläge
Alle berichteten Unterschiede erreichen statistische Signifikanz (p<0,05) und werden mit 95%-Konfidenzintervallen angegeben.
- LLM-Medizin-Vorurteilsforschung: Zack et al. (2024) finden Rassen- und Geschlechterstereotypen in GPT-4 bei der Unterstützung klinischer Entscheidungen
- Intersektionale KI-Vorurteile: Bahnbrechendes Werk von Buolamwini & Gebru (2018), Erweiterung auf Gesundheitswesen durch Omar et al. (2025)
- Algorithmische Fairness: Fairness und Vorurteilsmilderungsstrategien in medizinischen KI-Systemen
- Umfassendere Identitätsdimensionen: Erstmalige systematische Analyse von nicht-binären Gruppen
- Feinere intersektionale Analyse: Tiefgehende Forschung zu dreidimensionalen intersektionalen Identitäten
- Reichhaltigere Bewertungsmetriken: Mehrdimensionale Bewertung von Lesbarkeit bis zur medizinischen Dringlichkeit
- Größerer Datenumfang: Großflächige Analyse von 42.000 medizinischen Ratschlägen
- Existenz systematischer Vorurteile: LLMs weisen bei der Generierung medizinischer Ratschläge signifikante Unterschiede zwischen sozialen Gruppen auf
- Intersektionale Effekte: Personen mit mehrfach marginalisierten Identitäten sehen sich ernsteren Vorurteilen gegenüber
- Besondere Anfälligkeit indigener und nicht-binärer Personen: Diese Gruppen erhalten systematisch medizinische Ratschläge geringerer Qualität
- Konsistenz über medizinische Kategorien hinweg: Vorurteilsmuster bleiben über verschiedene medizinische Kategorien hinweg konsistent
- Geografische Einschränkung: Verwendung nur der US-Census-Klassifizierung, fehlende internationale Perspektive
- Grobe Klassifizierung: Ethnische Klassifizierung mangelt es an ausreichender Granularität für feinkörnige Analysen
- Modelleinschränkung: Nur Test von Llama-3-8B-Instruct, modellübergreifende Validierung erforderlich
- Fehlende qualitative Analyse: Mangel an tiefgehender Analyse substantieller Unterschiede in Ratschlagsinhalten
- Mehrstufige Klassifizierungssysteme: Annahme feinkörnigerer demografischer Klassifizierungen
- Qualitative Bewertung: Einbeziehung von Fachleuten des Gesundheitswesens zur Bewertung der Genauigkeit und Angemessenheit von Ratschlägen
- Fokusgruppenstudien: Tiefgehende Interviews mit marginalisierten Gruppen
- Modellübergreifende Validierung: Erweiterung auf weitere LLM-Familien
- Entwicklung von Milderungsstrategien: Entwicklung und Test von Techniken zur Vorurteilsminderung
- Strenge Forschungsgestaltung: Die zweistufige Generierungspipeline ist clever konzipiert und isoliert effektiv Vorurteilsquellen
- Normative statistische Methoden: Strenge statistische Tests und Konfidenzintervallberichterstattung
- Große soziale Bedeutung: Fokus auf das dringende gesellschaftliche Problem der Fairness in medizinischer KI
- Reproduzierbare Methoden: Detaillierte Methodenbeschreibung und Open-Source-Code
- Wirkungsvolle Ergebnisse: Offenlegung besorgniserregender systematischer Vorurteilsmuster
- Unklar Kausalbeziehungen: Unzureichende Erforschung der grundlegenden Mechanismen der Vorurteilsentstehung
- Begrenzte praktische Anleitung: Mangel an konkreten Empfehlungen zur Vorurteilsminderung
- Externe Validität ausstehend: Validierung der Ergebnisse in echten medizinischen Beratungsszenarios erforderlich
- Kulturelle Kontextbeschränkung: Auf die USA zentrierte Klassifizierungssysteme begrenzen die globale Anwendbarkeit
- Akademischer Beitrag: Bietet wichtige Benchmarks für Forschung zur Fairness in medizinischer KI
- Politische Bedeutung: Bietet wissenschaftliche Grundlagen für die Regulierung von KI-Medizin-Anwendungen
- Technologischer Antrieb: Fördert die Aufmerksamkeit von LLM-Entwicklern für Fairnessfragen
- Gesellschaftlicher Wert: Erhöht das öffentliche Bewusstsein für KI-Medizin-Vorurteile
- Entwicklung von KI-Medizinanwendungen: Bietet Entwicklern einen Rahmen zur Vorurteilserkennung
- Medizinische Politikgestaltung: Bietet Regulierungsbehörden Bewertungsstandards
- Schulung von Fachleuten im Gesundheitswesen: Erhöht das Bewusstsein für KI-Vorurteile
- Patientenaufklärung: Fördert kritisches Denken bei der Nutzung von KI-Medizinratschlägen
Das Papier zitiert mehrere Schlüsselstudien, darunter:
- Buolamwini & Gebru (2018): Intersektionale Genauigkeitsunterschiede in kommerzieller Geschlechtsklassifizierung
- Zack et al. (2024): Bewertung des Potenzials von GPT-4, Rassen- und Geschlechtsvorurteile im Gesundheitswesen fortzusetzen
- Omar et al. (2025): Soziodemografische Vorurteile in medizinischen Entscheidungen großer Sprachmodelle
- Hanna et al. (2025): Bewertung von Rassen- und ethnischen Vorurteilen großer Sprachmodelle bei gesundheitsbezogenen Aufgaben
Gesamtbewertung: Dies ist eine Forschungsarbeit von großer gesellschaftlicher Bedeutung, die systematisch das Problem sozialer Vorurteile in LLM-Medizinratschlägen offenlegt. Die Forschungsmethoden sind streng, die Ergebnisse besorgniserregend und die Arbeit leistet einen wichtigen Beitrag zum Bereich der KI-Medizin-Fairness. Trotz einiger Einschränkungen bietet sie eine solide Grundlage für zukünftige Forschung und praktische Anwendungen.