2025-11-16T13:49:12.700878

A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection

Ive, Bondaronek, Yadav et al.
Introduction: Healthcare AI models often inherit biases from their training data. While efforts have primarily targeted bias in structured data, mental health heavily depends on unstructured data. This study aims to detect and mitigate linguistic differences related to non-biological differences in the training data of AI models designed to assist in pediatric mental health screening. Our objectives are: (1) to assess the presence of bias by evaluating outcome parity across sex subgroups, (2) to identify bias sources through textual distribution analysis, and (3) to develop a de-biasing method for mental health text data. Methods: We examined classification parity across demographic groups and assessed how gendered language influences model predictions. A data-centric de-biasing method was applied, focusing on neutralizing biased terms while retaining salient clinical information. This methodology was tested on a model for automatic anxiety detection in pediatric patients. Results: Our findings revealed a systematic under-diagnosis of female adolescent patients, with a 4% lower accuracy and a 9% higher False Negative Rate (FNR) compared to male patients, likely due to disparities in information density and linguistic differences in patient notes. Notes for male patients were on average 500 words longer, and linguistic similarity metrics indicated distinct word distributions between genders. Implementing our de-biasing approach reduced diagnostic bias by up to 27%, demonstrating its effectiveness in enhancing equity across demographic groups. Discussion: We developed a data-centric de-biasing framework to address gender-based content disparities within clinical text. By neutralizing biased language and enhancing focus on clinically essential information, our approach demonstrates an effective strategy for mitigating bias in AI healthcare models trained on text.
academic

Ein datenzentrischer Ansatz zur Erkennung und Minderung demografischer Verzerrungen in pädiatrischen psychischen Gesundheitstexten: Eine Fallstudie zur Angststörungserkennung

Grundinformationen

  • Paper-ID: 2501.00129
  • Titel: A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection
  • Autoren: Julia Ive, Paulina Bondaronek, Vishal Yadav, Daniel Santel, Tracy Glauser, Tina Cheng, Jeffrey R. Strawn, Greeshma Agasthya, Jordan Tschida, Sanghyun Choo, Mayanka Chandrashekar, Anuj J. Kapadia, John Pestian
  • Klassifizierung: cs.CL cs.AI
  • Institutionen: University College London, Queen Mary University of London, Cincinnati Children's Hospital Medical Center, Oak Ridge National Laboratory u.a.
  • Papertyp: Forschungsarbeit

Zusammenfassung

Diese Studie befasst sich mit dem Problem demografischer Verzerrungen in KI-Modellen für die pädiatrische psychische Gesundheit und schlägt einen datenzentrischen Entverzerrungsansatz vor. Die Forschung zeigt, dass weibliche jugendliche Patienten systematisch unterdiagnostiziert werden, mit einer 4% niedrigeren Genauigkeit und einer 9% höheren Falsch-Negativ-Rate im Vergleich zu männlichen Patienten. Durch Informationsdichte-Filterung und geschlechtsneutrale Wortsubstitution konnte die Diagnoseverzerrung um 27% reduziert werden, was eine wirksame Lösung für die Fairness in der medizinischen KI bietet.

Forschungshintergrund und Motivation

Problemidentifikation

  1. Universalität von KI-Verzerrungen: Medizinische KI-Modelle erben häufig Verzerrungen aus Trainingsdaten, die medizinische Ungerechtigkeit verschärfen können, besonders für Minderheitsgruppen
  2. Besonderheiten der psychischen Gesundheit: Die psychische Gesundheit ist stark auf unstrukturierte Textdaten (klinische Notizen) angewiesen, während bestehende Entverzerrungsforschung hauptsächlich auf strukturierte Daten fokussiert
  3. Krise der psychischen Gesundheit bei Kindern: Nach COVID-19 hat sich die Prävalenz von Angststörungen bei Kindern verdoppelt, besonders bei weiblichen Jugendlichen

Bedeutsamkeit

  • Komplexität und Herausforderungen bei der Früherkennung psychischer Erkrankungen bei Kindern
  • Enormes Potenzial der KI bei der Erweiterung der Diagnose psychischer Erkrankungen
  • Dringende Notwendigkeit, die faire und wirksame Anwendung von KI-Tools in verschiedenen Bevölkerungsgruppen zu gewährleisten

Einschränkungen bestehender Methoden

  • Traditionelle Entverzerrungstechniken (z.B. Wort-Embedding-Entverzerrung, adversariales Training) sind nicht auf den medizinischen Bereich anwendbar
  • Die Heterogenität medizinischer Daten (aus verschiedenen Gesundheitseinrichtungen) wurde nicht angemessen berücksichtigt
  • Mangel an speziellen Entverzerrungsrahmen für medizinische Texte

Kernbeiträge

  1. Systematische Verzerrungserkennung: Erstmalige Identifikation und Quantifizierung von Geschlechtsverzerrungen bei der Angststörungserkennung bei Kindern, mit signifikant höheren Falsch-Negativ-Raten bei weiblichen Patienten
  2. Datenzentrischer Entverzerrungsrahmen: Vorschlag spezialisierter Entverzerrungsmethoden für medizinische Texte, einschließlich Informationsdichte-Filterung und Geschlechtswort-Neutralisierung
  3. Wirksamkeitsvalidierung: Validierung der Methode an echten klinischen Daten mit Reduktion der Diagnoseverzerrung um bis zu 27%
  4. Interpretabilitätsanalyse: Verwendung von LIME-Technologie zur Analyse von Wörtern, auf die sich Modelentscheidungen stützen, zur Offenlegung von Verzerrungsquellen

Methodische Details

Aufgabendefinition

Eingabe: Sequenz klinischer Notizen von pädiatrischen Patienten Ausgabe: Binäre Klassifizierungsvorhersage (Angststörung/keine Angststörung) Ziel: Reduktion von Leistungsunterschieden zwischen verschiedenen Geschlechtsgruppen bei Beibehaltung der Vorhersagegenauigkeit

Verzerrungserkennungsrahmen

1. Bewertung der Klassifizierungsfairness

Bewertung von Modellverzerrungen mit mehreren Metriken:

  • Ausgeglichene Fehlerrate (BER): BER=(FPFP+TN)+(FNFN+TP)2BER = \frac{(\frac{FP}{FP+TN}) + (\frac{FN}{FN+TP})}{2}
  • Falsch-Negativ-Rate (FNR): Messung der Fehldiagnose-Rate
  • Falsch-Positiv-Rate (FPR): Messung der Überdiagnose-Rate
  • BER-Verhältnis: Verhältnis der BER der benachteiligten Gruppe zur privilegierten Gruppe, >1,25 zeigt signifikante Verzerrung an

2. Textverteilungsanalyse

Analyse von Unterschieden in Textmerkmalen zwischen verschiedenen Bevölkerungsgruppen:

  • Durchschnittliche Notizenlänge
  • Prozentsatz medizinischer Fachbegriffe
  • Prozentsatz geschlechtsspezifischer Vokabeln
  • Jaccard-Distanz und Vertrautheitswerte

Entverzerrungsmethoden

1. Informationsdichte-Filterung (tf-idf_filt)

  • Berechnung der Satzwichtigkeit mittels TF-IDF-Scores
  • Entfernung der 20% informationsärmsten Sätze
  • Ausgleich der Informationsdichte zwischen verschiedenen Gruppen

2. Geschlechtswort-Entverzerrung (gen_sub)

  • Automatische Erkennung geschlechtsspezifischer Wörter wie Namen und Pronomen
  • Verwendung des Stanza-Tools zur Extraktion von Eigennamen
  • Ersetzung geschlechtsspezifischer Wörter durch neutrale Alternativen
    • Namen → "person1", "person2" usw.
    • Pronomen → "he/she" → "they"

3. Kombinierte Methode (tf-idf_filt+gen_sub)

Kombination von Informationsdichte-Filterung und Geschlechtswort-Substitution zur Nutzung von Synergieeffekten

Modellarchitektur

  • Transformer-Modell basierend auf Clinical-BigBird
  • Speziell auf klinischen Texten vortrainiert
  • Unterstützt lange Sequenzeingaben (bis zu 4.096 Token)
  • Fine-Tuning-Parameter: 2 Epochen, Lernrate 1e-5, Batch-Größe 8

Experimentelle Einrichtung

Datensatz

  • Quelle: Cincinnati Children's Hospital Medical Center
  • Umfang: 1,3 Millionen Patienten, 63 Millionen klinische Notizen
  • Zeitspanne: Januar 2009 – März 2022
  • Angststörungsfälle: 84.426 Fälle nach Filterungskriterien
  • Endgültige Daten: 73.288 Patienten, 7,81 Millionen Notizen

Altersgruppierungsstrategie

  • Unterteilung in 5 Altersgruppen: 5, 8, 10, 12, 15 Jahre
  • 3.700–5.064 Trainingsmuster pro Gruppe
  • 852–1.278 Testmuster pro Gruppe
  • 1:1 Fall-Kontroll-Matching (nach Alter und Geschlecht)

Datenvorbereitung

  • Deduplizierung: Notizen mit Kosinus-Ähnlichkeit ≥0,8
  • Auswahl der letzten 25 Notizen
  • Begrenzung der Eingabelänge auf 1.000 Token

Bewertungsmetriken

  • Genauigkeit (Accuracy)
  • Falsch-Negativ-Rate (FNR) – Hauptfokus-Metrik
  • Falsch-Positiv-Rate (FPR)
  • Ausgeglichene Fehlerrate (BER)
  • Prozentsatz unsicherer Vorhersagen (Wahrscheinlichkeit im Intervall 0,4, 0,6)

Experimentelle Ergebnisse

Hauptergebnisse

1. Systematische Geschlechtsverzerrung

MetrikMännlichWeiblichDifferenz
Genauigkeit–4%Weiblich niedriger
FNR+9%Weiblich höher
Unsichere Vorhersagen+5%Weiblich höher
NotizenlängeBaseline–500 WörterWeiblich kürzer

2. Textverteilungsunterschiede

  • Wortschatz-Ähnlichkeit: Jaccard-Index 0,54 (männlich vs. weiblich)
  • Terminverteilung: Jaccard-Index 0,34 (signifikante Unterschiede)
  • Niedrigste Ähnlichkeit: 5- und 15-Jahres-Gruppen (Jaccard 0,43)

3. Entverzerrungseffekte

Beste Methode (tf-idf_filt):

  • FNR-Lückenreduktion 0,024 (27% Verbesserung)
  • Bin 5: FNR-Lücke von 0,13 auf 0,02 reduziert
  • Bin 15: FNR-Lücke von 0,13 auf 0,07 reduziert
  • BER-Verhältnis von 1,33 auf 0,98 reduziert (Bin 10)

Ablationsstudien

MethodeFNR-VerbesserungLeistungserhaltUnsicherheitsreduktion
rnd_filtKeine konsistenten Effekte
tf-idf_filt–0,024–4%
gen_sub+0,008–3%
Kombinierte Methode–0,022–12%

Interpretabilitätsanalyse

Analyse von Wörtern, auf die sich das Modell stützt, mittels LIME:

  • Originalmodell: 10% der Fälle basieren auf Verzerrungswörtern
  • tf-idf_filt: Reduziert auf 3%
  • Kombinierte Methode: Häufigkeit von Verzerrungswörtern um 50% reduziert

Validierung über Rassen hinweg

  • Andere Rassengruppen zeigen durchschnittlich 0,05 höhere FNR
  • Kombinierte Methode reduziert FNR-Lücke um 0,034
  • Beweist die Universalität der Methode

Verwandte Arbeiten

Fairness im maschinellen Lernen

  • Vorverarbeitungstechniken: Resampling, Datenerweiterung
  • Algorithmusmodifikationen: Adversariale Entverzerrung, Zielmodifikation
  • Nachverarbeitungstechniken: Kalibrierung, Embedding-Transformation

NLP-Entverzerrungsmethoden

  • Attributaustausch: Austausch sensibel attributierter Wörter
  • Embedding-Entverzerrung: Entfernung von Geschlechtskomponenten aus Wort-Embeddings
  • Adversariales Training: Bestrafung von Vorhersagen, die von geschützten Attributen beeinflusst werden

Verzerrungen in medizinischer KI

  • Rassische Verzerrungen in kommerziellen Vorhersagealgorithmen
  • Gruppendifferenzen bei der Suizidrisikoprognose
  • Demografische Verzerrungen in pathologischen Modellen

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

  1. Verzerrungen sind weit verbreitet: KI-Modelle zur Angststörungserkennung bei Kindern zeigen systematische Unterdiagnose bei weiblichen Patienten
  2. Textunterschiede sind die Ursache: Signifikante Unterschiede in Informationsdichte und Sprachverteilung zwischen Notizen männlicher und weiblicher Patienten
  3. Datenzentrischer Ansatz ist wirksam: Signifikante Verzerrungsreduktion durch Informationsdichte-Ausgleich und Sprachneutralisierung
  4. Klinische Bedeutung: 27% Verzerrungsreduktion hat wichtige Auswirkungen auf die Verbesserung der Diagnose bei weiblichen Patienten

Einschränkungen

  1. Datenqualitätsabhängigkeit: Methodeneffektivität ist durch EHR-Textqualität und Konsistenz begrenzt
  2. Einzelne Verzerrungsart: Fokussiert nur auf Geschlechtsverzerrung, nicht auf andere demografische Merkmale
  3. Generalisierungsfähigkeit: Generalisierungsfähigkeit in verschiedenen klinischen Umgebungen bedarf weiterer Validierung
  4. Biologische Unterschiede: Schwierigkeit, biologische von soziokulturellen Unterschieden vollständig zu unterscheiden

Zukünftige Richtungen

  1. Erweiterung auf andere psychische Erkrankungen und Bevölkerungsgruppen
  2. Entwicklung verfeinerterer Verzerrungserkennungs- und Minderungstechniken
  3. Integration multimodaler Daten (Text + strukturierte Daten)
  4. Etablierung standardisierter Fairness-Bewertungsrahmen für medizinische KI

Tiefgreifende Bewertung

Stärken

  1. Problemwichtigkeit: Fokussiert auf den kritischen Bereich der pädiatrischen psychischen Gesundheit mit großer sozialer Bedeutung
  2. Methodische Innovation: Vorschlag eines speziellen datenzentrischen Entverzerrungsrahmens für medizinische Texte
  3. Experimentelle Gründlichkeit: Validierung mit großen echten klinischen Daten und mehrdimensionale Verzerrungsanalyse
  4. Praktischer Wert: Einfache und wirksame Methoden, leicht in klinischen Umgebungen einsetzbar
  5. Interpretierbarkeit: Verwendung von LIME und anderen Techniken für interpretierbare Modellentscheidungsanalyse

Mängel

  1. Theoretische Tiefe: Mangel an tiefgreifender theoretischer Analyse der Verzerrungsentstehungsmechanismen
  2. Methodische Einschränkungen: Relativ einfache Entverzerrungsmethoden mit möglicher Übergeneralisierung
  3. Einzelne Bewertung: Hauptfokus auf Klassifizierungsfairness, mangelnde Berücksichtigung anderer Fairness-Dimensionen wie Kalibrierung
  4. Langzeitauswirkungen: Keine Bewertung der Auswirkungen der Entverzerrung auf langfristige Modellleistung und Generalisierungsfähigkeit

Auswirkungen

  1. Akademischer Beitrag: Bietet wichtige Fallstudien und Methodenreferenzen für medizinische NLP-Verzerrungsforschung
  2. Praktischer Wert: Bietet konkrete Lösungen zur Verbesserung der Fairness in klinischen KI-Systemen
  3. Politische Bedeutung: Bietet technische Unterstützung für Regulierung und Standardsetzung medizinischer KI
  4. Reproduzierbarkeit: Detaillierte Methodenbeschreibung mit guter Reproduzierbarkeit

Anwendungsszenarien

  1. Klinische Entscheidungsunterstützung: Screening- und Diagnosehilfesysteme für psychische Gesundheit
  2. Verbesserung der Medizinqualität: Identifikation und Minderung von Verzerrungen in bestehenden medizinischen KI-Systemen
  3. Regulatorische Compliance: Erfüllung von Fairness- und Ethikanforderungen für medizinische KI
  4. Forschungsinstrument: Methodologische Grundlage für andere medizinische KI-Verzerrungsforschung

Referenzen

Diese Arbeit zitiert wichtige Literatur aus den Bereichen Fairness im maschinellen Lernen, NLP-Entverzerrung und medizinische KI, einschließlich:

  • Feldman et al. (2015) – Fairness-Messnormen
  • Bolukbasi et al. (2016) – Wort-Embedding-Entverzerrung
  • Obermeyer et al. (2019) – Rassische Verzerrungen in medizinischen Algorithmen
  • Ribeiro et al. (2016) – LIME-Interpretabilitätsmethode

Gesamtbewertung: Dies ist eine Forschungsarbeit von großem Wert im Bereich der Fairness medizinischer KI. Sie identifiziert nicht nur das Problem der Geschlechtsverzerrung in der KI für pädiatrische psychische Gesundheit, sondern bietet auch praktische Lösungen. Obwohl es Raum für Verbesserungen in theoretischer Tiefe und methodischer Komplexität gibt, machen der praktische Wert und die gesellschaftliche Bedeutung sie zu einem wichtigen Beitrag in diesem Bereich.