2025-11-16T13:49:12.700878

A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection

Ive, Bondaronek, Yadav et al.

Introduction: Healthcare AI models often inherit biases from their training data. While efforts have primarily targeted bias in structured data, mental health heavily depends on unstructured data. This study aims to detect and mitigate linguistic differences related to non-biological differences in the training data of AI models designed to assist in pediatric mental health screening. Our objectives are: (1) to assess the presence of bias by evaluating outcome parity across sex subgroups, (2) to identify bias sources through textual distribution analysis, and (3) to develop a de-biasing method for mental health text data. Methods: We examined classification parity across demographic groups and assessed how gendered language influences model predictions. A data-centric de-biasing method was applied, focusing on neutralizing biased terms while retaining salient clinical information. This methodology was tested on a model for automatic anxiety detection in pediatric patients. Results: Our findings revealed a systematic under-diagnosis of female adolescent patients, with a 4% lower accuracy and a 9% higher False Negative Rate (FNR) compared to male patients, likely due to disparities in information density and linguistic differences in patient notes. Notes for male patients were on average 500 words longer, and linguistic similarity metrics indicated distinct word distributions between genders. Implementing our de-biasing approach reduced diagnostic bias by up to 27%, demonstrating its effectiveness in enhancing equity across demographic groups. Discussion: We developed a data-centric de-biasing framework to address gender-based content disparities within clinical text. By neutralizing biased language and enhancing focus on clinically essential information, our approach demonstrates an effective strategy for mitigating bias in AI healthcare models trained on text.

academic

Ein datenzentrischer Ansatz zur Erkennung und Minderung demografischer Verzerrungen in pädiatrischen psychischen Gesundheitstexten: Eine Fallstudie zur Angststörungserkennung

Grundinformationen

Paper-ID: 2501.00129
Titel: A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection
Autoren: Julia Ive, Paulina Bondaronek, Vishal Yadav, Daniel Santel, Tracy Glauser, Tina Cheng, Jeffrey R. Strawn, Greeshma Agasthya, Jordan Tschida, Sanghyun Choo, Mayanka Chandrashekar, Anuj J. Kapadia, John Pestian
Klassifizierung: cs.CL cs.AI
Institutionen: University College London, Queen Mary University of London, Cincinnati Children's Hospital Medical Center, Oak Ridge National Laboratory u.a.
Papertyp: Forschungsarbeit

Zusammenfassung

Diese Studie befasst sich mit dem Problem demografischer Verzerrungen in KI-Modellen für die pädiatrische psychische Gesundheit und schlägt einen datenzentrischen Entverzerrungsansatz vor. Die Forschung zeigt, dass weibliche jugendliche Patienten systematisch unterdiagnostiziert werden, mit einer 4% niedrigeren Genauigkeit und einer 9% höheren Falsch-Negativ-Rate im Vergleich zu männlichen Patienten. Durch Informationsdichte-Filterung und geschlechtsneutrale Wortsubstitution konnte die Diagnoseverzerrung um 27% reduziert werden, was eine wirksame Lösung für die Fairness in der medizinischen KI bietet.

Forschungshintergrund und Motivation

Problemidentifikation

Universalität von KI-Verzerrungen: Medizinische KI-Modelle erben häufig Verzerrungen aus Trainingsdaten, die medizinische Ungerechtigkeit verschärfen können, besonders für Minderheitsgruppen
Besonderheiten der psychischen Gesundheit: Die psychische Gesundheit ist stark auf unstrukturierte Textdaten (klinische Notizen) angewiesen, während bestehende Entverzerrungsforschung hauptsächlich auf strukturierte Daten fokussiert
Krise der psychischen Gesundheit bei Kindern: Nach COVID-19 hat sich die Prävalenz von Angststörungen bei Kindern verdoppelt, besonders bei weiblichen Jugendlichen

Bedeutsamkeit

Komplexität und Herausforderungen bei der Früherkennung psychischer Erkrankungen bei Kindern
Enormes Potenzial der KI bei der Erweiterung der Diagnose psychischer Erkrankungen
Dringende Notwendigkeit, die faire und wirksame Anwendung von KI-Tools in verschiedenen Bevölkerungsgruppen zu gewährleisten

Einschränkungen bestehender Methoden

Traditionelle Entverzerrungstechniken (z.B. Wort-Embedding-Entverzerrung, adversariales Training) sind nicht auf den medizinischen Bereich anwendbar
Die Heterogenität medizinischer Daten (aus verschiedenen Gesundheitseinrichtungen) wurde nicht angemessen berücksichtigt
Mangel an speziellen Entverzerrungsrahmen für medizinische Texte

Kernbeiträge

Systematische Verzerrungserkennung: Erstmalige Identifikation und Quantifizierung von Geschlechtsverzerrungen bei der Angststörungserkennung bei Kindern, mit signifikant höheren Falsch-Negativ-Raten bei weiblichen Patienten
Datenzentrischer Entverzerrungsrahmen: Vorschlag spezialisierter Entverzerrungsmethoden für medizinische Texte, einschließlich Informationsdichte-Filterung und Geschlechtswort-Neutralisierung
Wirksamkeitsvalidierung: Validierung der Methode an echten klinischen Daten mit Reduktion der Diagnoseverzerrung um bis zu 27%
Interpretabilitätsanalyse: Verwendung von LIME-Technologie zur Analyse von Wörtern, auf die sich Modelentscheidungen stützen, zur Offenlegung von Verzerrungsquellen

Methodische Details

Aufgabendefinition

Eingabe: Sequenz klinischer Notizen von pädiatrischen Patienten Ausgabe: Binäre Klassifizierungsvorhersage (Angststörung/keine Angststörung) Ziel: Reduktion von Leistungsunterschieden zwischen verschiedenen Geschlechtsgruppen bei Beibehaltung der Vorhersagegenauigkeit

Verzerrungserkennungsrahmen

1. Bewertung der Klassifizierungsfairness

Bewertung von Modellverzerrungen mit mehreren Metriken:

Ausgeglichene Fehlerrate (BER): $BER = \frac{(\frac{FP}{FP+TN}) + (\frac{FN}{FN+TP})}{2}$
Falsch-Negativ-Rate (FNR): Messung der Fehldiagnose-Rate
Falsch-Positiv-Rate (FPR): Messung der Überdiagnose-Rate
BER-Verhältnis: Verhältnis der BER der benachteiligten Gruppe zur privilegierten Gruppe, >1,25 zeigt signifikante Verzerrung an

2. Textverteilungsanalyse

Analyse von Unterschieden in Textmerkmalen zwischen verschiedenen Bevölkerungsgruppen:

Durchschnittliche Notizenlänge
Prozentsatz medizinischer Fachbegriffe
Prozentsatz geschlechtsspezifischer Vokabeln
Jaccard-Distanz und Vertrautheitswerte

Entverzerrungsmethoden

1. Informationsdichte-Filterung (tf-idf_filt)

Berechnung der Satzwichtigkeit mittels TF-IDF-Scores
Entfernung der 20% informationsärmsten Sätze
Ausgleich der Informationsdichte zwischen verschiedenen Gruppen

2. Geschlechtswort-Entverzerrung (gen_sub)

Automatische Erkennung geschlechtsspezifischer Wörter wie Namen und Pronomen
Verwendung des Stanza-Tools zur Extraktion von Eigennamen
Ersetzung geschlechtsspezifischer Wörter durch neutrale Alternativen
- Namen → "person1", "person2" usw.
- Pronomen → "he/she" → "they"

3. Kombinierte Methode (tf-idf_filt+gen_sub)

Kombination von Informationsdichte-Filterung und Geschlechtswort-Substitution zur Nutzung von Synergieeffekten

Modellarchitektur

Transformer-Modell basierend auf Clinical-BigBird
Speziell auf klinischen Texten vortrainiert
Unterstützt lange Sequenzeingaben (bis zu 4.096 Token)
Fine-Tuning-Parameter: 2 Epochen, Lernrate 1e-5, Batch-Größe 8

Experimentelle Einrichtung

Datensatz

Quelle: Cincinnati Children's Hospital Medical Center
Umfang: 1,3 Millionen Patienten, 63 Millionen klinische Notizen
Zeitspanne: Januar 2009 – März 2022
Angststörungsfälle: 84.426 Fälle nach Filterungskriterien
Endgültige Daten: 73.288 Patienten, 7,81 Millionen Notizen

Altersgruppierungsstrategie

Unterteilung in 5 Altersgruppen: 5, 8, 10, 12, 15 Jahre
3.700–5.064 Trainingsmuster pro Gruppe
852–1.278 Testmuster pro Gruppe
1:1 Fall-Kontroll-Matching (nach Alter und Geschlecht)

Datenvorbereitung

Deduplizierung: Notizen mit Kosinus-Ähnlichkeit ≥0,8
Auswahl der letzten 25 Notizen
Begrenzung der Eingabelänge auf 1.000 Token

Bewertungsmetriken

Genauigkeit (Accuracy)
Falsch-Negativ-Rate (FNR) – Hauptfokus-Metrik
Falsch-Positiv-Rate (FPR)
Ausgeglichene Fehlerrate (BER)
Prozentsatz unsicherer Vorhersagen (Wahrscheinlichkeit im Intervall 0,4, 0,6)

Experimentelle Ergebnisse

Hauptergebnisse

1. Systematische Geschlechtsverzerrung

Metrik	Männlich	Weiblich	Differenz
Genauigkeit	–	–4%	Weiblich niedriger
FNR	–	+9%	Weiblich höher
Unsichere Vorhersagen	–	+5%	Weiblich höher
Notizenlänge	Baseline	–500 Wörter	Weiblich kürzer

2. Textverteilungsunterschiede

Wortschatz-Ähnlichkeit: Jaccard-Index 0,54 (männlich vs. weiblich)
Terminverteilung: Jaccard-Index 0,34 (signifikante Unterschiede)
Niedrigste Ähnlichkeit: 5- und 15-Jahres-Gruppen (Jaccard 0,43)

3. Entverzerrungseffekte

Beste Methode (tf-idf_filt):

FNR-Lückenreduktion 0,024 (27% Verbesserung)
Bin 5: FNR-Lücke von 0,13 auf 0,02 reduziert
Bin 15: FNR-Lücke von 0,13 auf 0,07 reduziert
BER-Verhältnis von 1,33 auf 0,98 reduziert (Bin 10)

Ablationsstudien

Methode	FNR-Verbesserung	Leistungserhalt	Unsicherheitsreduktion
rnd_filt	Keine konsistenten Effekte	✓	–
tf-idf_filt	–0,024	✓	–4%
gen_sub	+0,008	✓	–3%
Kombinierte Methode	–0,022	✓	–12%

Interpretabilitätsanalyse

Analyse von Wörtern, auf die sich das Modell stützt, mittels LIME:

Originalmodell: 10% der Fälle basieren auf Verzerrungswörtern
tf-idf_filt: Reduziert auf 3%
Kombinierte Methode: Häufigkeit von Verzerrungswörtern um 50% reduziert

Validierung über Rassen hinweg

Andere Rassengruppen zeigen durchschnittlich 0,05 höhere FNR
Kombinierte Methode reduziert FNR-Lücke um 0,034
Beweist die Universalität der Methode

Schlussfolgerungen und Diskussion

Hauptschlussfolgerungen

Verzerrungen sind weit verbreitet: KI-Modelle zur Angststörungserkennung bei Kindern zeigen systematische Unterdiagnose bei weiblichen Patienten
Textunterschiede sind die Ursache: Signifikante Unterschiede in Informationsdichte und Sprachverteilung zwischen Notizen männlicher und weiblicher Patienten
Datenzentrischer Ansatz ist wirksam: Signifikante Verzerrungsreduktion durch Informationsdichte-Ausgleich und Sprachneutralisierung
Klinische Bedeutung: 27% Verzerrungsreduktion hat wichtige Auswirkungen auf die Verbesserung der Diagnose bei weiblichen Patienten

Einschränkungen

Datenqualitätsabhängigkeit: Methodeneffektivität ist durch EHR-Textqualität und Konsistenz begrenzt
Einzelne Verzerrungsart: Fokussiert nur auf Geschlechtsverzerrung, nicht auf andere demografische Merkmale
Generalisierungsfähigkeit: Generalisierungsfähigkeit in verschiedenen klinischen Umgebungen bedarf weiterer Validierung
Biologische Unterschiede: Schwierigkeit, biologische von soziokulturellen Unterschieden vollständig zu unterscheiden

Zukünftige Richtungen

Erweiterung auf andere psychische Erkrankungen und Bevölkerungsgruppen
Entwicklung verfeinerterer Verzerrungserkennungs- und Minderungstechniken
Integration multimodaler Daten (Text + strukturierte Daten)
Etablierung standardisierter Fairness-Bewertungsrahmen für medizinische KI

Tiefgreifende Bewertung

Stärken

Problemwichtigkeit: Fokussiert auf den kritischen Bereich der pädiatrischen psychischen Gesundheit mit großer sozialer Bedeutung
Methodische Innovation: Vorschlag eines speziellen datenzentrischen Entverzerrungsrahmens für medizinische Texte
Experimentelle Gründlichkeit: Validierung mit großen echten klinischen Daten und mehrdimensionale Verzerrungsanalyse
Praktischer Wert: Einfache und wirksame Methoden, leicht in klinischen Umgebungen einsetzbar
Interpretierbarkeit: Verwendung von LIME und anderen Techniken für interpretierbare Modellentscheidungsanalyse

Mängel

Theoretische Tiefe: Mangel an tiefgreifender theoretischer Analyse der Verzerrungsentstehungsmechanismen
Methodische Einschränkungen: Relativ einfache Entverzerrungsmethoden mit möglicher Übergeneralisierung
Einzelne Bewertung: Hauptfokus auf Klassifizierungsfairness, mangelnde Berücksichtigung anderer Fairness-Dimensionen wie Kalibrierung
Langzeitauswirkungen: Keine Bewertung der Auswirkungen der Entverzerrung auf langfristige Modellleistung und Generalisierungsfähigkeit

Auswirkungen

Akademischer Beitrag: Bietet wichtige Fallstudien und Methodenreferenzen für medizinische NLP-Verzerrungsforschung
Praktischer Wert: Bietet konkrete Lösungen zur Verbesserung der Fairness in klinischen KI-Systemen
Politische Bedeutung: Bietet technische Unterstützung für Regulierung und Standardsetzung medizinischer KI
Reproduzierbarkeit: Detaillierte Methodenbeschreibung mit guter Reproduzierbarkeit

Anwendungsszenarien

Klinische Entscheidungsunterstützung: Screening- und Diagnosehilfesysteme für psychische Gesundheit
Verbesserung der Medizinqualität: Identifikation und Minderung von Verzerrungen in bestehenden medizinischen KI-Systemen
Regulatorische Compliance: Erfüllung von Fairness- und Ethikanforderungen für medizinische KI
Forschungsinstrument: Methodologische Grundlage für andere medizinische KI-Verzerrungsforschung

Referenzen

Diese Arbeit zitiert wichtige Literatur aus den Bereichen Fairness im maschinellen Lernen, NLP-Entverzerrung und medizinische KI, einschließlich:

Feldman et al. (2015) – Fairness-Messnormen
Bolukbasi et al. (2016) – Wort-Embedding-Entverzerrung
Obermeyer et al. (2019) – Rassische Verzerrungen in medizinischen Algorithmen
Ribeiro et al. (2016) – LIME-Interpretabilitätsmethode

Gesamtbewertung: Dies ist eine Forschungsarbeit von großem Wert im Bereich der Fairness medizinischer KI. Sie identifiziert nicht nur das Problem der Geschlechtsverzerrung in der KI für pädiatrische psychische Gesundheit, sondern bietet auch praktische Lösungen. Obwohl es Raum für Verbesserungen in theoretischer Tiefe und methodischer Komplexität gibt, machen der praktische Wert und die gesellschaftliche Bedeutung sie zu einem wichtigen Beitrag in diesem Bereich.