Introduction: Healthcare AI models often inherit biases from their training data. While efforts have primarily targeted bias in structured data, mental health heavily depends on unstructured data. This study aims to detect and mitigate linguistic differences related to non-biological differences in the training data of AI models designed to assist in pediatric mental health screening. Our objectives are: (1) to assess the presence of bias by evaluating outcome parity across sex subgroups, (2) to identify bias sources through textual distribution analysis, and (3) to develop a de-biasing method for mental health text data. Methods: We examined classification parity across demographic groups and assessed how gendered language influences model predictions. A data-centric de-biasing method was applied, focusing on neutralizing biased terms while retaining salient clinical information. This methodology was tested on a model for automatic anxiety detection in pediatric patients. Results: Our findings revealed a systematic under-diagnosis of female adolescent patients, with a 4% lower accuracy and a 9% higher False Negative Rate (FNR) compared to male patients, likely due to disparities in information density and linguistic differences in patient notes. Notes for male patients were on average 500 words longer, and linguistic similarity metrics indicated distinct word distributions between genders. Implementing our de-biasing approach reduced diagnostic bias by up to 27%, demonstrating its effectiveness in enhancing equity across demographic groups. Discussion: We developed a data-centric de-biasing framework to address gender-based content disparities within clinical text. By neutralizing biased language and enhancing focus on clinically essential information, our approach demonstrates an effective strategy for mitigating bias in AI healthcare models trained on text.
- Paper-ID: 2501.00129
- Titel: A Data-Centric Approach to Detecting and Mitigating Demographic Bias in Pediatric Mental Health Text: A Case Study in Anxiety Detection
- Autoren: Julia Ive, Paulina Bondaronek, Vishal Yadav, Daniel Santel, Tracy Glauser, Tina Cheng, Jeffrey R. Strawn, Greeshma Agasthya, Jordan Tschida, Sanghyun Choo, Mayanka Chandrashekar, Anuj J. Kapadia, John Pestian
- Klassifizierung: cs.CL cs.AI
- Institutionen: University College London, Queen Mary University of London, Cincinnati Children's Hospital Medical Center, Oak Ridge National Laboratory u.a.
- Papertyp: Forschungsarbeit
Diese Studie befasst sich mit dem Problem demografischer Verzerrungen in KI-Modellen für die pädiatrische psychische Gesundheit und schlägt einen datenzentrischen Entverzerrungsansatz vor. Die Forschung zeigt, dass weibliche jugendliche Patienten systematisch unterdiagnostiziert werden, mit einer 4% niedrigeren Genauigkeit und einer 9% höheren Falsch-Negativ-Rate im Vergleich zu männlichen Patienten. Durch Informationsdichte-Filterung und geschlechtsneutrale Wortsubstitution konnte die Diagnoseverzerrung um 27% reduziert werden, was eine wirksame Lösung für die Fairness in der medizinischen KI bietet.
- Universalität von KI-Verzerrungen: Medizinische KI-Modelle erben häufig Verzerrungen aus Trainingsdaten, die medizinische Ungerechtigkeit verschärfen können, besonders für Minderheitsgruppen
- Besonderheiten der psychischen Gesundheit: Die psychische Gesundheit ist stark auf unstrukturierte Textdaten (klinische Notizen) angewiesen, während bestehende Entverzerrungsforschung hauptsächlich auf strukturierte Daten fokussiert
- Krise der psychischen Gesundheit bei Kindern: Nach COVID-19 hat sich die Prävalenz von Angststörungen bei Kindern verdoppelt, besonders bei weiblichen Jugendlichen
- Komplexität und Herausforderungen bei der Früherkennung psychischer Erkrankungen bei Kindern
- Enormes Potenzial der KI bei der Erweiterung der Diagnose psychischer Erkrankungen
- Dringende Notwendigkeit, die faire und wirksame Anwendung von KI-Tools in verschiedenen Bevölkerungsgruppen zu gewährleisten
- Traditionelle Entverzerrungstechniken (z.B. Wort-Embedding-Entverzerrung, adversariales Training) sind nicht auf den medizinischen Bereich anwendbar
- Die Heterogenität medizinischer Daten (aus verschiedenen Gesundheitseinrichtungen) wurde nicht angemessen berücksichtigt
- Mangel an speziellen Entverzerrungsrahmen für medizinische Texte
- Systematische Verzerrungserkennung: Erstmalige Identifikation und Quantifizierung von Geschlechtsverzerrungen bei der Angststörungserkennung bei Kindern, mit signifikant höheren Falsch-Negativ-Raten bei weiblichen Patienten
- Datenzentrischer Entverzerrungsrahmen: Vorschlag spezialisierter Entverzerrungsmethoden für medizinische Texte, einschließlich Informationsdichte-Filterung und Geschlechtswort-Neutralisierung
- Wirksamkeitsvalidierung: Validierung der Methode an echten klinischen Daten mit Reduktion der Diagnoseverzerrung um bis zu 27%
- Interpretabilitätsanalyse: Verwendung von LIME-Technologie zur Analyse von Wörtern, auf die sich Modelentscheidungen stützen, zur Offenlegung von Verzerrungsquellen
Eingabe: Sequenz klinischer Notizen von pädiatrischen Patienten
Ausgabe: Binäre Klassifizierungsvorhersage (Angststörung/keine Angststörung)
Ziel: Reduktion von Leistungsunterschieden zwischen verschiedenen Geschlechtsgruppen bei Beibehaltung der Vorhersagegenauigkeit
Bewertung von Modellverzerrungen mit mehreren Metriken:
- Ausgeglichene Fehlerrate (BER):
BER=2(FP+TNFP)+(FN+TPFN)
- Falsch-Negativ-Rate (FNR): Messung der Fehldiagnose-Rate
- Falsch-Positiv-Rate (FPR): Messung der Überdiagnose-Rate
- BER-Verhältnis: Verhältnis der BER der benachteiligten Gruppe zur privilegierten Gruppe, >1,25 zeigt signifikante Verzerrung an
Analyse von Unterschieden in Textmerkmalen zwischen verschiedenen Bevölkerungsgruppen:
- Durchschnittliche Notizenlänge
- Prozentsatz medizinischer Fachbegriffe
- Prozentsatz geschlechtsspezifischer Vokabeln
- Jaccard-Distanz und Vertrautheitswerte
- Berechnung der Satzwichtigkeit mittels TF-IDF-Scores
- Entfernung der 20% informationsärmsten Sätze
- Ausgleich der Informationsdichte zwischen verschiedenen Gruppen
- Automatische Erkennung geschlechtsspezifischer Wörter wie Namen und Pronomen
- Verwendung des Stanza-Tools zur Extraktion von Eigennamen
- Ersetzung geschlechtsspezifischer Wörter durch neutrale Alternativen
- Namen → "person1", "person2" usw.
- Pronomen → "he/she" → "they"
Kombination von Informationsdichte-Filterung und Geschlechtswort-Substitution zur Nutzung von Synergieeffekten
- Transformer-Modell basierend auf Clinical-BigBird
- Speziell auf klinischen Texten vortrainiert
- Unterstützt lange Sequenzeingaben (bis zu 4.096 Token)
- Fine-Tuning-Parameter: 2 Epochen, Lernrate 1e-5, Batch-Größe 8
- Quelle: Cincinnati Children's Hospital Medical Center
- Umfang: 1,3 Millionen Patienten, 63 Millionen klinische Notizen
- Zeitspanne: Januar 2009 – März 2022
- Angststörungsfälle: 84.426 Fälle nach Filterungskriterien
- Endgültige Daten: 73.288 Patienten, 7,81 Millionen Notizen
- Unterteilung in 5 Altersgruppen: 5, 8, 10, 12, 15 Jahre
- 3.700–5.064 Trainingsmuster pro Gruppe
- 852–1.278 Testmuster pro Gruppe
- 1:1 Fall-Kontroll-Matching (nach Alter und Geschlecht)
- Deduplizierung: Notizen mit Kosinus-Ähnlichkeit ≥0,8
- Auswahl der letzten 25 Notizen
- Begrenzung der Eingabelänge auf 1.000 Token
- Genauigkeit (Accuracy)
- Falsch-Negativ-Rate (FNR) – Hauptfokus-Metrik
- Falsch-Positiv-Rate (FPR)
- Ausgeglichene Fehlerrate (BER)
- Prozentsatz unsicherer Vorhersagen (Wahrscheinlichkeit im Intervall 0,4, 0,6)
| Metrik | Männlich | Weiblich | Differenz |
|---|
| Genauigkeit | – | –4% | Weiblich niedriger |
| FNR | – | +9% | Weiblich höher |
| Unsichere Vorhersagen | – | +5% | Weiblich höher |
| Notizenlänge | Baseline | –500 Wörter | Weiblich kürzer |
- Wortschatz-Ähnlichkeit: Jaccard-Index 0,54 (männlich vs. weiblich)
- Terminverteilung: Jaccard-Index 0,34 (signifikante Unterschiede)
- Niedrigste Ähnlichkeit: 5- und 15-Jahres-Gruppen (Jaccard 0,43)
Beste Methode (tf-idf_filt):
- FNR-Lückenreduktion 0,024 (27% Verbesserung)
- Bin 5: FNR-Lücke von 0,13 auf 0,02 reduziert
- Bin 15: FNR-Lücke von 0,13 auf 0,07 reduziert
- BER-Verhältnis von 1,33 auf 0,98 reduziert (Bin 10)
| Methode | FNR-Verbesserung | Leistungserhalt | Unsicherheitsreduktion |
|---|
| rnd_filt | Keine konsistenten Effekte | ✓ | – |
| tf-idf_filt | –0,024 | ✓ | –4% |
| gen_sub | +0,008 | ✓ | –3% |
| Kombinierte Methode | –0,022 | ✓ | –12% |
Analyse von Wörtern, auf die sich das Modell stützt, mittels LIME:
- Originalmodell: 10% der Fälle basieren auf Verzerrungswörtern
- tf-idf_filt: Reduziert auf 3%
- Kombinierte Methode: Häufigkeit von Verzerrungswörtern um 50% reduziert
- Andere Rassengruppen zeigen durchschnittlich 0,05 höhere FNR
- Kombinierte Methode reduziert FNR-Lücke um 0,034
- Beweist die Universalität der Methode
- Vorverarbeitungstechniken: Resampling, Datenerweiterung
- Algorithmusmodifikationen: Adversariale Entverzerrung, Zielmodifikation
- Nachverarbeitungstechniken: Kalibrierung, Embedding-Transformation
- Attributaustausch: Austausch sensibel attributierter Wörter
- Embedding-Entverzerrung: Entfernung von Geschlechtskomponenten aus Wort-Embeddings
- Adversariales Training: Bestrafung von Vorhersagen, die von geschützten Attributen beeinflusst werden
- Rassische Verzerrungen in kommerziellen Vorhersagealgorithmen
- Gruppendifferenzen bei der Suizidrisikoprognose
- Demografische Verzerrungen in pathologischen Modellen
- Verzerrungen sind weit verbreitet: KI-Modelle zur Angststörungserkennung bei Kindern zeigen systematische Unterdiagnose bei weiblichen Patienten
- Textunterschiede sind die Ursache: Signifikante Unterschiede in Informationsdichte und Sprachverteilung zwischen Notizen männlicher und weiblicher Patienten
- Datenzentrischer Ansatz ist wirksam: Signifikante Verzerrungsreduktion durch Informationsdichte-Ausgleich und Sprachneutralisierung
- Klinische Bedeutung: 27% Verzerrungsreduktion hat wichtige Auswirkungen auf die Verbesserung der Diagnose bei weiblichen Patienten
- Datenqualitätsabhängigkeit: Methodeneffektivität ist durch EHR-Textqualität und Konsistenz begrenzt
- Einzelne Verzerrungsart: Fokussiert nur auf Geschlechtsverzerrung, nicht auf andere demografische Merkmale
- Generalisierungsfähigkeit: Generalisierungsfähigkeit in verschiedenen klinischen Umgebungen bedarf weiterer Validierung
- Biologische Unterschiede: Schwierigkeit, biologische von soziokulturellen Unterschieden vollständig zu unterscheiden
- Erweiterung auf andere psychische Erkrankungen und Bevölkerungsgruppen
- Entwicklung verfeinerterer Verzerrungserkennungs- und Minderungstechniken
- Integration multimodaler Daten (Text + strukturierte Daten)
- Etablierung standardisierter Fairness-Bewertungsrahmen für medizinische KI
- Problemwichtigkeit: Fokussiert auf den kritischen Bereich der pädiatrischen psychischen Gesundheit mit großer sozialer Bedeutung
- Methodische Innovation: Vorschlag eines speziellen datenzentrischen Entverzerrungsrahmens für medizinische Texte
- Experimentelle Gründlichkeit: Validierung mit großen echten klinischen Daten und mehrdimensionale Verzerrungsanalyse
- Praktischer Wert: Einfache und wirksame Methoden, leicht in klinischen Umgebungen einsetzbar
- Interpretierbarkeit: Verwendung von LIME und anderen Techniken für interpretierbare Modellentscheidungsanalyse
- Theoretische Tiefe: Mangel an tiefgreifender theoretischer Analyse der Verzerrungsentstehungsmechanismen
- Methodische Einschränkungen: Relativ einfache Entverzerrungsmethoden mit möglicher Übergeneralisierung
- Einzelne Bewertung: Hauptfokus auf Klassifizierungsfairness, mangelnde Berücksichtigung anderer Fairness-Dimensionen wie Kalibrierung
- Langzeitauswirkungen: Keine Bewertung der Auswirkungen der Entverzerrung auf langfristige Modellleistung und Generalisierungsfähigkeit
- Akademischer Beitrag: Bietet wichtige Fallstudien und Methodenreferenzen für medizinische NLP-Verzerrungsforschung
- Praktischer Wert: Bietet konkrete Lösungen zur Verbesserung der Fairness in klinischen KI-Systemen
- Politische Bedeutung: Bietet technische Unterstützung für Regulierung und Standardsetzung medizinischer KI
- Reproduzierbarkeit: Detaillierte Methodenbeschreibung mit guter Reproduzierbarkeit
- Klinische Entscheidungsunterstützung: Screening- und Diagnosehilfesysteme für psychische Gesundheit
- Verbesserung der Medizinqualität: Identifikation und Minderung von Verzerrungen in bestehenden medizinischen KI-Systemen
- Regulatorische Compliance: Erfüllung von Fairness- und Ethikanforderungen für medizinische KI
- Forschungsinstrument: Methodologische Grundlage für andere medizinische KI-Verzerrungsforschung
Diese Arbeit zitiert wichtige Literatur aus den Bereichen Fairness im maschinellen Lernen, NLP-Entverzerrung und medizinische KI, einschließlich:
- Feldman et al. (2015) – Fairness-Messnormen
- Bolukbasi et al. (2016) – Wort-Embedding-Entverzerrung
- Obermeyer et al. (2019) – Rassische Verzerrungen in medizinischen Algorithmen
- Ribeiro et al. (2016) – LIME-Interpretabilitätsmethode
Gesamtbewertung: Dies ist eine Forschungsarbeit von großem Wert im Bereich der Fairness medizinischer KI. Sie identifiziert nicht nur das Problem der Geschlechtsverzerrung in der KI für pädiatrische psychische Gesundheit, sondern bietet auch praktische Lösungen. Obwohl es Raum für Verbesserungen in theoretischer Tiefe und methodischer Komplexität gibt, machen der praktische Wert und die gesellschaftliche Bedeutung sie zu einem wichtigen Beitrag in diesem Bereich.