2025-11-16T17:58:12.985277

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Kondrup, Imouza
With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.
academic

Dr. Bias : Disparités sociales dans les conseils médicaux alimentés par l'IA

Informations de base

  • ID de l'article : 2510.09162
  • Titre : Dr. Bias: Social Disparities in AI-Powered Medical Guidance
  • Auteurs : Emma Kondrup (Mila - Quebec AI Institute), Anne Imouza (McGill University)
  • Classification : cs.AI cs.CY
  • Date de publication/Conférence : Accepté au Symposium on Model Accountability, Sustainability and Healthcare 2025
  • Lien de l'article : https://arxiv.org/abs/2510.09162

Résumé

Avec le développement rapide des grands modèles de langage (LLMs), le public peut désormais accéder facilement et économiquement à des applications capables de répondre de manière personnalisée à la plupart des questions liées à la santé. Ces LLMs deviennent progressivement compétitifs dans certaines capacités médicales, surpassant même les professionnels, particulièrement prometteurs dans les environnements aux ressources limitées. Cependant, les évaluations soutenant ces motivations manquent gravement de perspicacité sur la nature sociale des soins de santé, ignorant les disparités de santé entre les groupes sociaux et comment les biais se traduisent dans les conseils médicaux générés par les LLMs et affectent les utilisateurs. Cette étude mène une analyse exploratoire des réponses à des questions médicales par les LLMs dans des domaines cliniques critiques, simulant des questions posées par des profils de patients de différents sexes, âges et origines raciales. En comparant les caractéristiques du langage naturel des réponses générées, l'étude révèle que les LLMs produisent des disparités systématiques lors de la génération de conseils médicaux pour différents groupes sociaux, en particulier les patients autochtones et non-binaires reçoivent des conseils avec une lisibilité inférieure et une plus grande complexité.

Contexte et motivation de la recherche

Définition du problème

La question centrale que cette recherche vise à résoudre est : Les grands modèles de langage présentent-ils des biais sociaux systématiques lors de la fourniture de conseils médicaux, et comment ces biais affectent-ils la qualité des informations médicales reçues par différents groupes de population ?

Importance

  1. Équité sociale : Avec l'application généralisée des LLMs dans les consultations médicales, il est crucial de garantir que tous les groupes de population aient accès à des informations médicales équitables et de haute qualité
  2. Disparités de santé : Les disparités de santé existantes dans la réalité pourraient être amplifiées par les systèmes d'IA
  3. Confiance croissante : La confiance croissante du public envers les conseils médicaux basés sur l'IA rend le problème des biais plus urgent

Limitations des approches existantes

  1. Manque d'analyse de la dimension sociale : Les évaluations existantes des applications médicales des LLMs se concentrent principalement sur la performance technique, ignorant l'équité sociale
  2. Recherche insuffisante sur les identités intersectionnelles : Manque d'analyse approfondie des groupes à identités intersectionnelles (par exemple, les personnes autochtones non-binaires)
  3. Absence de détection des biais systématiques : Manque de méthodes systématiques pour détecter et quantifier les biais dans les conseils médicaux

Contributions principales

  1. Développement d'un cadre de détection des biais systématiques : Construction d'un pipeline expérimental « Dr. Bias » capable de détecter systématiquement les biais sociaux dans les conseils médicaux générés par les LLMs
  2. Révélation de disparités de groupe significatives : Découverte que les groupes autochtones et non-binaires reçoivent des conseils médicaux présentant des désavantages significatifs en termes de lisibilité et de complexité
  3. Démonstration des effets d'identités intersectionnelles : Première démonstration systématique que les biais auxquels font face les groupes à identités intersectionnelles sont significativement amplifiés
  4. Fourniture d'un cadre d'analyse multidimensionnel : Analyse des biais selon plusieurs dimensions incluant la lisibilité, l'analyse des sentiments, le degré d'urgence médicale, etc.
  5. Mise à disposition d'outils de recherche en open source : Publication du code expérimental complet et des données sur GitHub

Explication détaillée de la méthode

Définition de la tâche

Entrée : Profils de patients avec différentes caractéristiques démographiques + questions liées à la santé Sortie : Conseils médicaux générés par les LLMs Objectif : Détecter et quantifier les disparités systématiques dans la qualité des conseils médicaux entre différents groupes

Architecture de conception expérimentale

L'étude adopte un pipeline de génération en deux étapes :

Première étape : Génération de questions

  • Modèle : Llama-3-8B-Instruct
  • Construction des profils de patients :
    • Groupes d'âge : enfants, adolescents, adultes, personnes âgées (4 catégories)
    • Sexe : masculin, féminin, non-binaire (3 catégories)
    • Origine raciale : 7 groupes raciaux principaux basés sur la classification du Bureau du Recensement américain
      • Amérindiens ou Autochtones de l'Alaska (AIAN)
      • Asiatiques (A)
      • Noirs ou Afro-Américains (BAA)
      • Hispaniques ou Latinos (HL)
      • Moyen-Orientaux ou Nord-Africains (MENA)
      • Autochtones hawaïens ou Insulaires du Pacifique (NHPI)
      • Blancs ou Américains d'origine européenne (WEA)
  • Total : 84 profils de patients (4×3×7)
  • Catégories de questions : Peau, système respiratoire, cœur, santé mentale, médecine générale (5 catégories)
  • Stratégie de génération : 500 questions générées par profil (100 par catégorie), utilisant une température de 1,5 pour augmenter la diversité

Deuxième étape : Génération de conseils médicaux

  • Volume total de données : 42 000 conseils médicaux
  • Format d'entrée : Description du profil du patient + question médicale
  • Dimensions d'analyse : Lisibilité, analyse des sentiments, degré d'urgence médicale

Points d'innovation technique

  1. Analyse intersectionnelle : Première analyse systématique croisant trois dimensions : sexe, origine raciale et âge
  2. Indicateurs d'évaluation multidimensionnels :
    • Score de lisibilité Flesch
    • Niveau scolaire Flesch-Kincaid
    • Longueur du conseil
    • Polarité émotionnelle et subjectivité
    • Évaluation du degré d'urgence médicale
  3. Stratégie d'échantillonnage stratifié : Intégration de la diversité des tonalités émotionnelles et des types de requêtes dans la génération de questions
  4. Rigueur statistique : Tous les résultats rapportent des intervalles de confiance à 95 %, avec uniquement les résultats statistiquement significatifs (p<0,05) rapportés

Configuration expérimentale

Ensemble de données

  • Échelle : 42 000 conseils médicaux générés par les LLMs
  • Couverture : 84 profils démographiques × 5 catégories médicales × 100 questions/catégorie
  • Contrôle de qualité : Utilisation de paramètres de température et de modèles de requêtes diversifiés pour assurer l'authenticité

Indicateurs d'évaluation

Indicateurs de lisibilité

  • Score de lisibilité Flesch : Un score plus élevé indique un texte plus facile à lire
  • Niveau scolaire Flesch-Kincaid : Indique le niveau d'éducation requis pour comprendre le texte
  • Longueur du conseil : Nombre de mots du texte

Indicateurs d'analyse des sentiments

  • Polarité émotionnelle : Tendance émotionnelle positive/négative
  • Subjectivité : Degré d'opinion par rapport aux faits
  • Émotions spécifiques : Niveaux de joie, colère, tension

Indicateurs spécifiques à la médecine

  • Degré d'urgence médicale : Niveau d'urgence reflété dans le conseil
  • Mention de sujets liés à la mort : Inclusion ou non de contenu lié à la mort

Méthodes d'analyse statistique

  • Test de significativité : valeur p < 0,05
  • Intervalle de confiance : Intervalle de confiance à 95 %
  • Analyse de l'ampleur de l'effet : Calcul des différences de moyennes entre groupes

Résultats expérimentaux

Résultats principaux

Disparités selon la dimension du sexe

  • Désavantage significatif des personnes non-binaires :
    • Score de lisibilité Flesch : -3,53 (vs 4,815 pour les femmes, 5,873 pour les hommes)
    • Niveau scolaire : 24,64 (vs 22,68 pour les femmes, 22,52 pour les hommes)
    • Conseils plus longs, plus complexes, plus difficiles à comprendre

Disparités selon la dimension raciale

  • Désavantage systématique des groupes autochtones :
    • Le groupe AIAN présente le score de lisibilité Flesch le plus bas dans toutes les catégories médicales
    • Dans les conseils de santé mentale, le score du groupe AIAN descend à -8,7296
    • Les groupes NHPI et BAA font face à des problèmes similaires
  • Groupes avantagés :
    • Les groupes WEA et A reçoivent systématiquement les conseils les plus concis et lisibles
    • Les groupes HL et MENA affichent des performances intermédiaires

Disparités selon les catégories médicales

Des modèles de disparités de groupe cohérents sont observés dans toutes les catégories médicales, avec des différences particulièrement marquées dans la catégorie santé mentale.

Disparités du degré d'urgence médicale

  • Groupe NHPI : Systématiquement sous-évalué dans l'évaluation du degré d'urgence médicale
  • Paire avec la plus grande différence : WEA-NHPI (Δ=0,0041), A-NHPI (Δ=0,0034)

Effets d'identités intersectionnelles

Découverte clé : L'analyse intersectionnelle révèle une amplification significative des effets des biais

  • Effet multiplicateur : Les disparités des groupes à identités intersectionnelles sont environ 2 fois plus importantes que celles des identités simples
  • Groupes les plus désavantagés : Personnes autochtones non-binaires, personnes noires non-binaires reçoivent les conseils les plus complexes
  • Groupes les plus avantagés : Hommes/femmes blancs ou asiatiques reçoivent les conseils les plus concis et compréhensibles

Significativité statistique

Toutes les disparités rapportées atteignent un niveau de significativité statistique (p<0,05) avec des intervalles de confiance à 95 %.

Travaux connexes

Principales directions de recherche

  1. Recherche sur les biais des LLMs en médecine : Zack et al. (2024) ont découvert les stéréotypes raciaux et sexistes de GPT-4 dans le soutien aux décisions cliniques
  2. Biais d'IA intersectionnels : Travail fondateur de Buolamwini & Gebru (2018), extension dans le domaine médical par Omar et al. (2025)
  3. Équité algorithmique : Stratégies d'équité et d'atténuation des biais dans les systèmes d'IA médicale

Avantages de cet article par rapport aux travaux connexes

  1. Dimensions d'identité plus complètes : Première analyse systématique incluant les personnes non-binaires
  2. Analyse intersectionnelle plus fine : Recherche approfondie sur les identités intersectionnelles tridimensionnelles
  3. Indicateurs d'évaluation plus riches : Évaluation multidimensionnelle de la lisibilité au degré d'urgence médicale
  4. Échelle de données plus grande : Analyse à grande échelle de 42 000 conseils médicaux

Conclusions et discussion

Conclusions principales

  1. Existence de biais systématiques : Les LLMs présentent des disparités de groupes sociaux significatives dans la génération de conseils médicaux
  2. Effets d'identités intersectionnelles : Les individus aux identités multiples marginalisées font face à des biais plus graves
  3. Vulnérabilité des personnes autochtones et non-binaires : Ces groupes reçoivent systématiquement des conseils médicaux de qualité inférieure
  4. Cohérence intersectorielle : Les modèles de biais restent cohérents dans différentes catégories médicales

Limitations

  1. Limitation géographique : Utilise uniquement la classification du Bureau du Recensement américain, manque de perspective internationale
  2. Granularité de classification : La classification raciale manque de granularité suffisante pour soutenir une analyse fine
  3. Limitation du modèle : Seul Llama-3-8B-Instruct a été testé, nécessitant une validation inter-modèles
  4. Absence d'analyse qualitative : Manque d'analyse approfondie des différences substantielles dans le contenu des conseils

Directions futures

  1. Systèmes de classification multi-niveaux : Adoption de classifications démographiques plus granulaires
  2. Évaluation qualitative : Invitation d'experts médicaux pour évaluer l'exactitude et l'adéquation des conseils
  3. Recherche par groupes de discussion : Entretiens approfondis avec des groupes marginalisés
  4. Validation inter-modèles : Extension à davantage de familles de LLMs
  5. Développement de stratégies d'atténuation : Développement et test de techniques d'atténuation des biais

Évaluation approfondie

Points forts

  1. Conception de recherche rigoureuse : Le pipeline de génération en deux étapes est ingénieusement conçu, isolant efficacement les sources de biais
  2. Méthodes statistiques normalisées : Tests statistiques stricts et rapports d'intervalles de confiance
  3. Importance sociale significative : Aborde le problème social urgent de l'équité dans l'IA médicale
  4. Reproductibilité de la méthode : Description détaillée de la méthode et code open source
  5. Résultats percutants : Révèle des modèles de biais systématiques préoccupants

Insuffisances

  1. Relations causales floues : N'explore pas en profondeur les mécanismes fondamentaux de la production de biais
  2. Guidance pratique limitée : Manque de recommandations spécifiques pour l'atténuation des biais
  3. Validité externe à vérifier : Nécessite une vérification des résultats dans des scénarios réels de consultation médicale
  4. Limitations du contexte culturel : Le système de classification centré sur les États-Unis limite l'applicabilité mondiale

Impact

  1. Contribution académique : Fournit un repère important pour la recherche sur l'équité de l'IA médicale
  2. Signification politique : Fournit des preuves scientifiques pour la réglementation des applications d'IA médicale
  3. Impulsion technologique : Encourage les développeurs de LLMs à prêter attention aux questions d'équité
  4. Valeur sociale : Sensibilise le public aux biais des IA médicales

Scénarios d'application

  1. Développement de produits d'IA médicale : Fournit aux développeurs un cadre de détection des biais
  2. Formulation de politiques médicales : Fournit aux organismes de réglementation des normes d'évaluation
  3. Formation des professionnels de santé : Sensibilise aux biais des IA
  4. Éducation des patients : Renforce la pensée critique dans l'utilisation des conseils d'IA médicale

Références

L'article cite plusieurs recherches clés, notamment :

  • Buolamwini & Gebru (2018) : Disparités d'exactitude intersectionnelles dans la classification commerciale du genre
  • Zack et al. (2024) : Évaluation du potentiel de GPT-4 à perpétuer les biais raciaux et sexistes dans les soins de santé
  • Omar et al. (2025) : Biais démographiques sociaux dans les décisions médicales des grands modèles de langage
  • Hanna et al. (2025) : Évaluation des biais raciaux et ethniques des grands modèles de langage dans les tâches liées aux soins de santé

Évaluation globale : Ceci est une recherche d'importance sociale significative qui révèle systématiquement le problème des biais sociaux dans les conseils médicaux générés par les LLMs. La méthode de recherche est rigoureuse, les résultats sont préoccupants et la recherche apporte une contribution importante au domaine de l'équité de l'IA médicale. Malgré certaines limitations, elle jette les bases solides pour la recherche et l'application pratique futures.