With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.
- ID Articolo: 2510.09162
- Titolo: Dr. Bias: Social Disparities in AI-Powered Medical Guidance
- Autori: Emma Kondrup (Mila - Quebec AI Institute), Anne Imouza (McGill University)
- Classificazione: cs.AI cs.CY
- Data di Pubblicazione/Conferenza: Accettato al Symposium on Model Accountability, Sustainability and Healthcare 2025
- Link Articolo: https://arxiv.org/abs/2510.09162
Con lo sviluppo rapido dei modelli linguistici di grandi dimensioni (LLM), il pubblico può ora accedere facilmente ed economicamente ad applicazioni in grado di fornire risposte personalizzate alla maggior parte delle domande relative alla salute. Questi LLM stanno diventando sempre più competitivi in alcune capacità mediche, superando persino i professionisti, con prospettive particolarmente promettenti in ambienti con risorse limitate. Tuttavia, le valutazioni che supportano queste motivazioni mancano gravemente di intuizioni sulla natura sociale dell'assistenza sanitaria, trascurando le disparità di salute tra i gruppi sociali e come i pregiudizi si traducono nei consigli medici generati da LLM e influenzano gli utenti. Questo studio conduce un'analisi esplorativa delle risposte a domande mediche degli LLM in aree cliniche critiche, simulando domande poste da profili di pazienti di diverso genere, età e razza. Confrontando le caratteristiche del linguaggio naturale delle risposte generate, lo studio rivela che gli LLM producono disparità sistematiche quando generano consigli medici per diversi gruppi sociali, in particolare i pazienti indigeni e non binari ricevono consigli con leggibilità inferiore e maggiore complessità.
Il problema centrale che questo studio affronta è: gli LLM presentano pregiudizi sociali sistematici quando forniscono consigli medici, e come questi pregiudizi influenzano la qualità delle informazioni mediche ricevute da diversi gruppi demografici.
- Equità Sociale: Con l'ampia applicazione degli LLM nella consulenza medica, è fondamentale garantire che tutti i gruppi di popolazione ricevano informazioni mediche eque e di alta qualità
- Disparità di Salute: Le disparità di salute già esistenti nella realtà potrebbero essere ulteriormente amplificate dai sistemi di IA
- Crescente Fiducia: La fiducia crescente del pubblico nei consigli medici dell'IA rende il problema dei pregiudizi ancora più urgente
- Mancanza di Analisi della Dimensione Sociale: Le valutazioni attuali delle applicazioni mediche degli LLM si concentrano principalmente sulle prestazioni tecniche, trascurando l'equità sociale
- Ricerca Insufficiente su Identità Intersezionali: Manca un'analisi approfondita di gruppi con identità intersezionali (come indigeni non binari)
- Assenza di Rilevamento di Pregiudizi Sistematici: Mancano metodi sistematici per rilevare e quantificare i pregiudizi nei consigli medici
- Sviluppo di un Framework di Rilevamento dei Pregiudizi Sistematici: Costruzione della pipeline sperimentale "Dr. Bias" che può rilevare sistematicamente i pregiudizi sociali nei consigli medici degli LLM
- Rivelazione di Significative Disparità di Gruppo: Scoperta che i gruppi indigeni e non binari ricevono consigli medici con significativi svantaggi in termini di leggibilità e complessità
- Dimostrazione degli Effetti dell'Identità Intersezionale: Prima dimostrazione sistematica che i pregiudizi affrontati dai gruppi con identità intersezionali sono significativamente amplificati
- Fornitura di un Framework di Analisi Multidimensionale: Analisi dei pregiudizi da molteplici dimensioni incluse leggibilità, analisi del sentimento e urgenza medica
- Rilascio di Strumenti di Ricerca Open-Source: Pubblicazione su GitHub del codice sperimentale completo e dei dati
Input: Profili di pazienti con caratteristiche demografiche diverse + domande relative alla salute
Output: Consigli medici generati da LLM
Obiettivo: Rilevare e quantificare le disparità sistematiche nella qualità dei consigli medici tra diversi gruppi
Lo studio adotta una pipeline di generazione a due fasi:
- Modello: Llama-3-8B-Instruct
- Costruzione del Profilo del Paziente:
- Gruppi di Età: Bambini, Adolescenti, Adulti, Anziani (4 categorie)
- Genere: Maschio, Femmina, Non Binario (3 categorie)
- Razza: 7 principali gruppi razziali basati sulla classificazione del Censimento degli Stati Uniti
- Indiani d'America o Nativi dell'Alaska (AIAN)
- Asiatici (A)
- Neri o Afroamericani (BAA)
- Ispanici o Latinoamericani (HL)
- Mediorientali o Nordafricani (MENA)
- Nativi hawaiani o Isolani del Pacifico (NHPI)
- Bianchi o Euroamericani (WEA)
- Totale: 84 profili di pazienti (4×3×7)
- Categorie di Domande: Pelle, Respiratorio, Cardiaco, Salute Mentale, Medico Generale (5 categorie)
- Strategia di Generazione: Generazione di 500 domande per profilo (100 per categoria), utilizzando temperatura 1,5 per aumentare la diversità
- Volume Totale di Dati: 42.000 consigli medici
- Formato di Input: Descrizione del profilo del paziente + domanda medica
- Dimensioni di Analisi: Leggibilità, analisi del sentimento, urgenza medica
- Analisi dell'Identità Intersezionale: Prima analisi sistematica che incrocia tre dimensioni: genere, razza ed età
- Metriche di Valutazione Multidimensionale:
- Punteggio di Leggibilità Flesch
- Livello di Grado Flesch-Kincaid
- Lunghezza del Consiglio
- Polarità del Sentimento e Soggettività
- Valutazione dell'Urgenza Medica
- Strategia di Campionamento Stratificato: Inclusione di diversità nel tono emotivo e nei tipi di query nella generazione di domande
- Rigore Statistico: Tutti i risultati riportano intervalli di confidenza al 95%, con segnalazione solo di risultati statisticamente significativi (p<0,05)
- Scala: 42.000 consigli medici generati da LLM
- Copertura: 84 profili demografici × 5 categorie mediche × 100 domande/categoria
- Controllo di Qualità: Utilizzo di parametri di temperatura e modelli di prompt diversificati per garantire l'autenticità
- Leggibilità Flesch: Punteggi più alti indicano testo più facile da leggere
- Livello di Grado Flesch-Kincaid: Indica il livello di istruzione necessario per comprendere il testo
- Lunghezza del Consiglio: Numero di caratteri del testo
- Polarità del Sentimento: Orientamento verso sentimenti positivi/negativi
- Soggettività: Grado di opinione rispetto a contenuto fattuale
- Sentimenti Specifici: Livelli di gioia, rabbia, tensione
- Urgenza Medica: Livello di urgenza riflesso nei consigli
- Menzione di Argomenti sulla Morte: Se il contenuto riguarda aspetti legati alla morte
- Test di Significatività: Valore p < 0,05
- Intervallo di Confidenza: Intervallo di confidenza al 95%
- Analisi della Dimensione dell'Effetto: Calcolo delle differenze medie tra gruppi
- Significativo Svantaggio del Gruppo Non Binario:
- Leggibilità Flesch: -3,53 (vs Femmina 4,815, Maschio 5,873)
- Livello di Grado: 24,64 (vs Femmina 22,68, Maschio 22,52)
- Consigli più lunghi, complessi e difficili da comprendere
- Svantaggio Sistematico del Gruppo Indigeno:
- Il gruppo AIAN mostra la leggibilità Flesch più bassa in tutte le categorie mediche
- Nei consigli sulla salute mentale il gruppo AIAN raggiunge un punteggio basso di -8,7296
- I gruppi NHPI e BAA affrontano problemi simili
- Gruppi Privilegiati:
- I gruppi WEA e A ricevono costantemente consigli più concisi e leggibili
- I gruppi HL e MENA mostrano prestazioni intermedie
Modelli coerenti di disparità di gruppo sono stati osservati in tutte le categorie mediche, con differenze particolarmente significative nella categoria salute mentale.
- Gruppo NHPI: Sistematicamente sottovalutato nella valutazione dell'urgenza medica
- Coppia di Massima Differenza: WEA-NHPI (Δ=0,0041), A-NHPI (Δ=0,0034)
Scoperta Chiave: L'analisi dell'identità intersezionale rivela che gli effetti dei pregiudizi sono significativamente amplificati
- Effetto Moltiplicativo: Le disparità nei gruppi con identità intersezionali sono circa il doppio delle disparità di identità singola
- Gruppo Più Svantaggiato: Indigeni non binari, neri non binari ricevono i consigli più complessi
- Gruppo Più Privilegiato: Maschi/femmine bianchi o asiatici ricevono i consigli più concisi e comprensibili
Tutte le differenze riportate raggiungono il livello di significatività statistica (p<0,05), con intervalli di confidenza al 95%.
- Ricerca sui Pregiudizi degli LLM Medici: Zack et al. (2024) hanno scoperto stereotipi razziali e di genere di GPT-4 nel supporto alle decisioni cliniche
- Pregiudizi dell'IA nell'Identità Intersezionale: Lavoro pioneristico di Buolamwini & Gebru (2018), estensione nel settore medico di Omar et al. (2025)
- Equità Algoritmica: Strategie di equità e mitigazione dei pregiudizi nei sistemi di IA medica
- Dimensioni di Identità Più Complete: Prima analisi sistematica che include il gruppo non binario
- Analisi Intersezionale Più Dettagliata: Ricerca approfondita dell'identità intersezionale tridimensionale
- Metriche di Valutazione Più Ricche: Valutazione multidimensionale dalla leggibilità all'urgenza medica
- Scala di Dati Più Grande: Analisi su larga scala di 42.000 consigli medici
- Esistenza di Pregiudizi Sistematici: Gli LLM mostrano significative disparità di gruppo sociale nella generazione di consigli medici
- Effetti dell'Identità Intersezionale: Gli individui con identità multiple marginalizzate affrontano pregiudizi più gravi
- Vulnerabilità dei Gruppi Indigeni e Non Binari: Questi gruppi ricevono sistematicamente consigli medici di qualità inferiore
- Coerenza Tra Campi: I modelli di pregiudizio rimangono coerenti tra diverse categorie mediche
- Limitazione Geografica: Utilizza solo la classificazione del Censimento degli Stati Uniti, mancando di prospettiva internazionale
- Grossolanità della Classificazione: La classificazione razziale manca della granularità sufficiente per supportare analisi più raffinate
- Limitazione del Modello: Solo test su Llama-3-8B-Instruct, necessita verifica tra modelli
- Assenza di Analisi Qualitativa: Manca analisi approfondita delle differenze sostanziali nel contenuto dei consigli
- Sistema di Classificazione Multilivello: Adozione di classificazioni demografiche più granulari
- Valutazione Qualitativa: Invito a esperti medici per valutare l'accuratezza e l'appropriatezza dei consigli
- Ricerca con Gruppi Focali: Interviste approfondite con gruppi marginalizzati
- Verifica Tra Modelli: Estensione a più famiglie di LLM
- Sviluppo di Strategie di Mitigazione: Sviluppo e test di tecniche di mitigazione dei pregiudizi
- Disegno della Ricerca Rigoroso: La pipeline di generazione a due fasi è ingegnosa e isola efficacemente le fonti di pregiudizio
- Metodologia Statistica Normativa: Test statistici rigorosi e rapporto degli intervalli di confidenza
- Significato Sociale Importante: Affronta il problema urgente dell'equità nell'IA medica
- Riproducibilità del Metodo: Descrizione dettagliata del metodo e codice open-source
- Risultati Impattanti: Rivela preoccupanti modelli di pregiudizio sistematico
- Relazioni Causali Ambigue: Non approfondisce i meccanismi fondamentali della generazione dei pregiudizi
- Guida Pratica Limitata: Mancano raccomandazioni specifiche per la mitigazione dei pregiudizi
- Validità Esterna da Verificare: Necessita verifica dei risultati in scenari reali di consulenza medica
- Limitazioni del Contesto Culturale: Il sistema di classificazione incentrato sugli Stati Uniti limita l'applicabilità globale
- Contributo Accademico: Fornisce un benchmark importante per la ricerca sull'equità nell'IA medica
- Significato Politico: Fornisce prove scientifiche per la regolamentazione delle applicazioni mediche dell'IA
- Spinta Tecnologica: Incoraggia gli sviluppatori di LLM a prestare attenzione ai problemi di equità
- Valore Sociale: Aumenta la consapevolezza pubblica sui pregiudizi dell'IA medica
- Sviluppo di Prodotti Medici IA: Fornisce ai sviluppatori un framework di rilevamento dei pregiudizi
- Formulazione di Politiche Mediche: Fornisce ai regolatori standard di valutazione
- Formazione dei Professionisti Medici: Aumenta la consapevolezza sui pregiudizi dell'IA
- Educazione dei Pazienti: Promuove il pensiero critico nell'uso dei consigli medici dell'IA
L'articolo cita numerosi studi chiave, tra cui:
- Buolamwini & Gebru (2018): Disparità di accuratezza intersezionale nella classificazione commerciale del genere
- Zack et al. (2024): Valutazione del potenziale di GPT-4 di perpetuare pregiudizi razziali e di genere nell'assistenza sanitaria
- Omar et al. (2025): Pregiudizi demografici sociali nel processo decisionale medico dei modelli linguistici di grandi dimensioni
- Hanna et al. (2025): Valutazione dei pregiudizi razziali ed etnici dei modelli linguistici di grandi dimensioni nei compiti correlati all'assistenza sanitaria
Valutazione Complessiva: Questo è uno studio di importante significato sociale che rivela sistematicamente il problema dei pregiudizi sociali nei consigli medici degli LLM. La metodologia della ricerca è rigorosa, i risultati sono preoccupanti e lo studio fornisce importanti contributi al campo dell'equità nell'IA medica. Nonostante alcune limitazioni, getta una base solida per la ricerca futura e l'applicazione pratica.