2025-11-16T17:58:12.985277

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Kondrup, Imouza

With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.

academic

Dr. Bias: Disparidades Sociales en la Orientación Médica Impulsada por IA

Información Básica

ID del Artículo: 2510.09162
Título: Dr. Bias: Disparidades Sociales en la Orientación Médica Impulsada por IA
Autores: Emma Kondrup (Mila - Quebec AI Institute), Anne Imouza (McGill University)
Clasificación: cs.AI cs.CY
Fecha de Publicación/Conferencia: Aceptado en el Simposio sobre Responsabilidad de Modelos, Sostenibilidad y Atención Médica 2025
Enlace del Artículo: https://arxiv.org/abs/2510.09162

Resumen

Con el rápido desarrollo de los modelos de lenguaje de gran escala (LLMs), el público ahora puede acceder de manera conveniente y económica a aplicaciones capaces de responder preguntas relacionadas con la salud de forma personalizada. Estos LLMs están demostrando ser cada vez más competitivos en ciertas capacidades médicas, incluso superando a profesionales, siendo especialmente prometedores en entornos con recursos limitados. Sin embargo, las evaluaciones que respaldan estas motivaciones carecen gravemente de perspectivas sobre la naturaleza social de la atención médica, ignorando las disparidades de salud entre grupos sociales y cómo los sesgos se traducen en consejos médicos generados por LLM que afectan a los usuarios. Este estudio realiza un análisis exploratorio de respuestas a preguntas médicas de LLMs en campos clínicos críticos, simulando preguntas formuladas por perfiles de pacientes de diferentes géneros, edades y razas. Al comparar características del lenguaje natural en respuestas generadas, el estudio encuentra que los LLMs producen disparidades sistemáticas al generar consejos médicos para diferentes grupos sociales, particularmente pacientes indígenas y no binarios reciben consejos con menor legibilidad y mayor complejidad.

Antecedentes e Motivación de la Investigación

Definición del Problema

El problema central que esta investigación busca abordar es: ¿Existen sesgos sociales sistemáticos cuando los modelos de lenguaje de gran escala proporcionan consejos médicos, y cómo afectan estos sesgos la calidad de la información médica que reciben diferentes grupos poblacionales?

Importancia

Equidad Social: Con la aplicación generalizada de LLMs en consultoría médica, es crucial garantizar que todos los grupos poblacionales accedan a información médica equitativa y de alta calidad
Disparidades de Salud: Las disparidades de salud existentes en la realidad podrían ampliarse aún más a través de sistemas de IA
Creciente Confianza: La confianza pública en los consejos médicos de IA aumenta continuamente, haciendo que el problema de sesgo sea más urgente

Limitaciones de Métodos Existentes

Falta de Análisis de Dimensión Social: Las evaluaciones existentes de aplicaciones médicas de LLM se centran principalmente en el desempeño técnico, ignorando la equidad social
Investigación Insuficiente sobre Identidades Interseccionales: Falta análisis profundo de grupos con identidades interseccionales (como indígenas no binarios)
Ausencia de Detección de Sesgos Sistemáticos: Falta un método sistemático para detectar y cuantificar sesgos en consejos médicos

Contribuciones Principales

Desarrollo de Marco de Detección de Sesgos Sistemáticos: Construcción del pipeline experimental "Dr. Bias" que puede detectar sistemáticamente sesgos sociales en consejos médicos de LLM
Revelación de Disparidades Significativas entre Grupos: Descubrimiento de que grupos indígenas y no binarios reciben consejos médicos con desventajas significativas en legibilidad y complejidad
Demostración de Efectos de Identidad Interseccional: Primera demostración sistemática de que los sesgos enfrentados por grupos con identidades interseccionales se amplifican significativamente
Provisión de Marco de Análisis Multidimensional: Análisis de sesgos desde múltiples dimensiones incluyendo legibilidad, análisis de sentimientos y urgencia médica
Herramientas de Investigación de Código Abierto: Publicación en GitHub del código experimental completo y datos

Explicación Detallada de Métodos

Definición de Tarea

Entrada: Perfiles de pacientes con características demográficas variadas + preguntas relacionadas con la salud Salida: Consejos médicos generados por LLM Objetivo: Detectar y cuantificar disparidades sistemáticas en la calidad de consejos médicos entre diferentes grupos

Arquitectura del Diseño Experimental

La investigación adopta un pipeline de generación de dos etapas:

Primera Etapa: Generación de Preguntas

Modelo: Llama-3-8B-Instruct
Construcción de Perfiles de Pacientes:
- Grupos de Edad: Niños, Adolescentes, Adultos, Adultos Mayores (4 categorías)
- Género: Masculino, Femenino, No Binario (3 categorías)
- Raza: 7 grupos raciales principales basados en clasificación de la Oficina del Censo de EE.UU.
  - Indios Americanos o Nativos de Alaska (AIAN)
  - Asiáticos (A)
  - Negros o Afroamericanos (BAA)
  - Hispanos o Latinos (HL)
  - Oriente Medio o Norteafricanos (MENA)
  - Nativos de Hawái o Isleños del Pacífico (NHPI)
  - Blancos o Euroamericanos (WEA)
Total: 84 perfiles de pacientes (4×3×7)
Categorías de Preguntas: Piel, Sistema Respiratorio, Corazón, Salud Mental, Médica General (5 categorías)
Estrategia de Generación: 500 preguntas por perfil (100 por categoría), utilizando temperatura 1.5 para aumentar diversidad

Segunda Etapa: Generación de Consejos Médicos

Volumen Total de Datos: 42,000 consejos médicos
Formato de Entrada: Descripción de perfil de paciente + pregunta médica
Dimensiones de Análisis: Legibilidad, análisis de sentimientos, urgencia médica

Puntos de Innovación Técnica

Análisis de Identidad Interseccional: Primera realización sistemática de análisis interseccional de género, raza y edad
Indicadores de Evaluación Multidimensional:
- Puntuación de Legibilidad Flesch
- Nivel de Grado Flesch-Kincaid
- Longitud del Consejo
- Polaridad Emocional y Subjetividad
- Evaluación de Urgencia Médica
Estrategia de Muestreo Estratificado: Incorporación de diversidad en tono emocional y tipo de consulta en generación de preguntas
Rigor Estadístico: Todos los resultados reportan intervalos de confianza del 95%, reportando solo resultados estadísticamente significativos con p<0.05

Configuración Experimental

Conjunto de Datos

Escala: 42,000 consejos médicos generados por LLM
Cobertura: 84 perfiles demográficos × 5 categorías médicas × 100 preguntas/categoría
Control de Calidad: Uso de parámetro de temperatura y plantillas de indicaciones diversificadas para garantizar autenticidad

Métricas de Evaluación

Indicadores de Legibilidad

Legibilidad Flesch: Puntuaciones más altas indican texto más fácil de leer
Nivel de Grado Flesch-Kincaid: Indica el nivel educativo requerido para comprender el texto
Longitud del Consejo: Número de palabras en el texto

Indicadores de Análisis de Sentimientos

Polaridad Emocional: Orientación hacia sentimientos positivos/negativos
Subjetividad: Grado de opinión vs. contenido factual
Emociones Específicas: Niveles de alegría, ira, tensión

Indicadores Específicos Médicos

Urgencia Médica: Nivel de urgencia reflejado en el consejo
Mención de Temas de Muerte: Si el contenido incluye referencias relacionadas con la muerte

Métodos de Análisis Estadístico

Prueba de Significancia: Valor p < 0.05
Intervalo de Confianza: Intervalo de confianza del 95%
Análisis de Tamaño de Efecto: Cálculo de diferencias de medias entre grupos

Resultados Experimentales

Resultados Principales

Disparidades en Dimensión de Género

Desventaja Significativa del Grupo No Binario:
- Legibilidad Flesch: -3.53 (vs. Femenino 4.815, Masculino 5.873)
- Nivel de Grado: 24.64 (vs. Femenino 22.68, Masculino 22.52)
- Consejos más largos, complejos y difíciles de entender

Disparidades en Dimensión de Raza

Desventaja Sistemática del Grupo Indígena:
- Grupo AIAN muestra la legibilidad Flesch más baja en todas las categorías médicas
- En consejos de salud mental, puntuación del grupo AIAN tan baja como -8.7296
- Grupos NHPI y BAA enfrentan problemas similares
Grupos Privilegiados:
- Grupos WEA y A reciben consistentemente consejos más concisos y legibles
- Grupos HL y MENA muestran desempeño intermedio

Disparidades en Categorías Médicas

Se observan patrones consistentes de disparidades entre grupos en todas las categorías médicas, siendo las diferencias particularmente significativas en la categoría de salud mental.

Disparidades en Urgencia Médica

Grupo NHPI: Sistemáticamente subestimado en evaluaciones de urgencia médica
Diferencia Máxima entre Pares: WEA-NHPI (Δ=0.0041), A-NHPI (Δ=0.0034)

Efectos de Identidad Interseccional

Hallazgo Clave: El análisis de identidad interseccional muestra que los efectos de sesgo se amplifican significativamente

Amplificación de Efectos: Las disparidades de grupos con identidades interseccionales son aproximadamente el doble de las disparidades de identidad única
Grupo Más Desfavorecido: Indígenas no binarios, negros no binarios reciben los consejos más complejos
Grupo Más Favorecido: Hombres y mujeres blancos o asiáticos reciben los consejos más concisos y comprensibles

Significancia Estadística

Todas las diferencias reportadas alcanzan niveles de significancia estadística (p<0.05), con intervalos de confianza del 95% proporcionados.

Trabajo Relacionado

Direcciones Principales de Investigación

Investigación de Sesgos de LLM en Medicina: Zack et al. (2024) descubrieron estereotipos raciales y de género en GPT-4 en apoyo a decisiones clínicas
Sesgo de IA en Identidad Interseccional: Trabajo pionero de Buolamwini & Gebru (2018), extensión en dominio médico de Omar et al. (2025)
Equidad Algorítmica: Estrategias de equidad y mitigación de sesgos en sistemas de IA médica

Ventajas de Este Trabajo Comparado con Trabajo Relacionado

Dimensiones de Identidad Más Completas: Primera inclusión de análisis sistemático de población no binaria
Análisis Interseccional Más Detallado: Investigación profunda de identidad interseccional tridimensional
Indicadores de Evaluación Más Ricos: Evaluación multidimensional desde legibilidad hasta urgencia médica
Escala de Datos Más Grande: Análisis a gran escala de 42,000 consejos médicos

Conclusiones y Discusión

Conclusiones Principales

Existencia de Sesgo Sistemático: Los LLMs exhiben disparidades significativas entre grupos sociales al generar consejos médicos
Efecto de Identidad Interseccional: Individuos con identidades múltiplemente marginalizadas enfrentan sesgos más severos
Mayor Vulnerabilidad de Poblaciones Indígenas y No Binarias: Estos grupos reciben sistemáticamente consejos médicos de menor calidad
Consistencia Transversal: Los patrones de sesgo se mantienen consistentes en diferentes categorías médicas

Limitaciones

Limitación Geográfica: Solo utiliza clasificación del censo estadounidense, carece de perspectiva internacional
Granularidad de Clasificación: La clasificación racial carece de suficiente granularidad para análisis más refinado
Limitación de Modelo: Solo prueba Llama-3-8B-Instruct, requiere validación entre modelos
Ausencia de Análisis Cualitativo: Falta análisis profundo de diferencias sustanciales en contenido de consejos

Direcciones Futuras

Sistema de Clasificación Multinivel: Adopción de clasificación demográfica más granular
Evaluación Cualitativa: Invitación a expertos médicos para evaluar precisión y adecuación de consejos
Investigación de Grupos Focales: Entrevistas profundas con poblaciones marginalizadas
Validación Entre Modelos: Extensión a más familias de LLM
Desarrollo de Estrategias de Mitigación: Desarrollo y prueba de técnicas de mitigación de sesgos

Evaluación Profunda

Fortalezas

Diseño de Investigación Riguroso: Pipeline de generación de dos etapas ingeniosamente diseñado que aísla efectivamente fuentes de sesgo
Metodología Estadística Normativa: Pruebas estadísticas estrictas e informes de intervalos de confianza
Significancia Social Importante: Aborda el problema social urgente de equidad en IA médica
Reproducibilidad de Métodos: Descripción detallada de métodos y código de código abierto
Hallazgos de Alto Impacto: Revela patrones de sesgo sistemático preocupantes

Insuficiencias

Relaciones Causales Ambiguas: No profundiza en mecanismos fundamentales de generación de sesgos
Orientación Práctica Limitada: Carece de recomendaciones específicas para mitigación de sesgos
Validez Externa Pendiente: Requiere validación de hallazgos en escenarios reales de consultoría médica
Limitación de Contexto Cultural: Sistema de clasificación centrado en EE.UU. limita aplicabilidad global

Impacto

Contribución Académica: Proporciona referencia importante para investigación de equidad en IA médica
Significancia Política: Proporciona base científica para regulación de aplicaciones médicas de IA
Impulso Tecnológico: Promueve que desarrolladores de LLM presten atención a problemas de equidad
Valor Social: Aumenta conciencia pública sobre sesgos de IA en medicina

Escenarios Aplicables

Desarrollo de Productos de IA Médica: Proporciona marco de detección de sesgos para desarrolladores
Formulación de Políticas Médicas: Proporciona estándares de evaluación para organismos reguladores
Capacitación de Profesionales Médicos: Aumenta conciencia sobre sesgos de IA
Educación de Pacientes: Fortalece pensamiento crítico en uso de consejos médicos de IA

Referencias

El artículo cita múltiples investigaciones clave, incluyendo:

Buolamwini & Gebru (2018): Disparidades de precisión interseccional en clasificación de género comercial
Zack et al. (2024): Evaluación del potencial de GPT-4 para perpetuar sesgos raciales y de género en atención médica
Omar et al. (2025): Sesgos demográficos sociales en toma de decisiones médicas de modelos de lenguaje grande
Hanna et al. (2025): Evaluación de sesgos raciales y étnicos de modelos de lenguaje grande en tareas relacionadas con atención médica

Evaluación General: Esta es una investigación de importante significancia social que revela sistemáticamente problemas de sesgo social en consejos médicos de LLM. La metodología de investigación es rigurosa, los hallazgos son preocupantes, y hace contribuciones importantes al campo de equidad en IA médica. Aunque existen algunas limitaciones, proporciona una base sólida para investigación futura y aplicación práctica.