2025-11-16T17:58:12.985277

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Kondrup, Imouza
With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.
academic

Dr. Bias: Disparidades Sociales en la Orientación Médica Impulsada por IA

Información Básica

  • ID del Artículo: 2510.09162
  • Título: Dr. Bias: Disparidades Sociales en la Orientación Médica Impulsada por IA
  • Autores: Emma Kondrup (Mila - Quebec AI Institute), Anne Imouza (McGill University)
  • Clasificación: cs.AI cs.CY
  • Fecha de Publicación/Conferencia: Aceptado en el Simposio sobre Responsabilidad de Modelos, Sostenibilidad y Atención Médica 2025
  • Enlace del Artículo: https://arxiv.org/abs/2510.09162

Resumen

Con el rápido desarrollo de los modelos de lenguaje de gran escala (LLMs), el público ahora puede acceder de manera conveniente y económica a aplicaciones capaces de responder preguntas relacionadas con la salud de forma personalizada. Estos LLMs están demostrando ser cada vez más competitivos en ciertas capacidades médicas, incluso superando a profesionales, siendo especialmente prometedores en entornos con recursos limitados. Sin embargo, las evaluaciones que respaldan estas motivaciones carecen gravemente de perspectivas sobre la naturaleza social de la atención médica, ignorando las disparidades de salud entre grupos sociales y cómo los sesgos se traducen en consejos médicos generados por LLM que afectan a los usuarios. Este estudio realiza un análisis exploratorio de respuestas a preguntas médicas de LLMs en campos clínicos críticos, simulando preguntas formuladas por perfiles de pacientes de diferentes géneros, edades y razas. Al comparar características del lenguaje natural en respuestas generadas, el estudio encuentra que los LLMs producen disparidades sistemáticas al generar consejos médicos para diferentes grupos sociales, particularmente pacientes indígenas y no binarios reciben consejos con menor legibilidad y mayor complejidad.

Antecedentes e Motivación de la Investigación

Definición del Problema

El problema central que esta investigación busca abordar es: ¿Existen sesgos sociales sistemáticos cuando los modelos de lenguaje de gran escala proporcionan consejos médicos, y cómo afectan estos sesgos la calidad de la información médica que reciben diferentes grupos poblacionales?

Importancia

  1. Equidad Social: Con la aplicación generalizada de LLMs en consultoría médica, es crucial garantizar que todos los grupos poblacionales accedan a información médica equitativa y de alta calidad
  2. Disparidades de Salud: Las disparidades de salud existentes en la realidad podrían ampliarse aún más a través de sistemas de IA
  3. Creciente Confianza: La confianza pública en los consejos médicos de IA aumenta continuamente, haciendo que el problema de sesgo sea más urgente

Limitaciones de Métodos Existentes

  1. Falta de Análisis de Dimensión Social: Las evaluaciones existentes de aplicaciones médicas de LLM se centran principalmente en el desempeño técnico, ignorando la equidad social
  2. Investigación Insuficiente sobre Identidades Interseccionales: Falta análisis profundo de grupos con identidades interseccionales (como indígenas no binarios)
  3. Ausencia de Detección de Sesgos Sistemáticos: Falta un método sistemático para detectar y cuantificar sesgos en consejos médicos

Contribuciones Principales

  1. Desarrollo de Marco de Detección de Sesgos Sistemáticos: Construcción del pipeline experimental "Dr. Bias" que puede detectar sistemáticamente sesgos sociales en consejos médicos de LLM
  2. Revelación de Disparidades Significativas entre Grupos: Descubrimiento de que grupos indígenas y no binarios reciben consejos médicos con desventajas significativas en legibilidad y complejidad
  3. Demostración de Efectos de Identidad Interseccional: Primera demostración sistemática de que los sesgos enfrentados por grupos con identidades interseccionales se amplifican significativamente
  4. Provisión de Marco de Análisis Multidimensional: Análisis de sesgos desde múltiples dimensiones incluyendo legibilidad, análisis de sentimientos y urgencia médica
  5. Herramientas de Investigación de Código Abierto: Publicación en GitHub del código experimental completo y datos

Explicación Detallada de Métodos

Definición de Tarea

Entrada: Perfiles de pacientes con características demográficas variadas + preguntas relacionadas con la salud Salida: Consejos médicos generados por LLM Objetivo: Detectar y cuantificar disparidades sistemáticas en la calidad de consejos médicos entre diferentes grupos

Arquitectura del Diseño Experimental

La investigación adopta un pipeline de generación de dos etapas:

Primera Etapa: Generación de Preguntas

  • Modelo: Llama-3-8B-Instruct
  • Construcción de Perfiles de Pacientes:
    • Grupos de Edad: Niños, Adolescentes, Adultos, Adultos Mayores (4 categorías)
    • Género: Masculino, Femenino, No Binario (3 categorías)
    • Raza: 7 grupos raciales principales basados en clasificación de la Oficina del Censo de EE.UU.
      • Indios Americanos o Nativos de Alaska (AIAN)
      • Asiáticos (A)
      • Negros o Afroamericanos (BAA)
      • Hispanos o Latinos (HL)
      • Oriente Medio o Norteafricanos (MENA)
      • Nativos de Hawái o Isleños del Pacífico (NHPI)
      • Blancos o Euroamericanos (WEA)
  • Total: 84 perfiles de pacientes (4×3×7)
  • Categorías de Preguntas: Piel, Sistema Respiratorio, Corazón, Salud Mental, Médica General (5 categorías)
  • Estrategia de Generación: 500 preguntas por perfil (100 por categoría), utilizando temperatura 1.5 para aumentar diversidad

Segunda Etapa: Generación de Consejos Médicos

  • Volumen Total de Datos: 42,000 consejos médicos
  • Formato de Entrada: Descripción de perfil de paciente + pregunta médica
  • Dimensiones de Análisis: Legibilidad, análisis de sentimientos, urgencia médica

Puntos de Innovación Técnica

  1. Análisis de Identidad Interseccional: Primera realización sistemática de análisis interseccional de género, raza y edad
  2. Indicadores de Evaluación Multidimensional:
    • Puntuación de Legibilidad Flesch
    • Nivel de Grado Flesch-Kincaid
    • Longitud del Consejo
    • Polaridad Emocional y Subjetividad
    • Evaluación de Urgencia Médica
  3. Estrategia de Muestreo Estratificado: Incorporación de diversidad en tono emocional y tipo de consulta en generación de preguntas
  4. Rigor Estadístico: Todos los resultados reportan intervalos de confianza del 95%, reportando solo resultados estadísticamente significativos con p<0.05

Configuración Experimental

Conjunto de Datos

  • Escala: 42,000 consejos médicos generados por LLM
  • Cobertura: 84 perfiles demográficos × 5 categorías médicas × 100 preguntas/categoría
  • Control de Calidad: Uso de parámetro de temperatura y plantillas de indicaciones diversificadas para garantizar autenticidad

Métricas de Evaluación

Indicadores de Legibilidad

  • Legibilidad Flesch: Puntuaciones más altas indican texto más fácil de leer
  • Nivel de Grado Flesch-Kincaid: Indica el nivel educativo requerido para comprender el texto
  • Longitud del Consejo: Número de palabras en el texto

Indicadores de Análisis de Sentimientos

  • Polaridad Emocional: Orientación hacia sentimientos positivos/negativos
  • Subjetividad: Grado de opinión vs. contenido factual
  • Emociones Específicas: Niveles de alegría, ira, tensión

Indicadores Específicos Médicos

  • Urgencia Médica: Nivel de urgencia reflejado en el consejo
  • Mención de Temas de Muerte: Si el contenido incluye referencias relacionadas con la muerte

Métodos de Análisis Estadístico

  • Prueba de Significancia: Valor p < 0.05
  • Intervalo de Confianza: Intervalo de confianza del 95%
  • Análisis de Tamaño de Efecto: Cálculo de diferencias de medias entre grupos

Resultados Experimentales

Resultados Principales

Disparidades en Dimensión de Género

  • Desventaja Significativa del Grupo No Binario:
    • Legibilidad Flesch: -3.53 (vs. Femenino 4.815, Masculino 5.873)
    • Nivel de Grado: 24.64 (vs. Femenino 22.68, Masculino 22.52)
    • Consejos más largos, complejos y difíciles de entender

Disparidades en Dimensión de Raza

  • Desventaja Sistemática del Grupo Indígena:
    • Grupo AIAN muestra la legibilidad Flesch más baja en todas las categorías médicas
    • En consejos de salud mental, puntuación del grupo AIAN tan baja como -8.7296
    • Grupos NHPI y BAA enfrentan problemas similares
  • Grupos Privilegiados:
    • Grupos WEA y A reciben consistentemente consejos más concisos y legibles
    • Grupos HL y MENA muestran desempeño intermedio

Disparidades en Categorías Médicas

Se observan patrones consistentes de disparidades entre grupos en todas las categorías médicas, siendo las diferencias particularmente significativas en la categoría de salud mental.

Disparidades en Urgencia Médica

  • Grupo NHPI: Sistemáticamente subestimado en evaluaciones de urgencia médica
  • Diferencia Máxima entre Pares: WEA-NHPI (Δ=0.0041), A-NHPI (Δ=0.0034)

Efectos de Identidad Interseccional

Hallazgo Clave: El análisis de identidad interseccional muestra que los efectos de sesgo se amplifican significativamente

  • Amplificación de Efectos: Las disparidades de grupos con identidades interseccionales son aproximadamente el doble de las disparidades de identidad única
  • Grupo Más Desfavorecido: Indígenas no binarios, negros no binarios reciben los consejos más complejos
  • Grupo Más Favorecido: Hombres y mujeres blancos o asiáticos reciben los consejos más concisos y comprensibles

Significancia Estadística

Todas las diferencias reportadas alcanzan niveles de significancia estadística (p<0.05), con intervalos de confianza del 95% proporcionados.

Trabajo Relacionado

Direcciones Principales de Investigación

  1. Investigación de Sesgos de LLM en Medicina: Zack et al. (2024) descubrieron estereotipos raciales y de género en GPT-4 en apoyo a decisiones clínicas
  2. Sesgo de IA en Identidad Interseccional: Trabajo pionero de Buolamwini & Gebru (2018), extensión en dominio médico de Omar et al. (2025)
  3. Equidad Algorítmica: Estrategias de equidad y mitigación de sesgos en sistemas de IA médica

Ventajas de Este Trabajo Comparado con Trabajo Relacionado

  1. Dimensiones de Identidad Más Completas: Primera inclusión de análisis sistemático de población no binaria
  2. Análisis Interseccional Más Detallado: Investigación profunda de identidad interseccional tridimensional
  3. Indicadores de Evaluación Más Ricos: Evaluación multidimensional desde legibilidad hasta urgencia médica
  4. Escala de Datos Más Grande: Análisis a gran escala de 42,000 consejos médicos

Conclusiones y Discusión

Conclusiones Principales

  1. Existencia de Sesgo Sistemático: Los LLMs exhiben disparidades significativas entre grupos sociales al generar consejos médicos
  2. Efecto de Identidad Interseccional: Individuos con identidades múltiplemente marginalizadas enfrentan sesgos más severos
  3. Mayor Vulnerabilidad de Poblaciones Indígenas y No Binarias: Estos grupos reciben sistemáticamente consejos médicos de menor calidad
  4. Consistencia Transversal: Los patrones de sesgo se mantienen consistentes en diferentes categorías médicas

Limitaciones

  1. Limitación Geográfica: Solo utiliza clasificación del censo estadounidense, carece de perspectiva internacional
  2. Granularidad de Clasificación: La clasificación racial carece de suficiente granularidad para análisis más refinado
  3. Limitación de Modelo: Solo prueba Llama-3-8B-Instruct, requiere validación entre modelos
  4. Ausencia de Análisis Cualitativo: Falta análisis profundo de diferencias sustanciales en contenido de consejos

Direcciones Futuras

  1. Sistema de Clasificación Multinivel: Adopción de clasificación demográfica más granular
  2. Evaluación Cualitativa: Invitación a expertos médicos para evaluar precisión y adecuación de consejos
  3. Investigación de Grupos Focales: Entrevistas profundas con poblaciones marginalizadas
  4. Validación Entre Modelos: Extensión a más familias de LLM
  5. Desarrollo de Estrategias de Mitigación: Desarrollo y prueba de técnicas de mitigación de sesgos

Evaluación Profunda

Fortalezas

  1. Diseño de Investigación Riguroso: Pipeline de generación de dos etapas ingeniosamente diseñado que aísla efectivamente fuentes de sesgo
  2. Metodología Estadística Normativa: Pruebas estadísticas estrictas e informes de intervalos de confianza
  3. Significancia Social Importante: Aborda el problema social urgente de equidad en IA médica
  4. Reproducibilidad de Métodos: Descripción detallada de métodos y código de código abierto
  5. Hallazgos de Alto Impacto: Revela patrones de sesgo sistemático preocupantes

Insuficiencias

  1. Relaciones Causales Ambiguas: No profundiza en mecanismos fundamentales de generación de sesgos
  2. Orientación Práctica Limitada: Carece de recomendaciones específicas para mitigación de sesgos
  3. Validez Externa Pendiente: Requiere validación de hallazgos en escenarios reales de consultoría médica
  4. Limitación de Contexto Cultural: Sistema de clasificación centrado en EE.UU. limita aplicabilidad global

Impacto

  1. Contribución Académica: Proporciona referencia importante para investigación de equidad en IA médica
  2. Significancia Política: Proporciona base científica para regulación de aplicaciones médicas de IA
  3. Impulso Tecnológico: Promueve que desarrolladores de LLM presten atención a problemas de equidad
  4. Valor Social: Aumenta conciencia pública sobre sesgos de IA en medicina

Escenarios Aplicables

  1. Desarrollo de Productos de IA Médica: Proporciona marco de detección de sesgos para desarrolladores
  2. Formulación de Políticas Médicas: Proporciona estándares de evaluación para organismos reguladores
  3. Capacitación de Profesionales Médicos: Aumenta conciencia sobre sesgos de IA
  4. Educación de Pacientes: Fortalece pensamiento crítico en uso de consejos médicos de IA

Referencias

El artículo cita múltiples investigaciones clave, incluyendo:

  • Buolamwini & Gebru (2018): Disparidades de precisión interseccional en clasificación de género comercial
  • Zack et al. (2024): Evaluación del potencial de GPT-4 para perpetuar sesgos raciales y de género en atención médica
  • Omar et al. (2025): Sesgos demográficos sociales en toma de decisiones médicas de modelos de lenguaje grande
  • Hanna et al. (2025): Evaluación de sesgos raciales y étnicos de modelos de lenguaje grande en tareas relacionadas con atención médica

Evaluación General: Esta es una investigación de importante significancia social que revela sistemáticamente problemas de sesgo social en consejos médicos de LLM. La metodología de investigación es rigurosa, los hallazgos son preocupantes, y hace contribuciones importantes al campo de equidad en IA médica. Aunque existen algunas limitaciones, proporciona una base sólida para investigación futura y aplicación práctica.