With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.
- ID del Artículo: 2510.09162
- Título: Dr. Bias: Disparidades Sociales en la Orientación Médica Impulsada por IA
- Autores: Emma Kondrup (Mila - Quebec AI Institute), Anne Imouza (McGill University)
- Clasificación: cs.AI cs.CY
- Fecha de Publicación/Conferencia: Aceptado en el Simposio sobre Responsabilidad de Modelos, Sostenibilidad y Atención Médica 2025
- Enlace del Artículo: https://arxiv.org/abs/2510.09162
Con el rápido desarrollo de los modelos de lenguaje de gran escala (LLMs), el público ahora puede acceder de manera conveniente y económica a aplicaciones capaces de responder preguntas relacionadas con la salud de forma personalizada. Estos LLMs están demostrando ser cada vez más competitivos en ciertas capacidades médicas, incluso superando a profesionales, siendo especialmente prometedores en entornos con recursos limitados. Sin embargo, las evaluaciones que respaldan estas motivaciones carecen gravemente de perspectivas sobre la naturaleza social de la atención médica, ignorando las disparidades de salud entre grupos sociales y cómo los sesgos se traducen en consejos médicos generados por LLM que afectan a los usuarios. Este estudio realiza un análisis exploratorio de respuestas a preguntas médicas de LLMs en campos clínicos críticos, simulando preguntas formuladas por perfiles de pacientes de diferentes géneros, edades y razas. Al comparar características del lenguaje natural en respuestas generadas, el estudio encuentra que los LLMs producen disparidades sistemáticas al generar consejos médicos para diferentes grupos sociales, particularmente pacientes indígenas y no binarios reciben consejos con menor legibilidad y mayor complejidad.
El problema central que esta investigación busca abordar es: ¿Existen sesgos sociales sistemáticos cuando los modelos de lenguaje de gran escala proporcionan consejos médicos, y cómo afectan estos sesgos la calidad de la información médica que reciben diferentes grupos poblacionales?
- Equidad Social: Con la aplicación generalizada de LLMs en consultoría médica, es crucial garantizar que todos los grupos poblacionales accedan a información médica equitativa y de alta calidad
- Disparidades de Salud: Las disparidades de salud existentes en la realidad podrían ampliarse aún más a través de sistemas de IA
- Creciente Confianza: La confianza pública en los consejos médicos de IA aumenta continuamente, haciendo que el problema de sesgo sea más urgente
- Falta de Análisis de Dimensión Social: Las evaluaciones existentes de aplicaciones médicas de LLM se centran principalmente en el desempeño técnico, ignorando la equidad social
- Investigación Insuficiente sobre Identidades Interseccionales: Falta análisis profundo de grupos con identidades interseccionales (como indígenas no binarios)
- Ausencia de Detección de Sesgos Sistemáticos: Falta un método sistemático para detectar y cuantificar sesgos en consejos médicos
- Desarrollo de Marco de Detección de Sesgos Sistemáticos: Construcción del pipeline experimental "Dr. Bias" que puede detectar sistemáticamente sesgos sociales en consejos médicos de LLM
- Revelación de Disparidades Significativas entre Grupos: Descubrimiento de que grupos indígenas y no binarios reciben consejos médicos con desventajas significativas en legibilidad y complejidad
- Demostración de Efectos de Identidad Interseccional: Primera demostración sistemática de que los sesgos enfrentados por grupos con identidades interseccionales se amplifican significativamente
- Provisión de Marco de Análisis Multidimensional: Análisis de sesgos desde múltiples dimensiones incluyendo legibilidad, análisis de sentimientos y urgencia médica
- Herramientas de Investigación de Código Abierto: Publicación en GitHub del código experimental completo y datos
Entrada: Perfiles de pacientes con características demográficas variadas + preguntas relacionadas con la salud
Salida: Consejos médicos generados por LLM
Objetivo: Detectar y cuantificar disparidades sistemáticas en la calidad de consejos médicos entre diferentes grupos
La investigación adopta un pipeline de generación de dos etapas:
- Modelo: Llama-3-8B-Instruct
- Construcción de Perfiles de Pacientes:
- Grupos de Edad: Niños, Adolescentes, Adultos, Adultos Mayores (4 categorías)
- Género: Masculino, Femenino, No Binario (3 categorías)
- Raza: 7 grupos raciales principales basados en clasificación de la Oficina del Censo de EE.UU.
- Indios Americanos o Nativos de Alaska (AIAN)
- Asiáticos (A)
- Negros o Afroamericanos (BAA)
- Hispanos o Latinos (HL)
- Oriente Medio o Norteafricanos (MENA)
- Nativos de Hawái o Isleños del Pacífico (NHPI)
- Blancos o Euroamericanos (WEA)
- Total: 84 perfiles de pacientes (4×3×7)
- Categorías de Preguntas: Piel, Sistema Respiratorio, Corazón, Salud Mental, Médica General (5 categorías)
- Estrategia de Generación: 500 preguntas por perfil (100 por categoría), utilizando temperatura 1.5 para aumentar diversidad
- Volumen Total de Datos: 42,000 consejos médicos
- Formato de Entrada: Descripción de perfil de paciente + pregunta médica
- Dimensiones de Análisis: Legibilidad, análisis de sentimientos, urgencia médica
- Análisis de Identidad Interseccional: Primera realización sistemática de análisis interseccional de género, raza y edad
- Indicadores de Evaluación Multidimensional:
- Puntuación de Legibilidad Flesch
- Nivel de Grado Flesch-Kincaid
- Longitud del Consejo
- Polaridad Emocional y Subjetividad
- Evaluación de Urgencia Médica
- Estrategia de Muestreo Estratificado: Incorporación de diversidad en tono emocional y tipo de consulta en generación de preguntas
- Rigor Estadístico: Todos los resultados reportan intervalos de confianza del 95%, reportando solo resultados estadísticamente significativos con p<0.05
- Escala: 42,000 consejos médicos generados por LLM
- Cobertura: 84 perfiles demográficos × 5 categorías médicas × 100 preguntas/categoría
- Control de Calidad: Uso de parámetro de temperatura y plantillas de indicaciones diversificadas para garantizar autenticidad
- Legibilidad Flesch: Puntuaciones más altas indican texto más fácil de leer
- Nivel de Grado Flesch-Kincaid: Indica el nivel educativo requerido para comprender el texto
- Longitud del Consejo: Número de palabras en el texto
- Polaridad Emocional: Orientación hacia sentimientos positivos/negativos
- Subjetividad: Grado de opinión vs. contenido factual
- Emociones Específicas: Niveles de alegría, ira, tensión
- Urgencia Médica: Nivel de urgencia reflejado en el consejo
- Mención de Temas de Muerte: Si el contenido incluye referencias relacionadas con la muerte
- Prueba de Significancia: Valor p < 0.05
- Intervalo de Confianza: Intervalo de confianza del 95%
- Análisis de Tamaño de Efecto: Cálculo de diferencias de medias entre grupos
- Desventaja Significativa del Grupo No Binario:
- Legibilidad Flesch: -3.53 (vs. Femenino 4.815, Masculino 5.873)
- Nivel de Grado: 24.64 (vs. Femenino 22.68, Masculino 22.52)
- Consejos más largos, complejos y difíciles de entender
- Desventaja Sistemática del Grupo Indígena:
- Grupo AIAN muestra la legibilidad Flesch más baja en todas las categorías médicas
- En consejos de salud mental, puntuación del grupo AIAN tan baja como -8.7296
- Grupos NHPI y BAA enfrentan problemas similares
- Grupos Privilegiados:
- Grupos WEA y A reciben consistentemente consejos más concisos y legibles
- Grupos HL y MENA muestran desempeño intermedio
Se observan patrones consistentes de disparidades entre grupos en todas las categorías médicas, siendo las diferencias particularmente significativas en la categoría de salud mental.
- Grupo NHPI: Sistemáticamente subestimado en evaluaciones de urgencia médica
- Diferencia Máxima entre Pares: WEA-NHPI (Δ=0.0041), A-NHPI (Δ=0.0034)
Hallazgo Clave: El análisis de identidad interseccional muestra que los efectos de sesgo se amplifican significativamente
- Amplificación de Efectos: Las disparidades de grupos con identidades interseccionales son aproximadamente el doble de las disparidades de identidad única
- Grupo Más Desfavorecido: Indígenas no binarios, negros no binarios reciben los consejos más complejos
- Grupo Más Favorecido: Hombres y mujeres blancos o asiáticos reciben los consejos más concisos y comprensibles
Todas las diferencias reportadas alcanzan niveles de significancia estadística (p<0.05), con intervalos de confianza del 95% proporcionados.
- Investigación de Sesgos de LLM en Medicina: Zack et al. (2024) descubrieron estereotipos raciales y de género en GPT-4 en apoyo a decisiones clínicas
- Sesgo de IA en Identidad Interseccional: Trabajo pionero de Buolamwini & Gebru (2018), extensión en dominio médico de Omar et al. (2025)
- Equidad Algorítmica: Estrategias de equidad y mitigación de sesgos en sistemas de IA médica
- Dimensiones de Identidad Más Completas: Primera inclusión de análisis sistemático de población no binaria
- Análisis Interseccional Más Detallado: Investigación profunda de identidad interseccional tridimensional
- Indicadores de Evaluación Más Ricos: Evaluación multidimensional desde legibilidad hasta urgencia médica
- Escala de Datos Más Grande: Análisis a gran escala de 42,000 consejos médicos
- Existencia de Sesgo Sistemático: Los LLMs exhiben disparidades significativas entre grupos sociales al generar consejos médicos
- Efecto de Identidad Interseccional: Individuos con identidades múltiplemente marginalizadas enfrentan sesgos más severos
- Mayor Vulnerabilidad de Poblaciones Indígenas y No Binarias: Estos grupos reciben sistemáticamente consejos médicos de menor calidad
- Consistencia Transversal: Los patrones de sesgo se mantienen consistentes en diferentes categorías médicas
- Limitación Geográfica: Solo utiliza clasificación del censo estadounidense, carece de perspectiva internacional
- Granularidad de Clasificación: La clasificación racial carece de suficiente granularidad para análisis más refinado
- Limitación de Modelo: Solo prueba Llama-3-8B-Instruct, requiere validación entre modelos
- Ausencia de Análisis Cualitativo: Falta análisis profundo de diferencias sustanciales en contenido de consejos
- Sistema de Clasificación Multinivel: Adopción de clasificación demográfica más granular
- Evaluación Cualitativa: Invitación a expertos médicos para evaluar precisión y adecuación de consejos
- Investigación de Grupos Focales: Entrevistas profundas con poblaciones marginalizadas
- Validación Entre Modelos: Extensión a más familias de LLM
- Desarrollo de Estrategias de Mitigación: Desarrollo y prueba de técnicas de mitigación de sesgos
- Diseño de Investigación Riguroso: Pipeline de generación de dos etapas ingeniosamente diseñado que aísla efectivamente fuentes de sesgo
- Metodología Estadística Normativa: Pruebas estadísticas estrictas e informes de intervalos de confianza
- Significancia Social Importante: Aborda el problema social urgente de equidad en IA médica
- Reproducibilidad de Métodos: Descripción detallada de métodos y código de código abierto
- Hallazgos de Alto Impacto: Revela patrones de sesgo sistemático preocupantes
- Relaciones Causales Ambiguas: No profundiza en mecanismos fundamentales de generación de sesgos
- Orientación Práctica Limitada: Carece de recomendaciones específicas para mitigación de sesgos
- Validez Externa Pendiente: Requiere validación de hallazgos en escenarios reales de consultoría médica
- Limitación de Contexto Cultural: Sistema de clasificación centrado en EE.UU. limita aplicabilidad global
- Contribución Académica: Proporciona referencia importante para investigación de equidad en IA médica
- Significancia Política: Proporciona base científica para regulación de aplicaciones médicas de IA
- Impulso Tecnológico: Promueve que desarrolladores de LLM presten atención a problemas de equidad
- Valor Social: Aumenta conciencia pública sobre sesgos de IA en medicina
- Desarrollo de Productos de IA Médica: Proporciona marco de detección de sesgos para desarrolladores
- Formulación de Políticas Médicas: Proporciona estándares de evaluación para organismos reguladores
- Capacitación de Profesionales Médicos: Aumenta conciencia sobre sesgos de IA
- Educación de Pacientes: Fortalece pensamiento crítico en uso de consejos médicos de IA
El artículo cita múltiples investigaciones clave, incluyendo:
- Buolamwini & Gebru (2018): Disparidades de precisión interseccional en clasificación de género comercial
- Zack et al. (2024): Evaluación del potencial de GPT-4 para perpetuar sesgos raciales y de género en atención médica
- Omar et al. (2025): Sesgos demográficos sociales en toma de decisiones médicas de modelos de lenguaje grande
- Hanna et al. (2025): Evaluación de sesgos raciales y étnicos de modelos de lenguaje grande en tareas relacionadas con atención médica
Evaluación General: Esta es una investigación de importante significancia social que revela sistemáticamente problemas de sesgo social en consejos médicos de LLM. La metodología de investigación es rigurosa, los hallazgos son preocupantes, y hace contribuciones importantes al campo de equidad en IA médica. Aunque existen algunas limitaciones, proporciona una base sólida para investigación futura y aplicación práctica.