2025-11-16T17:58:12.985277

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Kondrup, Imouza

With the rapid progress of Large Language Models (LLMs), the general public now has easy and affordable access to applications capable of answering most health-related questions in a personalized manner. These LLMs are increasingly proving to be competitive, and now even surpass professionals in some medical capabilities. They hold particular promise in low-resource settings, considering they provide the possibility of widely accessible, quasi-free healthcare support. However, evaluations that fuel these motivations highly lack insights into the social nature of healthcare, oblivious to health disparities between social groups and to how bias may translate into LLM-generated medical advice and impact users. We provide an exploratory analysis of LLM answers to a series of medical questions spanning key clinical domains, where we simulate these questions being asked by several patient profiles that vary in sex, age range, and ethnicity. By comparing natural language features of the generated responses, we show that, when LLMs are used for medical advice generation, they generate responses that systematically differ between social groups. In particular, Indigenous and intersex patients receive advice that is less readable and more complex. We observe these trends amplify when intersectional groups are considered. Considering the increasing trust individuals place in these models, we argue for higher AI literacy and for the urgent need for investigation and mitigation by AI developers to ensure these systemic differences are diminished and do not translate to unjust patient support. Our code is publicly available on GitHub.

academic

Др. Смещение: Социальные диспропорции в медицинском руководстве на основе ИИ

Основная информация

ID статьи: 2510.09162
Название: Dr. Bias: Social Disparities in AI-Powered Medical Guidance
Авторы: Emma Kondrup (Mila - Quebec AI Institute), Anne Imouza (McGill University)
Классификация: cs.AI cs.CY
Дата публикации/конференция: Принята на Симпозиум по подотчётности моделей, устойчивости и здравоохранению 2025
Ссылка на статью: https://arxiv.org/abs/2510.09162

Аннотация

С быстрым развитием больших языковых моделей (LLM) общественность теперь имеет удобный и экономичный доступ к приложениям, способным персонализированно отвечать на большинство вопросов, связанных со здоровьем. Эти LLM становятся всё более конкурентоспособными в некоторых медицинских возможностях, даже превосходя профессионалов, особенно перспективны в условиях ограниченных ресурсов. Однако оценки, поддерживающие эту мотивацию, серьёзно не учитывают социальную природу здравоохранения, игнорируя различия в здоровье между социальными группами и то, как предубеждения трансформируются в медицинские рекомендации, генерируемые LLM, и влияют на пользователей. В данном исследовании проводится исследовательский анализ ответов LLM на медицинские вопросы в критических клинических областях путём моделирования профилей пациентов различного пола, возраста и расы. Путём сравнения естественно-языковых характеристик сгенерированных ответов исследование выявило, что LLM создают систематические различия при генерировании медицинских рекомендаций для разных социальных групп, в частности пациенты коренного происхождения и небинарные пациенты получают рекомендации с худшей читаемостью и большей сложностью.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: существуют ли систематические социальные предубеждения в больших языковых моделях при предоставлении медицинских рекомендаций, и как эти предубеждения влияют на качество медицинской информации, получаемой различными демографическими группами.

Значимость

Социальная справедливость: С широким применением LLM в медицинском консультировании критически важно обеспечить справедливый и высокого качества доступ к медицинской информации для всех групп населения
Различия в здоровье: Существующие в реальности различия в здоровье могут быть дополнительно расширены через системы ИИ
Растущее доверие: Постоянно растущее доверие общественности к рекомендациям ИИ в области здравоохранения делает проблему предубеждений более актуальной

Ограничения существующих подходов

Отсутствие анализа социального измерения: Существующие оценки медицинских приложений LLM сосредоточены в основном на технической производительности, игнорируя социальную справедливость
Недостаточные исследования пересекающихся идентичностей: Отсутствует глубокий анализ групп с пересекающимися идентичностями (например, коренные небинарные люди)
Отсутствие обнаружения систематических предубеждений: Недостаёт систематического метода для обнаружения и количественной оценки предубеждений в медицинских рекомендациях

Основные вклады

Разработка структуры для обнаружения систематических предубеждений: Построена экспериментальная конвейерная система "Dr. Bias", способная систематически обнаруживать социальные предубеждения в медицинских рекомендациях LLM
Выявление значительных групповых различий: Обнаружены значительные различия в читаемости и сложности медицинских рекомендаций, получаемых коренными и небинарными группами
Доказательство эффектов пересекающихся идентичностей: Впервые систематически доказано, что предубеждения, с которыми сталкиваются группы с пересекающимися идентичностями, значительно усиливаются
Предоставление многомерной аналитической структуры: Анализ предубеждений с нескольких измерений, включая читаемость, анализ эмоций, степень медицинской срочности
Открытие исследовательских инструментов: Полный экспериментальный код и данные опубликованы на GitHub

Подробное описание методологии

Определение задачи

Входные данные: Профили пациентов с различными демографическими характеристиками + медицинские вопросы Выходные данные: Медицинские рекомендации, генерируемые LLM Цель: Обнаружение и количественная оценка систематических различий в качестве медицинских рекомендаций между различными группами

Архитектура экспериментального дизайна

Исследование использует двухэтапный конвейер генерации:

Первый этап: Генерация вопросов

Модель: Llama-3-8B-Instruct
Построение профилей пациентов:
- Возрастные группы: дети, подростки, взрослые, пожилые люди (4 категории)
- Пол: мужской, женский, небинарный (3 категории)
- Раса: 7 основных расовых групп на основе классификации Бюро переписи населения США
  - Коренные американцы или коренные жители Аляски (AIAN)
  - Азиаты (A)
  - Чёрные или афроамериканцы (BAA)
  - Испанцы или латиноамериканцы (HL)
  - Ближневосточные или североафриканцы (MENA)
  - Коренные жители Гавайев или жители тихоокеанских островов (NHPI)
  - Белые или американцы европейского происхождения (WEA)
Итого: 84 профиля пациентов (4×3×7)
Категории вопросов: Кожные, респираторные, сердечные, психическое здоровье, общие медицинские (5 категорий)
Стратегия генерации: Для каждого профиля генерируется 500 вопросов (100 на категорию) с использованием температуры 1,5 для увеличения разнообразия

Второй этап: Генерация медицинских рекомендаций

Общий объём данных: 42 000 медицинских рекомендаций
Формат входных данных: Описание профиля пациента + медицинский вопрос
Измеряемые измерения: Читаемость, анализ эмоций, степень медицинской срочности

Технологические инновации

Анализ пересекающихся идентичностей: Впервые систематически проводится перекрёстный анализ трёх измерений: пола, расы и возраста
Многомерные метрики оценки:
- Индекс читаемости Flesch
- Уровень класса Flesch-Kincaid
- Длина рекомендации
- Полярность эмоций и субъективность
- Оценка степени медицинской срочности
Стратегия стратифицированной выборки: Включение разнообразия эмоциональных тонов и типов запросов при генерации вопросов
Статистическая строгость: Все результаты представлены с 95% доверительными интервалами, сообщаются только статистически значимые результаты (p<0,05)

Экспериментальная установка

Набор данных

Масштаб: 42 000 медицинских рекомендаций, генерируемых LLM
Охват: 84 демографических профиля × 5 медицинских категорий × 100 вопросов/категория
Контроль качества: Использование параметра температуры и разнообразных шаблонов подсказок для обеспечения аутентичности

Метрики оценки

Метрики читаемости

Индекс читаемости Flesch: Более высокие баллы указывают на более легкий для чтения текст
Уровень класса Flesch-Kincaid: Указывает на уровень образования, необходимый для понимания текста
Длина рекомендации: Количество слов в тексте

Метрики анализа эмоций

Полярность эмоций: Положительная/отрицательная эмоциональная ориентация
Субъективность: Степень мнения в сравнении с фактичностью
Специфические эмоции: Уровни радости, гнева, напряжения

Медицинские специфические метрики

Степень медицинской срочности: Уровень срочности, отражённый в рекомендации
Упоминание смерти: Наличие или отсутствие контента, связанного со смертью

Методы статистического анализа

Проверка значимости: p-значение < 0,05
Доверительные интервалы: 95% доверительные интервалы
Анализ величины эффекта: Расчёт различий средних значений между группами

Результаты экспериментов

Основные результаты

Различия по гендерному измерению

Значительный недостаток небинарной группы:
- Индекс читаемости Flesch: -3,53 (против 4,815 для женщин, 5,873 для мужчин)
- Уровень класса: 24,64 (против 22,68 для женщин, 22,52 для мужчин)
- Рекомендации более длинные, сложные и труднее для понимания

Различия по расовому измерению

Систематический недостаток коренного населения:
- Группа AIAN имеет самый низкий индекс читаемости Flesch во всех медицинских категориях
- В рекомендациях по психическому здоровью группа AIAN получает оценку всего -8,7296
- Группы NHPI и BAA сталкиваются с аналогичными проблемами
Привилегированные группы:
- Группы WEA и A постоянно получают самые лаконичные и легко читаемые рекомендации
- Группы HL и MENA показывают среднюю производительность

Различия по категориям медицинских услуг

Последовательные модели групповых различий наблюдаются во всех медицинских категориях, с особенно значительными различиями в категории психического здоровья.

Различия в степени медицинской срочности

Группа NHPI: Систематически недооценивается при оценке степени медицинской срочности
Максимальная разница между парами: WEA-NHPI (Δ=0,0041), A-NHPI (Δ=0,0034)

Эффекты пересекающихся идентичностей

Ключевое открытие: Анализ пересекающихся идентичностей показывает значительное усиление эффектов предубеждений

Удвоение эффекта: Различия для групп с пересекающимися идентичностями примерно в два раза больше, чем для групп с одной идентичностью
Наиболее уязвимые группы: Коренные небинарные люди, чёрные небинарные люди получают самые сложные рекомендации
Наиболее привилегированные группы: Белые или азиатские мужчины/женщины получают самые лаконичные и понятные рекомендации

Статистическая значимость

Все сообщённые различия достигают статистического уровня значимости (p<0,05) с предоставлением 95% доверительных интервалов.

Связанные работы

Основные направления исследований

Исследования предубеждений LLM в медицине: Zack и др. (2024) обнаружили расовые и гендерные стереотипы в GPT-4 при поддержке клинических решений
Предубеждения ИИ в отношении пересекающихся идентичностей: Основополагающая работа Buolamwini & Gebru (2018), расширение в области здравоохранения Omar и др. (2025)
Справедливость алгоритмов: Стратегии справедливости и смягчения предубеждений в системах медицинского ИИ

Преимущества данной работы по сравнению с связанными исследованиями

Более полные измерения идентичности: Впервые включает систематический анализ небинарной группы
Более детальный перекрёстный анализ: Глубокое исследование пересекающихся идентичностей по трём измерениям
Более богатые метрики оценки: Многомерная оценка от читаемости до степени медицинской срочности
Больший масштаб данных: Крупномасштабный анализ 42 000 медицинских рекомендаций

Выводы и обсуждение

Основные выводы

Существование систематических предубеждений: LLM демонстрируют значительные различия между социальными группами при генерировании медицинских рекомендаций
Эффекты пересекающихся идентичностей: Люди с множественными маргинализированными идентичностями сталкиваются с более серьёзными предубеждениями
Наибольшая уязвимость коренного населения и небинарных людей: Эти группы систематически получают медицинские рекомендации более низкого качества
Межсекторная согласованность: Модели предубеждений остаются последовательными во всех медицинских категориях

Ограничения

Географические ограничения: Используется только классификация Бюро переписи населения США, отсутствует международная перспектива
Грубость классификации: Расовая классификация не обладает достаточной детализацией для поддержки тонкого анализа
Ограничения модели: Протестирована только Llama-3-8B-Instruct, требуется проверка на различных моделях
Отсутствие качественного анализа: Недостаёт глубокого анализа существенных различий в содержании рекомендаций

Будущие направления

Многоуровневые системы классификации: Применение более детализированной демографической классификации
Качественная оценка: Привлечение медицинских экспертов для оценки точности и уместности рекомендаций
Исследования фокус-групп: Проведение глубинных интервью с маргинализированными группами
Проверка на различных моделях: Расширение на большее количество семейств LLM
Разработка стратегий смягчения: Разработка и тестирование технологий смягчения предубеждений

Глубокая оценка

Сильные стороны

Строгий дизайн исследования: Двухэтапная конвейерная система тщательно разработана для эффективной изоляции источников предубеждений
Нормативные статистические методы: Строгие статистические проверки и отчётность доверительных интервалов
Значительная социальная значимость: Обращение к срочной социальной проблеме справедливости медицинского ИИ
Воспроизводимость методов: Подробное описание методологии и открытый исходный код
Убедительные результаты: Выявление тревожных моделей систематических предубеждений

Недостатки

Неясные причинно-следственные связи: Не удалось глубоко изучить основные механизмы возникновения предубеждений
Ограниченное практическое руководство: Отсутствуют конкретные рекомендации по смягчению предубеждений
Требуется проверка внешней валидности: Необходимо подтверждение результатов в реальных сценариях медицинского консультирования
Ограничения культурного контекста: Система классификации с центром в США ограничивает глобальную применимость

Влияние

Академический вклад: Предоставляет важный ориентир для исследований справедливости медицинского ИИ
Политическое значение: Предоставляет научные основания для регулирования медицинских приложений ИИ
Технологический импульс: Побуждает разработчиков LLM обращать внимание на проблемы справедливости
Социальная ценность: Повышает осведомлённость общественности о предубеждениях ИИ в здравоохранении

Применимые сценарии

Разработка медицинских продуктов ИИ: Предоставляет разработчикам структуру для обнаружения предубеждений
Разработка медицинской политики: Предоставляет органам регулирования стандарты оценки
Подготовка медицинских работников: Повышает осведомлённость о предубеждениях ИИ
Образование пациентов: Развивает критическое мышление при использовании медицинских рекомендаций ИИ

Библиография

Статья ссылается на ключевые исследования, включая:

Buolamwini & Gebru (2018): Пересекающиеся различия в точности коммерческой классификации пола
Zack et al. (2024): Оценка потенциала GPT-4 продолжать расовые и гендерные предубеждения в здравоохранении
Omar et al. (2025): Социально-демографические предубеждения в медицинских решениях больших языковых моделей
Hanna et al. (2025): Оценка расовых и этнических предубеждений больших языковых моделей в медицинских задачах

Общая оценка: Это исследование имеет важное социальное значение, систематически выявляя проблемы социальных предубеждений в медицинских рекомендациях LLM. Методология исследования строга, результаты вызывают озабоченность и вносят значительный вклад в область справедливости медицинского ИИ. Несмотря на некоторые ограничения, исследование создаёт прочную основу для будущих исследований и практического применения.