2025-11-24T04:01:17.739487

Large Language Models are overconfident and amplify human bias

Sun, Li, Wang et al.

Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.

academic

Большие языковые модели чрезмерно уверены и усиливают человеческие предубеждения

Основная информация

ID статьи: 2505.02151
Название: Large Language Models are overconfident and amplify human bias
Авторы: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
Классификация: cs.SE (Программная инженерия), cs.CY (Компьютеры и общество)
Время публикации: Май 2025 г. (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2505.02151v2

Аннотация

Большие языковые модели (LLMs) революционизируют различные аспекты общества и все чаще используются для замены человеческой оценки и рассуждений при решении задач. Поскольку LLMs обучаются на контенте, написанном людьми, они подвергаются воздействию человеческих предубеждений. В данном исследовании оценивается, унаследовали ли LLMs одно из наиболее распространённых человеческих предубеждений: чрезмерную уверенность. Исследователи алгоритмически создали задачи рассуждения с известными правильными ответами, побудили LLMs ответить на эти вопросы и оценили уверенность в своих ответах. Исследование показало, что все пять изученных LLMs проявляют чрезмерную уверенность: они переоценивают вероятность правильности своих ответов на 20-60%. Хотя точность человека сопоставима с более продвинутыми LLMs, степень чрезмерной уверенности значительно ниже. Когда LLMs менее уверены в ответах, их предубеждение по сравнению с человеком резко возрастает. Исследование также показало, что входные данные LLM оказывают сложное влияние на принятие решений человеком: хотя они повышают точность, чрезмерная уверенность увеличивается более чем в два раза.

Предпосылки и мотивация исследования

Определение проблемы

Основной вопрос, который решает данное исследование: унаследовали ли большие языковые модели и усилили ли предубеждение человека о чрезмерной уверенности? Этот вопрос имеет важное значение по следующим причинам:

Широкий спектр применения: LLMs все чаще используются в задачах решения проблем, требующих тщательного рассуждения и оценки
Предубеждения в данных обучения: LLMs обучаются на контенте, написанном людьми, и естественным образом подвергаются воздействию человеческих предубеждений
Влияние на принятие решений: Доказано, что чрезмерная уверенность влияет на принятие решений в нескольких профессиональных и повседневных областях

Значимость исследования

Чрезмерная уверенность является одним из наиболее распространённых предубеждений в человеческом суждении и оказала негативное влияние в нескольких областях:

Профессиональная сфера: Чрезмерно уверенные менеджеры более склонны к убыточным слияниям и поглощениям
Повседневное поведение: Влияет на привычки упражнений, выбор диеты и финансовые инвестиционные решения
Способность к обучению: Может привести к сохранению предубеждений вместо обучения на основе обратной связи

Ограничения существующих исследований

Существующие исследования калибровки LLM имеют следующие основные проблемы:

Главным образом полагаются на стандартные наборы данных вопросов и ответов, которые LLMs, вероятно, видели во время обучения
Отсутствуют исследования уверенности в задачах, требующих способности к рассуждению
Недостаточно изучено влияние уверенности LLM на принятие решений человеком

Основные вклады

Первая систематическая оценка: Комплексная оценка предубеждения чрезмерной уверенности пяти основных LLMs
Инновационный дизайн эксперимента: Создание 10 000 алгоритмически сгенерированных задач рассуждения, обеспечивающих минимальное загрязнение обучающих данных
Анализ сравнения человека и машины: Прямое сравнение LLM и человека в одинаковых задачах
Открытие градиента уверенности: Выявление "эффекта Даннинга-Крюгера" с резким увеличением предубеждения LLM при неуверенности
Исследование влияния на решения человека: Количественная оценка двойного влияния входных данных LLM на точность и предубеждение человека
Анализ эффектов благосостояния: Построение теоретической модели для анализа влияния воздействия LLM на благосостояние

Подробное описание методологии

Определение задач

Исследование разработало три взаимосвязанных эксперимента:

Оценка чрезмерной уверенности LLM: Измерение точности и уверенности LLMs в задачах рассуждения
Тестирование человека: Оценка производительности человека в одинаковых задачах
Эксперимент воздействия LLM: Тестирование влияния входных данных LLM на принятие решений человеком

Метод генерации вопросов

Извлечение троек

Извлечение структурированных троек (субъект, предикат, объект) из Wikidata, охватывающих десять популярных категорий.

Правила логического рассуждения

Реализация пяти типов рассуждений:

Отрицательное рассуждение: Вывод отрицания из фактических знаний
Симметричное рассуждение: Обмен субъектом и объектом в симметричных отношениях
Обратное рассуждение: Связывание субъекта и объекта через обратные отношения
Транзитивное рассуждение: Цепное рассуждение для создания новых троек
Составное рассуждение: Комбинирование нескольких базовых правил рассуждения

Проверка вопросов

Использование механизма логического вывода Prolog для автоматического рассуждения, ручная проверка компонентов предиката, окончательное сохранение 476 предикатов и соответствующих троек.

Измерение уверенности

Использование специально разработанных подсказок для одновременного получения:

Уверенности в правильности ответа
Уверенности в правильности фактических знаний
Уверенности в правильности процесса рассуждения

Оценка сходства

Разработка алгоритмов для вычисления сходства между ответами LLM и стандартными ответами:

Фактическое сходство: На основе совпадения субъекта и сходства объекта
Сходство рассуждения: Оценка совпадения предиката и объекта

Экспериментальная установка

Набор данных

Масштаб: 10 000 сбалансированных задач рассуждения
Распределение: 5 типов рассуждений × 10 областей знаний, по 200 задач на каждую комбинацию
Человеческий базис: Выбор 2 000 задач для экспериментов с людьми

Выбор моделей

Тестирование пяти репрезентативных LLMs:

Закрытые модели: GPT-3.5, GPT-4o, GPT-o1
Открытые модели: Llama 3.1 8B, Llama 3.2 3B

Метрики оценки

Точность: Доля правильных ответов
Уверенность: Самостоятельно сообщённая вероятность правильности
Предубеждение: Разница между уверенностью и точностью
Градиент уверенности: Изменение точности относительно уверенности

Дизайн экспериментов с людьми

Платформа: Онлайн-платформа Prolific
Механизм стимулирования: Следование механизму истинного стимулирования Danz et al. (2022)
Выборка: 588 участников в базовом эксперименте, 1 161 участник в эксперименте воздействия

Результаты экспериментов

Проявление чрезмерной уверенности LLM

Основные выводы

Все пять LLMs проявляют значительную чрезмерную уверенность:

GPT-3.5: Точность 35%, уверенность 94%, предубеждение 59%
GPT-4o: Точность 63%, уверенность 94%, предубеждение 30%
GPT-o1: Точность 73%, уверенность 95%, предубеждение 22%
Llama 3.1: Точность 63%, уверенность 86%, предубеждение 23%
Llama 3.2: Точность 61%, уверенность 94%, предубеждение 33%

Анализ градиента уверенности

Более продвинутые модели показывают более сильный градиент уверенности:

GPT-4o и GPT-o1: Снижение уверенности на 10% соответствует снижению точности примерно на 25%
Llama 3.1: Снижение уверенности на 10% соответствует снижению точности примерно на 13%

Результаты сравнения человека и машины

Сравнение производительности

Точность человека: 66% (сопоставима с GPT-4o и Llama 3.1)
Уверенность человека: 70% (только 4% чрезмерной уверенности)
Ключевое различие: Человек уменьшает предубеждение при неуверенности, LLMs делают противоположное

Эффект Даннинга-Крюгера

LLMs проявляют более сильный эффект Даннинга-Крюгера, чем люди:

При полной уверенности точность LLM составляет 79-85% (всё ещё 15-21% предубеждения)
Люди при неуверенности в конечном итоге проявляют лёгкую недооценку (точность 54% против ожидаемых 50%)

Влияние воздействия LLM на людей

Повышение точности

Группа с ответами LLM: Повышение точности на 5,6 процентных пункта
Группа с ответами LLM + уверенность: Повышение точности на 7,0 процентных пункта

Усиление предубеждения

Группа с ответами LLM: Увеличение предубеждения на 4,2 процентных пункта (удвоение)
Группа с ответами LLM + уверенность: Увеличение предубеждения на 7,6 процентных пункта (почти утроение)

Гетерогенные эффекты

Участники с низкой базовой уверенностью получают наибольшую пользу:

Повышение точности на 8,6-11,9 процентных пункта
Но предубеждение также увеличивается на 7,0-14,1 процентных пункта

Связанные работы

Исследования калибровки LLM

Существующие исследования используют три основных подхода для измерения уверенности LLM:

Оценка на основе логитов: Требует доступа к внутренним параметрам модели
Прямое побуждение уверенности: Прямой вопрос через подсказки
Метод вспомогательной модели: От прогнозов одной модели к интеграции из нескольких источников

Инновация данного исследования заключается в использовании алгоритмически сгенерированных вопросов для обеспечения минимального загрязнения обучающих данных.

Исследования чрезмерной уверенности

Влияние чрезмерной уверенности в нескольких областях:

Корпоративные решения: Влияние на выбор финансирования и решения о слияниях и поглощениях
Личное поведение: Влияние на выбор здоровья и инвестиционные решения
Процесс обучения: Может привести к сохранению предубеждений вместо адаптивного обучения

Взаимодействие человека и машины

Развивающиеся исследования изучают, как люди реагируют на (потенциально предвзятые) входные данные ИИ, и данное исследование вносит важный вклад в эту область.

Выводы и обсуждение

Основные выводы

Универсальная чрезмерная уверенность: Все протестированные LLMs проявляют значительную чрезмерную уверенность, намного превышающую человеческий уровень
Эффект Даннинга-Крюгера: LLMs резко увеличивают предубеждение при неуверенности, не осознавая границ своих знаний
Двойное влияние: Входные данные LLM, хотя и повышают точность человека, значительно увеличивают чрезмерную уверенность
Сложность благосостояния: В среде, требующей инвестиционных решений, увеличенное предубеждение может компенсировать выигрыши в точности

Теоретические идеи

Механизм эффекта Даннинга-Крюгера

LLMs "застревают" в своей прогностической модели:

Не могут осознать знания, отсутствующие в обучающих данных
Формируют оценки точности на основе обучающих данных
Не имеют интуитивного понимания человека о границах знаний

Теоретическая модель благосостояния

Построена модель благосостояния, учитывающая точность и предубеждение:

Когда инвестиции имеют высокую эластичность по отношению к вероятности успеха, негативное влияние чрезмерной уверенности больше
Даже при повышении точности воздействие LLM может снизить общее благосостояние

Ограничения

Область задач: Ограничивается задачами рассуждения с бинарным выбором
Версии моделей: Результаты могут измениться с обновлением моделей
Культурные различия: Эксперименты с людьми в основном основаны на англоговорящих пользователях
Временные эффекты: Не учитываются долгосрочные эффекты обучения и адаптации

Практическое значение

Руководство для пользователей

Предоставляет новый эталон для оценки способности LLM к рассуждению
Подчёркивает необходимость сохранения надлежащого скептицизма в отношении рекомендаций LLM

Вдохновение для исследований

Подчёркивает важность оценки поведенческих предубеждений LLM
Предоставляет парадигму для исследования других когнитивных предубеждений
Способствует междисциплинарному сотрудничеству между поведенческой наукой и информатикой

Глубокая оценка

Преимущества

Методологическая инновативность:
- Алгоритмически сгенерированные вопросы минимизируют загрязнение обучающих данных
- Многомерное измерение уверенности (ответ, факт, рассуждение)
- Строгий дизайн экспериментов с человеком и машиной
Достаточность экспериментов:
- Крупномасштабные эксперименты (10 000 вопросов LLM, 5 000+ ответов человека)
- Проверки надёжности на нескольких моделях и настройках температуры
- Подробные абляционные исследования и проверка воспроизводимости
Теоретический вклад:
- Первое выявление эффекта Даннинга-Крюгера в LLM
- Построение аналитической базы для анализа благосостояния при воздействии LLM
- Предоставление новой перспективы на калибровку уверенности
Практическая ценность:
- Предоставляет важные соображения безопасности для применения LLM
- Имеет прямое руководящее значение для проектирования систем ИИ
- Предоставляет научные основания для разработки нормативно-правовой базы

Недостатки

Ограничения задач:
- Рассмотрены только задачи с бинарным выбором, которые могут не полностью представлять реальные сценарии применения
- Типы рассуждений относительно просты, отсутствуют более сложные многошаговые рассуждения
Методы измерения:
- Измерение уверенности зависит от самоотчёта, что может привести к чувствительности к подсказкам
- Алгоритм оценки сходства может вносить субъективность
Репрезентативность выборки:
- Эксперименты с людьми в основном основаны на пользователях онлайн-платформ
- Отсутствует разнообразие в различных культурных контекстах и профессиональных областях
Долгосрочные эффекты:
- Не учитываются эффекты обучения при повторном воздействии
- Отсутствует проверка экологической валидности в реальных средах принятия решений

Оценка влияния

Академическое влияние

Теоретический вклад: Открывает новое направление в исследовании поведенческих предубеждений LLM
Методологическая ценность: Предоставляет воспроизводимую экспериментальную парадигму
Междисциплинарное значение: Связывает ИИ, когнитивную науку и поведенческую экономику

Практическое влияние

Промышленное применение: Влияет на дизайн и развёртывание продуктов LLM
Образовательная ценность: Повышает осведомлённость общественности об ограничениях систем ИИ
Разработка политики: Предоставляет научные основания для управления ИИ

Применимые сценарии

Высокорисковые решения: Медицинская диагностика, финансовые инвестиции и другие сценарии, требующие оценки точности
Образовательные приложения: Необходимо учитывать влияние чрезмерной уверенности на результаты обучения
Сотрудничество человека и машины: Разработка лучших механизмов передачи уверенности
Безопасность ИИ: Разработка более надёжных методов количественной оценки неопределённости

Направления будущих исследований

Расширение типов задач: Исследование более сложных задач рассуждения и открытых вопросов
Кросс-культурная проверка: Проверка универсальности выводов в различных культурных контекстах
Механизмы вмешательства: Разработка методов обучения и подсказок для снижения чрезмерной уверенности
Долгосрочные эффекты: Исследование процессов обучения и адаптации при повторных взаимодействиях
Другие предубеждения: Систематическое исследование других когнитивных предубеждений в LLM

Библиография

Статья цитирует богатую литературу, охватывающую:

Исследования чрезмерной уверенности в поведенческой экономике (Kahneman, 2011; Moore and Healy, 2008)
Калибровку LLM и количественную оценку неопределённости (Tian et al., 2023; Wei et al., 2024)
Взаимодействие человека и машины и предубеждения ИИ (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
Классические исследования эффекта Даннинга-Крюгера (Kruger and Dunning, 1999)

Данное исследование предоставляет важные идеи для понимания и улучшения надёжности больших языковых моделей и имеет глубокое значение для безопасности ИИ и сотрудничества человека и машины. Выявляя проблему чрезмерной уверенности LLM, исследование указывает направление развития более надёжных систем ИИ.