Large language models (LLMs) are revolutionizing every aspect of society. They are increasingly used in problem-solving tasks to substitute human assessment and reasoning. LLMs are trained on what humans write and are thus exposed to human bias. We evaluate whether LLMs inherit one of the most widespread human biases: overconfidence. We algorithmically construct reasoning problems with known ground truths. We prompt LLMs to answer these problems and assess the confidence in their answers, closely following similar protocols in human experiments. We find that all five LLMs we study are overconfident: they overestimate the probability that their answer is correct between 20% and 60%. Humans have accuracy similar to the more advanced LLMs, but far lower overconfidence. Although humans and LLMs are similarly biased in questions which they are certain they answered correctly, a key difference emerges between them: LLM bias increases sharply relative to humans if they become less sure that their answers are correct. We also show that LLM input has ambiguous effects on human decision making: LLM input leads to an increase in the accuracy, but it more than doubles the extent of overconfidence in the answers.
- ID статьи: 2505.02151
- Название: Large Language Models are overconfident and amplify human bias
- Авторы: Fengfei Sun, Ningke Li, Kailong Wang, Lorenz Goette
- Классификация: cs.SE (Программная инженерия), cs.CY (Компьютеры и общество)
- Время публикации: Май 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2505.02151v2
Большие языковые модели (LLMs) революционизируют различные аспекты общества и все чаще используются для замены человеческой оценки и рассуждений при решении задач. Поскольку LLMs обучаются на контенте, написанном людьми, они подвергаются воздействию человеческих предубеждений. В данном исследовании оценивается, унаследовали ли LLMs одно из наиболее распространённых человеческих предубеждений: чрезмерную уверенность. Исследователи алгоритмически создали задачи рассуждения с известными правильными ответами, побудили LLMs ответить на эти вопросы и оценили уверенность в своих ответах. Исследование показало, что все пять изученных LLMs проявляют чрезмерную уверенность: они переоценивают вероятность правильности своих ответов на 20-60%. Хотя точность человека сопоставима с более продвинутыми LLMs, степень чрезмерной уверенности значительно ниже. Когда LLMs менее уверены в ответах, их предубеждение по сравнению с человеком резко возрастает. Исследование также показало, что входные данные LLM оказывают сложное влияние на принятие решений человеком: хотя они повышают точность, чрезмерная уверенность увеличивается более чем в два раза.
Основной вопрос, который решает данное исследование: унаследовали ли большие языковые модели и усилили ли предубеждение человека о чрезмерной уверенности? Этот вопрос имеет важное значение по следующим причинам:
- Широкий спектр применения: LLMs все чаще используются в задачах решения проблем, требующих тщательного рассуждения и оценки
- Предубеждения в данных обучения: LLMs обучаются на контенте, написанном людьми, и естественным образом подвергаются воздействию человеческих предубеждений
- Влияние на принятие решений: Доказано, что чрезмерная уверенность влияет на принятие решений в нескольких профессиональных и повседневных областях
Чрезмерная уверенность является одним из наиболее распространённых предубеждений в человеческом суждении и оказала негативное влияние в нескольких областях:
- Профессиональная сфера: Чрезмерно уверенные менеджеры более склонны к убыточным слияниям и поглощениям
- Повседневное поведение: Влияет на привычки упражнений, выбор диеты и финансовые инвестиционные решения
- Способность к обучению: Может привести к сохранению предубеждений вместо обучения на основе обратной связи
Существующие исследования калибровки LLM имеют следующие основные проблемы:
- Главным образом полагаются на стандартные наборы данных вопросов и ответов, которые LLMs, вероятно, видели во время обучения
- Отсутствуют исследования уверенности в задачах, требующих способности к рассуждению
- Недостаточно изучено влияние уверенности LLM на принятие решений человеком
- Первая систематическая оценка: Комплексная оценка предубеждения чрезмерной уверенности пяти основных LLMs
- Инновационный дизайн эксперимента: Создание 10 000 алгоритмически сгенерированных задач рассуждения, обеспечивающих минимальное загрязнение обучающих данных
- Анализ сравнения человека и машины: Прямое сравнение LLM и человека в одинаковых задачах
- Открытие градиента уверенности: Выявление "эффекта Даннинга-Крюгера" с резким увеличением предубеждения LLM при неуверенности
- Исследование влияния на решения человека: Количественная оценка двойного влияния входных данных LLM на точность и предубеждение человека
- Анализ эффектов благосостояния: Построение теоретической модели для анализа влияния воздействия LLM на благосостояние
Исследование разработало три взаимосвязанных эксперимента:
- Оценка чрезмерной уверенности LLM: Измерение точности и уверенности LLMs в задачах рассуждения
- Тестирование человека: Оценка производительности человека в одинаковых задачах
- Эксперимент воздействия LLM: Тестирование влияния входных данных LLM на принятие решений человеком
Извлечение структурированных троек (субъект, предикат, объект) из Wikidata, охватывающих десять популярных категорий.
Реализация пяти типов рассуждений:
- Отрицательное рассуждение: Вывод отрицания из фактических знаний
- Симметричное рассуждение: Обмен субъектом и объектом в симметричных отношениях
- Обратное рассуждение: Связывание субъекта и объекта через обратные отношения
- Транзитивное рассуждение: Цепное рассуждение для создания новых троек
- Составное рассуждение: Комбинирование нескольких базовых правил рассуждения
Использование механизма логического вывода Prolog для автоматического рассуждения, ручная проверка компонентов предиката, окончательное сохранение 476 предикатов и соответствующих троек.
Использование специально разработанных подсказок для одновременного получения:
- Уверенности в правильности ответа
- Уверенности в правильности фактических знаний
- Уверенности в правильности процесса рассуждения
Разработка алгоритмов для вычисления сходства между ответами LLM и стандартными ответами:
- Фактическое сходство: На основе совпадения субъекта и сходства объекта
- Сходство рассуждения: Оценка совпадения предиката и объекта
- Масштаб: 10 000 сбалансированных задач рассуждения
- Распределение: 5 типов рассуждений × 10 областей знаний, по 200 задач на каждую комбинацию
- Человеческий базис: Выбор 2 000 задач для экспериментов с людьми
Тестирование пяти репрезентативных LLMs:
- Закрытые модели: GPT-3.5, GPT-4o, GPT-o1
- Открытые модели: Llama 3.1 8B, Llama 3.2 3B
- Точность: Доля правильных ответов
- Уверенность: Самостоятельно сообщённая вероятность правильности
- Предубеждение: Разница между уверенностью и точностью
- Градиент уверенности: Изменение точности относительно уверенности
- Платформа: Онлайн-платформа Prolific
- Механизм стимулирования: Следование механизму истинного стимулирования Danz et al. (2022)
- Выборка: 588 участников в базовом эксперименте, 1 161 участник в эксперименте воздействия
Все пять LLMs проявляют значительную чрезмерную уверенность:
- GPT-3.5: Точность 35%, уверенность 94%, предубеждение 59%
- GPT-4o: Точность 63%, уверенность 94%, предубеждение 30%
- GPT-o1: Точность 73%, уверенность 95%, предубеждение 22%
- Llama 3.1: Точность 63%, уверенность 86%, предубеждение 23%
- Llama 3.2: Точность 61%, уверенность 94%, предубеждение 33%
Более продвинутые модели показывают более сильный градиент уверенности:
- GPT-4o и GPT-o1: Снижение уверенности на 10% соответствует снижению точности примерно на 25%
- Llama 3.1: Снижение уверенности на 10% соответствует снижению точности примерно на 13%
- Точность человека: 66% (сопоставима с GPT-4o и Llama 3.1)
- Уверенность человека: 70% (только 4% чрезмерной уверенности)
- Ключевое различие: Человек уменьшает предубеждение при неуверенности, LLMs делают противоположное
LLMs проявляют более сильный эффект Даннинга-Крюгера, чем люди:
- При полной уверенности точность LLM составляет 79-85% (всё ещё 15-21% предубеждения)
- Люди при неуверенности в конечном итоге проявляют лёгкую недооценку (точность 54% против ожидаемых 50%)
- Группа с ответами LLM: Повышение точности на 5,6 процентных пункта
- Группа с ответами LLM + уверенность: Повышение точности на 7,0 процентных пункта
- Группа с ответами LLM: Увеличение предубеждения на 4,2 процентных пункта (удвоение)
- Группа с ответами LLM + уверенность: Увеличение предубеждения на 7,6 процентных пункта (почти утроение)
Участники с низкой базовой уверенностью получают наибольшую пользу:
- Повышение точности на 8,6-11,9 процентных пункта
- Но предубеждение также увеличивается на 7,0-14,1 процентных пункта
Существующие исследования используют три основных подхода для измерения уверенности LLM:
- Оценка на основе логитов: Требует доступа к внутренним параметрам модели
- Прямое побуждение уверенности: Прямой вопрос через подсказки
- Метод вспомогательной модели: От прогнозов одной модели к интеграции из нескольких источников
Инновация данного исследования заключается в использовании алгоритмически сгенерированных вопросов для обеспечения минимального загрязнения обучающих данных.
Влияние чрезмерной уверенности в нескольких областях:
- Корпоративные решения: Влияние на выбор финансирования и решения о слияниях и поглощениях
- Личное поведение: Влияние на выбор здоровья и инвестиционные решения
- Процесс обучения: Может привести к сохранению предубеждений вместо адаптивного обучения
Развивающиеся исследования изучают, как люди реагируют на (потенциально предвзятые) входные данные ИИ, и данное исследование вносит важный вклад в эту область.
- Универсальная чрезмерная уверенность: Все протестированные LLMs проявляют значительную чрезмерную уверенность, намного превышающую человеческий уровень
- Эффект Даннинга-Крюгера: LLMs резко увеличивают предубеждение при неуверенности, не осознавая границ своих знаний
- Двойное влияние: Входные данные LLM, хотя и повышают точность человека, значительно увеличивают чрезмерную уверенность
- Сложность благосостояния: В среде, требующей инвестиционных решений, увеличенное предубеждение может компенсировать выигрыши в точности
LLMs "застревают" в своей прогностической модели:
- Не могут осознать знания, отсутствующие в обучающих данных
- Формируют оценки точности на основе обучающих данных
- Не имеют интуитивного понимания человека о границах знаний
Построена модель благосостояния, учитывающая точность и предубеждение:
- Когда инвестиции имеют высокую эластичность по отношению к вероятности успеха, негативное влияние чрезмерной уверенности больше
- Даже при повышении точности воздействие LLM может снизить общее благосостояние
- Область задач: Ограничивается задачами рассуждения с бинарным выбором
- Версии моделей: Результаты могут измениться с обновлением моделей
- Культурные различия: Эксперименты с людьми в основном основаны на англоговорящих пользователях
- Временные эффекты: Не учитываются долгосрочные эффекты обучения и адаптации
- Предоставляет новый эталон для оценки способности LLM к рассуждению
- Подчёркивает необходимость сохранения надлежащого скептицизма в отношении рекомендаций LLM
- Текущие цели обучения приоритизируют беглость над точностью
- Необходимо разработать встроенные механизмы коррекции неопределённости
- Рекомендуется интегрировать механизмы проверки для контроля процесса рассуждения
- Подчёркивает важность оценки поведенческих предубеждений LLM
- Предоставляет парадигму для исследования других когнитивных предубеждений
- Способствует междисциплинарному сотрудничеству между поведенческой наукой и информатикой
- Методологическая инновативность:
- Алгоритмически сгенерированные вопросы минимизируют загрязнение обучающих данных
- Многомерное измерение уверенности (ответ, факт, рассуждение)
- Строгий дизайн экспериментов с человеком и машиной
- Достаточность экспериментов:
- Крупномасштабные эксперименты (10 000 вопросов LLM, 5 000+ ответов человека)
- Проверки надёжности на нескольких моделях и настройках температуры
- Подробные абляционные исследования и проверка воспроизводимости
- Теоретический вклад:
- Первое выявление эффекта Даннинга-Крюгера в LLM
- Построение аналитической базы для анализа благосостояния при воздействии LLM
- Предоставление новой перспективы на калибровку уверенности
- Практическая ценность:
- Предоставляет важные соображения безопасности для применения LLM
- Имеет прямое руководящее значение для проектирования систем ИИ
- Предоставляет научные основания для разработки нормативно-правовой базы
- Ограничения задач:
- Рассмотрены только задачи с бинарным выбором, которые могут не полностью представлять реальные сценарии применения
- Типы рассуждений относительно просты, отсутствуют более сложные многошаговые рассуждения
- Методы измерения:
- Измерение уверенности зависит от самоотчёта, что может привести к чувствительности к подсказкам
- Алгоритм оценки сходства может вносить субъективность
- Репрезентативность выборки:
- Эксперименты с людьми в основном основаны на пользователях онлайн-платформ
- Отсутствует разнообразие в различных культурных контекстах и профессиональных областях
- Долгосрочные эффекты:
- Не учитываются эффекты обучения при повторном воздействии
- Отсутствует проверка экологической валидности в реальных средах принятия решений
- Теоретический вклад: Открывает новое направление в исследовании поведенческих предубеждений LLM
- Методологическая ценность: Предоставляет воспроизводимую экспериментальную парадигму
- Междисциплинарное значение: Связывает ИИ, когнитивную науку и поведенческую экономику
- Промышленное применение: Влияет на дизайн и развёртывание продуктов LLM
- Образовательная ценность: Повышает осведомлённость общественности об ограничениях систем ИИ
- Разработка политики: Предоставляет научные основания для управления ИИ
- Высокорисковые решения: Медицинская диагностика, финансовые инвестиции и другие сценарии, требующие оценки точности
- Образовательные приложения: Необходимо учитывать влияние чрезмерной уверенности на результаты обучения
- Сотрудничество человека и машины: Разработка лучших механизмов передачи уверенности
- Безопасность ИИ: Разработка более надёжных методов количественной оценки неопределённости
- Расширение типов задач: Исследование более сложных задач рассуждения и открытых вопросов
- Кросс-культурная проверка: Проверка универсальности выводов в различных культурных контекстах
- Механизмы вмешательства: Разработка методов обучения и подсказок для снижения чрезмерной уверенности
- Долгосрочные эффекты: Исследование процессов обучения и адаптации при повторных взаимодействиях
- Другие предубеждения: Систематическое исследование других когнитивных предубеждений в LLM
Статья цитирует богатую литературу, охватывающую:
- Исследования чрезмерной уверенности в поведенческой экономике (Kahneman, 2011; Moore and Healy, 2008)
- Калибровку LLM и количественную оценку неопределённости (Tian et al., 2023; Wei et al., 2024)
- Взаимодействие человека и машины и предубеждения ИИ (Barocas and Selbst, 2016; Rambachan and Roth, 2020)
- Классические исследования эффекта Даннинга-Крюгера (Kruger and Dunning, 1999)
Данное исследование предоставляет важные идеи для понимания и улучшения надёжности больших языковых моделей и имеет глубокое значение для безопасности ИИ и сотрудничества человека и машины. Выявляя проблему чрезмерной уверенности LLM, исследование указывает направление развития более надёжных систем ИИ.