We show that human players' gameplay in the game of Wordle is influenced by the semantics, orthography, and phonology of the player's previous guesses. We compare actual human players' guesses with near-optimal guesses using NLP techniques. We study human language use in the constrained environment of Wordle, which is situated between natural language use and the artificial word association task
- ID статьи: 2411.18634
- Название: Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay
- Авторы: Jiadong Liang, Adam Kabbara, Jiaying Liu, Ronaldo Luo, Kina Kim, Michael Guerzhoy (Университет Торонто)
- Категория: cs.CL (Вычислительная лингвистика)
- Дата публикации: 13 ноября 2025 г. (arXiv v2)
- Ссылка на статью: https://arxiv.org/abs/2411.18634
В данном исследовании путём анализа поведения человеческих игроков в игре Wordle выявлены систематические влияния семантических, орфографических и фонологических характеристик предыдущих попыток на процесс угадывания слов. Исследование сравнивает предположения реальных игроков с квазиоптимальной стратегией, основанной на эвристике максимальной энтропии, демонстрируя закономерности когнитивных предубеждений в использовании языка человеком в ограниченной среде, находящейся между свободным использованием естественного языка и искусственными задачами словесных ассоциаций.
Исследование рассматривает, систематически ли отклоняется поведение человека при угадывании слов в Wordle от оптимальной стратегии, и влияют ли эти отклонения на когнитивные предубеждения (в частности, эффект прайминга).
- Ценность для когнитивной науки: Wordle предоставляет уникальную исследовательскую среду, находящуюся между полностью свободным использованием естественного языка и высоко контролируемыми задачами словесных ассоциаций, предлагая новый экологичный сценарий для изучения когнитивных аспектов языка
- Теоретическое значение: Проверка применимости теории эффекта прайминга из психологии в реальных игровых сценариях
- Методологический вклад: Демонстрация использования методов обработки естественного языка для количественной оценки когнитивных предубеждений человека
- Традиционные исследования словесных ассоциаций часто проводятся в искусственных лабораторных условиях, что снижает экологичность
- Сценарии использования естественного языка слишком сложны для контроля переменных
- Отсутствуют систематические исследования когнитивных предубеждений в задачах ограниченного словообразования
Исследователи выдвигают гипотезу:
- Эффект прайминга влияет на выбор слов в игре Wordle
- Люди склонны выбирать слова, похожие на предыдущие попытки, чтобы снизить когнитивную нагрузку
- Эти предубеждения можно количественно оценить путём сравнения с квазиоптимальной стратегией
- Первое систематическое доказательство: Существование когнитивных предубеждений у человека в игре Wordle по трём измерениям: семантическому, орфографическому и фонологическому
- Методология количественной оценки: Предложена полная методология с использованием различных методов обработки естественного языка (встраивания GloVe, расстояние редактирования, фонетическая транскрипция и т.д.) для количественной оценки различий между человеческими и оптимальными стратегиями
- Анализ больших данных: Эмпирическое исследование, основанное на 83 000 реальных игровых данных, собранных с Reddit
- Обнаружение зависимости от контекста: Выявлена связь между интенсивностью когнитивного предубеждения и степенью ограничения игрового состояния — чем больше свобода, тем более выраженное предубеждение
- Междисциплинарный вклад: Предоставляет парадигму кросс-дисциплинарного исследования для когнитивной психологии, вычислительной лингвистики и исследований игр
Входные данные: Последовательность попыток в игре Wordle
Выходные данные: Количественная оценка различий между предположениями человека и квазиоптимальной стратегией по нескольким измерениям
Ограничения:
- Каждое предположение должно быть действительным пятибуквенным английским словом
- Игроки корректируют последующие попытки на основе обратной связи (зелёный/жёлтый/серый)
- Цель — угадать целевое слово в течение 6 попыток
Исследование использует решатель на основе энтропии Doddle в качестве квазиоптимальной стратегии:
- Оптимальное решение (Bertsimas & Paskov 2024): Метод динамического программирования, среднее количество попыток 3,421
- Эвристика минимакса глубины 1: Наихудший случай 5 попыток, среднее 3,482 попытки
- Эвристика энтропии (используется в данном исследовании): Гарантирует завершение за 6 попыток, среднее 3,432 попытки
Причина выбора эвристики вместо точного оптимального решения — вычислительная эффективность, но различие в производительности минимально (всего 0,011 попытки).
- Определение: Минимальное количество операций редактирования (вставка, удаление, замена), необходимых для преобразования одного слова в другое
- Когнитивное значение: Меньшее расстояние указывает на склонность игрока выбирать слова со схожей структурой, что может отражать стремление снизить когнитивные усилия
- Расчёт: Сравнение расстояния редактирования между последовательными попытками
- Определение: Отрицательное косинусное сходство векторов слов GloVe
- Формула: dsemantic=1−cos(va,vb), где va,vb — векторы слов
- Когнитивное значение: Проверка, склонны ли люди угадывать семантически связанные слова (например, "BREAD" после "TOAST")
- Определение: Количество позиций, в которых различаются символы двух строк одинаковой длины
- Когнитивное значение: Более строгое, чем расстояние Левенштейна, сосредоточено только на различиях в фиксированных позициях, лучше соответствует механике обратной связи Wordle
- Реализация: Использование словаря произношения CMU для фонетической транскрипции
- Критерий определения: Совершенная рифма — совпадение фонетического окончания и наличие ударного гласного
- Когнитивное значение: Проверка влияния фонологического сходства на выбор слов
Игровое состояние кодируется символом (cg, cy, cb):
- cg: Количество зелёных квадратов (правильная буква в правильной позиции)
- cy: Количество жёлтых квадратов (правильная буква в неправильной позиции)
- cb: Количество серых квадратов (неправильная буква)
Пример: (2, 0, 3) означает 2 зелёных, 0 жёлтых, 3 серых квадрата.
- Размер эффекта: Использование Cohen's d для измерения различий между распределениями человека и оптимальной стратегии
d=σpooledμhuman−μoptimal
- Проверка значимости: Расчёт p-значения на основе t-статистики
- Слоистый анализ: Отдельный анализ по игровым состояниям для выявления влияния степени ограничения
Источник: Подраздел r/Wordle на Reddit
Масштаб: 83 000 записей игр
Метод сбора: Использование регулярных выражений для извлечения данных игр, которыми пользователи делятся в стандартном формате
Поставщик данных: Дамп данных Reddit от Watchful1 (2023)
Временной диапазон: Июнь 2005 г. — декабрь 2023 г.
Характеристики данных:
- Поведение реальных игроков в естественной игровой среде
- Добровольное распространение, возможна предвзятость отбора
- Ограничено английской версией игры Wordle
- Cohen's d: Количественная оценка размера эффекта
- |d| < 0,2: Малый эффект
- 0,2 ≤ |d| < 0,5: Средний эффект
- |d| ≥ 0,5: Большой эффект
- P-значение: Статистическая значимость (пороговое значение p < 0,001)
- Визуализация распределения: Гистограммы, скрипичные диаграммы, диаграммы размаха
Единственный базовый показатель: Решатель на основе энтропии Doddle
- Метод представляет квазиоптимальную стратегию
- Производительность близка к теоретически оптимальной (отличие всего 0,011 попытки)
- Вычислительно осуществимо, может генерировать оптимальные предположения для всех 83 000 записей данных
- Модель GloVe: Предварительно обученные векторы слов (Pennington et al. 2014)
- Библиотека произношения: CMU Pronouncing Dictionary
- Расстояние редактирования: Стандартный алгоритм Левенштейна
- Анализ корреляции: Коэффициент корреляции Пирсона
- Визуализация: Использование matplotlib и seaborn в Python
- Оптимальная стратегия: 7,3% предположений рифмуются с предыдущей попыткой
- Человеческие игроки: 9,3% предположений рифмуются с предыдущей попыткой
- Значимость: p < 0,001
- Интерпретация: Люди значительно склонны выбирать фонологически похожие слова
Случай 1: (0, 0, 5) — полностью неинформативное состояние
- Cohen's d = -0,0854 (расстояние Левенштейна)
- Люди и оптимальная стратегия склонны выбирать слова с расстоянием 5 (полностью различные)
- Однако люди субоптимально повторно используют известные неправильные буквы (см. рис. 1a)
Случай 2: (2, 0, 3) — частично ограниченное состояние
- Cohen's d = -1,13 (расстояние Левенштейна, большой эффект)
- p < 10^-12
- Люди значительно недооценивают исследование: склонны выбирать слова, похожие на предыдущие (см. рис. 1b)
- Это один из самых сильных сигналов предубеждения
Случай 1: (0, 0, 5) — неограниченное состояние
- Cohen's d = -0,437 (расстояние GloVe)
- p = 1,07×10^-189
- Люди склонны выбирать семантически более близкие слова (см. рис. 1c)
Случай 2: (3, 2, 0) — высоко ограниченное состояние
- Cohen's d = 0,00451
- p = 0,318 (не значимо)
- При сильном ограничении семантическое предубеждение исчезает (см. рис. 1d)
Случай 1: (0, 0, 5)
- Cohen's d = 0,157
- Люди субоптимально повторно используют известные неправильные символы (см. рис. 1e)
Случай 2: (2, 2, 1)
- Cohen's d = 0,289
- Люди субоптимально используют новые символы вместо оптимизации известной информации (см. рис. 1f)
Количество зелёных квадратов и предубеждение:
- Чем больше зелёных (сильнее ограничение), тем меньше семантическое предубеждение
- 0 зелёных: Cohen's d примерно -0,4 до -0,6
- 4 зелёных: Cohen's d близко к 0
Количество серых квадратов и предубеждение:
- Чем больше серых (больше информации об исключении), тем слабее предубеждение
- Указывает на то, что при усилении ограничения люди ближе к оптимальной стратегии
Ключевое открытие:
"Люди проявляют более сильные когнитивные предубеждения при большой свободе действий и приближаются к оптимальной стратегии при высоком ограничении"
Расстояние Левенштейна и Хэмминга:
- Все пары слов: Pearson r = 0,95 (сильная корреляция)
- Различие символов < 5: Pearson r = 0,81
- Интерпретация: Оба измеряют орфографическое сходство, высоко коррелированы
Расстояние Левенштейна и семантическое расстояние GloVe:
- Pearson r = 0,06 (слабая корреляция)
- Интерпретация: Орфографическое сходство и семантическое сходство практически независимы
- Значение: Семантическое и орфографическое предубеждения — это независимо действующие когнитивные механизмы (см. рис. 2)
Хотя в статье не приводятся конкретные примеры пар слов, из результатов можно вывести:
Пример семантического предубеждения:
- Последовательность предположений может включать: "BREAD" → "TOAST" → "ROAST"
- Семантическое поле остаётся в области пищи/кулинарии
Пример орфографического предубеждения:
- В состоянии (2,0,3): "CRANE" → "CRATE" → "CRAZE"
- Сохранение префикса с постепенной корректировкой
Пример фонологического предубеждения:
- Рифмующаяся последовательность: "LIGHT" → "FIGHT" → "SIGHT"
Schacter & Buckner (1998):
- Определение прайминга как явления, при котором прошлый опыт бессознательно влияет на поведение
- Данное исследование применяет эту теорию к игровым сценариям
Nelson et al. (1987):
- Исследование влияния рифмовки на память и словесные ассоциации
- Обнаружение: Эффект рифмовки проявляется только когда испытуемые активно обращают внимание на рифму
- Соответствует результатам данного исследования о 9,3% vs 7,3% фонологическом предубеждении
Deese (1962), De Deyne & Storms (2008):
- Исследование влияния грамматических категорий на словесные ассоциации
- Предоставляет теоретическую основу для семантического предубеждения в данном исследовании
Steyvers & Tenenbaum (2005):
- Анализ разреженности сетей словесных ассоциаций (каждое слово связано только с 0,44% других слов)
- Словесные сети демонстрируют свойства малого мира и степенное распределение
- Поддерживает гипотезу данного исследования о семантическом предубеждении
Bertsimas & Paskov (2024):
- Использование динамического программирования для нахождения точного оптимального решения
- Лучшее начальное слово: "SALET"
- Минимальное среднее количество попыток: 3,421
Cross (2022) - Doddle:
- Эвристика минимакса глубины 1: среднее 3,482 попытки
- Эвристика энтропии: среднее 3,432 попытки
- Базовый метод, используемый в данном исследовании
Underwood et al. (1994):
- Исследование способности экспертов кроссвордов к извлечению слов
- Обнаружение: Эксперты лучше справляются с анаграммами и манипуляциями морфемами
- Указывает на то, что извлечение слов и фонологическое осознание критичны для задач ограниченного словообразования
- Предоставляет доказательства аналогичных механизмов в Wordle
Matusevych & Stevenson (2018):
- Исследование словесных ассоциаций человека на основе свойств слов
- Данное исследование расширяет это на игровые сценарии
Luo et al. (2025):
- Прогнозирование эмоциональных реакций в игре Wordle
- Использование аналогичных признаков, но сосредоточение на эмоциях, а не на когнитивных предубеждениях
Отличия от связанных работ:
- Экологичность: Реальные игровые данные vs. лабораторные задачи
- Многомерность: Одновременное рассмотрение семантического, орфографического и фонологического измерений
- Зависимость от контекста: Выявление роли степени ограничения в модулировании предубеждений
- Вычислительный метод: Использование методов обработки естественного языка для количественной оценки когнитивных предубеждений
- Существование систематических предубеждений: Предположения человека в Wordle систематически отклоняются от оптимальной стратегии, проявляясь в:
- Семантическом измерении: Склонность выбирать семантически связанные со своими предыдущими предположениями слова
- Орфографическом измерении: Склонность выбирать слова с меньшим расстоянием редактирования
- Фонологическом измерении: Более частый выбор рифмующихся слов (9,3% vs 7,3%)
- Неслучайность предубеждений: Эти предубеждения не являются случайными ошибками, а отражают закономерности когнитивной обработки
- Модулирующая роль ограничения:
- При высокой свободе действий (например, 0g0y5b) предубеждения наиболее выражены
- При высоком ограничении (например, 3g2y0b) люди приближаются к оптимальной стратегии
- Указывает на то, что когнитивные предубеждения более выражены в творческих задачах
- Независимые механизмы: Слабая корреляция между семантическим и орфографическим предубеждениями (r=0,06) указывает на независимые когнитивные процессы
- Ценность исследовательской парадигмы: Wordle предоставляет идеальную исследовательскую среду между использованием естественного языка и искусственными экспериментальными задачами
Статья явно обсуждает следующие ограничения в разделе 8:
- Предвзятость источника данных:
- Зависимость от добровольно поделённых данных Reddit
- Возможность эффекта отбора (игроки с лучшими результатами более склонны делиться)
- Пользователи Reddit могут не представлять общую популяцию
- Демографические факторы:
- Отсутствие информации о возрасте, образовании, языковом происхождении игроков
- Невозможность контролировать эти смешивающие переменные
- Языковые ограничения:
- Исследование ограничено английской версией Wordle
- Результаты могут не применяться к другим языкам
- Вычислительное приближение:
- Использование эвристики вместо точного оптимального решения (хотя различие минимально)
- Причинно-следственный вывод:
- Наблюдательное исследование не может полностью установить причинно-следственные связи
- Невозможно исключить альтернативные объяснения (например, игроки намеренно выбирают интересные слова)
Хотя статья не содержит явного списка, можно вывести следующие направления:
- Кросс-языковые исследования: Проверка выводов в версиях Wordle на других языках
- Экспериментальная проверка: Разработка контролируемых экспериментов для прямого манипулирования стимулами прайминга
- Индивидуальные различия: Исследование различий между игроками разного уровня навыков и когнитивных стилей
- Временная динамика: Анализ того, как предубеждения эволюционируют по ходу игры
- Расширение приложений: Применение методологии к другим задачам ограниченного творчества
- Междисциплинарная интеграция: Умелое сочетание теории когнитивной психологии с методами обработки естественного языка
- Высокая экологичность: Использование реальных игровых данных вместо лабораторных задач
- Многомерное измерение: Одновременное рассмотрение трёх независимых измерений: семантического, орфографического и фонологического
- Контекстная чувствительность: Обнаружение модулирующей роли степени ограничения, повышающее объяснительную силу
- Большой размер выборки: 83 000 записей данных обеспечивают достаточную статистическую мощность
- Отчётность о размере эффекта: Не только p-значения, но и Cohen's d
- Систематический анализ: Слоистый анализ по игровым состояниям (рис. 3, 4)
- Проверка независимости показателей: Проверка корреляции между показателями (r=0,06)
- Новые доказательства эффекта прайминга: Проверка классической теории в естественном игровом сценарии
- Ограничение и творчество: Выявление закономерности, что ограничение снижает когнитивные предубеждения
- Независимые механизмы: Доказательство независимого действия семантического и орфографического предубеждений
- Логичная структура от предпосылок к методологии и результатам
- Эффективная визуализация (сравнение на рис. 1 интуитивно понятно)
- Ясная система обозначений (cg, cy, cb)
- Наблюдательное исследование не может установить причинно-следственные связи
- Невозможно исключить альтернативные объяснения:
- Игроки могут намеренно выбирать интересные/рифмующиеся слова для увеличения удовольствия от игры
- Доступность слов (некоторые слова легче вспомнить) может смешиваться с эффектом прайминга
- Пользователи Reddit могут быть моложе и более технически подкованы
- Добровольное распространение может селективно исключать неудачные игры
- Отсутствие демографической информации затрудняет оценку обобщаемости
- Недостаточное исследование почему ограничение снижает предубеждения
- Изменение распределения когнитивных ресурсов?
- Или естественный результат сокращения пространства доступных слов?
- Отсутствие обсуждения индивидуальных различий (все игроки рассматриваются как однородная группа)
- Не указано, как обрабатывались пропущенные данные или выбросы
- Не обсуждается проблема множественных сравнений (проведено множество проверок гипотез)
- Не указаны конкретные параметры модели GloVe (размерность, корпус обучения)
- Рассмотрены только последовательные два предположения, не учитывается более длинная история
- Не контролируется влияние начального слова (разные начальные слова могут вызывать разные предубеждения)
- Не анализируется сложность игры (некоторые целевые слова могут быть изначально сложнее)
- При большом размере выборки почти любое различие будет значимым (p<0,001)
- Размер эффекта более важен, но некоторые эффекты небольшие (например, -0,0854)
- Не проведена коррекция для множественных сравнений (Bonferroni или FDR)
- Когнитивная наука: Новые экологичные доказательства эффекта прайминга
- Вычислительная лингвистика: Демонстрация применения методов обработки естественного языка в когнитивных исследованиях
- Исследования игр: Открытие парадигмы использования игр как когнитивной лаборатории
- Предоставляет воспроизводимый процесс анализа
- Открытые инструменты (Doddle) облегчают последующие исследования
- Данные общедоступны (данные Reddit)
- Дизайн игр: Понимание поведения игроков может оптимизировать сложность игры
- Образовательные приложения: Wordle можно использовать для обучения словарю, понимание когнитивных предубеждений помогает разработать вмешательства
- Вспомогательный ИИ: Можно разработать интеллектуальные системы подсказок, учитывающие человеческие предубеждения
- Предвзятость данных может ограничить обобщаемость
- Слабый причинно-следственный вывод снижает практическую ценность
- Требуется экспериментальная проверка
- Анализ других словесных игр (Spelling Bee, Scrabble)
- Исследование когнитивных предубеждений в задачах ограниченного творчества
- Разработка игрового ИИ, учитывающего человеческие предубеждения
- Образовательные технологии: Дизайн программного обеспечения для обучения словарю
- Взаимодействие человека и компьютера: Понимание поведения пользователя в сценариях ограниченного ввода
- Когнитивная оценка: Wordle как инструмент тестирования когнитивных функций
- Полностью свободное творческое письмо (слишком мало ограничений)
- Языки, отличные от английского (требуется переповерка)
- Задачи, не связанные со словами (например, числовые игры)
Высокая:
- Данные общедоступны (Reddit)
- Использование открытых инструментов (Doddle)
- Ясное описание методологии
- Стандартные статистические методы
Потенциальные препятствия:
- Версия модели GloVe не указана явно
- Недостаточно деталей о предварительной обработке данных
- Требования к вычислительным ресурсам (83 000 записей)
- Bertsimas & Paskov (2024): Оптимальное решение Wordle с использованием динамического программирования
- Schacter & Buckner (1998): Нейронаучные основы эффекта прайминга
- Nelson et al. (1987): Влияние рифмовки на словесные ассоциации и память
- Steyvers & Tenenbaum (2005): Крупномасштабная структура семантических сетей
- Pennington et al. (2014): Метод встраивания слов GloVe
- Underwood et al. (1994): Извлечение слов у экспертов кроссвордов
- Levelt (1989): Модель извлечения слов при речепроизводстве
Это высокого качества исследовательская работа с сильной методологической инновацией, строгой эмпирией и значительным междисциплинарным значением. Её основная ценность заключается в:
- Новаторском использовании Wordle как "квазиестественной лаборатории" для когнитивных исследований
- Систематической количественной оценке когнитивных предубеждений по трём независимым измерениям
- Обнаружении важной закономерности о модулирующей роли ограничения на предубеждения
Основные недостатки связаны с ограничениями причинно-следственного вывода и проблемами репрезентативности данных, но это неотъемлемые ограничения наблюдательных исследований, которые не снижают ценность работы как разведывательного исследования.
Статья предоставляет прочную основу для последующих исследований, особенно в области когнитивной науки игр и экологичных исследований обработки естественного языка. Рекомендуется проведение контролируемых экспериментов для дальнейшей проверки причинных механизмов и расширение на более разнообразные популяции и языки.
Рекомендуемая аудитория: Исследователи и студенты в области когнитивной науки, вычислительной лингвистики, исследований игр и взаимодействия человека и компьютера.