2025-11-14T03:31:11.744871

Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay

Liang, Kabbara, Liu et al.

We show that human players' gameplay in the game of Wordle is influenced by the semantics, orthography, and phonology of the player's previous guesses. We compare actual human players' guesses with near-optimal guesses using NLP techniques. We study human language use in the constrained environment of Wordle, which is situated between natural language use and the artificial word association task

academic

Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay

基本信息

论文ID: 2411.18634
标题: Semantic, Orthographic, and Phonological Biases in Humans' Wordle Gameplay
作者: Jiadong Liang, Adam Kabbara, Jiaying Liu, Ronaldo Luo, Kina Kim, Michael Guerzhoy (University of Toronto)
分类: cs.CL (Computational Linguistics)
发表时间: 2025年11月13日 (arXiv v2)
论文链接: https://arxiv.org/abs/2411.18634

摘要

本研究通过分析Wordle游戏中人类玩家的行为，揭示了人类猜词过程受到先前猜测的语义、拼写和语音特征的系统性影响。研究将真实人类玩家的猜测与基于最大熵启发式的近最优策略进行对比，展示了在这个介于自然语言使用和人工词汇联想任务之间的约束环境中，人类语言使用的认知偏差模式。

研究背景与动机

1. 研究问题

本研究探讨人类在Wordle游戏中的猜词行为是否系统性地偏离最优策略，以及这些偏离是否受到认知偏差（特别是启动效应priming）的影响。

2. 问题重要性

认知科学价值：Wordle提供了一个独特的研究环境，介于完全自由的自然语言使用和高度受控的词汇联想任务之间，为研究人类语言认知提供了新的生态化场景
理论意义：验证心理学中的启动效应理论在真实游戏场景中的适用性
方法论贡献：展示如何利用NLP技术量化人类认知偏差

3. 现有研究局限

传统词汇联想研究多在实验室人工任务中进行，缺乏生态效度
自然语言使用场景过于复杂，难以控制变量
缺乏对约束性词汇生成任务中认知偏差的系统性研究

4. 研究动机

研究者假设：

启动效应（priming）会影响Wordle游戏中的猜词选择
人类倾向于选择与先前猜测相似的词汇以减少认知负荷
这些偏差可以通过与近最优策略的对比被量化

核心贡献

首次系统性证明：人类在Wordle游戏中存在语义、拼写和语音三个维度的认知偏差
量化方法：提出了一套完整的方法论，使用多种NLP技术（GloVe嵌入、编辑距离、语音转录等）量化人类与最优策略的差异
大规模数据分析：基于Reddit收集的83,000条真实游戏数据进行实证研究
情境依赖发现：揭示了认知偏差的强度与游戏状态约束程度的关系——自由度越大，偏差越明显
跨学科贡献：为认知心理学、计算语言学和游戏研究提供了交叉领域的研究范式

方法详解

任务定义

输入：Wordle游戏中连续的猜测序列
输出：量化人类猜测与近最优策略在多个维度上的差异
约束条件：

每个猜测必须是5字母的有效英文单词
玩家根据反馈（绿色/黄色/灰色）调整后续猜测
目标是在6次尝试内猜中目标单词

近最优策略基准

研究使用Doddle的基于熵的启发式求解器作为近最优策略：

最优解（Bertsimas & Paskov 2024）：动态规划方法，平均猜测次数3.421
深度1极小极大启发式：最坏情况5次，平均3.482次
熵启发式（本研究采用）：保证6次内完成，平均3.432次

选择启发式而非精确最优解的原因是计算效率，但性能差异极小（仅0.011次猜测）。

测量指标体系

1. Levenshtein距离（拼写相似度）

定义：将一个单词转换为另一个单词所需的最少编辑操作次数（插入、删除、替换）
认知意义：较小的距离表明玩家倾向于选择结构相似的词汇，可能反映了减少认知努力的倾向
计算：比较连续两次猜测之间的编辑距离

2. 语义距离（GloVe）

定义：使用GloVe词嵌入的负余弦相似度
公式： $d_{semantic} = 1 - \cos(v_a, v_b)$ ，其中 $v_a, v_b$ 是词向量
认知意义：检验人类是否倾向于猜测语义相关的词汇（如"BREAD"后猜"TOAST"）

3. Hamming距离（位置特定差异）

定义：两个等长字符串对应位置不同字符的数量
认知意义：比Levenshtein更严格，只关注固定位置的差异，更符合Wordle的反馈机制

4. 韵律匹配（Rhyme）

实现：使用CMU发音词典进行语音转录
判定标准：完美韵（perfect rhyme）——语音结尾匹配且包含重读元音
认知意义：检验语音相似性是否影响词汇选择

游戏状态编码

使用符号 (cg, cy, cb) 表示游戏状态：

cg：绿色方块数量（正确字母在正确位置）
cy：黄色方块数量（正确字母在错误位置）
cb：灰色方块数量（错误字母）

例如：(2, 0, 3)表示2个绿色、0个黄色、3个灰色。

统计分析方法

效应量：使用Cohen's d衡量人类与近最优策略分布的差异 $d = \frac{\mu_{human} - \mu_{optimal}}{\sigma_{pooled}}$
显著性检验：基于t统计量计算p值
分层分析：按游戏状态分别分析，揭示约束程度对偏差的影响

实验设置

数据集

来源：Reddit的r/Wordle子版块
规模：83,000条游戏记录
收集方法：使用正则表达式提取用户以标准格式分享的游戏数据
数据提供者：Watchful1 (2023)的Reddit数据转储
时间范围：2005-06至2023-12

数据特点：

真实玩家在自然游戏环境中的行为
自愿分享，可能存在选择偏差
仅限英语Wordle游戏

评价指标

Cohen's d：量化效应大小
- |d| < 0.2：小效应
- 0.2 ≤ |d| < 0.5：中等效应
- |d| ≥ 0.5：大效应
p值：统计显著性（阈值p < 0.001）
分布可视化：直方图、小提琴图、箱线图

对比方法

唯一基准：Doddle的基于熵的启发式求解器

该方法代表近最优策略
性能接近理论最优（仅差0.011次猜测）
计算可行，可为所有83,000条数据生成对应的最优猜测

实现细节

GloVe模型：预训练的词向量（Pennington et al. 2014）
发音库：CMU Pronouncing Dictionary
编辑距离：标准Levenshtein算法
相关性分析：Pearson相关系数
可视化：使用Python的matplotlib和seaborn

最优策略：7.3%的猜测与前一次押韵
人类玩家：9.3%的猜测与前一次押韵
显著性：p < 0.001
解释：人类显著倾向于选择语音相似的词汇

2. 拼写偏差（状态依赖）

案例1：(0, 0, 5) - 完全无信息状态

Cohen's d = -0.0854 (Levenshtein)
人类和最优策略都倾向于选择距离5的词（完全不同）
但人类亚优地重复使用已知错误的字母（见图1a）

案例2：(2, 0, 3) - 部分约束状态

Cohen's d = -1.13 (Levenshtein，大效应)
p < 10^-12
人类显著低估探索：倾向于选择与前次相似的词（见图1b）
这是最强的偏差信号之一

3. 语义偏差（状态依赖）

案例1：(0, 0, 5) - 无约束

Cohen's d = -0.437 (GloVe距离)
p = 1.07×10^-189
人类倾向于选择语义更接近的词（见图1c）

案例2：(3, 2, 0) - 高度约束

Cohen's d = 0.00451
p = 0.318（不显著）
约束强时，语义偏差消失（见图1d）

4. Hamming距离偏差

案例1：(0, 0, 5)

Cohen's d = 0.157
人类亚优地重用已知错误的字符（见图1e）

案例2：(2, 2, 1)

Cohen's d = 0.289
人类亚优地使用新字符而非优化已知信息（见图1f）

系统性模式

约束与偏差的关系（图3和图4）

绿色方块数量与偏差：

绿色越多（约束越强），语义偏差越小
0个绿色：Cohen's d约-0.4至-0.6
4个绿色：Cohen's d接近0

灰色方块数量与偏差：

灰色越多（排除信息越多），偏差减弱
表明约束增强时，人类更接近最优策略

关键发现：

"人类在自由度大时表现出更强的认知偏差，而在高度约束时接近最优策略"

跨指标相关性分析

Levenshtein与Hamming：

所有词对：Pearson r = 0.95（强相关）
字符差异<5：Pearson r = 0.81
解释：两者都测量拼写相似度，高度相关

Levenshtein与GloVe语义距离：

Pearson r = 0.06（弱相关）
解释：拼写相似度与语义相似度基本独立
意义：语义和拼写偏差是独立运作的认知机制（见图2）

案例分析

虽然论文未提供具体词对案例，但从结果可推断：

语义偏差示例：

猜测序列可能包含："BREAD" → "TOAST" → "ROAST"
语义场保持在食物/烹饪领域

拼写偏差示例：

在(2,0,3)状态："CRANE" → "CRATE" → "CRAZE"
保留前缀，逐步调整

语音偏差示例：

押韵序列："LIGHT" → "FIGHT" → "SIGHT"

结论与讨论

主要结论

系统性偏差存在：人类在Wordle中的猜测系统性地偏离最优策略，表现在：
- 语义维度：倾向于选择与先前猜测语义相关的词
- 拼写维度：倾向于选择编辑距离较小的词
- 语音维度：更频繁地选择押韵的词（9.3% vs 7.3%）
偏差非随机：这些偏差不是随机误差，而是反映了认知加工的规律性
约束的调节作用：
- 自由度高时（如0g0y5b），偏差最显著
- 高度约束时（如3g2y0b），人类接近最优策略
- 表明认知偏差在创造性任务中更明显
独立机制：语义和拼写偏差相关性极弱（r=0.06），表明是独立的认知过程
研究范式价值：Wordle提供了介于自然语言使用和人工实验任务之间的理想研究环境