Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
academicComparing Human and Language Models Sentence Processing Difficulties on Complex Structures
- 论文ID: 2510.07141
- 标题: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
- 作者: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
- 分类: cs.CL cs.AI
- 发表时间: 2025年10月 (arXiv预印本)
- 论文链接: https://arxiv.org/abs/2510.07141
大型语言模型(LLMs)已能与人类流畅对话,但它们是否会遇到类似人类的句子处理困难?本研究系统性地比较了人类和LLM在七种具有挑战性的语言结构上的句子理解能力。研究收集了人类和五个SOTA LLM家族的句子理解数据,这些模型在规模和训练过程上各有不同。结果显示,LLMs在目标结构上普遍表现困难,尤其是花园路径(GP)句子。虽然最强模型在非GP结构上接近完美准确率(GPT-5达到93.7%),但在GP结构上表现困难(GPT-5仅46.8%)。此外,基于平均性能对结构进行排序时,人类与模型间的等级相关性随参数量增加而提高。
随着大型语言模型在对话能力上的突破,一个关键问题是:LLMs是否会像人类一样在特定语言结构上遇到处理困难? 这个问题对理解LLMs的认知机制和与人类语言处理的相似性至关重要。
- 认知科学意义:通过比较人类和LLM的错误模式,可以洞察两者的语言处理机制
- 模型评估需求:传统评估多关注整体性能,缺乏对特定语言现象处理能力的细致分析
- 应用价值:理解LLM的语言处理局限性有助于改进模型设计和应用部署
- 间接测量:多数研究使用间接指标(如阅读时间、困惑度)而非直接的理解测试
- 实验设置不统一:不同研究使用不同模型、数据和提示,难以得出统一结论
- 覆盖面有限:缺乏对多种语言现象的系统性比较
- 构建了七种挑战性语言结构的句子理解数据集,包括四种花园路径句、双重中心嵌入、相似性干扰和深度冲击句
- 系统测试了31个SOTA模型,涵盖5个模型家族,规模和训练方式各异
- 发现了GP与非GP结构的处理差异:LLM在GP句子上更接近人类表现,在非GP结构上表现更优
- 提出"甜蜜点"规律:只有在适中强度的模型中,才能观察到与人类相似的目标-基线性能差异模式
输入:一个句子和一个理解问题
输出:Yes/No答案
目标:比较人类和LLM在相同任务上的表现模式
- 花园路径句(4种):
- Subject/Object GP: "While the man hunted the deer ran into the woods."
- NP/S GP: "The policeman saw the lights were off."
- NP/VP GP: "The complex houses married soldiers."
- Reduced relative GP: "The chef hired last month worked overtime."
- 双重中心嵌入:包含两个嵌套从句,如"The man that the teacher that the student liked called sat."
- 深度冲击句:多重否定结构,如"No head injury is too trivial to be ignored."
- 相似性干扰:两个名词短语共享特征导致干扰,如"The banker that the barber praised climbed the mountain."
每种结构都设计了目标条件(包含困难结构)和基线条件(移除困难因素),确保能测量结构本身的影响。
- 参与者:通过Prolific平台招募的英语母语者
- 程序:单词逐个呈现(400ms/词),问题呈现5秒
- 设计:每个参与者只看一个句子-问题对,避免学习效应
- 样本量:5380个数据点,每个句子-问题对10个参与者
- 提示策略:少样本提示,包含不含目标结构的示例
- 控制变量:2种系统提示 × 4种示例顺序 = 8次重复
- 模型覆盖:31个模型,包括GPT、Llama、Qwen、Gemma、DeepSeek家族
- 思维链测试:部分模型测试开启/关闭"思考"模式的影响
- 人类平均准确率:28.3%,验证了结构的挑战性
- 最佳LLM表现:o3模型74.5%(无思维链),GPT-5思维链模式88.9%
- 结构差异:GP句子对LLM相对更困难,与非GP结构形成对比
| 模型类型 | GP结构准确率 | 非GP结构准确率 | 差异 |
|---|
| GPT-5 | 46.8% | 93.7% | 46.9% |
| o3 | 66.5% | 87.3% | 20.8% |
| 人类 | 25.8% | 32.4% | 6.6% |
绝对性能差异:
- GP结构:平均差异0.173(更接近人类)
- 深度冲击:平均差异0.328
- 双重嵌入:平均差异0.330
- 相似性干扰:平均差异0.370
等级相关性:随模型规模增大,与人类的结构难度排序相关性提高,o4-mini达到最高相关性0.929。
模型需要在适中强度才能复现人类的目标-基线差异模式:
- 太弱:两种条件表现均差
- 太强:两种条件表现均好
- 适中:能显示与人类相似的方向性差异
- 强度依赖:只有足够强的模型才能从思维链中受益
- 结构特异性:思维链对非GP结构帮助更大,对GP结构效果有限
- 例外情况:GPT-5在GP结构上从思维链获得显著提升
- 脑激活比较:Schrimpf等人比较大脑和LLM激活模式
- 认知指标预测:使用LLM信息预测人类阅读时间、眼动等
- 花园路径效应:Amouyal等发现LLM在特定GP句子上出现类人错误
- 中心嵌入:Hu等显示LLM像人类一样认为中心嵌入句不合语法
本研究首次在统一框架下系统比较多种语言现象,克服了以往研究实验设置不一致的问题。
- GP结构的特殊性:LLM在GP句子上表现更接近人类,可能因为GP句子需要丢弃错误解释而非仅依赖工作记忆
- 规模效应:较大模型与人类在结构难度排序上相关性更高
- 甜蜜点规律:中等强度模型最能复现人类的处理模式
工作记忆假说:LLM在需要大量工作记忆的结构(如双重嵌入)上优于人类,但在需要丢弃错误解释的GP句子上表现相对较差,因为后者不是工作记忆容量问题。
- 模型覆盖:仅测试了OpenAI一个闭源模型家族,未包括Anthropic或Google模型
- GP类型限制:未测试所有类型的花园路径句
- 指标单一:仅测试理解准确率,缺乏眼动、阅读时间等认知指标
- 因果验证:设计实验验证工作记忆假说
- 扩展测试:包含更多模型家族和GP类型
- 多模态指标:结合多种认知测量指标
- 实验设计严谨:统一框架下的系统性比较,控制变量充分
- 规模空前:涵盖31个模型和7种语言现象,是该领域最大规模研究
- 发现重要:GP与非GP结构的差异性发现具有重要理论意义
- 方法创新:直接测量理解能力而非间接指标,更加可靠
- 理论解释有限:工作记忆假说仍需更多证据支持
- 语言局限:仅测试英语,缺乏跨语言验证
- 任务单一:仅使用Yes/No问答,可能无法全面反映理解能力
- 学术贡献:为人类-AI认知比较研究提供了新的方法论框架
- 实用价值:帮助理解LLM的语言处理局限性,指导模型改进
- 可复现性:作者承诺开源代码和数据,便于后续研究
- 模型评估:为LLM的语言理解能力提供细粒度评估工具
- 认知研究:为比较人工和自然智能的语言处理机制提供范式
- 教育应用:可用于语言学习中的困难结构识别和针对性训练
- Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
- Christianson et al. (2001). Thematic roles assigned along the garden path linger.
- Gibson & Thomas (1999). Memory limitations and structural forgetting.
- Gordon et al. (2001). Memory interference during language processing.
总体评价:这是一项高质量的跨学科研究,在方法论上具有创新性,实验设计严谨,发现具有重要的理论和实践意义。特别是GP与非GP结构差异的发现,为理解LLM的认知机制提供了新的视角。尽管存在一些局限性,但整体贡献显著,值得后续深入研究。