Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
academic- 論文ID: 2510.07141
- タイトル: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
- 著者: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
- 分類: cs.CL cs.AI
- 発表時期: 2025年10月(arXiv プレプリント)
- 論文リンク: https://arxiv.org/abs/2510.07141
大規模言語モデル(LLM)は人間と流暢に対話できるようになっていますが、人間と同様の文処理困難に直面するのでしょうか?本研究は、人間とLLMが7種類の言語学的に挑戦的な構造における文理解能力を体系的に比較しています。人間と5つの最先端LLMファミリーの文理解データを収集し、これらのモデルはスケールと訓練プロセスが異なります。結果として、LLMは対象構造全般で処理困難を示し、特にガーデンパス(GP)文で顕著です。最強モデルは非GP構造でほぼ完璧な精度を達成する一方(GPT-5は93.7%)、GP構造では困難を示しています(GPT-5は46.8%)。さらに、平均性能に基づいて構造をランク付けする際、人間とモデル間の順位相関は、パラメータ数の増加に伴い上昇します。
大規模言語モデルの対話能力の進歩に伴い、重要な問題が生じます:LLMは人間と同様に特定の言語構造で処理困難に直面するのか? この問題は、LLMの認知メカニズムと人間の言語処理との類似性を理解する上で極めて重要です。
- 認知科学的意義:人間とLLMのエラーパターンを比較することで、両者の言語処理メカニズムに関する洞察が得られます
- モデル評価の必要性:従来の評価は全体的なパフォーマンスに焦点を当てており、特定の言語現象の処理能力に関する詳細な分析が不足しています
- 応用価値:LLMの言語処理の限界を理解することは、モデル設計と応用展開の改善に役立ちます
- 間接的測定:多くの研究は間接指標(読み取り時間、困惑度など)を使用しており、直接的な理解テストではありません
- 実験設定の不統一:異なる研究が異なるモデル、データ、プロンプトを使用しており、統一的な結論を導き出すことが困難です
- カバレッジの限定:複数の言語現象に関する体系的な比較が不足しています
- 7種類の挑戦的言語構造の文理解データセットを構築:4種類のガーデンパス文、二重中心埋め込み、類似性干渉、深い衝撃文を含みます
- 31個の最先端モデルを体系的にテスト:5つのモデルファミリーをカバーし、スケールと訓練方法が異なります
- GP構造と非GP構造の処理差異を発見:LLMはGP文でより人間的なパフォーマンスを示し、非GP構造ではより優れたパフォーマンスを示します
- 「スイートスポット」規則を提案:中程度の強度のモデルでのみ、人間と同様のターゲット-ベースライン性能差異パターンが観察されます
入力:文と理解質問
出力:Yes/No回答
目標:同じタスクにおける人間とLLMのパフォーマンスパターンを比較
- ガーデンパス文(4種類):
- Subject/Object GP: "While the man hunted the deer ran into the woods."
- NP/S GP: "The policeman saw the lights were off."
- NP/VP GP: "The complex houses married soldiers."
- 縮約相対節GP: "The chef hired last month worked overtime."
- 二重中心埋め込み:2つのネストされた従属節を含む、例:"The man that the teacher that the student liked called sat."
- 深い衝撃文:複数の否定構造、例:"No head injury is too trivial to be ignored."
- 類似性干渉:2つの名詞句が特徴を共有し干渉を引き起こす、例:"The banker that the barber praised climbed the mountain."
各構造についてターゲット条件(困難な構造を含む)とベースライン条件(困難な要因を除去)を設計し、構造そのものの影響を測定できるようにしました。
- 参加者:Prolificプラットフォームを通じて募集した英語ネイティブスピーカー
- 手順:単語を逐次呈示(400ms/単語)、質問呈示5秒
- 設計:各参加者は1つの文-質問対のみを見て、学習効果を回避
- サンプルサイズ:5,380データポイント、各文-質問対につき10名の参加者
- プロンプト戦略:少数ショットプロンプト、ターゲット構造を含まない例を含む
- 制御変数:2種類のシステムプロンプト × 4種類の例の順序 = 8回の反復
- モデルカバレッジ:31個のモデル、GPT、Llama、Qwen、Gemma、DeepSeekファミリーを含む
- 思考連鎖テスト:一部のモデルで「思考」モード有効/無効の影響をテスト
- 人間の平均精度:28.3%、構造の挑戦性を検証
- 最高のLLMパフォーマンス:o3モデル74.5%(思考連鎖なし)、GPT-5思考連鎖モード88.9%
- 構造差異:GP文はLLMにとって相対的により困難であり、非GP構造と対比を形成
| モデルタイプ | GP構造精度 | 非GP構造精度 | 差異 |
|---|
| GPT-5 | 46.8% | 93.7% | 46.9% |
| o3 | 66.5% | 87.3% | 20.8% |
| 人間 | 25.8% | 32.4% | 6.6% |
絶対的パフォーマンス差異:
- GP構造:平均差異0.173(より人間に近い)
- 深い衝撃:平均差異0.328
- 二重埋め込み:平均差異0.330
- 類似性干渉:平均差異0.370
順位相関:モデルサイズの増加に伴い、人間との構造難度ランキングの相関性が向上し、o4-miniで最高相関0.929に達します。
モデルは人間のターゲット-ベースライン差異パターンを再現するために適度な強度が必要です:
- 弱すぎる:両条件ともパフォーマンスが低い
- 強すぎる:両条件ともパフォーマンスが高い
- 適度:人間と同様の方向性差異を示すことができる
- 強度依存性:十分に強いモデルのみが思考連鎖から利益を得られます
- 構造特異性:思考連鎖は非GP構造でより大きな支援を提供し、GP構造では効果が限定的です
- 例外的ケース:GPT-5はGP構造で思考連鎖から顕著な改善を得ます
- 脳活動比較:Schrimpfら、脳とLLMの活動パターンを比較
- 認知指標予測:LLM情報を使用して人間の読み取り時間、眼球運動などを予測
- ガーデンパス効果:Amouyal等、特定のGP文でLLMが人間のようなエラーを示すことを発見
- 中心埋め込み:Hu等、LLMが人間と同様に中心埋め込み文を非文法的と判断することを示す
本研究は、統一フレームワーク下で複数の言語現象を体系的に比較する初めての試みであり、以前の研究における実験設定の不一致の問題を克服しています。
- GP構造の特殊性:LLMはGP文でより人間に近いパフォーマンスを示します。これは、GP文が誤った解釈を破棄する必要があり、単に作業記憶に依存しないためかもしれません
- スケール効果:より大きなモデルは、構造難度ランキングにおいて人間との相関性が高くなります
- スイートスポット規則:中程度の強度のモデルが、人間の処理パターンを最もよく再現できます
作業記憶仮説:LLMは大量の作業記憶を必要とする構造(二重埋め込みなど)では人間より優れていますが、誤った解釈を破棄する必要があるGP文では相対的に劣っています。後者は作業記憶容量の問題ではないためです。
- モデルカバレッジ:OpenAIの1つのクローズドソースモデルファミリーのみをテストしており、AnthropicやGoogleのモデルは含まれていません
- GP型の制限:すべての種類のガーデンパス文をテストしていません
- 指標の単一性:理解精度のみをテストしており、眼球運動、読み取り時間などの認知指標が不足しています
- 因果検証:作業記憶仮説を検証するための実験設計
- テスト拡張:より多くのモデルファミリーとGP型を含める
- マルチモーダル指標:複数の認知測定指標を組み合わせる
- 実験設計の厳密性:統一フレームワーク下での体系的な比較、十分な変数制御
- 前例のないスケール:31個のモデルと7種類の言語現象をカバーし、この分野で最大規模の研究です
- 重要な発見:GP構造と非GP構造の差異性発見は重要な理論的意義を持ちます
- 方法論の革新:間接指標ではなく理解能力を直接測定し、より信頼性があります
- 理論的説明の限定性:作業記憶仮説はまだ多くの証拠が必要です
- 言語の限定:英語のみをテストしており、言語間検証が不足しています
- タスクの単一性:Yes/No質問のみを使用しており、理解能力を完全に反映できない可能性があります
- 学術的貢献:人間-AI認知比較研究に新しい方法論フレームワークを提供します
- 実用的価値:LLMの言語処理の限界を理解するのに役立ち、モデル改善を指導します
- 再現性:著者はコードとデータをオープンソース化することを約束し、後続研究を容易にします
- モデル評価:LLMの言語理解能力に対する細粒度評価ツールを提供
- 認知研究:人工知能と自然知能の言語処理メカニズムを比較するためのパラダイムを提供
- 教育応用:言語学習における困難な構造の識別と標的化された訓練に使用可能
- Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
- Christianson et al. (2001). Thematic roles assigned along the garden path linger.
- Gibson & Thomas (1999). Memory limitations and structural forgetting.
- Gordon et al. (2001). Memory interference during language processing.
総合評価:これは方法論において革新的であり、実験設計が厳密で、発見が重要な理論的および実践的意義を持つ高品質な学際的研究です。特にGP構造と非GP構造の差異の発見は、LLMの認知メカニズムを理解するための新しい視点を提供しています。いくつかの限界がありますが、全体的な貢献は顕著であり、後続の深い研究の価値があります。