2025-11-10T02:30:45.577405

Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures

Amouyal, Meltzer-Asscher, Berant
Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
academic

인간과 언어모델의 복잡한 구조에 대한 문장 처리 어려움 비교

기본 정보

  • 논문 ID: 2510.07141
  • 제목: Comparing Human and Language Models Sentence Processing Difficulties on Complex Structures
  • 저자: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
  • 분류: cs.CL cs.AI
  • 발표 시간: 2025년 10월 (arXiv 프리프린트)
  • 논문 링크: https://arxiv.org/abs/2510.07141

초록

대규모 언어모델(LLMs)은 이미 인간과 유창하게 대화할 수 있지만, 인간과 유사한 문장 처리 어려움을 겪는가? 본 연구는 인간과 LLM이 일곱 가지 도전적인 언어 구조에서 문장 이해 능력을 체계적으로 비교한다. 연구는 인간과 다섯 개의 최첨단 LLM 계열로부터 문장 이해 데이터를 수집했으며, 이들 모델은 규모와 훈련 과정이 다양하다. 결과는 LLM들이 목표 구조에서 광범위한 어려움을 보이며, 특히 정원 경로(GP) 문장에서 그러함을 나타낸다. 가장 강력한 모델이 비GP 구조에서 거의 완벽한 정확도(GPT-5 93.7%)에 도달했지만, GP 구조에서는 어려움을 보인다(GPT-5 46.8%). 더욱이, 평균 성능을 기반으로 구조를 순위 매길 때, 인간과 모델 간의 등급 상관성은 매개변수 수 증가에 따라 높아진다.

연구 배경 및 동기

문제 정의

대규모 언어모델의 대화 능력 발전에 따라, 핵심 질문은 다음과 같다: LLM들이 인간처럼 특정 언어 구조에서 처리 어려움을 겪는가? 이 질문은 LLM의 인지 메커니즘과 인간 언어 처리와의 유사성을 이해하는 데 매우 중요하다.

연구의 중요성

  1. 인지과학적 의의: 인간과 LLM의 오류 패턴을 비교함으로써 양자의 언어 처리 메커니즘에 대한 통찰력 획득
  2. 모델 평가 필요성: 기존 평가는 전체 성능에 중점을 두며, 특정 언어 현상 처리 능력에 대한 세밀한 분석이 부족
  3. 응용 가치: LLM의 언어 처리 한계를 이해하면 모델 설계 및 응용 배포 개선에 도움

기존 연구의 한계

  1. 간접 측정: 대부분의 연구는 직접적인 이해 테스트가 아닌 간접 지표(예: 읽기 시간, 혼란도)를 사용
  2. 실험 설정 불일치: 서로 다른 연구는 다양한 모델, 데이터, 프롬프트를 사용하여 통일된 결론 도출 어려움
  3. 범위 제한: 다양한 언어 현상에 대한 체계적 비교 부족

핵심 기여

  1. 일곱 가지 도전적 언어 구조의 문장 이해 데이터셋 구축: 네 가지 정원 경로 문장, 이중 중심 임베딩, 유사성 간섭, 깊이 충격 문장 포함
  2. 31개의 최첨단 모델 체계적 테스트: 다섯 개 모델 계열, 규모와 훈련 방식이 다양함
  3. GP와 비GP 구조의 처리 차이 발견: LLM이 GP 문장에서 인간 성능에 더 가깝고, 비GP 구조에서 더 우수한 성능 발휘
  4. "스위트 스팟" 규칙 제시: 중간 강도의 모델에서만 인간과 유사한 목표-기준선 성능 차이 패턴 관찰 가능

방법론 상세 설명

작업 정의

입력: 문장과 이해 질문 출력: 예/아니오 답변 목표: 동일한 작업에서 인간과 LLM의 성능 패턴 비교

실험 구조 설계

일곱 가지 언어 구조

  1. 정원 경로 문장(4가지):
    • 주어/목적어 GP: "While the man hunted the deer ran into the woods."
    • NP/S GP: "The policeman saw the lights were off."
    • NP/VP GP: "The complex houses married soldiers."
    • 축약된 관계절 GP: "The chef hired last month worked overtime."
  2. 이중 중심 임베딩: 두 개의 중첩된 종속절 포함, 예: "The man that the teacher that the student liked called sat."
  3. 깊이 충격 문장: 다중 부정 구조, 예: "No head injury is too trivial to be ignored."
  4. 유사성 간섭: 두 명사구가 특징을 공유하여 간섭 유발, 예: "The banker that the barber praised climbed the mountain."

대조 설계

각 구조는 목표 조건(도전적 구조 포함)과 기준선 조건(도전적 요소 제거)으로 설계되어, 구조 자체의 영향을 측정할 수 있음.

실험 절차

인간 실험

  • 참가자: Prolific 플랫폼을 통해 모집한 영어 모국어 사용자
  • 절차: 단어별 순차 제시(400ms/단어), 질문 제시 5초
  • 설계: 각 참가자는 하나의 문장-질문 쌍만 봄, 학습 효과 방지
  • 표본 크기: 5,380개 데이터 포인트, 각 문장-질문 쌍당 10명 참가자

LLM 실험

  • 프롬프트 전략: 목표 구조를 포함하지 않는 예제를 포함한 소수 샷 프롬프팅
  • 제어 변수: 2가지 시스템 프롬프트 × 4가지 예제 순서 = 8회 반복
  • 모델 범위: 31개 모델, GPT, Llama, Qwen, Gemma, DeepSeek 계열 포함
  • 사고의 연쇄 테스트: 일부 모델에서 "생각" 모드 활성화/비활성화 영향 테스트

실험 결과

주요 발견

1. 전체 성능 패턴

  • 인간 평균 정확도: 28.3%, 구조의 도전성 검증
  • 최고 LLM 성능: o3 모델 74.5%(사고의 연쇄 없음), GPT-5 사고의 연쇄 모드 88.9%
  • 구조 차이: GP 문장이 LLM에 상대적으로 더 어렵고, 비GP 구조와 대조

2. GP 대 비GP 구조의 핵심 차이

모델 유형GP 구조 정확도비GP 구조 정확도차이
GPT-546.8%93.7%46.9%
o366.5%87.3%20.8%
인간25.8%32.4%6.6%

3. 인간과의 유사성 분석

절대 성능 차이:

  • GP 구조: 평균 차이 0.173(인간에 더 가까움)
  • 깊이 충격: 평균 차이 0.328
  • 이중 임베딩: 평균 차이 0.330
  • 유사성 간섭: 평균 차이 0.370

등급 상관성: 모델 규모 증가에 따라 인간과의 구조 난이도 순위 상관성 증가, o4-mini가 최고 상관성 0.929 달성.

4. "스위트 스팟" 현상

모델은 인간의 목표-기준선 차이 패턴을 재현하기 위해 적절한 강도가 필요:

  • 너무 약함: 두 조건 모두 성능 저조
  • 너무 강함: 두 조건 모두 성능 우수
  • 적절함: 인간과 유사한 방향성 차이 표시

사고의 연쇄 영향

  1. 강도 의존성: 충분히 강한 모델만 사고의 연쇄로부터 이득 가능
  2. 구조 특이성: 사고의 연쇄는 비GP 구조에 더 큰 도움, GP 구조에는 효과 제한적
  3. 예외 사항: GPT-5는 GP 구조에서 사고의 연쇄로부터 상당한 향상 획득

관련 연구

신경언어학 연구

  • 뇌 활성화 비교: Schrimpf 등이 뇌와 LLM 활성화 패턴 비교
  • 인지 지표 예측: LLM 정보를 사용하여 인간 읽기 시간, 안구 운동 등 예측

문장 처리 연구

  • 정원 경로 효과: Amouyal 등이 특정 GP 문장에서 LLM의 인간 유사 오류 발견
  • 중심 임베딩: Hu 등이 LLM이 인간처럼 중심 임베딩 문장을 비문법적으로 간주함을 입증

방법론적 기여

본 연구는 통일된 프레임워크 하에서 다양한 언어 현상을 체계적으로 비교한 첫 사례로, 이전 연구의 실험 설정 불일치 문제를 극복.

결론 및 논의

주요 결론

  1. GP 구조의 특수성: LLM이 GP 문장에서 인간에 더 가까운 성능을 보이는 이유는 GP 문장이 잘못된 해석을 버려야 하기 때문이며, 단순히 작업 기억에만 의존하지 않음
  2. 규모 효과: 더 큰 모델이 구조 난이도 순위에서 인간과 더 높은 상관성 보임
  3. 스위트 스팟 규칙: 중간 강도 모델이 인간의 처리 패턴을 가장 잘 재현

이론적 설명

작업 기억 가설: LLM은 많은 작업 기억이 필요한 구조(예: 이중 임베딩)에서 인간보다 우수하지만, 잘못된 해석을 버려야 하는 GP 문장에서는 상대적으로 성능이 낮음. 후자는 작업 기억 용량 문제가 아니기 때문.

한계

  1. 모델 범위: OpenAI 폐쇄형 모델 계열만 테스트, Anthropic 또는 Google 모델 미포함
  2. GP 유형 제한: 모든 유형의 정원 경로 문장 미테스트
  3. 단일 지표: 이해 정확도만 테스트, 안구 운동, 읽기 시간 등 인지 지표 부족

향후 방향

  1. 인과 검증: 작업 기억 가설을 검증하는 실험 설계
  2. 테스트 확대: 더 많은 모델 계열 및 GP 유형 포함
  3. 다중 모달 지표: 다양한 인지 측정 지표 결합

심층 평가

장점

  1. 엄밀한 실험 설계: 통일된 프레임워크 하의 체계적 비교, 충분한 변수 제어
  2. 전례 없는 규모: 31개 모델과 7가지 언어 현상을 포괄하는 해당 분야 최대 규모 연구
  3. 중요한 발견: GP와 비GP 구조의 차이성 발견은 중요한 이론적 의의 보유
  4. 방법론 혁신: 간접 지표가 아닌 이해 능력의 직접 측정, 더욱 신뢰성 높음

부족한 점

  1. 제한된 이론적 설명: 작업 기억 가설은 여전히 더 많은 증거 필요
  2. 언어 한계: 영어만 테스트, 언어 간 검증 부족
  3. 단일 작업: 예/아니오 질답만 사용, 이해 능력을 완전히 반영하지 못할 수 있음

영향력

  1. 학술적 기여: 인간-AI 인지 비교 연구에 새로운 방법론 프레임워크 제공
  2. 실용적 가치: LLM의 언어 처리 한계 이해를 돕고 모델 개선 지도
  3. 재현성: 저자가 코드 및 데이터 공개 약속, 후속 연구 용이

적용 시나리오

  1. 모델 평가: LLM의 언어 이해 능력에 대한 세밀한 평가 도구 제공
  2. 인지 연구: 인공 및 자연 지능의 언어 처리 메커니즘 비교 연구 패러다임 제공
  3. 교육 응용: 언어 학습에서 어려운 구조 식별 및 목표 훈련에 활용 가능

참고문헌

  1. Amouyal et al. (2025). When the LM misunderstood the human chuckled: Analyzing garden path effects in humans and language models.
  2. Christianson et al. (2001). Thematic roles assigned along the garden path linger.
  3. Gibson & Thomas (1999). Memory limitations and structural forgetting.
  4. Gordon et al. (2001). Memory interference during language processing.

종합 평가: 이는 방법론적으로 혁신적이고, 실험 설계가 엄밀하며, 발견이 중요한 이론적·실용적 의의를 지닌 고품질의 학제 간 연구이다. 특히 GP와 비GP 구조 차이의 발견은 LLM의 인지 메커니즘 이해에 새로운 관점을 제공한다. 일부 한계가 있지만, 전체적인 기여는 상당하며 후속 심화 연구의 가치가 있다.