2025-11-17T03:40:13.370820

Studies with impossible languages falsify LMs as models of human language

Bowers, Mitchell

According to Futrell and Mahowald [arXiv:2501.17047], both infants and language models (LMs) find attested languages easier to learn than impossible languages that have unnatural structures. We review the literature and show that LMs often learn attested and many impossible languages equally well. Difficult to learn impossible languages are simply more complex (or random). LMs are missing human inductive biases that support language acquisition.

academic

불가능한 언어에 대한 연구는 언어모델을 인간 언어의 모델로 위증(falsify)한다

기본 정보

논문 ID: 2511.11389
제목: Studies with impossible languages falsify LMs as models of human language
저자: Jeffrey S. Bowers (University of Bristol), Jeff Mitchell (University of Sussex)
분류: cs.CL (계산언어학)
논문 유형: Futrell & Mahowald (in press), Behavioural and Brain Sciences에 대한 평론
논문 링크: https://arxiv.org/abs/2511.11389

초록

본 논문은 Futrell과 Mahowald (F&M)의 언어모델과 인간 언어학습에 관한 논문에 대한 평론이다. F&M은 영아와 언어모델(LMs) 모두 자연스럽지 않은 구조를 가진 "불가능한 언어"보다 실제 언어를 더 쉽게 학습한다고 주장한다. 저자들은 문헌 검토를 통해 LMs가 실제 언어와 많은 불가능한 언어를 동등하게 쉽게 학습할 수 있음을 보여준다. 학습하기 어려운 불가능한 언어는 단순히 더 복잡하거나 무작위적일 뿐이다. 저자들은 LMs이 인간 언어 습득을 지원하는 귀납적 편향(inductive biases)이 부족하다고 주장한다.

연구 배경 및 동기

핵심 문제

본 논문은 근본적인 이론 문제에 초점을 맞춘다: 언어모델(LMs)이 인간 언어 습득의 적절한 모델인가?

문제의 중요성

언어 습득의 속도 수수께끼: 영아는 놀라운 속도로 언어를 학습할 수 있으며, 이는 언어 습득 모델이 직면한 핵심 과제이다
이론 논쟁의 초점: Chomsky의 보편문법(Universal Grammar, UG) 이론은 인간이 선천적인 언어 귀납적 편향을 가지고 있으며, 이는 모든 실제 언어의 구조를 제약할 뿐만 아니라 아동이 빠르게 학습할 수 있게 한다고 주장한다
LMs의 도전: ChatGPT와 같은 대규모 언어모델은 인간과 유사한 선험적 지식이 부족하지만 다양한 언어 작업에서 뛰어난 성능을 보이며, 전통적인 언어학 이론에 대한 의문을 제기한다

기존 방법의 한계

F&M의 관점: LMs과 인간이 동일하게 실제 언어를 불가능한 언어보다 더 쉽게 학습한다고 주장하며, LMs이 인간 언어와 일치하는 귀납적 편향을 가지고 있음을 암시한다
Chomsky의 비판: LMs이 인간이 가능하고 불가능한 언어를 동등하게 쉽게 학습할 수 있다는 것이 인간 언어 모델로서의 가장 근본적인 결함이라고 주장한다
문헌 해석의 불일치: 동일한 연구에 대한 서로 다른 해석이 상반된 결론으로 이어진다

연구 동기

저자들은 체계적인 문헌 검토를 통해 LMs의 불가능한 언어 학습 능력에 관한 실증적 증거를 명확히 하고, F&M의 관점에 도전하며, LMs이 인간 언어 귀납적 편향이 부족하다는 Chomsky의 주장을 지지하는 것을 목표로 한다.

핵심 기여

체계적 문헌 검토: LMs의 불가능한 언어 학습에 관한 최근 연구에 대한 포괄적인 검토 및 재분석
실증적 증거 명확화: F&M의 기존 연구에 대한 오독을 드러내고, LMs이 실제로 많은 불가능한 언어를 쉽게 학습할 수 있음을 지적한다
이론적 변별: "학습하기 어려움"과 "구조적 복잡성/무작위성"을 구분하고, 어려운 불가능한 언어는 단순히 더 복잡하거나 무작위적임을 논증한다
Chomsky 주장 지지: LMs이 인간 특유의 언어 학습 귀납적 편향이 부족함을 보여주는 증거 제공
방법론적 비판: "무료 점심은 없다" 정리의 적용 가능성을 지적하고, LMs이 특정 언어에서 성능이 낮은 것은 놀랍지 않다고 논증한다

방법 상세 설명

작업 정의

본 논문은 새로운 방법을 제시하는 것이 아니라 비판적 문헌 검토를 수행한다. 핵심 작업은:

입력: LMs의 불가능한 언어 학습에 관한 최근 실증 연구
출력: 이러한 연구에 대한 체계적인 재해석 및 이론적 분석
목표: LMs이 인간과 같이 불가능한 언어를 학습하기 어려운지 평가

분석 프레임워크

1. 불가능한 언어의 정의

실제 언어(Attested Languages): 인간이 실제로 사용하는 자연언어
불가능한 언어(Impossible Languages): 보편문법 제약을 위반하는 인공 구성 언어, 예: 어순이 완전히 역순인 언어
복잡/무작위 언어: 구조가 부족하거나 다양한 무작위 규칙을 포함하는 언어

2. 평가 기준

저자들은 다음 기준을 사용하여 LMs의 학습 성능을 평가한다:

학습 속도: LMs이 다양한 유형의 언어를 학습하는 데 필요한 훈련 데이터의 양
최종 성능: LMs이 다양한 언어에서 달성하는 최종 성능
비교 분석: 실제 언어 vs. 불가능한 언어 vs. 무작위/복잡한 언어

3. 이론적 프레임워크

Chomsky의 예측: LMs이 UG를 부족하면, 불가능한 언어를 동등하게 쉽게 학습할 수 있어야 한다
F&M의 반박: LMs이 인간과 일치하는 학습 선호도를 보인다고 주장한다
"무료 점심은 없다" 정리: 특정 데이터 클래스에서 성능이 좋은 학습 알고리즘은 필연적으로 다른 데이터에서 성능이 낮다

기술적 혁신점

본 논문의 혁신은 기술 방법이 아니라 이론적 분석의 깊이에 있다:

언어 유형 구분: "UG를 위반하는 불가능한 언어"와 "무작위/복잡한 언어"를 명확히 구분한다
실증적 결과의 재해석: 언어의 복잡성과 가능성을 혼동한 F&M 등의 문제를 지적한다
이론적 일관성 검증: "무료 점심은 없다" 정리를 사용하여 LMs이 특정 언어에서 성능이 낮은 것이 필연적이며, 이것이 인간과 유사한 귀납적 편향을 가지고 있다는 증거로 사용될 수 없음을 논증한다

실험 설정

본 논문은 새로운 실험을 포함하지 않으며, 이미 발표된 연구에 대한 재분석이다. 저자들은 다음 연구를 체계적으로 검토했다:

검토된 연구

1. Kallini et al. (2024)

실험 설계: LMs의 영어 및 다양한 불가능한 언어 학습 능력 테스트
F&M의 해석: LMs이 기준선 불가능한 언어보다 실제 영어 텍스트를 항상 더 빠르게 학습한다
저자의 재분석:
- 두 가지 어려운 불가능한 언어를 보고했지만, 많은 불가능한 언어는 영어와 거의 동등하게 학습하기 쉽다
- Mitchell & Bowers (2020)가 설계한 불가능한 언어 포함
- 가장 학습하기 어려운 불가능한 언어는 무작위 어순 섞임(학습할 구조 없음)
- 또 다른 어려운 언어는 결정론적 무작위 섞임(다양한 문장 길이에 다양한 섞임 규칙 사용, 여러 무작위 언어 학습과 동등)

2. Yang et al. (2025)

실험 설계: 다양한 불가능한 언어에서 LMs의 성능 평가, 결정론적 섞임 언어 포함
발견: 많은 불가능한 언어는 학습하기 쉽고, 무작위 섞임 언어는 어렵다
저자의 비판: 저자들이 Chomsky가 LMs이 무작위 섞임 언어를 학습할 수 있어야 한다고 예측했다고 잘못 생각했지만, 다양한 무작위 언어(다양한 문장 길이에 대해)를 학습하는 것은 어떤 이론에서도 어렵다

3. Xu et al. (2025)

실험 설계: 불가능성이 아닌 언어의 타당성(plausibility) 변화
발견: LMs이 특정 부자연스러운 언어에서는 어려움을 겪지만, 다른 경우에는 쉽게 학습한다
저자가 지적한 문제: 연구자들 자신이 재사실적 코퍼스의 노이즈 증가로 인한 재료 구성 오류 가능성을 인정했다

4. Ziv et al. (2025)

발견: LMs이 쉽게 학습할 수 있는 다양한 불가능한 언어를 보고했으며, 부분적으로 역순인 언어 포함(Mitchell & Bowers, 2020의 결과 복제)

5. Lou et al. (2024)(F&M에서 인용되지 않음)

발견: LMs이 완전히 역순인 언어를 쉽게 학습할 수 있다

데이터 요약

연구	학습하기 쉬운 불가능한 언어	학습하기 어려운 언어 유형	핵심 문제
Kallini et al.	다수, MB2020 언어 포함	무작위 섞임, 결정론적 다중 섞임	어려운 언어는 무작위/복잡함
Yang et al.	다수	결정론적 다중 섞임	복잡성과 불가능성 혼동
Xu et al.	부분적 부자연스러운 언어	부분적 부자연스러운 언어	재료 구성 오류 가능
Ziv et al.	부분적 역순 언어 등	-	Chomsky 관점 지지
Lou et al.	완전히 역순인 언어	-	Chomsky 관점 지지

실험 결과

주요 발견

1. LMs이 불가능한 언어를 자주 쉽게 학습할 수 있다

Mitchell & Bowers (2020)가 설계한 불가능한 언어가 학습하기 쉬운 것으로 확인됨
부분적으로 역순인 언어(Ziv et al., 2025)는 학습하기 쉽다
완전히 역순인 언어(Lou et al., 2024)는 학습하기 쉽다
Kallini et al.과 Yang et al.은 모두 학습하기 쉬운 다양한 불가능한 언어를 보고했다

2. 학습하기 어려운 "불가능한 언어"는 실제로 복잡/무작위 언어이다

완전 무작위 섞임: 학습할 구조가 없다
결정론적 다중 섞임: 다양한 무작위 매핑 규칙을 학습해야 한다(각 문장 길이마다 하나)
이러한 언어의 어려움은 복잡성과 무작위성에서 비롯되며, UG 위반이 아니다

3. 데이터 효율의 거대한 차이

저자들은 Bowers (2025a)를 인용하여 다음을 지적한다:

LMs은 영아보다 수 개의 수량급 더 많은 훈련 데이터가 필요하다
이는 인간 귀납적 편향의 부족과 일치한다

4. UG 유도 시도의 제한된 효과

McCoy & Griffiths (2025)는 베이지안 사전을 LMs에 증류하려고 시도했다:

데이터 효율을 크게 향상시키지 못했다(Bowers, 2025b)

이론적 분석

"무료 점심은 없다" 정리의 적용

저자들은 Wolpert & Macready (2002)의 이론을 인용한다:

핵심 관점: 특정 데이터 클래스에서 성능이 좋은 학습 알고리즘은 필연적으로 다른 데이터에서 성능이 낮다
추론: LMs이 특정 언어(예: 무작위 섞임)에서 성능이 낮은 것은 필연적이며, 실증적 확인이 필요하지 않다
핵심 구분: 특정 언어에서 성능이 낮음 ≠ 인간과 유사한 귀납적 편향을 가짐
위증 논리: 특정 불가능한 언어를 성공적으로 학습하는 것은 LMs이 인간 언어 학습의 적절한 모델이라는 것을 위증한다

사례 분석

사례 1: Kallini et al.의 결정론적 섞임 언어

원본 문장(길이 5): The cat sat on mat
섞임 규칙 1(길이 5): cat The on sat mat
원본 문장(길이 6): The big cat sat on mat
섞임 규칙 2(길이 6): big The sat cat mat on

분석: 이 언어를 학습하는 것은 여러 개의 서로 다른 무작위 매핑을 학습하는 것과 동등하며, 복잡성은 문장 길이 종류에 따라 선형으로 증가한다. 이는 UG 편향을 테스트하는 것이 아니라 여러 임의의 매핑을 기억하는 능력을 테스트하는 것이다.

사례 2: Mitchell & Bowers (2020)의 부분적 역순 언어

특정 어순 규칙이 체계적으로 역순이지만 일관성을 유지한다. 발견: LMs이 쉽게 학습할 수 있으며, 이는 이러한 유형의 언어를 배제하는 귀납적 편향이 부족함을 보여준다.

결론 및 논의

주요 결론

실증적 증거는 F&M의 관점을 지지하지 않는다: LMs은 실제 언어와 불가능한 언어를 동등하게 쉽게 학습할 수 있다
학습하기 어려운 "불가능한 언어"는 복잡/무작위이다: 학습 어려움은 UG 위반이 아닌 복잡성에서 비롯된다
LMs은 인간 귀납적 편향이 부족하다: 학습하기 쉬운 불가능한 언어와 낮은 데이터 효율의 증거를 결합하면, LMs의 학습 패턴은 인간과 근본적으로 다르다
"무료 점심은 없다"는 지지 증거로 사용될 수 없다: LMs이 특정 언어에서 성능이 낮은 것은 필연적이며, 인간과 유사한 편향을 가지고 있다는 것을 증명할 수 없다
LMs은 인간 언어 습득의 적절한 모델이 아니다: 현재 LMs의 학습 방식은 인간 선천적 언어 편향의 부족으로 예상되는 것이다

한계

논문 자체의 한계

새로운 실증 데이터 미제공: 문헌 검토에만 기반하며, 새로운 실험 검증이 없다
불가능한 언어의 정의 모호: 다양한 연구에서 "불가능한 언어"의 조작적 정의가 불일치한다
메커니즘 심층 탐구 부족: LMs이 불가능한 언어를 학습할 수 있는 이유의 내부 메커니즘을 상세히 분석하지 않는다
제한된 샘플 크기: 검토된 연구 수가 상대적으로 적다(주로 5개의 최근 논문)

연구 분야의 한계

불가능한 언어의 생태적 타당성: 인공 구성 불가능한 언어가 UG의 제약을 완전히 포착하지 못할 수 있다
LMs의 다양성: 다양한 아키텍처의 LMs이 다르게 성능을 보일 수 있지만, 논문이 충분히 구분하지 않는다
측정 문제: "학습 어려움"을 정확하게 측정하는 방법에 대한 논쟁이 있다

향후 방향

논문이 명시적으로 제시한 방향

더 엄격한 불가능한 언어 설계: UG 위반을 더 정확하게 조작화할 필요가 있다
메커니즘 연구: LMs이 불가능한 언어를 학습하는 내부 표현과 과정을 이해한다

암묵적인 연구 방향

교차 모델 비교: 다양한 아키텍처 LMs의 귀납적 편향을 체계적으로 비교한다
발달 궤적 연구: LMs과 아동의 학습 곡선을 비교한다
하이브리드 모델: 언어학적 선험적 지식을 LMs에 통합하는 방법을 탐구한다
신경과학 검증: 뇌 영상 연구를 사용하여 인간이 불가능한 언어를 처리하는 신경 메커니즘을 검증한다

심층 평가

장점

1. 이론적 명확성이 높다

"복잡성"과 "불가능성"을 명확히 구분하며, 이는 핵심적인 개념 명확화이다
"무료 점심은 없다" 정리를 올바르게 적용하여 논리적 오류를 드러낸다

2. 문헌 분석이 심층적이다

인용된 연구의 결론만 읽는 것이 아니라 실험 설계와 데이터를 심층 분석한다
F&M의 선택적 인용과 오독 문제를 발견한다

3. 논리적 논증이 엄밀하다

위증 논리를 사용한다: 불가능한 언어를 성공적으로 학습하는 것은 LMs이 인간 모델이라는 것을 위증한다
상대방 논증의 비대칭성을 지적한다: 특정 언어에서 성능이 낮은 것은 인간과 유사한 편향을 증명할 수 없다

4. 학술적 정직성

Xu et al. 연구자들이 자신이 지적한 재료 문제를 인정한다
공정하게 다양한 관점을 제시한다

5. 이론적 의미가 크다

언어학의 핵심 논쟁에 접근한다: 선천성 vs. 후천성, UG vs. 통계 학습
AI 분야에도 시사점을 제공한다: LMs의 능력 경계

부족한 점

1. 실증적 기초가 약하다

새로운 데이터 미제공: 타인 연구의 재해석에만 의존한다
선택적 가능성: F&M의 선택적 인용을 비판하지만, 자신의 문헌 선택도 편향될 수 있다
정량적 종합 부족: 메타 분석이나 체계적 정량 검토를 수행하지 않는다

2. 개념 조작화 부족

"불가능한 언어" 정의 모호: 다양한 연구가 다양한 정의를 사용하지만, 논문이 충분히 논의하지 않는다
"학습하기 쉬움" vs "학습하기 어려움"의 기준: 명확한 정량적 기준이 없다
"복잡성"의 측정: 언어의 복잡성을 어떻게 정량화할 것인가?

3. 논증의 한계

결정론적 섞임 언어의 논증: 복잡성을 지적하지만, 이러한 복잡성이 UG 위반과 완전히 무관한지는 여전히 논쟁의 여지가 있다
"무료 점심은 없다" 정리의 적용 가능성: 이 정리는 최적화 문제에 적용되며, 언어 학습에 직접 적용하려면 더 많은 논증이 필요하다
대체 설명 미고려: LMs이 다른 유형의 귀납적 편향(예: 국소성 선호도)을 가질 수 있으며, 이는 단순히 UG와 다를 뿐이다

4. 메커니즘 심층 탐구 부족

블랙박스 분석: 입출력에서만 판단하며, LMs의 내부 표현을 분석하지 않는다
건설적 방안 부족: 비판은 충분하지만 건설은 부족하며, LMs을 개선하는 방법을 제시하지 않는다

5. 논쟁 색채가 강하다

입장이 명확하다: Chomsky 편에 명백히 서 있으며, 객관성에 영향을 미칠 수 있다
상대방 연구에 대한 비판이 엄하다: "오독", "오류" 등을 지적하며, 학술 논쟁의 어조가 더 온화할 수 있다

6. 샘플 크기와 대표성

주요 논문 5개만 검토: 샘플 크기가 작다
좁은 시간 창: 주로 2020-2025년 연구
단일 모델 유형: 주로 Transformer 계열 LMs에 초점

영향력 평가

분야에 대한 기여

이론적 명확화: 중요한 개념 구분(복잡성 vs. 불가능성)
방법론적 기여: 실험 설계의 일반적인 함정 지적
논쟁 추진: 더 엄격한 실험 설계와 더 심층적인 이론 논의를 촉진한다

잠재적 영향

단기: F&M 및 관련 연구자들의 회응을 유발하여 학술 논쟁을 촉진할 가능성
중기: 연구자들이 더 엄격한 불가능한 언어 실험을 설계하도록 유도
장기: LMs의 인지과학적 지위 평가에 영향을 미칠 가능성

실용적 가치

AI 연구에 대한 시사: LMs의 귀납적 편향을 이해하는 것이 모델 개선에 가치가 있다
교육에 대한 시사: LMs의 학습 방식이 인간과 다르면, 언어 교육 모의에 직접 사용할 수 없다

재현성

높음: 논문은 주로 문헌 검토이며, 인용된 모든 연구는 이미 발표되었으므로 독자가 저자의 분석을 검증할 수 있다

적용 시나리오

적합한 독자 그룹

이론 언어학자: UG와 언어 습득 이론에 관심 있는 사람
계산 언어학자: LMs의 능력과 한계를 연구하는 사람
인지과학자: 인간 언어 처리의 계산 모델에 관심 있는 사람
AI 연구자: LMs의 귀납적 편향을 개선하려는 사람

적용 가능한 연구 시나리오

불가능한 언어 실험 설계: 중요한 방법론적 지침 제공
LMs의 인지적 합리성 평가: 이론적 프레임워크 제공
언어학 이론 논쟁: 선천론에 지지 제공

부적합한 시나리오

공학 응용: 실제 LMs 응용에 제한된 도움
비언어 분야: 언어 학습에 특정된 논증

참고문헌(핵심)

핵심 논쟁 문헌

Chomsky et al. (2023): "The False Promise of ChatGPT" - LMs에 대한 Chomsky의 고전적 비판
Futrell & Mahowald (2025): 평론의 대상 논문, LMs 지지 관점 대표

핵심 실증 연구

Mitchell & Bowers (2020): LMs이 불가능한 언어를 학습할 수 있음을 처음 체계적으로 보여준 연구
Kallini et al. (2024): "Mission: Impossible language models" - 가장 포괄적인 실증 연구 중 하나
Yang et al. (2025): 교차 언어 불가능한 언어 학습 연구

이론적 기초

Wolpert & Macready (2002): "No free lunch theorems" - 기계 학습의 기초 이론
McCoy & Griffiths (2025): 베이지안 사전을 LMs에 통합하려는 연구

저자의 관련 연구

Bowers (2025a): LMs 데이터 효율의 체계적 분석
Bowers (2025b): McCoy & Griffiths에 대한 평론

종합 평가

이는 이론적 입장이 명확하고, 논리적 논증이 엄밀하지만, 실증적 기초가 상대적으로 약한 평론 논문이다. 저자들은 기존 문헌의 심층 분석을 통해 "LMs이 인간과 유사한 언어 귀납적 편향을 가지고 있다"는 관점에 강력하게 도전하며, Chomsky의 전통 언어학 입장을 지지한다.

최대 가치는 개념 명확화(복잡성과 불가능성 구분) 및 논리적 분석("무료 점심은 없다" 정리와 위증 논리 적용)에 있으며, 이는 해당 분야의 방법론에 중요한 기여를 한다.

주요 한계는 새로운 실증 데이터의 부재와 LMs 내부 메커니즘에 대한 심층 분석 부족이다. 평론 논문으로서는 이해할 수 있지만, 설득력을 제한한다.

본 논문은 언어학과 AI 분야에서 LMs의 본질에 관한 심층 논의를 촉진하고, 더 엄격한 실험 설계를 추진하지만, 두 진영의 기본 입장을 즉시 변경하지는 못할 것이다. 이 논쟁의 해결은 더 많은 실증 연구, 더 정밀한 이론적 프레임워크, 그리고 신경과학의 독립적 증거가 필요할 수 있다.

추천 지수: ⭐⭐⭐⭐ (4/5)

이론적 기여: ⭐⭐⭐⭐⭐
실증적 충분성: ⭐⭐⭐
방법론적 혁신성: ⭐⭐⭐
실용적 가치: ⭐⭐⭐
작문 품질: ⭐⭐⭐⭐