According to Futrell and Mahowald [arXiv:2501.17047], both infants and language models (LMs) find attested languages easier to learn than impossible languages that have unnatural structures. We review the literature and show that LMs often learn attested and many impossible languages equally well. Difficult to learn impossible languages are simply more complex (or random). LMs are missing human inductive biases that support language acquisition.
논문 ID : 2511.11389제목 : Studies with impossible languages falsify LMs as models of human language저자 : Jeffrey S. Bowers (University of Bristol), Jeff Mitchell (University of Sussex)분류 : cs.CL (계산언어학)논문 유형 : Futrell & Mahowald (in press), Behavioural and Brain Sciences에 대한 평론논문 링크 : https://arxiv.org/abs/2511.11389 본 논문은 Futrell과 Mahowald (F&M)의 언어모델과 인간 언어학습에 관한 논문에 대한 평론이다. F&M은 영아와 언어모델(LMs) 모두 자연스럽지 않은 구조를 가진 "불가능한 언어"보다 실제 언어를 더 쉽게 학습한다고 주장한다. 저자들은 문헌 검토를 통해 LMs가 실제 언어와 많은 불가능한 언어를 동등하게 쉽게 학습할 수 있음을 보여준다. 학습하기 어려운 불가능한 언어는 단순히 더 복잡하거나 무작위적일 뿐이다. 저자들은 LMs이 인간 언어 습득을 지원하는 귀납적 편향(inductive biases)이 부족하다고 주장한다.
본 논문은 근본적인 이론 문제에 초점을 맞춘다: 언어모델(LMs)이 인간 언어 습득의 적절한 모델인가?
언어 습득의 속도 수수께끼 : 영아는 놀라운 속도로 언어를 학습할 수 있으며, 이는 언어 습득 모델이 직면한 핵심 과제이다이론 논쟁의 초점 : Chomsky의 보편문법(Universal Grammar, UG) 이론은 인간이 선천적인 언어 귀납적 편향을 가지고 있으며, 이는 모든 실제 언어의 구조를 제약할 뿐만 아니라 아동이 빠르게 학습할 수 있게 한다고 주장한다LMs의 도전 : ChatGPT와 같은 대규모 언어모델은 인간과 유사한 선험적 지식이 부족하지만 다양한 언어 작업에서 뛰어난 성능을 보이며, 전통적인 언어학 이론에 대한 의문을 제기한다F&M의 관점 : LMs과 인간이 동일하게 실제 언어를 불가능한 언어보다 더 쉽게 학습한다고 주장하며, LMs이 인간 언어와 일치하는 귀납적 편향을 가지고 있음을 암시한다Chomsky의 비판 : LMs이 인간이 가능하고 불가능한 언어를 동등하게 쉽게 학습할 수 있다는 것이 인간 언어 모델로서의 가장 근본적인 결함이라고 주장한다문헌 해석의 불일치 : 동일한 연구에 대한 서로 다른 해석이 상반된 결론으로 이어진다저자들은 체계적인 문헌 검토를 통해 LMs의 불가능한 언어 학습 능력에 관한 실증적 증거를 명확히 하고, F&M의 관점에 도전하며, LMs이 인간 언어 귀납적 편향이 부족하다는 Chomsky의 주장을 지지하는 것을 목표로 한다.
체계적 문헌 검토 : LMs의 불가능한 언어 학습에 관한 최근 연구에 대한 포괄적인 검토 및 재분석실증적 증거 명확화 : F&M의 기존 연구에 대한 오독을 드러내고, LMs이 실제로 많은 불가능한 언어를 쉽게 학습할 수 있음을 지적한다이론적 변별 : "학습하기 어려움"과 "구조적 복잡성/무작위성"을 구분하고, 어려운 불가능한 언어는 단순히 더 복잡하거나 무작위적임을 논증한다Chomsky 주장 지지 : LMs이 인간 특유의 언어 학습 귀납적 편향이 부족함을 보여주는 증거 제공방법론적 비판 : "무료 점심은 없다" 정리의 적용 가능성을 지적하고, LMs이 특정 언어에서 성능이 낮은 것은 놀랍지 않다고 논증한다본 논문은 새로운 방법을 제시하는 것이 아니라 비판적 문헌 검토 를 수행한다. 핵심 작업은:
입력 : LMs의 불가능한 언어 학습에 관한 최근 실증 연구출력 : 이러한 연구에 대한 체계적인 재해석 및 이론적 분석목표 : LMs이 인간과 같이 불가능한 언어를 학습하기 어려운지 평가실제 언어(Attested Languages) : 인간이 실제로 사용하는 자연언어불가능한 언어(Impossible Languages) : 보편문법 제약을 위반하는 인공 구성 언어, 예: 어순이 완전히 역순인 언어복잡/무작위 언어 : 구조가 부족하거나 다양한 무작위 규칙을 포함하는 언어저자들은 다음 기준을 사용하여 LMs의 학습 성능을 평가한다:
학습 속도 : LMs이 다양한 유형의 언어를 학습하는 데 필요한 훈련 데이터의 양최종 성능 : LMs이 다양한 언어에서 달성하는 최종 성능비교 분석 : 실제 언어 vs. 불가능한 언어 vs. 무작위/복잡한 언어Chomsky의 예측 : LMs이 UG를 부족하면, 불가능한 언어를 동등하게 쉽게 학습할 수 있어야 한다F&M의 반박 : LMs이 인간과 일치하는 학습 선호도를 보인다고 주장한다"무료 점심은 없다" 정리 : 특정 데이터 클래스에서 성능이 좋은 학습 알고리즘은 필연적으로 다른 데이터에서 성능이 낮다본 논문의 혁신은 기술 방법이 아니라 이론적 분석의 깊이 에 있다:
언어 유형 구분 : "UG를 위반하는 불가능한 언어"와 "무작위/복잡한 언어"를 명확히 구분한다실증적 결과의 재해석 : 언어의 복잡성과 가능성을 혼동한 F&M 등의 문제를 지적한다이론적 일관성 검증 : "무료 점심은 없다" 정리를 사용하여 LMs이 특정 언어에서 성능이 낮은 것이 필연적이며, 이것이 인간과 유사한 귀납적 편향을 가지고 있다는 증거로 사용될 수 없음을 논증한다본 논문은 새로운 실험을 포함하지 않으며, 이미 발표된 연구에 대한 재분석이다. 저자들은 다음 연구를 체계적으로 검토했다:
실험 설계 : LMs의 영어 및 다양한 불가능한 언어 학습 능력 테스트F&M의 해석 : LMs이 기준선 불가능한 언어보다 실제 영어 텍스트를 항상 더 빠르게 학습한다저자의 재분석 :
두 가지 어려운 불가능한 언어를 보고했지만, 많은 불가능한 언어는 영어와 거의 동등하게 학습하기 쉽다 Mitchell & Bowers (2020)가 설계한 불가능한 언어 포함 가장 학습하기 어려운 불가능한 언어는 무작위 어순 섞임 (학습할 구조 없음) 또 다른 어려운 언어는 결정론적 무작위 섞임 (다양한 문장 길이에 다양한 섞임 규칙 사용, 여러 무작위 언어 학습과 동등) 실험 설계 : 다양한 불가능한 언어에서 LMs의 성능 평가, 결정론적 섞임 언어 포함발견 : 많은 불가능한 언어는 학습하기 쉽고, 무작위 섞임 언어는 어렵다저자의 비판 : 저자들이 Chomsky가 LMs이 무작위 섞임 언어를 학습할 수 있어야 한다고 예측했다고 잘못 생각했지만, 다양한 무작위 언어(다양한 문장 길이에 대해)를 학습하는 것은 어떤 이론에서도 어렵다실험 설계 : 불가능성이 아닌 언어의 타당성 (plausibility) 변화발견 : LMs이 특정 부자연스러운 언어에서는 어려움을 겪지만, 다른 경우에는 쉽게 학습한다저자가 지적한 문제 : 연구자들 자신이 재사실적 코퍼스의 노이즈 증가로 인한 재료 구성 오류 가능성을 인정했다발견 : LMs이 쉽게 학습할 수 있는 다양한 불가능한 언어를 보고했으며, 부분적으로 역순인 언어 포함(Mitchell & Bowers, 2020의 결과 복제)발견 : LMs이 완전히 역순인 언어를 쉽게 학습할 수 있다연구 학습하기 쉬운 불가능한 언어 학습하기 어려운 언어 유형 핵심 문제 Kallini et al. 다수, MB2020 언어 포함 무작위 섞임, 결정론적 다중 섞임 어려운 언어는 무작위/복잡함 Yang et al. 다수 결정론적 다중 섞임 복잡성과 불가능성 혼동 Xu et al. 부분적 부자연스러운 언어 부분적 부자연스러운 언어 재료 구성 오류 가능 Ziv et al. 부분적 역순 언어 등 - Chomsky 관점 지지 Lou et al. 완전히 역순인 언어 - Chomsky 관점 지지
Mitchell & Bowers (2020)가 설계한 불가능한 언어가 학습하기 쉬운 것으로 확인됨 부분적으로 역순인 언어(Ziv et al., 2025)는 학습하기 쉽다 완전히 역순인 언어(Lou et al., 2024)는 학습하기 쉽다 Kallini et al.과 Yang et al.은 모두 학습하기 쉬운 다양한 불가능한 언어를 보고했다 완전 무작위 섞임 : 학습할 구조가 없다결정론적 다중 섞임 : 다양한 무작위 매핑 규칙을 학습해야 한다(각 문장 길이마다 하나)이러한 언어의 어려움은 복잡성과 무작위성 에서 비롯되며, UG 위반이 아니다 저자들은 Bowers (2025a)를 인용하여 다음을 지적한다:
LMs은 영아보다 수 개의 수량급 더 많은 훈련 데이터가 필요하다 이는 인간 귀납적 편향의 부족과 일치한다 McCoy & Griffiths (2025)는 베이지안 사전을 LMs에 증류하려고 시도했다:
데이터 효율을 크게 향상시키지 못했다(Bowers, 2025b) 저자들은 Wolpert & Macready (2002)의 이론을 인용한다:
핵심 관점 : 특정 데이터 클래스에서 성능이 좋은 학습 알고리즘은 필연적으로 다른 데이터에서 성능이 낮다추론 : LMs이 특정 언어(예: 무작위 섞임)에서 성능이 낮은 것은 필연적 이며, 실증적 확인이 필요하지 않다핵심 구분 : 특정 언어에서 성능이 낮음 ≠ 인간과 유사한 귀납적 편향을 가짐위증 논리 : 특정 불가능한 언어를 성공적으로 학습하는 것은 LMs이 인간 언어 학습의 적절한 모델이라는 것을 위증 한다원본 문장(길이 5): The cat sat on mat
섞임 규칙 1(길이 5): cat The on sat mat
원본 문장(길이 6): The big cat sat on mat
섞임 규칙 2(길이 6): big The sat cat mat on
분석 : 이 언어를 학습하는 것은 여러 개의 서로 다른 무작위 매핑을 학습하는 것과 동등하며, 복잡성은 문장 길이 종류에 따라 선형으로 증가한다. 이는 UG 편향을 테스트하는 것이 아니라 여러 임의의 매핑을 기억하는 능력을 테스트하는 것이다.
특정 어순 규칙이 체계적으로 역순이지만 일관성을 유지한다.
발견 : LMs이 쉽게 학습할 수 있으며, 이는 이러한 유형의 언어를 배제하는 귀납적 편향이 부족함을 보여준다.
인간은 선천적인 언어 특정 귀납적 편향을 가지고 있다 UG 제약은 가능한 인간 언어 구조를 제한한다 아동이 빠르게 언어를 학습할 수 있게 한다 입력 데이터에서 통계적 규칙성 추출을 강조한다 LMs은 통계 학습의 극단적 표현으로 간주된다 F&M 및 그들이 인용한 연구는 LMs이 인간과 유사한 학습 선호도를 보인다고 주장한다 Mitchell & Bowers (2020) : LMs이 불가능한 언어를 학습할 수 있음을 처음으로 체계적으로 보여준 연구Chomsky et al. (2023) : LMs이 가능한 것과 불가능한 것을 구분하는 능력이 부족함을 비판한다Bowers (2025a) : LMs의 데이터 효율이 인간보다 훨씬 낮음을 강조한다본 논문은 Chomsky 전통 언어학 입장에 서서, 실증 연구를 재분석함으로써 연결주의/통계 학습 진영의 최신 논증에 반박한다.
실증적 증거는 F&M의 관점을 지지하지 않는다 : LMs은 실제 언어와 불가능한 언어를 동등하게 쉽게 학습할 수 있다학습하기 어려운 "불가능한 언어"는 복잡/무작위이다 : 학습 어려움은 UG 위반이 아닌 복잡성에서 비롯된다LMs은 인간 귀납적 편향이 부족하다 : 학습하기 쉬운 불가능한 언어와 낮은 데이터 효율의 증거를 결합하면, LMs의 학습 패턴은 인간과 근본적으로 다르다"무료 점심은 없다"는 지지 증거로 사용될 수 없다 : LMs이 특정 언어에서 성능이 낮은 것은 필연적이며, 인간과 유사한 편향을 가지고 있다는 것을 증명할 수 없다LMs은 인간 언어 습득의 적절한 모델이 아니다 : 현재 LMs의 학습 방식은 인간 선천적 언어 편향의 부족으로 예상되는 것이다새로운 실증 데이터 미제공 : 문헌 검토에만 기반하며, 새로운 실험 검증이 없다불가능한 언어의 정의 모호 : 다양한 연구에서 "불가능한 언어"의 조작적 정의가 불일치한다메커니즘 심층 탐구 부족 : LMs이 불가능한 언어를 학습할 수 있는 이유의 내부 메커니즘을 상세히 분석하지 않는다제한된 샘플 크기 : 검토된 연구 수가 상대적으로 적다(주로 5개의 최근 논문)불가능한 언어의 생태적 타당성 : 인공 구성 불가능한 언어가 UG의 제약을 완전히 포착하지 못할 수 있다LMs의 다양성 : 다양한 아키텍처의 LMs이 다르게 성능을 보일 수 있지만, 논문이 충분히 구분하지 않는다측정 문제 : "학습 어려움"을 정확하게 측정하는 방법에 대한 논쟁이 있다더 엄격한 불가능한 언어 설계 : UG 위반을 더 정확하게 조작화할 필요가 있다메커니즘 연구 : LMs이 불가능한 언어를 학습하는 내부 표현과 과정을 이해한다교차 모델 비교 : 다양한 아키텍처 LMs의 귀납적 편향을 체계적으로 비교한다발달 궤적 연구 : LMs과 아동의 학습 곡선을 비교한다하이브리드 모델 : 언어학적 선험적 지식을 LMs에 통합하는 방법을 탐구한다신경과학 검증 : 뇌 영상 연구를 사용하여 인간이 불가능한 언어를 처리하는 신경 메커니즘을 검증한다"복잡성"과 "불가능성"을 명확히 구분하며, 이는 핵심적인 개념 명확화이다 "무료 점심은 없다" 정리를 올바르게 적용하여 논리적 오류를 드러낸다 인용된 연구의 결론만 읽는 것이 아니라 실험 설계와 데이터를 심층 분석한다 F&M의 선택적 인용과 오독 문제를 발견한다 위증 논리를 사용한다: 불가능한 언어를 성공적으로 학습하는 것은 LMs이 인간 모델이라는 것을 위증 한다 상대방 논증의 비대칭성을 지적한다: 특정 언어에서 성능이 낮은 것은 인간과 유사한 편향을 증명 할 수 없다 Xu et al. 연구자들이 자신이 지적한 재료 문제를 인정한다 공정하게 다양한 관점을 제시한다 언어학의 핵심 논쟁에 접근한다: 선천성 vs. 후천성, UG vs. 통계 학습 AI 분야에도 시사점을 제공한다: LMs의 능력 경계 새로운 데이터 미제공 : 타인 연구의 재해석에만 의존한다선택적 가능성 : F&M의 선택적 인용을 비판하지만, 자신의 문헌 선택도 편향될 수 있다정량적 종합 부족 : 메타 분석이나 체계적 정량 검토를 수행하지 않는다"불가능한 언어" 정의 모호 : 다양한 연구가 다양한 정의를 사용하지만, 논문이 충분히 논의하지 않는다"학습하기 쉬움" vs "학습하기 어려움"의 기준 : 명확한 정량적 기준이 없다"복잡성"의 측정 : 언어의 복잡성을 어떻게 정량화할 것인가?결정론적 섞임 언어의 논증 : 복잡성을 지적하지만, 이러한 복잡성이 UG 위반과 완전히 무관한지는 여전히 논쟁의 여지가 있다"무료 점심은 없다" 정리의 적용 가능성 : 이 정리는 최적화 문제에 적용되며, 언어 학습에 직접 적용하려면 더 많은 논증이 필요하다대체 설명 미고려 : LMs이 다른 유형의 귀납적 편향(예: 국소성 선호도)을 가질 수 있으며, 이는 단순히 UG와 다를 뿐이다블랙박스 분석 : 입출력에서만 판단하며, LMs의 내부 표현을 분석하지 않는다건설적 방안 부족 : 비판은 충분하지만 건설은 부족하며, LMs을 개선하는 방법을 제시하지 않는다입장이 명확하다 : Chomsky 편에 명백히 서 있으며, 객관성에 영향을 미칠 수 있다상대방 연구에 대한 비판이 엄하다 : "오독", "오류" 등을 지적하며, 학술 논쟁의 어조가 더 온화할 수 있다주요 논문 5개만 검토 : 샘플 크기가 작다좁은 시간 창 : 주로 2020-2025년 연구단일 모델 유형 : 주로 Transformer 계열 LMs에 초점이론적 명확화 : 중요한 개념 구분(복잡성 vs. 불가능성)방법론적 기여 : 실험 설계의 일반적인 함정 지적논쟁 추진 : 더 엄격한 실험 설계와 더 심층적인 이론 논의를 촉진한다단기 : F&M 및 관련 연구자들의 회응을 유발하여 학술 논쟁을 촉진할 가능성중기 : 연구자들이 더 엄격한 불가능한 언어 실험을 설계하도록 유도장기 : LMs의 인지과학적 지위 평가에 영향을 미칠 가능성AI 연구에 대한 시사 : LMs의 귀납적 편향을 이해하는 것이 모델 개선에 가치가 있다교육에 대한 시사 : LMs의 학습 방식이 인간과 다르면, 언어 교육 모의에 직접 사용할 수 없다높음 : 논문은 주로 문헌 검토이며, 인용된 모든 연구는 이미 발표되었으므로 독자가 저자의 분석을 검증할 수 있다이론 언어학자 : UG와 언어 습득 이론에 관심 있는 사람계산 언어학자 : LMs의 능력과 한계를 연구하는 사람인지과학자 : 인간 언어 처리의 계산 모델에 관심 있는 사람AI 연구자 : LMs의 귀납적 편향을 개선하려는 사람불가능한 언어 실험 설계 : 중요한 방법론적 지침 제공LMs의 인지적 합리성 평가 : 이론적 프레임워크 제공언어학 이론 논쟁 : 선천론에 지지 제공공학 응용 : 실제 LMs 응용에 제한된 도움비언어 분야 : 언어 학습에 특정된 논증Chomsky et al. (2023) : "The False Promise of ChatGPT" - LMs에 대한 Chomsky의 고전적 비판Futrell & Mahowald (2025) : 평론의 대상 논문, LMs 지지 관점 대표Mitchell & Bowers (2020) : LMs이 불가능한 언어를 학습할 수 있음을 처음 체계적으로 보여준 연구Kallini et al. (2024) : "Mission: Impossible language models" - 가장 포괄적인 실증 연구 중 하나Yang et al. (2025) : 교차 언어 불가능한 언어 학습 연구Wolpert & Macready (2002) : "No free lunch theorems" - 기계 학습의 기초 이론McCoy & Griffiths (2025) : 베이지안 사전을 LMs에 통합하려는 연구Bowers (2025a) : LMs 데이터 효율의 체계적 분석Bowers (2025b) : McCoy & Griffiths에 대한 평론이는 이론적 입장이 명확하고, 논리적 논증이 엄밀하지만, 실증적 기초가 상대적으로 약한 평론 논문이다. 저자들은 기존 문헌의 심층 분석을 통해 "LMs이 인간과 유사한 언어 귀납적 편향을 가지고 있다"는 관점에 강력하게 도전하며, Chomsky의 전통 언어학 입장을 지지한다.
최대 가치 는 개념 명확화 (복잡성과 불가능성 구분) 및 논리적 분석 ("무료 점심은 없다" 정리와 위증 논리 적용)에 있으며, 이는 해당 분야의 방법론에 중요한 기여를 한다.
주요 한계 는 새로운 실증 데이터의 부재와 LMs 내부 메커니즘에 대한 심층 분석 부족이다. 평론 논문으로서는 이해할 수 있지만, 설득력을 제한한다.
본 논문은 언어학과 AI 분야에서 LMs의 본질에 관한 심층 논의를 촉진하고, 더 엄격한 실험 설계를 추진하지만, 두 진영의 기본 입장을 즉시 변경하지는 못할 것이다. 이 논쟁의 해결은 더 많은 실증 연구, 더 정밀한 이론적 프레임워크, 그리고 신경과학의 독립적 증거가 필요할 수 있다.
추천 지수 : ⭐⭐⭐⭐ (4/5)
이론적 기여: ⭐⭐⭐⭐⭐ 실증적 충분성: ⭐⭐⭐ 방법론적 혁신성: ⭐⭐⭐ 실용적 가치: ⭐⭐⭐ 작문 품질: ⭐⭐⭐⭐