Large language models (LLMs) that fluently converse with humans are a reality - but do LLMs experience human-like processing difficulties? We systematically compare human and LLM sentence comprehension across seven challenging linguistic structures. We collect sentence comprehension data from humans and five families of state-of-the-art LLMs, varying in size and training procedure in a unified experimental framework. Our results show LLMs overall struggle on the target structures, but especially on garden path (GP) sentences. Indeed, while the strongest models achieve near perfect accuracy on non-GP structures (93.7% for GPT-5), they struggle on GP structures (46.8% for GPT-5). Additionally, when ranking structures based on average performance, rank correlation between humans and models increases with parameter count. For each target structure, we also collect data for their matched baseline without the difficult structure. Comparing performance on the target vs. baseline sentences, the performance gap observed in humans holds for LLMs, with two exceptions: for models that are too weak performance is uniformly low across both sentence types, and for models that are too strong the performance is uniformly high. Together, these reveal convergence and divergence in human and LLM sentence comprehension, offering new insights into the similarity of humans and LLMs.
- पेपर ID: 2510.07141
- शीर्षक: मानव और भाषा मॉडल की जटिल संरचनाओं पर वाक्य प्रसंस्करण कठिनाइयों की तुलना
- लेखक: Samuel Joseph Amouyal, Aya Meltzer-Asscher, Jonathan Berant
- वर्गीकरण: cs.CL cs.AI
- प्रकाशन समय: अक्टूबर 2025 (arXiv प्रीप्रिंट)
- पेपर लिंक: https://arxiv.org/abs/2510.07141
बड़े भाषा मॉडल (LLMs) मनुष्यों के साथ धाराप्रवाह संवाद करने में सक्षम हो गए हैं, लेकिन क्या वे मनुष्यों के समान वाक्य प्रसंस्करण कठिनाइयों का सामना करते हैं? यह अनुसंधान सात चुनौतीपूर्ण भाषाई संरचनाओं पर मानव और LLM की वाक्य समझ क्षमता की व्यवस्थित तुलना करता है। अनुसंधान ने मानव और पाँच SOTA LLM परिवारों से वाक्य समझ डेटा एकत्र किया, जिनमें विभिन्न पैमाने और प्रशिक्षण प्रक्रियाएँ हैं। परिणाम दर्शाते हैं कि LLMs लक्ष्य संरचनाओं पर व्यापक रूप से कठिनाई का सामना करते हैं, विशेषकर गार्डन पाथ (GP) वाक्यों पर। हालांकि सबसे मजबूत मॉडल गैर-GP संरचनाओं पर लगभग पूर्ण सटीकता प्राप्त करते हैं (GPT-5 93.7% तक पहुँचता है), लेकिन GP संरचनाओं पर कठिनाई का सामना करते हैं (GPT-5 केवल 46.8%)। इसके अलावा, औसत प्रदर्शन के आधार पर संरचनाओं को क्रमबद्ध करते समय, मानव और मॉडल के बीच रैंक सहसंबंध पैरामीटर संख्या के साथ बढ़ता है।
बड़े भाषा मॉडल की संवाद क्षमता में सफलता के साथ, एक महत्वपूर्ण प्रश्न उठता है: क्या LLMs मनुष्यों की तरह विशिष्ट भाषाई संरचनाओं पर प्रसंस्करण कठिनाई का सामना करते हैं? यह प्रश्न LLMs के संज्ञानात्मक तंत्र और मानव भाषा प्रसंस्करण के साथ समानता को समझने के लिए महत्वपूर्ण है।
- संज्ञानात्मक विज्ञान महत्व: मानव और LLM की त्रुटि पैटर्न की तुलना करके, दोनों के भाषा प्रसंस्करण तंत्र में अंतर्दृष्टि प्राप्त की जा सकती है
- मॉडल मूल्यांकन आवश्यकता: पारंपरिक मूल्यांकन समग्र प्रदर्शन पर केंद्रित होते हैं, विशिष्ट भाषाई घटनाओं की प्रसंस्करण क्षमता का विस्तृत विश्लेषण नहीं करते
- अनुप्रयोग मूल्य: LLM की भाषा प्रसंस्करण सीमाओं को समझना मॉडल डिजाइन और अनुप्रयोग तैनाती में सुधार करने में सहायता करता है
- अप्रत्यक्ष माप: अधिकांश अनुसंधान अप्रत्यक्ष संकेतकों (जैसे पढ़ने का समय, भ्रम) का उपयोग करते हैं, न कि सीधे समझ परीक्षण का
- असंगत प्रायोगिक सेटअप: विभिन्न अनुसंधान विभिन्न मॉडल, डेटा और प्रॉम्प्ट का उपयोग करते हैं, जिससे एकीकृत निष्कर्ष निकालना कठिन है
- सीमित कवरेज: कई भाषाई घटनाओं की व्यवस्थित तुलना की कमी है
- सात चुनौतीपूर्ण भाषाई संरचनाओं का वाक्य समझ डेटासेट बनाया, जिसमें चार प्रकार के गार्डन पाथ वाक्य, दोहरे केंद्रीय एम्बेडिंग, समानता हस्तक्षेप और गहराई प्रभाव वाक्य शामिल हैं
- 31 SOTA मॉडल का व्यवस्थित परीक्षण किया, जिसमें 5 मॉडल परिवार शामिल हैं, विभिन्न पैमाने और प्रशिक्षण विधियों के साथ
- GP और गैर-GP संरचनाओं की प्रसंस्करण भिन्नता की खोज की: LLM GP वाक्यों पर मानव प्रदर्शन के करीब हैं, लेकिन गैर-GP संरचनाओं पर बेहतर प्रदर्शन करते हैं
- "मीठा बिंदु" नियम प्रस्तावित किया: केवल मध्यम शक्ति के मॉडल में ही मानव के समान लक्ष्य-आधारभूत प्रदर्शन अंतर पैटर्न देखा जा सकता है
इनपुट: एक वाक्य और एक समझ प्रश्न
आउटपुट: हाँ/नहीं उत्तर
लक्ष्य: समान कार्य पर मानव और LLM के प्रदर्शन पैटर्न की तुलना करना
- गार्डन पाथ वाक्य (4 प्रकार):
- विषय/वस्तु GP: "While the man hunted the deer ran into the woods."
- NP/S GP: "The policeman saw the lights were off."
- NP/VP GP: "The complex houses married soldiers."
- कम किया गया सापेक्ष GP: "The chef hired last month worked overtime."
- दोहरे केंद्रीय एम्बेडिंग: दो नेस्टेड उप-वाक्य युक्त, जैसे "The man that the teacher that the student liked called sat."
- गहराई प्रभाव वाक्य: बहु-नकारात्मक संरचनाएँ, जैसे "No head injury is too trivial to be ignored."
- समानता हस्तक्षेप: दो संज्ञा वाक्यांश साझा विशेषताएँ साझा करते हैं जिससे हस्तक्षेप होता है, जैसे "The banker that the barber praised climbed the mountain."
प्रत्येक संरचना के लिए लक्ष्य स्थिति (कठिन संरचना युक्त) और आधारभूत स्थिति (कठिन कारक हटाई गई) डिजाइन की गई, जो संरचना के प्रभाव को मापने में सक्षम बनाती है।
- प्रतिभागी: Prolific प्लेटफॉर्म के माध्यम से भर्ती किए गए अंग्रेजी मातृभाषी
- प्रक्रिया: शब्द-दर-शब्द प्रस्तुति (400ms/शब्द), प्रश्न 5 सेकंड के लिए प्रस्तुत
- डिजाइन: प्रत्येक प्रतिभागी केवल एक वाक्य-प्रश्न जोड़ी देखता है, सीखने के प्रभाव से बचने के लिए
- नमूना आकार: 5380 डेटा बिंदु, प्रत्येक वाक्य-प्रश्न जोड़ी के लिए 10 प्रतिभागी
- प्रॉम्प्ट रणनीति: कम-नमूना प्रॉम्प्टिंग, लक्ष्य संरचना रहित उदाहरण युक्त
- नियंत्रण चर: 2 सिस्टम प्रॉम्प्ट × 4 उदाहरण क्रम = 8 दोहराव
- मॉडल कवरेज: 31 मॉडल, जिनमें GPT, Llama, Qwen, Gemma, DeepSeek परिवार शामिल हैं
- विचार श्रृंखला परीक्षण: कुछ मॉडल "सोचने" मोड को चालू/बंद करने के प्रभाव का परीक्षण
- मानव औसत सटीकता: 28.3%, संरचना की चुनौतीपूर्णता को सत्यापित करता है
- सर्वश्रेष्ठ LLM प्रदर्शन: o3 मॉडल 74.5% (विचार श्रृंखला के बिना), GPT-5 विचार श्रृंखला मोड 88.9%
- संरचना अंतर: GP वाक्य LLM के लिए अपेक्षाकृत अधिक कठिन हैं, गैर-GP संरचनाओं के साथ विरोधाभास बनाते हैं
| मॉडल प्रकार | GP संरचना सटीकता | गैर-GP संरचना सटीकता | अंतर |
|---|
| GPT-5 | 46.8% | 93.7% | 46.9% |
| o3 | 66.5% | 87.3% | 20.8% |
| मानव | 25.8% | 32.4% | 6.6% |
निरपेक्ष प्रदर्शन अंतर:
- GP संरचना: औसत अंतर 0.173 (मानव के करीब)
- गहराई प्रभाव: औसत अंतर 0.328
- दोहरी एम्बेडिंग: औसत अंतर 0.330
- समानता हस्तक्षेप: औसत अंतर 0.370
रैंक सहसंबंध: मॉडल आकार बढ़ने के साथ, संरचना कठिनाई क्रमबद्धता में मानव के साथ सहसंबंध बढ़ता है, o4-mini सर्वोच्च सहसंबंध 0.929 तक पहुँचता है।
मॉडल को मानव के लक्ष्य-आधारभूत अंतर पैटर्न को दोहराने के लिए मध्यम शक्ति की आवश्यकता होती है:
- बहुत कमजोर: दोनों स्थितियों में कमजोर प्रदर्शन
- बहुत मजबूत: दोनों स्थितियों में अच्छा प्रदर्शन
- मध्यम: मानव के समान दिशात्मक अंतर दिखा सकता है
- शक्ति निर्भरता: केवल पर्याप्त मजबूत मॉडल ही विचार श्रृंखला से लाभान्वित हो सकते हैं
- संरचना विशिष्टता: विचार श्रृंखला गैर-GP संरचनाओं में अधिक सहायक है, GP संरचनाओं पर सीमित प्रभाव
- अपवाद स्थिति: GPT-5 GP संरचनाओं पर विचार श्रृंखला से महत्वपूर्ण सुधार प्राप्त करता है
- मस्तिष्क सक्रियता तुलना: Schrimpf आदि ने मस्तिष्क और LLM सक्रियता पैटर्न की तुलना की
- संज्ञानात्मक संकेतक पूर्वानुमान: मानव पढ़ने के समय, नेत्र गति आदि की भविष्यवाणी के लिए LLM जानकारी का उपयोग
- गार्डन पाथ प्रभाव: Amouyal आदि ने विशिष्ट GP वाक्यों पर LLM में मानव-जैसी त्रुटियाँ खोजीं
- केंद्रीय एम्बेडिंग: Hu आदि ने दिखाया कि LLM मनुष्यों की तरह केंद्रीय एम्बेडिंग वाक्यों को अव्याकरणिक मानते हैं
यह अनुसंधान एकीकृत ढाँचे के तहत कई भाषाई घटनाओं की व्यवस्थित तुलना करने वाला पहला है, जो पिछले अनुसंधान की असंगत प्रायोगिक सेटअप समस्या को दूर करता है।
- GP संरचनाओं की विशेषता: LLM GP वाक्यों पर मानव के करीब प्रदर्शन करते हैं, संभवतः क्योंकि GP वाक्यों को गलत व्याख्या को त्यागने की आवश्यकता होती है, न कि केवल कार्यशील स्मृति पर निर्भरता
- पैमाना प्रभाव: बड़े मॉडल संरचना कठिनाई क्रमबद्धता में मानव के साथ उच्च सहसंबंध दिखाते हैं
- मीठा बिंदु नियम: मध्यम शक्ति के मॉडल मानव प्रसंस्करण पैटर्न को सबसे अच्छी तरह दोहरा सकते हैं
कार्यशील स्मृति परिकल्पना: LLM उन संरचनाओं पर मनुष्यों से बेहतर प्रदर्शन करते हैं जिनमें बड़ी कार्यशील स्मृति की आवश्यकता होती है (जैसे दोहरी एम्बेडिंग), लेकिन GP वाक्यों पर अपेक्षाकृत कमजोर प्रदर्शन करते हैं, क्योंकि बाद वाला कार्यशील स्मृति क्षमता समस्या नहीं है।
- मॉडल कवरेज: केवल OpenAI के एक बंद-स्रोत मॉडल परिवार का परीक्षण किया गया, Anthropic या Google मॉडल शामिल नहीं
- GP प्रकार सीमा: सभी प्रकार के गार्डन पाथ वाक्यों का परीक्षण नहीं किया गया
- एकल संकेतक: केवल समझ सटीकता का परीक्षण किया गया, नेत्र गति, पढ़ने का समय आदि संज्ञानात्मक संकेतकों की कमी
- कारणात्मक सत्यापन: कार्यशील स्मृति परिकल्पना को सत्यापित करने के लिए प्रयोग डिजाइन करना
- विस्तारित परीक्षण: अधिक मॉडल परिवार और GP प्रकार शामिल करना
- बहु-मोडल संकेतक: कई संज्ञानात्मक माप संकेतकों को संयोजित करना
- कठोर प्रायोगिक डिजाइन: एकीकृत ढाँचे के तहत व्यवस्थित तुलना, पर्याप्त चर नियंत्रण
- अभूतपूर्व पैमाना: 31 मॉडल और 7 भाषाई घटनाओं को शामिल करते हुए, इस क्षेत्र का सबसे बड़ा अनुसंधान
- महत्वपूर्ण खोजें: GP और गैर-GP संरचनाओं की भिन्नता की खोज महत्वपूर्ण सैद्धांतिक महत्व रखती है
- विधि नवाचार: अप्रत्यक्ष संकेतकों के बजाय समझ क्षमता का सीधा माप, अधिक विश्वसनीय
- सीमित सैद्धांतिक व्याख्या: कार्यशील स्मृति परिकल्पना को अभी अधिक साक्ष्य की आवश्यकता है
- भाषा सीमा: केवल अंग्रेजी का परीक्षण किया गया, क्रॉस-भाषा सत्यापन की कमी
- एकल कार्य: केवल हाँ/नहीं प्रश्नोत्तर का उपयोग, समझ क्षमता को पूरी तरह प्रतिबिंबित नहीं कर सकता
- शैक्षणिक योगदान: मानव-AI संज्ञानात्मक तुलना अनुसंधान के लिए नई पद्धति ढाँचा प्रदान करता है
- व्यावहारिक मूल्य: LLM की भाषा प्रसंस्करण सीमाओं को समझने में सहायता, मॉडल सुधार का मार्गदर्शन
- पुनरुत्पादनशीलता: लेखक कोड और डेटा को खुला-स्रोत करने का वचन देते हैं, बाद के अनुसंधान को सुविधाजनक बनाता है
- मॉडल मूल्यांकन: LLM की भाषा समझ क्षमता के लिए सूक्ष्म-दानेदार मूल्यांकन उपकरण प्रदान करता है
- संज्ञानात्मक अनुसंधान: कृत्रिम और प्राकृतिक बुद्धिमत्ता के भाषा प्रसंस्करण तंत्र की तुलना के लिए प्रतिमान प्रदान करता है
- शैक्षिक अनुप्रयोग: भाषा सीखने में कठिन संरचनाओं की पहचान और लक्षित प्रशिक्षण के लिए उपयोग किया जा सकता है
- Amouyal et al. (2025). जब LM ने मानव को गलत समझा हँसा: मानव और भाषा मॉडल में गार्डन पाथ प्रभाव का विश्लेषण।
- Christianson et al. (2001). गार्डन पाथ पर निर्दिष्ट विषयगत भूमिकाएँ बनी रहती हैं।
- Gibson & Thomas (1999). स्मृति सीमाएँ और संरचनात्मक विस्मरण।
- Gordon et al. (2001). भाषा प्रसंस्करण के दौरान स्मृति हस्तक्षेप।
समग्र मूल्यांकन: यह एक उच्च-गुणवत्ता वाला अंतःविषय अनुसंधान है, जो पद्धति में नवीन है, प्रायोगिक डिजाइन कठोर है, और निष्कर्ष महत्वपूर्ण सैद्धांतिक और व्यावहारिक महत्व रखते हैं। विशेषकर GP और गैर-GP संरचनाओं के अंतर की खोज LLM के संज्ञानात्मक तंत्र को समझने के लिए एक नया दृष्टिकोण प्रदान करती है। हालांकि कुछ सीमाएँ हैं, लेकिन समग्र योगदान महत्वपूर्ण है और आगे के गहन अनुसंधान के योग्य है।