2025-11-18T03:52:12.754014

Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning

Wang, Kovashka, FernÃ¡ndez et al.

We investigate a new setting for foreign language learning, where learners infer the meaning of unfamiliar words in a multimodal context of a sentence describing a paired image. We conduct studies with human participants using different image-text pairs. We analyze the features of the data (i.e., images and texts) that make it easier for participants to infer the meaning of a masked or unfamiliar word, and what language backgrounds of the participants correlate with success. We find only some intuitive features have strong correlations with participant performance, prompting the need for further investigating of predictive features for success in these tasks. We also analyze the ability of AI systems to reason about participant performance, and discover promising future directions for improving this reasoning ability.

academic

बहुविध अनुमान में अस्पष्टता समाधान को समझने की ओर

मूल जानकारी

पेपर ID: 2510.09815
शीर्षक: बहुविध अनुमान में अस्पष्टता समाधान को समझने की ओर
लेखक: Yufei Wang (पिट्सबर्ग विश्वविद्यालय), Adriana Kovashka (पिट्सबर्ग विश्वविद्यालय), Loretta Fernández (पिट्सबर्ग विश्वविद्यालय), Marc N. Coutanche (पिट्सबर्ग विश्वविद्यालय), Seth Wiener (कार्नेगी मेलन विश्वविद्यालय)
वर्गीकरण: cs.CV cs.AI
प्रकाशन तिथि: 25 अक्टूबर 2010 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09815

सारांश

यह अनुसंधान विदेशी भाषा सीखने के एक नए परिदृश्य की खोज करता है, जहाँ शिक्षार्थियों को छवि-पाठ युग्मों के बहुविध संदर्भ में अपरिचित शब्दों के अर्थ का अनुमान लगाना होता है। अनुसंधान विभिन्न छवि-पाठ जोड़ियों के माध्यम से मानव प्रतिभागियों के प्रयोग का विश्लेषण करता है, डेटा विशेषताओं (छवि और पाठ) के प्रभाव का अध्ययन करता है कि प्रतिभागी छिपे हुए या अपरिचित शब्दों के अर्थ का अनुमान कैसे लगाते हैं, और प्रतिभागियों की भाषाई पृष्ठभूमि सफलता दर से कैसे संबंधित है। अनुसंधान से पता चलता है कि केवल कुछ सहज विशेषताएं प्रतिभागियों के प्रदर्शन से दृढ़ सहसंबंध रखती हैं, जो कार्य सफलता की भविष्यवाणी करने वाली विशेषताओं के आगे के अनुसंधान की आवश्यकता को प्रेरित करता है। साथ ही, AI प्रणालियों की प्रतिभागियों के प्रदर्शन को समझाने की क्षमता का विश्लेषण किया गया, जिससे इस तरह की समझ क्षमता में सुधार के लिए आशाजनक दिशाएं मिलीं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

इस अनुसंधान द्वारा समाधान की जाने वाली मूल समस्या यह है: बहुविध संदर्भ (छवि-युग्मित पाठ) में, कौन से कारक विदेशी भाषा शिक्षार्थियों के लिए अपरिचित शब्दावली के अर्थ का अनुमान लगाना आसान या कठिन बनाते हैं, और क्या AI प्रणालियां इस तरह के कार्यों में मानव प्रदर्शन की प्रभावी ढंग से भविष्यवाणी कर सकती हैं।

महत्व

व्यावहारिक आवश्यकता: विश्व भर में 1 अरब से अधिक लोग अंग्रेजी को दूसरी भाषा के रूप में सीखते हैं, बहुभाषी क्षमता कार्यस्थल में बढ़ती मांग में है
शैक्षणिक मूल्य: विसर्जनकारी और इंटरैक्टिव वातावरण विदेशी भाषा सीखने के लिए आदर्श माने जाते हैं
सैद्धांतिक महत्व: अस्पष्टता सहनशीलता विदेशी भाषा सीखने की सफलता से घनिष्ठ रूप से संबंधित है, लेकिन बहुविध संदर्भ में अस्पष्टता समाधान तंत्र की गहन समझ की कमी है

मौजूदा सीमाएं

बहुविध संदर्भ में द्वितीय भाषा शिक्षार्थियों द्वारा अस्पष्टता को संभालने का कोई व्यवस्थित अनुसंधान नहीं है
विशिष्ट डेटा विशेषताएं सीखने की कठिनाई को कैसे प्रभावित करती हैं, इसका मात्रात्मक विश्लेषण अपर्याप्त है
मानव भाषा सीखने के प्रदर्शन की भविष्यवाणी करने में AI प्रणालियों की क्षमता की खोज की जानी बाकी है

अनुसंधान प्रेरणा

"निकटतम विकास क्षेत्र" (ZPD) सिद्धांत और "आदर्श कठिनाई" अवधारणा के आधार पर, अनुसंधान का लक्ष्य ऐसी AI प्रणालियां विकसित करना है जो क्रमिक चुनौतीपूर्ण सीखने की सामग्री को गतिशील रूप से योजना बना सकें, व्यक्तिगत विदेशी भाषा सीखने के लिए समर्थन प्रदान करें।

मुख्य योगदान

नया कार्य सेटअप: बहुविध संदर्भ में शब्दावली अर्थ अनुमान कार्य का पहली बार व्यवस्थित अनुसंधान, वास्तविक विदेशी भाषा सीखने के परिदृश्य का अनुकरण
विशेषता विश्लेषण ढांचा: पाठ विशेषताओं, छवि विशेषताओं और शिक्षार्थी पृष्ठभूमि विशेषताओं वाला एक व्यापक विश्लेषण ढांचा स्थापित करना
मानव प्रयोग डेटा: 5 भाषाओं (स्पेनिश, फ्रेंच, जर्मन, कोरियाई, तुर्की) को कवर करने वाले मानव प्रतिभागियों का डेटा संग्रह
AI भविष्यवाणी क्षमता मूल्यांकन: मानव विदेशी भाषा सीखने के प्रदर्शन की भविष्यवाणी करने में AI प्रणालियों की क्षमता का पहली बार मूल्यांकन, सुधार की दिशाएं खोजना
रणनीति पहचान: शिक्षार्थियों द्वारा उपयोग की जाने वाली मुख्य तर्क रणनीतियों की पहचान और वर्गीकरण

विधि विवरण

कार्य परिभाषा

इनपुट: छवि I और एक लक्ष्य भाषा वाक्य S जिसमें एक छिपा हुआ संज्ञा है आउटपुट: शिक्षार्थी द्वारा अंग्रेजी में दिया गया छिपे हुए शब्द के अर्थ का अनुमान बाधा: शिक्षार्थी अनुवाद उपकरण का उपयोग नहीं कर सकते, दृश्य संदर्भ और वाक्य संदर्भ के आधार पर तर्क करना चाहिए

प्रायोगिक डिजाइन

पहला अध्ययन

डेटा: 50 यादृच्छिक रूप से चुनी गई छवि-पाठ जोड़ियां (स्पेनिश)
प्रतिभागी: 8 प्रतिभागी (7 स्पेनिश शुरुआत, 1 मध्यवर्ती स्तर)
कार्य: भरने का कार्य, छिपे हुए संज्ञा के अर्थ का अनुमान लगाना

दूसरा अध्ययन

डेटा: 10 सावधानीपूर्वक योजनाबद्ध छवि-पाठ जोड़ियां, 5 भाषाओं को कवर करते हुए
प्रतिभागी: लगभग 50 प्रतिभागी, विभिन्न भाषाई पृष्ठभूमि के साथ
बढ़ी हुई कार्यक्षमताएं:
- प्रतिभागी भाषा दक्षता जानकारी संग्रह (1-5 स्केल)
- प्रतिभागियों से ज्ञात शब्दावली की पहचान करने और तर्क प्रक्रिया की व्याख्या करने के लिए कहना
- कोरियाई के लिए रोमनकरण संस्करण उपलब्ध कराना उच्चारण सहायता के लिए

विशेषता निष्कर्षण

पाठ विशेषताएं

वाक्य लंबाई: शब्दावली संख्या (धारणा: लंबे वाक्य विश्लेषण करना अधिक कठिन है)
लक्ष्य शब्द स्थिति: वाक्य की शुरुआत/अंत से दूरी
संज्ञा अनुपात: वाक्य में कुल शब्दों में संज्ञाओं का अनुपात

छवि विशेषताएं

वस्तु संख्या: छवि में कुल वस्तुओं की संख्या
वस्तु आकार और स्थिति: लक्ष्य वस्तु की प्रमुखता
इंटरैक्टिविटी: क्या लोग वस्तुओं के साथ इंटरैक्ट कर रहे हैं
CLIP समानता: पूर्व-प्रशिक्षित मॉडल द्वारा दिया गया छवि-पाठ मिलान स्कोर

प्रतिभागी पृष्ठभूमि विशेषताएं

लक्ष्य भाषा दक्षता: 1-5 स्केल पर आत्म-मूल्यांकन
संबंधित भाषा दक्षता योग: भाषा परिवार द्वारा समूहीकृत
कुल भाषाओं में महारत: बहुभाषी अनुभव संकेतक

प्रायोगिक सेटअप

डेटासेट

XM3600 डेटासेट का उपयोग किया गया, जो एक बड़े पैमाने पर बहुभाषी बहुविध मूल्यांकन डेटासेट है, जिसमें वर्णनात्मक छवि कैप्शन शामिल हैं।

मूल्यांकन मेट्रिक्स

सटीकता: शब्दावली अर्थ का सही अनुमान लगाने वाले प्रतिभागियों का अनुपात
सहसंबंध विश्लेषण: Pearson और Spearman सहसंबंध गुणांक का उपयोग
AI भविष्यवाणी सटीकता: AI प्रणाली द्वारा मानव प्रदर्शन की भविष्यवाणी की सटीकता

तुलनात्मक विधियां

मैनुअल एनोटेशन बनाम स्वचालित निष्कर्षण: मानव एनोटेशन और AI प्रणाली द्वारा निकाली गई विशेषताओं के प्रभाव की तुलना
विभिन्न AI मॉडल: InternVL (दृश्य-भाषा मॉडल) बनाम InternLM (शुद्ध भाषा मॉडल)

प्रायोगिक परिणाम

मुख्य निष्कर्ष

विशेषता सहसंबंध विश्लेषण

महत्वपूर्ण सहसंबंधी विशेषताएं:

वस्तु संख्या: सफलता दर से महत्वपूर्ण नकारात्मक सहसंबंध (r = -0.4012, p < 0.05)
वाक्य लंबाई: सफलता दर से महत्वपूर्ण नकारात्मक सहसंबंध (r = -0.4758, p < 0.05)
संज्ञा अनुपात: सफलता दर से सकारात्मक सहसंबंध (r = 0.2666, p < 0.10)

गैर-महत्वपूर्ण विशेषताएं:

लक्ष्य वस्तु का आकार और स्थिति
CLIP समानता स्कोर
वाक्य में लक्ष्य शब्द की स्थिति

भाषाई पृष्ठभूमि प्रभाव

विभिन्न भाषाओं में प्रदर्शन में अंतर:

स्पेनिश: औसत सटीकता 7.1/10 (मानक विचलन 1.8)
कोरियाई: औसत सटीकता 6.6/10 (मानक विचलन 2.3)
जर्मन: औसत सटीकता 6.4/10 (मानक विचलन 2.1)
फ्रेंच: औसत सटीकता 6.2/10 (मानक विचलन 1.5)
तुर्की: औसत सटीकता 6.2/10 (मानक विचलन 1.9)

रणनीति पहचान

शिक्षार्थी मुख्य रूप से चार रणनीतियों का उपयोग करते हैं:

बहिष्करण सिद्धांत: ज्ञात शब्दावली की पहचान करना, संबंधित वस्तुओं को बाहर करना
व्याकरण विश्लेषण: शब्द के भाग और संबंधों का अनुमान लगाने के लिए व्याकरण संरचना का उपयोग
दृश्य विश्लेषण: वस्तु की प्रमुखता और स्थिति के आधार पर तर्क
शब्दावली समानता: भाषाओं के बीच समानता का उपयोग (झूठे मित्रों सहित)

AI भविष्यवाणी क्षमता मूल्यांकन

सर्वोत्तम कॉन्फ़िगरेशन प्रदर्शन

InternLM + पाठ विवरण + पृष्ठभूमि जानकारी + रणनीति सारांश: औसत सटीकता 57.4%
InternVL + मूल छवि + पृष्ठभूमि जानकारी + रणनीति सारांश: औसत सटीकता 56.8%

मुख्य निष्कर्ष

रणनीति जानकारी का महत्व: रणनीति जानकारी जोड़ने से सटीकता में 16-32% की वृद्धि हो सकती है
पाठ विवरण छवि से बेहतर: सीधे छवि इनपुट करने की तुलना में छवि पाठ विवरण का उपयोग अधिक प्रभावी है
भाषा अंतर: तुर्की भाषा की भविष्यवाणी सबसे कठिन है, स्पेनिश सबसे आसान है
AI-मानव अंतर: AI प्रणाली के कार्य कठिनाई क्रम का मानव प्रदर्शन से कमजोर सहसंबंध है (r = 0.529, p = 0.359)

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

सीमित विशेषता पूर्वानुमानशीलता: केवल कुछ सहज विशेषताएं (वस्तु संख्या, वाक्य लंबाई) तर्क सफलता दर से महत्वपूर्ण रूप से संबंधित हैं
भाषाई पृष्ठभूमि जटिलता: भाषा दक्षता और कार्य प्रदर्शन के बीच सहसंबंध भाषा के अनुसार भिन्न होता है
AI भविष्यवाणी चुनौती: वर्तमान AI प्रणालियों की मानव प्रदर्शन की भविष्यवाणी करने की क्षमता सीमित है, लेकिन रणनीति जानकारी भविष्यवाणी में महत्वपूर्ण सुधार करती है
रणनीति विविधता: शिक्षार्थी कई तर्क रणनीतियों को अपनाते हैं, लेकिन उपयोग की आवृत्ति और प्रभावशीलता में अंतर है

सीमाएं

नमूना आकार: प्रतिभागियों की संख्या अपेक्षाकृत सीमित है, जो सांख्यिकीय महत्व को प्रभावित कर सकता है
भाषा कवरेज: केवल 5 भाषाओं का परीक्षण किया गया, भाषा परिवारों का व्यापक प्रतिनिधित्व नहीं है
कार्य सरलीकरण: वर्णनात्मक कैप्शन के बजाय प्राकृतिक सोशल मीडिया पाठ का उपयोग नहीं किया गया
AI पूर्वाग्रह: AI प्रणालियों में संभावित पूर्वाग्रह समस्याओं पर पर्याप्त विचार नहीं किया गया

भविष्य की दिशाएं

विशेषता इंजीनियरिंग: अधिक प्रभावी भविष्यवाणी विशेषताएं विकसित करना, विशेष रूप से संज्ञानात्मक भार संबंधित संकेतक
रणनीति प्रशिक्षण: विशिष्ट तर्क रणनीतियों के लिए डिज़ाइन की गई सीखने की सामग्री
व्यक्तिगतकृत प्रणाली: शिक्षार्थी पृष्ठभूमि और क्षमता के आधार पर अनुकूलनीय सामग्री सिफारिश
क्रॉस-भाषा विस्तार: अधिक भाषाओं और सांस्कृतिक पृष्ठभूमि तक विस्तार

गहन मूल्यांकन

शक्तियां

मजबूत नवीनता: बहुविध विदेशी भाषा सीखने में अस्पष्टता समाधान समस्या का पहली बार व्यवस्थित अनुसंधान
कठोर विधि: मानव प्रयोग और AI विश्लेषण को जोड़ते हुए, बहु-कोणीय अंतर्दृष्टि प्रदान करता है
उच्च व्यावहारिक मूल्य: बुद्धिमान भाषा सीखने की प्रणाली डिजाइन के लिए महत्वपूर्ण संदर्भ प्रदान करता है
अंतःविषय एकीकरण: कंप्यूटर दृष्टि, प्राकृतिक भाषा प्रसंस्करण, शैक्षणिक मनोविज्ञान आदि क्षेत्रों को एकीकृत करता है

कमियां

कठोर विशेषता इंजीनियरिंग: वर्तमान विशेषताएं बहुत सरल हो सकती हैं, संज्ञानात्मक जटिलता को पूरी तरह से कैप्चर नहीं करती हैं
सांस्कृतिक कारकों की अनदेखी: शब्दावली तर्क पर सांस्कृतिक पृष्ठभूमि के प्रभाव पर विचार नहीं किया गया
समय गतिशीलता की कमी: सीखने की प्रक्रिया में गतिशील परिवर्तन का अनुसंधान नहीं किया गया
मूल्यांकन मानदंड व्यक्तिपरक: सटीकता निर्धारण में कुछ व्यक्तिपरकता है

प्रभाव

शैक्षणिक योगदान: बहुविध भाषा सीखने के अनुसंधान के लिए नई दिशा खोलता है
अनुप्रयोग संभावनाएं: बुद्धिमान शिक्षा प्रणाली और भाषा सीखने के अनुप्रयोग विकास का मार्गदर्शन कर सकता है
पद्धति मूल्य: मानव-मशीन सहयोग द्वारा भाषा सीखने के अनुसंधान के लिए एक नया प्रतिमान प्रदान करता है

लागू परिदृश्य

बुद्धिमान शिक्षा मंच: व्यक्तिगत विदेशी भाषा सीखने की सामग्री सिफारिश
भाषा मूल्यांकन प्रणाली: स्वचालित भाषा क्षमता परीक्षण
संज्ञानात्मक विज्ञान अनुसंधान: बहुविध सूचना प्रसंस्करण तंत्र अनुसंधान
अंतर-सांस्कृतिक संचार प्रशिक्षण: अस्पष्टता सहनशीलता प्रशिक्षण में वृद्धि

संदर्भ

पेपर ने 72 संबंधित संदर्भों का हवाला दिया है, जिसमें विदेशी भाषा शिक्षा, बहुविध सीखना, कंप्यूटर दृष्टि, प्राकृतिक भाषा प्रसंस्करण आदि कई क्षेत्रों के महत्वपूर्ण अनुसंधान शामिल हैं, जो इस अनुसंधान के लिए एक ठोस सैद्धांतिक आधार और तकनीकी समर्थन प्रदान करते हैं।

समग्र मूल्यांकन: यह महत्वपूर्ण नवीन महत्व का एक अंतःविषय अनुसंधान है, जो बहुविध विदेशी भाषा सीखने को समझने और सुधारने के लिए नए दृष्टिकोण और विधियां प्रदान करता है। कुछ सीमाओं के बावजूद, इसकी अग्रणी अनुसंधान सोच और व्यावहारिक मूल्य इसे इस क्षेत्र का एक महत्वपूर्ण योगदान बनाते हैं।