We investigate a new setting for foreign language learning, where learners infer the meaning of unfamiliar words in a multimodal context of a sentence describing a paired image. We conduct studies with human participants using different image-text pairs. We analyze the features of the data (i.e., images and texts) that make it easier for participants to infer the meaning of a masked or unfamiliar word, and what language backgrounds of the participants correlate with success. We find only some intuitive features have strong correlations with participant performance, prompting the need for further investigating of predictive features for success in these tasks. We also analyze the ability of AI systems to reason about participant performance, and discover promising future directions for improving this reasoning ability.
- ID de l'article : 2510.09815
- Titre : Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning
- Auteurs : Yufei Wang (Université de Pittsburgh), Adriana Kovashka (Université de Pittsburgh), Loretta Fernández (Université de Pittsburgh), Marc N. Coutanche (Université de Pittsburgh), Seth Wiener (Université Carnegie Mellon)
- Classification : cs.CV cs.AI
- Date de publication : 10 octobre 2025 (prépublication arXiv)
- Lien de l'article : https://arxiv.org/abs/2510.09815
Cette étude explore un nouveau scénario d'apprentissage des langues étrangères dans lequel les apprenants doivent inférer le sens de mots inconnus dans un contexte multimodal de paires image-texte. La recherche analyse, par le biais d'expériences avec des participants humains utilisant différentes paires image-texte, comment les caractéristiques des données (images et texte) influencent la capacité des participants à inférer le sens de mots masqués ou inconnus, ainsi que la corrélation entre les antécédents linguistiques des participants et les taux de réussite. L'étude révèle que seules certaines caractéristiques intuitives présentent une forte corrélation avec la performance des participants, ce qui souligne la nécessité de recherches supplémentaires sur les caractéristiques prédictives du succès des tâches. L'analyse examine également la capacité des systèmes d'IA à raisonner sur la performance des participants, identifiant des directions prometteuses pour améliorer cette capacité de raisonnement.
La question centrale que cette recherche vise à résoudre est : quels facteurs influencent la facilité ou la difficulté pour les apprenants de langues étrangères d'inférer le sens de vocabulaire inconnu dans un contexte multimodal (texte associé à des images), et les systèmes d'IA peuvent-ils prédire efficacement la performance humaine dans de telles tâches ?
- Besoins pratiques : Plus d'un milliard de personnes dans le monde apprennent l'anglais comme deuxième langue, et les compétences multilingues sont de plus en plus demandées sur le marché du travail
- Valeur éducative : Les environnements immersifs et interactifs sont considérés comme l'approche idéale pour l'apprentissage des langues étrangères
- Signification théorique : La tolérance à l'ambiguïté est étroitement liée au succès de l'apprentissage des langues étrangères, mais il existe un manque de compréhension approfondie des mécanismes de résolution d'ambiguïté dans les contextes multimodaux
- Absence d'études systématiques sur le traitement de l'ambiguïté par les apprenants de deuxième langue dans des contextes multimodaux
- Analyse quantitative insuffisante de la façon dont les caractéristiques spécifiques des données influencent la difficulté d'apprentissage
- Capacités à explorer des systèmes d'IA pour prédire la performance des apprenants en langues
Basée sur la théorie de la « Zone Proximale de Développement » (ZPD) et le concept de « difficulté idéale », la recherche vise à développer des systèmes d'IA capables de planifier dynamiquement des matériels d'apprentissage présentant des défis progressifs, offrant un soutien pour l'apprentissage personnalisé des langues étrangères.
- Nouvelle Configuration de Tâche : Première étude systématique de la tâche d'inférence du sens du vocabulaire dans un contexte multimodal, simulant des scénarios réels d'apprentissage des langues étrangères
- Cadre d'Analyse des Caractéristiques : Établissement d'un cadre d'analyse compréhensif englobant les caractéristiques textuelles, les caractéristiques des images et les caractéristiques de contexte des apprenants
- Données d'Expériences Humaines : Collecte de données de participants humains couvrant cinq langues (espagnol, français, allemand, coréen, turc)
- Évaluation de la Capacité de Prédiction de l'IA : Première évaluation de la capacité des systèmes d'IA à prédire la performance des apprenants en langues étrangères, identifiant des directions d'amélioration
- Identification des Stratégies : Identification et classification des principales stratégies de raisonnement utilisées par les apprenants
Entrée : Une image I et une phrase S dans la langue cible contenant un nom masqué
Sortie : Estimation fournie par l'apprenant en anglais du sens du mot masqué
Contraintes : Les apprenants ne peuvent pas utiliser d'outils de traduction et doivent baser leur raisonnement sur le contexte visuel et le contexte phrastique
- Données : 50 paires image-texte sélectionnées aléatoirement (espagnol)
- Participants : 8 participants (7 débutants en espagnol, 1 de niveau intermédiaire)
- Tâche : Tâche de remplissage, inférence du sens du nom masqué
- Données : 10 paires image-texte soigneusement sélectionnées, couvrant 5 langues
- Participants : Environ 50 participants avec des antécédents linguistiques variés
- Fonctionnalités Améliorées :
- Collecte d'informations sur la maîtrise linguistique des participants (échelle 1-5)
- Demande aux participants d'identifier le vocabulaire connu et d'expliquer leur processus de raisonnement
- Fourniture d'une version romanisée pour le coréen pour faciliter la prononciation
- Longueur de la phrase : Nombre de mots (hypothèse : les phrases plus longues sont plus difficiles à analyser)
- Position du mot cible : Distance par rapport au début/fin de la phrase
- Proportion de noms : Proportion de noms par rapport au nombre total de mots dans la phrase
- Nombre d'objets : Nombre total d'objets dans l'image
- Taille et position des objets : Saillance de l'objet cible
- Interactivité : Présence d'interaction entre les personnes et les objets
- Similarité CLIP : Score de correspondance image-texte fourni par le modèle pré-entraîné
- Maîtrise de la langue cible : Auto-évaluation sur une échelle 1-5
- Somme de la maîtrise des langues connexes : Groupement par famille linguistique
- Nombre total de langues maîtrisées : Indicateur d'expérience multilingue
Utilisation de l'ensemble de données XM3600, un grand ensemble d'évaluation multilingue et multimodal contenant des légendes descriptives d'images.
- Précision : Proportion de participants ayant correctement inféré le sens du vocabulaire
- Analyse de Corrélation : Utilisation des coefficients de corrélation de Pearson et Spearman
- Précision de Prédiction de l'IA : Précision du système d'IA dans la prédiction de la performance humaine
- Annotation Manuelle vs Extraction Automatique : Comparaison de l'efficacité de l'annotation manuelle et de l'extraction de caractéristiques par système d'IA
- Différents Modèles d'IA : InternVL (modèle vision-langage) vs InternLM (modèle langage pur)
Caractéristiques Significativement Corrélées :
- Nombre d'objets : Corrélation négative significative avec le taux de réussite (r = -0,4012, p < 0,05)
- Longueur de la phrase : Corrélation négative significative avec le taux de réussite (r = -0,4758, p < 0,05)
- Proportion de noms : Corrélation positive avec le taux de réussite (r = 0,2666, p < 0,10)
Caractéristiques Non Significatives :
- Taille et position de l'objet cible
- Score de similarité CLIP
- Position du mot cible dans la phrase
Variations de performance selon les langues :
- Espagnol : Précision moyenne 7,1/10 (écart-type 1,8)
- Coréen : Précision moyenne 6,6/10 (écart-type 2,3)
- Allemand : Précision moyenne 6,4/10 (écart-type 2,1)
- Français : Précision moyenne 6,2/10 (écart-type 1,5)
- Turc : Précision moyenne 6,2/10 (écart-type 1,9)
Les apprenants utilisent principalement quatre stratégies :
- Principe d'Exclusion : Identification du vocabulaire connu, exclusion des objets correspondants
- Analyse Grammaticale : Utilisation de la structure grammaticale pour inférer la partie du discours et les relations
- Analyse Visuelle : Raisonnement basé sur la saillance et la position des objets
- Similarité Lexicale : Utilisation de la similarité translinguistique (y compris les faux amis)
- InternLM + Description Textuelle + Informations de Contexte + Résumé des Stratégies : Précision moyenne 57,4%
- InternVL + Image Brute + Informations de Contexte + Résumé des Stratégies : Précision moyenne 56,8%
- Importance de l'Information de Stratégie : L'ajout d'informations de stratégie peut améliorer la précision de 16 à 32%
- Description Textuelle Supérieure à l'Image Directe : L'utilisation de descriptions textuelles d'images est plus efficace que l'entrée directe d'images
- Différences Linguistiques : Le turc est le plus difficile à prédire, l'espagnol le plus facile
- Divergence IA-Humain : L'ordre de difficulté des tâches selon l'IA présente une corrélation faible avec la performance humaine (r = 0,529, p = 0,359)
- L'apprentissage multimodal améliore la consolidation de la mémoire en intégrant les entrées visuelles, auditives et kinesthésiques
- Études sur l'efficacité du cinéma pour l'apprentissage de l'anglais
- Stratégies d'incertitude référentielle et d'exclusion mutuelle dans l'apprentissage du vocabulaire chez l'enfant
- Forte corrélation entre la tolérance à l'ambiguïté et le succès de l'apprentissage des langues étrangères
- Rôle de l'ambiguïté dans la participation en classe et la gestion des défis académiques
- Utilisation d'outils d'IA pour comprendre l'apprentissage des noms et des verbes chez l'enfant
- Application des ensembles de données vision-langage aux tâches de vision par ordinateur
- Pouvoir Prédictif Limité des Caractéristiques : Seules quelques caractéristiques intuitives (nombre d'objets, longueur de la phrase) présentent une corrélation significative avec le taux de réussite du raisonnement
- Complexité des Antécédents Linguistiques : La corrélation entre la maîtrise linguistique et la performance des tâches varie selon les langues
- Défi de Prédiction de l'IA : La capacité des systèmes d'IA actuels à prédire la performance humaine est limitée, mais l'information de stratégie améliore significativement la prédiction
- Diversité des Stratégies : Les apprenants adoptent diverses stratégies de raisonnement, mais la fréquence et l'efficacité d'utilisation varient
- Taille de l'Échantillon : Nombre relativement limité de participants, pouvant affecter la signification statistique
- Couverture Linguistique : Seules 5 langues testées, manque de représentation plus large des familles linguistiques
- Simplification de la Tâche : Utilisation de légendes descriptives plutôt que de textes naturels de médias sociaux
- Biais de l'IA : Considération insuffisante des biais potentiels des systèmes d'IA
- Ingénierie des Caractéristiques : Développement de caractéristiques prédictives plus efficaces, particulièrement les indicateurs de charge cognitive
- Entraînement aux Stratégies : Conception de matériels d'apprentissage ciblant des stratégies de raisonnement spécifiques
- Systèmes Personnalisés : Recommandation de matériels adaptatifs basée sur les antécédents et les capacités des apprenants
- Extension Translinguistique : Extension à plus de langues et de contextes culturels
- Innovation Marquée : Première étude systématique du problème de résolution d'ambiguïté dans l'apprentissage multimodal des langues étrangères
- Méthodologie Rigoureuse : Combinaison d'expériences humaines et d'analyses d'IA, fournissant des perspectives multidimensionnelles
- Valeur Pratique Élevée : Fournit des références importantes pour la conception de systèmes intelligents d'apprentissage des langues
- Intégration Interdisciplinaire : Fusion de la vision par ordinateur, du traitement du langage naturel, de la psychologie éducative et d'autres domaines
- Ingénierie des Caractéristiques Rudimentaire : Les caractéristiques actuelles peuvent être trop simples, ne capturant pas pleinement la complexité cognitive
- Facteurs Culturels Négligés : Absence de considération de l'impact du contexte culturel sur le raisonnement lexical
- Absence de Dynamique Temporelle : Absence d'étude des changements dynamiques au cours du processus d'apprentissage
- Critères d'Évaluation Subjectifs : Certaine subjectivité dans le jugement de l'exactitude
- Contribution Académique : Ouverture de nouvelles directions pour la recherche en apprentissage multimodal des langues
- Perspectives d'Application : Peut guider le développement de systèmes éducatifs intelligents et d'applications d'apprentissage des langues
- Valeur Méthodologique : Fournit un nouveau paradigme de recherche en collaboration homme-machine pour l'étude de l'apprentissage des langues
- Plateformes Éducatives Intelligentes : Recommandation personnalisée de matériels d'apprentissage des langues étrangères
- Systèmes d'Évaluation Linguistique : Tests automatisés de compétence linguistique
- Recherche en Sciences Cognitives : Étude des mécanismes de traitement des informations multimodales
- Formation à la Communication Interculturelle : Amélioration de la formation à la tolérance à l'ambiguïté
L'article cite 72 références pertinentes, couvrant l'éducation des langues étrangères, l'apprentissage multimodal, la vision par ordinateur, le traitement du langage naturel et d'autres domaines de recherche importants, fournissant une base théorique et un soutien technique solides pour cette recherche.
Évaluation Générale : Il s'agit d'une recherche interdisciplinaire d'importance innovante significative, offrant de nouvelles perspectives et méthodes pour comprendre et améliorer l'apprentissage multimodal des langues étrangères. Malgré certaines limitations, son approche de recherche novatrice et sa valeur pratique en font une contribution importante dans ce domaine.