2025-11-18T03:52:12.754014

Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning

Wang, Kovashka, FernÃ¡ndez et al.

We investigate a new setting for foreign language learning, where learners infer the meaning of unfamiliar words in a multimodal context of a sentence describing a paired image. We conduct studies with human participants using different image-text pairs. We analyze the features of the data (i.e., images and texts) that make it easier for participants to infer the meaning of a masked or unfamiliar word, and what language backgrounds of the participants correlate with success. We find only some intuitive features have strong correlations with participant performance, prompting the need for further investigating of predictive features for success in these tasks. We also analyze the ability of AI systems to reason about participant performance, and discover promising future directions for improving this reasoning ability.

academic

다중모달 의미 추론에서 모호성 해결에 대한 이해를 향하여

기본 정보

논문 ID: 2510.09815
제목: Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning
저자: Yufei Wang (University of Pittsburgh), Adriana Kovashka (University of Pittsburgh), Loretta Fernández (University of Pittsburgh), Marc N. Coutanche (University of Pittsburgh), Seth Wiener (Carnegie Mellon University)
분류: cs.CV cs.AI
발표 시간: 2025년 10월 10일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09815

초록

본 연구는 학습자가 이미지-텍스트 쌍의 다중모달 맥락에서 낯선 단어의 의미를 추론해야 하는 새로운 외국어 학습 시나리오를 탐구한다. 본 연구는 다양한 이미지-텍스트 쌍을 통한 인간 참여자 실험을 수행하여, 데이터 특성(이미지 및 텍스트)이 참여자의 가려진 또는 낯선 단어의 의미 추론에 미치는 영향과 참여자의 언어 배경과 성공률의 상관관계를 분석했다. 연구 결과 직관적 특성 중 일부만이 참여자의 성과와 강한 상관관계를 보였으며, 이는 작업 성공을 예측하는 특성에 대한 추가 연구의 필요성을 시사한다. 동시에 AI 시스템이 참여자의 성과를 추론하는 능력을 분석했으며, 이러한 추론 능력을 개선할 수 있는 유망한 방향을 발견했다.

연구 배경 및 동기

문제 정의

본 연구가 해결하고자 하는 핵심 문제는 다음과 같다: 다중모달 맥락(이미지 쌍 텍스트)에서 외국어 학습자가 낯선 어휘의 의미를 추론하는 난이도에 영향을 미치는 요인은 무엇이며, AI 시스템이 이러한 작업에서 인간의 성과를 효과적으로 예측할 수 있는가?

중요성

현실적 필요성: 전 세계 10억 명 이상이 영어를 제2언어로 학습하고 있으며, 다언어 능력에 대한 직장 수요가 증가하고 있음
교육적 가치: 몰입형 및 상호작용형 환경이 외국어 학습의 이상적 방식으로 인식됨
이론적 의의: 모호성 용인도와 외국어 학습 성공률이 밀접한 관련이 있으나, 다중모달 맥락에서 모호성 해결 메커니즘에 대한 심층적 이해가 부족함

기존 한계

다중모달 맥락에서 제2언어 학습자의 모호성 처리에 대한 체계적 연구 부족
특정 데이터 특성이 학습 난이도에 미치는 영향에 대한 정량적 분석 부족
AI 시스템의 인간 언어 학습 성과 예측 능력 탐색 필요

연구 동기

"최근 발달 영역"(ZPD) 이론과 "이상적 어려움" 개념을 바탕으로, 본 연구는 동적으로 점진적 도전 학습 자료를 계획할 수 있는 AI 시스템을 개발하여 개인화된 외국어 학습을 지원하는 것을 목표로 한다.

핵심 기여

새로운 작업 설정: 다중모달 맥락에서의 어휘 의미 추론 작업을 처음으로 체계적으로 연구하며, 실제 외국어 학습 시나리오를 모의함
특성 분석 프레임워크: 텍스트 특성, 이미지 특성 및 학습자 배경 특성을 포함한 종합 분석 프레임워크 구축
인간 실험 데이터: 5개 언어(스페인어, 프랑스어, 독일어, 한국어, 터키어)를 포함한 인간 참여자 데이터 수집
AI 예측 능력 평가: AI 시스템의 인간 외국어 학습 성과 예측 능력을 처음으로 평가하고 개선 방향 발견
전략 식별: 학습자가 사용하는 주요 추론 전략을 식별하고 분류

방법 상세 설명

작업 정의

입력: 이미지 I와 가려진 명사를 포함하는 목표 언어 문장 S 출력: 학습자가 영어로 제공한 가려진 어휘의 의미 추측 제약: 학습자는 번역 도구를 사용할 수 없으며, 시각적 맥락과 문장 맥락을 기반으로 추론해야 함

실험 설계

첫 번째 연구

데이터: 무작위로 선택된 50개의 이미지-텍스트 쌍(스페인어)
참여자: 8명의 참여자(스페인어 초급자 7명, 중급 수준 1명)
작업: 빈칸 채우기 작업, 가려진 명사의 의미 추론

두 번째 연구

데이터: 5개 언어를 포함하는 신중하게 계획된 10개의 이미지-텍스트 쌍
참여자: 약 50명의 참여자, 다양한 언어 배경 보유
강화 기능:
- 참여자 언어 숙련도 정보 수집(1-5점 척도)
- 참여자에게 알려진 어휘 식별 및 추론 과정 설명 요청
- 한국어는 발음 보조를 위해 로마자 표기 제공