2025-11-18T03:52:12.754014

Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning

Wang, Kovashka, Fernández et al.
We investigate a new setting for foreign language learning, where learners infer the meaning of unfamiliar words in a multimodal context of a sentence describing a paired image. We conduct studies with human participants using different image-text pairs. We analyze the features of the data (i.e., images and texts) that make it easier for participants to infer the meaning of a masked or unfamiliar word, and what language backgrounds of the participants correlate with success. We find only some intuitive features have strong correlations with participant performance, prompting the need for further investigating of predictive features for success in these tasks. We also analyze the ability of AI systems to reason about participant performance, and discover promising future directions for improving this reasoning ability.
academic

К пониманию разрешения неоднозначности при многомодальном выводе смысла

Основная информация

  • ID статьи: 2510.09815
  • Название: Towards Understanding Ambiguity Resolution in Multimodal Inference of Meaning
  • Авторы: Yufei Wang (Университет Питтсбурга), Adriana Kovashka (Университет Питтсбурга), Loretta Fernández (Университет Питтсбурга), Marc N. Coutanche (Университет Питтсбурга), Seth Wiener (Университет Карнеги-Меллона)
  • Классификация: cs.CV cs.AI
  • Дата публикации: 10 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.09815

Аннотация

Данное исследование изучает новый сценарий изучения иностранного языка, в котором учащиеся должны выводить значение незнакомых слов в многомодальном контексте пар изображение-текст. Исследование проводит эксперименты с участием людей на различных парах изображение-текст, анализирует влияние характеристик данных (изображений и текста) на способность участников выводить значение скрытых или незнакомых слов, а также корреляцию между языковым фоном участников и показателями успеха. Исследование показывает, что только некоторые интуитивные характеристики имеют сильную корреляцию с производительностью участников, что указывает на необходимость дальнейшего исследования характеристик, предсказывающих успех задачи. Одновременно анализируется способность систем ИИ рассуждать о производительности участников, выявляя перспективные направления для улучшения этой способности рассуждения.

Исследовательский контекст и мотивация

Определение проблемы

Основной вопрос, который решает данное исследование: какие факторы влияют на сложность вывода незнакомой лексики учащимися иностранного языка в многомодальном контексте (текст в сочетании с изображением), и может ли система ИИ эффективно предсказывать производительность человека при выполнении таких задач.

Значимость

  1. Практическая потребность: более одного миллиарда человек во всем мире изучают английский язык как второй язык, спрос на многоязычные навыки растет на рынке труда
  2. Образовательная ценность: погружающие и интерактивные среды считаются идеальным способом изучения иностранного языка
  3. Теоретическое значение: толерантность к неоднозначности тесно связана с успехом в изучении иностранного языка, однако отсутствует глубокое понимание механизмов разрешения неоднозначности в многомодальном контексте

Существующие ограничения

  • Отсутствие систематических исследований обработки неоднозначности учащимися второго языка в многомодальном контексте
  • Недостаточный количественный анализ того, как конкретные характеристики данных влияют на сложность обучения
  • Неизученная способность систем ИИ предсказывать производительность человека при изучении языка

Исследовательская мотивация

На основе теории "зоны ближайшего развития" (ЗБР) и концепции "желаемой сложности" исследование направлено на разработку систем ИИ, способных динамически планировать прогрессивно усложняющиеся учебные материалы для поддержки персонализированного изучения иностранного языка.

Основные вклады

  1. Новая постановка задачи: первое систематическое исследование задачи вывода значения лексики в многомодальном контексте, моделирующее реальный сценарий изучения иностранного языка
  2. Структура анализа характеристик: разработана комплексная аналитическая структура, включающая текстовые характеристики, характеристики изображений и характеристики фона учащегося
  3. Данные экспериментов с людьми: собраны данные участников, охватывающие пять языков (испанский, французский, немецкий, корейский, турецкий)
  4. Оценка способности ИИ к предсказанию: первая оценка способности систем ИИ предсказывать производительность человека при изучении иностранного языка с выявлением направлений улучшения
  5. Идентификация стратегий: выявлены и классифицированы основные стратегии рассуждения, используемые учащимися

Подробное описание методологии

Определение задачи

Входные данные: изображение I и целевое предложение на изучаемом языке S с одним скрытым существительным Выходные данные: предположение учащегося о значении скрытого слова, выраженное на английском языке Ограничения: учащиеся не могут использовать инструменты перевода и должны основывать свои рассуждения на визуальном и текстовом контексте

Экспериментальный дизайн

Первое исследование

  • Данные: 50 случайно выбранных пар изображение-текст (испанский язык)
  • Участники: 8 участников (7 начинающих изучающих испанский язык, 1 среднего уровня)
  • Задача: задача заполнения пропусков для вывода значения скрытого существительного

Второе исследование

  • Данные: 10 тщательно отобранных пар изображение-текст, охватывающих 5 языков
  • Участники: примерно 50 участников с различным языковым фоном
  • Дополнительные функции:
    • Сбор информации о языковой компетентности участников (шкала 1-5)
    • Просьба участникам определить известные слова и объяснить процесс рассуждения
    • Предоставление романизированной версии корейского языка для помощи в произношении

Извлечение характеристик

Текстовые характеристики

  1. Длина предложения: количество слов (предположение: более длинные предложения сложнее анализировать)
  2. Позиция целевого слова: расстояние от начала/конца предложения
  3. Доля существительных: доля существительных от общего количества слов в предложении

Характеристики изображений

  1. Количество объектов: общее количество объектов на изображении
  2. Размер и положение объектов: выраженность целевого объекта
  3. Интерактивность: наличие взаимодействия между людьми и объектами
  4. Сходство CLIP: оценка соответствия изображение-текст от предварительно обученной модели

Характеристики фона участника

  1. Компетентность в целевом языке: самооценка по шкале 1-5
  2. Сумма компетентности в связанных языках: группировка по языковым семьям
  3. Общее количество владеемых языков: показатель многоязычного опыта

Экспериментальная установка

Набор данных

Используется набор данных XM3600 — крупномасштабный многоязычный многомодальный набор данных оценки, содержащий описательные подписи к изображениям.

Метрики оценки

  • Точность: доля участников, правильно выведших значение слова
  • Корреляционный анализ: использование коэффициентов корреляции Пирсона и Спирмена
  • Точность предсказания ИИ: точность предсказания системой ИИ производительности человека

Методы сравнения

  • Ручная аннотация vs автоматическое извлечение: сравнение эффективности ручной аннотации и автоматического извлечения характеристик системой ИИ
  • Различные модели ИИ: InternVL (модель зрение-язык) vs InternLM (модель только языка)

Результаты экспериментов

Основные выводы

Анализ корреляции характеристик

Значимо коррелирующие характеристики:

  • Количество объектов: значимая отрицательная корреляция с показателем успеха (r = -0.4012, p < 0.05)
  • Длина предложения: значимая отрицательная корреляция с показателем успеха (r = -0.4758, p < 0.05)
  • Доля существительных: положительная корреляция с показателем успеха (r = 0.2666, p < 0.10)

Незначимые характеристики:

  • Размер и положение целевого объекта
  • Оценка сходства CLIP
  • Позиция целевого слова в предложении

Влияние языкового фона

Различия в производительности по языкам:

  • Испанский: средняя точность 7.1/10 (стандартное отклонение 1.8)
  • Корейский: средняя точность 6.6/10 (стандартное отклонение 2.3)
  • Немецкий: средняя точность 6.4/10 (стандартное отклонение 2.1)
  • Французский: средняя точность 6.2/10 (стандартное отклонение 1.5)
  • Турецкий: средняя точность 6.2/10 (стандартное отклонение 1.9)

Идентификация стратегий

Учащиеся используют четыре основные стратегии:

  1. Принцип исключения: определение известных слов и исключение соответствующих объектов
  2. Грамматический анализ: использование грамматической структуры для вывода части речи и отношений
  3. Визуальный анализ: рассуждение на основе выраженности объекта и его положения
  4. Лексическое сходство: использование межъязыкового сходства (включая ложные друзья)

Оценка способности ИИ к предсказанию

Производительность оптимальной конфигурации

  • InternLM + текстовое описание + информация о фоне + сводка стратегии: средняя точность 57.4%
  • InternVL + исходное изображение + информация о фоне + сводка стратегии: средняя точность 56.8%

Ключевые выводы

  1. Важность информации о стратегии: добавление информации о стратегии повышает точность на 16-32%
  2. Текстовое описание превосходит прямое изображение: использование текстового описания изображения дает лучшие результаты, чем прямой ввод изображения
  3. Языковые различия: турецкий язык наиболее сложен для предсказания, испанский — наиболее простой
  4. Различия ИИ-человек: ранжирование сложности задачи системой ИИ имеет слабую корреляцию с производительностью человека (r = 0.529, p = 0.359)

Связанные работы

Многомодальное изучение иностранного языка

  • Многомодальное обучение улучшает закрепление памяти путем интеграции визуальных, слуховых и кинестетических входных данных
  • Исследования эффективности использования фильмов для изучения английского языка
  • Референциальная неопределенность и стратегии взаимного исключения при изучении детьми существительных и глаголов

Исследования толерантности к неоднозначности

  • Сильная корреляция между толерантностью к неоднозначности и успехом в изучении иностранного языка
  • Роль неоднозначности в участии в классе и преодолении академических вызовов

Изучение языка с поддержкой ИИ

  • Использование инструментов ИИ для понимания изучения детьми существительных и глаголов
  • Применение наборов данных зрение-язык в задачах компьютерного зрения

Заключение и обсуждение

Основные выводы

  1. Ограниченная предсказательная способность характеристик: только несколько интуитивных характеристик (количество объектов, длина предложения) значимо коррелируют с успехом рассуждения
  2. Сложность языкового фона: корреляция между языковой компетентностью и производительностью задачи варьируется в зависимости от языка
  3. Вызовы предсказания ИИ: текущие системы ИИ имеют ограниченную способность предсказывать производительность человека, однако информация о стратегии значительно улучшает предсказание
  4. Разнообразие стратегий: учащиеся используют множество стратегий рассуждения, но частота использования и эффективность варьируются

Ограничения

  1. Размер выборки: относительно ограниченное количество участников может влиять на статистическую значимость
  2. Охват языков: тестирование только пяти языков, отсутствие более широкого представления языковых семей
  3. Упрощение задачи: использование описательных подписей вместо естественного текста из социальных сетей
  4. Предвзятость ИИ: недостаточное рассмотрение возможной предвзятости систем ИИ

Будущие направления

  1. Инженерия характеристик: разработка более эффективных предсказательных характеристик, особенно связанных с когнитивной нагрузкой
  2. Обучение стратегиям: разработка учебных материалов, ориентированных на конкретные стратегии рассуждения
  3. Персонализированные системы: адаптивные рекомендации материалов на основе фона и способностей учащегося
  4. Расширение на другие языки: расширение на большее количество языков и культурных фонов

Углубленная оценка

Преимущества

  1. Высокая инновационность: первое систематическое исследование разрешения неоднозначности при многомодальном изучении иностранного языка
  2. Строгая методология: сочетание экспериментов с людьми и анализа ИИ обеспечивает многоаспектные выводы
  3. Высокая практическая ценность: предоставляет важные рекомендации для разработки интеллектуальных систем изучения языка
  4. Междисциплинарная интеграция: объединяет компьютерное зрение, обработку естественного языка, образовательную психологию и другие области

Недостатки

  1. Грубая инженерия характеристик: текущие характеристики могут быть слишком простыми и недостаточно полно отражать когнитивную сложность
  2. Игнорирование культурных факторов: отсутствие рассмотрения влияния культурного фона на лексическое рассуждение
  3. Отсутствие временной динамики: отсутствие исследования динамических изменений в процессе обучения
  4. Субъективность критериев оценки: определение точности содержит элемент субъективности

Влияние

  1. Академический вклад: открывает новое направление в исследовании многомодального изучения языка
  2. Перспективы применения: может направлять разработку интеллектуальных образовательных систем и приложений для изучения языка
  3. Методологическая ценность: предоставляет новую парадигму человеко-машинного сотрудничества при исследовании изучения языка

Применимые сценарии

  1. Интеллектуальные образовательные платформы: персонализированные рекомендации учебных материалов по иностранному языку
  2. Системы оценки языка: автоматизированное тестирование языковых навыков
  3. Исследования когнитивной науки: исследование механизмов обработки многомодальной информации
  4. Подготовка к кросс-культурному общению: обучение повышению толерантности к неоднозначности

Библиография

Статья цитирует 72 связанные работы, охватывающие важные исследования в области преподавания иностранных языков, многомодального обучения, компьютерного зрения, обработки естественного языка и других областей, обеспечивая прочную теоретическую базу и техническую поддержку для данного исследования.


Общая оценка: это инновационное междисциплинарное исследование, предоставляющее новую перспективу и методологию для понимания и улучшения многомодального изучения иностранного языка. Несмотря на некоторые ограничения, его новаторский исследовательский подход и практическая ценность делают его важным вкладом в данную область.