2025-11-18T20:07:12.683154

When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance

Cao, Chen, Wang et al.
Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
academic

Когда изображения говорят громче: смягчение галлюцинаций, вызванных языковым смещением в VLM, через кросс-модальное руководство

Основная информация

  • ID статьи: 2510.10466
  • Название: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
  • Авторы: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
  • Категория: cs.CV (Компьютерное зрение)
  • Дата публикации: 12 октября 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.10466v1

Аннотация

Визуально-языковые модели (VLM) демонстрируют отличные результаты в мультимодальном понимании, но часто сталкиваются с проблемой галлюцинаций — генерацией лингвистически плавных, но не связанных с содержанием изображения ответов. В данной работе анализируется, как языковое смещение приводит к галлюцинациям, и предлагается Cross-Modal Guidance (CMG) — метод декодирования без обучения, который решает проблему галлюцинаций путём контрастирования распределений выходов исходной модели и модели с деградированным визуально-языковым вниманием. CMG нарушает визуально-языковое восприятие посредством адаптивного маскирования весов внимания наиболее влиятельных визуальных токенов в выбранных слоях трансформера, усиливая восприятие визуального контекста и значительно снижая языковое смещение без ущерба для возможностей VLM.

Исследовательский контекст и мотивация

Основная проблема

Несмотря на мощные возможности в мультимодальном понимании, VLM страдают от серьёзной проблемы галлюцинаций:

  1. Галлюцинации, вызванные языковым смещением: модели склонны генерировать ответы на основе языковых закономерностей, игнорируя визуальную информацию
  2. Дисбаланс весов внимания: веса внимания визуальных токенов резко снижаются в глубоких слоях сети
  3. Недостаточное использование визуальной информации: несмотря на то, что количество визуальных токенов обычно значительно превышает количество текстовых токенов, их влияние недооценивается

Важность проблемы

  • Проблема галлюцинаций в VLM препятствует их широкому применению и создаёт неконтролируемые риски
  • Пользователи нуждаются в надёжных мультимодальных системах ИИ, которые точно понимают и реагируют на визуальное содержание
  • Существующие решения либо требуют дополнительного обучения, либо имеют ограниченную эффективность

Ограничения существующих методов

  1. Метод VCD: добавляет гауссовский шум непосредственно к входному изображению, но такое возмущение становится неконтролируемым в глубоких слоях сети
  2. Метод ConVis: требует вызова дорогостоящих дополнительных моделей для усиления визуальной информации
  3. Методы инженерии подсказок: имеют ограниченную эффективность и недостаточно универсальны
  4. Методы постобучения: требуют данных с человеческой обратной связью и дополнительных затрат на обучение

Основные вклады

  1. Предложение метода CMG: метод вывода без обучения, который эффективно снижает галлюцинации модели посредством случайного маскирования внимания
  2. Выявление корневых причин галлюцинаций: обнаружение того, что недостаточная визуально-внимательная связь является важной причиной галлюцинаций, с предоставлением строгих доказательств
  3. Комплексная экспериментальная проверка: количественная оценка эффективности CMG на нескольких контрольных наборах, демонстрирующая его способность к обобщению
  4. Совершенствование теоретической базы: установление теоретической основы контрастного декодирования на основе точечной взаимной информации (PMI)

Подробное описание метода

Определение задачи

Для текстового входа x={x1,x2,...,xn}x = \{x_1, x_2, ..., x_n\} и визуального входа I={I1,I2,...,Im}I = \{I_1, I_2, ..., I_m\} VLM должна генерировать текстовую последовательность длины k: y={y1,y2,...,yk}y = \{y_1, y_2, ..., y_k\}. Процесс генерации следует авторегрессивной схеме:

pθ(yx,I)=t=1kpθ(yty<t,x,I)p_\theta(y|x,I) = \prod_{t=1}^k p_\theta(y_t|y_{<t}, x, I)

Анализ языкового смещения

Исследование выявило значительное языковое смещение в VLM:

  1. Затухание весов внимания: веса внимания визуальных токенов резко снижаются в поверхностных слоях и остаются на низком уровне в глубоких слоях
  2. Преимущество текстовых токенов: веса внимания системных токенов даже превышают веса токенов вопроса, содержащих ключевую информацию
  3. Влияние длины последовательности: с увеличением длины генерируемой последовательности веса внимания к изображению постепенно снижаются

Основная архитектура CMG

1. Построение модели-любителя

Механизм самовнимания содержит три типа:

  • Внимание внутри визуального модуля AivA_{iv}
  • Внимание внутри текстового модуля AitA_{it}
  • Кросс-модальное внимание AcrA_{cr}

A=AivAitAcrA = A_{iv} \cup A_{it} \cup A_{cr}

Модель-любитель строится путём маскирования части кросс-модального и визуального внутреннего внимания:

SA(Q,K,V;M)=Softmax(AM)VSA(Q,K,V;M) = \text{Softmax}(A \odot M)V

где M:=McrMivM := M_{cr} \cup M_{iv} — маска, применяемая к матрице внимания.

2. Стратегия контрастного декодирования

Корректировка распределения выходов исходной VLM:

pθ(yx,I)qθ(y)(qθ(y)qθ(y;M))αp_\theta(y|x,I) \propto q_\theta(y) \left(\frac{q_\theta(y)}{q_\theta(y;M)}\right)^\alpha

где:

  • qθ(y):=pθ(yx,I;Acr,Aiv,Ait)q_\theta(y) := p_\theta(y|x,I;A_{cr}, A_{iv}, A_{it}) (исходная модель)
  • qθ(y;M):=pθ(yx,I;AcrMcr,AivMiv,Ait)q_\theta(y;M) := p_\theta(y|x,I;A_{cr} \odot M_{cr}, A_{iv} \odot M_{iv}, A_{it}) (модель-любитель)

3. Динамическая стратегия маскирования

Динамическое маскирование внимания: маскирование наибольших γ\gamma доли весов внимания в AivA_{iv} и AcrA_{cr}:

SA(Q,K,V;M)=Softmax(AM(γ))VSA(Q,K,V;M) = \text{Softmax}(A \odot M(\gamma))V

Динамический выбор слоёв: выбор важных слоёв на основе косинусного сходства:

s(i)=cos(Xi,Yi)=XiYiXi2Yi2s(i) = \cos(X_i, Y_i) = \frac{X_i \cdot Y_i}{\|X_i\|_2 \|Y_i\|_2}

Маскирование τ\tau доли слоёв с наименьшим сходством.

Технические инновации

  1. Операции с внутренним механизмом внимания: прямое манипулирование весами внимания внутри трансформера, а не возмущение входных данных
  2. Адаптивная стратегия маскирования: динамический выбор наиболее влиятельных весов внимания и слоёв для маскирования
  3. Теоретически обоснованный дизайн: построение структуры контрастного декодирования на основе теории PMI
  4. Нулевые затраты на обучение: полностью работает на этапе вывода без дополнительного обучения

Экспериментальная установка

Наборы данных

  • Контрольные наборы, связанные с галлюцинациями: HallusionBench, POPE
  • Комплексные контрольные наборы: MME

Метрики оценки

  • POPE: полнота (Recall), точность (Accuracy), прецизионность (Precision), общий балл (Overall)
  • HallusionBench: точность выравнивания вопросов (qAcc), точность изображений (fAcc), общая точность (aAcc)
  • MME: баллы по 14 подзадачам восприятия и рассуждения

Методы сравнения

  • VCD: построение модели-любителя путём добавления гауссовского шума к входному изображению
  • ConVis: использование модели текст-в-изображение для переформирования изображения и использование различий для руководства генерацией

Детали реализации

  • Базовые модели: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
  • Параметры настройки:
    • Контрольные наборы, специфичные для галлюцинаций: α=0.3,γ=0.5,τ=0.5\alpha=0.3, \gamma=0.5, \tau=0.5
    • Универсальный контрольный набор MME: α=0.1,γ=0.5,τ=0.1\alpha=0.1, \gamma=0.5, \tau=0.1
  • Параметры выборки: top-p=0.9, beam search=5, temperature=0.7

Результаты экспериментов

Основные результаты

Контрольный набор POPE

На LLaVA-v1.5-7B CMG достигает общей точности 85.48, превосходя VCD и ConVis. Особенно примечательно, что CMG демонстрирует положительное масштабирование на новых архитектурах (улучшение с 89.0 до 89.3 на InternVL-2.5), в то время как традиционные методы показывают снижение производительности при обновлении архитектуры.

Контрольный набор HallusionBench

CMG превосходит VCD на +7.1 балла по точности и ConVis на +6.3 балла, показывая лучшие результаты среди методов вывода без дополнительного обучения.

Контрольный набор MME

На подзадачах, связанных с восприятием, общий балл CMG превосходит VCD на +62.08 балла и ConVis на +7.30 балла. Достигает наивысших баллов на подмножествах, где языковое смещение особенно распространено, таких как "цвет", "сцена", "достопримечательность".

Результаты для моделей различного размера

CMG демонстрирует устойчивое улучшение производительности на моделях размером 2B, 7B, 13B, 26B и других параметров, показывая хорошую масштабируемость и адаптивность к архитектуре.

Абляционные исследования

Эксперименты проверили несколько стратегий построения модели-любителя:

  • Полное удаление визуального внимания: серьёзное снижение производительности (fAcc: 12.14)
  • Замена шумом: ограниченная производительность (fAcc: 29.48)
  • Замена текстом: среднее качество (fAcc: 29.77)
  • Метод CMG: лучшая производительность (fAcc: 30.06)

Анализ примеров

Статья демонстрирует два типичных примера:

  1. Задача понимания живописи: исходная модель ошибочно связывает "hat" с одеждой персонажа, CMG успешно исправляет и идентифицирует "bandana"
  2. Идентификация цвета футболки: перед лицом помехи от чёрной шапки CMG точно идентифицирует цвет футболки путём корректировки коэффициента PMI

Связанные работы

Исследования проблемы галлюцинаций

Проблема галлюцинаций в VLM стала важным направлением исследований, существующие методы включают:

  • Методы инженерии подсказок
  • Постобучение на основе человеческой обратной связи
  • Различные стратегии вывода

Контентно-ориентированное декодирование

  • Методы поиска: такие как жадный поиск и поиск по лучам, точные результаты, но возможны повторения
  • Методы выборки: такие как ядерная выборка, лучшее разнообразие, но возможны неестественные переходы между темами
  • Контрастное декодирование: использование различий между двумя выходными вероятностями для построения улучшенного распределения выходов

Заключение и обсуждение

Основные выводы

  1. Эффективность CMG: значительное снижение галлюцинаций в VLM без необходимости обучения
  2. Влияние языкового смещения: подтверждение того, что языковое смещение является важным фактором, вызывающим галлюцинации
  3. Важность механизма внимания: манипулирование весами внимания может эффективно улучшить поведение модели
  4. Широкая применимость: метод показывает отличные результаты на различных архитектурах моделей и контрольных наборах

Ограничения

  1. Чувствительность гиперпараметров: требуется тщательная настройка гиперпараметров для различных сценариев, таких как коэффициент маскирования, связанный с n0n_0 в уравнении 12
  2. Потребность в динамической оптимизации: получение оптимальных результатов требует динамической настройки гиперпараметров, что увеличивает сложность использования
  3. Вычислительные затраты: требуется одновременный запуск исходной модели и модели-любителя, что увеличивает время вывода

Направления будущих исследований

  1. Автоматическая настройка гиперпараметров: разработка механизмов адаптивного выбора параметров
  2. Оптимизация эффективности: снижение вычислительных затрат и повышение скорости вывода
  3. Совершенствование теории: дальнейшее развитие теоретической базы контрастного декодирования

Глубокая оценка

Преимущества

  1. Высокая инновационность: впервые решает проблему галлюцинаций в VLM с точки зрения механизма внимания, предоставляя новую исследовательскую перспективу
  2. Прочная теоретическая база: структура контрастного декодирования, построенная на основе PMI, имеет твёрдую теоретическую основу
  3. Комплексные эксперименты: достаточная проверка на нескольких контрольных наборах и различных моделях
  4. Высокая практическая ценность: может применяться без обучения, снижая барьер использования
  5. Глубокий анализ: анализ механизма возникновения языкового смещения имеет важное значение для понимания проблемы

Недостатки

  1. Высокая сложность: включает несколько гиперпараметров и динамические стратегии выбора, что усложняет использование
  2. Вычислительные затраты: требуется одновременный запуск двух моделей, увеличивая затраты на вывод
  3. Чувствительность параметров: эффективность довольно чувствительна к выбору гиперпараметров, что может повлиять на практическое применение
  4. Область применения: в основном ориентирован на VLM на основе трансформера, применимость к другим архитектурам неизвестна

Влияние

  1. Академический вклад: предоставляет новый подход к решению проблемы галлюцинаций в VLM, который может вдохновить последующие исследования
  2. Практическая ценность: характеристика без обучения облегчает развёртывание в существующих системах
  3. Воспроизводимость: подробное описание метода и ясная экспериментальная установка обеспечивают хорошую воспроизводимость

Сценарии применения

  • Приложения, требующие высокого качества визуального понимания
  • Критичные по безопасности приложения, чувствительные к проблеме галлюцинаций
  • Среды с ограниченными ресурсами, где невозможно проводить дополнительное обучение
  • Коммерческие приложения, требующие быстрого развёртывания

Библиография

Статья цитирует 62 соответствующих источника, охватывающих важные работы в областях VLM, обнаружения галлюцинаций, контрастного декодирования и других смежных областей, обеспечивая достаточную теоретическую базу и контрольные ориентиры для исследования.


Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационное решение важной проблемы галлюцинаций в VLM. Метод имеет прочную теоретическую базу и отличные экспериментальные результаты, представляя значительную ценность как для академического сообщества, так и для промышленности. Несмотря на некоторые ограничения, его вклад и влияние неоспоримы.