Vision-Language Models (VLMs) have shown solid ability for multimodal understanding of both visual and language contexts. However, existing VLMs often face severe challenges of hallucinations, meaning that VLMs tend to generate responses that are only fluent in the language but irrelevant to images in previous contexts. To address this issue, we analyze how language bias contributes to hallucinations and then introduce Cross-Modal Guidance(CMG), a training-free decoding method that addresses the hallucinations by leveraging the difference between the output distributions of the original model and the one with degraded visual-language attention. In practice, we adaptively mask the attention weight of the most influential image tokens in selected transformer layers to corrupt the visual-language perception as a concrete type of degradation. Such a degradation-induced decoding emphasizes the perception of visual contexts and therefore significantly reduces language bias without harming the ability of VLMs. In experiment sections, we conduct comprehensive studies. All results demonstrate the superior advantages of CMG with neither additional conditions nor training costs. We also quantitatively show CMG can improve different VLM's performance on hallucination-specific benchmarks and generalize effectively.
- ID статьи: 2510.10466
- Название: When Images Speak Louder: Mitigating Language Bias-induced Hallucinations in VLMs through Cross-Modal Guidance
- Авторы: Jinjin Cao, Zhiyang Chen, Zijun Wang, Liyuan Ma, Weijian Luo, Guojun Qi (MAPLE Lab, Westlake University)
- Категория: cs.CV (Компьютерное зрение)
- Дата публикации: 12 октября 2025 г. (препринт arXiv)
- Ссылка на статью: https://arxiv.org/abs/2510.10466v1
Визуально-языковые модели (VLM) демонстрируют отличные результаты в мультимодальном понимании, но часто сталкиваются с проблемой галлюцинаций — генерацией лингвистически плавных, но не связанных с содержанием изображения ответов. В данной работе анализируется, как языковое смещение приводит к галлюцинациям, и предлагается Cross-Modal Guidance (CMG) — метод декодирования без обучения, который решает проблему галлюцинаций путём контрастирования распределений выходов исходной модели и модели с деградированным визуально-языковым вниманием. CMG нарушает визуально-языковое восприятие посредством адаптивного маскирования весов внимания наиболее влиятельных визуальных токенов в выбранных слоях трансформера, усиливая восприятие визуального контекста и значительно снижая языковое смещение без ущерба для возможностей VLM.
Несмотря на мощные возможности в мультимодальном понимании, VLM страдают от серьёзной проблемы галлюцинаций:
- Галлюцинации, вызванные языковым смещением: модели склонны генерировать ответы на основе языковых закономерностей, игнорируя визуальную информацию
- Дисбаланс весов внимания: веса внимания визуальных токенов резко снижаются в глубоких слоях сети
- Недостаточное использование визуальной информации: несмотря на то, что количество визуальных токенов обычно значительно превышает количество текстовых токенов, их влияние недооценивается
- Проблема галлюцинаций в VLM препятствует их широкому применению и создаёт неконтролируемые риски
- Пользователи нуждаются в надёжных мультимодальных системах ИИ, которые точно понимают и реагируют на визуальное содержание
- Существующие решения либо требуют дополнительного обучения, либо имеют ограниченную эффективность
- Метод VCD: добавляет гауссовский шум непосредственно к входному изображению, но такое возмущение становится неконтролируемым в глубоких слоях сети
- Метод ConVis: требует вызова дорогостоящих дополнительных моделей для усиления визуальной информации
- Методы инженерии подсказок: имеют ограниченную эффективность и недостаточно универсальны
- Методы постобучения: требуют данных с человеческой обратной связью и дополнительных затрат на обучение
- Предложение метода CMG: метод вывода без обучения, который эффективно снижает галлюцинации модели посредством случайного маскирования внимания
- Выявление корневых причин галлюцинаций: обнаружение того, что недостаточная визуально-внимательная связь является важной причиной галлюцинаций, с предоставлением строгих доказательств
- Комплексная экспериментальная проверка: количественная оценка эффективности CMG на нескольких контрольных наборах, демонстрирующая его способность к обобщению
- Совершенствование теоретической базы: установление теоретической основы контрастного декодирования на основе точечной взаимной информации (PMI)
Для текстового входа x={x1,x2,...,xn} и визуального входа I={I1,I2,...,Im} VLM должна генерировать текстовую последовательность длины k: y={y1,y2,...,yk}. Процесс генерации следует авторегрессивной схеме:
pθ(y∣x,I)=∏t=1kpθ(yt∣y<t,x,I)
Исследование выявило значительное языковое смещение в VLM:
- Затухание весов внимания: веса внимания визуальных токенов резко снижаются в поверхностных слоях и остаются на низком уровне в глубоких слоях
- Преимущество текстовых токенов: веса внимания системных токенов даже превышают веса токенов вопроса, содержащих ключевую информацию
- Влияние длины последовательности: с увеличением длины генерируемой последовательности веса внимания к изображению постепенно снижаются
Механизм самовнимания содержит три типа:
- Внимание внутри визуального модуля Aiv
- Внимание внутри текстового модуля Ait
- Кросс-модальное внимание Acr
A=Aiv∪Ait∪Acr
Модель-любитель строится путём маскирования части кросс-модального и визуального внутреннего внимания:
SA(Q,K,V;M)=Softmax(A⊙M)V
где M:=Mcr∪Miv — маска, применяемая к матрице внимания.
Корректировка распределения выходов исходной VLM:
pθ(y∣x,I)∝qθ(y)(qθ(y;M)qθ(y))α
где:
- qθ(y):=pθ(y∣x,I;Acr,Aiv,Ait) (исходная модель)
- qθ(y;M):=pθ(y∣x,I;Acr⊙Mcr,Aiv⊙Miv,Ait) (модель-любитель)
Динамическое маскирование внимания: маскирование наибольших γ доли весов внимания в Aiv и Acr:
SA(Q,K,V;M)=Softmax(A⊙M(γ))V
Динамический выбор слоёв: выбор важных слоёв на основе косинусного сходства:
s(i)=cos(Xi,Yi)=∥Xi∥2∥Yi∥2Xi⋅Yi
Маскирование τ доли слоёв с наименьшим сходством.
- Операции с внутренним механизмом внимания: прямое манипулирование весами внимания внутри трансформера, а не возмущение входных данных
- Адаптивная стратегия маскирования: динамический выбор наиболее влиятельных весов внимания и слоёв для маскирования
- Теоретически обоснованный дизайн: построение структуры контрастного декодирования на основе теории PMI
- Нулевые затраты на обучение: полностью работает на этапе вывода без дополнительного обучения
- Контрольные наборы, связанные с галлюцинациями: HallusionBench, POPE
- Комплексные контрольные наборы: MME
- POPE: полнота (Recall), точность (Accuracy), прецизионность (Precision), общий балл (Overall)
- HallusionBench: точность выравнивания вопросов (qAcc), точность изображений (fAcc), общая точность (aAcc)
- MME: баллы по 14 подзадачам восприятия и рассуждения
- VCD: построение модели-любителя путём добавления гауссовского шума к входному изображению
- ConVis: использование модели текст-в-изображение для переформирования изображения и использование различий для руководства генерацией
- Базовые модели: LLaVA-v1.5-7B, InstructBLIP-7B, Qwen2-VL-7B, InternVL2.5-8B
- Параметры настройки:
- Контрольные наборы, специфичные для галлюцинаций: α=0.3,γ=0.5,τ=0.5
- Универсальный контрольный набор MME: α=0.1,γ=0.5,τ=0.1
- Параметры выборки: top-p=0.9, beam search=5, temperature=0.7
На LLaVA-v1.5-7B CMG достигает общей точности 85.48, превосходя VCD и ConVis. Особенно примечательно, что CMG демонстрирует положительное масштабирование на новых архитектурах (улучшение с 89.0 до 89.3 на InternVL-2.5), в то время как традиционные методы показывают снижение производительности при обновлении архитектуры.
CMG превосходит VCD на +7.1 балла по точности и ConVis на +6.3 балла, показывая лучшие результаты среди методов вывода без дополнительного обучения.
На подзадачах, связанных с восприятием, общий балл CMG превосходит VCD на +62.08 балла и ConVis на +7.30 балла. Достигает наивысших баллов на подмножествах, где языковое смещение особенно распространено, таких как "цвет", "сцена", "достопримечательность".
CMG демонстрирует устойчивое улучшение производительности на моделях размером 2B, 7B, 13B, 26B и других параметров, показывая хорошую масштабируемость и адаптивность к архитектуре.
Эксперименты проверили несколько стратегий построения модели-любителя:
- Полное удаление визуального внимания: серьёзное снижение производительности (fAcc: 12.14)
- Замена шумом: ограниченная производительность (fAcc: 29.48)
- Замена текстом: среднее качество (fAcc: 29.77)
- Метод CMG: лучшая производительность (fAcc: 30.06)
Статья демонстрирует два типичных примера:
- Задача понимания живописи: исходная модель ошибочно связывает "hat" с одеждой персонажа, CMG успешно исправляет и идентифицирует "bandana"
- Идентификация цвета футболки: перед лицом помехи от чёрной шапки CMG точно идентифицирует цвет футболки путём корректировки коэффициента PMI
Проблема галлюцинаций в VLM стала важным направлением исследований, существующие методы включают:
- Методы инженерии подсказок
- Постобучение на основе человеческой обратной связи
- Различные стратегии вывода
- Методы поиска: такие как жадный поиск и поиск по лучам, точные результаты, но возможны повторения
- Методы выборки: такие как ядерная выборка, лучшее разнообразие, но возможны неестественные переходы между темами
- Контрастное декодирование: использование различий между двумя выходными вероятностями для построения улучшенного распределения выходов
- Эффективность CMG: значительное снижение галлюцинаций в VLM без необходимости обучения
- Влияние языкового смещения: подтверждение того, что языковое смещение является важным фактором, вызывающим галлюцинации
- Важность механизма внимания: манипулирование весами внимания может эффективно улучшить поведение модели
- Широкая применимость: метод показывает отличные результаты на различных архитектурах моделей и контрольных наборах
- Чувствительность гиперпараметров: требуется тщательная настройка гиперпараметров для различных сценариев, таких как коэффициент маскирования, связанный с n0 в уравнении 12
- Потребность в динамической оптимизации: получение оптимальных результатов требует динамической настройки гиперпараметров, что увеличивает сложность использования
- Вычислительные затраты: требуется одновременный запуск исходной модели и модели-любителя, что увеличивает время вывода
- Автоматическая настройка гиперпараметров: разработка механизмов адаптивного выбора параметров
- Оптимизация эффективности: снижение вычислительных затрат и повышение скорости вывода
- Совершенствование теории: дальнейшее развитие теоретической базы контрастного декодирования
- Высокая инновационность: впервые решает проблему галлюцинаций в VLM с точки зрения механизма внимания, предоставляя новую исследовательскую перспективу
- Прочная теоретическая база: структура контрастного декодирования, построенная на основе PMI, имеет твёрдую теоретическую основу
- Комплексные эксперименты: достаточная проверка на нескольких контрольных наборах и различных моделях
- Высокая практическая ценность: может применяться без обучения, снижая барьер использования
- Глубокий анализ: анализ механизма возникновения языкового смещения имеет важное значение для понимания проблемы
- Высокая сложность: включает несколько гиперпараметров и динамические стратегии выбора, что усложняет использование
- Вычислительные затраты: требуется одновременный запуск двух моделей, увеличивая затраты на вывод
- Чувствительность параметров: эффективность довольно чувствительна к выбору гиперпараметров, что может повлиять на практическое применение
- Область применения: в основном ориентирован на VLM на основе трансформера, применимость к другим архитектурам неизвестна
- Академический вклад: предоставляет новый подход к решению проблемы галлюцинаций в VLM, который может вдохновить последующие исследования
- Практическая ценность: характеристика без обучения облегчает развёртывание в существующих системах
- Воспроизводимость: подробное описание метода и ясная экспериментальная установка обеспечивают хорошую воспроизводимость
- Приложения, требующие высокого качества визуального понимания
- Критичные по безопасности приложения, чувствительные к проблеме галлюцинаций
- Среды с ограниченными ресурсами, где невозможно проводить дополнительное обучение
- Коммерческие приложения, требующие быстрого развёртывания
Статья цитирует 62 соответствующих источника, охватывающих важные работы в областях VLM, обнаружения галлюцинаций, контрастного декодирования и других смежных областей, обеспечивая достаточную теоретическую базу и контрольные ориентиры для исследования.
Общая оценка: Это высококачественная исследовательская работа, предлагающая инновационное решение важной проблемы галлюцинаций в VLM. Метод имеет прочную теоретическую базу и отличные экспериментальные результаты, представляя значительную ценность как для академического сообщества, так и для промышленности. Несмотря на некоторые ограничения, его вклад и влияние неоспоримы.