2025-11-11T07:10:08.372530

Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling

Panchagnula

Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.

academic

Поиск пищи глазами: Динамика человеческого взгляда и глубокое предиктивное моделирование

Основная информация

ID статьи: 2510.09299
Название: Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
Автор: Tejaswi V. Panchagnula (Индийский технологический институт Мадраса)
Классификация: cs.CV (Компьютерное зрение), eess.IV (Обработка изображений и видео)
Дата публикации: Июль 2025 (препринт arXiv)
Ссылка на статью: https://arxiv.org/abs/2510.09299

Аннотация

В данном исследовании обнаружено, что траектории человеческого визуального взгляда следуют модели случайного блуждания Леви, аналогичной поведению животных при поиске пищи — случайным траекториям с распределением длин шагов с тяжелыми хвостами, которые демонстрируют оптимальные свойства в условиях разреженных ресурсов. На основе крупномасштабного эксперимента с участием 40 испытуемых, наблюдавших 50 различных изображений, исследовательская группа записала более 4 миллионов точек данных о фиксации взгляда. Анализ показал, что траектории взгляда человека действительно следуют модели случайного блуждания Леви, что свидетельствует о том, что человеческий глаз ищет визуальную информацию с оптимальной эффективностью. Кроме того, исследователи обучили сверточную нейронную сеть предсказывать тепловые карты фиксации взгляда; модель успешно воспроизводит значительные области фиксации, что доказывает, что ключевые компоненты поведения взгляда могут быть изучены исключительно из визуальной структуры.

Предпосылки и мотивация исследования

Определение проблемы

Традиционные модели визуального внимания сосредоточены в основном на предсказании заметности на основе изображения, рассматривая поведение взгляда как статическую задачу предсказания и игнорируя пространственно-временную динамику движений глаз. Существующие исследования имеют следующие ограничения:

Отсутствие временной информации: Большинство моделей свертывают последовательности точек фиксации в статические тепловые карты, игнорируя временные характеристики фиксации
Смещение при кратковременной экспозиции: Стандартные протоколы свободного просмотра продолжительностью 2-3 секунды смещены в сторону ранних фиксаций, управляемых заметностью, и недостаточно отбирают исследовательское поведение взгляда
Отсутствие перспективы статистической физики: Игнорируются статистические закономерности и принципы оптимизации, которым могут следовать движения глаз

Значимость исследования

Понимание пространственно-временных закономерностей человеческого визуального исследования имеет важное значение для следующих областей:

Моделирование внимания и когнитивная наука
Дизайн визуальных интерфейсов
Системы взаимодействия человека и компьютера
Клиническая диагностика (например, ранние маркеры неврологических заболеваний, таких как аутизм и СДВГ)

Мотивация инноваций

Вдохновленные экологией движения и статистической физикой, исследователи обнаружили, что модели человеческого движения и поведение животных при поиске пищи демонстрируют характеристики случайного блуждания Леви со степенным распределением длин шагов. Это побудило авторов исследовать, следует ли визуальное исследование аналогичным статистическим закономерностям.

Основные вклады

Первое подтверждение того, что траектории взгляда человека следуют модели случайного блуждания Леви: Посредством анализа крупномасштабных данных движения глаз обнаружено, что распределение длин шагов для отдельных изображений демонстрирует степенное затухание с показателем в диапазоне 1 < μ ≤ 3
Построение крупномасштабного высокачественного набора данных движения глаз: 40 испытуемых × 50 изображений × 30 секунд времени просмотра, всего более 4 миллионов точек фиксации
Предложена модель предсказания взгляда на основе MobileNetV2: Способна точно предсказывать тепловые карты фиксации с хорошей производительностью на различных типах изображений
Раскрыты принципы оптимизации поиска визуальной информации: Доказано, что человеческий глаз использует оптимальную стратегию поиска для визуального информационного поиска
Обнаружена корреляция между энтропией изображения и параметром Леви: Изображения с высокой энтропией имеют тенденцию создавать большие параметры распределения длин шагов

Подробное описание методов

Определение задачи

Исследование включает две основные задачи:

Задача статистического анализа: Анализ статистических характеристик траекторий взгляда человека, проверка гипотезы случайного блуждания Леви
Задача предиктивного моделирования: Предсказание распределения тепловой карты фиксации из статического изображения

Входные данные: RGB-изображение I ∈ R^(3×224×224)
Выходные данные: Тепловая карта вероятности фиксации Ĥ ∈ R^(1×112×112)

Экспериментальный дизайн

Сбор данных

Оборудование: Aurora Smart Eye Tracker (частота дискретизации 120 Гц)
Монитор: Стандартный монитор 1920×1080 пикселей
Условия просмотра: 30 секунд на каждое изображение, 5-секундный черный экран между изображениями
Типы изображений: Живопись, реальные сцены, абстрактное искусство, всего 50 изображений, разделенные на две группы с соответствующим распределением энтропии

Методы статистического анализа

Расчет длины шага: Евклидово расстояние d = √(x_{i+1}-x_i)² + (y_{i+1}-y_i)²
Анализ угла поворота: Распределение углов между тремя последовательными точками
Подгонка степенного закона: Линейная регрессия в логарифмическом масштабе

Архитектура модели

Структура кодировщик-декодировщик

Модель использует архитектуру U-Net на основе MobileNetV2:

Кодировщик: MobileNetV2 (предварительно обученный на ImageNet)

Входные данные: I ∈ R^(3×224×224)
Выходные данные: Тензор признаков F ∈ R^(C×H'×W')

Декодировщик: Последовательность слоев транспонированной свертки

Входные данные: Глубокие признаки F
Выходные данные: Тепловая карта фиксации Ĥ ∈ R^(1×112×112)

Общее отображение: Ĥ = D(E(I))

Проектирование функции потерь

Используется составная функция потерь для балансировки точности реконструкции и верности распределения:

L = α·BCE(Ĥ,H) + β·MSE(Ĥ,H) + γ·D_KL(H||Ĥ)

Где:

BCE: Потеря бинарной кросс-энтропии
MSE: Среднеквадратичная ошибка
D_KL: Дивергенция Кульбака-Лейблера
Установка весов: α=0.4, β=0.3, γ=0.3

Технические инновационные моменты

Переход от предсказания последовательности к предсказанию распределения: Избегает нестабильности и локальных оптимумов моделей RNN и подобных им
Долгосрочный эксперимент просмотра: 30-секундное время просмотра достаточно для захвата исследовательского поведения взгляда
Многомасштабный статистический анализ: Комбинирует анализ распределения длин шагов и углов поворота для полного описания динамики взгляда
Биологически вдохновленное моделирование: Введение теории случайного блуждания Леви в моделирование визуального внимания

Экспериментальная установка

Характеристики набора данных

Масштаб: 40 испытуемых, 50 изображений, всего примерно 110 000 точек данных на испытуемого
Типы изображений: Живопись, реальные сцены, абстрактное искусство
Соответствие энтропии: Две группы изображений согласованы по распределению энтропии Шеннона
Продолжительность: 30 секунд времени просмотра на каждое изображение

Метрики оценки

Статистические метрики: Показатель степенного закона μ, коэффициент корреляции
Метрики предсказания: Составная функция потерь (BCE+MSE+дивергенция KL)
Качественная оценка: Визуальное сравнение тепловых карт

Детали реализации

Оптимизатор: AdamW с косинусным отжигом
Количество эпох: 10
Разделение данных: 85% обучение, 15% валидация
Генерация тепловой карты: Свертка с 2D гауссовым ядром, понижающая дискретизация до 112×112

Результаты экспериментов

Основные статистические находки

Анализ распределения длин шагов

Кумулятивное распределение: При объединении всех данных наблюдается степенное затухание с наклоном примерно -3,5, соответствующее характеристикам гауссова случайного блуждания
Условное распределение для отдельного изображения: Наклон распределения длин шагов для каждого изображения примерно -2,2, находится в диапазоне случайного блуждания Леви (1 < μ ≤ 3)
Условное распределение для отдельного испытуемого: Распределение для одного испытуемого также демонстрирует характеристики Леви с наклоном примерно -2,41

Распределение углов поворота

Двумодальное распределение с заметными пиками при ±π/2
Острые пики при 0 и ±π указывают на предпочтение прямолинейного движения и случайные развороты направления

Корреляция энтропии и параметра Леви

Энтропия изображения слабо положительно коррелирует с коэффициентом μ; изображения с высокой энтропией имеют тенденцию создавать большие длины шагов, возможно, из-за более широкого распределения информации.

Результаты предиктивной модели

Производительность обучения

Кривые потерь обучения и валидации тесно совпадают, что указывает на хорошую способность к обобщению
Все три компонента составной потери сходятся стабильно
Сходимость достигается после 10 эпох обучения

Качество предсказания

Точное определение областей высокого внимания
Сохранение пространственно разделенной многомодальной структуры
Надежная производительность на различных типах изображений

Ограничения модели

Несмотря на хорошую производительность предсказания тепловых карт, модель не может захватить характеристики тяжелохвостых скачков, наблюдаемые в данных человека, что подчеркивает ограничения современных структур обучения заметности.

Связанные работы

Традиционные модели внимания

Judd et al. (2009): Использование низко-среднеуровневых признаков изображения для предсказания карты плотности фиксации, но игнорирование нисходящей семантической информации
Xu et al. (2014): Трехуровневая модель, объединяющая признаки пиксельного, объектного и семантического уровней, улучшила точность предсказания

Исследования экологии движения

Brockmann et al. (2006): Модели движения человека демонстрируют степенное распределение длин шагов
Viswanathan et al. (1996, 2000): Оптимальность случайного блуждания Леви при поиске в разреженной среде

Инновация данной работы

Первое систематическое применение теории случайного блуждания Леви к моделированию человеческого визуального внимания, заполняя пробел между статическими моделями заметности и динамическим поведением взгляда.

Выводы и обсуждение

Основные выводы

Взгляд человека следует случайному блужданию Леви: Распределение длин шагов при условии отдельного изображения демонстрирует характеристики степенного закона
Оптимизация поиска визуальной информации: Человеческий глаз использует оптимальную стратегию, аналогичную поиску пищи животными
Возможность пространственного предсказания: Модель CNN может эффективно изучать пространственные закономерности распределения фиксации
Значительные индивидуальные различия: Поведение взгляда обладает случайностью и индивидуальной специфичностью

Ограничения

Отсутствие временного моделирования: Текущая модель не может генерировать полные пути саккад
Недостаточное моделирование индивидуальных различий: Модель не учитывает индивидуальные специфические закономерности внимания
Ограниченная семантическая информация: Основана в основном на низкоуровневых визуальных признаках, не хватает высокоуровневого семантического понимания
Ограничения метрик оценки: Традиционные пиксельные метрики могут недооценивать перцептивное сходство

Направления будущих исследований

Временное расширение: Добавление временных модулей к пространственному предсказанию для генерации путей саккад
Персонализированное моделирование: Модели внимания, учитывающие индивидуальные различия
Клинические приложения: Использование статистических отклонений в качестве ранних маркеров диагностики неврологических заболеваний
Реальное взаимодействие: Разработка адаптивных интерфейсов на основе предсказания взгляда

Глубокая оценка

Преимущества

Теоретический вклад

Междисциплинарная инновация: Успешное введение теории биологического поиска пищи в область компьютерного зрения
Важность статистических находок: Открытие характеристик случайного блуждания Леви предоставляет новую перспективу для понимания визуального внимания
Строгий экспериментальный дизайн: Долгосрочный эксперимент просмотра лучше захватывает естественное поведение взгляда

Технические преимущества

Большой масштаб данных: Набор данных из 4 миллионов точек фиксации является крупномасштабным в этой области
Комплексный анализ: Комбинирует анализ распределения длин шагов, углов поворота и других многомерных статистических показателей
Практичность модели: Легкая архитектура на основе MobileNetV2 подходит для практического применения

Достаточность экспериментов

Множество типов изображений: Охватывает живопись, реальные сцены и абстрактное искусство
Статистическая значимость: 40 испытуемых обеспечивают достаточную статистическую мощность
Многоугольная верификация: Проверка гипотезы с нескольких условий: индивидуального, по изображениям и общего

Недостатки

Ограничения методов

Потеря временной информации: Отказ от предсказания последовательности может упустить важную временную динамику
Неясность причинно-следственных связей: Не установлена причинная связь между признаками изображения и параметром Леви
Ограниченная интерпретируемость модели: Черный ящик CNN ограничивает понимание механизмов взгляда

Дефекты экспериментального дизайна

Репрезентативность испытуемых: Демографические характеристики 40 испытуемых не подробно описаны
Смещение в выборе изображений: Критерии выбора 50 изображений и их репрезентативность недостаточно ясны
Недостаточный контроль переменных: Не полностью контролируются такие факторы, как расстояние просмотра, освещение окружающей среды и т.д.

Недостатки анализа

Поверхностный анализ индивидуальных различий: Хотя упоминаются индивидуальные различия, глубокий анализ отсутствует
Игнорирование семантических факторов: Недостаточно учитывается влияние семантического содержания изображения на закономерности взгляда
Отсутствие кросс-культурной верификации: Все испытуемые, похоже, из одного культурного происхождения

Оценка влияния

Академический вклад

Новаторское исследование: Введение теории случайного блуждания Леви в моделирование визуального внимания имеет новаторское значение
Методологическая ценность: Предоставляет новую статистическую основу для анализа данных движения глаз
Междисциплинарное влияние: Может влиять на смежные области, такие как когнитивная наука и нейронаука

Практическая ценность

Дизайн интерфейса: Предоставляет теоретическую основу для проектирования адаптивных пользовательских интерфейсов
Клинические приложения: Потенциальное применение обнаружения аномалий в закономерностях взгляда при диагностике заболеваний
Образовательные технологии: Оптимизация представления контента на платформах онлайн-обучения

Воспроизводимость

Подробное описание методов: Экспериментальные процедуры и методы анализа описаны достаточно подробно
Доступность кода и данных: Не ясно указано, открыты ли код и данные
Разумные требования к оборудованию: Использует стандартное оборудование для отслеживания взгляда, умеренный порог воспроизведения

Применимые сценарии

Прямое применение

Исследование моделирования внимания: Предоставляет новый инструмент для исследования теории визуального внимания
Анализ данных движения глаз: Предоставляет справочную структуру статистического анализа для других экспериментов с движением глаз
Предсказание заметности: Предсказание визуально заметных областей в задачах компьютерного зрения

Расширенное применение

Медицинская диагностика: Разработка инструментов скрининга неврологических заболеваний на основе закономерностей движения глаз
Взаимодействие человека и компьютера: Проектирование более интеллектуальных визуальных интерфейсов и систем взаимодействия
Дизайн рекламы: Оптимизация макета визуального контента для повышения эффективности захвата внимания
Виртуальная реальность: Реализация более естественного визуального взаимодействия в окружающей среде VR/AR

Библиография

Статья цитирует 13 важных справочных работ, охватывающих:

Классические модели внимания: Judd et al. (2009), Xu et al. (2014)
Теория случайного блуждания Леви: Viswanathan et al. (1996, 2000, 2008)
Модели движения человека: Brockmann et al. (2006)
Физиология движения глаз: Martinez-Conde et al. (2013)
Основы информационной теории: Attneave (1954), Wu et al. (2013)
Метрики оценки: Bylinskii et al. (2018)

Общая оценка: Это статья с важной теоретической ценностью и практическим значением, представляющая междисциплинарное исследование. Благодаря введению теории биологического поиска пищи в моделирование визуального внимания, она предоставляет совершенно новую исследовательскую перспективу для этой области. Несмотря на ограничения в временном моделировании и анализе индивидуальных различий, ее статистические находки и моделирующая структура создают важную основу для будущих исследований. Строгий экспериментальный дизайн и достаточный анализ данных придают выводам высокую достоверность, и статья имеет важные перспективы применения как в академических кругах, так и в промышленности.