Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
Panchagnula
Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.
academic
Поиск пищи глазами: Динамика человеческого взгляда и глубокое предиктивное моделирование
В данном исследовании обнаружено, что траектории человеческого визуального взгляда следуют модели случайного блуждания Леви, аналогичной поведению животных при поиске пищи — случайным траекториям с распределением длин шагов с тяжелыми хвостами, которые демонстрируют оптимальные свойства в условиях разреженных ресурсов. На основе крупномасштабного эксперимента с участием 40 испытуемых, наблюдавших 50 различных изображений, исследовательская группа записала более 4 миллионов точек данных о фиксации взгляда. Анализ показал, что траектории взгляда человека действительно следуют модели случайного блуждания Леви, что свидетельствует о том, что человеческий глаз ищет визуальную информацию с оптимальной эффективностью. Кроме того, исследователи обучили сверточную нейронную сеть предсказывать тепловые карты фиксации взгляда; модель успешно воспроизводит значительные области фиксации, что доказывает, что ключевые компоненты поведения взгляда могут быть изучены исключительно из визуальной структуры.
Традиционные модели визуального внимания сосредоточены в основном на предсказании заметности на основе изображения, рассматривая поведение взгляда как статическую задачу предсказания и игнорируя пространственно-временную динамику движений глаз. Существующие исследования имеют следующие ограничения:
Отсутствие временной информации: Большинство моделей свертывают последовательности точек фиксации в статические тепловые карты, игнорируя временные характеристики фиксации
Смещение при кратковременной экспозиции: Стандартные протоколы свободного просмотра продолжительностью 2-3 секунды смещены в сторону ранних фиксаций, управляемых заметностью, и недостаточно отбирают исследовательское поведение взгляда
Отсутствие перспективы статистической физики: Игнорируются статистические закономерности и принципы оптимизации, которым могут следовать движения глаз
Вдохновленные экологией движения и статистической физикой, исследователи обнаружили, что модели человеческого движения и поведение животных при поиске пищи демонстрируют характеристики случайного блуждания Леви со степенным распределением длин шагов. Это побудило авторов исследовать, следует ли визуальное исследование аналогичным статистическим закономерностям.
Первое подтверждение того, что траектории взгляда человека следуют модели случайного блуждания Леви: Посредством анализа крупномасштабных данных движения глаз обнаружено, что распределение длин шагов для отдельных изображений демонстрирует степенное затухание с показателем в диапазоне 1 < μ ≤ 3
Построение крупномасштабного высокачественного набора данных движения глаз: 40 испытуемых × 50 изображений × 30 секунд времени просмотра, всего более 4 миллионов точек фиксации
Предложена модель предсказания взгляда на основе MobileNetV2: Способна точно предсказывать тепловые карты фиксации с хорошей производительностью на различных типах изображений
Раскрыты принципы оптимизации поиска визуальной информации: Доказано, что человеческий глаз использует оптимальную стратегию поиска для визуального информационного поиска
Обнаружена корреляция между энтропией изображения и параметром Леви: Изображения с высокой энтропией имеют тенденцию создавать большие параметры распределения длин шагов
Условия просмотра: 30 секунд на каждое изображение, 5-секундный черный экран между изображениями
Типы изображений: Живопись, реальные сцены, абстрактное искусство, всего 50 изображений, разделенные на две группы с соответствующим распределением энтропии
Кумулятивное распределение: При объединении всех данных наблюдается степенное затухание с наклоном примерно -3,5, соответствующее характеристикам гауссова случайного блуждания
Условное распределение для отдельного изображения: Наклон распределения длин шагов для каждого изображения примерно -2,2, находится в диапазоне случайного блуждания Леви (1 < μ ≤ 3)
Условное распределение для отдельного испытуемого: Распределение для одного испытуемого также демонстрирует характеристики Леви с наклоном примерно -2,41
Энтропия изображения слабо положительно коррелирует с коэффициентом μ; изображения с высокой энтропией имеют тенденцию создавать большие длины шагов, возможно, из-за более широкого распределения информации.
Несмотря на хорошую производительность предсказания тепловых карт, модель не может захватить характеристики тяжелохвостых скачков, наблюдаемые в данных человека, что подчеркивает ограничения современных структур обучения заметности.
Judd et al. (2009): Использование низко-среднеуровневых признаков изображения для предсказания карты плотности фиксации, но игнорирование нисходящей семантической информации
Xu et al. (2014): Трехуровневая модель, объединяющая признаки пиксельного, объектного и семантического уровней, улучшила точность предсказания
Первое систематическое применение теории случайного блуждания Леви к моделированию человеческого визуального внимания, заполняя пробел между статическими моделями заметности и динамическим поведением взгляда.
Взгляд человека следует случайному блужданию Леви: Распределение длин шагов при условии отдельного изображения демонстрирует характеристики степенного закона
Отсутствие временного моделирования: Текущая модель не может генерировать полные пути саккад
Недостаточное моделирование индивидуальных различий: Модель не учитывает индивидуальные специфические закономерности внимания
Ограниченная семантическая информация: Основана в основном на низкоуровневых визуальных признаках, не хватает высокоуровневого семантического понимания
Ограничения метрик оценки: Традиционные пиксельные метрики могут недооценивать перцептивное сходство
Статья цитирует 13 важных справочных работ, охватывающих:
Классические модели внимания: Judd et al. (2009), Xu et al. (2014)
Теория случайного блуждания Леви: Viswanathan et al. (1996, 2000, 2008)
Модели движения человека: Brockmann et al. (2006)
Физиология движения глаз: Martinez-Conde et al. (2013)
Основы информационной теории: Attneave (1954), Wu et al. (2013)
Метрики оценки: Bylinskii et al. (2018)
Общая оценка: Это статья с важной теоретической ценностью и практическим значением, представляющая междисциплинарное исследование. Благодаря введению теории биологического поиска пищи в моделирование визуального внимания, она предоставляет совершенно новую исследовательскую перспективу для этой области. Несмотря на ограничения в временном моделировании и анализе индивидуальных различий, ее статистические находки и моделирующая структура создают важную основу для будущих исследований. Строгий экспериментальный дизайн и достаточный анализ данных придают выводам высокую достоверность, и статья имеет важные перспективы применения как в академических кругах, так и в промышленности.