2025-11-11T07:10:08.372530

Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling

Panchagnula

Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.

academic

Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling

基本信息

论文ID: 2510.09299
标题: Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
作者: Tejaswi V. Panchagnula (Indian Institute of Technology Madras)
分类: cs.CV (Computer Vision), eess.IV (Image and Video Processing)
发表时间: July 2025 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.09299

摘要

本研究发现人类视觉注视轨迹遵循类似动物觅食行为的Lévy游走模式——具有重尾步长分布的随机轨迹，这种模式在稀疏资源环境中表现出最优特性。通过对40名参与者观看50张不同图像的大规模实验，研究团队记录了超过400万个注视点数据。分析表明人眼注视轨迹确实遵循Lévy游走模式，说明人眼以最优效率的方式觅食视觉信息。此外，研究训练了一个卷积神经网络来预测注视热力图，模型能够准确重现显著的注视区域，证明了注视行为的关键组成部分可以仅从视觉结构中学习得到。

研究背景与动机

问题定义

传统的视觉注意力模型主要关注基于图像的显著性预测，将注视行为视为静态预测问题，忽略了眼动的时空动态特性。现有研究存在以下局限性：

时序信息缺失：大多数模型将注视点序列折叠成静态热力图，忽略了注视的时序特性
短时曝光偏差：标准的2-3秒自由观看协议偏向于早期的显著性驱动注视，未充分采样探索性注视行为
缺乏统计物理学视角：忽略了眼动可能遵循的统计规律和优化原理

研究重要性

理解人类视觉探索的时空模式对以下领域具有重要意义：

注意力建模和认知科学
视觉界面设计
人机交互系统
临床诊断（如自闭症、ADHD等神经疾病的早期标记）

创新动机

受运动生态学和统计物理学启发，研究者发现人类移动模式和动物觅食行为都表现出幂律步长分布的Lévy游走特征。这促使作者探索视觉探索是否也遵循类似的统计规律。

核心贡献

首次证实人类注视轨迹遵循Lévy游走模式：通过大规模眼动数据分析，发现个体图像的步长分布呈现幂律衰减，指数在1 < μ ≤ 3范围内
构建了大规模高质量眼动数据集：40名被试×50张图像×30秒观看时间，总计超过400万注视点
提出基于MobileNetV2的注视预测模型：能够准确预测注视热力图，在多种图像类型上表现良好
揭示了视觉信息觅食的最优化原理：证明人眼采用最优觅食策略进行视觉信息搜索
发现图像熵与Lévy参数的相关性：高熵图像倾向于产生更大的步长分布参数

方法详解

任务定义

研究包含两个主要任务：

统计分析任务：分析人类注视轨迹的统计特性，验证Lévy游走假设
预测建模任务：从静态图像预测注视热力图分布

输入：RGB图像 I ∈ R^(3×224×224)
输出：注视概率热力图 Ĥ ∈ R^(1×112×112)

实验设计

数据采集

设备：Aurora Smart Eye Tracker (120Hz采样率)
显示器：1920×1080像素标准显示器
观看条件：每张图像30秒，图像间5秒黑屏间隔
图像类型：绘画、真实场景、抽象艺术共50张，按熵分布匹配分为两组

统计分析方法

步长计算：欧几里得距离 d = √(x_{i+1}-x_i)² + (y_{i+1}-y_i)²
转向角分析：连续三点间的夹角分布
幂律拟合：对数-对数尺度下的线性回归分析

模型架构

编码器-解码器结构

模型采用基于MobileNetV2的U-Net架构：

编码器：MobileNetV2 (ImageNet预训练)

输入：I ∈ R^(3×224×224)
输出：特征张量 F ∈ R^(C×H'×W')

解码器：转置卷积层序列

输入：深层特征 F
输出：注视热力图 Ĥ ∈ R^(1×112×112)

整体映射关系：Ĥ = D(E(I))

损失函数设计

采用复合损失函数平衡重建精度和分布保真度：

L = α·BCE(Ĥ,H) + β·MSE(Ĥ,H) + γ·D_KL(H||Ĥ)

其中：

BCE：二元交叉熵损失
MSE：均方误差
D_KL：KL散度
权重设置：α=0.4, β=0.3, γ=0.3

技术创新点

从序列预测转向分布预测：避免了RNN等时序模型的不稳定性和局部最优问题
长时程观看实验：30秒观看时间充分捕获探索性注视行为
多尺度统计分析：结合步长分布和转向角分析全面刻画注视动力学
生物学启发的建模：将Lévy游走理论引入视觉注意力建模

实验设置

数据集特征

规模：40名被试，50张图像，总计约110,000个数据点/被试
图像类型：绘画、真实场景、抽象艺术
熵匹配：两组图像按Shannon熵分布匹配
时长：每张图像30秒观看时间

评价指标

统计指标：幂律指数μ、相关系数
预测指标：复合损失函数（BCE+MSE+KL散度）
定性评估：热力图视觉对比分析

实现细节

优化器：AdamW with cosine annealing
训练轮数：10 epochs
数据划分：85%训练，15%验证
热力图生成：2D高斯核卷积，下采样至112×112

实验结果

主要统计发现

步长分布分析

累积分布：所有数据合并后呈现幂律衰减，斜率约-3.5，符合高斯随机游走特征
单图像条件分布：每张图像的步长分布斜率约-2.2，处于Lévy游走范围(1 < μ ≤ 3)
个体条件分布：单个被试的分布同样呈现Lévy特征，斜率约-2.41

转向角分布

双峰分布，在±π/2处有显著峰值
0和±π处的尖峰表明直线运动偏好和偶发的方向逆转

熵-Lévy参数相关性

图像熵与μ系数呈弱正相关，高熵图像倾向于产生更大步长，可能因为信息分布更广泛。

预测模型结果

训练性能

训练和验证损失曲线紧密对齐，表明良好的泛化能力
复合损失的三个组成部分均收敛稳定
10轮训练后达到收敛

预测质量

准确定位高注意力区域
保持空间分离的多模态结构
在不同图像类型上表现鲁棒

模型局限性

尽管热力图预测表现良好，但模型无法捕获人类数据中观察到的重尾跳跃特征，突显了当前显著性学习框架的局限性。

结论与讨论

主要结论

人类注视遵循Lévy游走：个体图像条件下的步长分布呈现幂律特征
视觉信息觅食最优化：人眼采用类似动物觅食的最优策略
空间预测的可行性：CNN模型能够有效学习注视的空间分布模式
个体差异显著：注视行为具有随机性和个体特异性

局限性

时序建模缺失：当前模型无法生成完整的扫视路径
个体差异未充分建模：模型未考虑个体特异性注视模式
语义信息有限：主要基于底层视觉特征，缺乏高级语义理解
评价指标局限：传统像素级指标可能低估感知相似性

未来方向

时序扩展：在空间预测基础上添加时序模块生成扫视路径
个性化建模：考虑个体差异的注意力模型
临床应用：将统计偏差作为神经疾病早期诊断标记
实时交互：开发基于注视预测的自适应界面

深度评价

优点

理论贡献

跨学科创新：成功将生物学觅食理论引入计算机视觉领域
统计发现重要：Lévy游走特征的发现为理解视觉注意力提供新视角
实验设计严谨：长时程观看实验更好地捕获自然注视行为

技术优势

数据规模大：400万注视点数据集在该领域属于大规模
分析全面：结合步长分布、转向角等多维度统计分析
模型实用：基于MobileNetV2的轻量级架构适合实际应用

实验充分性

多图像类型：涵盖绘画、真实场景、抽象艺术
统计显著：40名被试提供充分的统计功效
验证多角度：从个体、图像、整体多个条件验证假设

不足

方法局限

时序信息丢失：放弃序列预测可能错失重要的时间动力学
因果关系不明：未能建立图像特征与Lévy参数的因果关系
模型解释性有限：CNN黑盒特性限制了对注视机制的理解

实验设计缺陷

被试代表性：40名被试的人口学特征未详细报告
图像选择偏差：50张图像的选择标准和代表性不够明确
控制变量不足：未充分控制观看距离、环境光照等因素

分析不足

个体差异分析浅：虽提及个体差异但缺乏深入分析
语义因素忽略：未充分考虑图像语义内容对注视模式的影响
跨文化验证缺失：所有被试似乎来自同一文化背景

影响力评估

学术贡献

开创性研究：在视觉注意力建模中引入Lévy游走理论具有开创意义
方法论价值：为眼动数据分析提供新的统计框架
跨领域影响：可能影响认知科学、神经科学等相关领域

实用价值

界面设计：为自适应用户界面设计提供理论基础
临床应用：注视模式异常检测在疾病诊断中的潜在应用
教育技术：在在线学习平台中优化内容呈现

可复现性

方法描述详细：实验流程和分析方法描述充分
代码可获得性：未明确提及代码和数据的开放性
硬件要求合理：使用标准眼动仪设备，复现门槛适中

适用场景

直接应用

注意力建模研究：为视觉注意力理论研究提供新工具
眼动数据分析：为其他眼动实验的统计分析提供参考框架
显著性预测：在计算机视觉任务中预测视觉显著区域

扩展应用

医疗诊断：开发基于眼动模式的神经疾病筛查工具
人机交互：设计更智能的视觉界面和交互系统
广告设计：优化视觉内容布局以提高注意力捕获效果
虚拟现实：在VR/AR环境中实现更自然的视觉交互

参考文献

论文引用了13篇重要参考文献，涵盖：

经典注意力模型：Judd et al. (2009), Xu et al. (2014)
Lévy游走理论：Viswanathan et al. (1996, 2000, 2008)
人类移动模式：Brockmann et al. (2006)
眼动生理学：Martinez-Conde et al. (2013)
信息论基础：Attneave (1954), Wu et al. (2013)
评价指标：Bylinskii et al. (2018)

总体评价：这是一篇具有重要理论价值和实践意义的跨学科研究论文。通过将生物学觅食理论引入视觉注意力建模，为该领域提供了全新的研究视角。尽管在时序建模和个体差异分析方面存在局限，但其统计发现和建模框架为未来研究奠定了重要基础。论文的严谨实验设计和充分的数据分析使其结论具有较强的可信度，在学术界和工业界都具有重要的应用前景。