Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.
論文ID : 2510.09299タイトル : Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling著者 : Tejaswi V. Panchagnula (インド工科大学マドラス校)分類 : cs.CV (コンピュータビジョン)、eess.IV (画像・映像処理)発表時期 : 2025年7月 (arXiv プレプリント)論文リンク : https://arxiv.org/abs/2510.09299 本研究は、人間の視覚的注視軌跡が動物の採食行動に類似するレヴィ遊歩パターン——重尾ステップ長分布を持つ確率的軌跡——に従うことを発見しました。このパターンは、希少資源環境において最適な特性を示します。40名の参加者が50枚の異なる画像を観察した大規模実験を通じて、研究チームは400万を超える注視点データを記録しました。分析により、眼の注視軌跡は確かにレヴィ遊歩パターンに従い、人間の眼が最適な効率で視覚情報を採食していることが示されました。さらに、畳み込みニューラルネットワークを訓練して注視ヒートマップを予測し、モデルは顕著な注視領域を正確に再現することができ、注視行動の重要な構成要素が視覚構造のみから学習可能であることが証明されました。
従来の視覚注意モデルは、主に画像ベースの顕著性予測に焦点を当て、注視行動を静的予測問題として扱い、眼球運動の時空間的ダイナミクスを無視していました。既存研究には以下の制限があります:
時系列情報の欠落 :ほとんどのモデルは注視点シーケンスを静的ヒートマップに折りたたみ、注視の時系列特性を無視している短時間曝露バイアス :標準的な2~3秒の自由観察プロトコルは、初期の顕著性駆動注視に偏向し、探索的注視行動を十分にサンプリングしていない統計物理学的視点の欠落 :眼球運動が従う可能性のある統計法則と最適化原理を無視している人間の視覚探索の時空間パターンを理解することは、以下の分野に重要な意義があります:
注意モデリングと認知科学 ビジュアルインターフェース設計 ヒューマンコンピュータインタラクションシステム 臨床診断(自閉症、ADHDなどの神経疾患の早期マーカーなど) 運動生態学と統計物理学に触発されて、研究者は人間の移動パターンと動物の採食行動の両方が、べき乗則ステップ長分布を持つレヴィ遊歩の特性を示すことを発見しました。これにより、著者は視覚探索も同様の統計法則に従うかどうかを探索するよう促されました。
人間の注視軌跡がレヴィ遊歩パターンに従うことを初めて確認 :大規模眼球運動データ分析を通じて、個々の画像のステップ長分布が べき乗則減衰を示し、指数が1 < μ ≤ 3の範囲内にあることを発見大規模高品質眼球運動データセットの構築 :40名の被験者×50枚の画像×30秒の観察時間、合計400万を超える注視点MobileNetV2ベースの注視予測モデルの提案 :注視ヒートマップを正確に予測でき、様々な画像タイプで優れたパフォーマンスを発揮視覚情報採食の最適化原理の解明 :人間の眼が視覚情報検索に最適な採食戦略を採用していることを証明画像エントロピーとレヴィパラメータの相関性の発見 :高エントロピー画像はより大きなステップ長分布パラメータを生成する傾向がある研究には2つの主要なタスクが含まれます:
統計分析タスク :人間の注視軌跡の統計的特性を分析し、レヴィ遊歩仮説を検証予測モデリングタスク :静止画像から注視確率ヒートマップを予測入力 :RGB画像 I ∈ R^(3×224×224)出力 :注視確率ヒートマップ Ĥ ∈ R^(1×112×112)
デバイス :Aurora Smart Eye Tracker(120Hzサンプリングレート)ディスプレイ :1920×1080ピクセル標準ディスプレイ観察条件 :各画像30秒、画像間5秒の黒画面間隔画像タイプ :絵画、実在シーン、抽象芸術の合計50枚、エントロピー分布に基づいて2つのグループに分割ステップ長計算 :ユークリッド距離 d = √(x_{i+1}-x_i)² + (y_{i+1}-y_i)² 転向角分析 :連続する3点間の角度分布べき乗則フィッティング :対数-対数スケールでの線形回帰分析モデルはMobileNetV2ベースのU-Netアーキテクチャを採用しています:
エンコーダ :MobileNetV2(ImageNetで事前学習)
入力:I ∈ R^(3×224×224) 出力:特徴テンソル F ∈ R^(C×H'×W') デコーダ :転置畳み込み層シーケンス
入力:深層特徴 F 出力:注視ヒートマップ Ĥ ∈ R^(1×112×112) 全体的なマッピング関係:Ĥ = D(E(I))
再構成精度と分布忠実度のバランスを取るため、複合損失関数を採用しています:
L = α·BCE(Ĥ,H) + β·MSE(Ĥ,H) + γ·D_KL(H||Ĥ)
ここで:
BCE:二値交差エントロピー損失 MSE:平均二乗誤差 D_KL:KLダイバージェンス 重み設定:α=0.4、β=0.3、γ=0.3 シーケンス予測から分布予測への転換 :RNNなどの時系列モデルの不安定性と局所最適問題を回避長期観察実験 :30秒の観察時間は探索的注視行動を十分に捉える多スケール統計分析 :ステップ長分布と転向角分析を組み合わせた包括的な注視ダイナミクスの記述生物学的インスピレーションのモデリング :レヴィ遊歩理論を視覚注意モデリングに導入規模 :40名の被験者、50枚の画像、被験者あたり合計約110,000データポイント画像タイプ :絵画、実在シーン、抽象芸術エントロピーマッチング :2つのグループの画像をシャノンエントロピー分布に基づいてマッチング期間 :各画像30秒の観察時間統計指標 :べき乗則指数μ、相関係数予測指標 :複合損失関数(BCE+MSE+KLダイバージェンス)定性的評価 :ヒートマップの視覚的比較分析オプティマイザ :AdamW with cosine annealing訓練エポック :10エポックデータ分割 :85%訓練、15%検証ヒートマップ生成 :2D ガウスカーネル畳み込み、112×112にダウンサンプリング累積分布 :すべてのデータを統合した後、べき乗則減衰を示し、傾斜は約-3.5で、ガウス確率遊歩の特性に適合単一画像条件分布 :各画像のステップ長分布傾斜は約-2.2で、レヴィ遊歩範囲(1 < μ ≤ 3)内個人条件分布 :単一被験者の分布も同様にレヴィ特性を示し、傾斜は約-2.41双峰分布、±π/2で顕著なピーク 0と±πでの鋭いピークは直線運動の好みと偶発的な方向反転を示唆 画像エントロピーとμ係数は弱い正の相関を示し、高エントロピー画像はより大きなステップ長を生成する傾向があり、これは情報分布がより広いためと考えられます。
訓練と検証の損失曲線は密接に一致し、良好な汎化能力を示唆 複合損失の3つの構成要素はすべて安定して収束 10エポック後に収束に達する 高注意領域を正確に特定 空間的に分離された多峰構造を維持 異なる画像タイプ間で堅牢なパフォーマンス ヒートマップ予測は良好なパフォーマンスを示していますが、モデルは人間データで観察された重尾ジャンプ特性を捉えることができず、現在の顕著性学習フレームワークの制限を強調しています。
Judd et al.(2009) :低中レベルの画像特徴を使用して注視密度マップを予測しますが、トップダウンのセマンティック情報を無視Xu et al.(2014) :ピクセル、オブジェクト、セマンティックレベルの特徴を組み合わせた3層モデル、予測精度を改善Brockmann et al.(2006) :人間の移動パターンはべき乗則ステップ長分布を示すViswanathan et al.(1996、2000) :希少環境検索におけるレヴィ遊歩の最適性レヴィ遊歩理論を人間の視覚注意モデリングに初めて体系的に適用し、静的顕著性モデルと動的注視行動の間のギャップを埋めます。
人間の注視はレヴィ遊歩に従う :個々の画像条件下でのステップ長分布はべき乗則特性を示す視覚情報採食の最適化 :人間の眼は動物の採食に類似した最適戦略を採用空間予測の実現可能性 :CNNモデルは注視の空間分布パターンを効果的に学習できる個人差が顕著 :注視行動は確率性と個人特異性を持つ時系列モデリングの欠落 :現在のモデルは完全なサッケード経路を生成できない個人差の不十分なモデリング :モデルは個人特異的な注視パターンを考慮していないセマンティック情報の限定 :主に低レベルの視覚特徴に基づき、高レベルのセマンティック理解が不足評価指標の制限 :従来のピクセルレベルの指標は知覚的類似性を過小評価する可能性がある時系列拡張 :空間予測に基づいてサッケード経路を生成するための時系列モジュールの追加個性化モデリング :個人差を考慮した注意モデル臨床応用 :神経疾患の早期診断マーカーとしての統計的偏差リアルタイムインタラクション :注視予測に基づく適応型インターフェースの開発学際的革新 :生物学的採食理論をコンピュータビジョン分野に成功裏に導入統計的発見の重要性 :レヴィ遊歩特性の発見は視覚注意を理解するための新しい視点を提供厳密な実験設計 :長期観察実験は自然な注視行動をより良く捉える大規模データ :400万注視点データセットはこの分野では大規模包括的な分析 :ステップ長分布、転向角など多次元の統計分析を組み合わせ実用的なモデル :MobileNetV2ベースの軽量アーキテクチャは実際の応用に適している複数の画像タイプ :絵画、実在シーン、抽象芸術を含む統計的有意性 :40名の被験者は十分な統計的検出力を提供多角的検証 :個人、画像、全体の複数の条件から仮説を検証時系列情報の喪失 :シーケンス予測を放棄することで重要な時間的ダイナミクスを見落とす可能性因果関係の不明確さ :画像特徴とレヴィパラメータ間の因果関係を確立していないモデル解釈性の限定 :CNNのブラックボックス特性は注視メカニズムの理解を制限被験者の代表性 :40名の被験者の人口統計学的特性が詳細に報告されていない画像選択バイアス :50枚の画像の選択基準と代表性が十分に明確でない制御変数の不足 :観察距離、環境照度などの要因が十分に制御されていない個人差分析の浅さ :個人差が言及されているが、深い分析が不足セマンティック要因の無視 :画像セマンティック内容が注視パターンに与える影響を十分に考慮していないクロスカルチャル検証の欠落 :すべての被験者が同じ文化的背景から来ているようである開拓的研究 :視覚注意モデリングにレヴィ遊歩理論を導入することは開拓的な意義を持つ方法論的価値 :眼球運動データ分析に新しい統計フレームワークを提供学際的影響 :認知科学、神経科学などの関連分野に影響を与える可能性インターフェース設計 :適応型ユーザーインターフェース設計に理論的基礎を提供臨床応用 :疾患診断における注視パターン異常検出の潜在的応用教育技術 :オンライン学習プラットフォームでのコンテンツ提示の最適化方法記述の詳細さ :実験手順と分析方法が十分に記述されているコードとデータの利用可能性 :コードとデータのオープン性が明確に述べられていないハードウェア要件の合理性 :標準的な眼球運動計測装置を使用、再現の敷居は適切注意モデリング研究 :視覚注意理論研究に新しいツールを提供眼球運動データ分析 :他の眼球運動実験の統計分析に参考フレームワークを提供顕著性予測 :コンピュータビジョンタスクで視覚的顕著領域を予測医療診断 :眼球運動パターンに基づく神経疾患スクリーニングツールの開発ヒューマンコンピュータインタラクション :より知的なビジュアルインターフェースと対話システムの設計広告設計 :注意力キャプチャ効果を高めるための視覚コンテンツレイアウトの最適化仮想現実 :VR/AR環境でのより自然な視覚インタラクションの実現論文は13の重要な参考文献を引用しており、以下を含みます:
古典的注意モデル:Judd et al.(2009)、Xu et al.(2014) レヴィ遊歩理論:Viswanathan et al.(1996、2000、2008) 人間の移動パターン:Brockmann et al.(2006) 眼球運動生理学:Martinez-Conde et al.(2013) 情報理論の基礎:Attneave(1954)、Wu et al.(2013) 評価指標:Bylinskii et al.(2018) 総合評価 :これは重要な理論的価値と実践的意義を持つ学際的研究論文です。生物学的採食理論を視覚注意モデリングに導入することで、この分野に全く新しい研究視点を提供しています。時系列モデリングと個人差分析の面で制限がありますが、その統計的発見とモデリングフレームワークは今後の研究の重要な基礎を築いています。論文の厳密な実験設計と十分なデータ分析により、その結論は高い信頼性を持ち、学術界と産業界の両方で重要な応用前景を持っています。