Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
Panchagnula
Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.
academic
البحث عن المعلومات البصرية بالعيون: الديناميكيات في تتبع النظر البشري والنمذجة التنبؤية العميقة
يكتشف هذا البحث أن مسارات النظر البشري تتبع نمط المشي العشوائي لـ Lévy، وهو نمط مشابه لسلوك البحث عن الغذاء في الحيوانات - مسارات عشوائية بتوزيع خطوات ذات ذيول ثقيلة، وهذا النمط يظهر خصائص مثالية في بيئات الموارد النادرة. من خلال تجربة واسعة النطاق تضمنت 40 مشاركاً يشاهدون 50 صورة مختلفة، سجل فريق البحث أكثر من 4 ملايين نقطة بيانات للنظر. يشير التحليل إلى أن مسارات النظر تتبع فعلاً نمط المشي العشوائي لـ Lévy، مما يدل على أن العين البشرية تبحث عن المعلومات البصرية بطريقة تتمتع بأقصى كفاءة. بالإضافة إلى ذلك، قام الباحثون بتدريب شبكة عصبية تلافيفية للتنبؤ بخرائط حرارة النظر، وكانت النموذج قادرة على إعادة إنتاج المناطق البارزة للنظر بدقة، مما يثبت أن المكونات الرئيسية لسلوك النظر يمكن تعلمها من البنية البصرية وحدها.
تركز نماذج الانتباه البصري التقليدية بشكل أساسي على التنبؤ بالبروز القائم على الصور، وتعامل سلوك النظر كمشكلة تنبؤ ثابتة، متجاهلة الخصائص الديناميكية الزمانية والمكانية لحركات العين. تتضمن البحوث الموجودة القيود التالية:
غياب المعلومات الزمنية: تطوي معظم النماذج تسلسل نقاط النظر إلى خريطة حرارية ثابتة، متجاهلة الخصائص الزمنية للنظر
انحياز التعريض القصير: بروتوكول المراقبة الحرة القياسي لمدة 2-3 ثوان يميل نحو النظر المدفوع بالبروز المبكر، ولا يأخذ عينات كافية من سلوك النظر الاستكشافي
غياب منظور الفيزياء الإحصائية: تجاهل القوانين الإحصائية والمبادئ التحسينية التي قد تتبعها حركات العين
مستوحى من علم البيئة الحركية والفيزياء الإحصائية، اكتشف الباحثون أن أنماط الحركة البشرية وسلوك البحث عن الغذاء في الحيوانات تظهر كلاهما خصائص المشي العشوائي لـ Lévy بتوزيع خطوات يتبع قانون القوة. هذا دفع المؤلفين للتحقيق ما إذا كان الاستكشاف البصري يتبع أيضاً قوانين إحصائية مماثلة.
التأكيد الأول على أن مسارات النظر البشري تتبع نمط المشي العشوائي لـ Lévy: من خلال تحليل بيانات حركة العين على نطاق واسع، اكتشف الباحثون أن توزيع الخطوات لصور فردية يظهر تناقصاً وفقاً لقانون القوة، مع أسس في النطاق 1 < μ ≤ 3
بناء مجموعة بيانات حركة عين كبيرة وعالية الجودة: 40 مشارك × 50 صورة × 30 ثانية وقت مراقبة، بإجمالي أكثر من 4 ملايين نقطة نظر
اقتراح نموذج تنبؤ نظر قائم على MobileNetV2: قادر على التنبؤ بدقة بخرائط حرارة النظر، مع أداء جيدة على أنواع صور متعددة
الكشف عن مبادئ التحسين في البحث عن المعلومات البصرية: إثبات أن العين البشرية تستخدم استراتيجية بحث مثالية للبحث عن المعلومات البصرية
اكتشاف الارتباط بين إنتروبيا الصورة ومعاملات Lévy: الصور عالية الإنتروبيا تميل إلى إنتاج معاملات توزيع خطوات أكبر
على الرغم من أداء التنبؤ بالخريطة الحرارية الجيدة، لا يمكن للنموذج التقاط خصائص القفزات ذات الذيل الثقيل المرصودة في البيانات البشرية، مما يبرز قيود أطر عمل التعلم بالبروز الحالية.
نماذج الانتباه الكلاسيكية: Judd et al. (2009)، Xu et al. (2014)
نظرية المشي العشوائي لـ Lévy: Viswanathan et al. (1996، 2000، 2008)
أنماط الحركة البشرية: Brockmann et al. (2006)
فسيولوجيا حركة العين: Martinez-Conde et al. (2013)
أساسيات نظرية المعلومات: Attneave (1954)، Wu et al. (2013)
مؤشرات التقييم: Bylinskii et al. (2018)
التقييم الشامل: هذا بحث متعدد التخصصات ذو قيمة نظرية وعملية مهمة. من خلال إدخال نظرية البحث عن الغذاء البيولوجية إلى نمذجة الانتباه البصري، يوفر منظوراً بحثياً جديداً تماماً لهذا المجال. على الرغم من وجود قيود في النمذجة الزمنية وتحليل الفروقات الفردية، فإن اكتشافاته الإحصائية وإطار عمل النمذجة يضعان أساساً مهماً للبحث المستقبلي. يجعل التصميم التجريبي الصارم والتحليل الشامل للبيانات استنتاجاته ذات مصداقية قوية، مع آفاق تطبيق مهمة في الأوساط الأكاديمية والصناعية.