Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
Panchagnula
Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.
academic
आँखों के साथ भोजन खोज: मानव दृश्य दृष्टि की गतिशीलता और गहन भविष्यसूचक मॉडलिंग
यह अनुसंधान दर्शाता है कि मानव दृश्य दृष्टि पथ जानवरों के भोजन खोज व्यवहार के समान लेवी चलन पैटर्न का पालन करते हैं — भारी-पूंछ वाली चरण-लंबाई वितरण वाली यादृच्छिक कक्षाएं, जो विरल संसाधन वातावरण में इष्टतम विशेषताएं प्रदर्शित करती हैं। 40 प्रतिभागियों द्वारा 50 विभिन्न छवियों को देखने के बड़े पैमाने पर प्रयोग के माध्यम से, अनुसंधान दल ने 4 मिलियन से अधिक दृष्टि बिंदु डेटा रिकॉर्ड किए। विश्लेषण से पता चलता है कि मानव आँख की दृष्टि पथ वास्तव में लेवी चलन पैटर्न का पालन करती है, जो दर्शाता है कि मानव आँख इष्टतम दक्षता के साथ दृश्य जानकारी की खोज करती है। इसके अलावा, अनुसंधान दल ने दृष्टि ताप मानचित्र की भविष्यवाणी करने के लिए एक कनवोल्यूशनल न्यूरल नेटवर्क को प्रशिक्षित किया, जो मॉडल प्रमुख दृष्टि क्षेत्रों को सटीक रूप से पुनः प्रस्तुत कर सकता है, जो दर्शाता है कि दृष्टि व्यवहार के महत्वपूर्ण घटक केवल दृश्य संरचना से सीखे जा सकते हैं।
पारंपरिक दृश्य ध्यान मॉडल मुख्य रूप से छवि-आधारित प्रमुखता भविष्यवाणी पर केंद्रित हैं, दृष्टि व्यवहार को एक स्थिर भविष्यवाणी समस्या के रूप में मानते हैं, आँख की गति की स्पेस-टाइम गतिशीलता को नजरअंदाज करते हैं। मौजूदा अनुसंधान में निम्नलिखित सीमाएं हैं:
अनुक्रमिक जानकारी की कमी: अधिकांश मॉडल दृष्टि बिंदु अनुक्रमों को स्थिर ताप मानचित्र में संपीड़ित करते हैं, दृष्टि की अनुक्रमिक विशेषताओं को नजरअंदाज करते हैं
अल्पकालिक एक्सपोजर पूर्वाग्रह: मानक 2-3 सेकंड की मुक्त देखने की प्रोटोकॉल प्रारंभिक प्रमुखता-संचालित दृष्टि की ओर झुकी हुई है, अन्वेषणात्मक दृष्टि व्यवहार का अपर्याप्त नमूना लेती है
सांख्यिकीय भौतिकी दृष्टिकोण की कमी: आँख की गति द्वारा अनुसरण किए जा सकने वाले सांख्यिकीय नियमों और अनुकूलन सिद्धांतों को नजरअंदाज करता है
गतिविधि पारिस्थितिकी और सांख्यिकीय भौतिकी से प्रेरित होकर, शोधकर्ताओं ने पाया कि मानव गतिविधि पैटर्न और जानवरों के भोजन खोज व्यवहार दोनों शक्ति-कानून चरण-लंबाई वितरण की लेवी चलन विशेषताएं प्रदर्शित करते हैं। इसने लेखकों को यह अन्वेषण करने के लिए प्रेरित किया कि क्या दृश्य अन्वेषण भी समान सांख्यिकीय नियमों का पालन करता है।
पहली बार मानव दृष्टि पथ लेवी चलन पैटर्न का पालन करने की पुष्टि: बड़े पैमाने पर आँख की गति डेटा विश्लेषण के माध्यम से, व्यक्तिगत छवियों में चरण-लंबाई वितरण शक्ति-कानून क्षय प्रदर्शित करते हैं, घातांक 1 < μ ≤ 3 सीमा में है
बड़े पैमाने पर उच्च-गुणवत्ता वाले आँख की गति डेटासेट का निर्माण: 40 प्रतिभागी × 50 छवियां × 30 सेकंड देखने का समय, कुल 4 मिलियन से अधिक दृष्टि बिंदु
MobileNetV2 पर आधारित दृष्टि भविष्यवाणी मॉडल प्रस्तावित: दृष्टि ताप मानचित्र की सटीक भविष्यवाणी कर सकता है, विभिन्न छवि प्रकारों पर अच्छा प्रदर्शन करता है
दृश्य जानकारी भोजन खोज के अनुकूलन सिद्धांत का खुलासा: मानव आँख दृश्य जानकारी खोज के लिए इष्टतम भोजन खोज रणनीति अपनाती है
छवि एंट्रॉपी और लेवी पैरामीटर के बीच सहसंबंध की खोज: उच्च एंट्रॉपी छवियां बड़े चरण-लंबाई वितरण पैरामीटर उत्पन्न करने की प्रवृत्ति रखती हैं
छवि एंट्रॉपी μ गुणांक के साथ कमजोर सकारात्मक सहसंबंध दिखाता है, उच्च एंट्रॉपी छवियां बड़े चरण-लंबाई उत्पन्न करने की प्रवृत्ति रखती हैं, संभवतः क्योंकि जानकारी वितरण अधिक व्यापक है।
हालांकि ताप मानचित्र भविष्यवाणी अच्छा प्रदर्शन करती है, मॉडल मानव डेटा में देखी गई भारी-पूंछ वाली कूद विशेषताओं को कैप्चर नहीं कर सकता है, वर्तमान प्रमुखता सीखने की रूपरेखा की सीमाओं को उजागर करता है।
Judd et al. (2009): दृष्टि घनत्व मानचित्र की भविष्यवाणी के लिए कम-मध्य-स्तरीय छवि विशेषताओं का उपयोग, लेकिन ऊपर-से-नीचे शब्दार्थ जानकारी को नजरअंदाज करता है
Xu et al. (2014): पिक्सल, वस्तु और शब्दार्थ-स्तरीय विशेषताओं को संयोजित करने वाला तीन-परत मॉडल, भविष्यवाणी सटीकता में सुधार
पहली बार लेवी चलन सिद्धांत को मानव दृश्य ध्यान मॉडलिंग में व्यवस्थित रूप से लागू किया, स्थिर प्रमुखता मॉडल और गतिशील दृष्टि व्यवहार के बीच के अंतर को भरता है।
पेपर 13 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें शामिल हैं:
शास्त्रीय ध्यान मॉडल: Judd et al. (2009), Xu et al. (2014)
लेवी चलन सिद्धांत: Viswanathan et al. (1996, 2000, 2008)
मानव गतिविधि पैटर्न: Brockmann et al. (2006)
आँख की गति शरीर विज्ञान: Martinez-Conde et al. (2013)
सूचना सिद्धांत आधार: Attneave (1954), Wu et al. (2013)
मूल्यांकन मेट्रिक्स: Bylinskii et al. (2018)
समग्र मूल्यांकन: यह महत्वपूर्ण सैद्धांतिक मूल्य और व्यावहारिक महत्व वाला एक अंतःविषय अनुसंधान पेपर है। जीव विज्ञान भोजन खोज सिद्धांत को दृश्य ध्यान मॉडलिंग में पेश करके, यह क्षेत्र को एक नया अनुसंधान दृष्टिकोण प्रदान करता है। हालांकि अनुक्रमिक मॉडलिंग और व्यक्तिगत अंतर विश्लेषण में सीमाएं हैं, लेकिन इसकी सांख्यिकीय खोजें और मॉडलिंग रूपरेखा भविष्य के अनुसंधान के लिए महत्वपूर्ण आधार तैयार करती हैं। पेपर का कठोर प्रायोगिक डिजाइन और पर्याप्त डेटा विश्लेषण इसके निष्कर्षों को उच्च विश्वसनीयता प्रदान करता है, और यह शैक्षणिक और औद्योगिक क्षेत्रों में महत्वपूर्ण अनुप्रयोग संभावनाएं रखता है।