2025-11-11T07:10:08.372530

Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling

Panchagnula

Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.

academic

आँखों के साथ भोजन खोज: मानव दृश्य दृष्टि की गतिशीलता और गहन भविष्यसूचक मॉडलिंग

बुनियादी जानकारी

पेपर ID: 2510.09299
शीर्षक: Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
लेखक: Tejaswi V. Panchagnula (भारतीय प्रौद्योगिकी संस्थान मद्रास)
वर्गीकरण: cs.CV (कंप्यूटर विजन), eess.IV (छवि और वीडियो प्रसंस्करण)
प्रकाशन समय: जुलाई 2025 (arXiv प्रीप्रिंट)
पेपर लिंक: https://arxiv.org/abs/2510.09299

सारांश

यह अनुसंधान दर्शाता है कि मानव दृश्य दृष्टि पथ जानवरों के भोजन खोज व्यवहार के समान लेवी चलन पैटर्न का पालन करते हैं — भारी-पूंछ वाली चरण-लंबाई वितरण वाली यादृच्छिक कक्षाएं, जो विरल संसाधन वातावरण में इष्टतम विशेषताएं प्रदर्शित करती हैं। 40 प्रतिभागियों द्वारा 50 विभिन्न छवियों को देखने के बड़े पैमाने पर प्रयोग के माध्यम से, अनुसंधान दल ने 4 मिलियन से अधिक दृष्टि बिंदु डेटा रिकॉर्ड किए। विश्लेषण से पता चलता है कि मानव आँख की दृष्टि पथ वास्तव में लेवी चलन पैटर्न का पालन करती है, जो दर्शाता है कि मानव आँख इष्टतम दक्षता के साथ दृश्य जानकारी की खोज करती है। इसके अलावा, अनुसंधान दल ने दृष्टि ताप मानचित्र की भविष्यवाणी करने के लिए एक कनवोल्यूशनल न्यूरल नेटवर्क को प्रशिक्षित किया, जो मॉडल प्रमुख दृष्टि क्षेत्रों को सटीक रूप से पुनः प्रस्तुत कर सकता है, जो दर्शाता है कि दृष्टि व्यवहार के महत्वपूर्ण घटक केवल दृश्य संरचना से सीखे जा सकते हैं।

अनुसंधान पृष्ठभूमि और प्रेरणा

समस्या परिभाषा

पारंपरिक दृश्य ध्यान मॉडल मुख्य रूप से छवि-आधारित प्रमुखता भविष्यवाणी पर केंद्रित हैं, दृष्टि व्यवहार को एक स्थिर भविष्यवाणी समस्या के रूप में मानते हैं, आँख की गति की स्पेस-टाइम गतिशीलता को नजरअंदाज करते हैं। मौजूदा अनुसंधान में निम्नलिखित सीमाएं हैं:

अनुक्रमिक जानकारी की कमी: अधिकांश मॉडल दृष्टि बिंदु अनुक्रमों को स्थिर ताप मानचित्र में संपीड़ित करते हैं, दृष्टि की अनुक्रमिक विशेषताओं को नजरअंदाज करते हैं
अल्पकालिक एक्सपोजर पूर्वाग्रह: मानक 2-3 सेकंड की मुक्त देखने की प्रोटोकॉल प्रारंभिक प्रमुखता-संचालित दृष्टि की ओर झुकी हुई है, अन्वेषणात्मक दृष्टि व्यवहार का अपर्याप्त नमूना लेती है
सांख्यिकीय भौतिकी दृष्टिकोण की कमी: आँख की गति द्वारा अनुसरण किए जा सकने वाले सांख्यिकीय नियमों और अनुकूलन सिद्धांतों को नजरअंदाज करता है

अनुसंधान का महत्व

मानव दृश्य अन्वेषण के स्पेस-टाइम पैटर्न को समझना निम्नलिखित क्षेत्रों के लिए महत्वपूर्ण है:

ध्यान मॉडलिंग और संज्ञानात्मक विज्ञान
दृश्य इंटरफेस डिजाइन
मानव-कंप्यूटर इंटरैक्शन सिस्टम
नैदानिक निदान (जैसे ऑटिज्म, ADHD और अन्य तंत्रिका संबंधी रोगों के प्रारंभिक संकेतक)

नवाचार प्रेरणा

गतिविधि पारिस्थितिकी और सांख्यिकीय भौतिकी से प्रेरित होकर, शोधकर्ताओं ने पाया कि मानव गतिविधि पैटर्न और जानवरों के भोजन खोज व्यवहार दोनों शक्ति-कानून चरण-लंबाई वितरण की लेवी चलन विशेषताएं प्रदर्शित करते हैं। इसने लेखकों को यह अन्वेषण करने के लिए प्रेरित किया कि क्या दृश्य अन्वेषण भी समान सांख्यिकीय नियमों का पालन करता है।

मुख्य योगदान

पहली बार मानव दृष्टि पथ लेवी चलन पैटर्न का पालन करने की पुष्टि: बड़े पैमाने पर आँख की गति डेटा विश्लेषण के माध्यम से, व्यक्तिगत छवियों में चरण-लंबाई वितरण शक्ति-कानून क्षय प्रदर्शित करते हैं, घातांक 1 < μ ≤ 3 सीमा में है
बड़े पैमाने पर उच्च-गुणवत्ता वाले आँख की गति डेटासेट का निर्माण: 40 प्रतिभागी × 50 छवियां × 30 सेकंड देखने का समय, कुल 4 मिलियन से अधिक दृष्टि बिंदु
MobileNetV2 पर आधारित दृष्टि भविष्यवाणी मॉडल प्रस्तावित: दृष्टि ताप मानचित्र की सटीक भविष्यवाणी कर सकता है, विभिन्न छवि प्रकारों पर अच्छा प्रदर्शन करता है
दृश्य जानकारी भोजन खोज के अनुकूलन सिद्धांत का खुलासा: मानव आँख दृश्य जानकारी खोज के लिए इष्टतम भोजन खोज रणनीति अपनाती है
छवि एंट्रॉपी और लेवी पैरामीटर के बीच सहसंबंध की खोज: उच्च एंट्रॉपी छवियां बड़े चरण-लंबाई वितरण पैरामीटर उत्पन्न करने की प्रवृत्ति रखती हैं

विधि विवरण

कार्य परिभाषा

अनुसंधान में दो मुख्य कार्य शामिल हैं:

सांख्यिकीय विश्लेषण कार्य: मानव दृष्टि पथ की सांख्यिकीय विशेषताओं का विश्लेषण, लेवी चलन परिकल्पना का सत्यापन
भविष्यसूचक मॉडलिंग कार्य: स्थिर छवि से दृष्टि संभावना ताप मानचित्र वितरण की भविष्यवाणी

इनपुट: RGB छवि I ∈ R^(3×224×224)
आउटपुट: दृष्टि संभावना ताप मानचित्र Ĥ ∈ R^(1×112×112)

प्रायोगिक डिजाइन

डेटा संग्रह

उपकरण: Aurora Smart Eye Tracker (120Hz नमूना दर)
डिस्प्ले: 1920×1080 पिक्सल मानक डिस्प्ले
देखने की स्थिति: प्रत्येक छवि 30 सेकंड, छवियों के बीच 5 सेकंड काली स्क्रीन अंतराल
छवि प्रकार: चित्रकला, वास्तविक दृश्य, अमूर्त कला कुल 50, एंट्रॉपी वितरण द्वारा दो समूहों में विभाजित

सांख्यिकीय विश्लेषण विधि

चरण-लंबाई गणना: यूक्लिडियन दूरी d = √(x_{i+1}-x_i)² + (y_{i+1}-y_i)²
मोड़ कोण विश्लेषण: लगातार तीन बिंदुओं के बीच कोण वितरण
शक्ति-कानून फिटिंग: लॉग-लॉग स्केल पर रैखिक प्रतिगमन विश्लेषण

मॉडल आर्किटेक्चर

एनकोडर-डिकोडर संरचना

मॉडल MobileNetV2 पर आधारित U-Net आर्किटेक्चर का उपयोग करता है:

एनकोडर: MobileNetV2 (ImageNet पूर्व-प्रशिक्षित)

इनपुट: I ∈ R^(3×224×224)
आउटपुट: विशेषता टेंसर F ∈ R^(C×H'×W')

डिकोडर: ट्रांसपोज़्ड कनवोल्यूशन परत अनुक्रम

इनपुट: गहरी विशेषता F
आउटपुट: दृष्टि ताप मानचित्र Ĥ ∈ R^(1×112×112)

समग्र मानचित्रण संबंध: Ĥ = D(E(I))

हानि फ़ंक्शन डिजाइन

पुनर्निर्माण सटीकता और वितरण निष्ठा को संतुलित करने के लिए समग्र हानि फ़ंक्शन का उपयोग किया जाता है:

L = α·BCE(Ĥ,H) + β·MSE(Ĥ,H) + γ·D_KL(H||Ĥ)

जहां:

BCE: बाइनरी क्रॉस-एंट्रॉपी हानि
MSE: माध्य वर्ग त्रुटि
D_KL: KL विचलन
वजन सेटिंग: α=0.4, β=0.3, γ=0.3

तकनीकी नवाचार बिंदु

अनुक्रम भविष्यवाणी से वितरण भविष्यवाणी में परिवर्तन: RNN जैसे अनुक्रमिक मॉडल की अस्थिरता और स्थानीय इष्टतम समस्याओं से बचा जाता है
दीर्घकालिक देखने का प्रयोग: 30 सेकंड देखने का समय अन्वेषणात्मक दृष्टि व्यवहार को पर्याप्त रूप से कैप्चर करता है
बहु-स्तरीय सांख्यिकीय विश्लेषण: चरण-लंबाई वितरण और मोड़ कोण विश्लेषण को संयोजित करके दृष्टि गतिशीलता को व्यापक रूप से चिह्नित करता है
जीव-विज्ञान-प्रेरित मॉडलिंग: दृश्य ध्यान मॉडलिंग में लेवी चलन सिद्धांत का परिचय

प्रायोगिक सेटअप

डेटासेट विशेषताएं

पैमाना: 40 प्रतिभागी, 50 छवियां, कुल लगभग 110,000 डेटा बिंदु/प्रतिभागी
छवि प्रकार: चित्रकला, वास्तविक दृश्य, अमूर्त कला
एंट्रॉपी मिलान: दो समूहों की छवियां Shannon एंट्रॉपी वितरण द्वारा मेल खाती हैं
अवधि: प्रत्येक छवि के लिए 30 सेकंड देखने का समय

मूल्यांकन मेट्रिक्स

सांख्यिकीय मेट्रिक्स: शक्ति-कानून घातांक μ, सहसंबंध गुणांक
भविष्यवाणी मेट्रिक्स: समग्र हानि फ़ंक्शन (BCE+MSE+KL विचलन)
गुणात्मक मूल्यांकन: ताप मानचित्र दृश्य तुलना विश्लेषण

कार्यान्वयन विवरण

ऑप्टिमाइज़र: AdamW with cosine annealing
प्रशिक्षण एपोक्स: 10 एपोक्स
डेटा विभाजन: 85% प्रशिक्षण, 15% सत्यापन
ताप मानचित्र जनरेशन: 2D गाऊसी कर्नेल कनवोल्यूशन, 112×112 तक डाउनसैंपलिंग

प्रायोगिक परिणाम

मुख्य सांख्यिकीय निष्कर्ष

चरण-लंबाई वितरण विश्लेषण

संचयी वितरण: सभी डेटा मर्ज करने के बाद शक्ति-कानून क्षय प्रदर्शित करता है, ढलान लगभग -3.5, गाऊसी यादृच्छिक चलन विशेषताओं के अनुरूप
एकल छवि शर्त वितरण: प्रत्येक छवि की चरण-लंबाई वितरण ढलान लगभग -2.2, लेवी चलन सीमा (1 < μ ≤ 3) में है
व्यक्तिगत शर्त वितरण: एकल प्रतिभागी का वितरण समान रूप से लेवी विशेषताएं प्रदर्शित करता है, ढलान लगभग -2.41

मोड़ कोण वितरण

द्विमोडल वितरण, ±π/2 पर महत्वपूर्ण शिखर
0 और ±π पर तीव्र शिखर सीधी गति वरीयता और आकस्मिक दिशा उलटफेर को दर्शाते हैं

एंट्रॉपी-लेवी पैरामीटर सहसंबंध

छवि एंट्रॉपी μ गुणांक के साथ कमजोर सकारात्मक सहसंबंध दिखाता है, उच्च एंट्रॉपी छवियां बड़े चरण-लंबाई उत्पन्न करने की प्रवृत्ति रखती हैं, संभवतः क्योंकि जानकारी वितरण अधिक व्यापक है।

भविष्यसूचक मॉडल परिणाम

प्रशिक्षण प्रदर्शन

प्रशिक्षण और सत्यापन हानि वक्र घनिष्ठ रूप से संरेखित, अच्छी सामान्यीकरण क्षमता को दर्शाता है
समग्र हानि के तीनों घटक स्थिर रूप से अभिसरित होते हैं
10 एपोक्स प्रशिक्षण के बाद अभिसरण प्राप्त होता है

भविष्यवाणी गुणवत्ता

उच्च ध्यान क्षेत्रों को सटीक रूप से स्थानीयकृत करता है
स्थानिक रूप से अलग किए गए बहु-मोडल संरचना को बनाए रखता है
विभिन्न छवि प्रकारों पर मजबूत प्रदर्शन

मॉडल सीमाएं

हालांकि ताप मानचित्र भविष्यवाणी अच्छा प्रदर्शन करती है, मॉडल मानव डेटा में देखी गई भारी-पूंछ वाली कूद विशेषताओं को कैप्चर नहीं कर सकता है, वर्तमान प्रमुखता सीखने की रूपरेखा की सीमाओं को उजागर करता है।

निष्कर्ष और चर्चा

मुख्य निष्कर्ष

मानव दृष्टि लेवी चलन का पालन करती है: व्यक्तिगत छवि शर्त के तहत चरण-लंबाई वितरण शक्ति-कानून विशेषताएं प्रदर्शित करता है
दृश्य जानकारी भोजन खोज अनुकूलन: मानव आँख जानवरों के भोजन खोज के समान इष्टतम रणनीति अपनाती है
स्थानिक भविष्यवाणी की व्यवहार्यता: CNN मॉडल दृष्टि के स्थानिक वितरण पैटर्न को प्रभावी रूप से सीख सकता है
व्यक्तिगत अंतर महत्वपूर्ण: दृष्टि व्यवहार में यादृच्छिकता और व्यक्तिगत विशिष्टता है

सीमाएं

अनुक्रमिक मॉडलिंग की कमी: वर्तमान मॉडल पूर्ण स्कैन पथ उत्पन्न नहीं कर सकता है
व्यक्तिगत अंतर अपर्याप्त रूप से मॉडल किए गए: मॉडल व्यक्तिगत विशिष्ट दृष्टि पैटर्न पर विचार नहीं करता है
सीमित शब्दार्थ जानकारी: मुख्य रूप से निम्न-स्तरीय दृश्य विशेषताओं पर आधारित, उच्च-स्तरीय शब्दार्थ समझ की कमी
मूल्यांकन मेट्रिक्स सीमाएं: पारंपरिक पिक्सल-स्तरीय मेट्रिक्स संवेदनशील समानता को कम आंक सकते हैं

भविष्य की दिशाएं

अनुक्रमिक विस्तार: स्थानिक भविष्यवाणी के आधार पर स्कैन पथ उत्पन्न करने के लिए अनुक्रमिक मॉड्यूल जोड़ें
व्यक्तिगतकृत मॉडलिंग: व्यक्तिगत अंतर पर विचार करने वाला ध्यान मॉडल
नैदानिक अनुप्रयोग: तंत्रिका रोग के प्रारंभिक निदान के लिए सांख्यिकीय विचलन को मार्कर के रूप में उपयोग करें
वास्तविक समय इंटरैक्शन: दृष्टि भविष्यवाणी पर आधारित अनुकूली इंटरफेस विकसित करें

गहन मूल्यांकन

लाभ

सैद्धांतिक योगदान

अंतःविषय नवाचार: जीव विज्ञान भोजन खोज सिद्धांत को कंप्यूटर विजन क्षेत्र में सफलतापूर्वक पेश किया
सांख्यिकीय खोज महत्वपूर्ण: लेवी चलन विशेषताओं की खोज दृश्य ध्यान को समझने के लिए नया दृष्टिकोण प्रदान करती है
कठोर प्रायोगिक डिजाइन: दीर्घकालिक देखने का प्रयोग प्राकृतिक दृष्टि व्यवहार को बेहतर ढंग से कैप्चर करता है

तकनीकी लाभ

बड़ा डेटा पैमाना: 4 मिलियन दृष्टि बिंदु डेटासेट इस क्षेत्र में बड़े पैमाने पर है
व्यापक विश्लेषण: चरण-लंबाई वितरण, मोड़ कोण आदि बहु-आयामी सांख्यिकीय विश्लेषण को संयोजित करता है
व्यावहारिक मॉडल: MobileNetV2 पर आधारित हल्के आर्किटेक्चर वास्तविक अनुप्रयोग के लिए उपयुक्त

प्रायोगिक पर्याप्तता

बहु-छवि प्रकार: चित्रकला, वास्तविक दृश्य, अमूर्त कला को कवर करता है
सांख्यिकीय महत्व: 40 प्रतिभागी पर्याप्त सांख्यिकीय शक्ति प्रदान करते हैं
बहु-कोण सत्यापन: व्यक्तिगत, छवि, समग्र शर्त से परिकल्पना का सत्यापन

कमियां

विधि सीमाएं

अनुक्रमिक जानकारी हानि: अनुक्रम भविष्यवाणी को त्यागने से महत्वपूर्ण समय गतिशीलता छूट सकती है
कारण संबंध स्पष्ट नहीं: छवि विशेषताओं और लेवी पैरामीटर के बीच कारण संबंध स्थापित नहीं किया जा सका
सीमित मॉडल व्याख्या: CNN ब्लैक बॉक्स विशेषता दृष्टि तंत्र की समझ को सीमित करती है

प्रायोगिक डिजाइन दोष

प्रतिभागी प्रतिनिधित्व: 40 प्रतिभागियों की जनसांख्यिकीय विशेषताएं विस्तार से रिपोर्ट नहीं की गईं
छवि चयन पूर्वाग्रह: 50 छवियों के चयन मानदंड और प्रतिनिधित्व पर्याप्त स्पष्ट नहीं हैं
अपर्याप्त नियंत्रण चर: देखने की दूरी, पर्यावरणीय प्रकाश आदि को पर्याप्त रूप से नियंत्रित नहीं किया गया

विश्लेषण अपर्याप्तता

व्यक्तिगत अंतर विश्लेषण उथला: व्यक्तिगत अंतर का उल्लेख किया गया है लेकिन गहन विश्लेषण की कमी है
शब्दार्थ कारक नजरअंदाज: छवि शब्दार्थ सामग्री के दृष्टि पैटर्न पर प्रभाव को पर्याप्त रूप से विचार नहीं किया गया
क्रॉस-सांस्कृतिक सत्यापन की कमी: सभी प्रतिभागी एक ही सांस्कृतिक पृष्ठभूमि से लगते हैं

प्रभाव मूल्यांकन

शैक्षणिक योगदान

अग्रणी अनुसंधान: दृश्य ध्यान मॉडलिंग में लेवी चलन सिद्धांत का परिचय अग्रणी महत्व रखता है
पद्धति मूल्य: आँख की गति डेटा विश्लेषण के लिए नई सांख्यिकीय रूपरेखा प्रदान करता है
अंतः-क्षेत्र प्रभाव: संज्ञानात्मक विज्ञान, तंत्रिका विज्ञान आदि संबंधित क्षेत्रों को प्रभावित कर सकता है

व्यावहारिक मूल्य

इंटरफेस डिजाइन: अनुकूली उपयोगकर्ता इंटरफेस डिजाइन के लिए सैद्धांतिक आधार प्रदान करता है
नैदानिक अनुप्रयोग: रोग निदान में दृष्टि पैटर्न विसंगति का संभावित अनुप्रयोग
शिक्षा प्रौद्योगिकी: ऑनलाइन शिक्षण प्लेटफॉर्म में सामग्री प्रस्तुति को अनुकूलित करता है

पुनरुत्पादनीयता

विस्तृत विधि विवरण: प्रायोगिक प्रक्रिया और विश्लेषण विधि विस्तार से वर्णित हैं
कोड उपलब्धता: कोड और डेटा की खुली पहुंच स्पष्ट रूप से उल्लेख नहीं की गई है
उचित हार्डवेयर आवश्यकताएं: मानक आँख की गति ट्रैकर उपकरण का उपयोग, पुनरुत्पादन बाधा मध्यम है

लागू परिदृश्य

प्रत्यक्ष अनुप्रयोग

ध्यान मॉडलिंग अनुसंधान: दृश्य ध्यान सिद्धांत अनुसंधान के लिए नया उपकरण प्रदान करता है
आँख की गति डेटा विश्लेषण: अन्य आँख की गति प्रयोगों के सांख्यिकीय विश्लेषण के लिए संदर्भ रूपरेखा
प्रमुखता भविष्यवाणी: कंप्यूटर विजन कार्यों में दृश्य प्रमुख क्षेत्रों की भविष्यवाणी करता है

विस्तारित अनुप्रयोग

चिकित्सा निदान: तंत्रिका रोग स्क्रीनिंग उपकरण विकसित करता है जो आँख की गति पैटर्न पर आधारित है
मानव-कंप्यूटर इंटरैक्शन: अधिक बुद्धिमान दृश्य इंटरफेस और इंटरैक्शन सिस्टम डिजाइन करता है
विज्ञापन डिजाइन: ध्यान कैप्चर प्रभाव को बढ़ाने के लिए दृश्य सामग्री लेआउट को अनुकूलित करता है
आभासी वास्तविकता: VR/AR वातावरण में अधिक प्राकृतिक दृश्य इंटरैक्शन प्राप्त करता है

संदर्भ

पेपर 13 महत्वपूर्ण संदर्भों का हवाला देता है, जिसमें शामिल हैं:

शास्त्रीय ध्यान मॉडल: Judd et al. (2009), Xu et al. (2014)
लेवी चलन सिद्धांत: Viswanathan et al. (1996, 2000, 2008)
मानव गतिविधि पैटर्न: Brockmann et al. (2006)
आँख की गति शरीर विज्ञान: Martinez-Conde et al. (2013)
सूचना सिद्धांत आधार: Attneave (1954), Wu et al. (2013)
मूल्यांकन मेट्रिक्स: Bylinskii et al. (2018)

समग्र मूल्यांकन: यह महत्वपूर्ण सैद्धांतिक मूल्य और व्यावहारिक महत्व वाला एक अंतःविषय अनुसंधान पेपर है। जीव विज्ञान भोजन खोज सिद्धांत को दृश्य ध्यान मॉडलिंग में पेश करके, यह क्षेत्र को एक नया अनुसंधान दृष्टिकोण प्रदान करता है। हालांकि अनुक्रमिक मॉडलिंग और व्यक्तिगत अंतर विश्लेषण में सीमाएं हैं, लेकिन इसकी सांख्यिकीय खोजें और मॉडलिंग रूपरेखा भविष्य के अनुसंधान के लिए महत्वपूर्ण आधार तैयार करती हैं। पेपर का कठोर प्रायोगिक डिजाइन और पर्याप्त डेटा विश्लेषण इसके निष्कर्षों को उच्च विश्वसनीयता प्रदान करता है, और यह शैक्षणिक और औद्योगिक क्षेत्रों में महत्वपूर्ण अनुप्रयोग संभावनाएं रखता है।