2025-11-11T07:10:08.372530

Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling

Panchagnula
Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.
academic

البحث عن المعلومات البصرية بالعيون: الديناميكيات في تتبع النظر البشري والنمذجة التنبؤية العميقة

المعلومات الأساسية

  • معرّف البحث: 2510.09299
  • العنوان: Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
  • المؤلف: Tejaswi V. Panchagnula (معهد ماساتشوستس للتكنولوجيا الهندي)
  • التصنيف: cs.CV (رؤية الحاسوب)، eess.IV (معالجة الصور والفيديو)
  • تاريخ النشر: يوليو 2025 (نسخة أولية على arXiv)
  • رابط البحث: https://arxiv.org/abs/2510.09299

الملخص

يكتشف هذا البحث أن مسارات النظر البشري تتبع نمط المشي العشوائي لـ Lévy، وهو نمط مشابه لسلوك البحث عن الغذاء في الحيوانات - مسارات عشوائية بتوزيع خطوات ذات ذيول ثقيلة، وهذا النمط يظهر خصائص مثالية في بيئات الموارد النادرة. من خلال تجربة واسعة النطاق تضمنت 40 مشاركاً يشاهدون 50 صورة مختلفة، سجل فريق البحث أكثر من 4 ملايين نقطة بيانات للنظر. يشير التحليل إلى أن مسارات النظر تتبع فعلاً نمط المشي العشوائي لـ Lévy، مما يدل على أن العين البشرية تبحث عن المعلومات البصرية بطريقة تتمتع بأقصى كفاءة. بالإضافة إلى ذلك، قام الباحثون بتدريب شبكة عصبية تلافيفية للتنبؤ بخرائط حرارة النظر، وكانت النموذج قادرة على إعادة إنتاج المناطق البارزة للنظر بدقة، مما يثبت أن المكونات الرئيسية لسلوك النظر يمكن تعلمها من البنية البصرية وحدها.

الخلفية البحثية والدافع

تعريف المشكلة

تركز نماذج الانتباه البصري التقليدية بشكل أساسي على التنبؤ بالبروز القائم على الصور، وتعامل سلوك النظر كمشكلة تنبؤ ثابتة، متجاهلة الخصائص الديناميكية الزمانية والمكانية لحركات العين. تتضمن البحوث الموجودة القيود التالية:

  1. غياب المعلومات الزمنية: تطوي معظم النماذج تسلسل نقاط النظر إلى خريطة حرارية ثابتة، متجاهلة الخصائص الزمنية للنظر
  2. انحياز التعريض القصير: بروتوكول المراقبة الحرة القياسي لمدة 2-3 ثوان يميل نحو النظر المدفوع بالبروز المبكر، ولا يأخذ عينات كافية من سلوك النظر الاستكشافي
  3. غياب منظور الفيزياء الإحصائية: تجاهل القوانين الإحصائية والمبادئ التحسينية التي قد تتبعها حركات العين

أهمية البحث

يحمل فهم الأنماط الزمانية والمكانية للاستكشاف البصري البشري أهمية كبيرة للمجالات التالية:

  • نمذجة الانتباه والعلوم المعرفية
  • تصميم الواجهات البصرية
  • أنظمة التفاعل بين الإنسان والحاسوب
  • التشخيص السريري (مثل العلامات المبكرة للأمراض العصبية مثل التوحد واضطراب فرط الحركة ونقص الانتباه)

الدافع الابتكاري

مستوحى من علم البيئة الحركية والفيزياء الإحصائية، اكتشف الباحثون أن أنماط الحركة البشرية وسلوك البحث عن الغذاء في الحيوانات تظهر كلاهما خصائص المشي العشوائي لـ Lévy بتوزيع خطوات يتبع قانون القوة. هذا دفع المؤلفين للتحقيق ما إذا كان الاستكشاف البصري يتبع أيضاً قوانين إحصائية مماثلة.

المساهمات الأساسية

  1. التأكيد الأول على أن مسارات النظر البشري تتبع نمط المشي العشوائي لـ Lévy: من خلال تحليل بيانات حركة العين على نطاق واسع، اكتشف الباحثون أن توزيع الخطوات لصور فردية يظهر تناقصاً وفقاً لقانون القوة، مع أسس في النطاق 1 < μ ≤ 3
  2. بناء مجموعة بيانات حركة عين كبيرة وعالية الجودة: 40 مشارك × 50 صورة × 30 ثانية وقت مراقبة، بإجمالي أكثر من 4 ملايين نقطة نظر
  3. اقتراح نموذج تنبؤ نظر قائم على MobileNetV2: قادر على التنبؤ بدقة بخرائط حرارة النظر، مع أداء جيدة على أنواع صور متعددة
  4. الكشف عن مبادئ التحسين في البحث عن المعلومات البصرية: إثبات أن العين البشرية تستخدم استراتيجية بحث مثالية للبحث عن المعلومات البصرية
  5. اكتشاف الارتباط بين إنتروبيا الصورة ومعاملات Lévy: الصور عالية الإنتروبيا تميل إلى إنتاج معاملات توزيع خطوات أكبر

شرح الطريقة التفصيلي

تعريف المهمة

يتضمن البحث مهمتين رئيسيتين:

  1. مهمة التحليل الإحصائي: تحليل الخصائص الإحصائية لمسارات النظر البشري، التحقق من فرضية المشي العشوائي لـ Lévy
  2. مهمة النمذجة التنبؤية: التنبؤ بتوزيع خريطة حرارة النظر من صورة ثابتة

الإدخال: صورة RGB I ∈ R^(3×224×224)
الإخراج: خريطة حرارة احتمالية النظر Ĥ ∈ R^(1×112×112)

تصميم التجربة

جمع البيانات

  • الجهاز: Aurora Smart Eye Tracker (معدل أخذ العينات 120Hz)
  • الشاشة: شاشة عرض قياسية 1920×1080 بكسل
  • ظروف المراقبة: 30 ثانية لكل صورة، فاصل 5 ثوان من الشاشة السوداء بين الصور
  • أنواع الصور: لوحات فنية، مشاهد حقيقية، فن تجريدي بإجمالي 50 صورة، مقسمة إلى مجموعتين متطابقتي الإنتروبيا

طريقة التحليل الإحصائي

  1. حساب الخطوة: المسافة الإقليدية d = √(x_{i+1}-x_i)² + (y_{i+1}-y_i)²
  2. تحليل زاوية الانعطاف: توزيع الزاوية بين ثلاث نقاط متتالية
  3. ملاءمة قانون القوة: تحليل الانحدار الخطي على مقياس لوغاريتمي-لوغاريتمي

معمارية النموذج

هيكل المشفر-فاك التشفير

يستخدم النموذج معمارية U-Net قائمة على MobileNetV2:

المشفر: MobileNetV2 (مدرب مسبقاً على ImageNet)

  • الإدخال: I ∈ R^(3×224×224)
  • الإخراج: موتر الميزات F ∈ R^(C×H'×W')

فاك التشفير: سلسلة من طبقات الالتفاف المنقول

  • الإدخال: الميزات العميقة F
  • الإخراج: خريطة حرارة النظر Ĥ ∈ R^(1×112×112)

علاقة الخريطة الكلية: Ĥ = D(E(I))

تصميم دالة الخسارة

يستخدم دالة خسارة مركبة لموازنة دقة إعادة البناء والحفاظ على توزيع:

L = α·BCE(Ĥ,H) + β·MSE(Ĥ,H) + γ·D_KL(H||Ĥ)

حيث:

  • BCE: دالة خسارة الإنتروبيا الثنائية المتقاطعة
  • MSE: متوسط الخطأ التربيعي
  • D_KL: تباعد Kullback-Leibler
  • إعدادات الأوزان: α=0.4, β=0.3, γ=0.3

نقاط الابتكار التقني

  1. الانتقال من التنبؤ بالتسلسل إلى التنبؤ بالتوزيع: تجنب عدم الاستقرار والمشاكل المحلية المثالية لنماذج RNN وما شابهها
  2. تجربة المراقبة طويلة المدى: وقت المراقبة لمدة 30 ثانية يلتقط بشكل كافٍ سلوك النظر الاستكشافي
  3. التحليل الإحصائي متعدد الأبعاد: الجمع بين توزيع الخطوات وتحليل زاوية الانعطاف لتوصيف شامل لديناميكيات النظر
  4. النمذجة المستوحاة من البيولوجيا: إدخال نظرية المشي العشوائي لـ Lévy في نمذجة الانتباه البصري

إعداد التجربة

خصائص مجموعة البيانات

  • الحجم: 40 مشارك، 50 صورة، إجمالي حوالي 110,000 نقطة بيانات/مشارك
  • أنواع الصور: لوحات فنية، مشاهد حقيقية، فن تجريدي
  • مطابقة الإنتروبيا: مجموعتا الصور متطابقتان حسب توزيع إنتروبيا Shannon
  • المدة الزمنية: 30 ثانية وقت مراقبة لكل صورة

مؤشرات التقييم

  • مؤشرات إحصائية: أس قانون القوة μ، معامل الارتباط
  • مؤشرات التنبؤ: دالة الخسارة المركبة (BCE+MSE+تباعد KL)
  • التقييم النوعي: تحليل المقارنة البصرية للخرائط الحرارية

تفاصيل التنفيذ

  • المحسِّن: AdamW مع تلدين جيبي
  • عدد الحقب: 10 حقب
  • تقسيم البيانات: 85% تدريب، 15% تحقق
  • توليد الخريطة الحرارية: التفاف نواة غاوسية ثنائية الأبعاد، إعادة أخذ عينات إلى 112×112

نتائج التجربة

الاكتشافات الإحصائية الرئيسية

تحليل توزيع الخطوات

  1. التوزيع التراكمي: بعد دمج جميع البيانات، يظهر تناقصاً وفقاً لقانون القوة، مع ميل حوالي -3.5، يتوافق مع خصائص المشي العشوائي الغاوسي
  2. توزيع الشروط لصورة واحدة: ميل توزيع الخطوات لكل صورة حوالي -2.2، ضمن نطاق المشي العشوائي لـ Lévy (1 < μ ≤ 3)
  3. توزيع الشروط الفردية: توزيع مشارك واحد يظهر أيضاً خصائص Lévy، مع ميل حوالي -2.41

توزيع زاوية الانعطاف

  • توزيع ثنائي الذروة، مع ذروات بارزة عند ±π/2
  • قمم حادة عند 0 و±π تشير إلى تفضيل الحركة المستقيمة والانعكاسات الاتجاهية العرضية

الارتباط بين الإنتروبيا ومعامل Lévy

إنتروبيا الصورة ترتبط بشكل ضعيف موجب مع معامل μ، حيث تميل الصور عالية الإنتروبيا إلى إنتاج خطوات أكبر، ربما لأن توزيع المعلومات أوسع.

نتائج نموذج التنبؤ

أداء التدريب

  • منحنيات خسارة التدريب والتحقق متطابقة بشكل وثيق، مما يشير إلى قدرة تعميم جيدة
  • تتقارب جميع المكونات الثلاثة للخسارة المركبة بشكل مستقر
  • تحقيق التقارب بعد 10 حقب من التدريب

جودة التنبؤ

  • تحديد دقيق للمناطق عالية الانتباه
  • الحفاظ على البنية متعددة الأنماط المفصولة مكانياً
  • أداء قوية على أنواع صور مختلفة

قيود النموذج

على الرغم من أداء التنبؤ بالخريطة الحرارية الجيدة، لا يمكن للنموذج التقاط خصائص القفزات ذات الذيل الثقيل المرصودة في البيانات البشرية، مما يبرز قيود أطر عمل التعلم بالبروز الحالية.

الأعمال ذات الصلة

نماذج الانتباه التقليدية

  • Judd وآخرون (2009): استخدام ميزات الصور منخفضة ومتوسطة المستوى للتنبؤ بخريطة كثافة النظر، لكن تجاهل المعلومات الدلالية من أعلى إلى أسفل
  • Xu وآخرون (2014): نموذج ثلاثي الطبقات يجمع بين ميزات البكسل والكائن والمستوى الدلالي، مما يحسن دقة التنبؤ

أبحاث علم البيئة الحركية

  • Brockmann وآخرون (2006): أنماط الحركة البشرية تظهر توزيع خطوات وفقاً لقانون القوة
  • Viswanathan وآخرون (1996، 2000): المثالية للمشي العشوائي لـ Lévy في البحث في البيئات النادرة

الابتكار في هذا البحث

التطبيق الأول والمنهجي لنظرية المشي العشوائي لـ Lévy في نمذجة الانتباه البصري البشري، ملء الفجوة بين نماذج البروز الثابتة والسلوك الديناميكي للنظر.

الخلاصة والمناقشة

الاستنتاجات الرئيسية

  1. النظر البشري يتبع المشي العشوائي لـ Lévy: توزيع الخطوات تحت شروط صورة فردية يظهر خصائص قانون القوة
  2. تحسين البحث عن المعلومات البصرية: تستخدم العين البشرية استراتيجية بحث مثالية مماثلة للبحث عن الغذاء في الحيوانات
  3. جدوى التنبؤ المكاني: يمكن لنموذج CNN أن يتعلم بفعالية أنماط التوزيع المكاني للنظر
  4. الفروقات الفردية كبيرة: يتمتع سلوك النظر بالعشوائية والخصوصية الفردية

القيود

  1. غياب النمذجة الزمنية: لا يمكن للنموذج الحالي توليد مسارات المسح الكاملة
  2. عدم كفاية نمذجة الفروقات الفردية: لم يأخذ النموذج في الاعتبار أنماط النظر الخاصة بالفرد
  3. معلومات دلالية محدودة: تعتمد بشكل أساسي على ميزات بصرية منخفضة المستوى، تفتقر إلى الفهم الدلالي العالي المستوى
  4. قيود مؤشرات التقييم: قد تقلل المؤشرات على مستوى البكسل التقليدية من تقدير التشابه الإدراكي

الاتجاهات المستقبلية

  1. التوسع الزمني: إضافة وحدات زمنية على أساس التنبؤ المكاني لتوليد مسارات المسح
  2. النمذجة الشخصية: نماذج انتباه تأخذ في الاعتبار الفروقات الفردية
  3. التطبيقات السريرية: استخدام الانحرافات الإحصائية كعلامات تشخيصية مبكرة للأمراض العصبية
  4. التفاعل في الوقت الفعلي: تطوير واجهات تكيفية قائمة على التنبؤ بالنظر

التقييم المتعمق

المزايا

المساهمات النظرية

  1. الابتكار متعدد التخصصات: نجح في إدخال نظرية البحث عن الغذاء البيولوجية إلى مجال رؤية الحاسوب
  2. أهمية الاكتشافات الإحصائية: اكتشاف خصائص المشي العشوائي لـ Lévy يوفر منظوراً جديداً لفهم الانتباه البصري
  3. تصميم تجريبي صارم: تجربة المراقبة طويلة المدى تلتقط بشكل أفضل سلوك النظر الطبيعي

المزايا التقنية

  1. حجم البيانات كبير: مجموعة بيانات 4 ملايين نقطة نظر تعتبر واسعة النطاق في هذا المجال
  2. تحليل شامل: الجمع بين توزيع الخطوات وزاوية الانعطاف وتحليلات إحصائية متعددة الأبعاد أخرى
  3. نموذج عملي: معمارية خفيفة الوزن قائمة على MobileNetV2 مناسبة للتطبيقات العملية

الكفاية التجريبية

  1. أنواع صور متعددة: تغطي اللوحات الفنية والمشاهد الحقيقية والفن التجريدي
  2. قوة إحصائية كافية: 40 مشارك يوفر قوة إحصائية كافية
  3. التحقق من زوايا متعددة: التحقق من الفرضية من شروط فردية وصور وشروط عامة

أوجه القصور

قيود الطريقة

  1. فقدان المعلومات الزمنية: التخلي عن التنبؤ بالتسلسل قد يفقد ديناميكيات زمنية مهمة
  2. عدم وضوح العلاقات السببية: عدم القدرة على إنشاء علاقة سببية بين ميزات الصورة ومعاملات Lévy
  3. قابلية تفسير النموذج محدودة: طبيعة الصندوق الأسود لـ CNN تحد من فهم آليات النظر

عيوب التصميم التجريبي

  1. تمثيل المشاركين: لم يتم الإبلاغ بالتفصيل عن الخصائص الديموغرافية لـ 40 مشارك
  2. انحياز اختيار الصور: معايير الاختيار والتمثيل لـ 50 صورة غير واضحة بشكل كافٍ
  3. متغيرات التحكم غير كافية: لم يتم التحكم بشكل كافٍ في عوامل مثل مسافة المراقبة والإضاءة المحيطة

عدم كفاية التحليل

  1. تحليل الفروقات الفردية سطحي: على الرغم من الإشارة إلى الفروقات الفردية، يفتقر إلى تحليل متعمق
  2. تجاهل العوامل الدلالية: عدم الأخذ في الاعتبار بشكل كافٍ تأثير محتوى الصورة الدلالي على أنماط النظر
  3. غياب التحقق عبر الثقافات: يبدو أن جميع المشاركين من نفس الخلفية الثقافية

تقييم التأثير

المساهمات الأكاديمية

  1. بحث رائد: إدخال نظرية المشي العشوائي لـ Lévy في نمذجة الانتباه البصري له أهمية رائدة
  2. قيمة منهجية: توفير إطار إحصائي جديد لتحليل بيانات حركة العين
  3. التأثير عبر التخصصات: قد يؤثر على المجالات ذات الصلة مثل العلوم المعرفية وعلم الأعصاب

القيمة العملية

  1. تصميم الواجهات: توفير أساس نظري لتصميم واجهات المستخدم التكيفية
  2. التطبيقات السريرية: الكشف عن شذوذ أنماط النظر في التشخيص الطبي
  3. تكنولوجيا التعليم: تحسين عرض المحتوى في منصات التعلم عبر الإنترنت

قابلية الاستنساخ

  1. وصف الطريقة مفصل: وصف كافٍ لعملية التجربة وطرق التحليل
  2. توفر الكود والبيانات: لم يتم التوضيح بشكل صريح حول توفر الكود والبيانات
  3. متطلبات الأجهزة معقولة: استخدام أجهزة تتبع العين القياسية، عتبة استنساخ معقولة

السيناريوهات القابلة للتطبيق

التطبيقات المباشرة

  1. أبحاث نمذجة الانتباه: توفير أدوات جديدة لأبحاث نظرية الانتباه البصري
  2. تحليل بيانات حركة العين: توفير إطار مرجعي لتحليل إحصائي لتجارب حركة العين الأخرى
  3. التنبؤ بالبروز: التنبؤ بمناطق البروز البصري في مهام رؤية الحاسوب

التطبيقات الموسعة

  1. التشخيص الطبي: تطوير أدوات فحص الأمراض العصبية بناءً على أنماط حركة العين
  2. التفاعل بين الإنسان والحاسوب: تصميم واجهات بصرية أكثر ذكاءً وأنظمة تفاعل
  3. تصميم الإعلانات: تحسين تخطيط المحتوى البصري لزيادة التقاط الانتباه
  4. الواقع الافتراضي والمعزز: تحقيق تفاعل بصري أكثر طبيعية في بيئات VR/AR

المراجع

يستشهد البحث بـ 13 مرجعاً مهماً، تغطي:

  • نماذج الانتباه الكلاسيكية: Judd et al. (2009)، Xu et al. (2014)
  • نظرية المشي العشوائي لـ Lévy: Viswanathan et al. (1996، 2000، 2008)
  • أنماط الحركة البشرية: Brockmann et al. (2006)
  • فسيولوجيا حركة العين: Martinez-Conde et al. (2013)
  • أساسيات نظرية المعلومات: Attneave (1954)، Wu et al. (2013)
  • مؤشرات التقييم: Bylinskii et al. (2018)

التقييم الشامل: هذا بحث متعدد التخصصات ذو قيمة نظرية وعملية مهمة. من خلال إدخال نظرية البحث عن الغذاء البيولوجية إلى نمذجة الانتباه البصري، يوفر منظوراً بحثياً جديداً تماماً لهذا المجال. على الرغم من وجود قيود في النمذجة الزمنية وتحليل الفروقات الفردية، فإن اكتشافاته الإحصائية وإطار عمل النمذجة يضعان أساساً مهماً للبحث المستقبلي. يجعل التصميم التجريبي الصارم والتحليل الشامل للبيانات استنتاجاته ذات مصداقية قوية، مع آفاق تطبيق مهمة في الأوساط الأكاديمية والصناعية.