2025-11-11T07:10:08.372530

Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling

Panchagnula
Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.
academic

Forrajeo con los Ojos: Dinámicas en la Mirada Visual Humana y Modelado Predictivo Profundo

Información Básica

  • ID del Artículo: 2510.09299
  • Título: Forrajeo con los Ojos: Dinámicas en la Mirada Visual Humana y Modelado Predictivo Profundo
  • Autor: Tejaswi V. Panchagnula (Indian Institute of Technology Madras)
  • Clasificación: cs.CV (Visión por Computadora), eess.IV (Procesamiento de Imágenes y Video)
  • Fecha de Publicación: Julio de 2025 (Preimpresión en arXiv)
  • Enlace del Artículo: https://arxiv.org/abs/2510.09299

Resumen

Este estudio descubre que las trayectorias de la mirada visual humana siguen patrones de caminata de Lévy similares al comportamiento de forrajeo animal—trayectorias aleatorias con distribuciones de pasos de cola pesada que exhiben propiedades óptimas en entornos de recursos escasos. A través de un experimento a gran escala con 40 participantes observando 50 imágenes diferentes, el equipo de investigación registró más de 4 millones de puntos de fijación. El análisis demuestra que las trayectorias de mirada ocular efectivamente siguen patrones de caminata de Lévy, indicando que el ojo humano forrajea información visual de manera óptimamente eficiente. Además, el equipo entrenó una red neuronal convolucional para predecir mapas de calor de fijación, demostrando que los componentes clave del comportamiento de fijación pueden aprenderse únicamente a partir de la estructura visual.

Antecedentes y Motivación de la Investigación

Definición del Problema

Los modelos tradicionales de atención visual se centran principalmente en la predicción de prominencia basada en imágenes, tratando el comportamiento de fijación como un problema de predicción estática, ignorando las características dinámicas espacio-temporales del movimiento ocular. La investigación existente presenta las siguientes limitaciones:

  1. Ausencia de Información Temporal: La mayoría de los modelos colapsan secuencias de puntos de fijación en mapas de calor estáticos, ignorando las características temporales de la fijación
  2. Sesgo de Exposición Corta: Los protocolos estándar de visualización libre de 2-3 segundos favorecen la fijación impulsada por prominencia temprana, sin muestrear suficientemente el comportamiento de fijación exploratorio
  3. Falta de Perspectiva de Física Estadística: Se ignoran las leyes estadísticas y principios de optimización que los movimientos oculares pueden seguir

Importancia de la Investigación

Comprender los patrones espacio-temporales de la exploración visual humana es significativo para:

  • Modelado de atención y ciencia cognitiva
  • Diseño de interfaces visuales
  • Sistemas de interacción humano-computadora
  • Diagnóstico clínico (como marcadores tempranos de enfermedades neurológicas como autismo y TDAH)

Motivación de Innovación

Inspirados por la ecología del movimiento y la física estadística, los investigadores descubrieron que los patrones de movimiento humano y el comportamiento de forrajeo animal exhiben características de caminata de Lévy con distribuciones de pasos de ley de potencia. Esto motivó a los autores a explorar si la exploración visual también sigue leyes estadísticas similares.

Contribuciones Principales

  1. Primera Confirmación de que las Trayectorias de Fijación Humana Siguen Patrones de Caminata de Lévy: A través del análisis de datos de movimiento ocular a gran escala, se descubrió que las distribuciones de pasos de imágenes individuales exhiben decaimiento de ley de potencia, con exponentes en el rango 1 < μ ≤ 3
  2. Construcción de un Conjunto de Datos de Movimiento Ocular de Alta Calidad a Gran Escala: 40 participantes × 50 imágenes × 30 segundos de tiempo de visualización, totalizando más de 4 millones de puntos de fijación
  3. Propuesta de un Modelo de Predicción de Fijación Basado en MobileNetV2: Capaz de predecir con precisión mapas de calor de fijación, con buen desempeño en múltiples tipos de imágenes
  4. Revelación de Principios de Optimización en el Forrajeo de Información Visual: Demuestra que el ojo humano emplea una estrategia de forrajeo óptima para la búsqueda de información visual
  5. Descubrimiento de Correlación entre Entropía de Imagen y Parámetros de Lévy: Las imágenes de alta entropía tienden a producir parámetros de distribución de pasos más grandes

Explicación Detallada de Métodos

Definición de Tareas

La investigación incluye dos tareas principales:

  1. Tarea de Análisis Estadístico: Analizar las características estadísticas de las trayectorias de fijación humana, verificar la hipótesis de caminata de Lévy
  2. Tarea de Modelado Predictivo: Predecir la distribución de mapas de calor de fijación a partir de imágenes estáticas

Entrada: Imagen RGB I ∈ R^(3×224×224)
Salida: Mapa de calor de probabilidad de fijación Ĥ ∈ R^(1×112×112)

Diseño Experimental

Recopilación de Datos

  • Dispositivo: Aurora Smart Eye Tracker (frecuencia de muestreo de 120Hz)
  • Monitor: Monitor estándar de 1920×1080 píxeles
  • Condiciones de Visualización: 30 segundos por imagen, intervalo de pantalla negra de 5 segundos entre imágenes
  • Tipos de Imagen: Pintura, escenas reales, arte abstracto, total de 50 imágenes, divididas en dos grupos con distribución de entropía coincidente

Métodos de Análisis Estadístico

  1. Cálculo de Pasos: Distancia euclidiana d = √(x_{i+1}-x_i)² + (y_{i+1}-y_i)²
  2. Análisis de Ángulo de Giro: Distribución de ángulos entre tres puntos consecutivos
  3. Ajuste de Ley de Potencia: Análisis de regresión lineal en escala logarítmica

Arquitectura del Modelo

Estructura Codificador-Decodificador

El modelo utiliza una arquitectura U-Net basada en MobileNetV2:

Codificador: MobileNetV2 (preentrenado en ImageNet)

  • Entrada: I ∈ R^(3×224×224)
  • Salida: Tensor de características F ∈ R^(C×H'×W')

Decodificador: Secuencia de capas de convolución transpuesta

  • Entrada: Características profundas F
  • Salida: Mapa de calor de fijación Ĥ ∈ R^(1×112×112)

Relación de mapeo general: Ĥ = D(E(I))

Diseño de Función de Pérdida

Se utiliza una función de pérdida compuesta para equilibrar la precisión de reconstrucción y la fidelidad de distribución:

L = α·BCE(Ĥ,H) + β·MSE(Ĥ,H) + γ·D_KL(H||Ĥ)

Donde:

  • BCE: Pérdida de entropía cruzada binaria
  • MSE: Error cuadrático medio
  • D_KL: Divergencia de Kullback-Leibler
  • Configuración de pesos: α=0.4, β=0.3, γ=0.3

Puntos de Innovación Técnica

  1. Transición de Predicción de Secuencia a Predicción de Distribución: Evita la inestabilidad y problemas de óptimos locales de modelos de secuencia como RNN
  2. Experimento de Visualización a Largo Plazo: El tiempo de visualización de 30 segundos captura suficientemente el comportamiento de fijación exploratorio
  3. Análisis Estadístico Multiescala: Combina análisis de distribución de pasos y ángulos de giro para caracterizar completamente la dinámica de fijación
  4. Modelado Inspirado en Biología: Introduce la teoría de caminata de Lévy en el modelado de atención visual

Configuración Experimental

Características del Conjunto de Datos

  • Escala: 40 participantes, 50 imágenes, aproximadamente 110,000 puntos de datos/participante
  • Tipos de Imagen: Pintura, escenas reales, arte abstracto
  • Coincidencia de Entropía: Dos grupos de imágenes coincidentes según distribución de entropía de Shannon
  • Duración: 30 segundos de tiempo de visualización por imagen

Métricas de Evaluación

  • Métricas Estadísticas: Exponente de ley de potencia μ, coeficiente de correlación
  • Métricas de Predicción: Función de pérdida compuesta (BCE+MSE+divergencia KL)
  • Evaluación Cualitativa: Análisis de comparación visual de mapas de calor

Detalles de Implementación

  • Optimizador: AdamW con annealing de coseno
  • Épocas de Entrenamiento: 10 épocas
  • División de Datos: 85% entrenamiento, 15% validación
  • Generación de Mapa de Calor: Convolución de núcleo gaussiano 2D, submuestreo a 112×112

Resultados Experimentales

Hallazgos Estadísticos Principales

Análisis de Distribución de Pasos

  1. Distribución Acumulativa: Todos los datos combinados exhiben decaimiento de ley de potencia, con pendiente aproximada de -3.5, consistente con características de caminata aleatoria gaussiana
  2. Distribución Condicional de Imagen Individual: La pendiente de distribución de pasos de cada imagen es aproximadamente -2.2, dentro del rango de caminata de Lévy (1 < μ ≤ 3)
  3. Distribución Condicional Individual: La distribución de participantes individuales también exhibe características de Lévy, con pendiente aproximada de -2.41

Distribución de Ángulo de Giro

  • Distribución bimodal, con picos significativos en ±π/2
  • Picos agudos en 0 y ±π indican preferencia por movimiento en línea recta e inversiones ocasionales de dirección

Correlación entre Entropía y Parámetro de Lévy

La entropía de imagen muestra correlación débil positiva con el coeficiente μ, con imágenes de alta entropía tendiendo a producir pasos más grandes, posiblemente debido a distribución de información más amplia.

Resultados del Modelo Predictivo

Desempeño de Entrenamiento

  • Las curvas de pérdida de entrenamiento y validación están estrechamente alineadas, indicando buena capacidad de generalización
  • Los tres componentes de la pérdida compuesta convergen establemente
  • Se alcanza convergencia después de 10 épocas de entrenamiento

Calidad de Predicción

  • Localización precisa de áreas de alta atención
  • Mantiene estructura multimodal espacialmente separada
  • Desempeño robusto en diferentes tipos de imágenes

Limitaciones del Modelo

A pesar del buen desempeño en predicción de mapas de calor, el modelo no puede capturar características de saltos de cola pesada observadas en datos humanos, destacando las limitaciones de los marcos actuales de aprendizaje de prominencia.

Trabajo Relacionado

Modelos de Atención Tradicionales

  • Judd et al. (2009): Utiliza características de imagen de nivel bajo-medio para predecir mapas de densidad de fijación, pero ignora información semántica de arriba hacia abajo
  • Xu et al. (2014): Modelo de tres capas combinando características de píxel, objeto y nivel semántico, mejorando precisión de predicción

Investigación en Ecología del Movimiento

  • Brockmann et al. (2006): Los patrones de movimiento humano exhiben distribuciones de pasos de ley de potencia
  • Viswanathan et al. (1996, 2000): Optimalidad de caminata de Lévy en búsqueda en entornos escasos

Innovación de Este Artículo

Primera aplicación sistemática de la teoría de caminata de Lévy al modelado de atención visual humana, cerrando la brecha entre modelos de prominencia estática y comportamiento de fijación dinámico.

Conclusiones y Discusión

Conclusiones Principales

  1. La Fijación Humana Sigue Caminata de Lévy: Las distribuciones de pasos bajo condiciones de imagen individual exhiben características de ley de potencia
  2. Optimización de Forrajeo de Información Visual: El ojo humano emplea estrategias de forrajeo óptimas similares al forrajeo animal
  3. Viabilidad de Predicción Espacial: Los modelos CNN pueden aprender efectivamente patrones de distribución espacial de fijación
  4. Diferencias Individuales Significativas: El comportamiento de fijación exhibe aleatoriedad y especificidad individual

Limitaciones

  1. Ausencia de Modelado Temporal: El modelo actual no puede generar rutas de escaneo completas
  2. Modelado Insuficiente de Diferencias Individuales: El modelo no considera patrones de fijación específicos del individuo
  3. Información Semántica Limitada: Se basa principalmente en características visuales de bajo nivel, careciendo de comprensión semántica de alto nivel
  4. Limitaciones de Métricas de Evaluación: Las métricas de nivel de píxel tradicionales pueden subestimar la similitud perceptual

Direcciones Futuras

  1. Extensión Temporal: Agregar módulos temporales a la predicción espacial para generar rutas de escaneo
  2. Modelado Personalizado: Modelos de atención considerando diferencias individuales
  3. Aplicaciones Clínicas: Usar desviaciones estadísticas como marcadores para diagnóstico temprano de enfermedades neurológicas
  4. Interacción en Tiempo Real: Desarrollar interfaces adaptativas basadas en predicción de mirada

Evaluación Profunda

Fortalezas

Contribuciones Teóricas

  1. Innovación Interdisciplinaria: Introducción exitosa de teoría de forrajeo biológico en el campo de la visión por computadora
  2. Hallazgos Estadísticos Importantes: El descubrimiento de características de caminata de Lévy proporciona nueva perspectiva para comprender atención visual
  3. Diseño Experimental Riguroso: Experimentos de visualización a largo plazo capturan mejor el comportamiento de fijación natural

Ventajas Técnicas

  1. Escala de Datos Grande: El conjunto de datos de 4 millones de puntos de fijación es de gran escala en este campo
  2. Análisis Integral: Análisis estadístico multidimensional combinando distribuciones de pasos, ángulos de giro, etc.
  3. Modelo Práctico: Arquitectura ligera basada en MobileNetV2 adecuada para aplicaciones prácticas

Suficiencia Experimental

  1. Múltiples Tipos de Imagen: Cubre pintura, escenas reales, arte abstracto
  2. Potencia Estadística Suficiente: 40 participantes proporcionan potencia estadística adecuada
  3. Verificación Multiangular: Verifica hipótesis desde condiciones individual, de imagen y general

Insuficiencias

Limitaciones de Método

  1. Pérdida de Información Temporal: Abandonar predicción de secuencia puede perder dinámicas temporales importantes
  2. Relación Causal Incierta: No establece relación causal entre características de imagen y parámetros de Lévy
  3. Interpretabilidad Limitada del Modelo: La naturaleza de caja negra de CNN limita la comprensión de mecanismos de fijación

Defectos en Diseño Experimental

  1. Representatividad de Participantes: Las características demográficas de los 40 participantes no se reportan en detalle
  2. Sesgo en Selección de Imagen: Los criterios de selección y representatividad de las 50 imágenes no son suficientemente claros
  3. Control de Variables Insuficiente: No controla suficientemente factores como distancia de visualización, iluminación ambiental, etc.

Análisis Insuficiente

  1. Análisis Superficial de Diferencias Individuales: Aunque se mencionan diferencias individuales, falta análisis profundo
  2. Ignorancia de Factores Semánticos: No considera suficientemente el impacto del contenido semántico de imagen en patrones de fijación
  3. Falta de Validación Transcultural: Todos los participantes parecen ser del mismo trasfondo cultural

Evaluación de Impacto

Contribución Académica

  1. Investigación Pionera: La introducción de teoría de caminata de Lévy en modelado de atención visual tiene significado pionero
  2. Valor Metodológico: Proporciona nuevo marco estadístico para análisis de datos de movimiento ocular
  3. Impacto Interdisciplinario: Puede influir en campos relacionados como ciencia cognitiva y neurociencia

Valor Práctico

  1. Diseño de Interfaz: Proporciona base teórica para diseño de interfaces de usuario adaptativas
  2. Aplicación Clínica: Aplicación potencial de detección de anomalías en patrones de fijación para diagnóstico de enfermedades
  3. Tecnología Educativa: Optimizar presentación de contenido en plataformas de aprendizaje en línea

Reproducibilidad

  1. Descripción Detallada de Método: Procedimiento experimental y métodos de análisis suficientemente descritos
  2. Disponibilidad de Código y Datos: No se menciona explícitamente la apertura de código y datos
  3. Requisitos de Hardware Razonables: Utiliza dispositivos de seguimiento ocular estándar, umbral de reproducción moderado

Escenarios de Aplicación

Aplicación Directa

  1. Investigación de Modelado de Atención: Proporciona nueva herramienta para investigación de teoría de atención visual
  2. Análisis de Datos de Movimiento Ocular: Proporciona marco de referencia para análisis estadístico de otros experimentos de movimiento ocular
  3. Predicción de Prominencia: Predecir regiones visuales prominentes en tareas de visión por computadora

Aplicación Extendida

  1. Diagnóstico Médico: Desarrollar herramientas de detección de enfermedades neurológicas basadas en patrones de movimiento ocular
  2. Interacción Humano-Computadora: Diseñar interfaces visuales más inteligentes y sistemas de interacción
  3. Diseño de Publicidad: Optimizar disposición de contenido visual para mejorar captura de atención
  4. Realidad Virtual: Implementar interacción visual más natural en entornos VR/AR

Referencias

El artículo cita 13 referencias importantes, cubriendo:

  • Modelos de atención clásicos: Judd et al. (2009), Xu et al. (2014)
  • Teoría de caminata de Lévy: Viswanathan et al. (1996, 2000, 2008)
  • Patrones de movimiento humano: Brockmann et al. (2006)
  • Fisiología del movimiento ocular: Martinez-Conde et al. (2013)
  • Fundamentos de teoría de información: Attneave (1954), Wu et al. (2013)
  • Métricas de evaluación: Bylinskii et al. (2018)

Evaluación General: Este es un artículo de investigación interdisciplinaria con importante valor teórico y significado práctico. Al introducir la teoría de forrajeo biológico en el modelado de atención visual, proporciona una perspectiva de investigación completamente nueva para el campo. Aunque presenta limitaciones en modelado temporal y análisis de diferencias individuales, sus hallazgos estadísticos y marco de modelado sientan una base importante para investigación futura. El diseño experimental riguroso y análisis de datos suficiente hacen que sus conclusiones sean altamente confiables, con importantes perspectivas de aplicación tanto en la comunidad académica como en la industria.