This study investigates the developmental interaction between top-down (TD) and bottom-up (BU) visual attention in robotic learning. Our goal is to understand how structured, human-like attentional behavior emerges through the mutual adaptation of TD and BU mechanisms over time. To this end, we propose a novel attention model $A^3 RNN$ that integrates predictive TD signals and saliency-based BU cues through a bi-directional attention architecture.
We evaluate our model in robotic manipulation tasks using imitation learning. Experimental results show that attention behaviors evolve throughout training, from saliency-driven exploration to prediction-driven direction. Initially, BU attention highlights visually salient regions, which guide TD processes, while as learning progresses, TD attention stabilizes and begins to reshape what is perceived as salient. This trajectory reflects principles from cognitive science and the free-energy framework, suggesting the importance of self-organizing attention through interaction between perception and internal prediction. Although not explicitly optimized for stability, our model exhibits more coherent and interpretable attention patterns than baselines, supporting the idea that developmental mechanisms contribute to robust attention formation.
- ID del Artículo: 2510.10221
- Título: A3RNN: Bi-directional Fusion of Bottom-up and Top-down Process for Developmental Visual Attention in Robots
- Autores: Hyogo Hiruma, Hiroshi Ito, Hiroki Mori, Tetsuya Ogata
- Clasificación: cs.RO (Robótica), cs.AI (Inteligencia Artificial)
- Fecha de Publicación: 11 de octubre de 2025 (preimpresión en arXiv)
- Enlace del Artículo: https://arxiv.org/abs/2510.10221
Este estudio explora la interacción del desarrollo de la atención visual descendente (TD) y ascendente (BU) en el aprendizaje robótico. El objetivo es comprender cómo emergen comportamientos de atención estructurados similares a los humanos a través de la adaptación mutua de los mecanismos TD y BU. Para ello, los autores proponen un modelo de atención novedoso A³RNN que integra señales TD predictivas y pistas BU basadas en prominencia a través de una arquitectura de atención bidireccional. Evaluado mediante aprendizaje por imitación en tareas de manipulación robótica, los resultados experimentales demuestran que el comportamiento de atención evoluciona durante el entrenamiento desde la exploración impulsada por prominencia hacia la orientación impulsada por predicción. Esta trayectoria refleja principios de la ciencia cognitiva y el marco de energía libre, apoyando la idea de que los mecanismos del desarrollo contribuyen a la formación de atención robusta.
Este estudio aborda dos problemas centrales en sistemas de atención visual robótica:
- Interacción del desarrollo de mecanismos de atención: Cómo simular la interacción dinámica mutua entre mecanismos descendentes y ascendentes en el sistema de atención humano
- Problema de estabilidad del entrenamiento: Los modelos existentes (como A2RNN) tienden a quedar atrapados en óptimos locales durante el entrenamiento, produciendo el "problema de la habitación oscura" (dark room problem)
La capacidad central del sistema cognitivo humano radica en la atención selectiva, que permite a los humanos filtrar información en entornos complejos, priorizar estímulos significativos y guiar el comportamiento de manera efectiva. Comprender y replicar esta capacidad es de gran importancia para el desarrollo de sistemas robóticos inteligentes.
- Modelos de procesamiento visual específicos de tareas: Requieren anotación de etiquetas explícitas, reflejan sesgos del diseñador y no son adecuados para investigar procesos de desarrollo
- Modelos basados en Transformer: Aunque pueden aprender de extremo a extremo, no pueden distinguir explícitamente entre componentes BU y TD
- Modelos de atención a nivel de píxeles: Como A2RNN, aunque pueden interactuar, presentan entrenamiento inestable y tienden a converger a estrategias de atención semánticamente sin sentido
Basándose en el principio de energía libre y la teoría de la ciencia cognitiva, los autores argumentan que la atención debe ser un proceso de inferencia predictiva activa, logrado a través de la interacción entre la percepción y la predicción interna mediante auto-organización.
- Propuesta del modelo A³RNN: Un modelo de atención novedoso que integra señales BU y TD, logrando adaptación dinámica en la asignación de atención
- Implementación de un marco de atención del desarrollo: Implementación y análisis de cómo la interacción BU y TD evoluciona a lo largo del tiempo en un entorno de aprendizaje robótico
- Verificación de la efectividad de la inferencia predictiva: Demostración empírica de que la combinación de inferencia predictiva mejora la estabilidad de la atención y el desempeño de tareas
- Proporcionar perspectivas de la ciencia cognitiva: Presentación de una nueva perspectiva de la atención como propiedad emergente del aprendizaje predictivo
El estudio utiliza tareas de manipulación robótica como plataforma de prueba, específicamente:
- Entrada: Datos de ángulos articulares (i^joint) e imágenes de cámara (i^image)
- Salida: Predicción de ángulos articulares en el siguiente momento (como comando de movimiento del robot)
- Restricción: Aprendizaje de dinámicas sensoriomotoras a través de datos de demostración limitados
El modelo A³RNN consta de tres módulos principales:
Esta es la innovación central del modelo, responsable de fusionar señales de atención BU y TD:
Flujo de trabajo:
- Generación de mapa de atención BU: A partir del mapa de características CNN f^BU_t ∈ R^(N_BU×H×W), se genera un mapa de atención BU normalizado m^BU_t mediante softmax espacial
- Extracción de vector de pseudoconsulta BU: Se utiliza m^BU_t como máscara de ponderación espacial para calcular el promedio ponderado del mapa de características de alto nivel, obteniendo el vector de pseudoconsulta q^BU_t ∈ R^(N_BU×D_TD)
- Generación de vector de consulta TD: El estado oculto LSTM h_(t-1) se transforma mediante MLP para producir el vector de consulta TD q^TD_t ∈ R^(N_TD×D_TD)
- Integración de atención Transformer: La pseudoconsulta BU actúa como pares clave-valor, la consulta TD como consulta, produciendo representación de atención integrada q^A_t a través de la estructura codificador-decodificador de Transformer
- Estimación de punto de atención: Se utiliza el vector integrado q^A_t para estimar el punto de atención TD final pt^TD_t, mientras que se extrae el punto de atención BU pt^BU_t mediante argmax espacial
Adopta una estructura RNN de múltiples escalas de tiempo, incluyendo:
- LSTM independientes para procesar datos de diferentes modalidades (imagen y ángulos articulares)
- LSTM compartido para integración de información y redistribución
- Salida de predicción de coordenadas de punto de atención y ángulos articulares
Simula el sistema visual humano, reconstruyendo dos representaciones visuales:
- Rama periférica: Reconstruye imagen global de baja resolución (correspondiente a atención BU)
- Rama foveal: Reconstruye imagen local de alta resolución (correspondiente a atención TD)
- Fusión de atención bidireccional: Equilibrio dinámico de la influencia de señales BU y TD mediante mecanismo de auto-atención Transformer
- Estrategia de aprendizaje del desarrollo: En las primeras etapas BU guía TD, en etapas posteriores TD remodela la percepción BU, simulando el proceso de desarrollo de atención humana
- Mecanismo de control de precisión: Basado en el principio de energía libre, ajusta dinámicamente la atención según la confiabilidad de la predicción sensorial
- Mecanismo de aprendizaje desacoplado: Evita la adaptación excesivamente cooperativa entre componentes CNN y RNN que conduce a soluciones subóptimas
- Entorno: Entorno simulador robosuite
- Robot: Brazo robótico Panda de 7 grados de libertad
- Tarea: Tarea de agarre de objetos (agarre de cajas de madera texturizadas colocadas en una de tres ubicaciones fijas)
- Recopilación de datos: Datos de demostración recopilados mediante interfaz de ratón 3D
- Escala de datos: 5 secuencias de demostración por ubicación, total de 15 secuencias de entrenamiento, 120 pasos de tiempo por secuencia
- Tasa de éxito: Proporción de orientación correcta de atención hacia el objeto objetivo
- Consistencia de atención: Estabilidad de la atención TD y BU a lo largo del tiempo
- Similitud de consulta: Evolución de similitud entre pseudoconsulta BU y consulta fusionada
- A2RNN: Modelo de referencia que utiliza solo consulta TD
- Variantes de ablación:
- Variante (1): Agregar integración BU-TD y pérdida de reconstrucción periférica BU
- Variante (2): Variante (1) + pérdida de reconstrucción foveal TD
- Variante (3): Variante (2) + pérdida de regularización de consistencia
- Variante (4): Usar MLP en lugar de Transformer para integración de consulta BU-TD
- Número de puntos de atención: N_TD = 4, N_BU = 16
- Pesos de función de pérdida: α y β para equilibrar pérdida de reconstrucción y regularización
- Estrategia de entrenamiento: Retropropagación a través del tiempo completo (BPTT)
- Regularización: Restricción de validez espacial, prevención de puntos de atención fuera de límites de imagen o movimiento excesivo
Comparación de tasa de éxito:
- A³RNN (método propuesto): 100%
- A2RNN (referencia): 66.7%
- Variantes de ablación: 8.3%-91.6% respectivamente
Los resultados experimentales demuestran que cada módulo contribuye a mejorar la robustez de la formación de atención:
- La variante (4) logra 100% de tasa de éxito pero requiere casi el doble de épocas de entrenamiento
- La interacción del desarrollo BU-TD es más estructurada en la versión Transformer
- El mecanismo Transformer juega un papel clave en la eficiencia de aprendizaje
Proceso de evolución de atención:
- Etapa temprana (época 10):
- La atención BU se distribuye ampliamente, casi aleatoria pero contiene regiones prominentes
- La atención TD sigue la guía BU, evitando la inestabilidad de A2RNN
- Etapa intermedia (época 100):
- La atención TD se estabiliza alrededor del objeto objetivo y el brazo robótico
- La atención BU se orienta hacia regiones de dinámica visual (como la base del brazo robótico)
- Etapa tardía (época 500):
- La atención BU se enfoca más en el objeto objetivo y el brazo robótico
- Las regiones de atención TD y BU se alinean, mostrando influencia mutua
Análisis de similitud de consulta:
- Etapa temprana de entrenamiento: Consulta fusionada altamente similar a pseudoconsulta BU
- Etapa tardía de entrenamiento: Cada cabeza de atención desarrolla representaciones latentes independientes
- Consistente con teoría de codificación predictiva: Estímulos impredecibles provocan procesamiento BU
- Modelos específicos de tareas: Detección de objetos, segmentación de imágenes, etc., efectivos pero requieren supervisión explícita
- Modelos Transformer: Vision Transformer, etc., adecuados para aprendizaje de extremo a extremo pero difíciles de distinguir BU/TD
- Modelos de atención a nivel de píxeles: SA-RNN, A2RNN, etc., simulan directamente atención humana pero presentan problemas de estabilidad
En comparación con trabajos existentes, A³RNN mitiga la tendencia a converger a estrategias de predicción triviales mediante mecanismos explícitos de desacoplamiento e integración, fomentando la emergencia de patrones de atención significativos.
- Efectividad de la fusión bidireccional: La integración dinámica de atención BU y TD mejora significativamente la estabilidad del entrenamiento
- Trayectoria del desarrollo: El modelo exhibe un proceso de evolución natural desde atención impulsada por prominencia hacia atención impulsada por predicción
- Plausibilidad biológica: La trayectoria de desarrollo de atención es consistente con el principio de energía libre y la teoría de la ciencia cognitiva
- Importancia de la arquitectura: El mecanismo de auto-atención Transformer es crucial para equilibrar la guía TD predictiva y la prominencia BU perceptual
- Entorno de tareas simple: La validación experimental actual se realiza solo en tareas de agarre relativamente simples
- Distinción entre objetos idénticos: Sigue siendo desafiante la selección estable de objetivos entre objetos idénticos
- Adaptabilidad en entornos complejos: La predictibilidad y robustez del modelo en entornos complejos y no estructurados requiere verificación adicional
- Evaluación en entornos complejos: Evaluación del desempeño del modelo en entornos más complejos y no estructurados
- Extensión de funciones cognitivas: Extensión del marco a otras funciones cognitivas como razonamiento de incertidumbre o control anticipatorio
- Aprendizaje multimodal: Exploración de aplicaciones en modalidades sensoriales múltiples
- Base teórica sólida: Fundamento teórico sólido basado en el principio de energía libre y la ciencia cognitiva
- Innovación técnica significativa: El diseño de fusión BU/TD mediante Transformer presenta innovación notable
- Diseño experimental razonable: Análisis del proceso de evolución de atención desde perspectiva del desarrollo, proporcionando perspectivas profundas
- Resultados convincentes: Tasa de éxito del 100% y experimentos de ablación detallados demuestran la efectividad del método
- Inspiración biológica: El comportamiento del modelo es altamente consistente con el proceso de desarrollo de atención humana
- Escala experimental limitada: Validación solo en una única tarea simple, capacidad de generalización pendiente de verificación
- Complejidad computacional: La estructura Transformer puede aumentar la sobrecarga computacional, análisis detallado no proporcionado en el artículo
- Sensibilidad de parámetros: El método de selección de pesos de función de pérdida α y β no se discute suficientemente
- Estabilidad a largo plazo: Aunque mejora la estabilidad del entrenamiento, la robustez de operación a largo plazo requiere verificación adicional
- Contribución al campo: Proporciona nueva perspectiva del desarrollo para investigación de atención visual robótica
- Valor práctico: Aplicable a sistemas robóticos que requieren mecanismos de atención similares a los humanos
- Reproducibilidad: Descripción detallada del método, pero la apertura de código y conjuntos de datos requiere confirmación
- Significado teórico: Verifica el potencial de aplicación del principio de energía libre en sistemas de inteligencia artificial
- Tareas de manipulación robótica: Tareas de agarre, ensamblaje y otras que requieren asignación dinámica de atención
- Sistemas de interacción humano-máquina: Aplicaciones que requieren comprender y simular patrones de atención humana
- Navegación autónoma: Robots móviles que requieren percepción selectiva en entornos complejos
- Investigación de robótica cognitiva: Plataforma de investigación para explorar mecanismos cognitivos similares a los humanos
El artículo cita 27 referencias relacionadas, abarcando trabajos importantes en el principio de energía libre, mecanismos de atención, aprendizaje robótico y otros campos clave, proporcionando una base teórica y técnica sólida para la investigación.
Evaluación General: Este es un artículo de alta calidad en aprendizaje robótico que demuestra excelencia en innovación teórica, implementación técnica y verificación experimental. Aunque hay espacio para mejora en escala experimental y complejidad, el marco de atención del desarrollo propuesto proporciona una contribución valiosa al campo.