2025-11-21T10:01:15.764465

A3RNN: Bi-directional Fusion of Bottom-up and Top-down Process for Developmental Visual Attention in Robots

Hiruma, Ito, Mori et al.

This study investigates the developmental interaction between top-down (TD) and bottom-up (BU) visual attention in robotic learning. Our goal is to understand how structured, human-like attentional behavior emerges through the mutual adaptation of TD and BU mechanisms over time. To this end, we propose a novel attention model $A^3 RNN$ that integrates predictive TD signals and saliency-based BU cues through a bi-directional attention architecture. We evaluate our model in robotic manipulation tasks using imitation learning. Experimental results show that attention behaviors evolve throughout training, from saliency-driven exploration to prediction-driven direction. Initially, BU attention highlights visually salient regions, which guide TD processes, while as learning progresses, TD attention stabilizes and begins to reshape what is perceived as salient. This trajectory reflects principles from cognitive science and the free-energy framework, suggesting the importance of self-organizing attention through interaction between perception and internal prediction. Although not explicitly optimized for stability, our model exhibits more coherent and interpretable attention patterns than baselines, supporting the idea that developmental mechanisms contribute to robust attention formation.

academic

A3RNN: Bi-directional Fusion of Bottom-up and Top-down Process for Developmental Visual Attention in Robots

基本信息

论文ID: 2510.10221
标题: A3RNN: Bi-directional Fusion of Bottom-up and Top-down Process for Developmental Visual Attention in Robots
作者: Hyogo Hiruma, Hiroshi Ito, Hiroki Mori, Tetsuya Ogata
分类: cs.RO (Robotics), cs.AI (Artificial Intelligence)
发表时间: 2025年10月11日 (arXiv预印本)
论文链接: https://arxiv.org/abs/2510.10221

摘要

本研究探讨了机器人学习中自上而下(TD)和自下而上(BU)视觉注意力的发展性交互。研究目标是理解结构化的类人注意力行为如何通过TD和BU机制的相互适应而涌现。为此，作者提出了一种新颖的注意力模型A³RNN，通过双向注意力架构集成预测性TD信号和基于显著性的BU线索。在机器人操作任务中使用模仿学习进行评估，实验结果表明注意力行为在训练过程中从显著性驱动的探索演化为预测驱动的定向。该轨迹反映了认知科学和自由能框架的原理，支持了发展性机制有助于鲁棒注意力形成的观点。

研究背景与动机

要解决的问题

本研究旨在解决机器人视觉注意力系统中的两个核心问题：

注意力机制的发展性交互：如何模拟人类注意力系统中自上而下和自下而上机制的动态相互作用
训练稳定性问题：现有模型（如A2RNN）在训练过程中容易陷入局部最优解，产生"暗室问题"(dark room problem)

问题的重要性

人类认知系统的核心能力在于选择性注意，这使得人类能够在复杂环境中过滤信息、优先处理有意义的刺激并有效指导行为。理解并复制这种能力对于开发智能机器人系统具有重要意义。

现有方法的局限性

任务特定的视觉处理模型：需要显式标签注释，反映设计者偏见，不适合研究发展过程
基于Transformer的模型：虽然能够端到端学习，但无法明确区分BU和TD组件
像素级注意力模型：如A2RNN虽然能够交互，但训练不稳定，容易收敛到语义无意义的注意力策略

研究动机

基于自由能原理和认知科学理论，作者认为注意力应该是一个主动的预测推理过程，通过感知和内部预测的交互实现自组织。

核心贡献

提出了A³RNN模型：一种集成BU和TD信号的新颖注意力模型，实现注意力分配的动态适应
实现了发展性注意力框架：在机器人学习环境中实现并分析了BU和TD交互如何随时间演化
验证了预测推理的有效性：通过实证评估证明了结合预测推理能够提高注意力稳定性和任务性能
提供了认知科学洞察：展示了注意力作为预测学习的涌现属性的新视角

方法详解

任务定义

研究采用机器人操作任务作为测试平台，具体为：

输入：关节角度数据(i^joint)和相机图像(i^image)
输出：下一时刻的关节角度预测（作为机器人运动指令）
约束：通过有限的演示数据学习感觉运动动态

模型架构

A³RNN模型由三个主要模块组成：

1. A³模块（Amalgamated Active Attention Module）

这是模型的核心创新，负责融合BU和TD注意力信号：

工作流程：

BU注意力图生成：从CNN特征图f^BU_t ∈ R^(N_BU×H×W)通过空间softmax生成归一化的BU注意力图m^BU_t
BU伪查询向量提取：使用m^BU_t作为空间权重掩码，计算高级特征图的加权平均得到伪查询向量q^BU_t ∈ R^(N_BU×D_TD)
TD查询向量生成：LSTM隐状态h_(t-1)通过MLP变换产生TD查询向量q^TD_t ∈ R^(N_TD×D_TD)
Transformer注意力集成：BU伪查询作为键值对，TD查询作为查询，通过Transformer编码器-解码器结构产生集成注意力表示q^A_t
注意力点估计：使用集成向量q^A_t估计最终的TD注意力点pt^TD_t，同时通过空间argmax提取BU注意力点pt^BU_t

2. 分层LSTM模块（H-LSTM）

采用多时间尺度RNN结构，包含：

处理不同模态数据的独立LSTM（图像和关节角度）
共享LSTM用于信息集成和重分发
输出预测的注意力点坐标和关节角度

3. 重构模块

模拟人类视觉系统，重构两种视觉表示：

外围分支：重构全局低分辨率图像（对应BU注意力）
中央凹分支：重构局部高分辨率图像（对应TD注意力）

技术创新点

双向注意力融合：通过Transformer自注意力机制动态平衡BU和TD信号的影响
发展性学习策略：初期BU引导TD，后期TD重塑BU的感知，模拟人类注意力发展过程
精度控制机制：基于自由能原理，根据感觉预测的可靠性动态调整注意力
解耦学习机制：避免CNN和RNN组件过度协同适应导致的次优解

实验设置

数据集

环境：robosuite模拟器环境
机器人：7自由度Panda机械臂
任务：物体抓取任务（抓取放置在三个固定位置之一的木质纹理盒子）
数据收集：使用3D鼠标界面收集演示数据
数据规模：每个位置5个演示序列，总计15个训练序列，每个序列120个时间步

评价指标

成功率：注意力正确定向到目标物体的比例
注意力一致性：TD和BU注意力随时间的稳定性
查询相似性：BU伪查询与融合查询之间的相似性演化

对比方法

A2RNN：基线模型，仅使用TD查询
消融实验变体：
- 变体(1)：添加BU-TD集成和BU外围重构损失
- 变体(2)：变体(1) + TD中央凹重构损失
- 变体(3)：变体(2) + 一致性正则化损失
- 变体(4)：使用MLP而非Transformer进行BU-TD查询集成

实现细节

注意力点数量：N_TD = 4, N_BU = 16
损失函数权重：α和β用于平衡重构损失和正则化损失
训练策略：全时间反向传播(BPTT)
正则化：空间有效性约束，防止注意力点超出图像边界或过度移动

实验结果

主要结果

成功率对比：

A³RNN（提出方法）：100%
A2RNN（基线）：66.7%
消融实验变体：8.3%-91.6%不等

消融实验

实验结果表明每个模块都对提高注意力形成的鲁棒性有贡献：

变体(4)虽然达到100%成功率，但需要近两倍的训练轮次
BU-TD交互发展在Transformer版本中更加结构化
Transformer机制对学习效率起关键作用

发展性行为分析

注意力演化过程：

早期阶段（epoch 10）：
- BU注意力广泛分布，接近随机但包含显著区域
- TD注意力跟随BU引导，避免了A2RNN的不稳定性
中期阶段（epoch 100）：
- TD注意力在目标物体和机械臂周围稳定
- BU注意力转向视觉动态区域（如机械臂底座）
后期阶段（epoch 500）：
- BU注意力更加聚焦于目标物体和机械臂
- TD和BU注意力区域对齐，显示相互影响

查询相似性分析：

训练初期：融合查询与BU伪查询高度相似
训练后期：各注意力头发展为独立的潜在表示
符合预测编码理论：不可预测刺激诱发BU处理

相关工作

视觉处理模型分类

任务特定模型：物体检测、图像分割等，有效但需要显式监督
Transformer模型：Vision Transformer等，适合端到端学习但难以区分BU/TD
像素级注意力模型：SA-RNN、A2RNN等，直接模拟人类注意力但存在稳定性问题

本文优势

相比现有工作，A³RNN通过显式的解耦和集成机制，缓解了收敛到平凡预测策略的趋势，鼓励了有意义注意力模式的涌现。

结论与讨论

主要结论

双向融合有效性：BU和TD注意力的动态集成显著提高了训练稳定性
发展性轨迹：模型展现出从显著性驱动到预测驱动的自然演化过程
生物学合理性：注意力发展轨迹符合自由能原理和认知科学理论
架构重要性：Transformer自注意力机制对于平衡预测性TD引导和感知性BU显著性至关重要

局限性

简单任务环境：当前实验仅在相对简单的抓取任务中验证
相同物体区分：在相同物体间稳定选择目标仍然具有挑战性
复杂环境适应性：模型在复杂和非结构化环境中的预测性和鲁棒性有待验证

未来方向

复杂环境评估：在更复杂和非结构化环境中评估模型性能
认知功能扩展：将框架扩展到不确定性推理或预期控制等其他认知功能
多模态学习：探索在多感觉模态中的应用

深度评价

优点

理论基础扎实：基于自由能原理和认知科学的坚实理论基础
技术创新显著：Transformer融合BU/TD信号的设计具有创新性
实验设计合理：从发展性角度分析注意力演化过程，提供了深入洞察
结果说服力强：100%成功率和详细的消融实验证明了方法有效性
生物学启发：模型行为与人类注意力发展过程高度一致

不足

实验规模有限：仅在单一简单任务上验证，泛化能力有待验证
计算复杂度：Transformer结构可能增加计算开销，论文未详细分析
参数敏感性：损失函数权重α、β的选择方法未充分讨论
长期稳定性：虽然提高了训练稳定性，但长期运行的鲁棒性需要进一步验证

影响力

领域贡献：为机器人视觉注意力研究提供了新的发展性视角
实用价值：可应用于需要类人注意力机制的机器人系统
可复现性：方法描述详细，但代码和数据集的开放性需要确认
理论意义：验证了自由能原理在人工智能系统中的应用潜力

适用场景

机器人操作任务：需要动态注意力分配的抓取、装配等任务
人机交互系统：需要理解和模拟人类注意力模式的应用
自主导航：需要在复杂环境中进行选择性感知的移动机器人
认知机器人研究：探索类人认知机制的研究平台

参考文献

论文引用了27篇相关文献，涵盖了自由能原理、注意力机制、机器人学习等关键领域的重要工作，为研究提供了坚实的理论和技术基础。

总体评价：这是一篇高质量的机器人学习论文，在理论创新、技术实现和实验验证方面都表现出色。虽然在实验规模和复杂性方面还有提升空间，但其提出的发展性注意力框架为该领域提供了有价值的贡献。