2025-11-21T10:01:15.764465

A3RNN: Bi-directional Fusion of Bottom-up and Top-down Process for Developmental Visual Attention in Robots

Hiruma, Ito, Mori et al.

This study investigates the developmental interaction between top-down (TD) and bottom-up (BU) visual attention in robotic learning. Our goal is to understand how structured, human-like attentional behavior emerges through the mutual adaptation of TD and BU mechanisms over time. To this end, we propose a novel attention model $A^3 RNN$ that integrates predictive TD signals and saliency-based BU cues through a bi-directional attention architecture. We evaluate our model in robotic manipulation tasks using imitation learning. Experimental results show that attention behaviors evolve throughout training, from saliency-driven exploration to prediction-driven direction. Initially, BU attention highlights visually salient regions, which guide TD processes, while as learning progresses, TD attention stabilizes and begins to reshape what is perceived as salient. This trajectory reflects principles from cognitive science and the free-energy framework, suggesting the importance of self-organizing attention through interaction between perception and internal prediction. Although not explicitly optimized for stability, our model exhibits more coherent and interpretable attention patterns than baselines, supporting the idea that developmental mechanisms contribute to robust attention formation.

academic

A3RNN: 로봇의 발달적 시각 주의를 위한 상향식 및 하향식 과정의 양방향 융합

기본 정보

논문 ID: 2510.10221
제목: A3RNN: Bi-directional Fusion of Bottom-up and Top-down Process for Developmental Visual Attention in Robots
저자: Hyogo Hiruma, Hiroshi Ito, Hiroki Mori, Tetsuya Ogata
분류: cs.RO (로봇공학), cs.AI (인공지능)
발표 시간: 2025년 10월 11일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.10221

초록

본 연구는 로봇 학습에서 하향식(TD)과 상향식(BU) 시각 주의의 발달적 상호작용을 탐구합니다. 연구 목표는 구조화된 인간형 주의 행동이 TD 및 BU 메커니즘의 상호 적응을 통해 어떻게 나타나는지 이해하는 것입니다. 이를 위해 저자들은 예측적 TD 신호와 현저성 기반 BU 단서를 양방향 주의 아키텍처를 통해 통합하는 새로운 주의 모델 A³RNN을 제안합니다. 로봇 조작 작업에서 모방 학습을 사용한 평가 결과, 주의 행동이 훈련 과정 중 현저성 주도 탐색에서 예측 주도 방향으로 진화함을 보여줍니다. 이러한 궤적은 인지과학 및 자유 에너지 프레임워크의 원리를 반영하며, 발달적 메커니즘이 견고한 주의 형성에 기여한다는 관점을 지지합니다.

연구 배경 및 동기

해결하려는 문제

본 연구는 로봇 시각 주의 시스템의 두 가지 핵심 문제를 해결하려고 합니다:

주의 메커니즘의 발달적 상호작용: 인간 주의 시스템에서 하향식 및 상향식 메커니즘의 동적 상호작용을 어떻게 모의할 것인가
훈련 안정성 문제: 기존 모델(예: A2RNN)이 훈련 과정에서 국소 최적해에 빠지기 쉬우며, "암실 문제"(dark room problem)를 야기함

문제의 중요성

인간 인지 시스템의 핵심 능력은 선택적 주의에 있으며, 이를 통해 인간은 복잡한 환경에서 정보를 필터링하고, 의미 있는 자극을 우선 처리하며, 행동을 효과적으로 지도할 수 있습니다. 이러한 능력을 이해하고 복제하는 것은 지능형 로봇 시스템 개발에 중요한 의미를 갖습니다.

기존 방법의 한계

작업 특정 시각 처리 모델: 명시적 레이블 주석이 필요하며, 설계자의 편견을 반영하고, 발달 과정 연구에 부적합함
Transformer 기반 모델: 종단 간 학습이 가능하지만 BU 및 TD 구성 요소를 명확히 구분할 수 없음
픽셀 수준 주의 모델: A2RNN과 같은 모델은 상호작용이 가능하지만 훈련이 불안정하며 의미론적으로 무의미한 주의 전략으로 수렴하기 쉬움

연구 동기

자유 에너지 원리 및 인지과학 이론에 기반하여, 저자들은 주의가 감각과 내부 예측의 상호작용을 통해 자기조직화를 실현하는 능동적 예측 추론 과정이어야 한다고 생각합니다.

핵심 기여

A³RNN 모델 제안: BU 및 TD 신호를 통합하는 새로운 주의 모델로, 주의 할당의 동적 적응을 실현
발달적 주의 프레임워크 구현: 로봇 학습 환경에서 BU 및 TD 상호작용이 시간에 따라 어떻게 진화하는지 구현 및 분석
예측 추론의 효과성 검증: 예측 추론 결합이 주의 안정성 및 작업 성능을 향상시킬 수 있음을 실증적 평가를 통해 증명
인지과학 통찰 제공: 주의를 예측 학습의 창발적 속성으로 보는 새로운 관점 제시

방법론 상세 설명

작업 정의

연구는 로봇 조작 작업을 테스트 플랫폼으로 채택하며, 구체적으로는:

입력: 관절 각도 데이터(i^joint)와 카메라 이미지(i^image)
출력: 다음 시점의 관절 각도 예측(로봇 운동 명령으로 사용)
제약: 제한된 시연 데이터를 통해 감각-운동 역학 학습

모델 아키텍처

A³RNN 모델은 세 가지 주요 모듈로 구성됩니다:

1. A³ 모듈(통합 능동 주의 모듈)

모델의 핵심 혁신으로, BU 및 TD 주의 신호 융합을 담당합니다:

작업 흐름:

BU 주의 맵 생성: CNN 특성 맵 f^BU_t ∈ R^(N_BU×H×W)에서 공간 소프트맥스를 통해 정규화된 BU 주의 맵 m^BU_t 생성
BU 의사 쿼리 벡터 추출: m^BU_t를 공간 가중치 마스크로 사용하여 고수준 특성 맵의 가중 평균을 계산하여 의사 쿼리 벡터 q^BU_t ∈ R^(N_BU×D_TD) 획득
TD 쿼리 벡터 생성: LSTM 은닉 상태 h_(t-1)이 MLP 변환을 통해 TD 쿼리 벡터 q^TD_t ∈ R^(N_TD×D_TD) 생성
Transformer 주의 통합: BU 의사 쿼리를 키-값 쌍으로, TD 쿼리를 쿼리로 사용하여 Transformer 인코더-디코더 구조를 통해 통합 주의 표현 q^A_t 생성
주의점 추정: 통합 벡터 q^A_t를 사용하여 최종 TD 주의점 pt^TD_t를 추정하고, 동시에 공간 argmax를 통해 BU 주의점 pt^BU_t 추출

2. 계층적 LSTM 모듈(H-LSTM)

다중 시간 척도 RNN 구조를 채택하며, 다음을 포함합니다:

서로 다른 모달리티 데이터(이미지 및 관절 각도)를 처리하는 독립적 LSTM
정보 통합 및 재분배를 위한 공유 LSTM
예측된 주의점 좌표 및 관절 각도 출력

3. 재구성 모듈

인간 시각 시스템을 모의하여 두 가지 시각 표현을 재구성합니다:

주변부 분기: 전역 저해상도 이미지 재구성(BU 주의에 대응)
중심와 분기: 국소 고해상도 이미지 재구성(TD 주의에 대응)

기술 혁신점

양방향 주의 융합: Transformer 자기 주의 메커니즘을 통해 BU 및 TD 신호의 영향을 동적으로 균형 조정
발달적 학습 전략: 초기 단계에서 BU가 TD를 안내하고, 후기 단계에서 TD가 BU의 지각을 재형성하여 인간 주의 발달 과정을 모의
정밀도 제어 메커니즘: 자유 에너지 원리에 기반하여 감각 예측의 신뢰성에 따라 주의를 동적으로 조정
분리 학습 메커니즘: CNN 및 RNN 구성 요소의 과도한 공동 적응으로 인한 차선의 해결책 회피

실험 설정

데이터셋

환경: robosuite 시뮬레이터 환경
로봇: 7 자유도 Panda 로봇 팔
작업: 물체 파지 작업(세 개의 고정 위치 중 하나에 놓인 목재 텍스처 상자 파지)
데이터 수집: 3D 마우스 인터페이스를 사용하여 시연 데이터 수집
데이터 규모: 각 위치당 5개의 시연 시퀀스, 총 15개의 훈련 시퀀스, 각 시퀀스 120개 시간 단계

평가 지표

성공률: 주의가 목표 물체에 올바르게 지향되는 비율
주의 일관성: TD 및 BU 주의의 시간에 따른 안정성
쿼리 유사성: BU 의사 쿼리와 융합 쿼리 간의 유사성 진화

비교 방법

A2RNN: 기준 모델, TD 쿼리만 사용
제거 실험 변형:
- 변형(1): BU-TD 통합 및 BU 주변부 재구성 손실 추가
- 변형(2): 변형(1) + TD 중심와 재구성 손실
- 변형(3): 변형(2) + 일관성 정규화 손실
- 변형(4): BU-TD 쿼리 통합에 MLP 대신 Transformer 사용

구현 세부사항

주의점 수량: N_TD = 4, N_BU = 16
손실 함수 가중치: α 및 β는 재구성 손실 및 정규화 손실의 균형을 맞추기 위해 사용
훈련 전략: 전체 시간 역전파(BPTT)
정규화: 공간 유효성 제약으로 주의점이 이미지 경계를 벗어나거나 과도하게 이동하는 것을 방지

실험 결과

주요 결과

성공률 비교:

A³RNN(제안 방법): 100%
A2RNN(기준): 66.7%
제거 실험 변형: 8.3%-91.6% 범위

제거 실험

실험 결과는 각 모듈이 주의 형성의 견고성 향상에 기여함을 보여줍니다:

변형(4)은 100% 성공률을 달성했지만 거의 두 배의 훈련 에포크가 필요함
BU-TD 상호작용 발달이 Transformer 버전에서 더욱 구조화됨
Transformer 메커니즘이 학습 효율에 핵심적인 역할을 함

발달적 행동 분석

주의 진화 과정:

초기 단계(에포크 10):
- BU 주의가 광범위하게 분포하며, 거의 무작위이지만 현저한 영역 포함
- TD 주의가 BU 안내를 따르며, A2RNN의 불안정성 회피
중기 단계(에포크 100):
- TD 주의가 목표 물체 및 로봇 팔 주변에서 안정화
- BU 주의가 시각 동적 영역(예: 로봇 팔 베이스)으로 전환
후기 단계(에포크 500):
- BU 주의가 목표 물체 및 로봇 팔에 더욱 집중
- TD 및 BU 주의 영역이 정렬되어 상호 영향을 표시