2025-11-17T14:58:12.820999

A Novel Framework for Learning Stochastic Representations for Sequence Generation and Recognition

Hwang, Ahmadi

The ability to generate and recognize sequential data is fundamental for autonomous systems operating in dynamic environments. Inspired by the key principles of the brain-predictive coding and the Bayesian brain-we propose a novel stochastic Recurrent Neural Network with Parametric Biases (RNNPB). The proposed model incorporates stochasticity into the latent space using the reparameterization trick used in variational autoencoders. This approach enables the model to learn probabilistic representations of multidimensional sequences, capturing uncertainty and enhancing robustness against overfitting. We tested the proposed model on a robotic motion dataset to assess its performance in generating and recognizing temporal patterns. The experimental results showed that the stochastic RNNPB model outperformed its deterministic counterpart in generating and recognizing motion sequences. The results highlighted the proposed model's capability to quantify and adjust uncertainty during both learning and inference. The stochasticity resulted in a continuous latent space representation, facilitating stable motion generation and enhanced generalization when recognizing novel sequences. Our approach provides a biologically inspired framework for modeling temporal patterns and advances the development of robust and adaptable systems in artificial intelligence and robotics.

academic

수열 생성 및 인식을 위한 확률적 표현 학습의 새로운 프레임워크

기본 정보

논문 ID: 2501.00076
제목: A Novel Framework for Learning Stochastic Representations for Sequence Generation and Recognition
저자: Jungsik Hwang, Ahmadreza Ahmadi
분류: cs.LG cs.AI cs.RO
발표 시간: 2025년 1월
논문 링크: https://arxiv.org/abs/2501.00076
코드: https://github.com/mulkkyul/stochasticRNNPB

초록

본 논문은 수열 생성 및 인식을 위한 새로운 확률적 순환신경망 매개변수 편향(stochastic RNNPB) 프레임워크를 제안한다. 본 모델은 뇌의 예측 부호화 및 베이지안 뇌 가설에서 영감을 받아, 변분 자동인코더의 재매개변수화 기법을 통해 잠재 공간에 확률성을 도입한다. 실험 결과는 확률적 RNNPB 모델이 로봇 운동 수열의 생성 및 인식 작업에서 결정론적 모델을 크게 능가하며, 학습 및 추론 과정에서 불확실성을 정량화하고 조정할 수 있고, 연속적인 잠재 공간 표현을 형성하여 안정적인 운동 생성 및 향상된 일반화 능력을 촉진함을 보여준다.

연구 배경 및 동기

핵심 문제

수열 데이터의 생성 및 인식은 동적 환경에서 작동하는 자율 시스템의 기본 능력이다. 기존의 결정론적 모델은 불확실성 처리 및 일반화 능력 측면에서 한계가 있다.

문제의 중요성

생물학적 영감: 뇌는 예측 부호화 및 베이지안 추론을 통해 감각 정보를 처리하며, 지속적으로 예측을 생성하고 예측 오류를 최소화하여 신념을 업데이트한다
실제 요구: 로봇 시스템은 노이즈 및 불완전한 데이터 환경에서 견고한 수열 모델링을 수행해야 한다
기술적 도전: 전통적인 결정론적 모델은 과적합되기 쉽고 데이터의 내재적 불확실성을 포착하기 어렵다

기존 방법의 한계

RNNPB 모델: 수열 생성 및 인식을 수행할 수 있지만 특정 점 추정에서 작동하며 데이터 분포의 불확실성을 모델링할 수 없다
VAE 모델: 주로 생성 작업에 사용되며, 사후 추정은 전방향 계산을 통해 구현되어 반복적 추론 메커니즘이 부족하다
결정론적 모델: 과적합되기 더 쉽고 데이터의 완전한 변동성을 효과적으로 처리할 수 없다

핵심 기여

새로운 확률적 RNNPB 모델 제안: RNNPB와 VAE를 통합하여 재매개변수화 기법을 통해 매개변수 편향에 확률성을 도입한다
근사 베이지안 추론 구현: 모델은 불확실성을 처리할 수 있으며 뇌의 핵심 기능과 유사하다
성능 향상 검증: 로봇 운동 데이터셋에서 확률적 모델이 생성 및 인식 작업에서 결정론적 모델을 능가함을 증명한다
생물학적 연결 수립: 기계학습 모델을 예측 부호화 및 베이지안 뇌 이론 프레임워크와 정렬한다

방법론 상세 설명

작업 정의

입력: 다차원 수열 데이터(예: 로봇 관절 각도)
출력: 수열 생성(재구성) 및 수열 인식(사후 추정)
목표: 수열의 확률적 표현을 학습하여 불확실성을 포착하고 일반화 능력을 향상시킨다

모델 아키텍처

전체 설계

모델은 네 가지 주요 구성 요소를 포함한다:

확률적 매개변수 편향층: 가우스 분포 매개변수화를 통해 확률성을 도입한다
입력층: 각 시간 단계의 입력 데이터를 수신한다
LSTM층: 수열 데이터를 처리하고 내부 상태를 유지한다
출력층: 모델 예측을 생성한다

핵심 기술 구현

1. 확률적 매개변수 편향

PB^(i) = μ^(i) + σ^(i) ⊙ ε, where ε ~ N(0,I)

여기서 μ^(i)와 σ^(i)는 각각 수열 i의 평균과 표준편차이며, ε는 표준 정규분포 난수 벡터이다.

2. 훈련 목적 함수

L(θ,μ,σ) = L_rec + β × L_KLD

L_rec: 재구성 손실(MSE)
L_KLD: KL 발산 정규화 항
β: 재구성 정확도와 잠재 공간 정규화의 균형을 맞추는 초매개변수

3. 수열 생성 모델은 자기회귀 방식으로 수열을 생성하며, t=0에서 PB를 샘플링하고 이후 시간 단계에서 PB를 유지하여 수열 수준의 일관성을 보장한다.

4. 수열 인식 예측 오류 최소화(PEM)를 통해 인식을 수행하며, μ와 σ 매개변수를 반복적으로 최적화한다:

μ,σ ≈ argmin L_rec = argmin ||x_obs - x_pred||²

기술적 혁신점

수열 수준 불확실성 모델링: 매개변수 편향층에 확률성을 도입하여 가중치, 은닉 단위 또는 출력층에서 불확실성을 모델링하는 것보다 계산 효율이 높다
반복적 사후 추정: VAE의 전방향 사후 추정과 달리 예측 오류 최소화의 반복적 최적화 방법을 채택한다
조기 업데이트 메커니즘: 재구성 손실이 임계값 이하일 때 μ 값을 직접 업데이트하여 수렴을 가속화한다
거울 신경 시스템 특성: 생성 및 인식 과정에서 내부 신경 표현을 공유한다

실험 설정

데이터셋

REBL-Pepper 데이터셋: Pepper 로봇의 36개 수작업 설계 감정 애니메이션 포함
데이터 증강: 미러링을 통해 72개 운동 수열 생성
특성 차원: 17개 관절 각도(라디안)
관절 유형: 머리, 엉덩이, 무릎, 팔꿈치, 어깨, 손목 등 관절

모델 구성

PB 차원: 4개 뉴런
LSTM 은닉 단위: 256개
훈련 에포크: 50,000 에포크
최적화기: Adam (학습률 0.001)
β 매개변수 설정:
- 강한 사전: β = 1e-3
- 약한 사전: β = 1e-6
- 영 사전: β = 0
- 결정론적 모델 비교

평가 지표

재구성 손실: 훈련 수열과 재구성 수열 간의 MSE
예측 오류: 관측 부분과 미관측 부분의 재구성 정확도
상관 계수: 생성 수열과 목표 수열의 피어슨 상관 계수

실험 작업

재구성 작업: 학습된 PB 분포에서 운동 수열 생성
인식 작업: 10개의 새로운 패턴 인식(노이즈, 스케일링, 변환을 통해 생성)

실험 결과

주요 결과

재구성 작업 성능

확률적 모델은 다양한 β 설정에서 β 감소에 따라 재구성 손실이 감소하여, 더 강한 사전이 재구성 정확도 감소를 초래함을 보여준다. 결정론적 모델은 PB 차원 증가에 따라 과적합 경향을 나타내는 반면, 확률적 모델은 이 문제를 회피한다.

인식 작업 성능

기준선 조건: 확률적 모델이 결정론적 모델을 크게 능가한다
- 확률적 모델(약한 사전): 재구성 손실 0.00206±0.00057
- 결정론적 모델: 재구성 손실 0.13475±0.05937
워밍업 시작: 모든 모델의 성능을 개선하였으나 결정론적 모델이 가장 큰 이득을 얻었다
견고성: 확률적 모델은 다양한 초기화 조건에서 안정적인 성능을 나타낸다