2025-11-25T00:19:17.377936

Temporal Dynamics Decoupling with Inverse Processing for Enhancing Human Motion Prediction

Wang, Guo, Su

Exploring the bridge between historical and future motion behaviors remains a central challenge in human motion prediction. While most existing methods incorporate a reconstruction task as an auxiliary task into the decoder, thereby improving the modeling of spatio-temporal dependencies, they overlook the potential conflicts between reconstruction and prediction tasks. In this paper, we propose a novel approach: Temporal Decoupling Decoding with Inverse Processing (\textbf{$TD^2IP$}). Our method strategically separates reconstruction and prediction decoding processes, employing distinct decoders to decode the shared motion features into historical or future sequences. Additionally, inverse processing reverses motion information in the temporal dimension and reintroduces it into the model, leveraging the bidirectional temporal correlation of human motion behaviors. By alleviating the conflicts between reconstruction and prediction tasks and enhancing the association of historical and future information, \textbf{$TD^2IP$} fosters a deeper understanding of motion patterns. Extensive experiments demonstrate the adaptability of our method within existing methods.

academic

역처리를 이용한 시간 동역학 분리를 통한 인간 동작 예측 향상

기본 정보

논문 ID: 2501.00315
제목: Temporal Dynamics Decoupling with Inverse Processing for Enhancing Human Motion Prediction
저자: Jiexin Wang, Yiju Guo, Bing Su (중국인민대학교 고령 인공지능학원)
분류: cs.CV (컴퓨터 비전)
발표 시간: 2024년 12월 31일 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2501.00315

초록

역사적 운동 행동과 미래 운동 행동 사이의 다리를 탐색하는 것은 여전히 인간 동작 예측의 핵심 과제입니다. 대부분의 기존 방법은 재구성 작업을 보조 작업으로 디코더에 포함시켜 시공간 의존성 모델링을 개선하지만, 재구성과 예측 작업 간의 잠재적 충돌을 간과합니다. 본 논문은 새로운 방법인 시간 동역학 분리 디코딩과 역처리(TD²IP)를 제안합니다. 이 방법은 재구성과 예측 디코딩 과정을 전략적으로 분리하여 서로 다른 디코더를 사용해 공유 운동 특징을 역사적 또는 미래 시퀀스로 디코딩합니다. 또한 역처리는 시간 차원에서 운동 정보를 역전시키고 이를 모델에 재도입하여 인간 운동 행동의 양방향 시간 상관성을 활용합니다. 재구성과 예측 작업 간의 충돌을 완화하고 역사적 및 미래 정보의 연관성을 강화함으로써, TD²IP는 운동 패턴에 대한 더 깊은 이해를 촉진합니다. 광범위한 실험은 기존 방법 중에서 이 방법의 적응성을 입증합니다.

연구 배경 및 동기

문제 정의

인간 동작 예측(Human Motion Prediction, HMP)은 컴퓨터 비전의 중요한 작업으로, 주어진 역사적 운동 시퀀스를 기반으로 미래의 골격 운동 시퀀스를 예측하는 것을 목표로 합니다. 이 기술은 로봇 협업, 자율주행, 보행자 의도 추정 등의 분야에서 광범위한 응용 가치를 가집니다.

기존 방법의 한계

작업 충돌 문제: 기존 방법은 일반적으로 공유 디코더를 사용하여 역사적 운동 재구성과 미래 운동 예측이라는 두 가지 작업을 동시에 수행하지만, 이 두 작업 사이에는 본질적인 충돌이 존재합니다:
- 재구성 작업은 운동 특징을 원래 역사적 행동의 다양체로 투영해야 함
- 예측 작업은 특징을 미래 행동의 다양체로 투영해야 함
- 디코더는 두 다양체 사이에서 균형을 맞춰야 하므로 특징 표현이 불충분할 수 있음
작업 난이도 불균형: 그림 2에서 보듯이 재구성과 예측 작업의 난이도에는 고유한 불균형이 있으며, 두 작업에 동일한 주의를 할당하는 것은 비효율적입니다
전역 시간 상관성 부족: 기존 방법은 역사적 및 미래 정보의 양방향 시간 상관성에 대한 충분한 활용이 부족합니다

연구 동기

위의 문제를 바탕으로 저자는 자연스러운 질문을 제기합니다: 작업 충돌, 난이도 불균형 등의 요소를 종합적으로 고려하여 예측 성능을 더욱 향상시킬 수 있을까? 이것이 TD²IP 방법 제안의 동기가 되었습니다.

핵심 기여

시간 동역학 분리 디코딩(TDD) 프레임워크 제안: 기존 인코더-디코더 프레임워크의 공유 디코더를 전문화된 재구성 디코더와 예측 디코더로 분해하여 서로 다른 작업 간의 간섭과 충돌을 효과적으로 완화합니다
역처리(IP) 보조 작업 도입: 시간 차원에서의 운동 정보 역전을 통해 모델이 미래 운동 정보를 사용하여 역사적 정보를 예측할 수 있게 하여 역사적 및 미래 정보의 상관성을 크게 향상시킵니다
범용 프레임워크 설계: 제안된 방법은 기존의 다양한 예측 방법에 원활하게 통합될 수 있으며, 상호 보완적 향상 기술로 작용합니다
실험 검증: 표준 HMP 벤치마크 데이터셋에서 광범위한 실험을 수행하여 방법의 유효성과 우수성을 입증합니다

방법 상세 설명

작업 정의

역사적 자세 시퀀스 $X = [X_1, \cdots, X_{T_p}] \in \mathbb{R}^{T_p \times J \times 3}$ 가 주어졌을 때, 여기서 $X_t \in \mathbb{R}^{J \times 3}$ 는 시간 $t$ 에서 $J$ 개 신체 관절의 3D 좌표를 나타내며, 목표는 미래 자세 시퀀스 $Y = [X_{T_p+1}, \cdots, X_{T_p+T_f}] \in \mathbb{R}^{T_f \times J \times 3}$ 를 예측하는 것입니다.

HMP 문제의 형식화는 예측된 미래 운동 $\hat{Y} = F_{pred}(X)$ 이 실제 미래 운동 $Y$ 에 최대한 가깝도록 하는 효과적인 예측기 $F_{pred}(\cdot)$ 를 설계하는 것입니다.

모델 아키텍처

전체 프레임워크

TD²IP 프레임워크는 다음의 핵심 구성 요소를 포함합니다:

임베딩 계층: 입력 시퀀스를 특징 공간으로 투영 $\hat{X} = W_2(\sigma(W_1X + b_1)) + b_2$
인코더 $\phi$ : 운동 데이터의 시공간 의존성 모델링 $M = \phi(\hat{X})$
분리 디코더: 역사 디코더 $g_h$ 와 미래 디코더 $g_f$ 를 포함

시간 동역학 분리 디코딩(TDD)

기존 방법은 단일 디코더를 사용하여 역사적 운동을 재구성하고 미래 운동을 예측하지만, TDD는 이 과정을 두 개의 전문화된 디코더로 분해합니다:

$P_k = g_k(M) \in \mathbb{R}^{T_k \times J \times D}$

여기서 $k \in \{h, f\}$ 는 각각 역사와 미래를 나타내며, $T_k$ 는 해당하는 시간 차원을 나타냅니다.

최종 예측은 시간 차원 연결을 통해 획득됩니다: $\hat{Y}_f = [P_h, P_f] \in \mathbb{R}^{T \times J \times D}$

역처리(IP)

양방향 시간 상관성을 강화하기 위해 IP는 훈련 과정에서 역방향 예측을 도입합니다:

시간 반전: 운동 데이터 $P = [X,Y]$ 에 대해 시간 반전 연산을 수행하여 $P^r = [X_T, X_{T-1}, \cdots, X_1]$ 을 얻습니다
역방향 입력: 재분할하여 $X^r = [X_T, \cdots, X_{T-T_p+1}]$ 을 얻습니다
역방향 예측: $\hat{Y}^r = [P_{h,r}, P_{f,r}] \in \mathbb{R}^{T \times J \times D}$
여기서 $P_{h,r} = g_h(M^r)$ , $P_{f,r} = g_f(M^r)$

기술 혁신점

작업 분리 전략: 전문화된 디코더를 통해 재구성과 예측 작업을 각각 처리하여 기존 공유 디코더의 두 다양체 간 균형 문제를 회피합니다
양방향 시간 모델링: IP는 운동의 양방향 시간 상관성을 활용하여 각 디코더가 완전한 운동 정보에 접근할 수 있게 합니다
플러그 앤 플레이 설계: 프레임워크 설계는 단순성과 효과성을 유지하며 다양한 기존 예측 방법에 쉽게 통합될 수 있습니다

실험 설정

데이터셋

Human3.6M (H3.6M): 다양한 일상 활동을 포함하는 대규모 3D 인간 자세 데이터셋
CMU Motion Capture (CMU-Mocap): 고전적인 인간 운동 캡처 데이터셋

평가 지표

평균 관절당 위치 오류(Mean Per Joint Position Error, MPJPE)를 사용하여 성능을 평가하며, 수치가 낮을수록 성능이 좋습니다.

비교 방법

여러 최첨단 오픈소스 기준 방법을 선택합니다:

Traj-GCN: 그래프 합성곱 네트워크 기반 궤적 예측 방법
SPGSN: 골격 분할 그래프 산란 네트워크
EqMotion: 등변 다중 에이전트 운동 예측
STBMP: 시공간 분기 운동 예측

TD²IP 방법을 통합한 기준선은 접미사 "-T"로 표시됩니다.

구현 세부사항

모든 데이터셋에서 각 방법을 5회 실험하여 평균 점수 보고
표준 훈련 및 테스트 프로토콜 사용
손실 함수는 정방향 및 역방향 예측 손실을 결합: $L = L_f + L_r$

실험 결과

주요 결과

H3.6M 데이터셋 결과

방법	80ms	160ms	320ms	400ms	560ms	1000ms	평균
Traj-GCN	12.19	24.87	50.76	61.44	80.19	113.87	57.22
Traj-GCN-T	11.31	24.10	49.95	60.72	78.44	113.00	56.25
SPGSN	10.74	22.68	47.46	58.64	79.88	112.42	55.30
SPGSN-T	10.32	22.13	46.65	57.87	79.17	112.08	54.71
EqMotion	9.45	21.01	46.06	57.60	75.98	109.75	53.31
EqMotion-T	8.96	20.50	45.93	57.99	75.91	109.76	53.01

CMU-Mocap 데이터셋 결과

CMU-Mocap 데이터셋에서 TD²IP는 일관된 개선 효과를 보여주며, 특히 SPGSN에서 6.75%의 현저한 향상을 달성했습니다.

절제 실험

절제 실험은 각 구성 요소의 유효성을 검증합니다:

$L_f$	$L_r$	TDD	Traj-GCN	SPGSN	EqMotion	평균
✓			37.31	34.88	33.53	35.24
✓	✓		36.93	34.67	33.52	35.04
✓		✓	36.29	34.49	33.29	34.69
	✓	✓	41.23	37.91	37.13	38.76
✓	✓	✓	36.52	34.24	33.34	34.70

시각화 분석

특징 시각화: T-SNE 시각화는 TD²IP가 예측된 동작 특징을 실제 특징에 더 가깝게 만드는 것을 보여줍니다
FID 평가: Frechet Inception Distance 값의 감소는 예측 성능의 향상을 반영합니다
정성적 평가: "Purchases"와 "Walkingdog" 등의 동작에서 TD²IP는 팔과 다리의 예측 오류를 줄이고 "평균 자세" 문제를 회피합니다