Exploring the bridge between historical and future motion behaviors remains a central challenge in human motion prediction. While most existing methods incorporate a reconstruction task as an auxiliary task into the decoder, thereby improving the modeling of spatio-temporal dependencies, they overlook the potential conflicts between reconstruction and prediction tasks. In this paper, we propose a novel approach: Temporal Decoupling Decoding with Inverse Processing (\textbf{$TD^2IP$}). Our method strategically separates reconstruction and prediction decoding processes, employing distinct decoders to decode the shared motion features into historical or future sequences. Additionally, inverse processing reverses motion information in the temporal dimension and reintroduces it into the model, leveraging the bidirectional temporal correlation of human motion behaviors. By alleviating the conflicts between reconstruction and prediction tasks and enhancing the association of historical and future information, \textbf{$TD^2IP$} fosters a deeper understanding of motion patterns. Extensive experiments demonstrate the adaptability of our method within existing methods.
- 논문 ID: 2501.00315
- 제목: Temporal Dynamics Decoupling with Inverse Processing for Enhancing Human Motion Prediction
- 저자: Jiexin Wang, Yiju Guo, Bing Su (중국인민대학교 고령 인공지능학원)
- 분류: cs.CV (컴퓨터 비전)
- 발표 시간: 2024년 12월 31일 (arXiv 사전인쇄본)
- 논문 링크: https://arxiv.org/abs/2501.00315
역사적 운동 행동과 미래 운동 행동 사이의 다리를 탐색하는 것은 여전히 인간 동작 예측의 핵심 과제입니다. 대부분의 기존 방법은 재구성 작업을 보조 작업으로 디코더에 포함시켜 시공간 의존성 모델링을 개선하지만, 재구성과 예측 작업 간의 잠재적 충돌을 간과합니다. 본 논문은 새로운 방법인 시간 동역학 분리 디코딩과 역처리(TD²IP)를 제안합니다. 이 방법은 재구성과 예측 디코딩 과정을 전략적으로 분리하여 서로 다른 디코더를 사용해 공유 운동 특징을 역사적 또는 미래 시퀀스로 디코딩합니다. 또한 역처리는 시간 차원에서 운동 정보를 역전시키고 이를 모델에 재도입하여 인간 운동 행동의 양방향 시간 상관성을 활용합니다. 재구성과 예측 작업 간의 충돌을 완화하고 역사적 및 미래 정보의 연관성을 강화함으로써, TD²IP는 운동 패턴에 대한 더 깊은 이해를 촉진합니다. 광범위한 실험은 기존 방법 중에서 이 방법의 적응성을 입증합니다.
인간 동작 예측(Human Motion Prediction, HMP)은 컴퓨터 비전의 중요한 작업으로, 주어진 역사적 운동 시퀀스를 기반으로 미래의 골격 운동 시퀀스를 예측하는 것을 목표로 합니다. 이 기술은 로봇 협업, 자율주행, 보행자 의도 추정 등의 분야에서 광범위한 응용 가치를 가집니다.
- 작업 충돌 문제: 기존 방법은 일반적으로 공유 디코더를 사용하여 역사적 운동 재구성과 미래 운동 예측이라는 두 가지 작업을 동시에 수행하지만, 이 두 작업 사이에는 본질적인 충돌이 존재합니다:
- 재구성 작업은 운동 특징을 원래 역사적 행동의 다양체로 투영해야 함
- 예측 작업은 특징을 미래 행동의 다양체로 투영해야 함
- 디코더는 두 다양체 사이에서 균형을 맞춰야 하므로 특징 표현이 불충분할 수 있음
- 작업 난이도 불균형: 그림 2에서 보듯이 재구성과 예측 작업의 난이도에는 고유한 불균형이 있으며, 두 작업에 동일한 주의를 할당하는 것은 비효율적입니다
- 전역 시간 상관성 부족: 기존 방법은 역사적 및 미래 정보의 양방향 시간 상관성에 대한 충분한 활용이 부족합니다
위의 문제를 바탕으로 저자는 자연스러운 질문을 제기합니다: 작업 충돌, 난이도 불균형 등의 요소를 종합적으로 고려하여 예측 성능을 더욱 향상시킬 수 있을까? 이것이 TD²IP 방법 제안의 동기가 되었습니다.
- 시간 동역학 분리 디코딩(TDD) 프레임워크 제안: 기존 인코더-디코더 프레임워크의 공유 디코더를 전문화된 재구성 디코더와 예측 디코더로 분해하여 서로 다른 작업 간의 간섭과 충돌을 효과적으로 완화합니다
- 역처리(IP) 보조 작업 도입: 시간 차원에서의 운동 정보 역전을 통해 모델이 미래 운동 정보를 사용하여 역사적 정보를 예측할 수 있게 하여 역사적 및 미래 정보의 상관성을 크게 향상시킵니다
- 범용 프레임워크 설계: 제안된 방법은 기존의 다양한 예측 방법에 원활하게 통합될 수 있으며, 상호 보완적 향상 기술로 작용합니다
- 실험 검증: 표준 HMP 벤치마크 데이터셋에서 광범위한 실험을 수행하여 방법의 유효성과 우수성을 입증합니다
역사적 자세 시퀀스 X=[X1,⋯,XTp]∈RTp×J×3가 주어졌을 때, 여기서 Xt∈RJ×3는 시간 t에서 J개 신체 관절의 3D 좌표를 나타내며, 목표는 미래 자세 시퀀스 Y=[XTp+1,⋯,XTp+Tf]∈RTf×J×3를 예측하는 것입니다.
HMP 문제의 형식화는 예측된 미래 운동 Y^=Fpred(X)이 실제 미래 운동 Y에 최대한 가깝도록 하는 효과적인 예측기 Fpred(⋅)를 설계하는 것입니다.
TD²IP 프레임워크는 다음의 핵심 구성 요소를 포함합니다:
- 임베딩 계층: 입력 시퀀스를 특징 공간으로 투영
X^=W2(σ(W1X+b1))+b2
- 인코더 ϕ: 운동 데이터의 시공간 의존성 모델링
M=ϕ(X^)
- 분리 디코더: 역사 디코더 gh와 미래 디코더 gf를 포함
기존 방법은 단일 디코더를 사용하여 역사적 운동을 재구성하고 미래 운동을 예측하지만, TDD는 이 과정을 두 개의 전문화된 디코더로 분해합니다:
Pk=gk(M)∈RTk×J×D
여기서 k∈{h,f}는 각각 역사와 미래를 나타내며, Tk는 해당하는 시간 차원을 나타냅니다.
최종 예측은 시간 차원 연결을 통해 획득됩니다:
Y^f=[Ph,Pf]∈RT×J×D
양방향 시간 상관성을 강화하기 위해 IP는 훈련 과정에서 역방향 예측을 도입합니다:
- 시간 반전: 운동 데이터 P=[X,Y]에 대해 시간 반전 연산을 수행하여 Pr=[XT,XT−1,⋯,X1]을 얻습니다
- 역방향 입력: 재분할하여 Xr=[XT,⋯,XT−Tp+1]을 얻습니다
- 역방향 예측:
Y^r=[Ph,r,Pf,r]∈RT×J×D
여기서 Ph,r=gh(Mr), Pf,r=gf(Mr)
- 작업 분리 전략: 전문화된 디코더를 통해 재구성과 예측 작업을 각각 처리하여 기존 공유 디코더의 두 다양체 간 균형 문제를 회피합니다
- 양방향 시간 모델링: IP는 운동의 양방향 시간 상관성을 활용하여 각 디코더가 완전한 운동 정보에 접근할 수 있게 합니다
- 플러그 앤 플레이 설계: 프레임워크 설계는 단순성과 효과성을 유지하며 다양한 기존 예측 방법에 쉽게 통합될 수 있습니다
- Human3.6M (H3.6M): 다양한 일상 활동을 포함하는 대규모 3D 인간 자세 데이터셋
- CMU Motion Capture (CMU-Mocap): 고전적인 인간 운동 캡처 데이터셋
평균 관절당 위치 오류(Mean Per Joint Position Error, MPJPE)를 사용하여 성능을 평가하며, 수치가 낮을수록 성능이 좋습니다.
여러 최첨단 오픈소스 기준 방법을 선택합니다:
- Traj-GCN: 그래프 합성곱 네트워크 기반 궤적 예측 방법
- SPGSN: 골격 분할 그래프 산란 네트워크
- EqMotion: 등변 다중 에이전트 운동 예측
- STBMP: 시공간 분기 운동 예측
TD²IP 방법을 통합한 기준선은 접미사 "-T"로 표시됩니다.
- 모든 데이터셋에서 각 방법을 5회 실험하여 평균 점수 보고
- 표준 훈련 및 테스트 프로토콜 사용
- 손실 함수는 정방향 및 역방향 예측 손실을 결합: L=Lf+Lr
| 방법 | 80ms | 160ms | 320ms | 400ms | 560ms | 1000ms | 평균 |
|---|
| Traj-GCN | 12.19 | 24.87 | 50.76 | 61.44 | 80.19 | 113.87 | 57.22 |
| Traj-GCN-T | 11.31 | 24.10 | 49.95 | 60.72 | 78.44 | 113.00 | 56.25 |
| SPGSN | 10.74 | 22.68 | 47.46 | 58.64 | 79.88 | 112.42 | 55.30 |
| SPGSN-T | 10.32 | 22.13 | 46.65 | 57.87 | 79.17 | 112.08 | 54.71 |
| EqMotion | 9.45 | 21.01 | 46.06 | 57.60 | 75.98 | 109.75 | 53.31 |
| EqMotion-T | 8.96 | 20.50 | 45.93 | 57.99 | 75.91 | 109.76 | 53.01 |
CMU-Mocap 데이터셋에서 TD²IP는 일관된 개선 효과를 보여주며, 특히 SPGSN에서 6.75%의 현저한 향상을 달성했습니다.
절제 실험은 각 구성 요소의 유효성을 검증합니다:
| Lf | Lr | TDD | Traj-GCN | SPGSN | EqMotion | 평균 |
|---|
| ✓ | | | 37.31 | 34.88 | 33.53 | 35.24 |
| ✓ | ✓ | | 36.93 | 34.67 | 33.52 | 35.04 |
| ✓ | | ✓ | 36.29 | 34.49 | 33.29 | 34.69 |
| ✓ | ✓ | 41.23 | 37.91 | 37.13 | 38.76 |
| ✓ | ✓ | ✓ | 36.52 | 34.24 | 33.34 | 34.70 |
- 특징 시각화: T-SNE 시각화는 TD²IP가 예측된 동작 특징을 실제 특징에 더 가깝게 만드는 것을 보여줍니다
- FID 평가: Frechet Inception Distance 값의 감소는 예측 성능의 향상을 반영합니다
- 정성적 평가: "Purchases"와 "Walkingdog" 등의 동작에서 TD²IP는 팔과 다리의 예측 오류를 줄이고 "평균 자세" 문제를 회피합니다
- 일관된 개선: TD²IP는 대부분의 시간 간격과 다양한 기준 방법에서 일관된 성능 향상을 달성합니다
- 구성 요소 협력: TDD와 IP의 결합은 협력 효과를 생성하여 모델 성능을 더욱 향상시킵니다
- 범용성: 방법은 다양한 네트워크 아키텍처(GCN, LSTM, Transformer)에서 유효성을 보여줍니다
- 초기 방법: 역사적 시퀀스에서 운동 표현 추출에 중점을 두고 직접 예측 생성
- 보조 작업 방법: 재구성 작업을 보조 작업으로 디코더에 포함시켜 시공간 의존성 모델링 강화
- 네트워크 아키텍처 혁신: GCN, Transformer 등 다양한 아키텍처 기반 방법
기존 연구와 비교하여 본 논문은 재구성과 예측 작업 간의 충돌 문제를 처음으로 체계적으로 분석하고 분리 해결책을 제안하며, 동시에 양방향 시간 모델링을 도입하여 전역 상관성을 강화합니다.
- TD²IP는 시간 동역학 분리 디코딩을 통해 재구성과 예측 작업 간의 충돌을 효과적으로 완화합니다
- 역처리는 역사적 및 미래 정보의 양방향 연관성을 강화합니다
- 이 방법은 우수한 범용성을 가지며 다양한 기존 방법에 통합될 수 있습니다
- 실험은 여러 벤치마크 데이터셋에서 방법의 유효성을 검증합니다
- 계산 오버헤드: 추가 디코더와 역처리 도입은 계산 복잡도를 증가시킬 수 있습니다
- 초매개변수 민감성: 논문은 역방향 손실 가중치 등 초매개변수의 민감성 분석을 상세히 논의하지 않습니다
- 장기 예측: 더 긴 시간 범위의 예측 효과는 추가 검증이 필요합니다
- 더 효율적인 분리 아키텍처 설계 탐색
- 적응형 가중치 할당 전략 연구
- 더 복잡한 다중 인물 상호작용 시나리오로 확장
- 문제 통찰력 깊음: 재구성과 예측 작업 충돌 문제를 처음으로 체계적으로 분석하여 중요한 이론적 가치를 가집니다
- 방법 설계 합리적: TDD와 IP의 결합은 작업 충돌을 해결하면서 시간 모델링을 강화합니다
- 실험 충분함: 여러 데이터셋과 기준 방법에서 포괄적인 검증을 수행합니다
- 범용성 강함: 플러그 앤 플레이 설계로 기존 방법에 쉽게 통합됩니다
- 시각화 풍부함: T-SNE, FID 등 다양한 방식으로 방법의 유효성을 검증합니다
- 이론 분석 부족: 분리 아키텍처의 이론적 수렴성 분석이 부족합니다
- 계산 효율성: 상세한 계산 복잡도 분석 및 실행 시간 비교가 제공되지 않습니다
- 매개변수 민감성: 주요 초매개변수의 민감성 분석이 부족합니다
- 개선 폭: 일관적이지만 개선 폭이 상대적으로 제한적입니다(0.08%-6.75%)
- 학술 기여: HMP 분야에 새로운 작업 분리 관점을 제공하여 후속 연구에 영감을 줄 수 있습니다
- 실용적 가치: 범용 향상 프레임워크로서 기존 시스템에 직접 적용할 수 있습니다
- 재현성: 방법 설명이 명확하여 재현 및 확장이 용이합니다
- 로봇 협업: 인간 운동 예측이 필요한 인간-기계 협업 시나리오
- 자율주행: 보행자 궤적 예측 및 의도 추정
- 체감 게임: 실시간 동작 인식 및 예측
- 의료 재활: 운동 분석 및 재활 평가
논문은 HMP의 주요 연구 방향을 포괄하는 29개의 관련 문헌을 인용하며, 초기 통계 방법, 심층 학습 방법 및 최신 그래프 신경망과 Transformer 방법을 포함하여 연구에 충분한 이론적 기초를 제공합니다.
종합 평가: 이는 인간 동작 예측 분야에서 혁신적인 작업으로, 기존 방법의 한계를 심층 분석하여 간결하고 효과적인 해결책을 제시합니다. 개선 폭이 제한적이지만, 범용성과 이론적 통찰력이 이 분야의 발전에 가치 있는 기여를 제공합니다.