2025-11-14T08:52:10.884823

MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems

Han, Wong, Law et al.

In this work, we propose a meta-learning-based Koopman modeling and predictive control approach for nonlinear systems with parametric uncertainties. An adaptive deep meta-learning-based modeling approach, called Meta Adaptive Koopman Operator (MAKO), is proposed. Without knowledge of the parametric uncertainty, the proposed MAKO approach can learn a meta-model from a multi-modal dataset and efficiently adapt to new systems with previously unseen parameter settings by using online data. Based on the learned meta Koopman model, a predictive control scheme is developed, and the stability of the closed-loop system is ensured even in the presence of previously unseen parameter settings. Through extensive simulations, our proposed approach demonstrates superior performance in both modeling accuracy and control efficacy as compared to competitive baselines.

academic

MAKO: 매개변수 불확실성이 있는 비선형 시스템의 학습 기반 모델 예측 제어를 위한 메타-적응형 쿠프만 연산자

기본 정보

논문 ID: 2510.09042
제목: MAKO: Meta-Adaptive Koopman Operators for Learning-based Model Predictive Control of Parametrically Uncertain Nonlinear Systems
저자: Minghao Han, Kiwan Wong, Adrian Wing-Keung Law, Xunyuan Yin
분류: eess.SY cs.LG cs.SY
발표 시간: 2025년 10월 (arXiv 사전인쇄본)
논문 링크: https://arxiv.org/abs/2510.09042

초록

본 논문은 매개변수 불확실성을 가진 비선형 시스템을 처리하기 위한 메타학습 기반의 쿠프만 모델링 및 예측 제어 방법을 제안한다. 메타-적응형 쿠프만 연산자(MAKO)라는 자적응 심층 메타학습 모델링 방법을 제시한다. 매개변수 불확실성을 알지 못한 상태에서, MAKO 방법은 다중 모달 데이터셋에서 메타 모델을 학습하고 온라인 데이터를 통해 이전에 보지 못한 매개변수 설정을 가진 새로운 시스템에 효율적으로 적응할 수 있다. 학습된 메타 쿠프만 모델을 기반으로, 이전에 보지 못한 매개변수 설정이 존재하는 경우에도 폐루프 시스템의 안정성을 보장하는 예측 제어 방안을 개발했다.

연구 배경 및 동기

문제 정의: 매개변수 불확실성은 비선형 시스템에서 흔히 발생하며, 일반적으로 하중 변화 및 작동 조건 등의 요소로 인해 발생한다. 이러한 불확실성은 성능 저하 및 불안정성을 초래하여 제어 시스템 설계에 큰 도전을 제기한다.
문제의 중요성: 전통적인 자적응 모델 예측 제어(AMPC) 방법은 비선형 시스템에서의 결과가 제한적이며, 일반적으로 제어 시스템 설계의 기초로 제1원리 모델이 필요하고, 이론적으로 불확실 매개변수에 대한 선형 의존성을 가정하여 일반 비선형 과정에 대한 적용성을 제한한다.
기존 방법의 한계:
- 기존 쿠프만 연산자 방법은 주로 고정 모델 매개변수를 가진 특정 제어 작업에 초점
- 심층 신경망 기반의 온라인 적응은 효율성이 낮고 계산량이 많음
- 메타 강화학습 방법은 안정성 보장 및 폐루프 성능 보장을 제공하기 어려움
연구 동기: 메타학습과 쿠프만 연산자 이론을 결합하여 매개변수 불확실성이 있는 비선형 시스템을 위한 학습형 자적응 제어 프레임워크를 구축한다.

핵심 기여

최초 통합: 메타학습과 쿠프만 연산자 이론을 최초로 통합하여 일반 클래스 매개변수 불확실 비선형 시스템에 적용 가능한 학습형 자적응 MPC 프레임워크 구축
이론적 보장: 모델 온라인 적응 및 폐루프 시스템의 수렴성을 엄격히 증명
성능 검증: 세 가지 다른 분야의 벤치마크 시스템을 기반으로, MAKO는 매개변수 불확실성이 존재할 때 우수한 모델링 정확도 및 견고한 추적 제어 성능을 보여주며, 경쟁 기준선 방법을 능가함

방법론 상세 설명

작업 정의

매개변수 불확실성을 가진 비선형 시스템을 고려: $x_{k+1} = f(x_k, u_k, \Theta), \quad \Theta \sim p(\Theta)$

여기서:

$x_k \in X \subset \mathbb{R}^n$ : 시스템 상태
$u_k \in U \subset \mathbb{R}^m$ : 제어 입력
$\Theta \in \Xi \subset \mathbb{R}^l$ : 시스템 매개변수, 미지의 분포 $p(\Theta)$ 를 따름

모델 아키텍처

1. 메타 훈련 신경망(MNN)

MNN은 관찰 가능 함수를 매개변수화하며, 서로 다른 작업 설정 간에 공유됨: $g_k^i = \psi_\theta(x_k^i), \quad x_k^i \in D_i$

여기서 $\psi_\theta(\cdot)$ 는 다층 신경망이고, $\theta$ 는 훈련 가능한 매개변수이다.

2. 쿠프만 연산자

인코딩된 관찰 가능 공간에서, 각 작업 설정 $\Theta_i$ 에 대해 쿠프만 연산자 집합 $A_i, B_i, C_i$ 를 학습: $g_{k+1|k}^i = A_i g_{k|k}^i + B_i u_k^i$ $\hat{x}_{k+1|k}^i = C_i g_{k+1|k}^i$

3. 메타학습 최적화

최적화 문제는 다음과 같이 표현됨: $\min_{\theta,\{A_i,B_i,C_i\}} \frac{1}{NTH} \sum_{i=1}^N \sum_{k=1}^T \sum_{t=1}^H \|x_{k+t}^i - C_i g_{k+t|k}^i\|_2^2$

제약 조건:

$g_{k+t|k}^i = A_i g_{k+t-1|k}^i + B_i u_{k+t-1}^i$
$g_{k|k}^i = \psi_\theta(x_k^i)$

온라인 적응 메커니즘

1. 명목 적응

초기화: $\hat{A}_0, \hat{B}_0, \hat{C}_0 = \{\frac{1}{N}\sum A_i, \frac{1}{N}\sum B_i, \frac{1}{N}\sum C_i\}$

기울기 계산: $\nabla_{\hat{\Psi}} J_k = -X_k \tilde{g}_{k+1}^T$ $\nabla_{\hat{C}} J_k = -g_{k+1} \tilde{x}_{k+1}^T$

업데이트 법칙: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k \tilde{g}_{k+1} X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k \tilde{x}_{k+1} g_{k+1}^T$

여기서 자적응 학습률: $\lambda_k = \min\left(\frac{2-\alpha}{X_k^T X_k}, \frac{2-\alpha}{g_{k+1}^T g_{k+1}}\right)$

2. 견고한 적응

모델링 오류를 고려한 경우, 이상적인 노이즈 도입: $w_k^*, v_k^* = \min_{w_k \in W, v_k \in V} \bar{J}(\hat{\Psi}_k, \hat{C}_k, w_k, v_k)$

견고한 업데이트 법칙: $\hat{\Psi}_{k+1} = \hat{\Psi}_k + \lambda_k(\tilde{g}_{k+1} - w_k^*) X_k^T$ $\hat{C}_{k+1} = \hat{C}_k + \lambda_k(\tilde{x}_{k+1} - v_k^*) g_{k+1}^T$

기술적 혁신점

공유 표현 학습: MNN을 통해 작업 간 공유 관찰 가능 공간 표현 학습
작업 특정 동역학: 각 작업에 대해 특정 쿠프만 연산자 학습
자적응 학습률: 데이터 특성에 기반한 동적 학습률 조정
이론적 보장: 수렴성 및 안정성에 대한 엄격한 이론 분석 제공

실험 설정

데이터셋

실험은 세 가지 벤치마크 시스템에서 수행됨:

카트-폴 시스템:
- 상태: $[x, \dot{x}, \theta, \dot{\theta}]^T$
- 불확실 매개변수: 폴 길이 $l_p \in [0.1m, 1.0m]$ , 폴 질량 $m_p \in [0.01kg, 0.2kg]$
- 제어 입력: $u \in [-20, 20]$
유전자 조절 네트워크(GRN):
- 상태: $[m_1, m_2, m_3, p_1, p_2, p_3]^T$ (mRNA 및 단백질 농도)
- 불확실 매개변수: 해리 상수 $K \in [2, 8]$ , 입력 스칼라 $b_1 \in [3, 7]$
반응기-분리기 화학 공정:
- 상태: 9차원 (질량 분율 및 온도)
- 불확실 매개변수: 공급 온도 $T_{10}, T_{20} \in [150K, 450K]$

평가 지표

누적 예측 오류 (16단계 예측)
추적 오류의 L2 노름
제어 성능의 누적 비용

비교 방법

DeSKO (Deep Stochastic Koopman Operator): 명목 매개변수 설정에서 훈련된 경쟁 기준선

구현 세부사항

관찰 가능 차원: 128-256
궤적 길이: 250-500
배치 크기: 128
학습률: $10^{-4}$
예측 지평: 16단계
네트워크 구조: (128,128), ReLU 활성화 함수

실험 결과

주요 결과

모델링 성능

MAKO는 세 시스템 모두에서 우수한 모델링 성능을 보여줌
16단계 예측의 평균 오류는 $10^{-2}$ 미만
Cartpole 및 화학 공정 시스템에서 DeSKO를 능가
GRN 시스템에서는 DeSKO보다 약간 낮지만 여전히 우수한 성능 유지

제어 성능

Cartpole 시스템: MAKO는 안정적인 제어를 구현하며, 누적 비용이 DeSKO보다 낮음
GRN 시스템: DeSKO는 3개의 매개변수 설정에서만 정확한 추적을 구현하며, MAKO는 더 안정적인 성능 발휘
화학 공정: DeSKO는 모든 매개변수 설정에서 추적 오류를 안정적으로 제어하지 못하며, MAKO는 제어 목표를 성공적으로 달성

계산 효율성

MAKO-robust 프레임워크는 Cartpole 시스템에서 시간 단계당 평균 계산 시간이 0.0203초
실시간 제어 응용에 적합

절제 실험

명목 적응(MAKO)과 견고한 적응(MAKO-robust) 비교:

MAKO-robust는 더 빠르고 안정적인 과도 응답을 보여줌
동등하거나 더 작은 정상 상태 추적 오류 달성

실험 발견

일반화 능력: MAKO는 훈련 중 만나지 못한 매개변수 설정에 적응 가능
견고성: 매개변수 불확실성이 존재할 때 우수한 성능 유지
적응성: 온라인 데이터를 통해 새로운 작업에 빠르게 적응

이론 분석

수렴성 정리

정리 1 (명목 적응): 가정 1-3 하에서, 자적응 업데이트 법칙 (9)와 (10)을 사용하면, 매개변수 근사 오류 $\tilde{\Psi}_k$ 와 $\tilde{C}_k$ 는 최종적으로 유계이며, 예측 상태 오류 $\tilde{x}$ 는 점근적으로 0으로 수렴한다.

정리 2 (견고한 적응): 가정 1과 2 하에서, 업데이트 법칙 (10), (15)와 (16)을 사용하면, 매개변수 근사 오류 $\tilde{\Psi}_k$ , $\tilde{C}_k$ 는 최종적으로 유계이며, $\lim_{k\to\infty} \|\tilde{x}_k\| \leq \epsilon_v$ 이다.

안정성 정리

정리 3: 비선형 시스템 (1)과 자적응 업데이트 법칙 (9)와 (10) 및 MPC 제어기 (19)를 고려하면, 가정 1-3 하에서 폐루프 시스템의 추적 오류는 점근적으로 안정이다.

결론 및 논의

주요 결론

메타학습과 쿠프만 연산자 이론을 성공적으로 통합하여 매개변수 불확실 비선형 시스템을 위한 자적응 제어 프레임워크 구축
엄격한 이론적 수렴 및 안정성 보장 제공
여러 벤치마크 시스템에서 방법의 유효성 및 우월성 검증

한계

이론적 가정: 가정 3은 유한 차원 불변 부분공간의 존재를 요구하며, 일반 비선형 시스템에 대해 보장하기 어려움
성능 한계: 메타 훈련 쿠프만 모델의 일반화 및 성능에 대한 엄격한 한계 분석 부재
실제 응용: 시뮬레이션에서만 검증되었으며, 실제 시스템 검증 부족

향후 방향

매개변수 불확실성을 가진 실제 시스템에 방법 적용
지속적 여기(PE) 요구사항의 형식적 분석
궤적 길이와 쿠프만 연산자 메타학습 품질 간의 관계에 대한 체계적 연구
고차원 시스템으로의 확장

심층 평가

장점

높은 혁신성: 메타학습과 쿠프만 연산자를 최초로 결합하여 매개변수 불확실 시스템 제어에 새로운 사고방식 제공
이론적 완성도: 완전한 수렴성 및 안정성 분석 제공
충분한 실험: 세 가지 다른 분야의 벤치마크 시스템에서 포괄적 평가 수행
실용적 가치: 계산 효율성이 높으며 실시간 제어 응용에 적합

부족한 점

가정의 제한: 이론 분석은 비교적 강한 가정 조건에 의존하며, 실제 시스템이 이를 만족하지 못할 수 있음
제한된 기준선: DeSKO와의 비교만 수행되었으며, 다른 선진 방법과의 비교 부족
실제 검증 부재: 실제 시스템에서 방법의 유효성 검증 미실시
고차원 확장성: 고차원 시스템에 대한 적용 가능성 추가 연구 필요

영향력

학술적 기여: 학습형 제어 이론에 새로운 이론 프레임워크 및 방법 제공
응용 전망: 로봇, 화학 공정 제어 등 분야에서 광범위한 응용 전망
재현성: 저자가 코드 링크를 제공하여 결과 재현 용이

적용 시나리오

매개변수 불확실 비선형 시스템: 로봇 시스템, 화학 공정, 생물 시스템 등
빠른 적응이 필요한 제어 작업: 하중 변화, 환경 변화 등 시나리오
실시간 제어 응용: 계산 효율성 요구가 높은 경우

참고문헌

논문은 자적응 제어, 쿠프만 연산자 이론, 메타학습, 모델 예측 제어 등 여러 분야의 중요한 연구 41편을 인용하였으며, 연구에 견고한 이론적 기초를 제공한다.

종합 평가: 이는 이론적 혁신, 방법 설계 및 실험 검증 측면에서 모두 우수한 고품질 학술 논문이다. 메타학습과 쿠프만 연산자 이론의 결합은 매개변수 불확실 비선형 시스템의 제어 문제에 새로운 해결책을 제공하며, 중요한 학술적 가치와 응용 잠재력을 지닌다. 일부 이론적 가정의 제한과 실제 검증의 부족이 있지만, 전반적으로 주목할 가치가 있는 연구 작업이다.