We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.
論文ID : 2509.16370タイトル : Dual-Regularized Riccati Recursions for Interior-Point Optimal Control著者 : João Sousa-Pinto, Dominique Orban分類 : math.OC cs.MS cs.RO cs.SY eess.SY発表日時 : 2025年10月15日 (arXiv v2)論文リンク : https://arxiv.org/abs/2509.16370 本論文は、双正則化LQR問題を解くためのリッカチ再帰の閉形式拡張(逐次版および並列版を含む)を導出している。著者らは、正則化内点法を用いてこれらの手法を一般的な制約条件、非凸、離散時間最適制御問題の求解に適用する方法を示し、各ステップが拡張バリア・ラグランジュ関数の下降方向であることを保証している。論文はC++およびJAXのMITライセンス実装を提供している。
本研究が解決しようとする中核問題は、等式および不等式制約を有する非凸離散時間最適制御問題を効率的に解く方法である。従来の手法は以下の課題を抱えている:
計算効率の問題 :標準的な内点法は最適制御問題を処理する際に大規模線形システムの求解が必要であり、計算複雑度が高い数値安定性 :正則化パラメータがゼロに近づく際、従来の手法は数値不安定性を示す可能性がある並列化の困難さ :既存の手法は並列計算資源の十分な活用が困難である最適制御問題はロボット工学、航空宇宙工学、自動運転など多くの分野で広く応用されている。このような問題を効率的に解くことは、特に複雑な制約を処理する必要があるシナリオにおいて、リアルタイム制御システムにとって重要である。
DDP アルゴリズム :実務で最も一般的に使用されているが、単一射撃法として状態軌跡のホットスタートが独立して実行できない標準LQR法 :無制約または単純な制約を有する線形システムにのみ適用可能既存の内点法 :IPOPTなどの汎用ソルバーは最適制御問題の構造的特性を十分に活用できない理論的貢献 :双正則化LQR問題を解くための閉形式リッカチ再帰拡張を導出し、逐次版および並列版を含むアルゴリズムの革新 :拡張バリア・ラグランジュ関数をメリット関数として用いて下降方向を保証する正則化内点法を提案数値安定性 :正則化パラメータδ→0の際に数値安定なアルゴリズムを設計し、標準LQRアルゴリズムの復帰を可能にする並列化アルゴリズム :関連スキャン(associative scans)に基づいてO(log N)並列時間複雑度の求解アルゴリズムを実装ソフトウェア貢献 :C++およびJAXのオープンソース実装を提供し、効率的なスパース線形代数演算をサポート離散時間最適制御問題を考える:
min x 0 , u 0 , … , x N ∑ i = 0 N − 1 f i ( x i , u i ) + f N ( x N ) \min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N) min x 0 , u 0 , … , x N ∑ i = 0 N − 1 f i ( x i , u i ) + f N ( x N )
制約条件:
初期状態:x 0 = s 0 x_0 = s_0 x 0 = s 0 動力学制約:x i + 1 = d i ( x i , u i ) , ∀ i ∈ { 0 , … , N − 1 } x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\} x i + 1 = d i ( x i , u i ) , ∀ i ∈ { 0 , … , N − 1 } 等式制約:c i ( x i , u i ) = 0 , ∀ i ∈ { 0 , … , N − 1 } c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\} c i ( x i , u i ) = 0 , ∀ i ∈ { 0 , … , N − 1 } 不等式制約:g i ( x i , u i ) ≤ 0 , ∀ i ∈ { 0 , … , N − 1 } g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\} g i ( x i , u i ) ≤ 0 , ∀ i ∈ { 0 , … , N − 1 } 終端制約:c N ( x N ) = 0 , g N ( x N ) ≤ 0 c_N(x_N) = 0, g_N(x_N) \leq 0 c N ( x N ) = 0 , g N ( x N ) ≤ 0 バリア・ラグランジュ関数を定義する:
L ( x , s , y , z ; μ ) = f ( x ) − μ ∑ i log ( s i ) + y T c ( x ) + z T ( g ( x ) + s ) L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s) L ( x , s , y , z ; μ ) = f ( x ) − μ ∑ i log ( s i ) + y T c ( x ) + z T ( g ( x ) + s )
拡張版:
A ( x , s , y , z ; μ , η ) = L ( x , s , y , z ; μ ) + η 2 ( ∥ c ( x ) ∥ 2 + ∥ g ( x ) + s ∥ 2 ) A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2) A ( x , s , y , z ; μ , η ) = L ( x , s , y , z ; μ ) + 2 η ( ∥ c ( x ) ∥ 2 + ∥ g ( x ) + s ∥ 2 )
各反復では以下の線形システムを求解する必要がある:
[ P 0 C T G T 0 S − 1 Z 0 I C 0 − 1 η I 0 G I 0 − 1 η I ] [ Δ x Δ s Δ y Δ z ] = − ∇ L ( x , s , y , z ; μ ) \begin{bmatrix}
P & 0 & C^T & G^T \\
0 & S^{-1}Z & 0 & I \\
C & 0 & -\frac{1}{\eta}I & 0 \\
G & I & 0 & -\frac{1}{\eta}I
\end{bmatrix}
\begin{bmatrix}
\Delta x \\ \Delta s \\ \Delta y \\ \Delta z
\end{bmatrix} = -\nabla L(x,s,y,z;\mu) P 0 C G 0 S − 1 Z 0 I C T 0 − η 1 I 0 G T I 0 − η 1 I Δ x Δ s Δ y Δ z = − ∇ L ( x , s , y , z ; μ )
変数消去により、内点法の線形システムを双正則化LQR問題に変換する:
[ P C T C − δ I ] [ x y ] = − [ s c ] \begin{bmatrix}
P & C^T \\
C & -\delta I
\end{bmatrix}
\begin{bmatrix}
x \\ y
\end{bmatrix} = -\begin{bmatrix}
s \\ c
\end{bmatrix} [ P C C T − δ I ] [ x y ] = − [ s c ]
ここでδ > 0 \delta > 0 δ > 0 は正則化パラメータであり、行列P P P はブロック対角構造を有し、C C C は動力学制約のヤコビアンを含む。
主要な変数を定義する:
V i = 1 δ ( F i − I ) V_i = \frac{1}{\delta}(F_i - I) V i = δ 1 ( F i − I ) :値関数近似v i = 1 δ ( f i + c i ) v_i = \frac{1}{\delta}(f_i + c_i) v i = δ 1 ( f i + c i ) :オフセットベクトル再帰公式:
G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)
制御則u i = K i x i + k i u_i = K_i x_i + k_i u i = K i x i + k i と状態遷移方程式を通じて最適軌跡を復帰させる。
関連スキャンを用いてO(log N)並列時間複雑度を実現する:
区間値関数 :V i → j ( x i , x j ) V_{i \to j}(x_i, x_j) V i → j ( x i , x j ) をステージiからjへの値関数として定義組合せ規則 :区間値関数の組合せ演算を確立し、結合性を満たす並列計算 :逆向き関連スキャンを通じてすべてのV i → N + 1 V_{i \to N+1} V i → N + 1 を並列計算前向き再帰をアフィン関数の組合せに変換する:
x i + 1 = M i x i + m i x_{i+1} = M_i x_i + m_i x i + 1 = M i x i + m i
関連スキャンを用いてすべてのアフィン変換を並列に組み合わせ、O(log N)の並列前向き伝播を実現する。
数値安定性設計 :再パラメータ化によりδ → 0 \delta \to 0 δ → 0 の際の数値問題を回避下降方向の保証 :探索方向が拡張バリア・ラグランジュ関数の下降方向であることを理論的に証明構造化求解 :最適制御問題の時間構造を十分に活用し、大規模密行列線形システムの求解を回避並列化設計 :関数型プログラミングの関連スキャンに基づいた効率的な並列化論文は2つの実装を提供している:
C++実装 :SIP (Simple Interior Point)フレームワークに基づく QDLDLスパースソルバーの統合をサポート 実行時の動的メモリ割り当てを回避 カスタムKKTシステムソルバーをサポート JAX実装 :自動微分をサポート GPU/TPU加速 完全なユニットテストを含む 必要な正定性を満たすランダムサンプルでアルゴリズムの正確性を検証 δ = 0 \delta = 0 δ = 0 の際の標準LQRアルゴリズムとの一貫性を検証数値安定性テスト 論文は以下の方法でアルゴリズムの正確性を検証している:
理論的検証 :δ = 0 \delta = 0 δ = 0 の際、アルゴリズムは標準LQRアルゴリズムに退化する数値的検証 :ランダムに生成されたテストケースで解の正確性を検証ユニットテスト :JAX実装は完全なユニットテストスイートを含む定理1.2 はΔ x ≠ 0 \Delta x \neq 0 Δ x = 0 またはΔ s ≠ 0 \Delta s \neq 0 Δ s = 0 の際、方向微分が以下を満たすことを証明している:
D ( A ( ⋅ , ⋅ , y , z ; μ , η ) ; ( Δ x , Δ s ) ) ( x , s ) < 0 D(A(\cdot,\cdot,y,z;\mu,\eta);(\Delta x,\Delta s))(x,s) < 0 D ( A ( ⋅ , ⋅ , y , z ; μ , η ) ; ( Δ x , Δ s )) ( x , s ) < 0
これはアルゴリズムの大域収束性を保証する。
逐次アルゴリズム :O(N)時間複雑度並列アルゴリズム :O(log N)並列時間複雑度空間複雑度 :O(N)、問題規模に線形古典的LQR法 :Kalman (1960)が最初にリッカチ再帰を導出内点法の応用 :Rao等(1998)が最初に内点法をモデル予測制御に適用並列LQR :Särkkä and García-Fernández (2021)が最初のO(log N)並列LQRアルゴリズムを提案構造化ソルバー :FATROPなどの最近の研究が構造化制約処理を探索理論的完全性 :完全な理論分析と収束性保証を提供数値安定性 :正則化パラメータがゼロに近づく際の数値問題を解決実用性 :完全なオープンソース実装を提供汎用性 :一般的な非凸制約最適制御問題を処理可能双正則化LQR問題の閉形式リッカチ再帰拡張の導出に成功 正則化内点法との関連性を確立し、アルゴリズムの収束性を保証 O(log N)並列時間複雑度の効率的なアルゴリズムを実装 数値安定で実用的なオープンソース実装を提供 制約タイプの制限 :手法は主にLQR形式に変換可能な問題に適用可能正定性要件 :アルゴリズムはヘッシアン行列の正定性仮定を要求実際の性能 :大規模実問題の性能比較が不足しているより一般的な制約への拡張 :経路制約とより複雑な終端制約を処理適応的正則化 :正則化パラメータを選択する適応的戦略の開発実際の応用検証 :ロボット制御などの実際の応用で手法の有効性を検証理論的貢献が顕著 :双正則化技術とリッカチ再帰を初めて組み合わせ、理論分析が完全アルゴリズム設計が優雅 :最適制御問題の時間構造を巧妙に活用数値的配慮が周到 :特に数値安定性の問題に注目実装品質が高い :2つの言語の高品質なオープンソース実装を提供並列化の革新 :関連スキャンに基づく並列化手法は理論的および実践的価値を有する実験検証が限定的 :主に理論検証と単純な数値テストであり、大規模実問題の比較が不足性能分析が不十分 :詳細な計算時間とメモリ使用量の分析がない適用範囲の議論が不十分 :どの種類の最適制御問題がこの手法に最も適しているかについての深い議論が不足パラメータ選択の指針が不足 :正則化パラメータの選択戦略についての議論が少ない学術的価値 :最適制御の数値手法に新しい理論的ツールを提供実用的価値 :オープンソース実装は手法の普及を促進再現性 :詳細なアルゴリズム記述とオープンソースコードが再現性を保証示唆性 :双正則化の考え方は他の最適化問題の求解に示唆を与える可能性があるリアルタイム制御システム :高速求解が必要なモデル予測制御応用大規模最適化 :長い時間域を有する最適制御問題並列計算環境 :マルチコアまたはGPUリソースを十分に活用できる応用シーン制約最適化 :複雑な等式および不等式制約を処理する必要がある制御問題論文は本分野の重要な文献を引用している:
Kalman (1960):最適制御理論の基礎 Blelloch (1989):関連スキャンの並列アルゴリズム理論 Särkkä & García-Fernández (2021):並列LQRアルゴリズム Wächter & Biegler (2006):IPOPTの内点法ソルバー 総合評価 :これは理論的貢献が顕著で、技術的革新が明らかな優秀な論文である。著者らは双正則化技術をリッカチ再帰に成功裏に導入し、数値安定性を維持しながら効率的な並列化を実現している。実際の応用検証の面ではまだ改善の余地があるが、その理論的価値とオープンソース貢献により、最適制御の数値手法分野における重要な進展となっている。