2025-11-23T02:40:16.760420

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

Sousa-Pinto, Orban

We derive closed-form extensions of Riccati's recursions (both sequential and parallel) for solving dual-regularized LQR problems. We show how these methods can be used to solve general constrained, non-convex, discrete-time optimal control problems via a regularized interior point method, while guaranteeing that each step is a descent direction of an Augmented Barrier-Lagrangian merit function. We provide MIT-licensed implementations of our methods in C++ and JAX.

academic

Dual-Regularized Riccati Recursions for Interior-Point Optimal Control

基本信息

论文ID: 2509.16370
标题: Dual-Regularized Riccati Recursions for Interior-Point Optimal Control
作者: João Sousa-Pinto, Dominique Orban
分类: math.OC cs.MS cs.RO cs.SY eess.SY
发表时间: 2025年10月15日 (arXiv v2)
论文链接: https://arxiv.org/abs/2509.16370

摘要

本文推导了求解双正则化LQR问题的Riccati递归的闭式扩展（包括序列和并行版本）。作者展示了如何通过正则化内点法使用这些方法求解一般约束、非凸、离散时间最优控制问题，同时保证每一步都是增广障碍-拉格朗日函数的下降方向。论文提供了C++和JAX的MIT许可证实现。

研究背景与动机

核心问题

该研究要解决的核心问题是如何高效求解具有等式和不等式约束的非凸离散时间最优控制问题。传统方法在处理此类问题时存在以下挑战：

计算效率问题：标准内点法在处理最优控制问题时需要求解大规模线性系统，计算复杂度高
数值稳定性：当正则化参数趋于零时，传统方法可能出现数值不稳定
并行化困难：现有方法难以充分利用并行计算资源

问题重要性

最优控制问题在机器人学、航空航天、自动驾驶等领域具有广泛应用。高效求解这类问题对于实时控制系统至关重要，特别是在需要处理复杂约束的场景中。

现有方法局限性

DDP算法：虽然是实践中最常用的方法，但作为单次射击方法，无法独立热启动状态轨迹
标准LQR方法：仅适用于无约束或简单约束的线性系统
现有内点法：如IPOPT等通用求解器，无法充分利用最优控制问题的结构特性

核心贡献

理论贡献：推导了求解双正则化LQR问题的闭式Riccati递归扩展，包括序列和并行版本
算法创新：提出了保证下降方向的正则化内点法，通过增广障碍-拉格朗日函数作为merit函数
数值稳定性：设计了当正则化参数δ→0时数值稳定的算法，能够恢复标准LQR算法
并行化算法：基于关联扫描(associative scans)实现了O(log N)并行时间复杂度的求解算法
软件贡献：提供了C++和JAX的开源实现，支持高效的稀疏线性代数操作

方法详解

任务定义

考虑离散时间最优控制问题：

$\min_{x_0,u_0,\ldots,x_N} \sum_{i=0}^{N-1} f_i(x_i, u_i) + f_N(x_N)$

约束条件：

初始状态： $x_0 = s_0$
动力学约束： $x_{i+1} = d_i(x_i, u_i), \forall i \in \{0,\ldots,N-1\}$
等式约束： $c_i(x_i, u_i) = 0, \forall i \in \{0,\ldots,N-1\}$
不等式约束： $g_i(x_i, u_i) \leq 0, \forall i \in \{0,\ldots,N-1\}$
终端约束： $c_N(x_N) = 0, g_N(x_N) \leq 0$

正则化内点法框架

增广障碍-拉格朗日函数

定义障碍-拉格朗日函数： $L(x,s,y,z;\mu) = f(x) - \mu\sum_i \log(s_i) + y^T c(x) + z^T(g(x) + s)$

增广版本： $A(x,s,y,z;\mu,\eta) = L(x,s,y,z;\mu) + \frac{\eta}{2}(\|c(x)\|^2 + \|g(x)+s\|^2)$

线性系统求解

每次迭代需要求解线性系统： $\begin{bmatrix} P & 0 & C^T & G^T \\ 0 & S^{-1}Z & 0 & I \\ C & 0 & -\frac{1}{\eta}I & 0 \\ G & I & 0 & -\frac{1}{\eta}I \end{bmatrix} \begin{bmatrix} \Delta x \\ \Delta s \\ \Delta y \\ \Delta z \end{bmatrix} = -\nabla L(x,s,y,z;\mu)$

双正则化LQR问题

通过变量消除，将内点法的线性系统转化为双正则化LQR问题： $\begin{bmatrix} P & C^T \\ C & -\delta I \end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix} = -\begin{bmatrix} s \\ c \end{bmatrix}$

其中 $\delta > 0$ 是正则化参数，矩阵 $P$ 具有块对角结构， $C$ 包含动力学约束的雅可比矩阵。

序列算法

后向递推

定义关键变量：

$V_i = \frac{1}{\delta}(F_i - I)$ ：值函数近似
$v_i = \frac{1}{\delta}(f_i + c_i)$ ：偏移向量

递推公式：

G_i = B_i^T W_{i+1} B_i + R_i
H_i = B_i^T W_{i+1} A_i + M_i^T
h_i = r_i + B_i^T g_{i+1}
K_i = -G_i^{-1} H_i
k_i = -G_i^{-1} h_i
V_i = A_i^T W_{i+1} A_i + Q_i + H_i^T K_i
v_i = q_i + A_i^T g_{i+1} + H_i^T k_i
W_i = (I + \delta V_i)^{-1} V_i
g_i = v_i + W_i(c_i - \delta v_i)