2025-11-22T21:49:17.013774

Towards Foundation Inference Models that Learn ODEs In-Context

Mauel, Hinz, Seifner et al.

Ordinary differential equations (ODEs) describe dynamical systems evolving deterministically in continuous time. Accurate data-driven modeling of systems as ODEs, a central problem across the natural sciences, remains challenging, especially if the data is sparse or noisy. We introduce FIM-ODE (Foundation Inference Model for ODEs), a pretrained neural model designed to estimate ODEs zero-shot (i.e., in context) from sparse and noisy observations. Trained on synthetic data, the model utilizes a flexible neural operator for robust ODE inference, even from corrupted data. We empirically verify that FIM-ODE provides accurate estimates, on par with a neural state-of-the-art method, and qualitatively compare the structure of their estimated vector fields.

academic

Towards Foundation Inference Models that Learn ODEs In-Context

基本信息

论文ID: 2510.12650
标题: Towards Foundation Inference Models that Learn ODEs In-Context
作者: Maximilian Mauel, Manuel Hinz, Patrick Seifner, David Berghaus, Ramsés J. Sánchez
分类: cs.LG (Machine Learning)
发表时间/会议: AI in Science (AIS), 2025, Copenhagen, Denmark
论文链接: https://arxiv.org/abs/2510.12650

摘要

常微分方程（ODEs）描述了在连续时间中确定性演化的动力系统。从数据驱动的角度准确建模ODE系统是自然科学中的核心问题，但在数据稀疏或含噪的情况下仍具挑战性。本文介绍了FIM-ODE（Foundation Inference Model for ODEs），这是一个预训练的神经模型，旨在从稀疏和含噪观测中零样本（即上下文内）估计ODEs。该模型在合成数据上训练，利用灵活的神经算子进行鲁棒的ODE推断，即使在损坏的数据上也能工作。实验验证表明，FIM-ODE提供了准确的估计，性能与神经网络最先进方法相当，并定性比较了它们估计向量场的结构。

研究背景与动机

问题定义

本研究要解决的核心问题是ODE系统识别问题：仅从时间序列观测中估计最能描述系统的ODE（即向量场）。这在自然科学中具有广泛应用，从牛顿运动定律到生物系统中的种群动力学，再到气象学中的大气对流。

问题重要性

广泛应用性：ODEs在物理、生物、气象等多个领域都是基础建模工具
预测能力：准确的ODE模型能够刻画潜在现象（如不动点或极限环）并预测未来状态
科学理解：ODE模型有助于理解系统的内在机制和动力学特性

现有方法局限性

传统方法：非参数方法或基于符号回归的方法在处理稀疏、含噪数据时表现不佳
ODEFormer限制：虽然是神经符号回归的最新方法，但仅能处理单一轨迹，且在全局向量场预测上可能产生不合理的复杂模式

研究动机

作者基于Foundation Inference Models (FIMs)框架，该框架已在连续时间马尔可夫链、随机微分方程和点过程推断中展现出良好效果，提出专门针对ODE推断的FIM-ODE模型。

核心贡献

提出FIM-ODE模型：首个基于Foundation Inference Models框架的ODE推断预训练模型
神经算子架构：采用DeepONet神经算子实现灵活的向量场估计
多轨迹处理能力：能够同时处理同一系统的多条轨迹，提升推断精度
优越性能表现：在合成数据集上超越ODEFormer，R²准确率分别为0.90 vs 0.65（重构任务）和0.26 vs 0.19（泛化任务）
更合理的全局预测：相比ODEFormer，在远离观测点的区域提供更简单、更合理的向量场预测

方法详解

任务定义

给定时间序列观测集合 $\mathcal{D} = \{y_k\}_{k=1}^K$ ，其中每个序列 $y_k = [(t_{k1}, y_{k1}), \ldots, (t_{kL}, y_{kL})]$ ，目标是估计向量场 $\hat{f}$ ，使其能够描述生成这些观测的ODE系统：

$\frac{dx(t)}{dt} = f(t, x(t))$

模型架构

1. 合成数据生成

从多元多项式分布中采样向量场的每个分量（最高3次）
支持最多3维的ODE系统
在不规则网格上模拟系统，并添加噪声生成训练数据

2. 神经算子架构（DeepONet）

FIM-ODE采用DeepONet神经算子架构，包含三个主要组件：

Branch Network（分支网络）：

使用Transformer编码器
将观测数据 $\mathcal{D}$ 编码为 $K(L-1)$ 个 $E$ 维表示 $\mathcal{D} \in \mathbb{R}^{E \times K(L-1)}$
保留几乎所有观测的独立编码

Trunk Network（主干网络）：

线性映射，将位置 $x \in \mathbb{R}^D$ 编码为 $h(x) \in \mathbb{R}^E$

Combination Network（组合网络）：

残差注意力层序列，类似Transformer解码器
使用 $\mathcal{D}$ 作为键和值， $h(x)$ 作为查询
最终线性投影得到向量场估计 $\hat{f}(x)$

3. 训练目标

采用监督学习目标： $L(x, \mathcal{D}, f) = \|\hat{f}(x) - f(x)\|^2$

在接近观测值的采样点 $x$ 上匹配预测和真实向量场。

技术创新点

上下文学习能力：无需进一步训练或微调即可处理新的ODE系统
多轨迹融合：能够同时处理多条轨迹，有效提取和组合所有可用信息
灵活的函数逼近：神经算子相比符号回归在处理稀疏、含噪数据时更加灵活
局部-全局平衡：在观测点附近提供复杂预测，在远离观测的区域提供简单合理的预测

实验设置

数据集

训练数据：60万个合成ODE方程，约2000万参数的模型
测试数据：4000个多项式向量场ODE（最高3次，最多3维）
轨迹设置：每个ODE生成9条轨迹，初始状态从 $N(0,1)$ 采样
观测设置：每条轨迹200个观测点，规则网格，时间间隔 $\Delta\tau = 0.05$

评价指标

使用R²准确率：R²分数大于0.9的百分比

对比方法

ODEFormer：预训练的神经符号回归方法，在5000万方程上训练，具有8600万参数

实验任务

重构任务：在上下文轨迹上测量重构性能
泛化任务：在保留轨迹上测量重构性能

实验结果

主要结果

模型	重构任务	泛化任务
ODEFormer	0.65	0.19
FIM-ODE	0.90	0.26

关键发现：

FIM-ODE在两个任务上都显著优于ODEFormer
泛化任务比重构任务更具挑战性，这符合直觉
尽管ODEFormer在更广泛的分布上训练且参数更多，FIM-ODE仍表现更优

多轨迹上下文分析

图1展示了FIM-ODE在不同数量上下文轨迹下的向量场估计：

单轨迹：在远离观测的位置估计不准确
多轨迹：随着轨迹数量增加，FIM-ODE能够纠正这些估计，有效覆盖更大的空间

局部与全局预测比较

图2比较了FIM-ODE和ODEFormer的向量场估计：

FIM-ODE：
- 局部：在观测点预测复杂模式以重构轨迹
- 全局：远离观测点时预测更简单
ODEFormer：预测更复杂的向量场，导致全局模式预测复杂且缺乏单一简单轨迹的支持

结构差异分析

两种模型的差异源于不同的向量场参数化：

ODEFormer：限制为（有理）多项式符号方程，在稀疏或含噪观测下可能不会默认为简单表达式
FIM-ODE：神经算子能够更灵活地处理这些情况

相关工作

传统ODE推断方法

非参数方法：如高斯过程等
符号回归方法：传统的基于遗传算法或其他优化方法的符号回归

Foundation Inference Models框架

FIM-CTMC：连续时间马尔可夫链推断
FIM-SDE：随机微分方程推断
FIM-PP：点过程推断
本文的FIM-ODE是该框架在ODE推断上的扩展

神经符号回归

ODEFormer：将时间序列观测转换为符号方程的预训练神经方法

结论与讨论

主要结论

FIM-ODE成功将Foundation Inference Models框架扩展到ODE推断问题
在合成数据集上，FIM-ODE显著优于现有最先进方法ODEFormer
神经算子的灵活性使得FIM-ODE能够提供更合理的全局向量场预测
多轨迹处理能力是FIM-ODE相对于ODEFormer的重要优势

局限性

数据分布限制：目前仅在多项式向量场上验证，实际系统可能更复杂
维度限制：当前实验仅限于3维系统
评估范围：需要在更广泛的ODE系统上进行验证
计算效率：论文未详细讨论计算复杂度和推断速度

未来方向

ODEBench评估：在包含63个手工选择ODE的基准数据集上比较方法
潜在动力学发现：探索使用预训练FIM-ODE发现潜在动力学
应用扩展：
- 神经群体动力学
- 化学反应动力学
- 自然语言内容演化

深度评价

优点

方法创新性：首次将FIM框架应用于ODE推断，架构设计合理
技术优势：
- 多轨迹处理能力
- 灵活的神经算子架构
- 上下文学习能力
实验充分性：
- 与强基线的直接比较
- 多角度的分析（重构vs泛化、局部vs全局）
- 可视化分析增强了理解
结果说服力：在所有指标上都显著优于对比方法

不足

实验范围有限：
- 仅在合成多项式数据上验证
- 缺乏真实世界数据的验证
- 维度和复杂度有限
对比不充分：
- 仅与ODEFormer比较，缺乏其他传统方法的对比
- 未比较计算效率
理论分析缺失：
- 缺乏收敛性或泛化能力的理论保证
- 未分析方法的理论优势
技术细节不足：
- 训练细节描述简略
- 超参数选择缺乏说明

影响力

学术贡献：
- 扩展了FIM框架的应用范围
- 为ODE推断提供了新的神经网络方法
实用价值：
- 零样本推断能力具有实际应用潜力
- 多轨迹处理在实际场景中更实用
可复现性：
- 基于已有FIM-SDE架构，技术路线清晰
- 但缺乏详细的实现细节

适用场景

科学计算：物理、生物、化学等领域的动力系统建模
工程应用：控制系统、信号处理等需要系统识别的场景
数据稀疏场景：特别适合观测数据有限或含噪的情况
多轨迹数据：当同一系统有多条观测轨迹时优势明显

参考文献

本文主要参考了以下关键工作：

d'Ascoli et al. (2024): ODEFormer的原始论文
Seifner et al. (2025a): FIM-SDE框架
Lu et al. (2021): DeepONet神经算子
Berghaus et al. (2024): FIM框架的基础工作

总体评价：这是一篇技术扎实的论文，成功将Foundation Inference Models框架扩展到ODE推断问题。虽然实验范围有限，但在既定设置下展现了明显的优势。该工作为科学计算中的系统识别问题提供了有价值的新方法，具有良好的发展前景。