2025-11-22T21:49:17.013774

Towards Foundation Inference Models that Learn ODEs In-Context

Mauel, Hinz, Seifner et al.
Ordinary differential equations (ODEs) describe dynamical systems evolving deterministically in continuous time. Accurate data-driven modeling of systems as ODEs, a central problem across the natural sciences, remains challenging, especially if the data is sparse or noisy. We introduce FIM-ODE (Foundation Inference Model for ODEs), a pretrained neural model designed to estimate ODEs zero-shot (i.e., in context) from sparse and noisy observations. Trained on synthetic data, the model utilizes a flexible neural operator for robust ODE inference, even from corrupted data. We empirically verify that FIM-ODE provides accurate estimates, on par with a neural state-of-the-art method, and qualitatively compare the structure of their estimated vector fields.
academic

Towards Foundation Inference Models that Learn ODEs In-Context

基本信息

  • 论文ID: 2510.12650
  • 标题: Towards Foundation Inference Models that Learn ODEs In-Context
  • 作者: Maximilian Mauel, Manuel Hinz, Patrick Seifner, David Berghaus, Ramsés J. Sánchez
  • 分类: cs.LG (Machine Learning)
  • 发表时间/会议: AI in Science (AIS), 2025, Copenhagen, Denmark
  • 论文链接: https://arxiv.org/abs/2510.12650

摘要

常微分方程(ODEs)描述了在连续时间中确定性演化的动力系统。从数据驱动的角度准确建模ODE系统是自然科学中的核心问题,但在数据稀疏或含噪的情况下仍具挑战性。本文介绍了FIM-ODE(Foundation Inference Model for ODEs),这是一个预训练的神经模型,旨在从稀疏和含噪观测中零样本(即上下文内)估计ODEs。该模型在合成数据上训练,利用灵活的神经算子进行鲁棒的ODE推断,即使在损坏的数据上也能工作。实验验证表明,FIM-ODE提供了准确的估计,性能与神经网络最先进方法相当,并定性比较了它们估计向量场的结构。

研究背景与动机

问题定义

本研究要解决的核心问题是ODE系统识别问题:仅从时间序列观测中估计最能描述系统的ODE(即向量场)。这在自然科学中具有广泛应用,从牛顿运动定律到生物系统中的种群动力学,再到气象学中的大气对流。

问题重要性

  1. 广泛应用性:ODEs在物理、生物、气象等多个领域都是基础建模工具
  2. 预测能力:准确的ODE模型能够刻画潜在现象(如不动点或极限环)并预测未来状态
  3. 科学理解:ODE模型有助于理解系统的内在机制和动力学特性

现有方法局限性

  1. 传统方法:非参数方法或基于符号回归的方法在处理稀疏、含噪数据时表现不佳
  2. ODEFormer限制:虽然是神经符号回归的最新方法,但仅能处理单一轨迹,且在全局向量场预测上可能产生不合理的复杂模式

研究动机

作者基于Foundation Inference Models (FIMs)框架,该框架已在连续时间马尔可夫链、随机微分方程和点过程推断中展现出良好效果,提出专门针对ODE推断的FIM-ODE模型。

核心贡献

  1. 提出FIM-ODE模型:首个基于Foundation Inference Models框架的ODE推断预训练模型
  2. 神经算子架构:采用DeepONet神经算子实现灵活的向量场估计
  3. 多轨迹处理能力:能够同时处理同一系统的多条轨迹,提升推断精度
  4. 优越性能表现:在合成数据集上超越ODEFormer,R²准确率分别为0.90 vs 0.65(重构任务)和0.26 vs 0.19(泛化任务)
  5. 更合理的全局预测:相比ODEFormer,在远离观测点的区域提供更简单、更合理的向量场预测

方法详解

任务定义

给定时间序列观测集合 D={yk}k=1K\mathcal{D} = \{y_k\}_{k=1}^K,其中每个序列 yk=[(tk1,yk1),,(tkL,ykL)]y_k = [(t_{k1}, y_{k1}), \ldots, (t_{kL}, y_{kL})],目标是估计向量场 f^\hat{f},使其能够描述生成这些观测的ODE系统:

dx(t)dt=f(t,x(t))\frac{dx(t)}{dt} = f(t, x(t))

模型架构

1. 合成数据生成

  • 从多元多项式分布中采样向量场的每个分量(最高3次)
  • 支持最多3维的ODE系统
  • 在不规则网格上模拟系统,并添加噪声生成训练数据

2. 神经算子架构(DeepONet)

FIM-ODE采用DeepONet神经算子架构,包含三个主要组件:

Branch Network(分支网络)

  • 使用Transformer编码器
  • 将观测数据 D\mathcal{D} 编码为 K(L1)K(L-1)EE 维表示 DRE×K(L1)\mathcal{D} \in \mathbb{R}^{E \times K(L-1)}
  • 保留几乎所有观测的独立编码

Trunk Network(主干网络)

  • 线性映射,将位置 xRDx \in \mathbb{R}^D 编码为 h(x)REh(x) \in \mathbb{R}^E

Combination Network(组合网络)

  • 残差注意力层序列,类似Transformer解码器
  • 使用 D\mathcal{D} 作为键和值,h(x)h(x) 作为查询
  • 最终线性投影得到向量场估计 f^(x)\hat{f}(x)

3. 训练目标

采用监督学习目标: L(x,D,f)=f^(x)f(x)2L(x, \mathcal{D}, f) = \|\hat{f}(x) - f(x)\|^2

在接近观测值的采样点 xx 上匹配预测和真实向量场。

技术创新点

  1. 上下文学习能力:无需进一步训练或微调即可处理新的ODE系统
  2. 多轨迹融合:能够同时处理多条轨迹,有效提取和组合所有可用信息
  3. 灵活的函数逼近:神经算子相比符号回归在处理稀疏、含噪数据时更加灵活
  4. 局部-全局平衡:在观测点附近提供复杂预测,在远离观测的区域提供简单合理的预测

实验设置

数据集

  • 训练数据:60万个合成ODE方程,约2000万参数的模型
  • 测试数据:4000个多项式向量场ODE(最高3次,最多3维)
  • 轨迹设置:每个ODE生成9条轨迹,初始状态从 N(0,1)N(0,1) 采样
  • 观测设置:每条轨迹200个观测点,规则网格,时间间隔 Δτ=0.05\Delta\tau = 0.05

评价指标

使用R²准确率:R²分数大于0.9的百分比

对比方法

ODEFormer:预训练的神经符号回归方法,在5000万方程上训练,具有8600万参数

实验任务

  1. 重构任务:在上下文轨迹上测量重构性能
  2. 泛化任务:在保留轨迹上测量重构性能

实验结果

主要结果

模型重构任务泛化任务
ODEFormer0.650.19
FIM-ODE0.900.26

关键发现

  • FIM-ODE在两个任务上都显著优于ODEFormer
  • 泛化任务比重构任务更具挑战性,这符合直觉
  • 尽管ODEFormer在更广泛的分布上训练且参数更多,FIM-ODE仍表现更优

多轨迹上下文分析

图1展示了FIM-ODE在不同数量上下文轨迹下的向量场估计:

  • 单轨迹:在远离观测的位置估计不准确
  • 多轨迹:随着轨迹数量增加,FIM-ODE能够纠正这些估计,有效覆盖更大的空间

局部与全局预测比较

图2比较了FIM-ODE和ODEFormer的向量场估计:

  • FIM-ODE
    • 局部:在观测点预测复杂模式以重构轨迹
    • 全局:远离观测点时预测更简单
  • ODEFormer:预测更复杂的向量场,导致全局模式预测复杂且缺乏单一简单轨迹的支持

结构差异分析

两种模型的差异源于不同的向量场参数化:

  • ODEFormer:限制为(有理)多项式符号方程,在稀疏或含噪观测下可能不会默认为简单表达式
  • FIM-ODE:神经算子能够更灵活地处理这些情况

相关工作

传统ODE推断方法

  1. 非参数方法:如高斯过程等
  2. 符号回归方法:传统的基于遗传算法或其他优化方法的符号回归

Foundation Inference Models框架

  • FIM-CTMC:连续时间马尔可夫链推断
  • FIM-SDE:随机微分方程推断
  • FIM-PP:点过程推断
  • 本文的FIM-ODE是该框架在ODE推断上的扩展

神经符号回归

ODEFormer:将时间序列观测转换为符号方程的预训练神经方法

结论与讨论

主要结论

  1. FIM-ODE成功将Foundation Inference Models框架扩展到ODE推断问题
  2. 在合成数据集上,FIM-ODE显著优于现有最先进方法ODEFormer
  3. 神经算子的灵活性使得FIM-ODE能够提供更合理的全局向量场预测
  4. 多轨迹处理能力是FIM-ODE相对于ODEFormer的重要优势

局限性

  1. 数据分布限制:目前仅在多项式向量场上验证,实际系统可能更复杂
  2. 维度限制:当前实验仅限于3维系统
  3. 评估范围:需要在更广泛的ODE系统上进行验证
  4. 计算效率:论文未详细讨论计算复杂度和推断速度

未来方向

  1. ODEBench评估:在包含63个手工选择ODE的基准数据集上比较方法
  2. 潜在动力学发现:探索使用预训练FIM-ODE发现潜在动力学
  3. 应用扩展
    • 神经群体动力学
    • 化学反应动力学
    • 自然语言内容演化

深度评价

优点

  1. 方法创新性:首次将FIM框架应用于ODE推断,架构设计合理
  2. 技术优势
    • 多轨迹处理能力
    • 灵活的神经算子架构
    • 上下文学习能力
  3. 实验充分性
    • 与强基线的直接比较
    • 多角度的分析(重构vs泛化、局部vs全局)
    • 可视化分析增强了理解
  4. 结果说服力:在所有指标上都显著优于对比方法

不足

  1. 实验范围有限
    • 仅在合成多项式数据上验证
    • 缺乏真实世界数据的验证
    • 维度和复杂度有限
  2. 对比不充分
    • 仅与ODEFormer比较,缺乏其他传统方法的对比
    • 未比较计算效率
  3. 理论分析缺失
    • 缺乏收敛性或泛化能力的理论保证
    • 未分析方法的理论优势
  4. 技术细节不足
    • 训练细节描述简略
    • 超参数选择缺乏说明

影响力

  1. 学术贡献
    • 扩展了FIM框架的应用范围
    • 为ODE推断提供了新的神经网络方法
  2. 实用价值
    • 零样本推断能力具有实际应用潜力
    • 多轨迹处理在实际场景中更实用
  3. 可复现性
    • 基于已有FIM-SDE架构,技术路线清晰
    • 但缺乏详细的实现细节

适用场景

  1. 科学计算:物理、生物、化学等领域的动力系统建模
  2. 工程应用:控制系统、信号处理等需要系统识别的场景
  3. 数据稀疏场景:特别适合观测数据有限或含噪的情况
  4. 多轨迹数据:当同一系统有多条观测轨迹时优势明显

参考文献

本文主要参考了以下关键工作:

  • d'Ascoli et al. (2024): ODEFormer的原始论文
  • Seifner et al. (2025a): FIM-SDE框架
  • Lu et al. (2021): DeepONet神经算子
  • Berghaus et al. (2024): FIM框架的基础工作

总体评价:这是一篇技术扎实的论文,成功将Foundation Inference Models框架扩展到ODE推断问题。虽然实验范围有限,但在既定设置下展现了明显的优势。该工作为科学计算中的系统识别问题提供了有价值的新方法,具有良好的发展前景。