2025-11-13T12:43:11.038101

Knowledge-aware equation discovery with automated background knowledge extraction

Ivanchik, Hvatov
In differential equation discovery algorithms, a priori expert knowledge is mainly used implicitly to constrain the form of the expected equation, making it impossible for the algorithm to truly discover equations. Instead, most differential equation discovery algorithms try to recover the coefficients for a known structure. In this paper, we describe an algorithm that allows the discovery of unknown equations using automatically or manually extracted background knowledge. Instead of imposing rigid constraints, we modify the structure space so that certain terms are likely to appear within the crossover and mutation operators. In this way, we mimic expertly chosen terms while preserving the possibility of obtaining any equation form. The paper shows that the extraction and use of knowledge allows it to outperform the SINDy algorithm in terms of search stability and robustness. Synthetic examples are given for Burgers, wave, and Korteweg--De Vries equations.
academic

Открытие уравнений с учётом знаний и автоматическое извлечение фоновых знаний

Основная информация

  • ID статьи: 2501.00444
  • Название: Knowledge-aware equation discovery with automated background knowledge extraction
  • Авторы: Elizaveta Ivanchik, Alexander Hvatov (ИТМО)
  • Категория: cs.AI
  • Дата публикации: 3 января 2025 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2501.00444

Аннотация

В алгоритмах открытия дифференциальных уравнений априорные экспертные знания в основном используются неявно для ограничения формы искомых уравнений, что препятствует истинному открытию уравнений. Вместо этого большинство алгоритмов открытия дифференциальных уравнений пытаются восстановить коэффициенты известной структуры. В данной статье описывается алгоритм, позволяющий открывать неизвестные уравнения с использованием автоматически или вручную извлечённых фоновых знаний. Алгоритм не накладывает жёсткие ограничения, а вместо этого модифицирует пространство структур, делая определённые члены более вероятными в операторах кроссовера и мутации. Таким образом, алгоритм имитирует выбор членов экспертом, сохраняя при этом возможность получения уравнений любой формы. Экспериментальные результаты показывают, что извлечение и использование знаний обеспечивает превосходство над алгоритмом SINDy в отношении стабильности и робастности поиска.

Исследовательский контекст и мотивация

Определение проблемы

Открытие дифференциальных уравнений является важной задачей извлечения интерпретируемых физических моделей из наблюдаемых данных. Современные методы открытия дифференциальных уравнений сталкиваются со следующими основными проблемами:

  1. Чрезмерная зависимость от априорных знаний: существующие методы, такие как SINDy, в основном ограничивают форму уравнения посредством предопределённой библиотеки членов, что по сути является восстановлением коэффициентов, а не истинным открытием уравнений
  2. Ограничения пространства структур: методы, основанные на градиентной оптимизации, могут искать только в фиксированном пространстве структур, что ограничивает способность открывать новые уравнения
  3. Жёсткие способы использования знаний: существующие методы либо вообще не используют фоновые знания, либо накладывают чрезмерно строгие структурные ограничения

Исследовательская мотивация

Основная мотивация данной работы заключается в разработке алгоритма открытия дифференциальных уравнений, способного:

  • автоматически извлекать и использовать фоновые знания
  • направлять процесс поиска, сохраняя при этом структурную гибкость
  • повышать стабильность и робастность открытия уравнений

Основные вклады

  1. Предложена структура открытия уравнений с учётом знаний: разработан улучшенный алгоритм на основе EPDE, который использует фоновые знания путём модификации распределений вероятностей, а не жёстких ограничений
  2. Разработан механизм автоматического извлечения знаний: на основе улучшенной архитектуры SymNet автоматически генерируются начальные предположения и преобразуются в распределения важности членов
  3. Реализовано мягкое направление знаний: путём модификации распределений вероятностей операторов кроссовера и мутации процесс оптимизации направляется, сохраняя при этом целостность пространства поиска
  4. Подтверждена эффективность метода: эксперименты на уравнениях Бюргерса, волновом уравнении и уравнении КдВ показывают, что метод превосходит SINDy по стабильности и робастности

Подробное описание метода

Определение задачи

Дано: дискретные наблюдаемые данные X={x(i)}i=1NX = \{x^{(i)}\}_{i=1}^N на сетке и соответствующие значения U={u(i)}i=1NU = \{u^{(i)}\}_{i=1}^N. Цель: открыть дифференциальное уравнение, описывающее данные:

M(S,P,x)u(x):M(S,P,x(i))u(xi)u(i)M(S, P, x) \rightarrow u(x) : M(S, P, x^{(i)}) \rightarrow u(x_i) \sim u^{(i)}

где SS обозначает структуру, PP — параметры.

Архитектура модели

1. Базовый алгоритм EPDE

Алгоритм EPDE использует параметризованные токены в качестве основных строительных блоков: t=t(π1,...,πn)t = t(\pi_1, ..., \pi_n)

Токены объединяются в члены: T=t1...tTlengthT = t_1 \cdot ... \cdot t_{T_{length}}, форма модели: M(S,{C,P})=j=1NtermsCjTjM(S, \{C,P\}) = \sum_{j=1}^{N_{terms}} C_j T_j

2. Улучшение с учётом знаний

Ключевое инновационное решение заключается во введении распределения важности членов для направления операторов эволюции:

Улучшенный оператор кроссовера: члены, участвующие в кроссовере, выбираются в соответствии с распределением важности, а не равномерно.

Улучшенный оператор мутации:

  • Замена токена: новые токены выбираются в соответствии с распределением важности
  • Генерация членов: новые члены генерируются с использованием распределения важности

3. Автоматическое извлечение знаний

Для генерации начальных предположений используется улучшенная архитектура SymNet:

Модификация SymNet: расширение исходной архитектуры для поддержки произвольных форм временных производных: Ut=F(t,x,U,Ux,Uxx,Utt,Uttt,...)U_t = F(t, x, U, U_x, U_{xx}, U_{tt}, U_{ttt}, ...)Utt=F(t,x,U,Ux,Ut,Uxx,Uttt,...)U_{tt} = F(t, x, U, U_x, U_t, U_{xx}, U_{ttt}, ...)

Вычисление распределения вероятностей:

  1. Отображение выходных данных SymNet в пространство членов EPDE
  2. Применение сглаживания коэффициентов (коэффициент смешивания mf контролирует процесс)
  3. Нормализация для получения распределения вероятностей

Технические инновации

  1. Механизм мягких ограничений: введение фоновых знаний через распределения вероятностей, а не жёсткие ограничения, сохраняет целостность пространства поиска
  2. Адаптивное извлечение знаний: автоматическое извлечение важности членов из начальных предположений без необходимости ручного определения
  3. Регулировка коэффициента смешивания: балансировка надёжности начального предположения через коэффициент смешивания предотвращает чрезмерную зависимость от неточных предположений

Экспериментальная установка

Наборы данных

Эксперименты используют пять классических уравнений в частных производных:

  1. Уравнение Бюргерса (без вязкости): ut+uux=0u_t + uu_x = 0
  2. Уравнение Бюргерса (с вязкостью): ut+uux0.1uxx=0u_t + uu_x - 0.1u_{xx} = 0
  3. Волновое уравнение: utt125uxx=0u_{tt} - \frac{1}{25}u_{xx} = 0
  4. Уравнение КдВ: ut+6uux+uxxx=0u_t + 6uu_x + u_{xxx} = 0
  5. Неоднородное уравнение КдВ: ut+6uux+uxxx=costsinxu_t + 6uu_x + u_{xxx} = \cos t \sin x

Метрики оценки

  1. Средняя абсолютная ошибка (MAE): вычисление ошибки между найденными коэффициентами уравнения и истинными коэффициентами
  2. Расстояние Хэмминга структуры (SHD): измерение различия между найденной структурой уравнения и истинной структурой
  3. Коэффициент успеха: доля успешного открытия уравнения из 50 запусков
  4. Время сходимости: время, необходимое алгоритму для достижения сходимости

Методы сравнения

  • Классический алгоритм EPDE: базовый метод
  • Фреймворк PySINDy: современный основной метод открытия дифференциальных уравнений
  • SymNet: для оценки качества начального предположения

Детали реализации

  • Каждый эксперимент запускается 50 раз для получения статистических результатов
  • Уровни шума: 0%, 25%, 50%, 75%, 100% (относительно предельного уровня шума)
  • Коэффициент смешивания: значение по умолчанию 2.4, одновременно тестируются значения, оптимизированные через расхождение Кульбака-Лейблера

Результаты экспериментов

Основные результаты

1. Сравнение с SINDy

Эксперименты на нескольких уравнениях показывают:

  • Улучшение стабильности: улучшенный алгоритм демонстрирует более стабильную работу в условиях высокого шума
  • Преимущество в точности: в большинстве случаев достигается более низкая MAE
  • Повышенная робастность: производительность снижается медленнее при увеличении шума

2. Повышение коэффициента успеха

Согласно результатам таблиц A.3 и A.4:

  • Сложные уравнения: наиболее значительное повышение коэффициента успеха для неоднородного уравнения КдВ, достигающее 72%
  • Простые уравнения: для простых уравнений с уже высоким коэффициентом успеха повышение ограничено
  • Среднее повышение: средний прирост робастности к шуму составляет 12.5%, диапазон 2%-32%

3. Затраты времени

  • Классический EPDE: около 5 секунд
  • Улучшенный алгоритм: около 15 секунд
  • PySINDy: около 0.01 секунды

Абляционные эксперименты

Анализ чувствительности коэффициента смешивания

Тестирование влияния различных коэффициентов смешивания (2.4, 3.0, 3.6, 4.5):

  • Коэффициент смешивания, оптимизированный через расхождение Кульбака-Лейблера, обычно показывает лучшие результаты
  • Надлежащая регулировка коэффициента смешивания может дополнительно повысить коэффициент открытия на 30%

Качество начального предположения SymNet

Производительность SymNet значительно различается на разных уравнениях:

  • Простые уравнения: уравнение Бюргерса MAE = 0.0058 ± 0.0008
  • Сложные уравнения: неоднородное уравнение КдВ MAE = 0.1497 ± 0.0214

Анализ конкретных случаев

На примере волнового уравнения улучшенный алгоритм может открывать уравнения со вторыми временными производными, которые PySINDy не может обработать, что демонстрирует структурную гибкость метода.

Связанные работы

Классификация методов открытия уравнений

Статья классифицирует существующие методы на две категории:

  1. Тип I (градиентная оптимизация): фиксированная структура, оптимизация параметров (например, SINDy, PDE-Net)
  2. Тип II (генетическое программирование): одновременная оптимизация структуры и параметров (например, EPDE, PySR)

Способы включения знаний

  • Синтаксические правила: синтаксические ограничения, определённые экспертом
  • Байесовские методы: включение знаний на основе априорных распределений
  • Структурные ограничения: жёсткие ограничения предопределённой библиотеки членов

Метод данной статьи является улучшением Типа II, реализующим мягкое направление знаний через распределения вероятностей.

Заключение и обсуждение

Основные выводы

  1. Эффективность мягких ограничений: введение фоновых знаний через распределения вероятностей более эффективно, чем жёсткие ограничения
  2. Осуществимость автоматического извлечения знаний: механизм автоматического извлечения знаний на основе SymNet может улучшить производительность поиска
  3. Большая выгода для сложных уравнений: метод показывает более значительные улучшения для сложных дифференциальных уравнений

Ограничения

  1. Вычислительные затраты: вычислительное время значительно увеличивается по сравнению с SINDy
  2. Зависимость от начального предположения: производительность метода зависит от качества начального предположения SymNet
  3. Чувствительность параметров: ключевые параметры, такие как коэффициент смешивания, требуют тщательной регулировки

Направления будущих исследований

  1. Оптимизация вычислительной эффективности: сокращение количества вызовов SymNet, повышение общей эффективности
  2. Улучшение начального предположения: разработка более точных методов начального предположения уравнений
  3. Расширение области применения: тестирование метода на уравнениях большего количества типов

Глубокая оценка

Преимущества

  1. Инновационный механизм включения знаний: предложена новая идея использования фоновых знаний путём модификации распределений вероятностей, а не жёстких ограничений
  2. Полный автоматизированный процесс: сквозная автоматизация от извлечения знаний до открытия уравнений
  3. Полная экспериментальная проверка: комплексное тестирование на нескольких классических уравнениях, включая анализ робастности к шуму
  4. Прочная теоретическая основа: обоснование метода с точки зрения геометрии вероятностных мер

Недостатки

  1. Проблема вычислительной эффективности: значительные вычислительные затраты по сравнению с существующими методами ограничивают практическое применение
  2. Сложность метода: вовлечение нескольких компонентов (SymNet, EPDE, вычисление распределения вероятностей) увеличивает сложность реализации
  3. Требование регулировки параметров: ключевые параметры, такие как коэффициент смешивания, требуют регулировки для конкретных задач
  4. Ограниченный теоретический анализ: отсутствуют теоретические гарантии сходимости и оптимальности

Влияние

  1. Академический вклад: предоставляет новую парадигму включения знаний для области открытия дифференциальных уравнений
  2. Практическая ценность: демонстрирует преимущества при работе со сложными данными с высоким уровнем шума
  3. Воспроизводимость: предоставляет открытый исходный код и подробные экспериментальные установки

Сценарии применения

Метод особенно подходит для:

  • Задач открытия сложных дифференциальных уравнений
  • Восстановления уравнений в условиях высокого шума
  • Сценариев, требующих структурной гибкости
  • Ситуаций, когда имеются частичные априорные знания, но полная структура неизвестна

Библиография

Статья цитирует основные работы в области открытия дифференциальных уравнений, включая:

  • Методы серии SINDy 8, 10, 26, 28
  • Серия PDE-Net 12, 32
  • Алгоритм EPDE 14, 25, 30, 31
  • Методы символической регрессии 15, 29
  • Работы по извлечению знаний 1-6, 16-24

Общая оценка: это высококачественная исследовательская статья, предлагающая инновационный метод открытия дифференциальных уравнений с учётом знаний. Несмотря на недостатки в вычислительной эффективности, работа демонстрирует отличные результаты в инновационности метода, полноте экспериментов и практической эффективности, внося ценный вклад в развитие данной области.