2025-11-24T11:34:17.231709

Likelihood-free inference of phylogenetic tree posterior distributions

Blassel, Boussau, Lartillot et al.
Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
academic

Вероятностно-свободный вывод апостериорных распределений филогенетических деревьев

Основная информация

  • ID статьи: 2510.12976
  • Название: Likelihood-free inference of phylogenetic tree posterior distributions
  • Авторы: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
  • Классификация: q-bio.PE (Популяции и эволюция), q-bio.QM (Количественные методы)
  • Дата публикации: 14 октября 2024 г. (препринт arXiv)
  • Ссылка на статью: https://arxiv.org/abs/2510.12976v1

Аннотация

Филогенетический вывод является центральной задачей эволюционной геномики, направленной на реконструкцию того, как связанные последовательности эволюционировали от общего предка. Современные передовые методы используют вероятностные модели эволюции последовательностей вдоль филогенетического дерева, находя дерево, которое максимизирует правдоподобие наблюдаемых последовательностей, или оценивая апостериорное распределение деревьев при заданных последовательностях в байесовской структуре. Оба подхода обычно требуют вычисления функции правдоподобия, которая возможна только при упрощающих предположениях (таких как независимость эволюции в разных позициях последовательности) и остаётся дорогостоящей операцией. В данной работе предлагается Phyloformer 2 — первый метод вероятностно-свободного вывода для апостериорных распределений филогенетических деревьев. Phyloformer 2 использует новый способ кодирования пар последовательностей, обеспечивающий большую масштабируемость по сравнению с предыдущими методами, и применяет параметризацию вероятностного распределения на основе непрерывного процесса слияния поддеревьев. Сеть обеспечивает точные оценки апостериорного распределения, превосходя передовые методы максимального правдоподобия и предыдущие вероятностно-свободные методы в точечных оценках.

Исследовательский контекст и мотивация

Определение проблемы

Филогенетический вывод — это задача реконструкции истории эволюции набора современных последовательностей, требующая определения бинарной древовидной структуры, описывающей, как они дивергировали от общего предка. Эта задача имеет важное значение в нескольких областях:

  1. Эволюционная биология: понимание того, как современные виды эволюционировали от общего предка
  2. Распространение болезней: отслеживание возникновения и распространения устойчивости бактерий к антибиотикам
  3. Эпидемиология: мониторинг моделей распространения эпидемий

Ограничения существующих методов

Традиционные методы филогенетического вывода в основном полагаются на вероятностные модели и сталкиваются со следующими ключевыми проблемами:

  1. Вычислительная сложность: вычисление функции правдоподобия требует дорогостоящего алгоритма обрезки (Felsenstein, 1981)
  2. Огромное пространство поиска: количество топологий деревьев для n листовых узлов равно (2n-5)!!, поиск чрезвычайно затруднён
  3. Упрощающие предположения модели: для обеспечения вычислительной осуществимости необходимо предполагать независимость и одинаковое распределение эволюции в разных позициях последовательности, игнорируя естественный отбор
  4. Нереалистичные результаты моделирования: эти упрощающие предположения приводят к генерированию нереалистичных наборов последовательностей и артефактам в филогенетической реконструкции

Исследовательская мотивация

Вероятностно-свободный вывод (Simulation-based inference) предоставляет новую парадигму для решения этих проблем:

  • Может эффективно проводить оценку, когда оценка правдоподобия невозможна, но стоимость выборки низка
  • Использует глубокое обучение для обучения нейронных сетей на смоделированных данных для аппроксимации апостериорного распределения
  • Амортизированный вывод: обучение требует времени, но вывод чрезвычайно быстр
  • Может обрабатывать более сложные и реалистичные эволюционные модели

Основные вклады

  1. Первый сквозной метод вероятностно-свободного апостериорного оценивания: предложен первый метод вероятностно-свободного апостериорного оценивания непосредственно от последовательностей к филогенетическим деревьям, превосходящий предыдущие работы, ограниченные четвёрками (quartets)
  2. Новая архитектура сети EvoPF: вдохновлённая EvoFormer из AlphaFold 2, разработана более масштабируемая и выразительная архитектура кодировщика последовательностей, способная обрабатывать более 200 последовательностей
  3. Вероятностная декомпозиция BayesNJ: предложена параметризация вероятностного распределения филогенетических деревьев на основе непрерывного процесса слияния, обеспечивающая корректность вероятностного распределения
  4. Значительное повышение производительности: превосходит передовые методы, основанные на правдоподобии, по точности топологии, скорость вывода повышена на 1-2 порядка
  5. Применимость к сложным моделям: может проводить обучение при неразрешимых моделях правдоподобия, показывая ещё большее преимущество в производительности по сравнению с неправильно специфицированными оценками на основе правдоподобия

Подробное описание методов

Определение задачи

Вход: набор выровненных последовательностей x={x1,,xN}x = \{x_1, \ldots, x_N\}, где каждая последовательность содержит L символов Выход: филогенетическое дерево θ=(τ,)\theta = (\tau, \ell), включающее топологию τ\tau и длины ветвей \ellЦель: обучить аппроксимацию апостериорного распределения qψ(θx)q_\psi(\theta|x) для p(θx)p(\theta|x)

Архитектура модели

Phyloformer 2 состоит из двух основных модулей:

1. Кодировщик EvoPF

EvoPF является транспонированной версией EvoFormer, поддерживающей два типа представлений:

  • MSA стек: вложения для каждой позиции в каждой последовательности
  • Стек пар: вложения для каждой пары последовательностей

Ключевые особенности проектирования:

  • Осевое внимание: чередующееся использование столбцового (между последовательностями в позиции) и строкового (между позициями в последовательности) самовнимания в MSA стеке
  • Плоское самовнимание между парами: упрощённое треугольное внимание из EvoFormer
  • Обмен информацией: передача информации между MSA стеком и стеком пар через внешнее произведение средних и смещение пар

2. Вероятностное распределение BayesNJ

Определяет вероятностное распределение над филогенетическими деревьями, разложенное в непрерывный процесс слияния:

qψ(x)(θ=(τ,)x)=k=12N3qm(m(k)m(<k))q((k)m(k),m(<k))q_{\psi(x)}(\theta = (\tau, \ell)|x) = \prod_{k=1}^{2N-3} q_m(m^{(k)}|m^{(<k)}) q_\ell(\ell^{(k)}|m^{(k)}, m^{(<k)})

Ключевые инновации:

  • Канонический порядок слияния: обеспечивает, что каждое филогенетическое дерево имеет только одну допустимую последовательность слияния
  • Обработка ограничений: гарантирует согласованность между выборкой и оценкой через ограничения расстояния
  • Параметризация длин ветвей: использует переформулировку через сумму (s(k)s^{(k)}) и отношение (r(k)r^{(k)}), моделируемые распределениями Гамма и Бета

Технические инновационные моменты

  1. Масштабируемая схема кодирования: по сравнению с представлением пар последовательностей Phyloformer, EvoPF значительно повышает масштабируемость при сохранении выразительной способности
  2. Корректное определение вероятностного распределения: решает проблему того, что одно филогенетическое дерево может быть сгенерировано несколькими последовательностями слияния, через канонический порядок
  3. Сквозное обучение: прямая оптимизация апостериорной вероятности, избегая промежуточного этапа предсказания расстояния
  4. Удовлетворение ограничений: обеспечивает, что выбранные филогенетические деревья соответствуют каноническому порядку через матрицу динамических ограничений

Экспериментальная установка

Наборы данных

  1. Основной набор обучения: 1,3 миллиона пар дерево/MSA с 50 таксонами, основанные на модели LG+G8
  2. Наборы данных различных размеров: 10-170 таксонов, используемые для тонкой настройки во избежание переобучения на количество таксонов
  3. Наборы данных сложных моделей: модель Cherry (зависимость между позициями) и модель SelReg (неоднородность между позициями)
  4. Наборы данных для сравнения MCMC: сгенерированные с использованием приоров RevBayes для оценки качества апостериорного распределения

Метрики оценки

  1. Точность топологии: нормализованное расстояние Robinson-Foulds
  2. Точность длин ветвей: расстояние Kuhner-Felsenstein
  3. Качество апостериорного распределения: сравнение частот разбиений с выборками MCMC
  4. Вычислительная эффективность: время выполнения и использование памяти

Методы сравнения

  • На основе правдоподобия: IQTree, FastTree, FastME
  • Вероятностно-свободные: исходный Phyloformer (PF)
  • Варианты: PF2topo (только топология), PF2ℓ1 (потеря L1)

Результаты экспериментов

Основные результаты

Повышение точности топологии

При тестировании на деревьях с 10-200 таксонами Phyloformer 2 значительно превосходит все методы сравнения:

  • Значительное улучшение по сравнению с исходным PF на всех размерах
  • Превосходит передовые методы максимального правдоподобия, такие как IQTree и FastTree, для деревьев с 10-175 листьями
  • Преимущество в производительности в основном обусловлено оценкой апостериорного распределения с использованием правильного приора

Значительное повышение вычислительной эффективности

  • Скорость: на один порядок быстрее FastTree, на два порядка быстрее IQTree
  • Масштабируемость: хотя требует много памяти, лучше масштабируется, чем PF, может обрабатывать большие деревья
  • PF2topo: версия только для топологии даже на порядок быстрее исходного PF

Преимущества при сложных моделях

При неразрешимых моделях правдоподобия (Cherry и SelReg):

  • PF2 значительно превосходит эквивалентную модель PF
  • Разрыв в производительности ещё больше расширяется по сравнению с неправильно специфицированными методами на основе правдоподобия
  • Демонстрирует преимущества вероятностно-свободных методов при сложных моделях

Абляционные исследования

Обучение версии PF2ℓ1 с использованием потери L1 показало:

  • Кодировщик EvoPF оказывает определённую помощь в предсказании топологии
  • Однако большая часть повышения точности топологии обусловлена функцией потери BayesNJ
  • Демонстрирует преимущества сквозного апостериорного оценивания по сравнению с предсказанием расстояния

Оценка качества апостериорного распределения

Сравнение с выборками MCMC RevBayes показывает:

  • RevBayes производит жёсткие апостериорные распределения (большинство ветвей либо полностью присутствуют, либо полностью отсутствуют)
  • PF2 обеспечивает более мягкие апостериорные распределения, но с высокой согласованностью с RevBayes
  • Ветви, присутствующие во всех деревьях в RevBayes, имеют частоту >0,6 в PF2
  • Невыбранные ветви имеют частоту <0,3 в PF2

Связанные работы

Традиционный филогенетический вывод

  1. Методы максимального правдоподобия: IQTree, FastTree и др., требуют эвристического поиска в пространстве деревьев
  2. Байесовские методы: выборка апостериорного распределения через MCMC, высокие вычислительные затраты
  3. Вариационный вывод: аппроксимация апостериорного распределения, но всё ещё требует вычисления правдоподобия

Вероятностно-свободный филогенетический вывод

  1. Методы четвёрок: упрощение задачи до классификации 3 классов, не масштабируется на большие размеры
  2. Методы предсказания расстояния: Phyloformer предсказывает эволюционные расстояния, затем восстанавливает дерево с помощью NJ
  3. Вклад данной работы: первый сквозной метод полного апостериорного оценивания филогенетических деревьев

Нейронное апостериорное оценивание (NPE)

  • Обучение нейросетевой аппроксимации апостериорного распределения путём минимизации расхождения Кульбака-Лейблера
  • Амортизированный вывод: после обучения скорость вывода чрезвычайно высока
  • Ключевой вызов: разработка подходящей параметризации семейства распределений для филогенетических деревьев

Выводы и обсуждение

Основные выводы

  1. Эффективность метода: Phyloformer 2 успешно реализует вероятностно-свободный апостериорный вывод для филогенетических деревьев
  2. Преимущества в производительности: превосходит существующие методы как по точности, так и по скорости
  3. Масштабируемость: может обрабатывать задачи большего масштаба, чем предыдущие методы
  4. Практическая ценность: открывает новые возможности для вывода при сложных эволюционных моделях

Ограничения

  1. Ограничения масштабируемости: в настоящее время может обрабатывать максимум 200 последовательностей, что ограничивает применение на более крупных наборах данных
  2. Обобщение вне распределения: может давать неточные оценки для входных данных вне обучающих данных без предупреждений
  3. Ограничения выразительной способности:
    • Вложения не обновляются в рекурсивном процессе
    • Апостериорное распределение длин ветвей ограничено определёнными параметрическими распределениями (Гамма и Бета)
  4. Качество калибровки: качество калибровки апостериорного распределения требует дальнейшего исследования

Направления будущих исследований

  1. Более эффективные кодировщики: исследование более эффективных архитектур для обработки задач большего масштаба
  2. Иерархические методы: объединение с существующими эвристическими методами для построения больших деревьев
  3. Оценка неопределённости: предоставление оценок неопределённости предсказаний
  4. Невыровненные последовательности: обработка входных данных невыровненных последовательностей
  5. Более сложные модели: вывод при более широком спектре эволюционных моделей, включающих динамику популяций и совместную эволюцию

Глубокая оценка

Преимущества

  1. Значительный технический прорыв: первая реализация сквозного апостериорного оценивания филогенетических деревьев, преодолевающая ограничения четвёрок
  2. Теоретическая строгость: элегантное решение технических трудностей определения вероятностного распределения через канонический порядок слияния
  3. Комплексные эксперименты: включают различные наборы данных, метрики оценки и методы сравнения, достаточные абляционные исследования
  4. Высокая практическая ценность: значительное повышение скорости и точности имеет важное прикладное значение
  5. Ясное изложение: технические детали описаны четко, архитектурные диаграммы интуитивны и понятны

Недостатки

  1. Ограниченная масштабируемость: ограничение в 200 последовательностей остаётся недостаточным в эпоху геномики
  2. Ограниченная выразительная способность модели: вложения не обновляются в рекурсивном процессе, фиксированные формы параметрических распределений и другие ограничения снижают выразительную способность модели
  3. Недостаточная оценка калибровки: оценка качества калибровки апостериорного распределения относительно проста, требует более глубокого анализа
  4. Проблема с набором данных Cherry: авторы признают использование набора данных Cherry с ошибками, что влияет на достоверность соответствующих выводов

Влияние

  1. Академический вклад: вводит совершенно новую парадигму вероятностно-свободного вывода в область филогенетического вывода
  2. Методологическая ценность: идея декомпозиции BayesNJ может вдохновить вероятностное моделирование других структурированных объектов
  3. Перспективы применения: способность быстрого и точного вывода будет способствовать крупномасштабным эволюционным исследованиям
  4. Воспроизводимость: предоставлены подробные детали реализации и параметры обучения, что облегчает воспроизведение и улучшение

Применимые сценарии

  1. Филогенетический вывод среднего масштаба: филогенетический вывод для 50-200 последовательностей
  2. Сложные эволюционные модели: сценарии, требующие учёта зависимости между позициями или давления отбора
  3. Требования к быстрому выводу: сценарии приложений, требующие большого количества повторных выводов
  4. Байесовский анализ: исследования, требующие апостериорного распределения вместо точечных оценок

Библиография

  1. Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
  2. Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
  3. Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
  4. Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
  5. Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.