2025-11-24T11:34:17.231709

Likelihood-free inference of phylogenetic tree posterior distributions

Blassel, Boussau, Lartillot et al.
Phylogenetic inference, the task of reconstructing how related sequences evolved from common ancestors, is a central task in evolutionary genomics. The current state-of-the-art methods exploit probabilistic models of sequence evolution along phylogenetic trees, by searching for the tree maximizing the likelihood of observed sequences, or by estimating the posterior of the tree given the sequences in a Bayesian framework. Both approaches typically require to compute likelihoods, which is only feasible under simplifying assumptions such as independence of the evolution at the different positions of the sequence, and even then remains a costly operation. Here we present Phyloformer 2, the first likelihood-free inference method for posterior distributions over phylogenies. Phyloformer 2 exploits a novel encoding for pairs of sequences that makes it more scalable than previous approaches, and a parameterized probability distribution factorized over a succession of subtree merges. The resulting network provides accurate estimates of the posterior distribution, and outperforms both state-of-the-art maximum likelihood methods and a previous likelihood-free method for point estimation. It opens the way to fast and accurate phylogenetic inference under realistic models of sequence evolution.
academic

계통발생 나무 후방분포의 우도 없는 추론

기본 정보

  • 논문 ID: 2510.12976
  • 제목: Likelihood-free inference of phylogenetic tree posterior distributions
  • 저자: Luc Blassel, Bastien Boussau, Nicolas Lartillot, Laurent Jacob
  • 분류: q-bio.PE (개체군 및 진화), q-bio.QM (정량적 방법)
  • 발표 시간: 2024년 10월 14일 (arXiv 사전인쇄본)
  • 논문 링크: https://arxiv.org/abs/2510.12976v1

초록

계통발생 추론은 진화 유전체학의 핵심 과제로, 관련 서열이 공통 조상으로부터 어떻게 진화했는지를 재구성하는 것을 목표로 한다. 현재 최첨단 방법들은 계통발생 나무를 따라 진화하는 서열의 확률 모델을 활용하여, 관측된 서열의 우도를 최대화하는 나무를 찾거나 베이지안 프레임워크에서 주어진 서열에 대한 나무의 후방분포를 추정한다. 이 두 방법 모두 일반적으로 우도 함수의 계산을 필요로 하는데, 이는 단순화된 가정(예: 서열의 서로 다른 위치에서의 진화 독립성) 하에서만 가능하며, 그렇더라도 계산 비용이 많이 든다. 본 논문은 계통발생 후방분포에 대한 첫 번째 우도 없는 추론 방법인 Phyloformer 2를 제안한다. Phyloformer 2는 새로운 서열 쌍 인코딩 방식을 활용하여 이전 방법보다 더 확장 가능하며, 연속 소형 나무 병합을 기반으로 한 확률분포 분해를 채택한다. 이 신경망은 정확한 후방분포 추정을 제공하며, 점 추정 측면에서 최첨단 최대우도 방법과 이전의 우도 없는 방법을 능가한다.

연구 배경 및 동기

문제 정의

계통발생 추론은 현존하는 서열 집합의 진화 역사를 재구성하는 과제로, 공통 조상으로부터 어떻게 분화했는지를 설명하는 이진 나무 구조를 결정해야 한다. 이 과제는 여러 분야에서 중요한 의미를 갖는다:

  1. 진화 생물학: 현존 종이 공통 조상으로부터 어떻게 진화했는지 이해
  2. 질병 전파: 세균 항생제 내성의 출현 및 전파 추적
  3. 역학: 질병 확산 패턴 모니터링

기존 방법의 한계

전통적인 계통발생 추론 방법은 주로 확률 모델에 의존하며, 다음과 같은 주요 문제에 직면한다:

  1. 계산 복잡도: 우도 함수 계산은 비용이 많이 드는 가지치기 알고리즘(Felsenstein, 1981)을 필요로 함
  2. 거대한 탐색 공간: n개의 잎 노드를 가진 나무의 위상 수는 (2n-5)!!이며, 탐색이 극히 어려움
  3. 모델 단순화 가정: 계산을 가능하게 하기 위해 서열의 각 위치가 독립적이고 동일하게 분포하며 자연선택을 무시한다고 가정해야 함
  4. 비현실적인 시뮬레이션 결과: 이러한 단순화 가정은 비현실적인 서열 집합을 생성하고 계통발생 재구성에서 인공물을 야기함

연구 동기

우도 없는 추론(시뮬레이션 기반 추론)은 이러한 문제를 해결하기 위한 새로운 패러다임을 제공한다:

  • 우도 평가가 불가능하지만 샘플링 비용이 낮을 때 효과적으로 추정할 수 있음
  • 시뮬레이션된 데이터에서 신경망을 훈련하여 후방분포를 근사하는 심층 학습 활용
  • 상각된 추론: 훈련은 시간이 걸리지만 추론은 매우 빠름
  • 더 복잡하고 현실적인 진화 모델을 처리할 수 있음

핵심 기여

  1. 첫 번째 엔드-투-엔드 우도 없는 후방분포 추정 방법: 서열에서 계통발생으로 직접 가는 첫 번째 우도 없는 후방분포 추정 방법을 제안하여 4중체(quartet)에만 국한된 이전 작업을 초월함
  2. 새로운 신경망 아키텍처 EvoPF: AlphaFold 2의 EvoFormer에서 영감을 받아 더 확장 가능하고 표현력 있는 서열 인코더를 설계하여 200개 이상의 서열을 처리할 수 있음
  3. BayesNJ 확률분포 분해: 연속 병합 과정을 기반으로 한 계통발생 확률분포 매개변수화 방법을 제안하여 확률분포의 정확성을 보장함
  4. 현저한 성능 향상: 위상 정확도에서 최첨단 우도 기반 방법을 능가하며, 추론 속도를 1-2개 수준 향상시킴
  5. 복잡한 모델 적용 가능성: 우도가 계산 불가능한 모델에서도 훈련할 수 있으며, 잘못 지정된 우도 기반 추정기와 비교하여 성능 격차가 더욱 확대됨

방법 상세 설명

과제 정의

입력: 정렬된 서열 집합 x={x1,,xN}x = \{x_1, \ldots, x_N\}, 각 서열은 L개의 문자 포함 출력: 계통발생 θ=(τ,)\theta = (\tau, \ell), 위상 구조 τ\tau와 분기 길이 \ell 포함 목표: 후방분포 p(θx)p(\theta|x)의 근사 qψ(θx)q_\psi(\theta|x) 학습

모델 아키텍처

Phyloformer 2는 두 개의 핵심 모듈로 구성된다:

1. EvoPF 인코더

EvoPF는 EvoFormer의 전치 버전으로, 두 가지 표현을 유지한다:

  • MSA 스택: 각 서열의 각 위치에서의 임베딩
  • 쌍 스택: 각 서열 쌍의 임베딩

주요 설계:

  • 축 방향 주의: MSA 스택에서 열 방향(위치 내 서열 간)과 행 방향(서열 내 위치 간) 자기주의를 교대로 사용
  • 쌍 간 평탄 자기주의: EvoFormer의 삼각 주의를 단순화
  • 정보 상호작용: 외적 평균과 쌍 편향을 통해 MSA 스택과 쌍 스택 간 정보 전달

2. BayesNJ 확률분포

계통발생 상의 확률분포를 정의하고 연속 병합 과정으로 분해:

qψ(x)(θ=(τ,)x)=k=12N3qm(m(k)m(<k))q((k)m(k),m(<k))q_{\psi(x)}(\theta = (\tau, \ell)|x) = \prod_{k=1}^{2N-3} q_m(m^{(k)}|m^{(<k)}) q_\ell(\ell^{(k)}|m^{(k)}, m^{(<k)})

주요 혁신:

  • 정규화된 병합 순서: 각 계통발생이 정확히 하나의 유효한 병합 순서를 갖도록 보장
  • 제약 처리: 거리 제약을 통해 샘플링과 평가의 일관성 보장
  • 분기 길이 매개변수화: 합(s(k)s^{(k)})과 비율(r(k)r^{(k)})을 사용한 재매개변수화, Gamma 및 Beta 분포로 모델링

기술 혁신 포인트

  1. 확장 가능한 인코딩 방식: Phyloformer의 서열 쌍 표현에 비해 EvoPF는 표현력을 유지하면서 확장성을 크게 향상시킴
  2. 확률분포의 정확한 정의: 정규화된 병합 순서를 통해 동일한 계통발생이 여러 병합 순서로 생성될 수 있는 문제 해결
  3. 엔드-투-엔드 훈련: 거리 예측의 중간 단계를 피하고 후방확률을 직접 최적화
  4. 제약 만족: 동적 제약 행렬을 통해 샘플링된 계통발생이 정규화된 순서를 준수하도록 보장

실험 설정

데이터셋

  1. 주요 훈련 집합: LG+G8 모델을 기반으로 한 130만 개의 50 분류군 나무/MSA 쌍
  2. 다중 크기 데이터셋: 10-170 분류군, 분류군 수에 대한 과적합을 피하기 위한 미세 조정용
  3. 복잡한 모델 데이터셋: Cherry 모델(위치 간 의존성)과 SelReg 모델(위치 간 이질성)
  4. MCMC 비교 데이터셋: RevBayes 사전을 사용하여 생성, 후방분포 품질 평가용

평가 지표

  1. 위상 정확도: 정규화된 Robinson-Foulds 거리
  2. 분기 길이 정확도: Kuhner-Felsenstein 거리
  3. 후방분포 품질: MCMC 샘플과의 분할 빈도 비교
  4. 계산 효율성: 실행 시간 및 메모리 사용량

비교 방법

  • 우도 기반: IQTree, FastTree, FastME
  • 우도 없는: 원본 Phyloformer (PF)
  • 변형: PF2topo(위상만), PF2ℓ1(L1 손실)

실험 결과

주요 결과

위상 정확도 향상

10-200 분류군의 테스트에서 Phyloformer 2는 모든 비교 방법을 크게 능가한다:

  • 모든 크기에서 원본 PF에 비해 현저한 개선
  • 10-175개 잎의 나무에 대해 IQTree 및 FastTree 등 최첨단 최대우도 방법 능가
  • 성능 우위는 주로 정확한 사전을 사용한 후방분포 추정에서 비롯됨

계산 효율성 대폭 향상

  • 속도: FastTree보다 1개 수준 빠르고, IQTree보다 2개 수준 빠름
  • 확장성: 메모리 집약적이지만 PF보다 확장성이 우수하며, 더 큰 나무를 처리할 수 있음
  • PF2topo: 위상만 포함한 버전은 원본 PF보다 거의 1개 수준 빠름

복잡한 모델에서의 우위

우도가 계산 불가능한 모델(Cherry 및 SelReg)에서:

  • PF2는 동등한 PF 모델을 크게 능가
  • 잘못 지정된 우도 기반 방법과 비교하여 성능 격차가 더욱 확대
  • 복잡한 모델에서 우도 없는 방법의 우위를 입증

소거 실험

L1 손실을 사용하는 PF2ℓ1 버전 훈련을 통해 발견:

  • EvoPF 인코더는 위상 예측에 어느 정도 도움이 됨
  • 그러나 대부분의 위상 정확도 향상은 BayesNJ 손실 함수에서 비롯됨
  • 거리 예측에 비한 엔드-투-엔드 후방분포 추정의 우위를 입증

후방분포 품질 평가

RevBayes MCMC 샘플과의 비교 결과:

  • RevBayes는 경직된 후방분포를 생성(대부분의 분기는 모두 나타나거나 전혀 나타나지 않음)
  • PF2는 더 부드러운 후방분포를 제공하지만 RevBayes와 높은 일관성 유지
  • RevBayes의 모든 나무에서 나타나는 분기는 PF2에서 빈도 > 0.6
  • 샘플링되지 않은 분기는 PF2에서 빈도 < 0.3

관련 연구

전통적 계통발생 추론

  1. 최대우도 방법: IQTree, FastTree 등, 나무 공간의 휴리스틱 탐색 필요
  2. 베이지안 방법: MCMC를 통해 후방분포 샘플링, 계산 비용 높음
  3. 변분 추론: 후방분포 근사, 여전히 우도 계산 필요

우도 없는 계통발생 추론

  1. 4중체 방법: 문제를 3가지 분류로 단순화, 더 큰 규모로 확장 불가
  2. 거리 예측 방법: Phyloformer는 진화 거리를 예측한 후 NJ로 나무 재구성
  3. 본 논문의 기여: 첫 번째 엔드-투-엔드 전체 계통발생 후방분포 추정 방법

신경 후방분포 추정(NPE)

  • KL 발산 최소화를 통해 후방분포의 신경망 근사 학습
  • 상각된 추론: 훈련 후 추론 속도 극히 빠름
  • 핵심 과제: 계통발생에 적합한 매개변수화 분포족 설계

결론 및 논의

주요 결론

  1. 방법의 유효성: Phyloformer 2는 계통발생의 우도 없는 후방분포 추정을 성공적으로 구현
  2. 성능 우위: 정확도와 속도 모두에서 기존 방법을 능가
  3. 확장성: 이전 방법보다 더 큰 규모의 문제를 처리할 수 있음
  4. 실용적 가치: 복잡한 진화 모델에서의 추론을 위한 새로운 경로 개척

한계

  1. 확장성 제한: 현재 최대 200개 서열 처리, 더 큰 데이터셋에서의 적용 제한
  2. 분포 외 일반화: 훈련 데이터 외의 입력에 대해 정확하지 않은 추정을 생성할 수 있으며 경고 없음
  3. 표현력 제한:
    • 임베딩이 재귀 과정에서 업데이트되지 않음
    • 분기 길이 후방분포가 특정 매개변수 분포(Gamma 및 Beta)로 제한됨
  4. 보정 품질: 후방분포의 보정 품질은 추가 연구 필요

향후 방향

  1. 더 효율적인 인코더: 더 큰 규모 문제를 처리하기 위한 더 효율적인 아키텍처 탐색
  2. 계층적 방법: 기존 휴리스틱 방법과 결합하여 더 큰 나무 구축
  3. 불확실성 평가: 예측 불확실성의 평가 제공
  4. 정렬되지 않은 서열: 정렬되지 않은 서열 입력 처리
  5. 더 복잡한 모델: 개체군 동역학 및 협진화를 포함하는 더 광범위한 진화 모델에서의 추론

심층 평가

장점

  1. 중대한 기술적 돌파: 엔드-투-엔드 계통발생 후방분포 추정을 처음으로 구현하여 4중체의 한계 돌파
  2. 이론적 엄밀성: 정규화된 병합 순서를 통해 확률분포 정의의 기술적 난제를 교묘하게 해결
  3. 포괄적인 실험: 다양한 데이터셋, 평가 지표 및 비교 방법 포함, 소거 실험 충분
  4. 높은 실용적 가치: 현저한 속도 향상 및 정확도 개선은 중요한 응용 가치 보유
  5. 명확한 작성: 기술 세부사항이 명확하게 설명되고 아키텍처 다이어그램이 직관적이고 이해하기 쉬움

부족한 점

  1. 여전한 확장성 제한: 200개 서열의 제한은 게놈 시대에 여전히 부족
  2. 모델 표현력: 재귀 과정에서 임베딩 미업데이트, 매개변수 분포 형식 고정 등이 모델 표현력 제한
  3. 보정 평가 부족: 후방분포 보정 품질의 평가가 상대적으로 단순하며 더 깊이 있는 분석 필요
  4. Cherry 데이터셋 문제: 오류가 있는 Cherry 데이터셋 사용을 인정하여 관련 결론의 신뢰성 영향

영향력

  1. 학술적 기여: 계통발생 추론 분야에 완전히 새로운 우도 없는 패러다임 도입
  2. 방법론적 가치: BayesNJ의 분해 아이디어는 다른 구조화된 객체의 확률 모델링에 영감을 줄 수 있음
  3. 응용 전망: 빠르고 정확한 추론 능력은 대규모 진화 연구를 촉진할 것
  4. 재현성: 상세한 구현 세부사항 및 훈련 매개변수 제공으로 재현 및 개선 용이

적용 시나리오

  1. 중간 규모 계통발생: 50-200개 서열의 계통발생 추론
  2. 복잡한 진화 모델: 위치 간 의존성 또는 선택압을 고려해야 하는 시나리오
  3. 빠른 추론 필요: 대량의 반복 추론이 필요한 응용 시나리오
  4. 베이지안 분석: 점 추정이 아닌 후방분포가 필요한 연구

참고문헌

  1. Felsenstein, J. (1981). Evolutionary trees from DNA sequences: a maximum likelihood approach.
  2. Minh, B. Q., et al. (2020). IQ-TREE 2: New models and efficient methods for phylogenetic inference.
  3. Nesterenko, L., et al. (2025). Phyloformer: Fast, accurate, and versatile phylogenetic reconstruction.
  4. Lueckmann, J.-M., et al. (2021). Benchmarking simulation-based inference.
  5. Jumper, J., et al. (2021). Highly accurate protein structure prediction with AlphaFold.