2025-11-14T08:01:10.960100

Infectious diseases, imposing density-dependent mortality on MHC/HLA variation, can account for balancing selection and MHC/HLA polymorphism

Green
The human MHC transplantation loci (HLA-A, -B, -C, -DPB1, -DQB1, -DRB1) are the most polymorphic in the human genome. It is generally accepted this polymorphism reflects a role in presenting pathogen-derived peptide to the adaptive immune system. Proposed mechanisms for the polymorphism such as negative frequency-dependent selection (NFDS) and heterozygote advantage (HA) focus on HLA alleles, not haplotypes. Here, we propose a model for the polymorphism in which infectious diseases impose independent density-dependent regulation on HLA haplotypes. More specifically, a complex pathogen environment drives extensive host polymorphism through a guild of HLA haplotypes that are specialised and show incomplete peptide recognition. Separation of haplotype guilds is maintained by limiting similarity. The outcome is a wide and stable range of haplotype densities at steady-state in which effective Fisher fitnesses are zero. Densities, and therefore frequencies, emerge theoretically as alternative measures of fitness. A catalogue of ranked frequencies is therefore one of ranked fitnesses. The model is supported by data from a range of sources including a Caucasian HLA dataset compiled by the US National Marrow Donor Program (NMDP). These provide evidence of positive selection on the top 350-2000 5-locus HLA haplotypes taken from an overall NMDP sample set of 10E5. High-fitness haplotypes drive the selection of 137 high-frequency alleles spread across the 5 HLA loci under consideration. These alleles demonstrate positive epistasis and pleiotropy in the formation of haplotypes. Allelic pleiotropy creates a network of highly inter-related HLA haplotypes that account for 97% of the census sample. We suggest this network has properties of a quasi-species and is itself under selection. We also suggest this is the origin of balancing selection in the HLA system.
academic

Infectious diseases, imposing density-dependent mortality on MHC/HLA variation, can account for balancing selection and MHC/HLA polymorphism

基本信息

  • 论文ID: 2501.00767
  • 标题: Infectious diseases, imposing density-dependent mortality on MHC/HLA variation, can account for balancing selection and MHC/HLA polymorphism
  • 作者: D. P. L. Green
  • 分类: q-bio.PE (Population and Evolution), q-bio.MN (Molecular Networks)
  • 发表时间: 31 December 2024
  • 论文链接: https://arxiv.org/abs/2501.00767

摘要

人类主要组织相容性复合体(MHC)移植基因座(HLA-A, -B, -C, -DPB1, -DQB1, -DRB1)是人类基因组中多态性最高的区域。普遍认为这种多态性反映了其在向适应性免疫系统呈递病原体衍生肽段中的作用。目前提出的多态性机制如负频率依赖性选择(NFDS)和杂合子优势(HA)主要关注HLA等位基因而非单倍型。本研究提出了一个新模型,认为感染性疾病对HLA单倍型施加独立的密度依赖性调节。具体而言,复杂的病原体环境通过专门化且表现出不完全肽段识别的HLA单倍型群体驱动宿主的广泛多态性。单倍型群体之间的分离通过限制相似性来维持。结果是在稳态下产生广泛且稳定的单倍型密度范围,其中有效Fisher适合度为零。密度和频率在理论上成为适合度的替代度量。基于美国国家骨髓捐献计划(NMDP)高加索人HLA数据集的分析支持该模型,提供了对350-2000个顶级5基因座HLA单倍型正选择的证据。高适合度单倍型驱动137个高频等位基因的选择。这些等位基因在单倍型形成中表现出正上位性和多效性,创建了一个高度相互关联的HLA单倍型网络,占样本总数的97%。

研究背景与动机

问题定义

HLA系统的极端多态性是进化生物学中的经典问题。现有理论主要包括:

  1. 负频率依赖性选择(NFDS): 稀有等位基因具有选择优势
  2. 杂合子优势(HA): 杂合子个体具有更高适合度
  3. 环境变化: 时空环境变化维持多态性

现有方法的局限性

  1. 聚焦等位基因而非单倍型: 忽略了单倍型水平的选择压力
  2. 缺乏人口生物学基础: 未考虑密度依赖性效应
  3. 理论与数据不符: 难以解释观察到的频率分布模式
  4. 忽略病原体传播的流行病学特征: 未考虑疾病传播的密度依赖性

研究动机

作者提出需要一个新的理论框架来解释:

  • HLA等位基因和单倍型的重尾频率分布
  • 高频单倍型中的正连锁不平衡
  • 常见5基因座单倍型的超额纯合性
  • 跨物种多态性的长期维持

核心贡献

  1. 提出密度依赖性调节模型: 将感染性疾病作为HLA单倍型密度依赖性死亡率的来源
  2. 建立单倍型选择理论: 证明选择主要作用于单倍型而非等位基因水平
  3. 发现HLA网络结构: 识别出137个核心等位基因构成的高度相互关联网络
  4. 提供实证支持: 基于NMDP大规模数据集验证理论预测
  5. 重新定义平衡选择: 将平衡选择解释为密度依赖性调节的结果

方法详解

理论框架

密度依赖性调节模型

基于Verhulst逻辑方程和Anderson-May疾病传播方程:

dN/dt = rN - αN²

其中:

  • N: 单倍型密度
  • r: 内在增长率(Fisher适合度)
  • α: 密度依赖性死亡率系数

稳态条件

在稳态下(dN/dt = 0):

r = αN*

对于多个单倍型共存:

α₁N₁* = α₂N₂* = ... = αᵢNᵢ* = r̃

Neher-Shraiman模型扩展

将单倍型适合度分解为:

F = E + A

其中E为上位性组分,A为加性组分。

数据分析方法

对数-对数秩-频率分析

使用Belevitch语言学分析方法:

log(pᵢ/p₀) = -A log(i/i₀)

网络分析

  • 识别高频等位基因的多效性模式
  • 分析单倍型间的连接度
  • 量化上位性效应

实验设置

数据集

  • NMDP高加索人数据集: 包含~10⁵个个体的5基因座HLA单倍型数据
  • 覆盖基因座: HLA-A, -B, -C, -DRB1, -DQB1
  • 样本规模: 85,000个单倍型,频率跨越6个数量级

分析指标

  • 秩-频率分布模式
  • 连锁不平衡(D')
  • Shannon熵
  • 上位性效应大小

对比分析

  • 实际频率 vs 期望频率(基于等位基因频率乘积)
  • 高频 vs 低频单倍型的连锁不平衡模式
  • 核心等位基因 vs 稀有等位基因的分布

实验结果

主要发现

1. 双峰单倍型分布

  • 选择群体: 350-2000个高频单倍型(占样本80%)
  • 中性/负选择群体: 低频单倍型(占样本20%)
  • 转换点: 约1730位

2. 核心等位基因网络

识别出137个核心等位基因:

  • HLA-A: 30个等位基因(累积频率99.7%)
  • HLA-B: 40个等位基因(累积频率98.6%)
  • HLA-C: 20个等位基因(累积频率99.6%)
  • HLA-DQB1: 15个等位基因(累积频率99.9%)
  • HLA-DRB1: 31个等位基因(累积频率99.3%)

3. 幂律分布特征

高频单倍型遵循幂律分布:

y = 0.0506x^(-0.822)

4. 正上位性证据

  • 实际单倍型频率跨越5个数量级
  • 期望频率(基于等位基因频率乘积)仅跨越1个数量级
  • 上位性组分占高频等位基因频率的9-12%

超型分析

将核心等位基因映射到HLA超型:

  • 古老核心等位基因(可能来源于尼安德特人/丹尼索瓦人)在高频等位基因中占主导
  • 超型内部表现出竞争排斥模式
  • 超型间表现出限制相似性

长程连锁分析

HLA-B~DRB1配对分析显示:

  • 1240个可能配对中约250个(20%)处于选择压力下
  • 两个主要配对:B08:01g/DRB103:01g(8%)和B07:02/DRB115:01(6.9%)

理论意义与讨论

对平衡选择理论的重新审视

传统理论的局限

  1. 杂合子优势: 要求所有等位基因具有近似相等的适合度,与观察不符
  2. 负频率依赖性选择: 预测的等位基因更替速度过快,无法解释跨物种多态性
  3. 忽略流行病学: 未考虑疾病传播的密度依赖性特征

新模型的优势

  1. 密度依赖性调节: 自动产生零有效适合度,实现稳定共存
  2. 单倍型选择: 更好解释观察到的连锁不平衡模式
  3. 网络效应: 解释等位基因多效性和单倍型相互关联性

进化策略类比

"恩尼格玛密码机"类比

HLA系统类似于二战时期的恩尼格玛密码机:

  • 多转子设计: 多基因座单倍型增加破解难度
  • 设置分散: 多态性限制病原体突破的影响范围
  • 广谱低亲和力: 与抗体高亲和力策略形成对比

Red Queen动力学

  • 病原体: 快速繁殖,高突变率
  • 宿主防御: 相对稳定的呈递系统 + 快速T细胞扩增反应
  • 平衡点: 通过单倍型网络实现防御多样化

准物种特征

HLA网络表现出准物种特征:

  • 高度相互关联: 通过等位基因多效性连接
  • 网络选择: 整个网络而非单个单倍型处于选择压力下
  • 稳定性: 通过密度依赖性调节维持

局限性与未来方向

当前局限性

  1. 上位性机制未明: 正上位性的具体分子机制需要进一步阐明
  2. 时间尺度问题: 网络稳定性的时间尺度需要更多历史数据验证
  3. 种群特异性: 主要基于高加索人群数据,需要扩展到其他人群
  4. 病原体数据缺乏: 缺乏系统性的病原体-HLA相互作用矩阵

未来研究方向

  1. 功能验证: 使用AlphaFold等结构预测工具研究上位性机制
  2. 跨人群比较: 分析不同人群HLA网络的功能重叠
  3. 历史稳定性: 利用古DNA数据验证网络频率稳定性
  4. 感染矩阵: 构建病原体肽段-HLA单倍型识别矩阵

深度评价

优点

  1. 理论创新: 首次将密度依赖性调节引入HLA多态性解释
  2. 数据支持充分: 基于大规模NMDP数据集的系统分析
  3. 跨学科整合: 成功整合人口生物学、流行病学和免疫遗传学
  4. 解释力强: 统一解释多个长期存在的观察现象

不足

  1. 机制细节: 上位性的分子基础仍需实验验证
  2. 模型简化: 病原体环境的复杂性可能被过度简化
  3. 预测能力: 模型对未来进化动态的预测能力有待验证

影响力评估

该研究可能对以下领域产生重要影响:

  1. 进化免疫学: 重新定义MHC进化的理论框架
  2. 个性化医学: 为基于HLA的疾病易感性预测提供新视角
  3. 疫苗设计: 指导考虑人群HLA多样性的疫苗开发策略

适用场景

  • MHC/HLA多态性的进化分析
  • 人群免疫遗传学研究
  • 传染病流行病学建模
  • 个性化免疫治疗设计

结论

本研究提出了一个创新的理论框架,将HLA多态性解释为病原体施加的密度依赖性选择的结果。通过大规模数据分析,作者发现HLA系统形成了一个由137个核心等位基因构成的高度相互关联网络,该网络通过正上位性和多效性维持稳定的多态性。这一发现不仅为理解MHC进化提供了新视角,也为相关的医学应用奠定了理论基础。