🌾 文献解读 · 多倍体 / 祖源推断 / 甘蔗基因组

AdmixPoly 方法解读:多倍体混合祖源推断与甘蔗镶嵌基因组分析

Genome Biology 2026 论文 Deciphering the mosaic genome of sugarcane cultivars through polyploid admixture inference with AdmixPoly:作者提出 R 包 AdmixPoly,把常见的 admixture 分析扩展到高倍性、混合倍性和多等位标记场景,并用它给现代甘蔗栽培种做了一次“硅基染色体涂色”。

Genome Biology · 2026 DOI: 10.1186/s13059-026-04162-3 PMID: 42316312 工具:AdmixPoly R package 更新:2026-06-30

论文主线

多倍体作物的每个基因组位置可能有很多同源拷贝,传统二倍体 admixture 工具很难直接处理。AdmixPoly 要解决的是:高倍性 + 多等位 + 大规模标记下的祖源比例和局部祖源剂量推断。

方法核心

全基因组层面用 EM 估计个体祖源比例和祖先群体等位频率;染色体局部层面用 HMM 估计每个 marker 上各祖源贡献的剂量

应用亮点

在 390 份 Saccharum 及近缘属材料中,作者用过滤后 83,890 个单倍型区域、约 365 万个 haplotype,解析现代甘蔗的 S. officinarum、S. spontaneum 和未知祖源片段。

一句话判断:AdmixPoly 的价值不只是“又一个 admixture 图软件”,而是把多倍体材料常见的 allele dosage、混合倍性、多等位标记和局部祖源推断放到一个可运行的 R 包里;对甘蔗、马铃薯、小麦、香蕉等复杂倍性作物的群体结构、渐渗和育种材料追踪都有参考价值。

1. 文献信息

项目内容
论文Deciphering the mosaic genome of sugarcane cultivars through polyploid admixture inference with AdmixPoly
中文题意通过多倍体混合祖源推断工具 AdmixPoly 解析甘蔗栽培种的镶嵌基因组
作者Simon Rio, Franck Gauthier, Olivier Garsmeur, George Piperidis, Jean-Yves Hoarau, German Serino, Raul Castillo Torres, Shailesh Vinay Joshi, Yoshifumi Terajima, Jershon Lopez-Gerena, María Francisca Perera, Andrew Stoute, Goolam Badaloo, Dongliang Huang, Kerrie Barry, Jeremy Schmutz, Tristan Mary-Huard, Angélique D’Hont
期刊与时间Genome Biology,2026-06-19 online ahead of print / Article in Press
DOI / PMID10.1186/s13059-026-04162-3 / 42316312
工具与数据AdmixPoly:CRAN / CIRAD GitLab / Zenodo,GPL-3.0;甘蔗分析数据:CIRAD Dataverse,CC BY 4.0
开放许可论文为 Open Access,CC BY 4.0;本文复用的论文图页来自原文 PDF,按 CC BY 4.0 标注来源。

2. 为什么需要 AdmixPoly?

传统工具的隐含前提

Structure、ADMIXTURE、fastStructure 等经典工具主要围绕二倍体、双等位或相对简单的 genotype 编码设计。即便 Structure 支持多倍体编码,在现代大规模 marker 数据下,计算时间也可能成为瓶颈。

Entropy 等工具面向多倍体有所扩展,但论文指出它通常限制在较低倍性和双等位 marker 场景,并且在低测序深度下可能出现估计偏差。

多倍体的真实麻烦

多倍体不是简单把二倍体复制几份。一个 marker 上可能有多个等位单倍型,个体之间倍性还可能不同;局部祖源不是“来自 A 或 B”,而是每个位置上不同祖源各占多少个同源拷贝。

因此,真正有用的输出应是 global ancestry proportion + local ancestry dosage,而不是只画一个整体比例条。

对甘蔗尤其如此:现代甘蔗栽培种约有 12 份基本染色体拷贝,来源还混合了驯化种、野生种不同地理亚群,以及一个尚未找到纯代表的未知 Saccharum 祖源。

3. 方法框架:先估整体比例,再沿染色体涂色

1输入

个体 × marker 的 allele dosage,可为双等位或多等位;每个个体可有不同倍性。

2GWAI

全基因组混合祖源推断:估计个体祖源比例 π 和祖先群体等位频率 γ。

3半监督

先用参考群体学习祖先频率,再固定频率推断新杂交群体。

4LAI

基于 marker 顺序和遗传距离/物理距离代理,用 HMM 推断局部祖源剂量。

5输出

整体祖源比例柱状图、每条染色体每个位置的 ancestry dosage。

全基因组祖源推断:EM

AdmixPoly 假设每个 allele 的祖源由个体的全基因组祖源比例决定;在给定祖源后,观测到某个 allele 的概率由该祖源群体的 allele frequency 决定。

实现重点:用 expectation-maximization 估计参数,并加入加速迭代、marker 并行和按需计算 posterior,减少内存压力。

局部祖源推断:HMM

沿染色体看,邻近 marker 的祖源状态不是独立的。AdmixPoly 把每个位置的状态定义为各祖源在同源拷贝中的剂量,例如六倍体中某位置可为 A 祖源 2 份、B 祖源 4 份。

实现重点:用 forward-backward 算法估计每个 marker 上的 ancestry dosage,支持高倍性和多祖源组。
两个关键近似:高倍性 + 多祖源时,HMM 状态空间会爆炸。作者引入 emission probability 近似,以及 transition probability 的两类近似:简化相邻 marker 遗传距离,或限制相邻 marker 间允许的重组次数。这是 AdmixPoly 能跑复杂甘蔗数据的关键。

4. 性能评估:精度接近 Structure,速度快很多

46×单 CPU 下,GWAI 平均比 Structure 快
2063×单 CPU 下,GWAI 平均比 Entropy 快
12x论文复杂场景覆盖到甘蔗约十二倍性

模拟评估包括不同祖源组数、个体数、倍性、marker 数、多等位数量、测序深度和混合发生时间。总体结果是:全基因组层面 AdmixPoly 与 Structure 的 RMSE 接近;低深度双等位场景中 Entropy 误差偏高;局部祖源层面 AdmixPoly 的近似策略在明显加速的同时只带来有限精度损失。

比较对象AdmixPoly 的表现实际意义
Structure全基因组祖源精度相近,但运行速度高几个数量级。适合现代大规模 marker 数据,而不是只做小数据集演示。
Entropy在低测序深度场景,Entropy 的祖源比例估计误差较大;且难以覆盖高倍性多等位复杂场景。AdmixPoly 更适合高倍性、多等位、混合倍性材料。
Ancestry HMM局部祖源推断中,AdmixPoly 速度更快、内存更低、RMSE 更低;Ancestry HMM 在高倍性和多祖源时难以处理。把“局部祖源涂色”推进到甘蔗这样的复杂作物。

5. 甘蔗应用:从祖源比例到“硅基染色体涂色”

390Saccharum 及近缘属材料
80K过滤后用于分析的单倍型区域量级
3.65M过滤后的 haplotypes 数量

作者把 AdmixPoly 应用于 390 份材料:包括 S. robustum、S. edule、S. officinarum、S. spontaneum、S. barberi、S. sinense、现代杂交栽培种、base-broadening germplasm、S. maximum 以及 Tripidium、Miscanthus、Narenga、Erianthus fulvus 等近缘属。

现代栽培种整体祖源

现代甘蔗栽培种平均约 73% 来自 S. officinarum,约 26% 来自 S. spontaneum;不同品种之间 S. spontaneum 的地理亚群来源不同。

未知祖源

80% 的现代栽培种携带未知 Saccharum 祖源,平均约占全基因组 1%。这些片段在品种间有保守共享模式,可能来自早期育种历史中的共同祖先。

S. officinarum / S. robustum / S. edule
被归为一个主要祖源组,用于解释驯化种及其近缘野生来源的主体贡献。
S. spontaneum 三个地理亚群
Continental Asia、Southeast Asia、Northeast Asia 三组分别贡献不同片段;东北亚组在现代栽培种中贡献较少,但可能是抗性或适应性等位基因的潜在来源。
未知 Saccharum 祖源
可能来自东美拉尼西亚或波利尼西亚。POJ2878 几乎携带了其他现代栽培种中多数显著未知祖源片段,提示这些片段可能经早期“wonder cane”传播。

6. 主要结果图示证据

Figure 1 AdmixPoly workflow
Figure 1 · 工作流

AdmixPoly 的两级输出:整体祖源 + 局部祖源剂量

图示信息:GWAI 从参考面板估计祖源比例和祖先 allele frequency;LAI 再结合 marker 顺序/遗传图谱推断染色体上每个位置的 ancestry dosage。
论文结果:作者把 admixture 分析从二倍体式“比例条”扩展到多倍体的同源拷贝剂量。
研究意义:对甘蔗这类高倍性作物,局部祖源剂量比整体比例更接近育种需要,因为目标性状常与特定染色体片段有关。
Figure 2 Genome-wide admixture benchmark
Figure 2 · 全基因组祖源 benchmark

AdmixPoly 精度接近 Structure,低深度下优于 Entropy

图示信息:比较两种模拟场景下祖源比例和祖先等位频率的 RMSE;Scenario 2 涉及 12 倍性、每 marker 10 个 allele,Entropy 无法应用。
论文结果:AdmixPoly 和 Structure 的误差都较低;1x 深度下 Entropy 的祖源比例估计偏离明显。
研究意义:AdmixPoly 的优势不是单纯更准,而是在接近 Structure 精度的同时能处理更复杂、规模更大的数据。
Figure 3 Local admixture approximation
Figure 3 · 局部祖源近似策略

让高倍性 HMM 可计算

图示信息:比较 exact/approx emission 的 RMSE 与耗时,以及多种 transition 近似的 RMSE、耗时和内存。
论文结果:emission 近似在 allele 数增多时带来数量级加速,精度损失有限;transition 的 DistInt 或 MaxRec 近似可显著降低时间/内存。
研究意义:这部分是方法能否落地到甘蔗的关键,否则 12 倍性、6 个祖源组会产生巨大的状态空间。
Figure 4 Saccharum genome-wide admixture
Figure 4 · Saccharum 全基因组祖源

现代甘蔗主要来自 S. officinarum,混入多个 S. spontaneum 亚群

图示信息:条形图展示野生材料、近缘属、现代栽培种和历史杂交材料的六类祖源比例。
论文结果:现代栽培种平均约 73% S. officinarum、26% S. spontaneum,且约 80% 带有平均约 1% 的未知祖源。
研究意义:它给出甘蔗现代育种材料的“家谱比例图”,也提示不同 S. spontaneum 地理来源在不同育种系中的贡献差异。
Figure 5 R570 local admixture
Figure 5 · R570 局部祖源

一条条染色体上看每个祖源贡献了多少拷贝

图示信息:展示现代栽培种 R570 在 Chr1–Chr10 上的局部祖源剂量。
论文结果:AdmixPoly 找到 R570 中已知的未知祖源片段,还额外识别出 Chr5 和 Chr8 上的片段;与遗传作图推断的 chromosome 5 局部祖源高度一致。
研究意义:这是“in silico chromosome painting”:不靠每个品种都做细胞遗传学,也能在全基因组尺度追踪祖源片段。
Figure 6 Unknown ancestor segments
Figure 6 · 未知祖源共享片段

未知祖源片段在现代栽培种中呈保守共享模式

图示信息:按染色体展示未知祖源在现代/历史杂交栽培种中的局部剂量,POJ2878 用红星与红线标注。
论文结果:共享片段主要出现在 Chr1、Chr2、Chr5、Chr8、Chr10,多数为单拷贝,也可达三拷贝;POJ2878 携带了多数显著片段。
研究意义:未知祖源可能不只是“背景噪声”,而是早期甘蔗育种中被保留下来的遗传资源,后续可作为预育种和性状定位的线索。

图像来源:Rio et al., Genome Biology 2026, DOI: 10.1186/s13059-026-04162-3,原文 CC BY 4.0。为网页展示进行了压缩与版式嵌入。

7. 这个工具适合怎么用?

适用场景

  • 多倍体作物或野生种群的群体结构分析。
  • 已知或假设存在多个祖源群体,需要估计杂交/渐渗比例。
  • 需要把祖源贡献定位到染色体局部片段。
  • 材料存在混合倍性,或 marker 是多等位 haplotype dosage。
  • 育种项目中追踪野生种片段、抗性来源或 base-broadening germplasm。

不适用或需谨慎

  • 祖先群体本身未采样或定义不清时,K 的解释会变得主观。
  • 局部祖源推断仍依赖 marker 顺序和遗传距离;物理距离只是代理。
  • 非常低测序深度下,局部祖源 RMSE 会升高。
  • 如果目标只是普通二倍体 SNP admixture,经典 ADMIXTURE/fastStructure 可能更简单。
  • 复杂 HMM 的近似会带来少量精度损失,应结合模拟或已知材料验证。

最小使用路径

install.packages("AdmixPoly") # 输入通常是个体 × marker 的 allele dosage / haplotype presence-absence 数据 # 先做 genome-wide admixture,再用祖源比例和祖先 allele frequency 做 local admixture

CRAN 页面说明 AdmixPoly 1.0.1 支持 bi- and multi-allelic marker dosages,依赖 Rcpp/RcppArmadillo/OpenMP;正式分析前应先阅读包文档和论文补充伪代码。

8. 局限与读法提醒

方法边界

K 值选择不能只看 BIC 或 likelihood,还要结合物种历史。论文也提醒,K 的选择主要应由群体历史知识指导。对于“未知祖源”这种没有纯代表的群体,作者需要借助之前 repeated k-mer 和细胞遗传学结果手动引入其贡献。

甘蔗结论边界

未知祖源平均只占约 1%,但可能涉及关键历史片段。它是否真的贡献产量、宿根性、抗病或抗逆性,还需要后续 GWAS/QTL/功能验证,而不能仅凭祖源保守性下结论。

读这篇文章的重点:方法上看“多倍体 admixture 如何从不可算变成可算”;应用上看“甘蔗育种史中的野生种和未知祖源片段如何被定位”。不要把它读成单纯的甘蔗分类文章,也不要把祖源片段直接等同于功能基因。

9. 代码、数据、资金与声明

类别信息
R 包CRAN: AdmixPoly;CIRAD GitLab: agap/seg/admixpoly;Zenodo 归档:10.5281/zenodo.20442536;许可证 GPL-3.0。
甘蔗数据CIRAD Dataverse: Haplotyping and admixture results for a diversity panel of 390 Saccharum accessions and related genera,CC BY 4.0。
WGS 数据论文列出 NCBI BioProject:PRJNA1228676、PRJNA1209834、PRJNA721787、PRJNA333303、PRJNA456890。
参考基因组R570 sugarcane cultivar reference genome assembly v2.1,Phytozome/JGI。
资金DOE Joint Genome Institute / U.S. Department of Energy Office of Science,合同 DE-AC02-05CH11231;CIRAD 工作由 International Consortium for Sugarcane Biotechnology (ICSB37) 支持。
利益冲突作者声明无 competing interests;伦理审批和发表同意均不适用。