AdmixPoly 方法解读：多倍体混合祖源推断与甘蔗镶嵌基因组分析

论文主线

多倍体作物的每个基因组位置可能有很多同源拷贝，传统二倍体 admixture 工具很难直接处理。AdmixPoly 要解决的是：高倍性 + 多等位 + 大规模标记下的祖源比例和局部祖源剂量推断。

方法核心

全基因组层面用 EM 估计个体祖源比例和祖先群体等位频率；染色体局部层面用 HMM 估计每个 marker 上各祖源贡献的剂量。

应用亮点

在 390 份 Saccharum 及近缘属材料中，作者用过滤后 83,890 个单倍型区域、约 365 万个 haplotype，解析现代甘蔗的 S. officinarum、S. spontaneum 和未知祖源片段。

一句话判断：AdmixPoly 的价值不只是“又一个 admixture 图软件”，而是把多倍体材料常见的 allele dosage、混合倍性、多等位标记和局部祖源推断放到一个可运行的 R 包里；对甘蔗、马铃薯、小麦、香蕉等复杂倍性作物的群体结构、渐渗和育种材料追踪都有参考价值。

1. 文献信息

项目	内容
论文	Deciphering the mosaic genome of sugarcane cultivars through polyploid admixture inference with AdmixPoly
中文题意	通过多倍体混合祖源推断工具 AdmixPoly 解析甘蔗栽培种的镶嵌基因组
作者	Simon Rio, Franck Gauthier, Olivier Garsmeur, George Piperidis, Jean-Yves Hoarau, German Serino, Raul Castillo Torres, Shailesh Vinay Joshi, Yoshifumi Terajima, Jershon Lopez-Gerena, María Francisca Perera, Andrew Stoute, Goolam Badaloo, Dongliang Huang, Kerrie Barry, Jeremy Schmutz, Tristan Mary-Huard, Angélique D’Hont
期刊与时间	Genome Biology，2026-06-19 online ahead of print / Article in Press
DOI / PMID	10.1186/s13059-026-04162-3 / 42316312
工具与数据	AdmixPoly：CRAN / CIRAD GitLab / Zenodo，GPL-3.0；甘蔗分析数据：CIRAD Dataverse，CC BY 4.0
开放许可	论文为 Open Access，CC BY 4.0；本文复用的论文图页来自原文 PDF，按 CC BY 4.0 标注来源。

2. 为什么需要 AdmixPoly？

传统工具的隐含前提

Structure、ADMIXTURE、fastStructure 等经典工具主要围绕二倍体、双等位或相对简单的 genotype 编码设计。即便 Structure 支持多倍体编码，在现代大规模 marker 数据下，计算时间也可能成为瓶颈。

Entropy 等工具面向多倍体有所扩展，但论文指出它通常限制在较低倍性和双等位 marker 场景，并且在低测序深度下可能出现估计偏差。

多倍体的真实麻烦

多倍体不是简单把二倍体复制几份。一个 marker 上可能有多个等位单倍型，个体之间倍性还可能不同；局部祖源不是“来自 A 或 B”，而是每个位置上不同祖源各占多少个同源拷贝。

因此，真正有用的输出应是 global ancestry proportion + local ancestry dosage，而不是只画一个整体比例条。

对甘蔗尤其如此：现代甘蔗栽培种约有 12 份基本染色体拷贝，来源还混合了驯化种、野生种不同地理亚群，以及一个尚未找到纯代表的未知 Saccharum 祖源。

3. 方法框架：先估整体比例，再沿染色体涂色

1输入

个体 × marker 的 allele dosage，可为双等位或多等位；每个个体可有不同倍性。

2GWAI

全基因组混合祖源推断：估计个体祖源比例 π 和祖先群体等位频率 γ。

3半监督

先用参考群体学习祖先频率，再固定频率推断新杂交群体。

4LAI

基于 marker 顺序和遗传距离/物理距离代理，用 HMM 推断局部祖源剂量。

5输出

整体祖源比例柱状图、每条染色体每个位置的 ancestry dosage。

全基因组祖源推断：EM

AdmixPoly 假设每个 allele 的祖源由个体的全基因组祖源比例决定；在给定祖源后，观测到某个 allele 的概率由该祖源群体的 allele frequency 决定。

实现重点：用 expectation-maximization 估计参数，并加入加速迭代、marker 并行和按需计算 posterior，减少内存压力。

局部祖源推断：HMM

沿染色体看，邻近 marker 的祖源状态不是独立的。AdmixPoly 把每个位置的状态定义为各祖源在同源拷贝中的剂量，例如六倍体中某位置可为 A 祖源 2 份、B 祖源 4 份。

实现重点：用 forward-backward 算法估计每个 marker 上的 ancestry dosage，支持高倍性和多祖源组。

两个关键近似：高倍性 + 多祖源时，HMM 状态空间会爆炸。作者引入 emission probability 近似，以及 transition probability 的两类近似：简化相邻 marker 遗传距离，或限制相邻 marker 间允许的重组次数。这是 AdmixPoly 能跑复杂甘蔗数据的关键。

4. 性能评估：精度接近 Structure，速度快很多

46×单 CPU 下，GWAI 平均比 Structure 快

2063×单 CPU 下，GWAI 平均比 Entropy 快

12x论文复杂场景覆盖到甘蔗约十二倍性

模拟评估包括不同祖源组数、个体数、倍性、marker 数、多等位数量、测序深度和混合发生时间。总体结果是：全基因组层面 AdmixPoly 与 Structure 的 RMSE 接近；低深度双等位场景中 Entropy 误差偏高；局部祖源层面 AdmixPoly 的近似策略在明显加速的同时只带来有限精度损失。

比较对象	AdmixPoly 的表现	实际意义
Structure	全基因组祖源精度相近，但运行速度高几个数量级。	适合现代大规模 marker 数据，而不是只做小数据集演示。
Entropy	在低测序深度场景，Entropy 的祖源比例估计误差较大；且难以覆盖高倍性多等位复杂场景。	AdmixPoly 更适合高倍性、多等位、混合倍性材料。
Ancestry HMM	局部祖源推断中，AdmixPoly 速度更快、内存更低、RMSE 更低；Ancestry HMM 在高倍性和多祖源时难以处理。	把“局部祖源涂色”推进到甘蔗这样的复杂作物。

5. 甘蔗应用：从祖源比例到“硅基染色体涂色”

390Saccharum 及近缘属材料

80K过滤后用于分析的单倍型区域量级

3.65M过滤后的 haplotypes 数量

作者把 AdmixPoly 应用于 390 份材料：包括 S. robustum、S. edule、S. officinarum、S. spontaneum、S. barberi、S. sinense、现代杂交栽培种、base-broadening germplasm、S. maximum 以及 Tripidium、Miscanthus、Narenga、Erianthus fulvus 等近缘属。

现代栽培种整体祖源

现代甘蔗栽培种平均约 73% 来自 S. officinarum，约 26% 来自 S. spontaneum；不同品种之间 S. spontaneum 的地理亚群来源不同。

未知祖源

约 80% 的现代栽培种携带未知 Saccharum 祖源，平均约占全基因组 1%。这些片段在品种间有保守共享模式，可能来自早期育种历史中的共同祖先。

S. officinarum / S. robustum / S. edule
被归为一个主要祖源组，用于解释驯化种及其近缘野生来源的主体贡献。

S. spontaneum 三个地理亚群
Continental Asia、Southeast Asia、Northeast Asia 三组分别贡献不同片段；东北亚组在现代栽培种中贡献较少，但可能是抗性或适应性等位基因的潜在来源。

未知 Saccharum 祖源
可能来自东美拉尼西亚或波利尼西亚。POJ2878 几乎携带了其他现代栽培种中多数显著未知祖源片段，提示这些片段可能经早期“wonder cane”传播。

6. 主要结果图示证据

Figure 1 · 工作流

AdmixPoly 的两级输出：整体祖源 + 局部祖源剂量

图示信息：GWAI 从参考面板估计祖源比例和祖先 allele frequency；LAI 再结合 marker 顺序/遗传图谱推断染色体上每个位置的 ancestry dosage。

论文结果：作者把 admixture 分析从二倍体式“比例条”扩展到多倍体的同源拷贝剂量。

研究意义：对甘蔗这类高倍性作物，局部祖源剂量比整体比例更接近育种需要，因为目标性状常与特定染色体片段有关。

Figure 2 Genome-wide admixture benchmark

Figure 2 · 全基因组祖源 benchmark

AdmixPoly 精度接近 Structure，低深度下优于 Entropy

图示信息：比较两种模拟场景下祖源比例和祖先等位频率的 RMSE；Scenario 2 涉及 12 倍性、每 marker 10 个 allele，Entropy 无法应用。

论文结果：AdmixPoly 和 Structure 的误差都较低；1x 深度下 Entropy 的祖源比例估计偏离明显。

研究意义：AdmixPoly 的优势不是单纯更准，而是在接近 Structure 精度的同时能处理更复杂、规模更大的数据。

Figure 3 · 局部祖源近似策略

让高倍性 HMM 可计算

图示信息：比较 exact/approx emission 的 RMSE 与耗时，以及多种 transition 近似的 RMSE、耗时和内存。

论文结果：emission 近似在 allele 数增多时带来数量级加速，精度损失有限；transition 的 DistInt 或 MaxRec 近似可显著降低时间/内存。

研究意义：这部分是方法能否落地到甘蔗的关键，否则 12 倍性、6 个祖源组会产生巨大的状态空间。

Figure 4 Saccharum genome-wide admixture

Figure 4 · Saccharum 全基因组祖源

现代甘蔗主要来自 S. officinarum，混入多个 S. spontaneum 亚群

图示信息：条形图展示野生材料、近缘属、现代栽培种和历史杂交材料的六类祖源比例。

论文结果：现代栽培种平均约 73% S. officinarum、26% S. spontaneum，且约 80% 带有平均约 1% 的未知祖源。

研究意义：它给出甘蔗现代育种材料的“家谱比例图”，也提示不同 S. spontaneum 地理来源在不同育种系中的贡献差异。

Figure 5 · R570 局部祖源

一条条染色体上看每个祖源贡献了多少拷贝

图示信息：展示现代栽培种 R570 在 Chr1–Chr10 上的局部祖源剂量。

论文结果：AdmixPoly 找到 R570 中已知的未知祖源片段，还额外识别出 Chr5 和 Chr8 上的片段；与遗传作图推断的 chromosome 5 局部祖源高度一致。

研究意义：这是“in silico chromosome painting”：不靠每个品种都做细胞遗传学，也能在全基因组尺度追踪祖源片段。

Figure 6 · 未知祖源共享片段

未知祖源片段在现代栽培种中呈保守共享模式

图示信息：按染色体展示未知祖源在现代/历史杂交栽培种中的局部剂量，POJ2878 用红星与红线标注。

论文结果：共享片段主要出现在 Chr1、Chr2、Chr5、Chr8、Chr10，多数为单拷贝，也可达三拷贝；POJ2878 携带了多数显著片段。

研究意义：未知祖源可能不只是“背景噪声”，而是早期甘蔗育种中被保留下来的遗传资源，后续可作为预育种和性状定位的线索。

图像来源：Rio et al., Genome Biology 2026, DOI: 10.1186/s13059-026-04162-3，原文 CC BY 4.0。为网页展示进行了压缩与版式嵌入。

7. 这个工具适合怎么用？

适用场景

多倍体作物或野生种群的群体结构分析。
已知或假设存在多个祖源群体，需要估计杂交/渐渗比例。
需要把祖源贡献定位到染色体局部片段。
材料存在混合倍性，或 marker 是多等位 haplotype dosage。
育种项目中追踪野生种片段、抗性来源或 base-broadening germplasm。

不适用或需谨慎

祖先群体本身未采样或定义不清时，K 的解释会变得主观。
局部祖源推断仍依赖 marker 顺序和遗传距离；物理距离只是代理。
非常低测序深度下，局部祖源 RMSE 会升高。
如果目标只是普通二倍体 SNP admixture，经典 ADMIXTURE/fastStructure 可能更简单。
复杂 HMM 的近似会带来少量精度损失，应结合模拟或已知材料验证。

最小使用路径

install.packages("AdmixPoly") # 输入通常是个体 × marker 的 allele dosage / haplotype presence-absence 数据 # 先做 genome-wide admixture，再用祖源比例和祖先 allele frequency 做 local admixture

CRAN 页面说明 AdmixPoly 1.0.1 支持 bi- and multi-allelic marker dosages，依赖 Rcpp/RcppArmadillo/OpenMP；正式分析前应先阅读包文档和论文补充伪代码。

8. 局限与读法提醒

方法边界

K 值选择不能只看 BIC 或 likelihood，还要结合物种历史。论文也提醒，K 的选择主要应由群体历史知识指导。对于“未知祖源”这种没有纯代表的群体，作者需要借助之前 repeated k-mer 和细胞遗传学结果手动引入其贡献。

甘蔗结论边界

未知祖源平均只占约 1%，但可能涉及关键历史片段。它是否真的贡献产量、宿根性、抗病或抗逆性，还需要后续 GWAS/QTL/功能验证，而不能仅凭祖源保守性下结论。

读这篇文章的重点：方法上看“多倍体 admixture 如何从不可算变成可算”；应用上看“甘蔗育种史中的野生种和未知祖源片段如何被定位”。不要把它读成单纯的甘蔗分类文章，也不要把祖源片段直接等同于功能基因。

9. 代码、数据、资金与声明

类别	信息
R 包	CRAN: AdmixPoly；CIRAD GitLab: agap/seg/admixpoly；Zenodo 归档：10.5281/zenodo.20442536；许可证 GPL-3.0。
甘蔗数据	CIRAD Dataverse: Haplotyping and admixture results for a diversity panel of 390 Saccharum accessions and related genera，CC BY 4.0。
WGS 数据	论文列出 NCBI BioProject：PRJNA1228676、PRJNA1209834、PRJNA721787、PRJNA333303、PRJNA456890。
参考基因组	R570 sugarcane cultivar reference genome assembly v2.1，Phytozome/JGI。
资金	DOE Joint Genome Institute / U.S. Department of Energy Office of Science，合同 DE-AC02-05CH11231；CIRAD 工作由 International Consortium for Sugarcane Biotechnology (ICSB37) 支持。
利益冲突	作者声明无 competing interests；伦理审批和发表同意均不适用。