论文主线
多倍体作物的每个基因组位置可能有很多同源拷贝,传统二倍体 admixture 工具很难直接处理。AdmixPoly 要解决的是:高倍性 + 多等位 + 大规模标记下的祖源比例和局部祖源剂量推断。
方法核心
全基因组层面用 EM 估计个体祖源比例和祖先群体等位频率;染色体局部层面用 HMM 估计每个 marker 上各祖源贡献的剂量。
应用亮点
在 390 份 Saccharum 及近缘属材料中,作者用过滤后 83,890 个单倍型区域、约 365 万个 haplotype,解析现代甘蔗的 S. officinarum、S. spontaneum 和未知祖源片段。
1. 文献信息
| 项目 | 内容 |
|---|---|
| 论文 | Deciphering the mosaic genome of sugarcane cultivars through polyploid admixture inference with AdmixPoly |
| 中文题意 | 通过多倍体混合祖源推断工具 AdmixPoly 解析甘蔗栽培种的镶嵌基因组 |
| 作者 | Simon Rio, Franck Gauthier, Olivier Garsmeur, George Piperidis, Jean-Yves Hoarau, German Serino, Raul Castillo Torres, Shailesh Vinay Joshi, Yoshifumi Terajima, Jershon Lopez-Gerena, María Francisca Perera, Andrew Stoute, Goolam Badaloo, Dongliang Huang, Kerrie Barry, Jeremy Schmutz, Tristan Mary-Huard, Angélique D’Hont |
| 期刊与时间 | Genome Biology,2026-06-19 online ahead of print / Article in Press |
| DOI / PMID | 10.1186/s13059-026-04162-3 / 42316312 |
| 工具与数据 | AdmixPoly:CRAN / CIRAD GitLab / Zenodo,GPL-3.0;甘蔗分析数据:CIRAD Dataverse,CC BY 4.0 |
| 开放许可 | 论文为 Open Access,CC BY 4.0;本文复用的论文图页来自原文 PDF,按 CC BY 4.0 标注来源。 |
2. 为什么需要 AdmixPoly?
传统工具的隐含前提
Structure、ADMIXTURE、fastStructure 等经典工具主要围绕二倍体、双等位或相对简单的 genotype 编码设计。即便 Structure 支持多倍体编码,在现代大规模 marker 数据下,计算时间也可能成为瓶颈。
Entropy 等工具面向多倍体有所扩展,但论文指出它通常限制在较低倍性和双等位 marker 场景,并且在低测序深度下可能出现估计偏差。
多倍体的真实麻烦
多倍体不是简单把二倍体复制几份。一个 marker 上可能有多个等位单倍型,个体之间倍性还可能不同;局部祖源不是“来自 A 或 B”,而是每个位置上不同祖源各占多少个同源拷贝。
因此,真正有用的输出应是 global ancestry proportion + local ancestry dosage,而不是只画一个整体比例条。
3. 方法框架:先估整体比例,再沿染色体涂色
个体 × marker 的 allele dosage,可为双等位或多等位;每个个体可有不同倍性。
全基因组混合祖源推断:估计个体祖源比例 π 和祖先群体等位频率 γ。
先用参考群体学习祖先频率,再固定频率推断新杂交群体。
基于 marker 顺序和遗传距离/物理距离代理,用 HMM 推断局部祖源剂量。
整体祖源比例柱状图、每条染色体每个位置的 ancestry dosage。
全基因组祖源推断:EM
AdmixPoly 假设每个 allele 的祖源由个体的全基因组祖源比例决定;在给定祖源后,观测到某个 allele 的概率由该祖源群体的 allele frequency 决定。
局部祖源推断:HMM
沿染色体看,邻近 marker 的祖源状态不是独立的。AdmixPoly 把每个位置的状态定义为各祖源在同源拷贝中的剂量,例如六倍体中某位置可为 A 祖源 2 份、B 祖源 4 份。
4. 性能评估:精度接近 Structure,速度快很多
模拟评估包括不同祖源组数、个体数、倍性、marker 数、多等位数量、测序深度和混合发生时间。总体结果是:全基因组层面 AdmixPoly 与 Structure 的 RMSE 接近;低深度双等位场景中 Entropy 误差偏高;局部祖源层面 AdmixPoly 的近似策略在明显加速的同时只带来有限精度损失。
| 比较对象 | AdmixPoly 的表现 | 实际意义 |
|---|---|---|
| Structure | 全基因组祖源精度相近,但运行速度高几个数量级。 | 适合现代大规模 marker 数据,而不是只做小数据集演示。 |
| Entropy | 在低测序深度场景,Entropy 的祖源比例估计误差较大;且难以覆盖高倍性多等位复杂场景。 | AdmixPoly 更适合高倍性、多等位、混合倍性材料。 |
| Ancestry HMM | 局部祖源推断中,AdmixPoly 速度更快、内存更低、RMSE 更低;Ancestry HMM 在高倍性和多祖源时难以处理。 | 把“局部祖源涂色”推进到甘蔗这样的复杂作物。 |
5. 甘蔗应用:从祖源比例到“硅基染色体涂色”
作者把 AdmixPoly 应用于 390 份材料:包括 S. robustum、S. edule、S. officinarum、S. spontaneum、S. barberi、S. sinense、现代杂交栽培种、base-broadening germplasm、S. maximum 以及 Tripidium、Miscanthus、Narenga、Erianthus fulvus 等近缘属。
现代栽培种整体祖源
现代甘蔗栽培种平均约 73% 来自 S. officinarum,约 26% 来自 S. spontaneum;不同品种之间 S. spontaneum 的地理亚群来源不同。
未知祖源
约 80% 的现代栽培种携带未知 Saccharum 祖源,平均约占全基因组 1%。这些片段在品种间有保守共享模式,可能来自早期育种历史中的共同祖先。
被归为一个主要祖源组,用于解释驯化种及其近缘野生来源的主体贡献。
Continental Asia、Southeast Asia、Northeast Asia 三组分别贡献不同片段;东北亚组在现代栽培种中贡献较少,但可能是抗性或适应性等位基因的潜在来源。
可能来自东美拉尼西亚或波利尼西亚。POJ2878 几乎携带了其他现代栽培种中多数显著未知祖源片段,提示这些片段可能经早期“wonder cane”传播。
6. 主要结果图示证据
AdmixPoly 的两级输出:整体祖源 + 局部祖源剂量
AdmixPoly 精度接近 Structure,低深度下优于 Entropy
让高倍性 HMM 可计算
现代甘蔗主要来自 S. officinarum,混入多个 S. spontaneum 亚群
一条条染色体上看每个祖源贡献了多少拷贝
未知祖源片段在现代栽培种中呈保守共享模式
图像来源:Rio et al., Genome Biology 2026, DOI: 10.1186/s13059-026-04162-3,原文 CC BY 4.0。为网页展示进行了压缩与版式嵌入。
7. 这个工具适合怎么用?
适用场景
- 多倍体作物或野生种群的群体结构分析。
- 已知或假设存在多个祖源群体,需要估计杂交/渐渗比例。
- 需要把祖源贡献定位到染色体局部片段。
- 材料存在混合倍性,或 marker 是多等位 haplotype dosage。
- 育种项目中追踪野生种片段、抗性来源或 base-broadening germplasm。
不适用或需谨慎
- 祖先群体本身未采样或定义不清时,K 的解释会变得主观。
- 局部祖源推断仍依赖 marker 顺序和遗传距离;物理距离只是代理。
- 非常低测序深度下,局部祖源 RMSE 会升高。
- 如果目标只是普通二倍体 SNP admixture,经典 ADMIXTURE/fastStructure 可能更简单。
- 复杂 HMM 的近似会带来少量精度损失,应结合模拟或已知材料验证。
最小使用路径
CRAN 页面说明 AdmixPoly 1.0.1 支持 bi- and multi-allelic marker dosages,依赖 Rcpp/RcppArmadillo/OpenMP;正式分析前应先阅读包文档和论文补充伪代码。
8. 局限与读法提醒
方法边界
K 值选择不能只看 BIC 或 likelihood,还要结合物种历史。论文也提醒,K 的选择主要应由群体历史知识指导。对于“未知祖源”这种没有纯代表的群体,作者需要借助之前 repeated k-mer 和细胞遗传学结果手动引入其贡献。
甘蔗结论边界
未知祖源平均只占约 1%,但可能涉及关键历史片段。它是否真的贡献产量、宿根性、抗病或抗逆性,还需要后续 GWAS/QTL/功能验证,而不能仅凭祖源保守性下结论。
9. 代码、数据、资金与声明
| 类别 | 信息 |
|---|---|
| R 包 | CRAN: AdmixPoly;CIRAD GitLab: agap/seg/admixpoly;Zenodo 归档:10.5281/zenodo.20442536;许可证 GPL-3.0。 |
| 甘蔗数据 | CIRAD Dataverse: Haplotyping and admixture results for a diversity panel of 390 Saccharum accessions and related genera,CC BY 4.0。 |
| WGS 数据 | 论文列出 NCBI BioProject:PRJNA1228676、PRJNA1209834、PRJNA721787、PRJNA333303、PRJNA456890。 |
| 参考基因组 | R570 sugarcane cultivar reference genome assembly v2.1,Phytozome/JGI。 |
| 资金 | DOE Joint Genome Institute / U.S. Department of Energy Office of Science,合同 DE-AC02-05CH11231;CIRAD 工作由 International Consortium for Sugarcane Biotechnology (ICSB37) 支持。 |
| 利益冲突 | 作者声明无 competing interests;伦理审批和发表同意均不适用。 |