首个把等位剂量效应纳入 k-mer GWAS 的框架,统计效力与 FDR 同时优于 GEMMA / GWASpoly / kmersGWAS。
无需变异 calling 与多倍体基因分型,绕开指数级组合爆炸,把数万小时的计算压到数十小时量级。
在割手密中定位高糖关键基因 SsMGT、分蘖核心基因 SsNGA5,并经水稻异源验证,为分子育种提供标记。
多倍体是众多重要作物的"标配",多套染色体常带来更强生长势、更大器官与更好抗逆性——但也让全基因组关联分析(GWAS)举步维艰。论文系统梳理了三大痛点:
同源染色体序列高度相似 → 短读多重比对、错配与参考偏好。论文用甘蔗杂种 POJ2878(2n=118)模拟数据发现:仅 43.08% 读段为高质量比对,其中竟有 50.51% 被错配到错误位置 → 变异检测大量出错。
同一位点可有 2/3/多个同源拷贝,对表型呈剂量依赖贡献。传统二倍体 GWAS 无法建模;测序深度不足时剂量比例更模糊,低频等位易漏检或误判。
GWASpoly 等剂量 GWAS 需先做变异 calling + 基因分型;GATK 的贝叶斯基因型推断随倍性指数级膨胀,算力需求高到几乎不可行。
KMERIA 把整套分析拆成五个串联模块,从原始重测序数据一路推进到精确基因坐标:
对重测序样本做质控与修剪后,把每个个体的全基因组打碎成固定长度 k-mer(推荐 31 bp)并计数,得到逐样本 k-mer 丰度谱。
把所有个体的 k-mer 频次汇总成群体级原始丰度矩阵,完整保留剂量信息(而非简单的有/无二态)。
① 按倍性感知阈值剔除异常深度 k-mer;② 测序深度矫正;③ 过滤低频 k-mer(缺失率 >20%)与重复屏蔽;④ 通过分位数归一化把矩阵重编码到 0–2 连续等位剂量尺度,使其兼容混合线性模型。
用线性混合模型 (LMM),把群体结构(PCA)与亲缘关系(kinship)作为随机效应纳入,做剂量依赖的关联检验。仅用 0.1% 随机抽样 k-mer 即可准确还原群体结构,大幅降算力。关联模块 bimbamAsso 较 GEMMA 提速 ~10×、较 GWASpoly ~27×。
① 双重多重检验校正:BH-FDR + 修正 Bonferroni(阈值 P < α×k/M);② 将显著 k-mer / 相关读段比对到图泛基因组,在重排频繁的多倍体中精确解析基因组坐标,并整合单倍型基因网络与顺式调控分析。
以六倍体甘薯 294 份群体为底盘,设两档遗传力(h²=50% / 80%)× 两档 QTL 数(10 / 100),共四种场景,对比 GEMMA(二倍体标准法)、GWASpoly(自多倍体专用)、kmersGWAS(k-mer 法)与 KMERIA,评估统计效力与 FDR。群体共得 4.5 亿非冗余 k-mer,仅 22.2%(1 亿)为全个体共有,印证个体间巨大变异。
| 评估维度 | GEMMA | GWASpoly | kmersGWAS | KMERIA |
|---|---|---|---|---|
| 统计效力(4 场景) | 较低 | 中 | 中 | 一致最高 ✓ |
| FDR / 假阳性 | 较高 | 中 | 中 | 多数场景最低 ✓ |
| 剂量效应建模 | ✗ | ✓ | ✗ | ✓ 连续剂量 |
| 是否需变异 calling | 需要 | 需要 | 否 | 否 |
| 与 GWASpoly 信号相关 | — | 基准 | — | R=0.54, P=3.1e-4(且能发现 GWASpoly 漏检信号) |
17–31 bp 中,31-mer FDR 最低,大 k-mer 信号特异性更强。
仅 0.1% k-mer 即可还原群体结构(R=0.99),省算力又防过拟合。
缺失从 20%→80%,效力下降(亲缘估计变差)→ 基因型完整度重要。
100→600 个体,效力正相关提升,与二倍体经验一致。
bimbamAsso 运行时间为 GEMMA 的 ~1/10、GWASpoly 的 ~1/27,峰值内存分别仅为其 1/5 与 1/54。
KMERIA 在从二倍体到高倍性的多种真实作物数据中验证了通用性——既能复现已知经典基因,又能挖掘新基因:
成功复现直链淀粉含量关键基因 Waxy,验证方法在二倍体上同样可靠(向下兼容)。
首次鉴定 2 个与株型相关的新基因,展示在四倍体上的发现能力。
定位成熟期基因 + 5 个果皮/果肉颜色位点。涉及淀粉蔗糖代谢(StINV3 / StBGLu34)与花青素(StAUR)。
复现经典叶形基因 IbFbox,并挖掘叶形新基因 IbCUC3。
野生甘蔗——割手密(Saccharum spontaneum,倍性 4x–16x)是现代甘蔗杂交育种的重要种质资源。论文用 290 份重测序个体 + 15 份材料构建图泛基因组,把 KMERIA 用在两个核心性状上,挖出多个关键基因。
在 6 号染色体检测到与蔗糖简纯度(apparent purity, AP)强关联信号,定位到镁转运蛋白基因 SsMGT。其上游 7.9 kb 大片段 SV 抑制镁离子转运、负调控蔗糖积累。
→ 为高糖育种提供可直接使用的分子标记。这正是传统 SNP-GWAS 难以捕捉的大片段 SV 信号,体现 k-mer 的优势。
定位分蘖数(tiller number, TN)核心基因 SsNGA5。在水稻中异源过表达验证:使分蘖数显著下降 30.6%,直接坐实其功能。
此外还挖掘出一批分蘖调控新基因:SsNAC20 / SsARF8 / SsLOG / SsSCR。
论文实测 31-mer FDR 最低、特异性最强,作为默认起点。
统一较高且均匀的测序深度,控制基因型缺失率(尽量 <20%),亲缘估计更准。
条件允许时把群体扩到 300+ 个体,效力随规模显著提升。
提前构建/获取目标物种图泛参考,是精确定位与解读的前提。
坚持 BH-FDR + 修正 Bonferroni,显著 k-mer 务必比对回基因组后再解读。
关键候选基因(如异源过表达、敲除)做实验验证,避免仅凭关联下因果结论。
国家自然科学基金、广西科技重大专项、中国农业科学院科技创新工程、崖州湾科技创新项目、热带作物育种全国重点实验室等。
本报告基于 Nature 在线正文与权威解读整理;如原文设有 Competing interests 声明则以原文为准。我们未在所获取的正文段落中检索到明确的利益冲突声明原文,请以期刊页面 Declarations 部分为准,此处不作编造。