一图速览
研究背景与问题
身高是人类多基因性状的"模式性状":高遗传率(常见 SNP 预计可解释 40–50% 的表型变异)、易测量、样本量大。2007 年以来 GWAS 已发现数千个身高关联,此前最大规模研究(Yengo 2018,约 70 万人)报告了 712 个位点中的 3,290 个独立关联。
核心问题是"完整性 / 饱和":当样本量足够大时,GWAS 能否几乎完整地编目常见变异所携带的信息?这包括三个层面——
- 预测准确度能否逼近常见变异可解释的遗传率上限;
- 关联区域能否完整覆盖这部分遗传率;
- 样本量继续增大,是否还能不断提供新的"候选基因"信息,还是说最终每个基因、每个区域都会被牵连(曾有观点如此推测)。
同时,由于多数 GWAS 以欧裔为主,作者特意在多祖先背景下检验上述问题。
★ GWAS 方法详解
整体分析策略:两步 meta + 条件联合分析
EasyQC(适配 RVTESTS 格式)检查各研究的等位基因频率、标记数、缺失、插补质量、基因组膨胀因子、性状变换等;剔除 2 项不合格研究。单研究 SNP 过滤:插补精度 r²INFO > 0.3、P_HWE > 1e-8、最小等位基因计数 MAC > 5。RAREMETAL v4.15.1(可处理多等位变异)。meta 做五群体固定效应 IVW meta,最大化检验功效。GCTA-COJO v1.93 做近似条件联合分析,逐步模型选择保留联合效应仍达全基因组显著(P < 5×10⁻⁸)的 SNP,得到"准独立"信号。AFR/HIS 因长程 LD 特别调参以避免偏差。复制与稳健性
在独立的 Estonian Biobank(49,160 人)中复制:因样本量差异大,不逐个 SNP 复制,而是评估效应相关性——marginal 效应相关 ρb=0.93,conditional 效应相关 ρb=0.80;MAF>1% 的变异中 >75% 效应方向一致(P<10⁻⁵⁰)。证明结果稳健可复制。
★ Brisbane plot 方法
Brisbane plot 是作者用来展示"关联信号在基因组上的局部密度"的图(名称来自通讯团队所在地——澳大利亚布里斯班 / 昆士兰大学)。它不同于传统曼哈顿图(纵轴是 -log10 P),而是把每个显著 SNP 的"邻域拥挤程度"画出来。
密度的精确定义
- 对每个显著(GWS)SNP,信号密度 = 它两侧各 100 kb 窗口内、其他独立关联 SNP 的个数。
- 密度 = 0:100 kb 内没有其他独立信号;密度 = 20:与另外 20 个独立 GWS SNP 共定位。
- 标准误用 leave-one-chromosome-out jackknife(LOCO-S.E.)估计。
- 未达全基因组显著的 SNP 不画在图上。
关键发现
- 全基因组平均密度 = 2.0(s.e. 0.14),中位数 = 1(s.e. 0.0)——说明信号非随机聚集。
- 69% 的显著 SNP 与另一个独立显著 SNP 共定位在 100 kb 内。
- 每条染色体密度最高的 SNP 用最近基因注释;15 号染色体 ACAN 基因附近密度最大——100 kb 内挤了 25 个独立 GWS SNP(ACAN 是矮身材和骨骼发育异常综合征的致病基因)。
- 高密度区显著富集 OMIM 骨骼生长基因:密度>1 时 OMIM 基因富集 2.5 倍(P<0.001),且富集随密度近线性上升。
★ 对"显著位点过多"的解释:饱和(saturation)
读者常见困惑:12,111 个 SNP 是不是"太多了",是不是意味着几乎整个基因组都与身高有关?作者的回答是——恰恰相反,这正是"饱和"的标志,而且信号高度集中。
解释 1:位点集中,而非全基因组弥散
12,111 个显著 SNP 只聚成 7,209 个非重叠位点(每侧 35 kb 窗口定义;选 35 kb 是因为预测 causal variant 落在显著 SNP 35 kb 内的概率>80%),累计长度约 647 Mb,仅占基因组 21%。而这 21% 的区域,在欧裔中解释约 100%、非欧裔 >90% 的常见 SNP 遗传率。换句话说:身高的常见变异遗传率被"压缩"映射到了基因组的约五分之一。
解释 2:等位基因异质性(同一区域内多个独立信号)
"显著 SNP 多"主要来自同一关键区域内的多重独立 causal variant,而非新区域不断出现。最典型的是 ACAN 位点:100 kb 内 25 个独立 GWS SNP,背后是多个增强子、错义变异、可变数目串联重复(VNTR)等多类型变异共同影响 ACAN 功能。作者用单倍型和模拟分析确认这是"多个独立 causal variant"的真实信号,而非假象。
解释 3:不同层级的"饱和"需要不同样本量
作者把 GWAS 信息分成几个层级,用 7 个从约 13 万到约 530 万的 GWAS(含下采样)量化它们随样本量的变化:
| 层级 | 饱和所需样本量 | 随样本量的行为 |
|---|---|---|
| 基因集 / 通路、功能注释富集 | 最小(n≈0.25M 即可) | 很早就稳定,加非欧裔样本无显著提升 |
| 候选基因(OMIM 近邻 / SMR 基因) | 中等(n>1.5M~4M) | 达到一定样本量后趋于平台 |
| 显著 SNP 个数 | 最大(持续增长) | 随样本量近线性增加 |
| 位点(loci)个数、基因组覆盖、预测准确度 | 大(n>2.5M 趋缓) | 新 SNP 多扎堆在已知位点旁,loci 数增速放缓——这就是饱和 |
关键对比:样本量从 2.5M 增到 4M(多加 150 万欧裔),显著 SNP 从 7,020 增到 9,863(约 1.4 倍),但预测准确度提升不到 2.7%——说明"位点和预测"已接近上限,新增 SNP 多是同一区域的精细化。
解释 4:对其他性状的外推
作者纠正了既往预测(曾估计 300 万样本即可解释 90% 遗传率):实际需约 10,000 个独立关联才能在欧裔中解释 80–90% 的 SNP 遗传率。若按比例外推到其他性状,要达到类似饱和,炎症性肠病约需 2 倍(n≈10M)、精神分裂症约 7 倍(n≈35M)、BMI 约 10 倍(n≈50M)。这正面回答了"为什么身高位点这么多":身高遗传率高、样本量最大,所以它最先逼近饱和。
主要结果
| 群体 | 研究数 | 最大样本量 | GWS COJO SNP | GWS 位点(35kb) | 基因组覆盖 |
|---|---|---|---|---|---|
| 欧裔 EUR | 173 | 4,080,687 | 9,863 | 6,386 | 18.4% |
| 东亚 EAS | 56 | 472,730 | 918 | 821 | 2.0% |
| 西语裔 HIS | 11 | 455,180 | 1,511 | 1,373 | 3.3% |
| 非洲 AFR | 29 | 293,593 | 453 | 412 | 1.0% |
| 南亚 SAS | 12 | 77,890 | 69 | 66 | 0.2% |
| 跨祖先 METAFE | 281 | 5,314,291 | 12,111 | 7,209 | 21.6% |
跨祖先与预测
- >85% 非欧裔 GWS SNP 与至少一个欧裔显著变异强连锁(r²LD>0.8);>91% 落在欧裔 GWS SNP 的 100 kb 内——信号高度跨祖先共享。
- 12,111 个 SNP 的 PGS 预测准确度:欧裔约 40%(约 80% 的 h²SNP),非洲裔仅约 10%。
- 这种差距约 84% 可由欧裔/非洲裔间的 LD 与 MAF 差异解释,而非效应不同——支持 causal variant 跨祖先共享。
- 结合家系信息可把欧裔预测准确度提升到 54% 以上。
意义与局限
意义
- 首次实证:足够大样本下,常见变异对身高的关联可达"饱和",遗传率可映射到约 21% 基因组的有限区域。
- 提供强力身高 PGS 和 7,209 个优先研究区域,为后续 fine-mapping、功能与机制研究指明范围。
- 方法范式(两步 meta + COJO + 分层遗传率 + 饱和分析)可推广到其他多基因性状/疾病。
- 明确量化了"增加非欧裔样本"对提升欠代表人群预测准确度的价值。
局限
- 仅基于 HM3 panel,未完整覆盖常见变异;罕见变异是否同样聚集仍待全基因组测序验证。
- 条件分析用欧裔 LD 参考,但约 24% 样本为非欧裔——多祖先 fine-mapping 仍缺乏合适工具。
- 非欧裔特异关联的复制能力有限(数据可得性不足)。
- 从关联到 causal gene 的"最后一公里"仍是瓶颈,需结合 WES、eQTL 与新计算方法。
来源
Yengo L, Vedantam S, Marouli E, et al. A saturated map of common genetic variants associated with human height. Nature. 2022;610(7933):704-712.
DOI:https://doi.org/10.1038/s41586-022-05275-y
PubMed:https://pubmed.ncbi.nlm.nih.gov/36224396/
PMC(开放获取,图片来源):PMC9605867
软件:RAREMETAL v4.15.1、GCTA-COJO v1.93、EasyQC、LDSC、ImpG-Summary v1.0.1、SMR、DEPICT、MAGMA。数据:GIANT consortium(summary statistics 公开)。