身高 GWAS 可视化文献解读
540 万人如何把身高的"常见变异地图"画到饱和

A saturated map of common genetic variants associated with human height —— 重点解读 GWAS 方法、Brisbane plot 方法,以及对"显著位点为何如此之多"的饱和解释。
期刊:Nature (2022) 610(7933):704-712 | DOI:10.1038/s41586-022-05275-y | PMID:36224396 | PMCID:PMC9605867
作者:Yengo L, Vedantam S, Marouli E … Hirschhorn JN, Visscher PM(GIANT Consortium) | 样本:约 540 万人(5 大祖先群体)
解读说明:本报告为对原文的中文可视化解读,便于团队快速理解方法与结论,不替代原文。所有图片来自 Europe PMC 开放获取版本(PMC9605867,CC BY)。文中数字与方法均来自原文正文与 Methods,未作外推编造;标注"我们的解读"处为辅助理解的说明。
目录: 一图速览 研究背景与问题 ★ GWAS 方法详解 ★ Brisbane plot 方法 ★ 显著位点过多的解释(饱和) 主要结果 意义与局限 来源

一图速览

540 万
个体(281 研究 + 23andMe)当时最大规模身高 GWAS
12,111
准独立显著 SNP9,920 主信号 + 2,191 二级信号
7,209
非重叠位点(~21% 基因组)平均 ~90 kb
~100%
EUR 常见变异遗传率被解释非欧裔 >90%
一句话总结:用 540 万人的跨祖先 GWAS,作者证明身高的"常见变异关联"已接近饱和——12,111 个显著 SNP 集中在仅占基因组 21% 的 7,209 个区域内,几乎解释了全部常见变异可贡献的遗传率。显著位点之所以"多",是因为同一批关键区域内存在大量独立信号(等位基因异质性),而不是"全基因组每个位置都与身高相关"。

研究背景与问题

身高是人类多基因性状的"模式性状":高遗传率(常见 SNP 预计可解释 40–50% 的表型变异)、易测量、样本量大。2007 年以来 GWAS 已发现数千个身高关联,此前最大规模研究(Yengo 2018,约 70 万人)报告了 712 个位点中的 3,290 个独立关联。

核心问题是"完整性 / 饱和":当样本量足够大时,GWAS 能否几乎完整地编目常见变异所携带的信息?这包括三个层面——

同时,由于多数 GWAS 以欧裔为主,作者特意在多祖先背景下检验上述问题。

★ GWAS 方法详解

整体分析策略:两步 meta + 条件联合分析

1
样本与变异。5,380,080 个体来自 281 项 GIANT 研究 + 23andMe,分 5 大群体:EUR 75.8%、EAS 8.8%、HIS 8.5%、AFR 5.5%、SAS 1.4%。检测 HapMap 3(HM3)tagging panel 上约 138.5 万个常染色体双等位 SNP。
2
质量控制。EasyQC(适配 RVTESTS 格式)检查各研究的等位基因频率、标记数、缺失、插补质量、基因组膨胀因子、性状变换等;剔除 2 项不合格研究。单研究 SNP 过滤:插补精度 r²INFO > 0.3、P_HWE > 1e-8、最小等位基因计数 MAC > 5。
3
祖先内 meta。先分 5 群体各自做固定效应反方差加权(IVW)meta,工具为改版 RAREMETAL v4.15.1(可处理多等位变异)。
4
跨祖先 meta(METAFE)。因发现各祖先间信号高度重叠(效应相关 ρb 0.64–0.99),再用 R 包 meta 做五群体固定效应 IVW meta,最大化检验功效。
5
COJO 条件联合分析。GCTA-COJO v1.93 做近似条件联合分析,逐步模型选择保留联合效应仍达全基因组显著(P < 5×10⁻⁸)的 SNP,得到"准独立"信号。AFR/HIS 因长程 LD 特别调参以避免偏差。
6
LD 参考面板。EUR 用 UKB 约 348,501 无关个体;EAS/SAS/AFR/HIS 各用祖先匹配 panel(UKB、GERA、WHI、CARe、HCHS/SOL 等)。METAFE 的 COJO 也用 EUR UKB 作 LD 参考。
为什么 METAFE 可以用欧裔 LD 近似?作者做了关键论证:① METAFE 与 EUR 的等位基因频率几乎一致(SNP 间平均 FST≈0.001,因 >75% 是欧裔 + ~14% 混合祖先);② 用 EUR LD scores 做 LDSC 回归,METAFE 的 attenuation ratio 仅约 4.5%(远低于 20% 经验阈值,且与纯 EUR 的 3.8% 无显著差异)。因此用 EUR LD 参考做 COJO 是合理的。

复制与稳健性

在独立的 Estonian Biobank(49,160 人)中复制:因样本量差异大,不逐个 SNP 复制,而是评估效应相关性——marginal 效应相关 ρb=0.93,conditional 效应相关 ρb=0.80;MAF>1% 的变异中 >75% 效应方向一致(P<10⁻⁵⁰)。证明结果稳健可复制。

Fig.1 频率与效应量
图1|SNP 频率与估计效应量的关系。每个点是 12,111 个准独立显著 SNP 之一。纵轴为每个次等位基因对身高的效应(以身高标准差计)。两条曲线表示在 n=0.5M 与 n=5M、统计功效 90% 下可检测到的"频率—效应量"理论下限。我们的解读:越低频的变异,需要越大效应才能被检出;样本量从 50 万增到 500 万,把可检出区域大幅向"低频小效应"扩展。

★ Brisbane plot 方法

Brisbane plot 是作者用来展示"关联信号在基因组上的局部密度"的图(名称来自通讯团队所在地——澳大利亚布里斯班 / 昆士兰大学)。它不同于传统曼哈顿图(纵轴是 -log10 P),而是把每个显著 SNP 的"邻域拥挤程度"画出来。

密度的精确定义

关键发现

Fig.2 Brisbane plot
图2|Brisbane plot:身高独立关联的基因组密度。每个点是 12,111 个准独立显著 SNP 之一,点的高度(密度)= 100 kb 内其他独立关联数。各染色体密度最高点用最近基因注释,并高亮了 24 个主要由非欧裔群体贡献的关联(3 个非洲、10 个西语裔、11 个东亚)。我们的解读:这张图直观说明"显著信号扎堆"——它们集中在少数关键基因区域,而不是均匀铺满基因组。

★ 对"显著位点过多"的解释:饱和(saturation)

读者常见困惑:12,111 个 SNP 是不是"太多了",是不是意味着几乎整个基因组都与身高有关?作者的回答是——恰恰相反,这正是"饱和"的标志,而且信号高度集中。

解释 1:位点集中,而非全基因组弥散

12,111 个显著 SNP 只聚成 7,209 个非重叠位点(每侧 35 kb 窗口定义;选 35 kb 是因为预测 causal variant 落在显著 SNP 35 kb 内的概率>80%),累计长度约 647 Mb,仅占基因组 21%。而这 21% 的区域,在欧裔中解释约 100%、非欧裔 >90% 的常见 SNP 遗传率。换句话说:身高的常见变异遗传率被"压缩"映射到了基因组的约五分之一。

解释 2:等位基因异质性(同一区域内多个独立信号)

"显著 SNP 多"主要来自同一关键区域内的多重独立 causal variant,而非新区域不断出现。最典型的是 ACAN 位点:100 kb 内 25 个独立 GWS SNP,背后是多个增强子、错义变异、可变数目串联重复(VNTR)等多类型变异共同影响 ACAN 功能。作者用单倍型和模拟分析确认这是"多个独立 causal variant"的真实信号,而非假象。

解释 3:不同层级的"饱和"需要不同样本量

作者把 GWAS 信息分成几个层级,用 7 个从约 13 万到约 530 万的 GWAS(含下采样)量化它们随样本量的变化:

层级饱和所需样本量随样本量的行为
基因集 / 通路、功能注释富集最小(n≈0.25M 即可)很早就稳定,加非欧裔样本无显著提升
候选基因(OMIM 近邻 / SMR 基因)中等(n>1.5M~4M)达到一定样本量后趋于平台
显著 SNP 个数最大(持续增长)随样本量近线性增加
位点(loci)个数、基因组覆盖、预测准确度大(n>2.5M 趋缓)新 SNP 多扎堆在已知位点旁,loci 数增速放缓——这就是饱和

关键对比:样本量从 2.5M 增到 4M(多加 150 万欧裔),显著 SNP 从 7,020 增到 9,863(约 1.4 倍),但预测准确度提升不到 2.7%——说明"位点和预测"已接近上限,新增 SNP 多是同一区域的精细化。

Fig.4 饱和曲线
图4|样本量与各层级发现的关系(饱和程度不同)。基因集/通路在小样本即饱和,候选基因居中,变异/区域映射和预测准确度需要最大样本。我们的解读:这张图是"显著位点为何多"的答案核心——SNP 数在涨,但它们落在的"区域"和"生物学结论"早已趋稳。

解释 4:对其他性状的外推

作者纠正了既往预测(曾估计 300 万样本即可解释 90% 遗传率):实际需约 10,000 个独立关联才能在欧裔中解释 80–90% 的 SNP 遗传率。若按比例外推到其他性状,要达到类似饱和,炎症性肠病约需 2 倍(n≈10M)、精神分裂症约 7 倍(n≈35M)、BMI 约 10 倍(n≈50M)。这正面回答了"为什么身高位点这么多":身高遗传率高、样本量最大,所以它最先逼近饱和。

主要结果

群体研究数最大样本量GWS COJO SNPGWS 位点(35kb)基因组覆盖
欧裔 EUR1734,080,6879,8636,38618.4%
东亚 EAS56472,7309188212.0%
西语裔 HIS11455,1801,5111,3733.3%
非洲 AFR29293,5934534121.0%
南亚 SAS1277,89069660.2%
跨祖先 METAFE2815,314,29112,1117,20921.6%
Fig.3 遗传率
图3|GWS 位点内 HM3 SNP 解释的身高遗传率。把基因组分成"距 GWS SNP 35 kb 内"与"之外"两部分估计分层 SNP 遗传率。结果:占约 21% 基因组的 GWS 位点,在欧裔解释约 100%、各非欧裔群体 >90% 的常见 SNP 遗传率。对照性状 BMI 在这些位点无显著富集,证明结果特异于身高。

跨祖先与预测

意义与局限

意义

  • 首次实证:足够大样本下,常见变异对身高的关联可达"饱和",遗传率可映射到约 21% 基因组的有限区域。
  • 提供强力身高 PGS 和 7,209 个优先研究区域,为后续 fine-mapping、功能与机制研究指明范围。
  • 方法范式(两步 meta + COJO + 分层遗传率 + 饱和分析)可推广到其他多基因性状/疾病。
  • 明确量化了"增加非欧裔样本"对提升欠代表人群预测准确度的价值。

局限

  • 仅基于 HM3 panel,未完整覆盖常见变异;罕见变异是否同样聚集仍待全基因组测序验证。
  • 条件分析用欧裔 LD 参考,但约 24% 样本为非欧裔——多祖先 fine-mapping 仍缺乏合适工具。
  • 非欧裔特异关联的复制能力有限(数据可得性不足)。
  • 从关联到 causal gene 的"最后一公里"仍是瓶颈,需结合 WES、eQTL 与新计算方法。

来源

Yengo L, Vedantam S, Marouli E, et al. A saturated map of common genetic variants associated with human height. Nature. 2022;610(7933):704-712.

DOI:https://doi.org/10.1038/s41586-022-05275-y
PubMed:https://pubmed.ncbi.nlm.nih.gov/36224396/
PMC(开放获取,图片来源):PMC9605867

软件:RAREMETAL v4.15.1、GCTA-COJO v1.93、EasyQC、LDSC、ImpG-Summary v1.0.1、SMR、DEPICT、MAGMA。数据:GIANT consortium(summary statistics 公开)。