身高 GWAS 可视化文献解读 | Yengo et al. 2022 Nature

解读说明：本报告为对原文的中文可视化解读，便于团队快速理解方法与结论，不替代原文。所有图片来自 Europe PMC 开放获取版本（PMC9605867，CC BY）。文中数字与方法均来自原文正文与 Methods，未作外推编造；标注"我们的解读"处为辅助理解的说明。

目录： 一图速览研究背景与问题 ★ GWAS 方法详解 ★ Brisbane plot 方法 ★ 显著位点过多的解释（饱和）主要结果意义与局限来源

一图速览

540 万

个体（281 研究 + 23andMe）当时最大规模身高 GWAS

12,111

准独立显著 SNP9,920 主信号 + 2,191 二级信号

7,209

非重叠位点（~21% 基因组）平均 ~90 kb

~100%

EUR 常见变异遗传率被解释非欧裔 >90%

一句话总结：用 540 万人的跨祖先 GWAS，作者证明身高的"常见变异关联"已接近饱和——12,111 个显著 SNP 集中在仅占基因组 21% 的 7,209 个区域内，几乎解释了全部常见变异可贡献的遗传率。显著位点之所以"多"，是因为同一批关键区域内存在大量独立信号（等位基因异质性），而不是"全基因组每个位置都与身高相关"。

研究背景与问题

身高是人类多基因性状的"模式性状"：高遗传率（常见 SNP 预计可解释 40–50% 的表型变异）、易测量、样本量大。2007 年以来 GWAS 已发现数千个身高关联，此前最大规模研究（Yengo 2018，约 70 万人）报告了 712 个位点中的 3,290 个独立关联。

核心问题是"完整性 / 饱和"：当样本量足够大时，GWAS 能否几乎完整地编目常见变异所携带的信息？这包括三个层面——

预测准确度能否逼近常见变异可解释的遗传率上限；
关联区域能否完整覆盖这部分遗传率；
样本量继续增大，是否还能不断提供新的"候选基因"信息，还是说最终每个基因、每个区域都会被牵连（曾有观点如此推测）。

同时，由于多数 GWAS 以欧裔为主，作者特意在多祖先背景下检验上述问题。

★ GWAS 方法详解

整体分析策略：两步 meta + 条件联合分析

样本与变异。5,380,080 个体来自 281 项 GIANT 研究 + 23andMe，分 5 大群体：EUR 75.8%、EAS 8.8%、HIS 8.5%、AFR 5.5%、SAS 1.4%。检测 HapMap 3（HM3）tagging panel 上约 138.5 万个常染色体双等位 SNP。

质量控制。用 EasyQC（适配 RVTESTS 格式）检查各研究的等位基因频率、标记数、缺失、插补质量、基因组膨胀因子、性状变换等；剔除 2 项不合格研究。单研究 SNP 过滤：插补精度 r²INFO > 0.3、P_HWE > 1e-8、最小等位基因计数 MAC > 5。

祖先内 meta。先分 5 群体各自做固定效应反方差加权（IVW）meta，工具为改版 RAREMETAL v4.15.1（可处理多等位变异）。

跨祖先 meta（METAFE）。因发现各祖先间信号高度重叠（效应相关 ρb 0.64–0.99），再用 R 包 meta 做五群体固定效应 IVW meta，最大化检验功效。

COJO 条件联合分析。用 GCTA-COJO v1.93 做近似条件联合分析，逐步模型选择保留联合效应仍达全基因组显著（P < 5×10⁻⁸）的 SNP，得到"准独立"信号。AFR/HIS 因长程 LD 特别调参以避免偏差。

LD 参考面板。EUR 用 UKB 约 348,501 无关个体；EAS/SAS/AFR/HIS 各用祖先匹配 panel（UKB、GERA、WHI、CARe、HCHS/SOL 等）。METAFE 的 COJO 也用 EUR UKB 作 LD 参考。

为什么 METAFE 可以用欧裔 LD 近似？作者做了关键论证：① METAFE 与 EUR 的等位基因频率几乎一致（SNP 间平均 FST≈0.001，因 >75% 是欧裔 + ~14% 混合祖先）；② 用 EUR LD scores 做 LDSC 回归，METAFE 的 attenuation ratio 仅约 4.5%（远低于 20% 经验阈值，且与纯 EUR 的 3.8% 无显著差异）。因此用 EUR LD 参考做 COJO 是合理的。

复制与稳健性

在独立的 Estonian Biobank（49,160 人）中复制：因样本量差异大，不逐个 SNP 复制，而是评估效应相关性——marginal 效应相关 ρb=0.93，conditional 效应相关 ρb=0.80；MAF>1% 的变异中 >75% 效应方向一致（P<10⁻⁵⁰）。证明结果稳健可复制。

图1｜SNP 频率与估计效应量的关系。每个点是 12,111 个准独立显著 SNP 之一。纵轴为每个次等位基因对身高的效应（以身高标准差计）。两条曲线表示在 n=0.5M 与 n=5M、统计功效 90% 下可检测到的"频率—效应量"理论下限。我们的解读：越低频的变异，需要越大效应才能被检出；样本量从 50 万增到 500 万，把可检出区域大幅向"低频小效应"扩展。

★ Brisbane plot 方法

Brisbane plot 是作者用来展示"关联信号在基因组上的局部密度"的图（名称来自通讯团队所在地——澳大利亚布里斯班 / 昆士兰大学）。它不同于传统曼哈顿图（纵轴是 -log10 P），而是把每个显著 SNP 的"邻域拥挤程度"画出来。

密度的精确定义

对每个显著（GWS）SNP，信号密度 = 它两侧各 100 kb 窗口内、其他独立关联 SNP 的个数。
密度 = 0：100 kb 内没有其他独立信号；密度 = 20：与另外 20 个独立 GWS SNP 共定位。
标准误用 leave-one-chromosome-out jackknife（LOCO-S.E.）估计。
未达全基因组显著的 SNP 不画在图上。

关键发现

全基因组平均密度 = 2.0（s.e. 0.14），中位数 = 1（s.e. 0.0）——说明信号非随机聚集。
69% 的显著 SNP 与另一个独立显著 SNP 共定位在 100 kb 内。
每条染色体密度最高的 SNP 用最近基因注释；15 号染色体 ACAN 基因附近密度最大——100 kb 内挤了 25 个独立 GWS SNP（ACAN 是矮身材和骨骼发育异常综合征的致病基因）。
高密度区显著富集 OMIM 骨骼生长基因：密度>1 时 OMIM 基因富集 2.5 倍（P<0.001），且富集随密度近线性上升。

图2｜Brisbane plot：身高独立关联的基因组密度。每个点是 12,111 个准独立显著 SNP 之一，点的高度（密度）= 100 kb 内其他独立关联数。各染色体密度最高点用最近基因注释，并高亮了 24 个主要由非欧裔群体贡献的关联（3 个非洲、10 个西语裔、11 个东亚）。我们的解读：这张图直观说明"显著信号扎堆"——它们集中在少数关键基因区域，而不是均匀铺满基因组。

★ 对"显著位点过多"的解释：饱和（saturation）

读者常见困惑：12,111 个 SNP 是不是"太多了"，是不是意味着几乎整个基因组都与身高有关？作者的回答是——恰恰相反，这正是"饱和"的标志，而且信号高度集中。

解释 1：位点集中，而非全基因组弥散

12,111 个显著 SNP 只聚成 7,209 个非重叠位点（每侧 35 kb 窗口定义；选 35 kb 是因为预测 causal variant 落在显著 SNP 35 kb 内的概率>80%），累计长度约 647 Mb，仅占基因组 21%。而这 21% 的区域，在欧裔中解释约 100%、非欧裔 >90% 的常见 SNP 遗传率。换句话说：身高的常见变异遗传率被"压缩"映射到了基因组的约五分之一。

解释 2：等位基因异质性（同一区域内多个独立信号）

"显著 SNP 多"主要来自同一关键区域内的多重独立 causal variant，而非新区域不断出现。最典型的是 ACAN 位点：100 kb 内 25 个独立 GWS SNP，背后是多个增强子、错义变异、可变数目串联重复（VNTR）等多类型变异共同影响 ACAN 功能。作者用单倍型和模拟分析确认这是"多个独立 causal variant"的真实信号，而非假象。

解释 3：不同层级的"饱和"需要不同样本量

作者把 GWAS 信息分成几个层级，用 7 个从约 13 万到约 530 万的 GWAS（含下采样）量化它们随样本量的变化：

层级	饱和所需样本量	随样本量的行为
基因集 / 通路、功能注释富集	最小（n≈0.25M 即可）	很早就稳定，加非欧裔样本无显著提升
候选基因（OMIM 近邻 / SMR 基因）	中等（n>1.5M～4M）	达到一定样本量后趋于平台
显著 SNP 个数	最大（持续增长）	随样本量近线性增加
位点（loci）个数、基因组覆盖、预测准确度	大（n>2.5M 趋缓）	新 SNP 多扎堆在已知位点旁，loci 数增速放缓——这就是饱和

关键对比：样本量从 2.5M 增到 4M（多加 150 万欧裔），显著 SNP 从 7,020 增到 9,863（约 1.4 倍），但预测准确度提升不到 2.7%——说明"位点和预测"已接近上限，新增 SNP 多是同一区域的精细化。

图4｜样本量与各层级发现的关系（饱和程度不同）。基因集/通路在小样本即饱和，候选基因居中，变异/区域映射和预测准确度需要最大样本。我们的解读：这张图是"显著位点为何多"的答案核心——SNP 数在涨，但它们落在的"区域"和"生物学结论"早已趋稳。

解释 4：对其他性状的外推

作者纠正了既往预测（曾估计 300 万样本即可解释 90% 遗传率）：实际需约 10,000 个独立关联才能在欧裔中解释 80–90% 的 SNP 遗传率。若按比例外推到其他性状，要达到类似饱和，炎症性肠病约需 2 倍（n≈10M）、精神分裂症约 7 倍（n≈35M）、BMI 约 10 倍（n≈50M）。这正面回答了"为什么身高位点这么多"：身高遗传率高、样本量最大，所以它最先逼近饱和。

主要结果

群体	研究数	最大样本量	GWS COJO SNP	GWS 位点(35kb)	基因组覆盖
欧裔 EUR	173	4,080,687	9,863	6,386	18.4%
东亚 EAS	56	472,730	918	821	2.0%
西语裔 HIS	11	455,180	1,511	1,373	3.3%
非洲 AFR	29	293,593	453	412	1.0%
南亚 SAS	12	77,890	69	66	0.2%
跨祖先 METAFE	281	5,314,291	12,111	7,209	21.6%

图3｜GWS 位点内 HM3 SNP 解释的身高遗传率。把基因组分成"距 GWS SNP 35 kb 内"与"之外"两部分估计分层 SNP 遗传率。结果：占约 21% 基因组的 GWS 位点，在欧裔解释约 100%、各非欧裔群体 >90% 的常见 SNP 遗传率。对照性状 BMI 在这些位点无显著富集，证明结果特异于身高。

跨祖先与预测

>85% 非欧裔 GWS SNP 与至少一个欧裔显著变异强连锁（r²LD>0.8）；>91% 落在欧裔 GWS SNP 的 100 kb 内——信号高度跨祖先共享。
12,111 个 SNP 的 PGS 预测准确度：欧裔约 40%（约 80% 的 h²SNP），非洲裔仅约 10%。
这种差距约 84% 可由欧裔/非洲裔间的 LD 与 MAF 差异解释，而非效应不同——支持 causal variant 跨祖先共享。
结合家系信息可把欧裔预测准确度提升到 54% 以上。

意义与局限

意义

首次实证：足够大样本下，常见变异对身高的关联可达"饱和"，遗传率可映射到约 21% 基因组的有限区域。
提供强力身高 PGS 和 7,209 个优先研究区域，为后续 fine-mapping、功能与机制研究指明范围。
方法范式（两步 meta + COJO + 分层遗传率 + 饱和分析）可推广到其他多基因性状/疾病。
明确量化了"增加非欧裔样本"对提升欠代表人群预测准确度的价值。

局限

仅基于 HM3 panel，未完整覆盖常见变异；罕见变异是否同样聚集仍待全基因组测序验证。
条件分析用欧裔 LD 参考，但约 24% 样本为非欧裔——多祖先 fine-mapping 仍缺乏合适工具。
非欧裔特异关联的复制能力有限（数据可得性不足）。
从关联到 causal gene 的"最后一公里"仍是瓶颈，需结合 WES、eQTL 与新计算方法。

来源

Yengo L, Vedantam S, Marouli E, et al. A saturated map of common genetic variants associated with human height. Nature. 2022;610(7933):704-712.

DOI：https://doi.org/10.1038/s41586-022-05275-y
PubMed：https://pubmed.ncbi.nlm.nih.gov/36224396/
PMC（开放获取，图片来源）：PMC9605867

软件：RAREMETAL v4.15.1、GCTA-COJO v1.93、EasyQC、LDSC、ImpG-Summary v1.0.1、SMR、DEPICT、MAGMA。数据：GIANT consortium（summary statistics 公开）。