Figure 1 · 来源:Horsfield et al., Genome Research 2023, DOI: 10.1101/gr.277733.123
Figure 1. ggCaller 的图上基因调用流程
图示信息:流程被分成 ORF identification 与 ORF clustering + filtering 两大部分:先用 Bifrost 从多基因组装配构建 colored compacted de Bruijn graph,再遍历 stop codon、筛选 start codon、聚类 ORF、用 Balrog 评分、用 Bellman–Ford 选择最高得分 tiling path,最后接入修改版 Panaroo 做 gene graph、过滤、注释和补召回。
论文结果/观点:ggCaller 把传统“每个基因组单独 gene calling → 注释 → pangenome 聚类”的串联流程,改成在群体 DBG 上一次性预测、评分、聚类和注释。核心不是换一个注释库,而是把“群体频率”和“图结构”提前放进基因预测阶段。
研究意义:这解释了全文后面两个主要收益:一是同源基因的起始/终止位置更一致,二是功能注释只需对 cluster center sequence 做查询,可降低重复计算。
解释边界:Figure 1 是方法框架图,说明算法设计与数据流;它本身不证明性能提升,性能证据来自后续 simulated/real data benchmark。