近日,国重室生物信息团队在国际知名学术期刊J Exp. Bot.在线发表了题为“Graph-based pan-genome: increased opportunities in plant genomics”的综述文章(图1)。该综述回顾了图形泛基因组的起源和发展历程,展望了图形泛基因组在作物育种中的应用。
图1. J Exp. Bot.在线发表泛基因组综述文章
真核生物泛基因组通常被定义为该物种中所有DNA序列的集合。目前泛基因组的构建是将参考基因组中不存在的序列添加到参考基因组中,形成一个简单的线性序列集合,并不能很好地表征物种中的存在缺失变异信息。因此图形泛基因组的概念被提出,它基于参考序列和变异序列之间的关系,以节点代表序列信息,边代表不同序列之间的联系,以图的形式来存储泛基因组,可以有效地将参考基因组和遗传变异联系起来。
目前图形泛基因组的存储和可视化是主要的瓶颈问题。该综述介绍了图形泛基因组的存储格式,从GFA格式到rGFA格式,以及vg和odgi的二进制格式(图2)。图形泛基因组的难点之一是与线性参考基因组坐标的对应关系。图形泛基因组坐标还原目前还存在诸多难点,目前还无法准确表示片段在源基因组中的坐标,未来需要坐标系表现出更好的可扩展性,并且随着线性参考基因组的更新,对应的图形泛基因组需要同时更新节点、边和坐标。
图2. 图形数据格式展示
进一步利用minigraph构建了47个水稻的图形泛基因组,并展示了不同可视化软件工具的结果(图3),总结了可视化方法、可视化软件的布局、可视化范围、可视化格式以及软件的特殊功能,讨论了图形泛基因组基因结构注释和变异注释。最后描述了目前已有图形泛基因组的规模,以及图形泛基因组结合全基因组关联分析(GWAS)等方法的应用实例。
文章最后展望了图形泛基因组在将来育种发展过程中的应用。目前图形泛基因组构建刚刚起步,难以应用于复杂度高、基因组规模大的物种,而且尚未建立图形泛基因组的评估标准。构建图形泛基因组的目的是为了更清晰直观地了解物种的遗传多样性,但目前大多数生物信息学分析工具仅适用于线性参考基因组,图形泛基因组的下游分析需要开发更多的算法和工具。除了挖掘新的结构变异(SVs)及与 SV相关的表型性状外,还应开发可以与多组学数据(蛋白质组、代谢组等)相结合的图形泛基因组应用程序,进行多维关联分析以识别候选位点。例如在图形泛基因组中存储 DNA 甲基化和其它信息,可用于比较由不同等位基因甲基化产生的不同表型。图形泛基因组作为参考基因组是未来发展的趋势。期待图形泛基因组可以将基因组学推向新的水平,在将来的发展中可以带给人们更多的惊喜。
图3. 图形泛基因组可视化
博士研究生王朔和硕士研究生钱永清为该论文的共同第一作者,广西大学宋佳明副教授和陈玲玲教授为该论文的共同通讯作者。该项目得到了国家自然科学基金、亚热带农业生物资源保护与利用国家重点实验室自主专项及广西大学高层次人才启动研究基金等项目的支持。