新数据结构可压缩整合上亿基因组
2026年01月14日 来源:科技日报 作者:记者 张佳欣

这张图展示了PanMAN技术能够在极小的数据存储需求下处理海量基因数据。图片来源:
美国加州大学圣迭戈分校
随着基因测序进入“亿级时代”,如何存储、分析和理解海量基因组数据正成为生命科学的新瓶颈。12日发表在《自然·遗传学》上的一项研究称,美国加州大学圣迭戈分校领导的团队开发出一种全新的“压缩式泛基因组”数据结构,可将数百万乃至上亿个基因组压缩整合在一个统一框架中,为大规模基因组研究打开新空间。
泛基因组学是生物信息学的一个分支,研究的是同一物种中大量不同个体的基因组。与只使用单一参考基因组相比,这种方法能更全面地呈现一个物种内部的自然变异与突变情况,对于追踪病毒变异、理解耐药性产生机制以及研究人类遗传多样性都至关重要。然而,尽管测序成本不断下降,现有泛基因组的数据结构仍难以高效表达数百万基因组之间的复杂关系,尤其是它们的共同进化历史和突变路径。
此次,团队开发了一种名为“泛基因组突变标注网络”(PanMAN)的新型数据结构与文件格式。该方法不仅大幅压缩了泛基因组数据规模,还能同时编码系统发育关系、突变信息和全基因组比对,从而在“省空间”的同时保留关键生物学信息。
PanMAN由一组“突变标注树”组成。每棵树以一个祖先基因组为根节点,在不同分支上记录替换、插入和缺失等突变。多棵树再通过网络结构连接,用于表达重组和水平基因转移等复杂遗传事件。由于每一次突变只在其发生的分支上存储一次,而不是在每个基因组中重复记录,这种表示方式能够充分利用共同祖先关系实现高效压缩。
团队已将该方法应用于微生物基因组分析,并构建了目前规模最大的新冠病毒泛基因组,覆盖超过800万个病毒基因组。采用PanMAN表示后,这些数据仅需366MB的存储空间,约为对应的全基因组比对所需空间的1/3000。
团队指出,如果将该方法扩展到人类基因组,将有望显著改变大规模遗传数据的存储、共享和分析方式,并为研究人类群体的遗传多样性、疾病机制和进化历史提供更高分辨率的工具。