科学家编码新型基因组组装算法

2022年03月04日 来源:科学网 作者:小柯机器人

美国加州大学Pavel A. Pevzne、Anton Bankevich研究组的研究发现多重de Bruijn图可利用长、高保真读数据进行基因组组装。这一研究成果于2022年2月28日发表在国际学术期刊《自然-生物技术》上。

为了实现长、高保真(HiFi)读取的自动组装,研究人员编写了La Jolla Assembler (LJA)程序,这是一种使用Bloom过滤、de Bruijn散点图和不相交生成的快速算法。LJA将HiFi读取的错误率降低了三个数量级,可用于大基因组和k-mer大小构建de Bruijn图,并将其转换为具有不同k-mer大小的多路de Bruijn图。与最先进的组装器相比,该算法不仅实现错误组装降低五倍,而且还生成了更多的连续组装。研究人员通过完全自动组装人类基因组的六个染色体展示了LJA的实用性。

据悉,尽管很多现有基因组组装器都是基于de Bruijn图,但对大型基因组和k-mer大小构建这些图仍然具有挑战性。随着用于人类基因组半手动生成端粒到端粒组装的长HiFi读取的出现,改善这一算法变得尤为紧迫。