您好,欢迎光临武汉贝纳科技服务有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

使用Nanopore宏基因组测序识别并验证细菌基因组变异

由于重序列,使用Illumina测序很少获得完整的宏基因组组装基因组(MAGs)。本研究基于Nanopore测序和新开发的分析流程组装获得13个环状MAGs,所有MAGs完整率均大于98%,冗余度小于3%。且开发的流程可以用于验证组装结果的准确性,进一步提高宏基因组的组装质量。

研究背景

虽然Illumina测序对宏基因组组装基因组(MAGs)进行组装和分箱,可以提高不可培养微生物群落的基因组解析程度。然而,由于重复区域难以组装,使得基于短reads的宏基因组组装很少获得完整的基因组序列。本研究提出的使用短读长和超长读长(N50>25kb)混合组装的策略,完成并验证了来自细菌群落的多个完整的MAGs,包括最近提出的 Candidate Phyla Radiation基因组;开发的流程使研究人员能够验证来自宏基因组组装的基因组,通过进一步分析提高宏基因组的组装质量。

研究思路


材料和方法

材料:2012年从北部艾伯塔省油砂尾矿池中富集的藻类细菌培养物。

测序:分别使用MinION和Illumina测序,MinION测一张芯片。

分析:长reads用metaFlye组装成环状MAGs,进而使用Rebaler和Pilon软件分别使用长reads和短reads进行纠错。

 

结果

基因组组装

组装和验证工作流程如图1所示。使用优化的高分子量DNA提取方法,经过测序获得的reads N50为24kb,使用metaFlye初步组装获得13个环状MAGs。将长reads比对回组装结果上,经过进一步过滤后,形成“pseudo-isolate”reads簇。发现一个独特的reads簇,其reads长度与比对得分比为1-2,含有许多嵌合reads(图2)。


 

图1 组装和验证工作流程

 

图2 Algoriphagus alkaliphilus reads长度与比对评分的关系

 

用ANVI‘o v6.0计算每个基因组的完整率和冗余度,除 Candidate Phyla Radiation (CPR)基因组外,所有基因组的完整率均大于98%,冗余度小于3%。CPR基因组完整率较低,与之前的报道一致。
 

表1 使用anvi-estimate-genome-taxonomy对环状基因组进行了分类预测


 

检测高覆盖率基因组的变异

在两个覆盖率最高的基因组Parvibaculum和brevundimonas中,均含一段过滤后的Nanopore reads覆盖率下降,而未过滤的Nanopore和Illumina reads覆盖率一致的区域。经过进一步比对分析,有一簇过滤后的reads支持这一组装结果,而大多数情况下,reads簇在一个碱基上停止。推测基因组变异可能是造成这种情况的原因,这得到了大多数长reads的支持。对于Parvibaculum基因组,参考基因组有35kb的缺失,少数reads支持这一结果,但大多数reads支持35kb的插入。准确mapped上的超长reads支持这两种结果,表明确实存在35kb缺失的次要变异,和35kb区域插入的主要变异(图3)。使用Prokka进行注释,缺失的区域包含一个镍和钴抗性蛋白cnrA、一个铜抗性蛋白copB和一个3型IS家族转座酶,表明最近发生了一次基因水平转移事件,可能造成该物种功能损失或增加。
 

 

图3  Parvibaculum sp002480495 基因组的可视化

 

UBA1547 SP002422915基因组的变异

UBA1547基因组被鉴定为 Candidate Phyla Radiation基因组。有一段约30kb区域,Illumina和Nanopore reads覆盖率下降1.4倍,GC含量急剧增加(从51%增加到63-68%)。虽然像这种重大变化通常可能是宏基因组的组装错误或污染所致,但发现相邻区域有overlap的长reads 覆盖到,且有4个超长reads跨越整个区域,也有超长reads(至少15kb)与两侧的交界点重叠(图4)。该区域注释为IV型分泌物、重组酶和I型内切酶。
 

图4 UBA1547 SP002422915基因组异常区域的深入分析

 

为确保每个基因组都能正确组装,对每个基因组绘制覆盖度、GC skew和GC含量的可视化图。观察到超过1kb,约63.77%的Nanopore reads,唯一比对上64.38%的Illumina reads,可以组装成一个基因组。只要Nanopore reads跨越整个重复区域或与两个相邻区域有overlap,则认为该区域是正确组装。

 

这些基因组真的完成了吗?

使用长读长或混合组装对每个基因组的“Psuedo-isolate” reads重新组装,以确定其他组装算法是否与初始宏基因组组装一致。大多数“Psuedo-isolate” reads使用Flye成功地重新组装成单个基因组(表2)。对Illumina数据组装的 Spades 软件效果不佳,hybrid软件的混合组装在许多覆盖率很低的基因组获得多个contigs。值得注意的是,最近对长读长组装的标准测试表明,Flye可以成功组装约10X覆盖率的基因组,并且可能比其他算法更擅长组装低覆盖率的基因组。
 

表2 对“Psuedo-isolate” reads重新组装的结果

 

总结

本研究提出的使用短读长和超长读长(N50>25kb)混合组装的策略,完成并验证了来自细菌群落的多个完整的MAGs,包括最近提出的 Candidate Phyla Radiation基因组。本研究开发的流程将使研究人员能够验证来自宏基因组组装的基因组,通过进一步分析提高宏基因组的组装质量。

 

 

Copyright © 2018 武汉贝纳科技服务有限公司 . All Rights Reserved. Designed by 鄂ICP备13016520号-1技术支持:中网维优