您好,欢迎光临武汉贝纳科技服务有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

无需组装,使用Nanopore测序从自然群体中识别完整的病毒基因组

发表杂志:Genome Research
影响因子:11.20  
发表时间:2020.2.19
 
病毒是地球上最丰富的生物体,在宿主生态学、进化和基因水平转移中起着关键作用。由于病毒群体固有的遗传复杂性,很难从自然微生物组中获得完整的病毒基因组。本研究开发了一种基于Nanopore测序,无需组装的检测方法,可以直接从环境样品中识别完整的病毒基因组序列。

研究思路




材料与方法

材料:
采集3种不同深度的海水样品,0.22 μm过滤器对25米深水样进行预过滤,对117米和250米深样品使用0.1 μm过滤器进行预过滤,过滤液使用30 kda过滤器进行浓缩。分别提取DNA后,每个样品分成2份。
测序方案:其中一份分别使用GridION测序,同时使用Illumina测序数据用于纠错;另一份入10 ng λ噬菌体DNA作为内参使用GridION进行测序。

分析流程:
由于直接末端重复序列(DTRs)是大多数双链DNA尾噬菌体共有的特征,使用这一特征来识别此类基因组序列。Nanopore reads经过过滤,保留含有DTRs序列的reads用于下游分析,以5-mer 分箱之后,使用长reads和短reads对病毒基因组序列进行纠错。无需组装的噬菌体基因组识别流程如图1所示。


图1 无需组装从Nanopore reads中识别海洋噬菌体基因组的分析流程



研究结果
 
1 从Nanopore测序reads中识别海洋病毒基因组
首先使用192个已知的海洋噬菌体基因组组成模拟宏病毒组,用来验证该流程。分析获得190个clusters(表1),纠错后获得基因组草图,与参考基因组比对,准确率≥99.67%,覆盖率≥99.86%。该分析流程成功检测到毒株水平的差异。


表1 3种不同深度海水样品的测序、分箱和纠错的基因组统计


接着将该分析流程应用于水下25米、117米和250米深度收集的3个海水样品。识别了16,000-130,000个含有DTR、假定的全长双链DNA尾噬菌体reads,长度分布在20-90kb。此分析促进了含有复杂重复结构基因组的识别和纠错。例如,AFVG_250M480基因组中存在4.2kb的复杂重复结构,很容易从cluster reads中识别出40.4kb噬菌体。纠错后基因组草图中的病毒DTR长度在32~4829bp之间,这种重复结构很难通过短读长组装方法单独解决。该分析流程还检测到短读长宏病毒组组装的片段化的微多态性水平。
 
补充图6 纠错后获得的病毒基因组草图的数量和长度分布



在环境样品中加入10 ng λ噬菌体DNA作为内参,进一步验证该分析流程的准确性。当获得11个全长λ Nanopore reads时,获得的48,517bp基因组与λ噬菌体参考基因组同源性为99.81%。当获得23个λ reads时,获得的48,510bp基因组与参考基因组同源性为99.92%。
该流程一共获得1864个高质量的基因组草图,水下25米、117米和250米的样品分别获得566、93和1205个病毒基因组(AFVG)。
对Illumina和Nanopore测序获得的病毒基因型进行比较。结果显示,Nanopore直接测序的序列比Illumina组装的Contig检测到的病毒基因组序列更长、更完整。使用短reads纠错后的AFVG可以提高序列质量,CDS和覆盖率。
 

2 验证AFVG的起源和初始特征
使用该流程对AFVG进一步验证。结果显示,不同深度样品的AFVG长度不同。水下25米、117米和250米样品中AFVG长度分别为28.0-65.2kb(平均39.3kb)、29.8-87.4kb(平均47.3kb)和28.5-73.0kb(平均41.6kb),与之前报道的结果一致。
为了进一步识别AFVG,筛选病毒序列特征、基因含量,以及与病毒数据库的相似性。结果显示,所有AFVG(1864个)均被VirSorter识别为病毒,且包含DTR序列;AFVG注释基因与病毒数据库中病毒基因有很高的序列相似性(图3)。大多数AFVG(60%)注释基因与病毒数据库中病毒基因的平均氨基酸同源性(AAI)为60%。在250米样品中,AFVG含有最大比例的新基因(图3),与之前的报道一致。AFVG还含有较高比例的病毒标记基因,包括编码末端、尾巴、头部、衣壳、通道和整合酶蛋白的基因(补充图11)。

 

图3 AFVG注释基因与已知病毒基因的相似性


 
 

补充图11 3个样品AFVGs识别的病毒标记基因


 
AFVG的分类组成与已知的同一海洋区域的微生物群落以及浮游微生物宿主一致。大部分与已知感染蓝细菌的病毒或常见的异养细菌(如Pelagibacter(SAR11)、Punice isspirillum(SAR116)、假单胞菌和弧菌)的噬菌体相似。



补充图12 每个样品中的AFVG分类组成
 

3 DNA包装机制的推断
噬菌体DNA包装机制多种多样,但“头部包装”机制是许多双链DNA噬菌体的共同策略。对AFVG可能的包装机制进行预测,表明,这是一种严格的“头部包装”机制,由噬菌体头部可用体积决定剪切位点,而不存在特定的剪切位点。
末端酶(与噬菌体DNA识别和包装相关的蛋白质)的系统发育分析结果显示,具有循环排列DTR的AFVG种类繁多,并且与其他AFVGs和培养的噬菌体参考序列之间存在亲缘关系(补充图14)。1簇与已知在海洋中能感染蓝藻的噬藻体Prochlorococcus最相似(76%AAI);另1簇与已知能感染普通细菌属Puniceispirillum成员的噬菌体相似度最高(88%AAI);其他簇与肠杆菌噬菌体(T3、T5和T7)及其他海洋噬菌体聚在一起。

 

补充图14 末端酶蛋白的系统发育树


 
4 从海水中分离出串联重复序列
在纠错后的AFVG中,有16条长度为33.1-66.2kb的序列,完全由5.3-13.2kb的串联重复序列组成。对3个样本的每条reads识别串联重复序列。在水下25m、117m和250m样本中分别识别到串联重复序列为1546个(长度20-40kb,包含5-7个拷贝数)(图5a和5b)、897个(长度为20-40kb,包含7个拷贝数)(图5c和5d)和1947个(长度为35-40kb,包含4-7个拷贝数(图5e和图5f)。这些串联重复序列长度分布与识别的AFVG长度分布一致。

 



图5 Nanopore reads中的串联重复长度和拷贝数

 
对这16条串联重复序列进行注释,显示所有重复拷贝均含有整合酶基因,几个串联重复中均存在DNA启动酶(图6)。整合酶和DNA启动酶是噬菌体可诱导染色体岛(PICI)常见的标志基因。此外,串联重复序列的拷贝数和reads长度与预测的PICI DNA合成和包装机制一致。AFPP_117M2是一种无需组装的假PICI (AFPP)(图6),起源于海洋中最常见的异养细菌群之一的Pelagibacter。通过podoviridae家族中的Pelagiphages整合到宿主Pelagibacter基因组中,共用Pelagibacter噬菌体包装机制,与最近的报道一致。该研究首次证明,PICI基因组串联重复序列可能被包装在“wild”噬菌体颗粒中,串联重复的大小反映了噬菌体的基因组大小。


 
图6 前噬菌体包装的结构、PICI-like串联重复序列

 
总结
该研究使用Nanopore测序,从海洋微生物组获得1864个全长高质量的病毒基因组。通过分析,区分了具有相同的直接末端重复序列的群体与具有末端串联重复序列的群体,从而为自然界病毒繁殖和基因组包装提供了新的见解。发现了新的病毒序列,其重复结构、基因含量和串联重复序列长度表明它们是噬菌体可诱导染色体岛,它们被包装成噬菌体颗粒,其长度与共生噬菌体的基因组大小相匹配。该研究提出的识别病毒策略可以获得以前无法获得的病毒和病毒寄主的基因组结构、种群生物学和生态学信息。


 
参考文献
John B. et al. Assembly-free single-molecule sequencing recovers complete virus genomes from natural microbial communities. Genome Research. 2020,30:437–446.
 









 


Copyright © 2018 武汉贝纳科技服务有限公司 . All Rights Reserved. Designed by 鄂ICP备13016520号-1技术支持:中网维优