您好,欢迎光临武汉贝纳科技服务有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

应用Nanopore测序从微生物组中获得细菌

细菌基因组中通常存在重复元件,导致二代宏基因组测序很难从人粪便样品中直接获得细菌完成图。最新发表在Nature Biotechnology的文章提出应用Nanopore测序和Lathe组装分析流程,将长reads和短reads纠错相结合,可以从复杂的微生物中组装出细菌完成图。相对于与PacBio测序和读云(使用10×genomics)测序的方法,Nanopore测序更容易从环境样品中获得细菌完成图。
 
本研究应用Nanopore测序和Lathe组装分析流程,使用短reads对将长reads进行纠错,以便从复杂的微生物中组装出细菌完成图。首先将此方法用于测试12例细菌混合物,其中7个组装出细菌完成图,另外3个组装出4个或少数contigs。而后将此方法应用于13个人的粪便样品,组装出20个细菌完成图,包括Prevotella copriCibiobacter sp.。尽管较替代的测序和组装方法,降低了核苷酸的准确性,但是此方法提高了组装的连续性,有利于研究重复元件在微生物功能和适应中的作用。
 

发表杂志:Nature Biotechnology
发表日期:2020年2月
影响因子:31.864


研究背景

通过宏基因组组装获得细菌和古细菌的完整基因组(MAG)是微生物组研究的长期目标。由于受到重复元件的制约,现有的宏基因组测序和组装方法通常不能获得完整的细菌基因组。目前主流的组装方法是:分箱、读云测序等,虽然提高了MAG质量,但是对于正确组装重复序列的能力有限。
重复元件的大小范围在几十bp到几千bp。长的序列可以跨越整个常见的重复元件,如微型反向重复转座子,转座子,基因重复和前噬菌体序列。近年来,Nanopore和PacBio长读长测序被应用于肠道和其他微生物组研究。但是由于缺乏从粪便中有效提取高质量DNA的方法,阻碍了长读长测序在肠道微生物研究中的应用。
常规的球磨法,会导致大面积断裂,虽然固相可逆固定化(SPRI)可以通过“清理”步骤去除数百bp的DNA片段,但这往往不能富集足够长的DNA,以跨越细菌重复元件。温和的球磨法可以减少断裂,但很难从难以裂解的生物体中提取DNA。因此,需要有方法从革兰氏阳性菌和革兰氏阴性菌中提取可跨越重复元件的长DNA片段,以克服基因组组装的局限性。
本研究提出了一种新的DNA提取方法和Lathe组装流程,应用Nanopore测序,从复杂的微生物中组装出细菌完成图。
 

研究思路

材料和方法

12种标准的ATCC革兰氏阳性菌和革兰氏阴性菌混合物,用于模拟群落水平测试新方法的可行性。
2个人(斯坦福大学根据IRB批准招募的2名健康成年志愿者)的粪便样本:P1,P2-A(这两个样本以前曾用于评估读云和短读长测序)和P2-B样品(从个体 P2取得第一个样本15个月后收集的粪便样本)。用于在自然群体上测试新方法的可行性。
另外10个健康成人(斯坦福大学根据IRB批准招募的10名健康成年志愿者)的粪便标本(样本A-J),用于评估新方法的普适性。
 


补充图1 DNA提取和Lathe组装分析流程

 
DNA提取方法:使用多种酶降解细胞壁,苯酚-氯仿提取,使用RNase A 和蛋白酶 k 消化,过柱纯化和 SPRI 片段筛选等步骤。

Lathe组装分析流程:对长读长数据basecalling之后,使用Canu或Flye的不同参数组装2次;使用Racon,Medaka和Pilon进行纠错;Merging 2个结果;循环化;通过短读长和长读长一致性序列进行纠错;再一次识别和去除组装错误。
所有样品均使用Nanopore MinION平台测序,每个样品各测1张芯片。同时使用Nanopore测序、短读长测序,读云测序和PacBio测序数据详见补充表2。
 


补充表2 每个样品的测序数据统计


主要结果

1.在12种细菌混合物上测试新方法


使用新的提取方法从混合样品中提取得到401ng HMW DNA,使用纳米孔测序,获得30.3Gb数据,reads N50为5.9kb。混合物中12种细菌reads分类组成和基因组组装结果见图1。


图1混合物中12种细菌的reads分类组成,reads长度分布和基因组组装结果
 

使用Lathe组装获得N50为4.6Mb和总长度为48Mb,与已知的参考基因组长度一致。Lathe与其他长读长组装软件以及混合组装软件相比,N50分别提高了1.6-4倍和2-9倍(补充表4)。相比之下,SPAdes组装N50为133Kb,而用Lathe组装相同数据量的纳米孔数据,N50为3.3Mb,比短读长组装提高了25倍。


补充表4 不同组装软件的比较
注:*Reference length: 48.4 Mbp


在12种细菌混合物中,获得7个细菌完成图(图1)。另外3个细菌基因组装得到4个contig或少数contig;即使是组装最不完整的基因组,其中1个contig也包含了83%的基因组。

 
2. 人粪便样品上测试新方法

接着,将新方法应用于3个粪便样本,每个样品300mg。采用新的提取方法从每个粪便样品得到至少1 μg的 HMW DNA。
经过纳米孔测序后,P1、P2-A和P2-B样品分别获得12.7、6.1和7.6Gb数据,reads N50 分别为4.7、3.0和3.0kb。使用新组装方法获得的reads分类组成,比读云和短读长测序,具有更高的物种多样性(图2)。并能检测到200多个通过短读长检测到的属。

图2 两个健康成人的粪便微生物群落中,每个细菌组装的连续性、多样性和reads分类组成。
 
P1、P2-A和P2-B样品用Lathe组装获得N50分别为236、221和179kb,总大小分别为139、83和87Mb。相比之下,尽管P1和P2-A的短读长和读云测序的数据量是纳米孔测序的3-6倍,但是短读长N50分别为34和15kb,读云组装N50分别为116和12kb,均比Lathe 组装的N50低。


 


补充表5 不同样品组装结果统计

 

值得一提的是,PacBio测序比纳米孔测序的组装结果更加碎片化,这可能是由于PacBio是循环一致性测序,导致即使在覆盖率很高的区域,也留下了零覆盖的缺口。将PacBio组装结果比对到纳米孔上,一共发现7,630个2bp以上的gap。例如,Nanopore测序获得了一个完整的Prevotella copri基因组,而PacBio测序只获得了Phascolarctobacterium faecium基因组草图。

补充说明图2 Nanopore和PacBio测序reads 分别在Nanopore组装的细菌基因组上的覆盖深度
 

分别对纳米孔、读云和短读长组装的基因组进行完整性评估,长读长以较低的成本获得了比读云更连续的组装结果(图2),产生了几个N50大于2Mb的高质量基因组,而读云只产生了1个,短读长方法产生的组装N50均不大于0.55Mb。纳米孔测序从每个样本中组装获得了几个细菌完成图,包括 Dialister sp., Faecalibacterium prausnitzii, Oscillibacter sp.和P. faecium 的基因组,而读云和短读长组装的结果都是片段化的(图 2)。
 
从3个粪便样品中使用Canu组装,可以获得了8个高质量的单contig细菌基因组,其中最大的5个来自同一个样品,而短读长和读云组装了0个。Lathe获得了5个准确的细菌完成图,测序深度在75X(Oscillibacter sp.)-785X(P. copri),与已发表的基因组序列结构一致,序列相似。

 


表1 从人类粪便样本组装获得的细菌完成图

 

3.评估普适性

最后,使用另外10个健康成人粪便样品评估新方法的普适性,并测试HMW DNA提取方法与常规的球磨法是否产生相同的分类结果。采用HMW DNA提取方法从10个样品中获得了合适长度的DNA,进行纳米孔测序,获得13-27Gb,原始数据reads N50为1.4-5.2kb,结合1.9-3.6Gb较低深度的短读长数据进行一致性纠错后确定分类组成(补充表2)。
 
同一个样品,采用球磨法获得的DNA进行纳米孔测序产生的reads N50为2.5kb,数据量为6.3Gb;采用HMW DNA提取法获得的DNA进行纳米孔测序产生的reads N50为2.7kb,数据量为15.9Gb。两种提取方法的纳米孔测序数据产生了相似的分类组成。
 
比较球磨法提取DNA后短读长测序和HMW DNA提取DNA后纳米孔测序的reads分类,两种方法之间的皮尔逊相关系数为0.79(n=10)。在18,642例特定物种的相对丰度超过另外一种方法的10 倍或更大差异时,本研究的方法产生了较高的相对丰度,表明新方法有可能提高分类灵敏度。
 
10个样本的组装序列总长度在48-207Mb之间和N50在51-120kb之间(补充表 5)。与P1和P2获得的组装结果相比,这个数值略低,可能是使用了Flye软件代替了Canu,从而使计算成本大大降低,连续性适度减少(补充表4)。
 
在需要高度连续的情况下,例如试图生成一个新的细菌完成图,或者需要对结构变异或水平转移染色体区域进行检测,Canu可能是首选。但是,当目标是获得尽可能多的高质量基因组和需要优先考虑成本的时候,Flye可能是首选。
 
特别值得注意的是P. copri 基因组圈图(图 3a),虽然之前尝试使用读云、短读长和混合组装,但N50从未超过130kb。主要由于其具有高重复性,这些高拷贝数元件通常位于短读长和读云组装结果中断的位置,而在本研究得到了细菌完成图。

 

图3 P. copri Cibiobacter sp.的基因组圈图
 
F. prausnitzii基因组与现有参考菌株之间高度分化,所以利用16S rRNA基因进行分类。所有最高的6个16S rRNA序列均位于甲酸芽殖菌(平均同源性为98.11%)和Subdoligranulum variabile (平均同源性为 98.19%)之间,而与F. prausnitzii 菌株的16S rRNA 序列同源性仅为92.63%,这表明该基因组可能是最近描述的Cibiobacter clade的一个成员,并可能代表该属的一个细菌完成图(图 3b)。在基因组中,发现了五个长度在8.5-65.9kb的前噬菌体。
 
此外,我们从10个样本中使用Flye组装获得了11个细菌完成图。其中包括另一个完整的Prevotella基因组,属于一个与 CAG:386 密切相关的物种 (比对率92%,同源性为98%),代表一个完整的参考物种。总共获得了19个高质量的基因组,其中16个N50大于1 Mb,12个N50大于2 Mb。另外还有22个基因组符合这些标准,最小完整度降低到75%。总共有1219个基因组草图被获取,污染率为 5%,完整性在0.31%到100%之间,平均为23%。


总结

本研究应用Nanopore测序和Lathe组装分析流程,使用短reads对长reads进行纠错,以便从复杂的微生物中组装出细菌完成图。首先将此方法用于测试12例细菌混合物,其中7个组装出细菌完成图,另外3个组装出4个或少数contigs。而后将此方法应用于13个人的粪便样品,组装出20个细菌完成图,包括Prevotella copri和Cibiobacter sp.。尽管较替代的测序和组装方法,降低了核苷酸的准确性,但是此方法提高了组装的连续性,有利于研究重复元件在微生物功能和适应中的作用。

Copyright © 2018 武汉贝纳科技服务有限公司 . All Rights Reserved. Designed by 鄂ICP备13016520号-1技术支持:中网维优