您好,欢迎光临武汉贝纳科技服务有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

利用Nanopore测序和光学图谱实现植物基因组的染色

应用Nanopore测序和光学图谱实现植物基因组染色体水平组装

 
植物基因组测序用什么平台好呢?相信这个问题困扰了很多科研工作者,2018年11月发表在Nature Plants上的一篇文章,通过比较已发表的105种植物基因组,会为您揭晓答案。
 

发表期刊:Nature plants
发表时间:2018年11月
影响因子:13.297

由于具有高重复和多倍性的特性,植物基因组的组装具有一定的挑战性。如何获得高质量的植物基因组序列,一直是科研工作者不断探索的问题。
纵观已发表的文章,可以看出,随着测序技术的发展,植物基因组组装结果越来越接近染色体水平,图1展示了105种植物基因组的组装结果。


图1 105种植物基因组的组装结果对比图

 
通过比较已发表的105种植物基因组的组装结果发现:
1.利用Sanger测序获得的双子叶模式植物拟南芥和单子叶模式植物水稻基因组组装质量都很好,至今仍然属于组装最好的植物基因组。
2.二代短读长测序技术的出现,使得超过200种植物基因组发表,但是大多数的组装质量不高,由成千上万条scaffold组成,尤其是富含转座元件的区域,组装得很碎。
3.三代长读长技术可获得较高质量的组装序列,contig N50可以达到1Mb以上,但是仍然不能达到染色体水平,只有6种植物基因组contig N50>5Mb。
4.而作者利用ONT+BioNano的组合策略获得的3种植物(芜青、甘蓝和香蕉)基因组contig N50均大于5Mb,且scaffold达到了染色体或染色体臂水平(图1)。

 

材料和方法

B. rapa(Z1),B. oleracea(HDEM)和M. schizocarpa 3个物种,分别采用Illumina HiSeq2500 双末端测序、Nanopore单分子纳米孔测序(MinION或PromethION),并使用BioNano辅助组装。
首先分别使用Ra,SMARTdenovo39和wtdbg分别对Nanopore长reads进行组装,Ra的组装结果最优;使用Racon和pilon分别进行3轮纠错;对组装结果进行polish;BUSCO评估完整度有很大改善;最后使用Bionano Solve Pipeline进行优化,得到最终组装序列。
 


研究结果

1、获得高质量组装序列
B. rapa(Z1),B. oleracea(HDEM)和M. schizocarpa 3个物种分别使用MinION测序产生79X、32X、44X的数据,其中大于50Kb的reads覆盖度在4.4X-8.2X。初步组装得到contig N50在3.8Mb-7.3Mb,contig数均小于1000条。使用光学图谱挂载后,最终contig N50在5.5-9.5Mb,scaffold N50在15.4-36.8Mb (表1)。组装指标较已发表版本提升了100倍和450倍。
 
表1 3个物种组装结果统计

 

1/4的染色体是由单条scaffold组成,66%的染色体由一条或者两条scaffold组成。例如,香蕉的7号染色体由一条scaffold组成,跨越两端端粒重复区域,且包含4 Mb的高密度着丝粒重复区域。


 

2repeat 区域的完整性提高

B. rapa、B. oleracea、M. ocarpa进行注释,分别预测到46,72161,279和32,809个基因,与已发表的结果一致。
相比以前使用短读长的版本,本文基因组预测到的LINE、LTR和DNA转座子家族所占的比例更高,转座元件的平均长度更长。在B. rapa, B. oleraceaM. ocarpa中分别多预测了14.95%,37.95%和59.95%的copia元件。表明长读长组装的基因组丰富了转座元件类型的完整性以及完善了转座元件富集区的基因组结构(图2)。

图2 3个物种注释结果与参考基因组的比较


3相比于测序深度,更长的reads对提升组装结果更有效

对近期发表的用PacBio测序的6个物种与这3个物种的组装结果(基因组大小在130-630Mb之间)进行比较,发现:
(1)ONT数据中长reads(大于50kb)的比例较高;而PacBio数据的覆盖率更高(在125×到283×之间)。表明PacBio需要更高的覆盖率以获得足够数量的长reads对基因组组装指标进行提升。
(2)PacBio测序的植物基因组(除月季外)得到的contig N50都较低,是因为该技术很难得到长reads。
(3)在这9个物种中,contig N50第二好(9.5 Mb)的ONT测序reads深度只有36X,但是读长最长(reads的N50可以达到31 kb)。表明相比于测序深度,更长的reads对提升组装结果更有效;30X的长reads能够满足组装的需求。
 


4、新组装的基因组质量更优

为了比较基因组的组装质量,将199 份B. rapa 和119 份B. oleracea的重测序数据分别比对到参考基因组和新组装的基因组,比对到新组装的芜青和甘蓝的比对率分别高出0.61%和2.77%。表明新组装的结果更适合作为后续芸薹属重测序分析中的参考序列。
 


5、开花基因和S-位点

本研究分析了FLC基因,该基因与春化和开花时间相关。FLC基因家族的拷贝数变化,可以影响开花时间。在甘蓝中检测到7种FLC基因;在芜青中检测到4种FLC基因。表明长reads更有利于重复区域的组装。
作者研究了S-位点,S-位点是长度约30-150Kb的转座元件富集区域,使用短读长较难完整地组装出来。在芜青中,检测到一条完整的,长度为48 Kb的S-位点;在甘蓝中,检测到一条跨越102Kb区域的S-位点。

 

6着丝粒区域和R-基因

通过M. schizocarpa 与M. acuminate全基因组比较分析,发现着丝粒区域显示出高度的变异。M. acuminate 的2个基因组更片段化。这一结果表明,长的contig定位着丝粒的重要性。
此外,本研究还检测了R-基因,一般成簇出现,很难正确组装。M. schizocarpa 与M. acuminate的3个同源R-基因簇的不确定碱基比例,分别为6.5% 和 0%,表明长reads对复杂区域组装的重要性。

 

结论

本研究提出了结合ONT,BioNano和Illumina三种技术,分别获得芜青、甘蓝和香蕉的高质量基因组,与已发表基因组相比,新组装的基因组组装指标有了质的提升,尤其是富含转座元件的区域。
Copyright © 2018 武汉贝纳科技服务有限公司 . All Rights Reserved. Designed by 鄂ICP备13016520号-1技术支持:中网维优