您好,欢迎光临武汉贝纳科技有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

文献解读 | Genome Biol 期刊发表基于长读长蛋白组学增强蛋白质异构体表征高分文章

从神经退行性疾病到癌症,许多疾病都和蛋白质异构体有关。检测人基因组编码的生理相关蛋白异构体对生物医学至关重要。基于质谱(MS)的蛋白质组学是蛋白质检测的主要方法,但是由于共享肽的存在导致蛋白质鉴定模糊,且数据库中异构体与样品之间的差异会影响鉴定的准确性和精确度。长读长RNA-seq(例如PacBio或Oxford Nanopore)提供了可用于预测全长蛋白质异构体的全长转录本。

 

该研究开发了Nextflow流程,将长读长RNA-seq和基于MS的蛋白质组学数据整合起来,以增强表征蛋白质异构体。该流程可以鉴定新的蛋白质异构体,并将转录本丰度整合到蛋白质推理过程中,用以鉴定到由于肽段数量支持不足而被丢弃的蛋白质异构体。该流程为长读长蛋白组学的未来发展及其在基础和转化研究中的应用奠定了坚实的基础。

 

图片

 

文章标题:Enhanced protein isoform characterization through long-read proteogenomics

发表杂志:Genome Biology(IF=13.583)

发布日期:2022.3.3

 

图1基于MS的蛋白质组学鉴定蛋白质异构体的挑战

 

材料和方法

 

对人的Jurkat T淋巴细胞系构建2个cDNA文库,使用PacBio Sequel II平台测序,共获得500万条 HiFi (CCS) reads。对7份相同来源的细胞系样本进行自下而上的蛋白质组检测,其中6份用多蛋白酶消化,1份仅用胰蛋白酶消化,用LC-MS/ MS质谱检测。

 

Nextflow流程

 

该流程整合了样本匹配的长读长RNA-seq和基于MS的蛋白质组学数据,用于检测蛋白质异构体(图2)。整个流程简介如下:(1)分析 PacBio测序数据,揭示高质量的全长转录本序列; (2)开放阅读框架(ORF)预测; (3)一个新的蛋白质异构体分类方案:SQANTI 蛋白质; (4)使用PacBio和 GENCODE参考异构体模型生成样本特异的全长蛋白质数据库; (5)创建一个新的蛋白质算法,通过直接结合PacBio转录本丰度值,增加鉴定蛋白质异构体的数量。

 

 

图2 增强样本特异性蛋白质异构体鉴定的长读长蛋白质组学方法

 

主要结果

 

1、长读长RNA测序揭示不同于GENCODE参考数据集的广泛的异构体多样性

使用PacBio获得的长读长转录组数据,鉴定到43,865个转录本与GENCODE完全匹配(FSMs),75,491个属于新转录本,其中43,075个包含已知剪接位点和/或新组合(NICs) ,32,416个包含一个全新的剪接位点或外显子(NNCs)。

 

图3 长读长RNA序列衍生蛋白质数据库的生成和表征

 

2、SQANTI蛋白: 新的全长蛋白质异构体分类方案

从每个基因的长读长RNA-seq数据中推导出蛋白质异构体模型,发现许多基因可能同时表达多个蛋白质异构体。为了系统地表征这些全长蛋白质异构体,作者创建了新的蛋白质异构体分类方案:SQANTI蛋白(图3b)。

其中有16,331个(24%)蛋白质异构体与GENCODE参考数据集具有精确的匹配,分类为pFSMs(图3c),28,737个(41%)可能是新的蛋白异构体,其中7642个(11%)为pNICs,21,095个(30%)为pNNCs。剩余的序列被归类为pISM或者是转录本的假翻译产物。

 

3、大多数基因的PacBio衍生蛋白异构体模型与参考模型不同

共筛选到6653个基因,生成了蛋白质组分析的高质量数据库,将来自6653个基因的35,119个PacBio衍生的蛋白质和剩余的13,276个蛋白质编码基因的48,413个GENCODE蛋白质组组成了混合数据库(PacBio-Hybrid)。

 

4、PacBio衍生的异构体模型可以鉴定显著不同的蛋白质异构体

PacBio-Hybrid和GENCODE MS搜索结果中,肽和基因水平的鉴定几乎100%一致(图4a,b),表明用于蛋白质推断的肽基团几乎相同,但鉴定的蛋白质异构体存在主要差异(图4c)。只有41% (4503)的蛋白质异构体是相同的。

 

图片

图4 用于蛋白质异构体鉴定的长读长衍生蛋白质数据库

 

使用PacBio-Hybrid做参考,共鉴定到3,199个不同于GENCODE的蛋白质。其中673个(21%)是使用PacBio-Hybrid数据库鉴定的特异性的蛋白质异构体(图4d);873个(占27%)是PacBio-Hybrid和参考结果之间的部分重叠的蛋白质异构体;382个(占12%)是PacBio-Hybrid中一个蛋白的所有蛋白质异构体在GENCODE参考数据库中均不存在的(图4f)。

 

5、长读长、样品特异性数据库可以发现新蛋白质异构体

用PacBio-Hybrid数据库进行的MS搜索揭示了GENCODE和UniProt参考数据库中不存在的新型肽序列。通过对14种新型肽进行严格验证(图5a–c),发现14种新检测的肽中有6种分别对应于一种异构体,表明相应全长蛋白质异构体的表达。例如ESD肽,该肽证实了RABGAP1L中的新末端外显子,也明确定位于PacBio衍生的蛋白异构体PB.1248.6(图5c)。在所有潜在的新蛋白质异构体中,只有一小部分被新肽直接识别。

 

图片

图5 新肽和全长蛋白质异构体的鉴定

 

6、Rescue & Resolve:将长读长数据直接整合到蛋白质推断中

为了克服蛋白质异构体鉴定肽覆盖不完全的局限性,作者开发了一种基于启发式的蛋白质推理算法,称为“Rescue & Resolve”(R&R) (图6a)。该研究恢复了355个蛋白质组,其中343个(96.6%)属于例1,12个(3.4%)属于例2(图6b)。例如,在图6c中展示了IF116的异构体,其优势异构体(PB.1137.5和PB.1137.24)不包含最长序列的异构体(PB.1137.2)。与仅使用MetaMorpheus的传统方法所获得的结果相比,在1% FDR下鉴定的PacBio衍生的蛋白质异构体的数量增加了6.5%。

 

图片

图6 长读长蛋白质异构体检测

 

共鉴定到2600个仅通过肽证据无法区分的高置信度的蛋白质异构体(例3,图6a)。其中,1434个存在一种异构体占转录本丰度的90%以上的情况,295个存在多种蛋白质异构体可能共表达的情况。表明,将长读长转录本丰度值整合到蛋白质推断过程中可以鉴定仅用MS肽数据难以鉴定的蛋白质异构体。

 

总结

 

该研究开发了Nextflow流程,将长读长转录组测序和蛋白质组学数据整合,促进了人蛋白质异构体多样性特征的表征。将长读长转录本丰度整合到蛋白质推理过程中,使得能够检测由于MS中肽支持不足而被丢弃的蛋白质异构体。该研究为长读长蛋白组学的未来发展及其在基础和转化研究中的应用奠定了坚实的基础。

 

参考文献:

Miller, R.M., Jordan, B.T., Mehlferber, M.M. et al. Enhanced protein isoform characterization through long-read proteogenomics. Genome Biol 23, 69 (2022). https://doi.org/10.1186/s13059-022-02624-y

 

 

Copyright © 2018 武汉贝纳科技有限公司 . All Rights Reserved. Designed by 鄂ICP备2021008976号-2技术支持:中网维优