全长转录本Reference图谱
每个物种都需要一个全长转录本Reference图谱,而不仅仅是参考基因组
参考基因组中每个基因只注释部分转录本和其翻译的蛋白质,然而每个基因会通过选择性剪接产生多个转录本(lsoform),然后翻译成多个蛋白质。因此和参考基因组一样,每个物种都需要一个全长转录本Reference图谱。选择不同器官、不同组织的不同时期的样品,构建物种的参考转录本,推动分子生物学从基因层面到转录本层面的发展。

参考文献:
Glinos, et al. Transcriptome variatior i in human tissues revealed by long-read sequencing. Nature, 2022
Wang K, et al. Multi-strategic RNA-seq analysis reveals a high-resolution transcriptional landscape in cotton. Nature communications, 2019
Miller R.M., et al. Enhanced protein isoform characterization through long-reac enomics. Genome biology, 2022
Oka M, et al. Aberrant splicing isoforms detected by full-length transcriptome sequencing as transcripts of potential neoantigens in non-small cell lung cancer. Genome biology, 2021
案例一
项目案例:利用ONT全长转录组构建228个辣椒的全长转录本表达变异数据库(Horticulture Research,IF=7.6)
本研究通过采用ONT全长转录组技术,对辣椒八种组织在五个生长阶段的全长转录组进行了系统分析,整合基因表达和辣椒发育过程中辣椒素含量的变化,阐明了辣椒素生物合成主要来源于缬氨酸、亮氨酸降解以及柠檬酸循环和/或嘧啶代谢途径。并构建了一个全面的辣椒全长转录组数据库,为辣椒的发育生物学研究提供了重要的新见解。
材料选择:
该研究取自辣椒品种“8214”的茎、叶、根、果实、胎座、种子、果柄和花八种组织在五个关键生长阶段(种子阶段、幼苗阶段、开花期、花蕾期和结果期)收集了共228个样本。
研究结果:
本研究共鉴定出485,351个转录本,其中35,336个为已知的参考转录本,450,015个为新转录本。转录本的类型多样,包括编码RNA(127,882个)、长链非编码RNA(236,722个)和其他类型的非编码RNA(120,747个)。在所有组织中均发现了多种类型的可变剪接事件,内含子保留事件占比最高。鉴定到有5个基因同时存在7种剪切事件,44个基因存在6种剪切事件,表明三代测序可以检测同时存在多个剪切类型的转录本。
辣椒组织中广泛存在组织特异性表达基因,尤其在花发育过程中,花梗和花蕾展现出差异化的生长机制和基因表达持征。果实发育过程中,糖代谢通路相关基因发挥了重要作用;而胎座发育中,不饱和脂肪酸、α-亚麻酸及氨基酸代谢相关基因的显著上调,与胎座发育和辣椒素积累密切相关。此外,该研究分析了参与辣椒素生物合成的关键基因的表达变化,结果显示,与缬氨酸、亮氨酸降解、柠檬酸循环及嘧啶代谢相关的基因在胎座发育过程中显著上调。

本研究还构建了辣椒全长转录组全谱(变异)数据库(PFTVD 1.0),该数据库具备强大的搜索功能和基因组浏览器工具,提供了涵盖转录组学、基因组学和数据分析的功能,可为后续研究工作提供有力支撑。
参考文献:Liu Z, et al. Full-length transcriptome sequencing of pepper fruit during development and construction of a transcript variation database.Horticulture Research.2024
案例二
案例分享 全长转录组测序构建迄今为止最大的人体组织全长转录本变异图谱(Nature, IF=69.504)
该研究使用Nanopore平台的全长转录组测序,开展了迄今为止最大的长reads RNA数据集研究,鉴定了70,000多个注释基因的新转录本,并使用质谱验证了10%的新转录本的蛋白表达。开发了程序包LORALS,通过长reads等位基因特异性分析,解析罕见和常见变异对转录组的遗传效应。此项研究表明使用长reads对转录组进行高分辨率表征将是发现疾病相关变异调控机制的重要途径。

材料选择:
来自GTEx项目的90个组织样品和4个K562细胞株。
研究结果:
对来自GTEx项目的90个组织样品和4个K562细胞株进行全长转录组测序和二代转录组测序。从长reads数据获得的基因或转录本的定量与川lumina RNA-seq的高度一致。
使用FLAIR对转录本进行定量分析并鉴定新的转录本,在21,067个基因中发现了93,718个转录本,其中77%是新转录本。在这些新转录本中,47,678个与注释转录本共享至少一个剪接位点,21,620个含有内含子。并使用蛋白质组数据验证了2,575个新转录本。
转录本表达相关性和PCA分析,表明新转录本具有组织特异性表达模式。成千上万的转录本只在一个组织中表达,或者在所有9个组织中有不同的转录率。组织特异性转录本比例最高的组织是小脑半球、肝脏和成纤维细胞(占所有差异表达转录本的8%)。
作者比较了敲除样本和对照样本中的等位基因事件,揭示细胞环境的变化如何改变剪接调控,从而影响遗传变异的分子功能。作者用73,599个转录本补充了GENCODE v.26注释,并使用VEP37从GTEx-WGS数据中重新注释遗传变异。长reads的等位基因数据提供了解释破坏转录调控的罕见变异的证据。

参考文献:
Glinos, et al. Transcriptome variation in human tissues revealed by long-read sequencing. Nature 2022.