您好,欢迎光临武汉贝纳科技服务有限公司
027-62435310 | service@benagen.com | 中文 | English 咨询客服
您现在的位置:主页 > 市场与支持 > 文献解读 >

文献解读|纳米孔测序鉴定中国人群SV研究其对表型与疾病的影响

文章简介:

 

绘制完整的遗传变异图谱是人类基因组研究的重要目标。长度长测序(LRS)技术提高了鉴定结构变异(SV)的灵敏度,有助于构建完整的人类基因组变异图谱。本研究对405名无亲缘关系的中国人进行了全基因组LRS,并进行了68项表型与临床测量,鉴定到了132,312个非冗余SV,其中45.2%(59,814个)是新鉴定到的。此外,作者还鉴定到了与免疫相关的SV,这些SV将中国北方与南方人群区分开来,并进一步揭示了SV对临床表型与疾病的影响。

 

图片

 

标题:

Structural variants in Chinese population and their impact on phenotypes, diseases and population adaptation

 

期刊:

Nature Communications(IF=14.149)

 

发表时间:

2021.11.11

 

研究样本与数据:

 

对405名(199名女性,206名男性)来自18个不同省份,无亲缘关系的中国人进行了LRS,获得了20.7 Tb数据(平均测序深度17X)。

 

主要研究结果:

 

1) SV鉴定

通过Nanopore PromethION平台,对405名中国人(平均年龄42岁)进行了全基因组测序。405名中国人中,124名来自北方,198名来自南方,53名来自西南,其余30人祖籍地未知。通过健康筛查,共获得327人的68种表型与临床测量数据。

 

将获得的数据与参考基因组GRCh38比对后发现,平均碱基比对率为94.1%(图1b ),平均错误率为12.6%(图1 c),低于最近的研究(15.2%)。为了获得可信度高的SV,作者使用了三款软件(Sniffles、NanoVar和NanoSV)进行检测(图1 g),只保留至少被两款软件鉴定到的SV(图1 d),最终获得了18,489个SV,其中DELs与INSs的比例最高。

 

接着作者构建了一组包含132,312个非冗余的SV,包括67,405个DELs、60,182个INSs、3,956个DUPs和769个INVs(图2 a)。将本研究获得的数据与前人分布的5个数据集(基于SRS或LRS平台)进行比较后发现,本研究数据与DGV、gnomAD、HGDP的SV重叠个数分别是30,783、24,741、24,472个(图2 e)。

 

图片

图1.SV的鉴定

 

图片

图2. 本研究数据与其他数据集的比较

 

2) SV的基因组特征

SV的数量与染色体长度显著相关,通常在染色体臂的末端增加,特别是DELs、INSs与DUPs类型(图3 a-e)。DELs与INSs数量随长度的增加而迅速减少,分别在~300 bp和6 kb大小处有明显的峰值,对应Alu与LINEs(图3 f-g)。

 

非冗余SV总长度为395.6 Mb,约占参考基因组的13.2%。与其他SV类型相比,INS在个体中发生频率更高,这可能与参考基因组GRCH38的DEL识别偏差或功能性INS的纯化选择有关。

 

图片

图3. SV的基因组结构

 

3) SV分类与验证

根据等位基因频率,将SV分为4类,分别是singleton(等位基因数=1)、rare(等位基因数>1且AF≤0.01)、low(0.01 < AF≤0.05)和common(AF > 0.05)。其中singleton(56,239)占被识别SV总数的42.5%(图4a)。

 

Singleton类型SV容易出现假阳性,因此为了验证其准确性,作者从20份样本中随机抽取154个singleton DELs与INSs进行PCR验证(FDR=5.4%)。此外,使用PacBio HIFI(平均深度为10X)对4个样本进行测序,这4个样本用ONT平台鉴定出510个Singleton SV,PacBio HIFI平台验证发现32个假阳性SV。

 

图片

图4 SV分类

 

4) SV的功能相关性

为了探索SV潜在功能,本研究根据SV的基因组位置对其进行了注释。注释结果显示,37.6%的SV位于内含子中(表1)。位于UTR与CDS的SV中,Singleton显著富集(图4 b),这表明Singleton SV更可能具有遗传功能。

 

进一步将与CDS相互作用的SV基于断点位置分为三个亚组:预测功能缺失(pLoF)、全基因组复制(WDUP)与全基因组倒置(图4 c)。GO分析显示,有38个基因受到pLoF SV的影响,这些基因在“免疫球蛋白受体结合“方面显著富集。

 

图片

表1 SV的基因组位置

 

5) SV表型与临床影响

为了更好理解pLoF SV如何影响临床表型,作者使用GWAS、OMIM与COSMIC对这些SV及其相关基因进行了注释。在1,231个SV中,58.1%-60.2%都是Singleton SV,这与富集分析结果一致,即Singleton SV更可能具有遗传功能。

 

本研究数据集证实了一些表型与临床注释的SV,发现了尚未被报道的致病SV,如与贫血相关的SV。此外,从一个样本中鉴定出27.6 Kb的杂合DEL,含有基因血红蛋白亚基β (HBB),已知其功能障碍可导致严重的血红蛋白病,如镰状细胞性平血与β-地中海贫血(图5 c)。

 

图片

图5 pLoF SV相关的表型与疾病

 

6) 基于SV的种群结构分析

本研究计算了基于Fst的PBS,在中国北方与南方人群中分别观察到24与35个独立的PBS信号(图5 g)。在中国北方人群中,前两个PBS信号位于MHC区域与IGH聚集位点。在中国南方人群中,也检测到了MHC与IGH区域的PBC信号,这一结果表明,免疫相关区域的SV可能是由于长期暴露于不同的环境而产生的,中国个体亚群可能选择了不同的基因或等位基因以适应不同的生境。

 

总结

 

本文首次在中国人群中进行了基于LRS的SV研究,可以帮助未来基于LRS的研究筛选候选SV。鉴于目前参考的人类基因组和人群基因组数据中存在大量未识别的SVs,本研究为填补这一知识空白做出了重要努力,并为检测与表型、疾病和进化相关的新SVs提供了新的见解。

 

参考文献:

Wu Z, et al. Structural variants in Chinese population and their impact on phenotypes, diseases and population adaptation. Nature Communications. 2021.

 

Copyright © 2018 武汉贝纳科技服务有限公司 . All Rights Reserved. Designed by 鄂ICP备13016520号-1技术支持:中网维优