By Mingzhen Tian
作者:张泽民
期刊:Nature
发表时间:2020.02
原文链接:Genomic basis for RNA alterations in cancer
Abstract
转录的改变通常是由癌症基因组的体细胞改变引起的。癌症中有各种形式的RNA alterations,包括overexpression过表达、altered splicing剪切改变和gene fusions基因融合。然而,由于患者和肿瘤类型的异质性,以及通过转录组和全基因组测序对样本进行分析的患者群体相对较少,很难将这些归因于潜在的基因组变化。
在此,我们介绍了迄今为止最全面的癌症相关基因改变目录,该目录是通过对国际癌症基因组联盟(ICGC)的泛癌症全基因组分析联盟(PCAWG)和癌症基因组图谱(TCGA)的1188个捐赠者的肿瘤转录组进行表征获得的。
利用匹配的全基因组测序数据,我们将几类RNA改变与种系和体细胞DNA改变联系起来,并确定了可能的遗传机制。 体细胞拷贝数的改变是总基因和等位基因特异性表达变异的主要驱动因素。我们鉴定出649个体细胞单核苷酸变异体与顺式基因表达的关联,其中68.4%涉及与基因侧翼非编码区的关联。 我们发现了1900个与体细胞突变相关的剪接改变,包括靠近Alu元素的内含子内的外显子的形成。 此外,82%的基因融合与结构变异有关,包括75种新类型的“ bridged ”融合,即第三个基因组位置连接两个基因。我们观察到不同癌症类型的转录组改变特征,并与DNA突变特征的变化有联系。
在基因组背景下的RNA改变纲要提供了一个丰富的资源,以识别在功能上涉及癌症的基因和机制。
Introduction
为了对癌症基因组改变进行更广泛的研究,特别是在非编码区域,PCAWG项目的成立是为了分析对ICGC和TCGA项目有贡献的大量全基因组样本。PCAWG项目有好多小组,分工不同。 在这里,我们报告了PCAWG转录组工作组对来自27种肿瘤类型的1188个样本的可用匹配转录组和基因组图谱的联合分析。据我们所知,这是迄今为止最大的癌症RNA表型及其潜在基因变化的资源。我们论证了转录组学数据在理解特定DNA改变的不同维度如何促进癌变方面的重要性,并绘制出癌症相关RNA改变的图景。
Cancer-specific germline cis-eQTLs
为了研究不同类型RNA改变的潜在机制,我们首先关注了基因表达水平的变化。 我们首先考虑了常见的接近单个基因的种系变异(小等位基因频率≥1%)(±100 kb),并在cohort中绘制了表达定量性状位点(eQTL)。该泛癌分析鉴定出3532个具有eQTL的基因,富集于转录起始位点(TSSs)的近端区域。
为了识别癌症特异性调控变异,我们将我们的eQTLs与基因型组织表达(GTEx)项目中的eQTLs进行了比较。我们鉴定出422个不对应GTEx组织的eQTLs,这表明肿瘤特异性调控。 相应的eQTL导联变体在异染色质区域富集(Fig.1a)。 总的来说,这一分析揭示了基因表达调控的生殖系框架在癌症组织中很大程度上是保守的。
Somatic cis-eQTLs in non-coding regions
先前的研究已经描述了癌症中的非编码突变图景,特别是启动子区域的突变,以及它们对基因表达的调控作用。 在这里,我们观察了整个基因组中可能的体细胞DNA变化,这些变化是基因表达改变的基础。我们通过在邻近基因、外显子和内含子的2 kb间隔内聚合单核苷酸变异(SNVs)来估计局部突变负担。 接下来,我们分解了单个基因的表达变化,考虑了cis中常见的突变负担,以及cis种系变异体和体细胞拷贝数的改变 (SCNAs) 。 该研究发现,SCNAs是基因表达变异的主要驱动因素(17%),其次是基因侧翼区的体细胞SNVs(1.8%)和种系变异(1.3%)。(Fig.1b)
我们还研究了体细胞e基因(有eQTLs的泛癌基因)的功能特征,并观察到在癌症睾丸基因的二价启动子(P = 0.04, Fisher精确检验),如TEKT5中,体细胞eQTLs的富集。总的来说,体细胞eQTL分析发现,大部分非编码区域与局部基因表达变化相关,并且与癌症特异性种系eQTL类似,显示了富集的转录活性区域,如异染色质。
Expression and mutational signatures
突变模式的全局变化可以用突变特征来量化,突变特征标记了特定于起源组织和环境暴露的突变过程。然而,提取突变特征是一个本质统计过程,需要后验功能注释。我们进行了全基因组突变特征和基因表达水平之间的泛癌症关联分析,以破译伴随突变特征存在的分子过程。
我们考虑了28个突变特征,利用上下文特定的突变频率的非负矩阵分解得到。 我们测试了供体中特征流行率和总基因表达之间的关系,包括总突变负担、癌症类型和其他技术和生物学混杂因素。 这项研究发现了1176个与至少一种特征相关的基因。
我们考虑了带有20个或更多相关基因的18个特征进行进一步注释,并使用GO分类和 Reactome 通路评估富集情况。我们发现11个特征在至少一个类别(FDR≤10%)中得到了丰富,揭示了与已知和未知病因相一致的关联。 (Fig. 1d) 例如,特征38与典型的紫外线特征7 相关,与黑色素过程相关。 黑素的合成引起黑素细胞的氧化应激,我们发现特征38与氧化应激促进基因TYR相关。特征38基因的hallmark是C>A突变,是典型的氧化应激产物。 这表明特征38可能捕获直接阳光照射后由紫外线诱导的氧化损伤间接引起的DNA损伤,而TYR可能是这种效应的中介。
Genomic basis of allelic expression
为了分析个体单倍型水平的表达,我们测试了等位基因表达失衡(AEI)。 我们观察到,在不同类型的癌症中,AEI基因的比例存在显著差异。 在癌症和相应的健康组织之间,在DNA和RNA水平的等位基因失衡之间观察到高度的一致性。
我们使用逻辑回归模型识别AEI的决定因素,将已知的印迹状态、种系eQTL基因型、SCNAs和近体细胞snv的加权突变负担分为功能类别。 总的来说,SCNAs占所有可解释变异的84.3%,这证实了我们体细胞eQTL分析的结果。