这是继ASD算法(Nucleic Acids Res. 2014 Apr;42(6):4019-30. IF=10.162)后,烈冰生物发表的第二篇可变剪接检测算法类文章,创下国内同类算法的又一里程碑,在创新型企业自主研发算法攻坚之路上再下一城!
参与该项研究的还有中国科学院上海生命科学研究院的冯英研究员、浙江农林大学吴文武教授。
该结果以“CASH: a constructing comprehensive splice site method for detecting alternative splicing events”为题发表于著名学术期刊Briefings in Bioinformatics。
CASH的下载地址:https://sourceforge.net/projects/cash-program/?source=directory。
导读
在高等真核生物中,基因大都以内含子-外显子交替的形式存在,当其被转录成pre-mRNA后,通过外显子的不同组合方式,可以产生一系列不同的转录本,最终使得生物体内的转录组和蛋白质组呈现多样性。在这个过程中,可变剪接起着关键的作用。在人类中,绝大多数具有蛋白编码能力的基因都能受到可变剪接的调控,最终产生多种不同功能的蛋白亚型。而异常的可变剪接也广泛涉及到了多种疾病,例如癌症等。因此,探索可变剪接事件对于进一步理解生物体内不同转录本的功能是至关重要的。
研究背景
高通量测序是研究可变剪接的强有力工具,并且已经开发出了一系列算法工具去对可变剪接事件进行分析。这类算法主要可以分成两大类,一类是基于全长转录本的分析策略(以转录本为中心),另一类是基于外显子或事件或转录本区域的分析策略(以区段为中心)。前者主要有Cuffdiff,BitSeq,rSeqNP等,这些算法能够对转录本进行定量及差异分析,并且尝试去捕获到单个基因内部可能存在的多种复杂的可变剪接情况。而相反的,以JuncBase,rMATS或者DEXSeq为代表的后者,则试图对参与可变剪接的外显子的归属进行判断,从而提高可变剪接的检测效率。所有这些方法很大程度上依赖于参考基因组中转录本的注释信息。然而截至目前,对于人类参考基因组转录本的注释信息也并不是十分完整。除此之外,一些可变剪接的情况可能只在特定的细胞或者条件下产生。虽然三代测序已经能够获得全长转录本信息,但是其高昂的成本仍然限制了其被广泛应用于转录组的研究中,因此以区段为中心的分析策略依旧是目前分析可变剪接事件的必要工具。
近日,上海烈冰生物医药科技有限公司宗杰博士联合中国科学院上海生命科学研究院的冯英研究员、浙江农林大学吴文武教授共同开发了可变剪接分析算法CASH(Comprehensive AS Hunting),其中算法的大部分思路及全部代码实现由烈冰科技完成。通过与其他已有的算法进行比较后发现,CASH显著提升了样本之间差异可变剪接事件的检测能力。
除此之外,作者还用CASH检测了SRSF10所影响的可变剪接事件。SRSF10是丝氨酸/精氨酸富集蛋白家族的成员,这类蛋白在pre-mRNA的剪接过程中发挥关键作用。在之前的研究中,作者已经发现SRSF10可以调控可变剪接事件的发生。在本研究中,作者进一步在多个物种中研究了SRSF10的调控作用,并对其保守性和进化关系进行了分析。作者在鸡、小鼠和人类的测序数据中发现SRSF10调控的基因以及对应的可变剪接类型并不保守,但是有共同的结合位点基序,这个结果强烈暗示着SRSF10在不同物种中有着保守的调控模式。
研究思路
首先我们来理清这项研究的思路,如下图所示。
研究结果
1、烈冰生物开发了CASH算法,该算法主要分为两个阶段,分别为SpliceCons和SpliceDiff。在第一个阶段,CASH将RNA-seq数据中所有的junction reads提取出来,并生成一个剪接位点的列表,结合参考基因组中注释的外显子位点信息,针对每个基因构建完整的剪接位点信息(ComSpliceSite)。随后,CASH在每一个基因中寻找并区分七种典型的可变剪接类型。在第二个阶段,CASH对每种不同的剪接形式针对性的设计了不同的采样方式,并分别基于exon覆盖度和junction reads计算P-value,再将两个P-value通过加权方程得到adjusted P-value,随后通过BH算法计算得到FDR值,以此来评估可变剪接事件的显著性。
2、接下来,我们将CASH与其他的算法进行了比较。首先,我们利用三组没有生物学重复的数据,将CASH与Cuffdiff、MISO、rMATS进行了比较。结果显示Cuffdiff没有检测到显著的差异可变剪接,另外三种算法得到的结果相差较大,其中CASH与rMATS重叠的基因数量要显著高于MISO。将预测到的结果与RT-PCR结果进行分析后发现,CASH和rMATS的验证率显著好于MISO,同时CASH的结果要优于rMATS。
为了更进一步评估CASH预测到的结果,我们选取了45个(其中22个是新的)仅CASH预测到的可变剪接基因,进行RT-PCR验证,结果显示71%(32/45)以上的阳性结果,包括GALN2,CAST以及PATL1中新的可变剪接事件。暗示着CASH能够在无生物学重复样本的比较中显著提高差异可变剪接,特别是新的可变剪接事件的检测效率。
3、与此同时,我们又评估了CASH在有生物学重复样本中的检测效率。与Cuffdiff,DEXSeq和rMATS相比,CASH检测到了更多的差异可变剪接事件。RT-PCR结果显示CASH的验证率好于其他几种算法,同样地,CASH能够检测到CG9947和mys中新的可变剪接事件。综合这两个测试表明,CASH既能够在有生物学重复的样本,也能够在无生物学重复的样本中提高差异可变剪接检测率,尤其是新的可变剪接事件。
4、下一步,我们利用Flux模拟器模拟了一系列数据,其中包含已有注释的以及新的差异可变剪接事件,测序深度分为30x,50x和100x。结果显示MISO,rMATS以及DEXSeq在使用重建后转录本的情况下,其检测效率要高于使用参考基因组,但还是显著低于CASH。即使是在30x的数据量下,CASH依旧能够维持着极高的敏感性及特异性。
5、在此基础上,我们利用CASH在鸡、小鼠和人类中研究了SRSF10介导的可变剪接事件,并进行了物种间的比较。我们发现了41个基因在三个物种间都受到了SRSR10的调控,但是只有7个(星标)发生了一致的可变剪接事件,暗示着SRSF10的调控方式在物种间是非常灵活的。通过GO和pathway的分析,我们发现受SRSF10调控的基因功能在物种间具有一定的保守性,这些基因参与了许多基础的生物学过程包括细胞骨架、染色质结构以及RNA加工过程等,同时也存在着些许差别。
6、之前的研究表明,SRSF10拥有一个保守的RNA识别基序,能够结合AGAGAV或者AAAGACAAA。我们对cassette类型可变剪接中的序列信息进行了分析,发现在三个物种中有一个共同的调控模式。通过更深入的分析后,我们提出了一种SRSF10介导的剪接模型,当外显子具有GA富集的特征时,通常能够与SRSF10具有更高的亲和力,因此当GA富集出现在下游外显子时,会导致cassette外显子的跳跃,而GA富集发生在cassette外显子上时,则会发生该外显子纳入的情况。并且这种调控模式在鸡、小鼠和人类中都高度保守。