8月17日,中国科学院上海营养与健康研究所王泽峰研究团队在 advances上,发表了题为a widespread length dependent splicing regulation in cancer的研究论文。该研究发现了一种全新的在癌症中长度依赖性的可变剪接调控模式。人类基因组90%以上的基因均需要经历可变剪接,剪接的错误调控会导致多种人类疾病,尤其是癌症。越来越多的证据表明,rna剪接异常与人类癌症密切相关,广泛的剪接失调是癌症的分子标志之一。因此,系统性的探究癌症中可变剪接异常调控将为癌症治疗提供新思路。
该研究分析tcga数据库中大规模的癌症转录组数据,鉴定出在癌症中剪接异常的外显子,发现了癌症中剪接异常的外显子长度均偏向于更短,且这些短外显子在癌症中更倾向于被跳跃。该研究鉴定出494个癌症相关的短外显子(cancer-associated short exons,case)并展开进一步研究。科研人员利用case的剪接开发出一个用于癌症预测的随机森林模型,可对癌症样本进行准确的预测,auc达0.9左右。此外,该研究还提出了一种利用case剪接计算risk factor的方法来预测癌症病人的预后,在tcga数据集及其他独立癌症数据集中均具有较好的预测结果。
在机制研究上,该研究提出了两种影响case剪接的机制。癌症中癌细胞快速地生长增殖需要更快的转录过程,因此癌症中异常的转录或对剪接产生影响。研究对具有不同转录延伸速度的细胞系中可变剪接的分析发现,短的外显子对速度的变化更为敏感,更易受到转录速度变化的扰动而发生外显子的跳跃。转录对剪接的影响是广泛的、无选择性的,该研究进一步表明特定的短外显子在癌症中发生跳跃是受到剪接因子的调控。通过分析encode数据库中大量rna结合蛋白(rbp)的相关组学数据,研究建立了rbp对case剪接的直接调控网络,并鉴定出多个调控case剪接的rbp,包括rbfox2、aqr、u2af2、ptbp1等。
研究工作得到国家重点研发计划、国家自然科学基金等的支持。
a、基于tcga数据库中18种癌症鉴定癌症相关的剪接事件流程,b、所有人类外显子和每种癌症类型中异常剪接外显子的长度分布图,c、利用剪接建立随机森林模型在每种癌症类型中的auc值,d、基于case评估的风险因子进行分组的癌症患者的kaplan-meier曲线。