当前位置:首页 >> 基金要闻 >> 资助成果

 

    我国学者利用机器学习构建出RNA结合蛋白的剪接调控预测模型

    日期 2018-11-16   来源:生命科学部   作者:李硕 王璞玥 冯雪莲  【 】   【打印】   【关闭

      在国家自然科学基金项目(项目编号31570823、31661143031、31730110)等资助下,中科院计算生物学研究所、分子细胞科学卓越创新中心、中科院计算生物学重点实验室RNA系统生物学课题组王泽峰研究团队首次将机器学习方法用于构建RNA结合蛋白的剪接调控作用预测模型,揭示了RNA结合蛋白的序列组成偏好性对其调控作用的影响,对研究RNA结合蛋白的剪接活性具有重要指导意义,也为人工合成剪接因子提供了可行性。研究成果以为“Modeling and Predicting the Activities of Trans-acting Splicing Factors with Machine Learning”(利用机器学习对RNA剪接因子的功能建模与预测)为题,于2018年11月7日在Cell Systems (《细胞系统》)上在线发表。论文链接:https://www.cell.com/cell-systems/fulltext/S2405-4712(18)30388-0

      人体内超过90%的基因存在选择性剪接(alternative splicing),使得同一个基因可以产生不同功能的亚型。该过程在不同组织以及不同生理阶段受到严格的调控,而剪接失调会导致多种疾病。选择性剪接的体内调控主要由前体mRNA中的顺式元件(cis-elements)招募反式剪接作用因子(trans-acting  splicing  factors)来实现的。通常的反式剪接因子是由模块化组成,其包括一个或多个RNA结合域以及不同的功能模块。但目前科学家对这些功能域的研究还停留在少数几种典型的剪接因子上,如SR蛋白家族和hnRNP蛋白家族,对广大的其他RNA结合蛋白中的功能模块却知之甚少。而深入理解这些功能模块会为科学家进一步研究以至从头合成新型RNA剪接因子提供依据。

      在之前的研究中,该课题组发现在RNA结合蛋白中存在大量的序列低复杂区域。本研究在此基础上对这些序列低复杂区域在RNA选择性剪接中所扮演的功能进行了系统性研究。研究人员通过构建人工剪接因子的方法检测了多达12种代表性序列低复杂区域在不同RNA位置的剪接活性,发现了这些低复杂区域在RNA选择性剪接中具有位置依赖性(context dependent)且相似的序列组成具有相似的剪接活性。

      研究人员们进而根据这些功能模块的序列偏好性与其剪接活性,构建了一个以机器学习方法为核心的多肽剪接活性预测模型。利用该机器学习模型,他们还发现了一些此前从未报道过的具备剪接活性的序列特征。并且以此序列特征为基础,他们在世界上首次从头合成带有特定活性的人工剪接因子,取得了极高的成功率(10/11)。该研究的此项发现也为以后发展以人工剪接因子为基础的基因治疗方法扫除了障碍。

    RNA结合蛋白剪接调控作用预测模型流程图