RNA结合蛋白(RBP)对于细胞维持如RNA剪接,RNA聚腺苷酸化,RNA转运,翻译和本降解等一系列基本的细胞学功能至关重要。基于一项研究工作的估计,人类存在超过1500种不同的RBP,这些RBP通过结合不同的RNA靶标序列(调控元件),进而行使其相应的生物学功能。许多RNA结合蛋白在结合其RNA靶标时存在相互作用或竞争的关系,因此,研究RNA结合蛋白的组合方式和鉴定相应的RNA调控原件,对研究各种后调控机制至关重要。
近几年来,紫外交联免疫沉淀结合高通量测序(CLIP-seq)技术的出现,使得研究人员能够在不同哺乳动物细胞中鉴定组范围内的、具有高分辨率的RNA-RNA结合蛋白的结合位点。目前,为了重要的后调控机制,越来越多的CLIP-seq数据被产出,这些RNA结合蛋白的结合位点已经在我们实验室的前期工作中被很好地整理和收录在诸如CLIPdb和POSTAR等重要的数据库中。在这些大数据的基础上,整合多个CLIP-seq数据,研究RNA和多个结合蛋白的相互协同作用,对研究复杂的RNA后调控网络非常关键。
鲁志课题组利用从文献中收集的HEK293,HepG2和K562三个细胞系的327套CLIP-seq数据,通过整合分析,发展了基于非负矩阵因子分解(NMF)的生物信息学方法 --RBPgroup。该工作表明,相同聚类组中的RNA结合蛋白在功能上存在重要的相关性,与此同时,在该组对应的RNA靶标序列中,能够显著富集出与RNA重要调控作用相关的调控元件。该研究将这套研究方法体系应用于国际ENCODE(Encyclopedia of DNA Elements)计划中的eCLIP数据,发现了众多潜在的RNA结合蛋白的调控复合物(或竞争物)组合,并且其中部分得到了实验的验证。为了让科学界更容易获得这项工作的研究结果,丰富的RNA调控序列与RNA结合蛋白调控复合物组合被整理在一个基于Web的网页平台上(,对应生物信息学工具RBPgroup的代码被公开在开源网站GitHub上(。
大学生命科学学院鲁志研究员为该论文的通讯作者,大学生命学院直博生李洋、史斌斌和浙江大学生命科学研究院肖睦博士为该论文的共同第一作者。该研究得到了国家自然科学基金委优秀青年项目、面上项目、科技部重点研发计划等经费的支持,数据的计算分析工作也得到了国家蛋白质科学研究()设施生物计算平台的支持。