长非编码rna(long non-coding rnas)是一类长度大于200 nt的非编码rna。已有研究表明,长非编码rna具有重要的调控功能,在植物和动物的生物学过程中发挥重要作用。此外,lncrna还与人类一些疾病的发生发展密切相关。因此,对lncrna的注释、探索lncrna的功能具有重要意义。近年来,一些研究集中于lncrna功能的探索,但综合全面的lncrna的注释仍需不断更新维护。
noncode数据库于2005年创建,受到专文推荐,由中国科学院计算技术研究所、生物物理研究所团队长期维护;2013年,受邀以专家数据库加入国际rna联盟rnacentral,数据库首次提出了非编码基因的分类体系,建立了多项非编码领域标准,推动了长非编码rna的研究发展。
近期,中科院院士、生物物理所研究员陈润生课题组,生物物理所健康大数据研究中心研究员何顺民课题组和计算所研究员赵屹课题组合作,在nucleic acids research上,在线发表题为noncodev6: an updated database dedicated to long non-coding rna annotation in both animals and plants的研究论文(图1)。该工作noncodev6()(图2)是关于动植物多个物种的长非编码rna综合注释数据库的升级,旨在提供关于动植物各个物种中lncrna的注释和分析。
在前期积累的noncode版本的基础上,研究人员通过关键词搜索近期发表文章并手工提取lncrna及其在组织中的表达数据等信息;对其相应的植物物种、动物物种、组织表达数据进行了收集、整理;进入noncode数据库更新的流程,进行数据的过滤、处理、注释。noncodev6中总共记录了644,510个lncrna。此次新加入的植物物种数目达23种,包括常见植物拟南芥、水稻、小麦、玉米等。植物物种的lncrna注释包括基本位置信息、序列信息、长度、外显子个数、组织的表达量、功能注释等。同时,研究人员对人和小鼠的数据进行了更新,加入了lncrna和肿瘤等疾病的关系注释,整合了多个lncrna和肿瘤的数据源,提供了一个关于肿瘤等疾病和noncode数据库中lncrna的综合注释。
此外,noncodev6数据库提供了一个用户友好的界面,可用于浏览各个物种的长非编码rna的具体情况,包括长度、序列、位置、功能注释、保守性注释等;其还提供了blast功能、功能注释查询、保守性查询。总体来说,noncodev6是一个业内较认可的综合性lncrna注释的知识库,为研究基于lncrna的在动物和植物的相关注释提供了重要支撑。
陈润生、何顺民、赵屹为论文的共同通讯作者,计算所赵连鹤、生物物理所健康大数据研究中心王佳佳和李燕燕为论文的并列第一作者。研究工作得到国家重点研发项目、国家自然科学基金、中科院战略重点研究项目等的支持。
图1.noncodev6在线发表
图2.noncodev6数据库