非編碼RNA(long non-coding RNAs)是一類長度大于200 nt的非編碼RNA。已有研究表明,長非編碼RNA具有重要的調(diào)控功能,在植物和動物的生物學(xué)過程中發(fā)揮重要作用。此外,lncRNA還與人類一些疾病的發(fā)生發(fā)展密切相關(guān)。因此,對lncRNA的注釋、探索lncRNA的功能具有重要意義。近年來,一些研究集中于lncRNA功能的探索,但綜合全面的lncRNA的注釋仍需不斷更新維護(hù)。

NONCODE數(shù)據(jù)庫于2005年創(chuàng)建,受到Science專文推薦,由中國科學(xué)院計算技術(shù)研究所、生物物理研究所團(tuán)隊(duì)長期維護(hù);2013年,受邀以專家數(shù)據(jù)庫加入國際RNA聯(lián)盟RNAcentral,數(shù)據(jù)庫首次提出了非編碼基因的分類體系,建立了多項(xiàng)非編碼領(lǐng)域標(biāo)準(zhǔn),推動了長非編碼RNA的研究發(fā)展。

近期,中科院院士、生物物理所研究員陳潤生課題組,生物物理所健康大數(shù)據(jù)研究中心研究員何順民課題組和計算所研究員趙屹課題組合作,在Nucleic Acids Research上,在線發(fā)表題為NONCODEV6: an updated database dedicated to long non-coding RNA annotation in both animals and plants的研究論文(圖1)。該工作NONCODEV6(http://www.noncode.org/)(圖2)是關(guān)于動植物多個物種的長非編碼RNA綜合注釋數(shù)據(jù)庫的升級,旨在提供關(guān)于動植物各個物種中l(wèi)ncRNA的注釋和分析。

在前期積累的NONCODE版本的基礎(chǔ)上,研究人員通過關(guān)鍵詞搜索近期發(fā)表文章并手工提取lncRNA及其在組織中的表達(dá)數(shù)據(jù)等信息;對其相應(yīng)的植物物種、動物物種、組織表達(dá)數(shù)據(jù)進(jìn)行了收集、整理;進(jìn)入NONCODE數(shù)據(jù)庫更新的流程,進(jìn)行數(shù)據(jù)的過濾、處理、注釋。NONCODEV6中總共記錄了644,510個lncRNA。此次新加入的植物物種數(shù)目達(dá)23種,包括常見植物擬南芥、水稻、小麥、玉米等。植物物種的lncRNA注釋包括基本位置信息、序列信息、長度、外顯子個數(shù)、組織的表達(dá)量、功能注釋等。同時,研究人員對人和小鼠的數(shù)據(jù)進(jìn)行了更新,加入了lncRNA和腫瘤等疾病的關(guān)系注釋,整合了多個lncRNA和腫瘤的數(shù)據(jù)源,提供了一個關(guān)于腫瘤等疾病和NONCODE數(shù)據(jù)庫中l(wèi)ncRNA的綜合注釋。

此外,NONCODEV6數(shù)據(jù)庫提供了一個用戶友好的界面,可用于瀏覽各個物種的長非編碼RNA的具體情況,包括長度、序列、位置、功能注釋、保守性注釋等;其還提供了blast功能、功能注釋查詢、保守性查詢??傮w來說,NONCODEV6是一個業(yè)內(nèi)較認(rèn)可的綜合性lncRNA注釋的知識庫,為研究基于lncRNA的在動物和植物的相關(guān)注釋提供了重要支撐。

陳潤生、何順民、趙屹為論文的共同通訊作者,計算所博士研究生趙連鶴、生物物理所健康大數(shù)據(jù)研究中心博士研究生王佳佳和李燕燕為論文的并列第一作者。研究工作得到國家重點(diǎn)研發(fā)項(xiàng)目、國家自然科學(xué)基金、中科院戰(zhàn)略重點(diǎn)研究項(xiàng)目等的支持。

論文鏈接

生物物理所等發(fā)布新的非編碼RNA整合資源NONCODEV6數(shù)據(jù)庫-肽度TIMEDOO

圖1.NONCODEV6在線發(fā)表

生物物理所等發(fā)布新的非編碼RNA整合資源NONCODEV6數(shù)據(jù)庫-肽度TIMEDOO

圖2.NONCODEV6數(shù)據(jù)庫

來源:中科院