DNA搜索引擎MetaGraph研發(fā)成功

1周前發(fā)布在 7X24h 資訊

瑞士蘇黎世聯(lián)邦理工學院科學家在最新一期《自然》雜志上發(fā)表論文稱，他們開發(fā)出一款名為MetaGraph的DNA搜索引擎，能快速、高效地檢索公共生物學數(shù)據(jù)庫中的海量信息，為研究生命科學提供了強大的專業(yè)工具。

DNA搜索引擎MetaGraph研發(fā)成功-肽度TIMEDOO

MetaGraph索引及大量DNA、RNA和蛋白質(zhì)序列檔案。圖片來源：《自然》網(wǎng)站

MetaGraph的研發(fā)，源于科學界對日益龐大的基因測序數(shù)據(jù)“用不好、找不著”的現(xiàn)實困境。過去幾十年來，各類生物學數(shù)據(jù)庫規(guī)模呈爆炸式增長，然而原始測序數(shù)據(jù)往往碎片化、噪聲多、體量龐大，科學家難以直接從中高效提取有用信息。

MetaGraph的核心突破在于采用數(shù)學中的“圖結構”，將相互重疊的DNA片段智能聯(lián)結。其原理類似于圖書索引中將含有相同關鍵詞的句子關聯(lián)起來，形成知識網(wǎng)絡。研究團隊整合了7個公共資助數(shù)據(jù)庫，構建出一個跨越病毒、細菌、真菌、植物、動物乃至人類的生命全譜系索引。該索引共涵蓋1880萬個獨特的DNA與RNA序列集，以及2100億個氨基酸序列集。

基于這一龐大索引，團隊開發(fā)出了可直接通過文本提示檢索原始數(shù)據(jù)檔案的搜索引擎。團隊表示，這是一種與生物學數(shù)據(jù)交互的全新方式——數(shù)據(jù)被高度壓縮，卻可隨時調(diào)取。MetaGraph使研究人員能直接對“序列讀取檔案”（SRA）等存儲庫提出生物學問題，該數(shù)據(jù)庫本身包含超過1億個DNA字母。

為驗證其實用性，團隊利用MetaGraph掃描了24萬多個人類腸道微生物組樣本，搜尋抗生素耐藥性的遺傳標記。僅用一臺高性能計算機，約一小時便得出結果，展現(xiàn)出強大的分析效率。

法國巴斯德研究所生物計算專家拉揚·?；u價稱，這是一項“重大突破”，為分析DNA、RNA及蛋白質(zhì)序列等原始生物學數(shù)據(jù)設立了新標準。

來源：科技日報