“DNA領(lǐng)域的谷歌”來了
互聯(lián)網(wǎng)有谷歌,如今生物學(xué)領(lǐng)域有了MetaGraph。這款搜索引擎能快速篩選存儲(chǔ)于公共數(shù)據(jù)庫的海量生物數(shù)據(jù)。相關(guān)研究成果10月8日發(fā)表于《自然》。

“這是一項(xiàng)了不起的成就?!狈▏退沟卵芯克腞ayan Chikhi表示,“他們?yōu)榉治鲈忌飻?shù)據(jù)設(shè)定了新標(biāo)準(zhǔn)?!?/p>
這些數(shù)據(jù)包括DNA、RNA和蛋白質(zhì)序列,其來源數(shù)據(jù)庫可包含萬億級(jí)的DNA堿基,數(shù)據(jù)量以拍字節(jié)計(jì)(1拍字節(jié)=1000萬億字節(jié)),條目數(shù)量甚至超過谷歌龐大索引中的所有網(wǎng)頁。
盡管MetaGraph被貼上“DNA領(lǐng)域的谷歌”標(biāo)簽,但Chikhi更傾向于將其比作“YouTube專用搜索引擎”,因?yàn)樗澈蟮挠?jì)算任務(wù)難度更高。
就像在YouTube上搜索時(shí),能夠檢索到所有以“紅色氣球”為特征的視頻,即便標(biāo)題、標(biāo)簽或描述中未出現(xiàn)這一關(guān)鍵詞。MetaGraph同樣無需提前對(duì)基因模式進(jìn)行明確標(biāo)注,就能找到隱藏在龐大測(cè)序數(shù)據(jù)集深處的基因模式。Chikhi說:“它實(shí)現(xiàn)了其他任何方法都無法完成的事情?!?/p>
開發(fā)MetaGraph的初衷是為了解決測(cè)序數(shù)據(jù)集的可及性問題。過去幾十年間,生物數(shù)據(jù)庫的規(guī)模呈爆炸式增長,但這種增長也給使用這些數(shù)據(jù)的科學(xué)家?guī)砹颂魬?zhàn)——原始測(cè)序讀數(shù)呈現(xiàn)碎片化、噪聲多的特點(diǎn),且數(shù)量龐大,無法直接進(jìn)行檢索。
加拿大多倫多大學(xué)的Artem Babaian指出:“矛盾的是,數(shù)據(jù)量反而成了我們實(shí)際使用這些數(shù)據(jù)的最大障礙。”
論文共同通訊作者、瑞士蘇黎世聯(lián)邦理工學(xué)院的André Kahles表示,MetaGraph能夠幫助研究人員對(duì)序列讀取檔案庫(SRA)這類數(shù)據(jù)庫展開生物學(xué)相關(guān)問題的探索。SRA作為公共數(shù)據(jù)庫,包含的DNA堿基已超過1億億個(gè)。
研究團(tuán)隊(duì)借助數(shù)學(xué)“圖譜”解決了數(shù)據(jù)檢索難題。這種圖譜能將重疊的DNA片段連接起來,就像圖書索引里那些包含相同詞匯的句子會(huì)被歸在一起一樣。
研究人員整合了7個(gè)公共資助數(shù)據(jù)庫的數(shù)據(jù),構(gòu)建出涵蓋病毒、細(xì)菌、真菌、植物、動(dòng)物,也包括人類的所有生物類群的序列集,其中包含1880萬個(gè)獨(dú)特的DNA和RNA序列集,以及2100億個(gè)氨基酸序列集。同時(shí),他們還為這些序列開發(fā)了一款搜索引擎,用戶只需通過文本提示,就能檢索這些整合后的原始數(shù)據(jù)檔案。
“這是一種與這類數(shù)據(jù)交互的全新方式。”Kahles說,“數(shù)據(jù)雖然經(jīng)過壓縮處理,但可實(shí)現(xiàn)即時(shí)訪問。”
為證明MetaGraph的實(shí)用價(jià)值,研究團(tuán)隊(duì)利用該工具,對(duì)全球241384個(gè)人類腸道微生物組樣本進(jìn)行了檢索,旨在尋找抗生素耐藥性的基因標(biāo)志物。這項(xiàng)研究是在前期工作基礎(chǔ)上開展的。此前研究人員曾利用舊版MetaGraph,追蹤過全球主要城市地鐵系統(tǒng)中細(xì)菌菌株的耐藥基因。據(jù)團(tuán)隊(duì)介紹,在高性能計(jì)算機(jī)上完成這項(xiàng)分析僅需約1小時(shí)。
MetaGraph并非目前唯一一款大規(guī)模序列檢索工具。例如,Chikhi和Babaian共同開發(fā)了一個(gè)名為Logan的平臺(tái),該平臺(tái)能將數(shù)十億條短測(cè)序讀數(shù)拼接成更長、更規(guī)整的DNA片段。這種設(shè)計(jì)架構(gòu)使其能在比MetaGraph更大規(guī)模的測(cè)序讀數(shù)集合中,識(shí)別出完整基因及其變異類型。不過這一優(yōu)勢(shì)也伴隨著一定的取舍。Chikhi表示:“我們的工具功能較少,但性能更強(qiáng)?!?/p>
憑借更廣的檢索范圍,Logan幫助研究人員發(fā)現(xiàn)了超2億個(gè)天然存在的“噬塑酶”變體,這些變體來源于多種細(xì)菌、真菌和昆蟲,其中部分變體的活性甚至優(yōu)于實(shí)驗(yàn)室設(shè)計(jì)的酶。9月,Chikhi和Babaian將這一發(fā)現(xiàn)公布于預(yù)印本bioRxiv。
此外,研究人員還曾利用一款更早、功能更專一的病毒DNA數(shù)據(jù)庫檢索工具,發(fā)現(xiàn)了大量此前未被記錄的病毒,以及用于治療癌癥的工程化T細(xì)胞療法中的病毒污染物。
Babaian認(rèn)為,這類發(fā)現(xiàn)的實(shí)現(xiàn)離不開開源檢索工具及其依托的公共測(cè)序數(shù)據(jù)庫。目前,一些生物數(shù)據(jù)庫正面臨資金削減的威脅,他強(qiáng)調(diào),這些檢索技術(shù)的創(chuàng)新恰恰凸顯了“開放數(shù)據(jù)共享至關(guān)重要”。
“這些資源正推動(dòng)全球科學(xué)進(jìn)步?!盉abaian說,“它們正在開啟一個(gè)全新的‘拍字節(jié)級(jí)基因組學(xué)’領(lǐng)域,而其中最具影響力的應(yīng)用尚未出現(xiàn)?!?/p>
相關(guān)論文信息:https://doi.org/10.1038/s41586-025-09603-w
https://doi.org/10.1101/2024.07.30.605881
來源:中國科學(xué)報(bào)


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。