Deep Mind遇上對(duì)手 Meta AI預(yù)測(cè)6億蛋白質(zhì)結(jié)構(gòu)-肽度TIMEDOO

ESM宏基因組圖譜數(shù)據(jù)庫(kù)包含6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)。圖片來(lái)源:ESM宏基因組圖譜

谷歌旗下人工智能(AI)公司Deep Mind今年公布了2.2億個(gè)蛋白質(zhì)的預(yù)測(cè)結(jié)構(gòu),幾乎涵蓋了DNA數(shù)據(jù)庫(kù)中已知生物的所有蛋白質(zhì)?,F(xiàn)在,另一個(gè)科技巨頭正在填補(bǔ)蛋白質(zhì)宇宙中的暗物質(zhì)。

Meta公司(前身為Facebook)的研究人員使用人工智能預(yù)測(cè)了約6億個(gè)蛋白質(zhì)的結(jié)構(gòu),這些蛋白質(zhì)來(lái)自細(xì)菌、病毒和其他尚未被表征的微生物。相關(guān)研究11月1日發(fā)表于預(yù)印本網(wǎng)站BioRxiv。

“這些是非常神秘的蛋白質(zhì),為深入了解生物學(xué)提供了可能性?!盡eta人工智能蛋白質(zhì)團(tuán)隊(duì)研究負(fù)責(zé)人Alexander Rives說(shuō)。

該團(tuán)隊(duì)使用“大型語(yǔ)言模型”生成了這些預(yù)測(cè)。“大型語(yǔ)言模型”是一種人工智能,可作為通過(guò)幾個(gè)字母或單詞預(yù)測(cè)文本的工具的基礎(chǔ)。

通常語(yǔ)言模型是在大量文本的基礎(chǔ)上進(jìn)行訓(xùn)練的。為了將其應(yīng)用于蛋白質(zhì),Rives團(tuán)隊(duì)將已知蛋白質(zhì)序列“喂”給它們,這些蛋白質(zhì)可以由20個(gè)不同的氨基酸鏈表示,每個(gè)氨基酸鏈由一個(gè)字母表示。然后,該模型學(xué)會(huì)了在氨基酸比例模糊的情況下“自動(dòng)補(bǔ)全”蛋白質(zhì)。

Rives說(shuō),這種訓(xùn)練使模型對(duì)蛋白質(zhì)序列有了直觀的理解,蛋白質(zhì)序列包含了蛋白質(zhì)形狀的信息。

第二步,受DeepMind開創(chuàng)性蛋白質(zhì)結(jié)構(gòu)人工智能算法AlphaFold的啟發(fā),模型將這種洞察力與已知蛋白質(zhì)結(jié)構(gòu)和序列之間關(guān)系的信息相結(jié)合,從蛋白質(zhì)序列中生成預(yù)測(cè)結(jié)構(gòu)。

今年夏天早些時(shí)候,Rives團(tuán)隊(duì)報(bào)告稱,其模型算法名為ESMFold,雖準(zhǔn)確性不如AlphaFold,但在預(yù)測(cè)結(jié)構(gòu)方面要快60倍左右?!斑@意味著我們可以將結(jié)構(gòu)預(yù)測(cè)擴(kuò)展到更大的數(shù)據(jù)庫(kù)中?!盧ives說(shuō)。

作為一個(gè)測(cè)試案例,研究團(tuán)隊(duì)決定將模型應(yīng)用于大規(guī)模測(cè)序的“宏基因組”DNA數(shù)據(jù)庫(kù),這些DNA來(lái)自于環(huán)境,包括土壤、海水、人類腸道、皮膚和其他微生物棲息地。絕大多數(shù)編碼潛在蛋白質(zhì)的DNA條目來(lái)自從未被培養(yǎng)過(guò)的生物,也不為科學(xué)家所知。

Meta團(tuán)隊(duì)總共預(yù)測(cè)了超過(guò)6.17億個(gè)蛋白質(zhì)的結(jié)構(gòu),這項(xiàng)工作只花了兩周時(shí)間。Rives表示,預(yù)測(cè)是免費(fèi)的,任何人都可以使用,就像模型的底層代碼一樣。

在這6.17億個(gè)預(yù)測(cè)中,該模型認(rèn)為超過(guò)1/3的預(yù)測(cè)是高質(zhì)量的,因此研究人員可以確信蛋白質(zhì)的整體形狀是正確的,在某些情況下,模型可以識(shí)別更精細(xì)的原子級(jí)細(xì)節(jié)。值得一提的是,其中數(shù)以百萬(wàn)計(jì)的結(jié)構(gòu)都是全新的,與實(shí)驗(yàn)確定的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù),或從已知生物體預(yù)測(cè)的AlphaFold數(shù)據(jù)庫(kù)中的結(jié)構(gòu)都不同。

AlphaFold數(shù)據(jù)庫(kù)的很大一部分是由彼此幾乎相同的結(jié)構(gòu)組成的,而宏基因組數(shù)據(jù)庫(kù)則應(yīng)該涵蓋以前從未見過(guò)的蛋白質(zhì)宇宙的很大一部分。

美國(guó)哈佛大學(xué)進(jìn)化生物學(xué)家Sergey Ovchinnikov對(duì)ESMFold做出的數(shù)億個(gè)預(yù)測(cè)表示懷疑。他認(rèn)為,有些蛋白質(zhì)可能缺乏確定的結(jié)構(gòu),而另一些可能是非編碼DNA,被誤認(rèn)為是蛋白質(zhì)編碼材料。

德國(guó)慕尼黑工業(yè)大學(xué)計(jì)算生物學(xué)家Burkhard Rost對(duì)Meta公司模型的速度和準(zhǔn)確性的結(jié)合印象深刻。但他質(zhì)疑,從宏基因組數(shù)據(jù)庫(kù)預(yù)測(cè)蛋白質(zhì)是否真的比AlphaFold的精確度更高?;谡Z(yǔ)言模型的預(yù)測(cè)方法,更適合快速確定突變?nèi)绾胃淖兊鞍踪|(zhì)結(jié)構(gòu),這是AlphaFold無(wú)法做到的。

據(jù)DeepMind的一位代表說(shuō),該公司目前沒(méi)有計(jì)劃在其數(shù)據(jù)庫(kù)中進(jìn)行宏基因組結(jié)構(gòu)預(yù)測(cè),但不排除在未來(lái)這樣做的可能性。

韓國(guó)首爾國(guó)立大學(xué)計(jì)算生物學(xué)家Martin Steinegger認(rèn)為,這類工具的下一步顯然是研究生物學(xué)中的暗物質(zhì)。“我們很快就會(huì)在這些宏基因組結(jié)構(gòu)的分析方面出現(xiàn)爆炸式增長(zhǎng)。”

相關(guān)論文信息:https://doi.org/10.1101/2022.07.20.500902

來(lái)源:中國(guó)科學(xué)報(bào)