越混亂越有用 人工智能革命席卷蛋白質(zhì)測(cè)序
人工智能(AI)已經(jīng)顛覆了蛋白質(zhì)的研究工作,比如它能幫助研究人員輕松預(yù)測(cè)蛋白質(zhì)的3D結(jié)構(gòu)。相關(guān)成就獲得了2024年的諾貝爾化學(xué)獎(jiǎng)。
現(xiàn)在,AI深入蛋白質(zhì)測(cè)序,通過(guò)組成蛋白質(zhì)的氨基酸序列識(shí)別蛋白質(zhì)。與傳統(tǒng)方法相比,AI更快,還能幫助研究人員對(duì)以前從未見(jiàn)過(guò)的蛋白質(zhì)進(jìn)行測(cè)序。對(duì)未知蛋白進(jìn)行測(cè)序,一直是醫(yī)學(xué)診斷、環(huán)境研究和考古學(xué)中的常見(jiàn)挑戰(zhàn)。
近日,一項(xiàng)發(fā)表于《自然-機(jī)器智能》的研究中,名為InstaNova的蛋白質(zhì)測(cè)序AI,可以識(shí)別傷口中的致病蛋白和海水樣本中微生物產(chǎn)生的未知蛋白。
事實(shí)上,InstaNova并非個(gè)例,在過(guò)去4年里,研究人員已經(jīng)推出了20多種蛋白質(zhì)測(cè)序AI。
“很明顯,這是該領(lǐng)域的發(fā)展方向?!泵绹?guó)華盛頓大學(xué)蛋白質(zhì)組學(xué)AI開(kāi)發(fā)人員William Noble說(shuō)。
蛋白質(zhì)遠(yuǎn)比DNA和RNA要復(fù)雜得多。人類基因組包含約2萬(wàn)個(gè)基因,但這些基因會(huì)產(chǎn)生1000萬(wàn)種不同的蛋白質(zhì)。
傳統(tǒng)上,生物學(xué)家通過(guò)將蛋白質(zhì)分解成肽這樣的短片段來(lái)識(shí)別蛋白質(zhì)。每個(gè)肽由5到20個(gè)氨基酸組成。研究人員利用質(zhì)譜儀中測(cè)量這些短片段,將其重量與數(shù)十個(gè)數(shù)據(jù)庫(kù)中已知肽的重量進(jìn)行匹配,以確定其身份,然后在將這些片段拼成完整的分子。
但這種傳統(tǒng)方法存在一些問(wèn)題。比如,質(zhì)譜法發(fā)現(xiàn)的高達(dá)70%的肽并不存在于現(xiàn)有的數(shù)據(jù)庫(kù)中。
“傳統(tǒng)蛋白質(zhì)組學(xué)有點(diǎn)像利用搜索引擎進(jìn)行搜索。如果它不在數(shù)據(jù)庫(kù)中,你就搜索不到它?!钡溂夹g(shù)大學(xué)蛋白質(zhì)組學(xué)專家Timothy Patrick Jenkins說(shuō),特別是隨著肽數(shù)據(jù)庫(kù)的不斷擴(kuò)充,發(fā)現(xiàn)匹配項(xiàng)所需的計(jì)算機(jī)時(shí)間變得越來(lái)越長(zhǎng)。
而AI則不會(huì)費(fèi)力尋找匹配的已知肽選線。它們計(jì)算了所有可能由給定長(zhǎng)度肽化學(xué)修飾產(chǎn)生的潛在肽片段的重量。如果產(chǎn)生了與實(shí)際樣本中的肽片段相匹配的片段,它會(huì)嘗試將其組裝成全長(zhǎng)蛋白質(zhì)。
為了提高準(zhǔn)確性,蛋白質(zhì)測(cè)序AI在數(shù)百萬(wàn)個(gè)已知肽及其如何組裝成已知蛋白質(zhì)的基礎(chǔ)上進(jìn)行訓(xùn)練。這使得AI能夠習(xí)得氨基酸鏈結(jié)合的最常見(jiàn)方式。
Jenkins說(shuō),這種方法類似于大型語(yǔ)言模型,就像ChatGPT在大量文本上訓(xùn)練,以學(xué)習(xí)語(yǔ)法規(guī)則一樣,蛋白質(zhì)組學(xué)AI習(xí)得了一種蛋白質(zhì)“語(yǔ)法”,為給定的一組肽提供了最可能的序列。
2021年,Noble和同事推出了Casanovo。這是第一個(gè)使用深度神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)測(cè)序AI。在2024年發(fā)表于《自然-通訊》的論文中,Noble團(tuán)隊(duì)報(bào)告說(shuō),AI被證明擅長(zhǎng)識(shí)別訓(xùn)練數(shù)據(jù)中沒(méi)有的新肽序列。額外的實(shí)驗(yàn)表明,Casanovo擅長(zhǎng)識(shí)別免疫系統(tǒng)攻擊癌癥時(shí)靶向的細(xì)胞表面肽,以及海水樣本中的未知蛋白質(zhì)。
而Jenkins和同事們開(kāi)發(fā)的InstaNova在使用深度神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了擴(kuò)散模型。AlphaFold等蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型也采用了這種策略。
在與Casanovo的面對(duì)面測(cè)試中,InstaNova與升級(jí)款I(lǐng)nstanNova+結(jié)合,在9種生物的實(shí)驗(yàn)室蛋白質(zhì)混合物中鑒定出42%的肽。
當(dāng)Jenkins團(tuán)隊(duì)將InstaNova應(yīng)用于現(xiàn)實(shí)中的蛋白質(zhì)組學(xué)測(cè)試時(shí),除其他結(jié)果外,它從感染的腿部傷口中鑒定出1225種人血白蛋白特有的肽,是傳統(tǒng)方法檢索結(jié)果的10倍。其中254種是數(shù)據(jù)庫(kù)中沒(méi)有的新肽。
其他領(lǐng)域的研究人員也在用蛋白質(zhì)測(cè)序AI。英國(guó)劍橋大學(xué)蛋白質(zhì)組學(xué)研究員Matthew Collins最近就在測(cè)試幾種蛋白質(zhì)測(cè)序AI工具分析考古樣本的能力。
Collins指出,大多數(shù)情況下,樣本中的蛋白質(zhì)在地下經(jīng)過(guò)漫長(zhǎng)歲月后發(fā)生了化學(xué)變化,或者它們來(lái)自早已滅絕的動(dòng)植物,因此不太可能存在于傳統(tǒng)蛋白質(zhì)和肽數(shù)據(jù)庫(kù)中,而這些AI模型尤其適用于混亂環(huán)境中蛋白質(zhì)的檢測(cè)。
利用AI工具,Collins團(tuán)隊(duì)已經(jīng)在尼安德特人遺址中發(fā)現(xiàn)兔子蛋白質(zhì)的特征,并在古代巴西的盆中發(fā)現(xiàn)魚類肌肉蛋白質(zhì)特征。
來(lái)源:中國(guó)科學(xué)報(bào)


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。