MIT科學家發(fā)現(xiàn)識別文字的AI也能發(fā)現(xiàn)新冠病毒變異
伽利略曾認為自然是用數(shù)學書寫,而生物學可能是用文字來書寫。自然語言處理(下文簡稱 NLP)算法現(xiàn)在能夠生成蛋白質(zhì)序列,并預測病毒突變、包括預測能幫助新冠病毒躲避免疫系統(tǒng)攻擊的關(guān)鍵突變。
上述之所以能實現(xiàn),得益于一重要洞見,即生物系統(tǒng)許多特性可以用單詞和句子來解釋。麻省理工學院計算生物學家邦妮·伯格說:“我們正在學習進化的語言。”
過去幾年里,遺傳學家喬治·丘奇的實驗室團隊、Salesforce 團隊等研究人員已經(jīng)證明,蛋白質(zhì)序列和遺傳密碼可以使用 NLP 技術(shù)建模。

最近,伯格及其同事的研究發(fā)表于《科學》雜志。在研究中,伯格等人將幾種毒株集合在一起,利用 NLP 來預測能幫助病毒躲避人體免疫系統(tǒng)抗體的突變。病毒躲過抗體稱作“病毒免疫逃逸”,該研究的基本觀點認為,免疫系統(tǒng)解讀病毒類似于人類解讀句子。
Salesforce 科學家阿里·馬達尼正利用 NLP 預測蛋白質(zhì)序列,他說:“論文寫得很好,延續(xù)之前工作的發(fā)展勢頭。”
伯格團隊使用了語法和語義(或稱意義)這兩種語言學概念,病毒感染宿主的能力等遺傳或進化適應(yīng)性特征,可從語法正確程度的角度來解讀。病毒傳染性強,在語法層面為正確;病毒傳染性不強,則為不正確。
同樣,病毒突變可以用語義來解釋。比如,病毒表面蛋白質(zhì)突變,某些抗體便無法發(fā)現(xiàn)病毒,像這樣導致病毒在環(huán)境中與其它事物區(qū)分開來的變異,便是改變了病毒的語義。病毒突變可以有不同語義,而每一種有自身語義的病毒可能需要不同抗體來解讀。
為建立這些特性的模型,研究人員使用了 LSTM 神經(jīng)網(wǎng)絡(luò),LSTM 誕生在基于變形金剛的神經(jīng)網(wǎng)絡(luò)出現(xiàn)之前,后者現(xiàn)為 GPT-3 等大型語言模型所使用。LSTM 等存在較久的網(wǎng)絡(luò)所需訓練數(shù)據(jù)比變形金剛少得多,并且在許多應(yīng)用中仍然表現(xiàn)良好。
研究人員不是用數(shù)百萬個句子,而是利用取自三種病毒的數(shù)千個基因序列訓練 NLP 模型。這些序列為流感病毒株的 4.5 萬個獨特序列、HIV 病毒株的 6 萬個獨特序列、以及新冠病毒病毒株的 3000 到 4000 個獨特序列。麻省理工學院研究生布萊恩·希建立了模型。他說:“由于對新冠病毒的監(jiān)測較少,新冠病毒的數(shù)據(jù)較少?!?/p>
NLP 模型在數(shù)學空間中對單詞進行編碼,單詞和單詞間若含義相近,距離會更近,反之,距離則更遠。這一過程稱為“嵌入”。在病毒層面,基因序列的嵌入便是根據(jù)病毒突變的相似性,對病毒進行分組。
該方法的總目標,是識別那些可能幫助病毒逃逸免疫系統(tǒng)、且不降低病毒傳染性的突變,也就是說要識別那些改變病毒含義、而又不導致病毒語法錯誤的突變。為測試模型,研究團隊使用評估機器學習模型所做預測的通用度量標準,該標準給精確度打分的區(qū)間為 0.5(相當于意外發(fā)生的概率)到1(完美)。
研究中,研究人員采用由模型識別、最有可能出現(xiàn)的突變,并在實驗室中利用病毒,檢查這些突變中有多少確實是會幫助病毒逃逸免疫的突變。精確度分數(shù)最低值為針對 HIV 病毒株的預測結(jié)果精確度,為 0.69;最高值為針對新冠病毒病毒株的預測結(jié)果精確度,為 0.85。研究人員表示,實驗結(jié)果比其他最先進模型的結(jié)果要好。
預先警告
知道可能會有哪些突變,醫(yī)院和公共衛(wèi)生當局便更容易提前計劃。例如,要模型顯示出某種流感病毒的語義自 2020 年以來發(fā)生了多大變化,就能預計人們已經(jīng)產(chǎn)生的抗體在今年會發(fā)揮多大作用。
該研究團隊表示,正在根據(jù)新冠病毒新變種運行模型。針對的新變種包括英國出現(xiàn)的變異病毒、丹麥水貂體內(nèi)出現(xiàn)的變異病毒、以及南非、新加坡和馬來西亞出現(xiàn)的變異病毒。研究人員已經(jīng)發(fā)現(xiàn),這些變異病毒免疫逃逸潛力可能很高,但尚未在實驗室外進行測試。
不過,模型沒有預測到南非變異病毒出現(xiàn)的一種變異。人們已經(jīng)開始擔心,這種變異可能幫助病毒躲避疫苗接種,目前研究人員正在嘗試探明原因。伯格說:“南非變異病毒里包含多個突變,我們認為,這些突變組合起來產(chǎn)生的效應(yīng)可能會導致免疫逃逸?!?/p>
使用 NLP 可以加速原本緩慢的研究進程,以前是從醫(yī)院里一名新冠患者身上提取病毒、測序基因組,并在實驗室里重新創(chuàng)造和研究相應(yīng)突變。項目研究人員麻省理工學院生物學家布賴恩·布萊森說,以前的做法可能需要幾周時間,NLP 模型可以直接預測潛在突變,實驗室研究便找到重點、工作速度也加快。
布萊森說:“整個工作很大開眼界?!泵恐芏加行虏《拘蛄小2既R森說:“一邊更新模型,一邊跑去實驗室進行實驗測試,很奇妙。計算生物學好就好在這。”
但這也只是開始。將基因突變視為語義變化,可以在生物學中有不同應(yīng)用。布萊森說:“一個好類比,能起很大作用。”
例如,希認為研究團隊的方法可以應(yīng)用于研究抗藥性。希說,“比如癌細胞蛋白質(zhì)對化療產(chǎn)生耐藥性、或者細菌蛋白質(zhì)對抗生素產(chǎn)生耐藥性”,這些變異也可以看作是意義上出現(xiàn)變化,“我們解讀語言模型,可以有很多創(chuàng)意?!?/p>
馬達尼說:“我認為,生物學正處在革命邊緣。我們不再僅僅收集大量數(shù)據(jù),而正在轉(zhuǎn)向?qū)W習如何深入理解數(shù)據(jù)?!?/p>
總體來說,研究人員正在關(guān)注 NLP 的發(fā)展,同時發(fā)掘語言和生物學之間的新類比,來利用NLP取得的進步。不過,布萊森、伯格和希都認為,生物學和 NLP 算法交叉可以是雙向,即新 NLP 算法受生物學概念啟發(fā)而誕生。伯格說:“生物學有自己的語言?!?/p>
來源:麻省理工科技評論

