上海藥物所提出機器學習輔助定向進化新方法
定向進化是模擬自然進化機制,利用現(xiàn)代分子生物學方法創(chuàng)造大量的突變基因文庫,采用靈敏的定向篩選策略,創(chuàng)造出自然界不存在的或改良特性的蛋白質(zhì)等生物分子的一種方法。定向進化已廣泛應用于蛋白質(zhì)的分子改造和優(yōu)化,被認為是生產(chǎn)具有改良或全新特性的蛋白質(zhì)的高效方法,對于酶工程、多肽和大分子藥物設計都具有重要意義。傳統(tǒng)的定向進化實驗流程包括篩選測試大量突變序列的功能,將得到的最優(yōu)序列作為親本序列進行下一輪的突變和篩選,實行多輪突變篩選以得到功能優(yōu)化的蛋白序列。然而,傳統(tǒng)的定向進化方式容易陷入局部最優(yōu),且實驗所得的突變序列空間受限。
近年來,機器學習輔助定向進化得到越來越多的關(guān)注,通過計算機模型模擬實驗篩選過程,可以顯著減少實驗篩選負擔、提高篩選效率。機器學習方法最重要的是建立模型學習目標蛋白的序列突變體-功能的函數(shù)映射關(guān)系。這種映射關(guān)系被稱為蛋白質(zhì)適應度圖景(protein fitness landscape),其中適應度(fitness)是一個抽象概念,可定量刻畫特定蛋白質(zhì)序列具有的某種生物學功能(如蛋白的熱穩(wěn)定性、與其他蛋白質(zhì)的相互作用強弱、催化特定酶促反應的效率等)。由于蛋白質(zhì)功能不同,適應度圖景本身的內(nèi)涵各不相同。此外,蛋白質(zhì)突變效應數(shù)據(jù)難以獲得、實驗費時費力、蛋白質(zhì)適應度圖景較為復雜。因此,如何使用有限的實驗數(shù)據(jù)學習蛋白質(zhì)適應度圖景以指導定向進化實驗成為難題之一。
中國科學院上海藥物研究所鄭明月課題組、廖蒼松課題組,提出了新的深度神經(jīng)網(wǎng)絡模型GVP-MSA。該模型基于已有的不同類型的蛋白質(zhì)適應度圖景,通過遷移學習的方式構(gòu)建新的目標蛋白的適應度圖景。8月16日,相關(guān)研究成果以Learning protein fitness landscapes with deep mutational scanning data from multiple sources為題,在線發(fā)表在《細胞系統(tǒng)》(Cell Systems)上。
研究從蛋白質(zhì)熱穩(wěn)定性、上位性效應和序列保守性等多個方面,探討了適應度圖景的共同機制。蛋白質(zhì)發(fā)揮功能的基礎是能夠折疊和維持穩(wěn)定的三維結(jié)構(gòu)。研究對不同蛋白的計算結(jié)果發(fā)現(xiàn),突變導致適應度的變化和熱穩(wěn)定性變化的數(shù)值上有相關(guān)性。上位性效應在不同蛋白的適應度圖景中也隱含有相似機制。上位性效應表示殘基在蛋白質(zhì)中存在相互作用,導致多點突變效應并不等于其組成的單點突變效應的加和。研究發(fā)現(xiàn),在不同蛋白適應度圖景中,具有正向上位效應的雙點突變的兩個氨基酸的位置在三維結(jié)構(gòu)上更加接近。此外,突變效應與同源序列的隱含分布之間的關(guān)系具有共性。這些共性是適應度圖景遷移學習的基礎(圖1)。
此外,該團隊設計了多種測試場景:單點突變效應的隨機和按位置外推、對新蛋白質(zhì)突變效應的零樣本預測以及由單點突變效應預測多點突變效應(圖2)。這些場景模擬了在定向進化實驗中不同階段的實際需求。GVP-MSA在這三種測試情景中均有良好的表現(xiàn),驗證了適應度圖景遷移學習的有效性。該工作為機器學習輔助定向進化提供了新思路,有助于更加高效地探索蛋白質(zhì)序列突變空間、快速設計具有改良或全新特性的蛋白質(zhì)序列。
研究工作得到國家自然科學基金、臨港實驗室、國家重點研發(fā)計劃、中國科學院青年創(chuàng)新促進會、上海市自然科學基金以及上海藥物所與上海中醫(yī)藥大學中醫(yī)藥創(chuàng)新團隊聯(lián)合研究項目的支持。
圖1.?蛋白質(zhì)適應度圖景遷移學習的動機和基礎。a、在不同蛋白的深度突變掃描實驗中,突變導致的熱穩(wěn)定性變化與適應度變化相關(guān)。柱狀圖顯示了由Rosetta計算的熱穩(wěn)定性和適應度變化之間的Spearman相關(guān)性。b、具有正上位效應的雙點突變的殘基在三維結(jié)構(gòu)上更加接近。粉色直方圖表示具有正向上位效應的雙點突變的殘基間距離,藍色直方圖表示所有雙點突變的殘基間距離。
圖2.?GVP-MSA模型架構(gòu)和應用場景需求概覽。a、GVP-MSA的模型架構(gòu)。b、蛋白質(zhì)定向進化的應用場景需求:(1)沒有目標蛋白質(zhì)的適應度數(shù)據(jù)時,對新蛋白質(zhì)的零樣本預測能力;(2)已有少量目標蛋白的適應度數(shù)據(jù)時,模型的隨機和按位置外推能力;(3)只有單點突變的適應度數(shù)據(jù)時,模型對多點突變效應的預測能力。
來源:中科院


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。