在生命科學(xué)的前沿探索中,我們早已能高效“讀出”生命的序列,但如何從30億堿基對中“讀懂”生命奧秘,長期以來都是一項巨大挑戰(zhàn),如同在沒有地圖的荒野中尋找路徑。

據(jù)肽度TIMEDOO獲悉,10月23日,在第二十屆國際基因組學(xué)大會(ICG-20)上,華大生命科學(xué)研究院與之江實驗室聯(lián)合發(fā)布了全球首個百億參數(shù)人類基因組通用基礎(chǔ)模型——Genos。這一針對人類基因組深度優(yōu)化的基因組基礎(chǔ)模型,可支持高達(dá)百萬堿基對的超長上下文分析,并實現(xiàn)單堿基分辨率的精準(zhǔn)識別。

全球首個百億級人類基因組基礎(chǔ)模型Genos發(fā)布!-肽度TIMEDOO

Genos的推出標(biāo)志著基因組研究從“讀出”堿基序列邁向“讀懂”生命底層邏輯的一次關(guān)鍵轉(zhuǎn)折,有望為臨床疾病診斷、個人基因組解讀及前沿科學(xué)研究帶來突破性變革。

據(jù)悉,Genos的相關(guān)成果已發(fā)表于國際學(xué)術(shù)期刊GigaScience。

全球首個百億級人類基因組基礎(chǔ)模型Genos發(fā)布!-肽度TIMEDOO

文章截圖(https://doi.org/10.1093/gigascience/giaf132)

廣度、深度、效率兼具,一款真正具有生產(chǎn)力的基因組大模型

要讀懂“生命之書”,首先需要一本完整的“字典”。

基因組學(xué)領(lǐng)域內(nèi)的現(xiàn)有模型大多基于一到兩個參考基因組進(jìn)行訓(xùn)練,難以捕捉人類豐富的遺傳多樣性。而Genos則系統(tǒng)整合了人類泛基因組參考聯(lián)盟(HPRC)、人類基因組結(jié)構(gòu)變異圖譜計劃(HGSVC)等多個權(quán)威公開資源,首次匯聚了全球范圍內(nèi)636個“端粒到端?!保═2T)級別的高質(zhì)量人類基因組作為訓(xùn)練數(shù)據(jù)。這些數(shù)據(jù)覆蓋了全球不同人群,旨在從源頭減少數(shù)據(jù)偏見,更全面地代表人類遺傳多樣性。

基因組的語言極其復(fù)雜,一個微小的單堿基突變,其影響可能由百萬堿基之外的“遙遠(yuǎn)”調(diào)控元件決定。這要求模型既要有“顯微鏡”般的單堿基精度,又要有“廣角鏡”般的百萬級超長上下文理解能力。

如同閱讀一部鴻篇巨著,既能一字不差地記住細(xì)節(jié),又能洞悉全局的宏大敘事。Genos通過混合專家(Mixture-of-Experts, MoE)架構(gòu),巧妙地解決了這一挑戰(zhàn)。MoE架構(gòu)如同一個擁有眾多頂尖專家的智慧團(tuán)隊,面對任務(wù)時,總能精準(zhǔn)調(diào)度最相關(guān)的幾位專家協(xié)同處理,而不是調(diào)動所有人全部待命。這一“按需激活”的機(jī)制,讓Genos在擁有百億級參數(shù)的龐大知識總量的同時,推理成本和資源消耗卻遠(yuǎn)低于同等規(guī)模的模型,真正實現(xiàn)了“既強(qiáng)大,又好用”。

為了全面驗證模型的性能,研發(fā)團(tuán)隊進(jìn)行了一系列測試。在基因組元件識別、遠(yuǎn)程調(diào)控預(yù)測、突變致病性預(yù)測等經(jīng)典評測任務(wù)里,Genos在超過一半的任務(wù)里比所有現(xiàn)有模型都表現(xiàn)更好,而且長序列評測任務(wù)里,如突變熱點識別和族群分類上,Genos的表現(xiàn)遠(yuǎn)超同類模型,展現(xiàn)了其強(qiáng)大的上下文分析能力,有效破譯基因組中的“暗物質(zhì)”。

更重要的是,Genos在直接面向臨床應(yīng)用的致病性突變解讀任務(wù)中,實現(xiàn)了92%的準(zhǔn)確性,當(dāng)結(jié)合021科學(xué)基礎(chǔ)模型后,準(zhǔn)確率更是高達(dá)98.3%,為臨床診斷提供了全新的高效工具。綜合多項評測結(jié)果,Genos在各項核心任務(wù)中的表現(xiàn)均全面超越了現(xiàn)有最佳水平(SOTA),證明了其卓越且全面的能力。

共有、共為、共享,讓前沿科技觸手可及

一個模型無論多么強(qiáng)大,如果不能被方便地部署和使用,其價值便大打折扣。目前,全球基因組學(xué)領(lǐng)域尚無一款能夠被開發(fā)者和研究者直接部署、用于下游應(yīng)用的百億級人類基因組基礎(chǔ)大模型。而Genos的發(fā)布,則填補(bǔ)了這一空白。它是一個可以走向臨床、走向個人、走向每一個實驗室的“實踐先鋒”,為無限的下游應(yīng)用創(chuàng)新提供了堅實的地基。

全球首個百億級人類基因組基礎(chǔ)模型Genos發(fā)布!-肽度TIMEDOO

今年是人類基因組草圖繪制完成25周年?!肮灿?、共為、共享”,既是人類基因組計劃的精神傳承,也是Genos與生俱來的核心理念。

發(fā)布會上,華大生命科學(xué)研究院宣布,Genos模型將全面、徹底地開源開放,且同時提供12億和100億參數(shù)兩個版本,滿足不同應(yīng)用場景的需求。目前,兩個版本的模型權(quán)重、架構(gòu)細(xì)節(jié)與完整訓(xùn)練流程,均已在GitHub、Hugging Face、魔搭等平臺依據(jù)MIT開源協(xié)議公開發(fā)布,供全球開發(fā)者和科研人員自由使用。同時,在之江實驗室的開放平臺Zero2X也已發(fā)布。

另外,考慮到并非所有使用者都擁有強(qiáng)大的算力資源,該模型已被深度整合進(jìn)DCS Cloud云平臺。用戶無需進(jìn)行復(fù)雜的安裝配置,即可一鍵調(diào)用Genos,平臺為每個賬戶提供了高達(dá)10萬次的免費推理服務(wù),極大地降低了基因組智能分析的門檻。

目前,在科研領(lǐng)域,Genos模型通過與DCS?cloud結(jié)合,能僅憑DNA序列“秒級”預(yù)測RNA表達(dá)譜,將過去數(shù)周甚至數(shù)月才能完成的生物信息分析流程極大提速。此外,Genos模型也已整合進(jìn)生命科學(xué)數(shù)據(jù)庫CNGBdb,可幫助用戶精準(zhǔn)預(yù)測細(xì)胞表達(dá)量,高效篩選和驗證關(guān)鍵候選基因,大幅加速科研發(fā)現(xiàn)。

在臨床應(yīng)用領(lǐng)域,Genos模型與華大已發(fā)布的GeneT深度思考模型結(jié)合,能為遺傳疾病診斷提供專家級的多模態(tài)解讀。而在個人健康領(lǐng)域,目前Genos模型已整合進(jìn)BGE平臺,將賦能個人基因組報告解讀,把復(fù)雜的生命代碼翻譯成每個人都能讀懂的、個性化的健康“說明書”。

值得一提的是,Genos的誕生,源自一次大膽的跨界融合與人才培養(yǎng)實踐。該模型的核心研發(fā)團(tuán)隊,來自華大生命科學(xué)研究院與之江實驗室聯(lián)合發(fā)起的“大模型種子班”。這個匯聚了生物信息專家與計算科學(xué)骨干的精英團(tuán)隊,依托“以問題導(dǎo)向?qū)嵱?xùn)、以任務(wù)驅(qū)動創(chuàng)新”的模式,正推動生命科學(xué)研究從“數(shù)據(jù)挖掘”邁向“智能涌現(xiàn)”的新紀(jì)元。也正是這種跨界碰撞,為Genos的顛覆性創(chuàng)新注入了最核心的動力。

此次Genos的發(fā)布,標(biāo)志著一個新時代的開啟:一個基因組智能分析的時代,一個人人都能讀懂自己生命天書的時代,正加速到來。為持續(xù)推動模型迭代,華大生命科學(xué)研究院近期還聯(lián)合國內(nèi)外多家單位共同發(fā)起了“十萬長讀長大人群聯(lián)盟(Long100K Genomes Consortium)”和“百億細(xì)胞計劃(10BC)”兩項大科學(xué)計劃。其中,“十萬長讀長大人群聯(lián)盟”將依托最新的Cyclone長讀長測序技術(shù),完成10萬人的“端粒到端?!奔墑e完整基因組測序,為基因組大模型提供高質(zhì)量的訓(xùn)練數(shù)據(jù)。而“百億細(xì)胞計劃”則將依托Stereo-Cell超高通量細(xì)胞組學(xué)技術(shù),完成百億細(xì)胞測序,助力基因和細(xì)胞的融合大模型開發(fā)。從基因組到多組學(xué),一個更強(qiáng)大的生命科學(xué)基礎(chǔ)模型正在孕育之中。

編輯:李麗