AI智能體登Nature子刊!華大智造發(fā)布靶向測序引物設(shè)計(jì)工具PrimeGen
PrimeGen以大型語言模型(LLM)為“中樞大腦”,協(xié)調(diào)搜索、引物設(shè)計(jì)、協(xié)議腳本生成、實(shí)驗(yàn)執(zhí)行與質(zhì)控四類智能體閉環(huán)協(xié)作,將原本需要高度依賴專家經(jīng)驗(yàn)的引物設(shè)計(jì)與實(shí)驗(yàn)執(zhí)行步驟,“搖身一變”成為智能、快速、穩(wěn)定、可追溯、可復(fù)制的標(biāo)準(zhǔn)化流程。在多場景實(shí)測中,PrimeGen在自研ATOPlex平臺加持下,最多能支持955個擴(kuò)增子(amplicons),在保持高擴(kuò)增均勻性的同時,顯著降低引物二聚體風(fēng)險(xiǎn),為靶向測序進(jìn)入“自動駕駛實(shí)驗(yàn)室”時代奠定關(guān)鍵工程基礎(chǔ)。
這也是繼該團(tuán)隊(duì)在Nature Machine Intelligence雜志上發(fā)表蛋白自博弈AI智能體后,時隔兩年再度發(fā)表AI相關(guān)文章。(Nature子刊!華大智造發(fā)布自博弈AI智能體,利用強(qiáng)化學(xué)習(xí)算法高效設(shè)計(jì)功能蛋白)?
在呼吸道流行季,公共衛(wèi)生實(shí)驗(yàn)室面臨著與時間賽跑的挑戰(zhàn):需要快速識別流行毒株、追蹤傳播鏈并監(jiān)測耐藥性。要實(shí)現(xiàn)高效精準(zhǔn)的檢測,關(guān)鍵在于為目標(biāo)基因片段設(shè)計(jì)合適的引物——這相當(dāng)于為檢測系統(tǒng)配制專屬“鑰匙”。引物與目標(biāo)序列的關(guān)系如同鑰匙與鎖:必須精確匹配,確保只識別特定目標(biāo);同時還要在多重PCR反應(yīng)中,與數(shù)百對引物協(xié)同工作而不相互干擾。
優(yōu)質(zhì)的引物設(shè)計(jì)需要兼顧多重標(biāo)準(zhǔn):特異性(不打到非目標(biāo)位點(diǎn))、退火溫度(Tm)匹配等,并盡量避開關(guān)鍵位點(diǎn)(如3′端錯配風(fēng)險(xiǎn))。更大的挑戰(zhàn)在于多重PCR檢測:當(dāng)反應(yīng)體系中包含數(shù)百對引物時,每對引物既要保持自身的高效性,又要避免與其他引物產(chǎn)生干擾。隨著目標(biāo)數(shù)增加,候選組合呈指數(shù)級膨脹,而面板中共有m條引物時,潛在引物二聚體/交叉二聚體的成對檢查負(fù)擔(dān)接近 O(m2)。再疊加基因組同源區(qū)、重復(fù)序列、樣本差異等因素,傳統(tǒng)的設(shè)計(jì)方法或單一工具往往需要多次調(diào)試,難以在高多重化場景下同時獲得高特異性、高均勻性、低二聚體的穩(wěn)健方案。
PrimeGen的使命,就是將這一“組合爆炸”的復(fù)雜問題,轉(zhuǎn)化為易于使用、可廣泛復(fù)用的工程化解決方案。系統(tǒng)采用輔助式設(shè)計(jì)嵌入實(shí)驗(yàn)室工作流,研究人員只需用自然語言描述實(shí)驗(yàn)?zāi)繕?biāo),即可觸發(fā)一系列自動化流程,包括目標(biāo)序列鎖定、候選引物與擴(kuò)增子布局生成、實(shí)驗(yàn)協(xié)議代碼塊(APB)組裝、液體處理機(jī)器人腳本生成、多視角視覺語言模型(VLM)質(zhì)控、結(jié)果回寫與參數(shù)微調(diào),最終形成完整的實(shí)驗(yàn)閉環(huán),同時在關(guān)鍵決策節(jié)點(diǎn)仍由人工把控,確保安全性與可控性。
系統(tǒng)由四大智能體協(xié)同運(yùn)作,各司其職(如圖1所示):
上游,搜索智能體與引物智能體協(xié)同完成目標(biāo)序列定位和高通量引物布局,確保設(shè)計(jì)合理、特異性強(qiáng);中段,協(xié)議智能體將設(shè)計(jì)結(jié)果轉(zhuǎn)化為可執(zhí)行的實(shí)驗(yàn)協(xié)議代碼塊(APB,Assembly of Protocol Blocks),以統(tǒng)一策略生成可在不同平臺運(yùn)行的實(shí)驗(yàn)?zāi)_本,并高度適配多種多重?cái)U(kuò)增化學(xué)體系;下游,實(shí)驗(yàn)智能體通過多視角視覺語言模型(VLM)實(shí)時監(jiān)測實(shí)驗(yàn)關(guān)鍵步驟,識別潛在異常并記錄審計(jì)軌跡。得益于這一結(jié)構(gòu)化架構(gòu),PrimeGen 即使在高達(dá)955個擴(kuò)增子(amplicons)的超高通量條件下,仍能保持優(yōu)異的擴(kuò)增均勻性,顯著降低引物二聚體風(fēng)險(xiǎn),從而有效減少重復(fù)實(shí)驗(yàn)次數(shù)、提升實(shí)驗(yàn)穩(wěn)定性,并整體降低時間與成本開銷。系統(tǒng)運(yùn)行周期的具體優(yōu)化幅度將根據(jù)任務(wù)規(guī)模、人工審校流程與實(shí)驗(yàn)組織方式的不同而有所差異。
華大智造副總裁、論文通訊作者楊夢博士表示:“PrimeGen的突破驗(yàn)證了將先進(jìn)AI智能體與我們的自動化硬件平臺(如AlphaTool)深度融合的巨大潛力,也是華大智造實(shí)驗(yàn)室智能自動化業(yè)務(wù)為科研人員賦能的優(yōu)秀范例。未來,我們將持續(xù)幫助客戶打通實(shí)驗(yàn)室‘干實(shí)驗(yàn)’與‘濕實(shí)驗(yàn)’全鏈路,構(gòu)建‘設(shè)計(jì)→執(zhí)行→優(yōu)化’的自進(jìn)化閉環(huán)。”
01 Search Agent?搜索智能體?精準(zhǔn)鎖定目標(biāo)基因,生物領(lǐng)域的AI雷達(dá)
傳統(tǒng)的基因目標(biāo)檢索需要科研人員耗時耗力地手動查閱數(shù)據(jù)庫。PrimeGen的搜索智能體能快速理解用戶需求,自動從NCBI等權(quán)威數(shù)據(jù)庫中檢索目標(biāo)序列。無論是病原微生物、癌癥、耐藥性相關(guān)基因與位點(diǎn),都能通過對話精準(zhǔn)檢索,能夠涵蓋大多數(shù)高通量測序典型應(yīng)用場景。
例如,在新冠病毒等流行病原檢測的測序任務(wù)中,它能快速提取靶標(biāo)序列的保守區(qū)域;在遺傳病篩查場景中,它可以智能合并靶標(biāo)序列的鄰近編碼區(qū),對引物設(shè)計(jì)進(jìn)行整體考慮,避免引物沖突;面對模糊提問時,搜索智能體也能通過“ReAct”機(jī)制內(nèi)部優(yōu)化檢索精度。同時提供人工介入機(jī)制(Human-in-the-loop)來保證序列檢索結(jié)果的可靠性,再將結(jié)果傳遞給引物設(shè)計(jì)環(huán)節(jié)。
02 Primer?Agent 引物設(shè)計(jì)智能體 最小化引物二聚體,優(yōu)化效率提升10倍
引物設(shè)計(jì)不僅要覆蓋目標(biāo)區(qū)域,還需避免引物之間因錯誤結(jié)合而形成的二聚體。PrimeGen的引物設(shè)計(jì)智能體開創(chuàng)了“滑動窗口+LLM 迭代”的雙引擎機(jī)制:通過滑動窗口篩選引物并嚴(yán)格把控設(shè)計(jì)參數(shù),基于歷史記憶迭代的LLM優(yōu)化器進(jìn)行引物優(yōu)化,將二聚體率壓到 <1%。
引物設(shè)計(jì)智能體在濕實(shí)驗(yàn)反饋中,能夠?qū)崿F(xiàn)自動微調(diào)參數(shù),無需人工反復(fù)調(diào)試。PrimeGen的高性能引物設(shè)計(jì)能力結(jié)合ATOPlex多重?cái)U(kuò)增技術(shù),實(shí)現(xiàn)靶標(biāo)區(qū)域的高效擴(kuò)增。在新冠全基因組測序的應(yīng)用中,對低拷貝數(shù)樣本實(shí)現(xiàn)≥99.8%基因組覆蓋(10×);在拓展性遺傳性疾病篩查(ECS)應(yīng)用中, 針對22個復(fù)雜基因(包含高同源區(qū)域等),成功設(shè)計(jì)958重(958-plex)的擴(kuò)增引物池,其產(chǎn)生的二聚體比率低至0.9%±0.3%,顯著領(lǐng)先行業(yè)內(nèi)水平。
03 Protocol?Agent 實(shí)驗(yàn)?zāi)_本設(shè)計(jì)智能體 實(shí)驗(yàn)協(xié)議“一鍵生成”,儀器自動執(zhí)行
傳統(tǒng)實(shí)驗(yàn)流程中,從引物設(shè)計(jì)到實(shí)驗(yàn)操作,主要依賴人工來編寫繁瑣的設(shè)備運(yùn)行腳本。
基于華大智造在多重PCR與建庫實(shí)驗(yàn)中積累的大量高質(zhì)量標(biāo)準(zhǔn)操作流程,以及移液工作站 AlphaTool開放 API 的可編程特性,PrimeGen 的實(shí)驗(yàn)?zāi)_本設(shè)計(jì)智能體由此誕生,具備了自動化生成實(shí)驗(yàn)流程的能力。
現(xiàn)在,實(shí)驗(yàn)?zāi)_本設(shè)計(jì)智能體先通過兩步法,即任務(wù)拆解模式將建庫Kit說明書分解成多個子任務(wù)(sub-task)后,基于實(shí)驗(yàn)邏輯通過檢索增強(qiáng)(RAG)技術(shù)組裝模塊化腳本(APB),產(chǎn)出可執(zhí)行的儀器腳本?,F(xiàn)有 28 個可調(diào)模塊(PCR、磁珠純化等),能自適應(yīng)生成所有PCR任務(wù)的流程及其代碼。
04 Experiment?Agent 實(shí)驗(yàn)執(zhí)行智能體 三只“眼睛”守護(hù)實(shí)驗(yàn),異常及時反饋修復(fù)
實(shí)驗(yàn)過程中的移液錯誤、磁珠混合不均等問題常導(dǎo)致結(jié)果偏差。為此,PrimeGen引入搭載視覺語言模型(VLM)的實(shí)驗(yàn)執(zhí)行智能體,通過三路攝像頭這“三只眼睛”來實(shí)時捕捉異常。VLM是一種能同時“看圖”和“理解語言”的人工智能技術(shù),相比只能識別固定目標(biāo)的傳統(tǒng)方法(如YOLO),它還能理解語境并生成解釋,更適合處理動態(tài)、多變的實(shí)驗(yàn)異常。本方案三路攝像頭如下:
頂部攝像頭:監(jiān)控實(shí)驗(yàn)布局,確保模塊位置正確。
移液臂攝像頭:檢測吸頭損壞、液體殘留等問題*。
底部攝像頭:分析磁珠混勻混合狀態(tài),自動調(diào)整參數(shù)后重試*。
標(biāo)*項(xiàng)目為理論探索階段,非標(biāo)準(zhǔn)產(chǎn)品。
在自研的訓(xùn)練模式下,Qwen2-VL-7B模型微調(diào)的多視角異常識別準(zhǔn)確率達(dá)87%。例如,在磁珠純化步驟中,它能發(fā)現(xiàn)混合不充分的情況,并觸發(fā)自適應(yīng)專家提示以調(diào)整流速,在嘗試修復(fù)異常的同時保障實(shí)驗(yàn)穩(wěn)定性。
四體聯(lián)動=全流程無感智能
PrimeGen 作為智能化協(xié)同系統(tǒng)重構(gòu)從“引物設(shè)計(jì)”到“實(shí)驗(yàn)執(zhí)行”的端到端流程。
通過“搜索、設(shè)計(jì)、協(xié)議、實(shí)驗(yàn)”四大智能體聯(lián)動,PrimeGen 注入自然語言交互與大模型能力,全面提升平臺智能化水平。其引物設(shè)計(jì)模塊優(yōu)化多重?cái)U(kuò)增體系,提升設(shè)計(jì)效率與實(shí)驗(yàn)成功率;協(xié)議與執(zhí)行模塊則支持腳本自動生成和多模態(tài)反饋,增強(qiáng)流程穩(wěn)定性與自動化能力。
PrimeGen可無縫調(diào)度四大智能體,支持GPT-4o/Qwen/DeepSeek/GLM等國內(nèi)外AI模型自由切換,適配不同算力環(huán)境。從樣本進(jìn)來到報(bào)告產(chǎn)出,AI全程接管,從搜索、設(shè)計(jì)、代碼到實(shí)驗(yàn)的全流程,干濕閉合,環(huán)環(huán)相扣,減少人工介入,真正實(shí)現(xiàn)「檢測方案個性化設(shè)計(jì)+實(shí)驗(yàn)室流程智能執(zhí)行」!
未來,PrimeGen 將深度嵌入ATOPlex Fast產(chǎn)品體系,成為其智能驅(qū)動核心,進(jìn)一步推動靶向測序向更高效、更自動化的方向演進(jìn)。ATOPlex Fast首款靶向測序產(chǎn)品——ATOPlex Fast呼吸道合胞病毒A/B型(RSV A/B)全基因組建庫試劑盒將于8月上市。該產(chǎn)品采用RT-PCR單管擴(kuò)增,4h完成建庫,覆蓋≥99.5%的RSV A/B型全基因組序列,并適配DNBSEQ、CycloneSEQ等市面上所有高通量及單分子測序平臺,助力靶向基因組研究全面進(jìn)入8小時時代。
05 GLI—驅(qū)動實(shí)驗(yàn)室智能進(jìn)化
PrimeGen文章是一個很好的范例,展示了桌面級實(shí)驗(yàn)室和可編程的實(shí)驗(yàn)室管理系統(tǒng)為科研人員賦能,打通實(shí)驗(yàn)室“干實(shí)驗(yàn)”與“濕實(shí)驗(yàn)”全鏈路,加速AI+生命科學(xué)的前沿研究。
華大智造今年推出的實(shí)驗(yàn)室智能自動化GLI業(yè)務(wù),標(biāo)志著公司將AI技術(shù)全面融入生命科技工具領(lǐng)域。GLI業(yè)務(wù)對公司原有的”實(shí)驗(yàn)室自動化業(yè)務(wù)”進(jìn)行了智能技術(shù)升級,以先進(jìn)的”實(shí)驗(yàn)室智能自動化”工具和平臺為GBI(Generative Bio Intelligence,生成式生物智能)提供底層支撐,從”人工經(jīng)驗(yàn)”向”數(shù)據(jù)驅(qū)動”決策的智能范式進(jìn)化,旨在幫助傳統(tǒng)的實(shí)驗(yàn)室自動化用戶突破數(shù)據(jù)-算法的互哺瓶頸,更快落地實(shí)驗(yàn)室軟硬件和整體運(yùn)行效果,加快發(fā)揮“AI+生命科學(xué)”的無限潛能。
從Lab as a Cube 到Lab as a factory,GLI賦能客戶建立干濕閉環(huán)的數(shù)據(jù)飛輪,幫助不同行業(yè)的實(shí)驗(yàn)室用戶在短時間內(nèi)快速具備平臺式可復(fù)用的“AI+”應(yīng)用集成能力。
英偉達(dá)NVIDIA首席執(zhí)行官黃仁勛在今年COMPUTEX 2025大會上,將數(shù)據(jù)中心比喻為“智造AI的工廠”,指出人工智能正從“能聊天”邁向“能自主行動”的基礎(chǔ)設(shè)施;紅杉資本在4月發(fā)布的《AI 50·2025》報(bào)告亦強(qiáng)調(diào),年度最大機(jī)遇在于智能體閉環(huán)貫通整條企業(yè)工作流。德勤預(yù)測,到2025年將有四分之一企業(yè)采用生成式 AI 部署智能體,至2027年這一比例有望翻倍,硅谷媒體已將此浪潮稱為“最后一公里自動化”。
華大智造正以 PrimeGen 多智能體系統(tǒng)為生命科學(xué)的這“最后一公里”開辟智能新范式——從基因檢索、引物設(shè)計(jì)到自動化實(shí)驗(yàn),全流程由 AI 協(xié)同完成,智能自動化GLI賦能生命科學(xué)智能革命,引領(lǐng)實(shí)驗(yàn)室從自動化走向自主化。
AI智能體登Nature子刊!華大智造發(fā)布靶向測序引物設(shè)計(jì)工具PrimeGen
??點(diǎn)擊鏈接查看完整文章


本文系作者 @wzh 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。