北京大學(xué)團(tuán)隊(duì)提出細(xì)胞內(nèi)外信息的解耦表示方法
多細(xì)胞生物體可以被視作由相互連接的細(xì)胞組成的復(fù)雜空間網(wǎng)絡(luò)。每個(gè)細(xì)胞的位置與其內(nèi)在特性同樣重要,它們共同決定了組織的功能發(fā)揮及疾病狀態(tài)下的功能障礙??臻g組學(xué)技術(shù)能夠以單細(xì)胞精度全面描繪細(xì)胞在組織中的原位排列,因此成為解析組織中細(xì)胞協(xié)作與功能的重要工具。
空間組學(xué)不僅提供了細(xì)胞內(nèi)的基因表達(dá)信息,還能揭示細(xì)胞所處的空間環(huán)境。然而,如何解析細(xì)胞內(nèi)外信息的關(guān)聯(lián),仍是理解空間組學(xué)的核心難題?,F(xiàn)有計(jì)算模型通常將細(xì)胞內(nèi)部信息與空間環(huán)境信息混合建模,這不僅會(huì)引入模糊性,也阻礙了對(duì)細(xì)胞內(nèi)外關(guān)聯(lián)機(jī)制的深入研究。此外,隨著空間組學(xué)技術(shù)的發(fā)展,數(shù)據(jù)規(guī)模持續(xù)擴(kuò)大,現(xiàn)有方法在處理大規(guī)模細(xì)胞通量時(shí)存在瓶頸。
針對(duì)上述挑戰(zhàn),2025年8月27日,北京大學(xué)/昌平實(shí)驗(yàn)室高歌課題組于Nature Communication發(fā)表題為“Disentangled cellular embeddings for large-scale heterogeneous spatial omics data”的研究論文,提出了空間組學(xué)建模的解耦建模的新方法DECIPHER。相較以往方法,DECIPHER具有下列兩點(diǎn)優(yōu)勢:可擴(kuò)展至千萬細(xì)胞規(guī)模的空間圖譜;能解析細(xì)胞內(nèi)在的基因程序與細(xì)胞外在空間環(huán)境間的關(guān)聯(lián)。
論文截圖
組學(xué)數(shù)據(jù)的準(zhǔn)確表示(representation)是各種下游任務(wù)的重要基石。高歌課題組此前已開發(fā)多種對(duì)單細(xì)胞組學(xué)數(shù)據(jù)的表示學(xué)習(xí)方法,包括針對(duì)單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)表示方法Cell BLAST(Nature communication,2020),以及單細(xì)胞多組學(xué)數(shù)據(jù)表示方法GLUE(Nature Biotechnology,2022)和CLUE (NeurIPS Oral,2023)。
而針對(duì)新興的空間組學(xué)數(shù)據(jù),DECIPHER采用了雙編碼器結(jié)構(gòu):組學(xué)編碼器用于建模細(xì)胞自身的身份特征,空間編碼器用于建模細(xì)胞所處的空間環(huán)境。其中,空間編碼器引入了Transformer架構(gòu),使其能夠高效處理規(guī)模不斷增長的空間數(shù)據(jù)。整個(gè)模型通過多尺度對(duì)比學(xué)習(xí)進(jìn)行自監(jiān)督訓(xùn)練(見圖1),實(shí)現(xiàn)了對(duì)空間組學(xué)數(shù)據(jù)的精準(zhǔn)表示。
圖1 DECIPHER模型的結(jié)構(gòu)示意圖
小鼠大腦3D空間圖譜包含超過300萬細(xì)胞和200張空間切片(圖2a),遠(yuǎn)超現(xiàn)有空間組學(xué)計(jì)算方法的處理能力。相比之下,DECIPHER僅需數(shù)小時(shí)即可完成建模。DECIPHER的結(jié)果不僅能夠準(zhǔn)確重建細(xì)胞類型,還能精確再現(xiàn)大腦中的空間區(qū)域(圖2b),同時(shí)清晰反映不同細(xì)胞類型在各大腦區(qū)域的空間特異性分布(圖2c)。
圖2 DECIPHER適用于圖譜規(guī)模的空間數(shù)據(jù)
為了進(jìn)一步從DECIPHER的解耦表示中揭示細(xì)胞內(nèi)外的關(guān)聯(lián),本研究構(gòu)建了一個(gè)可解釋的機(jī)器學(xué)習(xí)模型,用于挖掘?qū)?xì)胞空間位置具有關(guān)鍵作用的信號(hào)分子,例如調(diào)控細(xì)胞通訊的配體-受體對(duì)。以B細(xì)胞為例,其成熟過程需要遷入淋巴結(jié)的生發(fā)中心。我們希望識(shí)別出在這一過程中的關(guān)鍵調(diào)控分子?;贒ECIPHER表示,識(shí)別出CXCR4–CXCL12和CXCR5–CXCL13為與B細(xì)胞空間定位最關(guān)鍵的配體-受體對(duì)。而實(shí)驗(yàn)研究也已充分證實(shí),這兩對(duì)配體-受體對(duì)B細(xì)胞定位到生發(fā)中心的亮區(qū)(light zone)和暗區(qū)(dark zone)至關(guān)重要。
圖3 基于DECIPHER解耦表示揭示細(xì)胞內(nèi)外信息的關(guān)聯(lián)
DECIPHER為從空間組學(xué)數(shù)據(jù)中探索細(xì)胞基因表達(dá)程序與空間環(huán)境的關(guān)聯(lián)提供了全新視角,對(duì)深入理解細(xì)胞空間功能調(diào)控具有重要意義。該模型的全部代碼已開源發(fā)布(https://github.com/gao-lab/DECIPHER),用戶可通過PyPI平臺(tái)直接安裝使用。
高歌課題組北京大學(xué)生命科學(xué)學(xué)院博士生夏辰睿為該論文第一作者,博雅博士后曹智杰博士(已出站)為該論文共同通訊暨共同第一作者。該研究得到了國家重點(diǎn)研發(fā)計(jì)劃、基因功能與調(diào)控國家重點(diǎn)實(shí)驗(yàn)室、北京未來基因診斷高精尖創(chuàng)新中心和昌平實(shí)驗(yàn)室的資助。計(jì)算分析工作于昌平實(shí)驗(yàn)室高性能計(jì)算平臺(tái)、北京大學(xué)太平洋高性能計(jì)算平臺(tái)與北京大學(xué)高性能計(jì)算校級(jí)公共平臺(tái)完成。
來源:北京大學(xué)


本文系作者 @TIMEDOO 原創(chuàng)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。