華大研究院開發(fā)基于深度學(xué)習(xí)的單細(xì)胞測序數(shù)據(jù)分析新方法deepMNN
2021年8月10日,深圳華大生命科學(xué)研究院精準(zhǔn)健康研究所智能算法團(tuán)隊(duì)在知名學(xué)術(shù)雜志《遺傳學(xué)前沿》(Frontiers in Genetics)在線發(fā)表了題為“deepMNN: Deep Learning-Based Single-Cell RNA Sequencing Data Batch Correction Using Mutual Nearest Neighbors”的研究論文,文章提出了一種新的基于深度學(xué)習(xí)模型進(jìn)行單細(xì)胞RNA測序數(shù)據(jù)(scRNA-seq)批次效應(yīng)校正的方法deepMNN。
Frontier in Genetics 官網(wǎng)截圖
高通量單細(xì)胞RNA測序技術(shù)的快速發(fā)展產(chǎn)生了海量的scRNA-seq數(shù)據(jù),充分利用并整合不同數(shù)據(jù)集進(jìn)行大規(guī)模單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)挖掘可以為細(xì)胞異質(zhì)性及其進(jìn)化動(dòng)力學(xué)提供更多新的見解。然而不同scRNA-seq數(shù)據(jù)可能產(chǎn)生于不同時(shí)間和測序平臺(tái),這些數(shù)據(jù)之間不可避免的存在技術(shù)或無生物學(xué)意義差異的批次效應(yīng)。雖然目前已經(jīng)提出了許多scRNA-seq數(shù)據(jù)批次效應(yīng)校正算法,但大多數(shù)方法需要消耗大量內(nèi)存和時(shí)間,且這種需求隨著不斷增加的scRNA-seq數(shù)據(jù)會(huì)進(jìn)一步加劇。
研究團(tuán)隊(duì)基于深度學(xué)習(xí)模型設(shè)計(jì)并開發(fā)了deepMNN方法用于校正scRNA-seq數(shù)據(jù)批次效應(yīng)。deepMNN通過主成分分析降維并在其子空間中計(jì)算批次間的互近鄰對(MNN pairs),然后構(gòu)建一個(gè)基于深度殘差網(wǎng)絡(luò)的深度學(xué)習(xí)模型消除批次效應(yīng)。deepMNN通過自己特有的損失函數(shù)指導(dǎo)其進(jìn)行模型學(xué)習(xí)從而消除scRNA-seq數(shù)據(jù)間的批次效應(yīng)。
deepMNN框架。(A)deepMNN工作流示意圖,(B)批次矯正網(wǎng)絡(luò)中的殘差模塊。
文章使用的4種不同批次的scRNA-seq數(shù)據(jù)
在“兩個(gè)批次且細(xì)胞類型相同”的場景下,deepMNN與其他常用批次效應(yīng)校正算法的定性和定量比較結(jié)果
在大規(guī)模數(shù)據(jù)集HCA場景下,deepMNN與其他常用批次效應(yīng)校正算法的定性比較
總之,文章基于深度學(xué)習(xí)模型提出新的單細(xì)胞RNA測序數(shù)據(jù)批次效應(yīng)校正方法deepMNN,準(zhǔn)確性優(yōu)于現(xiàn)有常用方法,特別是在大規(guī)模數(shù)據(jù)集的情況下,deepMNN算法的時(shí)間復(fù)雜度和空間復(fù)雜度均表現(xiàn)優(yōu)異,同時(shí)deepMNN一步即可整合多批次數(shù)據(jù)集,無需多次迭代。
深圳華大生命科學(xué)研究院白勇博士、金鑫研究員為論文共同通訊作者。


本文系作者 @華大集團(tuán) 授權(quán)發(fā)布在 肽度TIMEDOO。未經(jīng)許可,禁止轉(zhuǎn)載。