摘要:由于單細(xì)胞和空間轉(zhuǎn)錄組技術(shù)都存在一定的不足,整合單細(xì)胞轉(zhuǎn)錄組和空間轉(zhuǎn)錄組技術(shù)應(yīng)運(yùn)而生。為提高單細(xì)胞矩陣到空間矩陣映射的相似度,降低損失函數(shù)值,通過改進(jìn)深度學(xué)習(xí)Tangram 算法的目標(biāo)函數(shù),同時受龍格庫塔方法的啟發(fā)對優(yōu)化算法Adam 的梯度值進(jìn)行修正,開發(fā)了RK-Tangram 算法。將其應(yīng)用到3 組模擬數(shù)據(jù)與真實的小鼠大腦皮質(zhì)、運(yùn)動和視覺區(qū)域的數(shù)據(jù)上,與原始Tangram 算法相比,結(jié)果表明,RK-Tangram 算法不僅提高了映射的相似度,降低了損失函數(shù)值,而且擴(kuò)展了空間轉(zhuǎn)錄組的全基因組圖譜,并糾正了低質(zhì)量的空間測量。另外,通過解卷積將空間轉(zhuǎn)錄組數(shù)據(jù)轉(zhuǎn)化為單細(xì)胞數(shù)據(jù),提供了一個更高分辨率的組織類型圖譜。
關(guān)鍵詞:深度學(xué)習(xí);梯度下降;解卷積;轉(zhuǎn)錄組
中圖分類號:Q 503 文獻(xiàn)標(biāo)志碼:A
近年來,單細(xì)胞和空間轉(zhuǎn)錄組分析得到迅速發(fā)展——單細(xì)胞轉(zhuǎn)錄組測序(如scRNA-seq[1])、空間轉(zhuǎn)錄組技術(shù)(如ST/Visium[2],Slide-seq[3],SlideseqV2[4] 和HDST[5]) 以及靶向原位捕獲技術(shù)( 如MERFISH[6-7],smFISH[8],osmFISH[9],STARmap[10],SeqFISH[11-12],seqFISH+[13]),這些技術(shù)的進(jìn)步為高分辨率空間圖譜的繪制開辟了道路[14]。單細(xì)胞轉(zhuǎn)錄組測序通過原位雜交和測序,在單細(xì)胞分辨率的水平上解析轉(zhuǎn)錄組,卻丟失了空間位置信息[2]??臻g轉(zhuǎn)錄組技術(shù)是基于空間條碼和測序的原位捕獲技術(shù),在空間上解析轉(zhuǎn)錄組,對整個轉(zhuǎn)錄組進(jìn)行空間條形碼標(biāo)記,但捕獲率有限,且空間分辨率大于單細(xì)胞水平(提高分辨率又會造成大量信息丟失)[15]。靶向原位測序可在單細(xì)胞分辨率下生成固定細(xì)胞或組織的多重表達(dá)譜,它首先將mRNA原位逆轉(zhuǎn)錄成cDNA,再通過鎖式探針( padlockprobe)開展靶點(diǎn)識別和滾環(huán)擴(kuò)增(RCA)。雖然靶向原位捕獲技術(shù)解決了空間位置信息丟失和分辨率低的問題,但受到通量的限制,每次測量的基因數(shù)僅數(shù)百個,如果增加探針的數(shù)量又會影響基因的準(zhǔn)確性[10]。
目前也有了一些整合單細(xì)胞數(shù)據(jù)與空間轉(zhuǎn)錄組數(shù)據(jù)的方法:Cell2location 方法[16] 通過集成單細(xì)胞和空間轉(zhuǎn)錄組數(shù)據(jù),以全面繪制組織細(xì)胞結(jié)構(gòu)的貝葉斯模型;SPOTlight 方法[17] 使用非負(fù)矩陣分解和解卷積的方法,將ST 與scRNA-seq 數(shù)據(jù)結(jié)合, 推斷出復(fù)雜組織中細(xì)胞類型與位置信息。Tangram 算法[18] 通過單細(xì)胞表達(dá)矩陣預(yù)測空間表達(dá)矩陣,使用余弦相似度衡量預(yù)測的準(zhǔn)確性。
Tangram 算法是一種深度學(xué)習(xí)算法,在單細(xì)胞分辨率上學(xué)習(xí)轉(zhuǎn)錄組的空間基因表達(dá)圖,并將這些圖與來自同一標(biāo)本的組織學(xué)和解剖學(xué)信息聯(lián)系起來。通過單細(xì)胞矩陣與深度學(xué)習(xí)得到的映射矩陣來預(yù)測空間矩陣,并使用余弦相似度衡量預(yù)測空間矩陣與期望空間矩陣的相似度,使用損失函數(shù)衡量算法的整體損失大小,這里映射矩陣是通過Adam[19] 優(yōu)化器進(jìn)行深度學(xué)習(xí)獲得的。為了提高空間預(yù)測的準(zhǔn)確性,更好地預(yù)測空間細(xì)胞類型,對損失函數(shù)進(jìn)行改進(jìn)。同時,受龍格庫塔方法的啟發(fā),對Adam 中梯度值的計算進(jìn)行線性加權(quán)修正,能夠提高當(dāng)前時刻梯度值的可信度,因此,本文開發(fā)了RK-Tangram 算法。在給定的3 組模擬數(shù)據(jù)集上,與Tangram 算法相比,RK-Tangram 算法表現(xiàn)出更好的魯棒性,如:對不同類型的數(shù)據(jù)集,RK-Tangram 算法輸出更低的損失值和更高的余弦相似度。最后使用RK-Tangram 分析3 組真實數(shù)據(jù):小鼠大腦皮質(zhì)數(shù)據(jù)、運(yùn)動和視覺區(qū)域的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),及來自上述3 組數(shù)據(jù)的同一組織切片的空間轉(zhuǎn)錄組Visium,Slide-seq 和MERFISH數(shù)據(jù)集。與Tangram 算法相比,RK-Tangram 收斂速度更快,預(yù)測更精準(zhǔn),預(yù)測的空間矩陣與期望的空間矩陣相似度更高,且解卷積的細(xì)胞類型分層更加明顯,更有助于生物學(xué)與病理學(xué)的研究,促進(jìn)新的發(fā)現(xiàn)。