來源:上海交大電院 2022-07-18 10:43 此研究為處理空間轉(zhuǎn)錄組數(shù)據(jù)提供了新方案,具有被應(yīng)用于生命醫(yī)藥科學(xué)中多層次基礎(chǔ)問題研究的潛力。 近日,電子信息與電氣工程學(xué)院自動化系沈紅斌教授、袁野副教授的課題組(模式識別與生物信息學(xué)課題組)在《自然-計(jì)算科學(xué)》(Nature Computational Science)上發(fā)表題為《利用圖神經(jīng)網(wǎng)絡(luò)對空間轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行細(xì)胞聚類》(Cell clustering for spatial transcriptomics data with graph neural networks)的研究論文。 論文簡介 空間轉(zhuǎn)錄組技術(shù)是生物信息學(xué)領(lǐng)域近年來的重大突破之一。該技術(shù)通過同時(shí)測量大量細(xì)胞的空間位置和細(xì)胞內(nèi)的轉(zhuǎn)錄組計(jì)數(shù),彌補(bǔ)了單細(xì)胞測序技術(shù)難以測量單個(gè)細(xì)胞之間位置關(guān)系的缺陷,從而為理解多細(xì)胞之間的相互作用提供了全新的數(shù)據(jù)基礎(chǔ)。發(fā)展針對空間轉(zhuǎn)錄組數(shù)據(jù)的基礎(chǔ)分析方法是當(dāng)前生物信息學(xué)領(lǐng)域的前沿問題之一。 論文提出了一種基于圖卷積神經(jīng)網(wǎng)絡(luò)的空間轉(zhuǎn)錄組細(xì)胞聚類方法(Cell Clustering for Spatial Transcriptomics,CCST)。此前針對該類數(shù)據(jù)的處理模型大都基于“同種細(xì)胞在空間上相互臨近”的這一假設(shè)。相比之下,CCST并不依賴于局部特征,而是可以從細(xì)胞的全局空間分布中學(xué)習(xí)節(jié)點(diǎn)嵌入。具體方案為:首先將空間轉(zhuǎn)錄組建模為圖結(jié)構(gòu)的數(shù)據(jù)。圖中每一個(gè)節(jié)點(diǎn)代表一個(gè)細(xì)胞,其原始表征為高維的基因表達(dá)信息。圖的鄰接矩陣則依據(jù)細(xì)胞之間的空間距離建立。隨后分別提取圖上的局部特征和全局特征,以最大化局部和全局特征間的互信息為目標(biāo),訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)模型,從而得到帶有全局結(jié)構(gòu)信息的節(jié)點(diǎn)嵌入,再對各細(xì)胞所對應(yīng)的表示向量進(jìn)行聚類來識別細(xì)胞類型,最后從生物功能角度對聚類結(jié)果進(jìn)行了深入分析。 CCST方法示意圖 創(chuàng)新之處 論文在幾種不同類型數(shù)據(jù)集上,綜合對比了近期學(xué)術(shù)界提出的多個(gè)相關(guān)算法。在腦前額葉皮質(zhì)和人乳腺癌細(xì)胞ST數(shù)據(jù)集上的實(shí)驗(yàn)表明,CCST在ARI、NMI和FMI等多個(gè)聚類評價(jià)指標(biāo)上均體現(xiàn)出優(yōu)勢。同時(shí),此方法得到的聚類結(jié)果具有較好的生物可解釋性。在MERFISH數(shù)據(jù)中,通過進(jìn)行差異表達(dá)基因和基因本體(GO)分析,可以發(fā)現(xiàn)使用CCST聚類出的各個(gè)細(xì)胞簇能夠很好地和各細(xì)胞周期階段對應(yīng)。 CCST與相關(guān)算法的指標(biāo)對比:a. 調(diào)整蘭德系數(shù)(ARI);b. 歸一化互信息(NMI);c. Fowlkes-Mallows分?jǐn)?shù)(FMI);d. 局部逆辛普森指數(shù)(LISI) 此研究為處理空間轉(zhuǎn)錄組數(shù)據(jù)提供了新方案,具有被應(yīng)用于生命醫(yī)藥科學(xué)中多層次基礎(chǔ)問題研究的潛力,包括建?;虮磉_(dá)的空間分布、分析細(xì)胞動力學(xué)以及發(fā)現(xiàn)關(guān)鍵細(xì)胞亞型相互作用及其分子機(jī)制等;同時(shí)該研究也具有潛在的廣泛醫(yī)學(xué)應(yīng)用場景。 |
|