實用技巧二——單細胞轉(zhuǎn)錄組高級分析之細胞譜系分析
瀏覽次數(shù):8089 發(fā)布日期:2019-6-13
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責任自負
基于單細胞轉(zhuǎn)錄組數(shù)據(jù)的細胞軌跡分析常見形式有細胞變化軌跡分析和細胞譜系分析,在上一篇中,我們詳細介紹了常規(guī)擬時間序列分析的相關(guān)內(nèi)容(具體內(nèi)容查看鏈接)。在這里,我們主要就細胞譜系分析進行介紹和解讀。
細胞譜系分析,最簡明的理解就是細胞領(lǐng)域的進化樹,通常指的是某類祖源細胞,在特定條件下,有多個發(fā)育軌跡和命運,變化過程類似復雜樹狀分支變化過程。因此,該分析的目的就是用單細胞數(shù)據(jù)還原復雜細胞命運變化。該分析的結(jié)果呈現(xiàn)內(nèi)容可以簡單概括為兩點:1.細胞變化命運:2.不同命運細胞的marker基因。
以Monocle來進行細胞譜系分析為例,Monocle細胞譜系分析的目的是在實驗中了解細胞是如何通過一個基因表達變化的生物程序進行轉(zhuǎn)化的。每個細胞都可以看作是高維空間中的一個點,每個維描述基因組中不同基因的表達。識別基因表達變化的程序相當于學習細胞在這個空間中遵循的軌跡。但是,分析中維度越多,學習軌跡就越困難。然而,許多基因通常彼此共存。因此,可以使用各種不同的算法來降低數(shù)據(jù)的維數(shù)
。所以,譜系分析的核心還是通過基因表達數(shù)據(jù)的降維,可視化細胞間的關(guān)系緊密程度。
1. 譜系骨架圖
要進行該分析的輸入數(shù)據(jù)主要包含三部分:基因列表、表達矩陣、細胞類型。通過對數(shù)據(jù)進行降維、編碼每個細胞映射到軌跡中的位置,根據(jù)已有知識指定軌跡的起點,就可以得到基本的譜系變化圖(譜系框架圖)。
圖一 譜系框架圖
上圖是由Monocle2分析得到的血細胞分化的譜系骨架,數(shù)據(jù)來源見參考文獻[1],上述圖形象地描述了細胞間的譜系關(guān)系。
2. 譜系層次聚類熱圖(Complex Heatmap)
譜系框架圖能看出來細胞間的譜系關(guān)系,當然,通過對具有相似基因集進行層次聚類,以熱圖形式也允許我們識別到在每個分支中發(fā)育的細胞類型,如下圖:
圖二 譜系層次聚類熱圖
上圖顯示根據(jù)譜系骨架得到的Cluster在譜系的各個節(jié)段的分布情況,名字(數(shù)字)標簽對應于樹的每個段的狀態(tài)標簽。
3. 譜系(各樹干)評分計算(stemness score)
得到基本譜系結(jié)構(gòu)后,需要對結(jié)果進行評價和優(yōu)化。因此,需要對譜系進行評分計算。通常,評分計算遵循以下幾個過程:
(1)選擇每個分支特有的stemness基因
(2)根據(jù)選擇的基因計算表達值,進而計算譜系評分,并校正譜系骨架圖
(3)將 UMI 歸一化為 TPM 數(shù)據(jù)結(jié)構(gòu)
校正完后,通過評分高低,留下可靠的,刪除不可靠數(shù)據(jù)細胞,分別進行繪圖展示:
圖三 校正后留下細胞與剔除細胞譜系圖,右圖為校正后的留下細胞譜系圖
4.差異基因分析
得到譜系圖后,需要分析每個不同的分支內(nèi)特有的差異基因是哪些,這樣便于理解每個分支的特征和生物學過程。基于Monocle2的回歸模型,可以檢測在發(fā)育過程中隨著命運決定而改變的基因,并很好地計算和可視化不同分支間表達的差異。
得到差異基因后,我們可以通過以下幾種方式進行展示:
(1) 差異基因多方向的動力學曲線
將特征基因,以不同分支進行分類,以進化軌跡為橫坐標,繪制動力學曲線圖:
圖四 基因動力學曲線圖
以上圖中,每條曲線對應于特定譜系中該基因的動力學。
(2) 差異基因的branch_ heatmap
根據(jù)差異基因,可通過形式展示每個不同分支的基因表達熱圖,直觀展示每個不同分支中,不同基因的變化情況:
圖五 差異基因表達熱圖
上述四步過程結(jié)果,展示了細胞譜系分析后的主要結(jié)果。針對特定的分支,我們也可以通過其他的一些方式進行展示。但是,不管哪種方式,模擬出細胞的譜系變化和篩選每個分支中的特征基因是該分析的主要結(jié)果和重點。有了這樣一個高大上的生物信息學分析,相信對于每一個特定情境下的單細胞數(shù)據(jù)解讀,可以提供巨大的幫助。
以上分析結(jié)果圖由上海生物芯片有限公公司生物信息學專家獨立完成,如有相關(guān)需求,請聯(lián)系上海生物芯片有限公司服務平臺。
點擊http://www.shbiochip.com/consult.jsp在線填寫咨詢表,我們將盡快與您聯(lián)系。