圖4:單細胞分析概覽。A. 在預(yù)處理階段,基于測序數(shù)據(jù),細胞-基因矩陣讀數(shù)通過單細胞讀數(shù)校正和定量產(chǎn)生;B. 分析使用的高質(zhì)量細胞矩陣通過原始的基因表達矩陣獲得,通過去批次效應(yīng)矯正批次,通過標準化降低生物學(xué)差異,補充未檢測到的基因;C. 依照或不依照先前的參考信息對細胞類型進行注釋;D. 轉(zhuǎn)錄組特征相似的細胞被歸為一類,稱為“細胞簇(cluster)”,細胞的可視化通過降維方法實現(xiàn),差異基因分析對組間差異進行檢驗;E. 擬時序分析重建細胞轉(zhuǎn)錄水平變化的動力學(xué)過程;F. 細胞間轉(zhuǎn)錄組調(diào)控關(guān)系可以通過胞間互作分析進行推斷。
數(shù)據(jù)預(yù)處理
將原始測序數(shù)據(jù)通過濾除低質(zhì)量reads和環(huán)境干擾與參考基因組進行比對和量化。從而得到每個細胞的特征計數(shù)矩陣和記錄其他信息的輔助文件,用于下游的數(shù)據(jù)分析(圖4 A)。
(1)質(zhì)控
由于測序儀器問題、人為操作、細胞自發(fā)情況,或存在空液滴、雙細胞、死細胞等,不可避免地會產(chǎn)生低質(zhì)量的測序數(shù)據(jù)(Chen等,2019a ; Hao等,2021b)?找旱瓮ǔ3霈F(xiàn)在液滴捕獲細胞外背景轉(zhuǎn)錄本而不是細胞時(Ilicic等,2016 ; Kolodziejczyk等,2015)。一種高度主觀的方法是根據(jù)曲線的膝點確定一個UMI閾值,并過濾掉UMI計數(shù)低的細胞。隨后使用DropEst ( Petukhov等,2018 )、EmptyDrops ( Lun等,2019 )和 DIEM ( Alvarez等,2020 )增強過濾效果。DropletQC ( Muskovic and Powell, 2021 )量化未剪接前 mRNA 含量的核分數(shù)得分。MT 基因閾值雖然是衡量死細胞的標準,但它的選擇需要綜合考慮細胞生理因素 ( Subramanian等,2022 )。近年來,基于深度學(xué)習(xí)的方法也應(yīng)運而生,例如基于神經(jīng)網(wǎng)絡(luò)的 EmptyNN ( Yan等,2021 )和基于深度生成模型的 CellBender ( Fleming等,2019 ),能夠有效識別空液滴中的背景轉(zhuǎn)錄本。
雙細胞是指兩個細胞包含在一個液滴中的情況,根據(jù)轉(zhuǎn)錄分布可分為同源雙峰和異源雙峰,均服從泊松統(tǒng)計量(Bloom, 2018)。絕大多數(shù)方法基于基因表達計算,利用先驗知識或深度學(xué)習(xí)獲取單峰與雙峰細胞的差異,然后訓(xùn)練分類器進行篩選,例如基于最近鄰的 DoubletFinder ( McGinnis等,2019a )、Scrublet ( Wolock等,2019 );基于反卷積的 DoubletDecon ( DePasquale等,2019 )、基于變分自編碼器的 Solo ( Bernstein等,2020 )和基于集成算法的 Chord ( Xiong等,2021a )。此外,Scds 是另一種篩選方法,它依賴于基于共表達的雙聯(lián)體打分和基于二分類的雙聯(lián)體打分策略,實現(xiàn) scRNA-seq 表達數(shù)據(jù)的雙聯(lián)體分離 (Bais and Kostka,2020)。一些方法使用其他特征,例如 demuxlet 它使用自然遺傳變異信息指導(dǎo)實驗并通過計算進行過濾 ( Kang等,2018 )。
合理的質(zhì)控需要綜合考慮技術(shù)性和生物性因素,這也是當前研究的主要方向。最近一種由生物數(shù)據(jù)驅(qū)動的自學(xué)習(xí)無監(jiān)督質(zhì)控方法 ddqc被提出來,用于確定各種 GC 指標的具體閾值 ( Macnair and Robinson,2023 )。
(2)reads比對和定量
質(zhì)控后剩余的高質(zhì)量細胞需要將這些短reads映射到特定的參考基因組上進行比對,以此對基因表達水平進行定量。RNA比對通常分為兩步:比對reads以建立索引和映射RNA剪接序列,前一步與DNA reads比對共用,解決錯配問題并設(shè)置索引參考;后一步是RNA reads比對所特有的,提供連通性信息。
早期二代測序結(jié)果是幾十對長度的堿基reads。Seed-to-extend ( Buhler,2001 )(包括MAQ ( Li等,2008a )、SOAP ( Li等,2008b )、CloudBurst ( Schatz,2009 )、ZOOM ( Lin等,2008 ))、BurrowsWheeler 變換方法 ( Burrows and Wheeler,1994 )(包括SOAP2 ( Li等,2009 )、Bowtie ( Langmead等,2009 )、BWA ( Li and Durbin,2009 ))、Needleman-Wunsch 方法(包括Novocraft ( Hercus,2009 ))和suffix-tree算法方法(包括MUMmer 2 ( Delcher等,2002 ))都是百萬級短鏈 DNA 測序reads比對的有效工具。Bowtie采用了一種依賴于Burrows-Wheeler Transforming的FM-index方法,如果reads有多個準確匹配則結(jié)果只報告一個,與MAQ(Ferragina and Manzini, 2001)相比,大大優(yōu)化了運行內(nèi)存和比對速度。BWA是另一種基于BWT的比對方法,使用新的SAM(Sequence Alignment/Map)格式輸出比對結(jié)果;贛AQ和Bowtie兩種短鏈DNA比對算法,Cole Trapnell于2009年提出了第一個針對NGS數(shù)據(jù)的RNA-seq比對方法TopHat,它使用2-bit-per-base編碼實現(xiàn)reads與哺乳動物基因組中剪接位點的有效比對,而無需事先知道剪接位點的具體信息(Trapnell等, 2009)。
上述方法在堿基對長度超過50 bp時比對精度急劇下降(Gupta等,2018 ; Lebrigand等,2020)。NGS單細胞測序分析主要采用兩類方法:基于Bowtie2的方法和基于seed策略的方法(Langmead and Salzberg, 2012)。Bowtie2是Bowtie的升級版,保留了FM-index依賴的BWT算法核心,允許有間隙比對,并使用單指令多數(shù)據(jù)(SIMD)擴展到長測序比對,同時提高運行速度。Daehwan Kim在Bowtie2基礎(chǔ)上,先后提出了TopHat2(Kim等,2013)和HISAT(Kim等,2015)。種子策略主要有STAR(Dobin等,2013)和Subread(Liao等,2013)。STAR基于最大可映射前綴(MMP)的思想,采用順序檢索的策略,將與參考匹配的最長部分reads設(shè)為種子1,其余read繼續(xù)匹配,依次從種子2調(diào)用至種子n 。值得注意的是,Rsubread完全基于R語言平臺實現(xiàn)了第一次read比對和基因量化的過程(Liao等,2019)。
基因表達量化又可分為偽比對量化和基于read比對的量化。偽比對是指不采用上述嚴格的兩步法將所有reads比對到參考基因組上,包括選定的 k-mers 比對方法(Sailfish(Patro等,2014)、Kallisto(Bray等,2016)、Salmon(Patro等,2017)、RapMap(Srivastava等,2016))和 Barcode-UMI-Set (BUS)比對方法 BUStools(Melsted等,2019)。Kallisto-BUStools 是最新的工作流程,它使用 BUS 文件格式進行初始數(shù)據(jù)預(yù)處理,與 BUStools 一樣,偽比對結(jié)果和量化計數(shù)都保存在 BUS 文件中(Melsted等,2021)。另一方面,基于reads比對的方法依賴于 RNA reads比對方法的結(jié)果來量化基因。CellRanger 是10x Genomic 公司指定替代 Longranger 的官方開源數(shù)據(jù)預(yù)處理軟件(Zheng等,2017)。STARsolo 是替代 Cellranger 的mapping/quantification 功能的工具,可實現(xiàn)多平臺測序數(shù)據(jù)的分析和基因表達之外的轉(zhuǎn)錄組特征的量化(Kaminow等,2021)。其他基于reads比對的基因表達定量方法如 UMItools ( Smith等,2017 )、zUMIs ( Parekh等,2018 )、Alevin-fry ( He等,2022 )、DropEst ( Petukhov等,2018 )、RainDrop ( Niebler等,2020 )、baredSC ( Lopez-Delisle and Delisle, 2022 )、BCseq ( Chen and Zheng, 2018 )使用各種質(zhì)量過濾器和 barcode/UMI 處理策略在一定程度上提高了 CellRanger 的性能。
CellRanger 和 STARsolo 在處理包括 10x Chromium 在內(nèi)的各種單細胞轉(zhuǎn)錄組數(shù)據(jù)集時都具有良好的運行速度,并且準確度極高。但在獲得幾乎相同結(jié)果的前提下,后者相比前者提升了至少5倍的運行速度,這也驗證了Alexander Dobin等人使用STARsolo取代CellRanger的目的(Brüning等,2022 ; Chen等,2021a ; You等,2021)。
數(shù)據(jù)處理
在對表達矩陣進行必要的調(diào)整(Normalization、Batch Effect Correction、Imputation)后,即可從單細胞轉(zhuǎn)錄組數(shù)據(jù)中充分挖掘出生物信息進行分析。Seurat和Scanpy分別基于R和Python對上述過程進行模塊化、可擴展的處理,是目前單細胞轉(zhuǎn)錄組數(shù)據(jù)的主流分析流程(Satija等,2015 ; Wolf等,2018)。常規(guī)分析流程和預(yù)期處理結(jié)果可參見總分析框架(圖4 B-D)。
(1)標準化
在測序過程中,技術(shù)原因或者細胞本身的生物學(xué)差異可能造成同一樣本內(nèi)(細胞之間)或者不同樣本之間的文庫大小差異(Marinov等,2014)。無限數(shù)方法按照文庫大小進行處理,按照具體原理大致可以分為基于全局縮放的標準化、spike-in標準化和其他數(shù)據(jù)變換模型標準化。
全局縮放方法最初是為bulk RNA分析而發(fā)展起來的,通過特定的縮放因子對全局數(shù)據(jù)進行縮放(Finak等,2015)。每萬計數(shù)(CPT)變換和每百萬計數(shù)(CPM)變換是常見的線性縮放方法,在不考慮spike-in count的情況下,它們都對每個UMI/總UMI count等距縮放。其他標準化方法包括每百萬reads數(shù)(RPM)(Mortazavi等,2008)、修剪均值M值(TMM)、DESeq(Robinson and Oshlack, 2010)、上四分位縮放(Bullard等,2010)、FPKM(Trapnell等,2010)、RPKM(Tu等,2012)等,它們對于極值的穩(wěn)定性比線性縮放更好,因此與RPKM/FPKM一樣具有更廣泛的應(yīng)用范圍。但單獨使用該類方法進行單細胞轉(zhuǎn)錄組的標準化時,由于數(shù)據(jù)的稀疏性和假陽性率虛高,效果并不可接受(Evans等,2018),與特定方法結(jié)合時往往需要改進。SCnorm使用分位數(shù)回歸方法來評估不同測序深度依賴細胞組之間的尺度因子(Bacher等,2017)。bayNorm基于基因原始計數(shù)與真實計數(shù)服從負二項(NB)分布的假設(shè),使用集成貝葉斯模型對scRNA-seq數(shù)據(jù)進行標準化(Tang等,2020)。
spike-in標準化方法可以看作是全局尺度方法的另一種擴展,因為尺度因子是根據(jù)spike-in基因計算出來的。需要注意的是,將RNA spike-ins的信息添加到其他方法中也可以提高SCnorm等標準化的效果。GRM是一種基于spike-in ERCC分子濃度伽馬分布的方法,其中ERCC是測序中常用的校準材料(Ding等,2015)。BASiCS 是一種自動貝葉斯標準化方法,將泊松分層模型應(yīng)用于spike-in(技術(shù))基因,以推斷細胞特定的標準化常數(shù)(Vallejos等,2015)。
以上方法都是在細胞內(nèi)RNA數(shù)量恒定的假設(shè)下對基因進行縮放,而這可能具有欺騙性,因此其他轉(zhuǎn)化模型采用了不同的策略。由于單細胞轉(zhuǎn)錄組數(shù)據(jù)存在零膨脹問題,一些模型就是為此而設(shè)計的,例如相對對數(shù)表達(RLE)方法ascend(Senabouth等,2019)和基于NB的模型,如Dino(Brown等,2021)、scTransform(Hafemeister and Satija, 2019)。其他轉(zhuǎn)化模型歸一化方法如MUREN使用最小二乘(LTS)回歸算法(Feng and Li, 2021);Sanity使用從UMI計數(shù)推斷出的對數(shù)轉(zhuǎn)錄商(LTQ)作為貝葉斯框架的輸入,以避免泊松波動,因為LTQ向量的變化估計了基因表達值(Breda等,2021);PsiNorm 是一種基于無監(jiān)督帕累托分布尺度參數(shù)的方法,用于提升標準化效率和準確率(Borella等,2021)。Charles Wang 比較了 sctransform、TMM、DESeq 等共 8 種標準化方法,其中 sctransform 和 logCPM(Seurat 的內(nèi)置處理方法)受數(shù)據(jù)影響最小,在可變數(shù)據(jù)集上最穩(wěn)定(Chen等,2021a)。
(2)批次效應(yīng)校正
由于實驗設(shè)計、測序平臺、測序時間、人員操作流程等原因,不同的單細胞轉(zhuǎn)錄組測序數(shù)據(jù)在mRNA捕獲效率、測序深度等會存在明顯差異,從而產(chǎn)生樣本間的批次效應(yīng)(Chen等,2019a ;Hwang等,2018 ;Tung等,2017)。理論上可以通過實驗策略消除技術(shù)變異,但由于實驗過程的客觀限制以及測序儀器誤差,不可避免地會或多或少地引入批次效應(yīng)。利用計算方法進行校正是解決不完善實驗設(shè)計的必要手段,通常使用的方法可以分為相互最近鄰(MNN)方法、基于潛在空間的方法、基于圖的方法、DL方法和其他方法。
MNN首先識別出不同批次之間同一細胞類型的最相似細胞,然后利用這些細胞進行批次效應(yīng)校正,包括batchelor(Haghverdi等,2018)、Scanorama(Hie等,2019)、Canek(Loza等,2022)。另一類使用 MNN 的方法是基于降維后的潛在空間,如 Seurat ( Satija等,2015 )、BEER ( Zhang等,2019b )、SMNN ( Yang等,2021a )、iSMNN ( Yang等,2021b )。例如,Seurat 使用典型相關(guān)分析 (CCA)潛在空間中的 MNN 對 (稱為“錨點” )來匹配相似細胞,而 BEER 使用主成分分析 (PCA)子空間來篩選相似性較差的子群。SMNN 和 iSMNN 分別采用監(jiān)督機器學(xué)習(xí)和迭代監(jiān)督機器學(xué)習(xí)來細化從預(yù)校正細胞聚類或迭代細胞聚類信息中訓(xùn)練出的MN對。
基于潛在空間的方法是指在隱藏空間或降維后的嵌入中進行批次效應(yīng)校正的方法,除了基于 MNN 聚類的策略外,還有與 PCA 相關(guān)的空間方法 Harmony(Korsunsky等,2019)、FIRM(Ming等,2022)、Monet(Wagner, 2020);t 分布隨機鄰域嵌入 (tSNE)空間方法 sc_tSNE(Aliverti等,2020)和 ZINBWaVE(Gao等,2019)。Harmony 被廣泛用于去除樣本間的批次效應(yīng),使用 PCA 方法將排序的細胞輸入到單個公共嵌入中,然后在最大多樣性聚類和線性批次校正之間迭代循環(huán),直到為每個細胞分配一個特定的校正因子,可用于后續(xù)的批次效應(yīng)去除。Sc_tSNE方法引入梯度下降算法對傳統(tǒng)t-SNE算法進行優(yōu)化,隨后采用線性校正(Aliverti等,2021)。ZINB-WaVE最初設(shè)計用于在單細胞數(shù)據(jù)中進行基因提取, Risso et al.(2018)將該方法擴展至小批量優(yōu)化。
基于圖的方法利用細胞基因表達矩陣將數(shù)字信息轉(zhuǎn)化為空間構(gòu)造的圖,其中節(jié)點代表不同類型的批次,邊的權(quán)重基于不同的計算方法。BBKNN利用k近鄰細胞構(gòu)建圖(KNN圖),通過使用均勻流形近似與投影(UMAP)方法合并不同數(shù)據(jù)集間單個細胞的圖實現(xiàn)批次效應(yīng)校正,這也是Scanpy工作流程中的默認方法(Pola ński等,2020 ; Wolf等,2018)。王波在 OCAT 中提出“幽靈細胞” (默認為 k-means 算法聚類中心)來制作細胞連接的二分圖(Wang等,2022a)。
近年來,深度學(xué)習(xí)方法的快速發(fā)展也為批次效應(yīng)校正提供了新思路,實現(xiàn)高效、大通量的數(shù)據(jù)處理,如 INSCT(Simon等,2021)(三重態(tài)神經(jīng)網(wǎng)絡(luò))、CLEAR(Han等,2022)(自監(jiān)督對比學(xué)習(xí))、BERMUDA(Wang等,2019e)(遷移學(xué)習(xí))、iMAP(Wang等,2021a)(VAE-GAN)、ResPAN(Wang等,2022e)(Wasserstein GAN),一些新方法被證明在批次效應(yīng)校正方面有更好的效果;例如,基于從SciBet學(xué)習(xí)到的帶注釋數(shù)據(jù)集中的生物學(xué)先驗知識,SSBER可以在大型RNA測序數(shù)據(jù)集中去除批次效應(yīng)(Zhang and Wang,2021)。建議在整合單細胞轉(zhuǎn)錄組數(shù)據(jù)之前,應(yīng)根據(jù)數(shù)據(jù)的實際情況先測試多種方法,然后選擇最合適的批次效應(yīng)去除方法。例如,Jinmiao Chen團隊和Charles Wang團隊分別于2020年和2021年對本綜述2.2中提到的前三種方法的大部分進行了基準測試,證明了Harmony和Seurat V3在大多數(shù)情況下都能達到良好的批次效應(yīng)校正效果,這符合這兩種方法如今仍然被廣泛使用,但對于深度學(xué)習(xí)方法來說仍然缺乏好的指標這一事實(Chen等,2021a ;Tran等,2020)。
(3)填補
測序過程中會引入大量0值(高通量大規(guī)模10x基因組測序數(shù)據(jù)中零值可能超過90%)(Stegle等,2015 ; Talwar等,2018),這會干擾下游生物學(xué)差異分析,因此必須對原始基因表達矩陣中的缺失數(shù)據(jù)值進行填補,同時有效區(qū)分技術(shù)噪音零值與生物學(xué)零值。
基因 / 細胞分離方法主要應(yīng)用于早期的填補,其分別考慮細胞相似性(MAGIC ( van Dijk等,2018 )、Sclmpute ( Li and Li, 2018 )、VIPER ( Chen and Zhou, 2018 )、RESCUE ( Tracy等,2019 )、scRMD ( Chen等,2020a )、scRoc ( Ran等,2020 ))或基因間關(guān)系(SAVER ( Huang等,2018a )、SAVER-X ( Wang等,2019a )、G253 ( Wu等,2021e )、DCA ( Eraslan等,2019 )、DeepImpute ( Arisdakessian等,2019 ))?傮w而言,這些方法缺乏對數(shù)據(jù)集整體的考慮,容易導(dǎo)致過度插補或者引入誤差(Zhang等,2019d)。綜合方法綜合考慮細胞與基因之間的聯(lián)系:CMF-Impute和netNMF-sc是最早有效利用細胞與基因之間的關(guān)聯(lián)進行插補的方法(Elyanow等,2020 ;Xu等,2020a)。scIGANs通過特定的GAN模型處理基因表達矩陣,利用生成的細胞訓(xùn)練GANs模型來插補dropout(Xu等,2020b)。近年來,新的方法還在不斷被提出,以更好地解決dropout之外的技術(shù)噪聲對數(shù)據(jù)的影響,并實現(xiàn)對生物零值的更好的區(qū)分。AutoClass(Li等,2022c)實現(xiàn)了無監(jiān)督處理,而ALRA方法主要針對生物零值(Linderman等,2022)。scMOO進行了根本性的改變,利用數(shù)據(jù)的潛在結(jié)構(gòu)來學(xué)習(xí)細胞相似性垂直結(jié)構(gòu)和總低秩結(jié)構(gòu)中的深度關(guān)聯(lián),從而取得了比單一基因表達矩陣作為輸入更好的插值效果,但對內(nèi)存的要求也更高(Jin等,2022a)。sc-PHENIX利用PCA-UMAP初始化方法,實現(xiàn)了基因表達的非線性插值(Padron-Manrique等,2022),目前哪種插值能取得最佳效果尚無明確定論。由于數(shù)據(jù)集本身的原因,下游分析的目的會有不同的選擇,但毫無疑問最好的填補方法將能夠以較低的計算要求有效區(qū)分技術(shù)噪聲零值和生物零值(Jiang等, 2022a ;Wen等, 2022)。
(4)特征選擇
為了降低數(shù)據(jù)維數(shù)以提升計算分析效率、減少技術(shù)噪聲干擾和模型過擬合的風(fēng)險,我們常常采取特征選擇策略,選取不同細胞中差異較大的基因,而非整個數(shù)據(jù)集基因進行聚類等后續(xù)分析(Brennecke等, 2013 ;Jackson and Vogel, 2022 ;Svensson等, 2017)。
在bulk RNA-seq分析中,尋找差異基因的方法通常包括基于倍數(shù)變化(FC)的方法、基于統(tǒng)計檢驗的方法和FC-統(tǒng)計檢驗方法,顯然后者的篩選結(jié)果和可信度最好(Chung and Storey,2015)。
早期的單細胞特征選擇方法缺乏平均表達量與方差之間的校正,導(dǎo)致結(jié)果中高表達基因的比例過高(Brennecke等,2013)。EDGE采用大量弱學(xué)習(xí)器的集成學(xué)習(xí)方法來學(xué)習(xí)細胞間相似性概率,提取基于信息熵的顯著貢獻作為高可變基因(Sun等,2020c)。同樣,SAIC基于迭代聚類最終輸出實現(xiàn)了最優(yōu)細胞簇分離(Yang等,2017)。近期,一些新的特征提取策略被提出并證明了其穩(wěn)定性和有效性,但它們之間的性能權(quán)威驗證尚缺乏:包括基于基因表達分布矩陣的方法 SCMER(Liang等,2021b)、RgCop(Lall等,2021)、scPNMF(Song等,2021a)、SIEVE(Zhang等,2021e);基于熵的方法 IEntropy(Li等,2022g)、infohet(Casey等,2023);綜合考慮聚類的方法有Triku(Ascensión等,2022)、FEAST(Su等,2021)等。由于上述方法絕大多數(shù)忽略了整體的依賴于基因表達的特征,因此提出了綜合的方法,如Triku使用k最近鄰圖的方法對基因表達模式進行綜合探索和分類,實現(xiàn)無偏差地篩選出更有生物學(xué)意義的特征基因;FEAST在共識聚類上通過f檢驗對特征進行排序,并基于特征評估算法提取HVG(Wang等,2022c)。
其他一些方法使用高可變基因以外的特征來表示數(shù)據(jù)集,例如scVEGs和scSensitiveGeneDefine方法,使用高變異系數(shù)(CV)作為特征提。籅ASiCS方法利用spike-in基因的信息(Chen等,2016b ;Chen等,2021b)?傮w來看,基于準確性、生物學(xué)可解釋性等角度,當前特征選擇的主要目標是有效提取HVG,以便對高維轉(zhuǎn)錄組數(shù)據(jù)進行有效的下游分析。
(5)降維
由于單細胞轉(zhuǎn)錄組通常包含數(shù)萬個甚至更多的基因,不利于直接提取有效信息,在實際分析過程中,通常需要對原始測序數(shù)據(jù)進行降維。除了利用前文提到的特征選擇方法處理高維單細胞轉(zhuǎn)錄組測序數(shù)據(jù)外,降維也是一種有效的方法,根據(jù)降維策略可分為線性降維(基于潛在狄利克雷分配(LDA)的方法、基于PCA的方法)和非線性降維(基于t-SNE的方法、基于UMAP的方法)(Andrews and Hemberg,2018 ;Becht等,2019 ;Laurens and Hinton,2008 ;Peres-Neto等,2005)。
在線性降維中,LDA和PCA是兩種廣泛使用的算法,LDA從分類最大的角度區(qū)分特征,而PCA則從方差最大的角度正交提取主成分。盡管有JPCDA、LDA-PLS等改進算法,但是LDA模型在單細胞轉(zhuǎn)錄組數(shù)據(jù)中的降維效果仍然不是最優(yōu)的(Tang等,2014 ; Zhao等,2020)。PCA是另一種線性變換,Seurat通常根據(jù)標準差-PC圖的拐點或者PC的比例檢驗結(jié)果P值(ScoreJackStraw函數(shù))來確定PC數(shù)量的多少。其他基于PCA的降維方法的變體包括pcaReduce(Žurauskien ė和Yau,2016),GLM-PCA(Townes等,2019),RPCA(Gogolewski等,2019),tRPCA(Candès等,2011),scPCA(Boileau等,2020),PCAone(Li等,2022l)。GLM-PCA將傳統(tǒng)PCA分析擴展到非正態(tài)分布,通過引入指數(shù)家族似然策略直接處理原始矩陣,使PCA擺脫正態(tài)化限制,然后使用偏差對基因?qū)崿F(xiàn)進行排序和提。–ollins等,2002)。ScPCA使用對比PCA和稀疏PCA分別去除技術(shù)噪音和數(shù)據(jù),進一步增加了PCA的穩(wěn)定性(Abid等,2018 ; Zou等,2006)。由于大多數(shù)scRNA-seq數(shù)據(jù)集難以通過簡單的線性降維進行有效表示,解決這一問題的第一個策略是基于快速PCA分析方法。PCAone提出了一種新的快速隨機奇異值分解(RSVD)策略,在35分鐘內(nèi)完成130萬小鼠腦細胞單細胞數(shù)據(jù)的分析(Li等,2022l)。
非線性降維是另一種解決方案,如非參數(shù)降維方法t-SNE和UMAP,都需要預(yù)先設(shè)置聚類的超參數(shù);而在分類效果上,前者傾向于離散數(shù)據(jù)中細胞的形成。在合理使用參數(shù)設(shè)定的情況下,UMAP與t-SNE并無明顯差異,即在使用相同的信息初始化方法后,二者可以在保留數(shù)據(jù)集全局結(jié)構(gòu)的同時,產(chǎn)生近似的分析效率(Do and Canzar,2021 ;Kobak and Linderman,2021)。針對t-SNE的改進方法包括net-SNE、qSNE、FItSNE、聯(lián)合t-SNE(Cho等,2018a ;Linderman等,2019 ;Wang等,2022b),而UMAP的改進主要來自于Leland McInnes課題組對該方法的自我改進(McInnes等,2018)。為了更好地可視化t-SNE或UMAP的降維結(jié)果,Hyunghoon Cho提出了基于局部半徑依賴優(yōu)化的轉(zhuǎn)錄組變異信息den-SNE/densMAP方法,以迭代優(yōu)化傳統(tǒng)t-SNE/UMAP的功能;Stefan Canzar提出了j-SNE/jUMAP來改善多模態(tài)組學(xué)數(shù)據(jù)聯(lián)合可視化結(jié)果,減少可視化的誤導(dǎo)性(Do and Canzar,2021 ;Narayan等,2021)。
(6)聚類
在單細胞轉(zhuǎn)錄組數(shù)據(jù)分析中,通過聚類將細胞劃分為亞群,從而能夠表征多細胞生物中不同細胞類型,這有助于我們從細胞異質(zhì)性的角度準確地分析不同的組織或發(fā)育過程。聚類的實際效果會受到數(shù)據(jù)預(yù)處理步驟的影響,例如浴效應(yīng)歸一化、歸納、降維等。
在特征基因選擇和降維之后,絕大多數(shù)單細胞是基于距離進行聚類的。K 均值聚類算法的概念被用于 SCUBA、SC3 和 RaceID 等應(yīng)用(Grün等,2015 ;Kiselev等,2017 ;Macqueen, 1967 ;Marco等,2014)。在參數(shù)選擇改進方面,SAIC 通過 Davies-Bouldin 指數(shù)迭代優(yōu)化多個初始中心K和P值,以獲得最優(yōu)解;LAK 將參數(shù)選擇算法應(yīng)用于數(shù)據(jù)集,實現(xiàn)參數(shù)的自動選擇(Davies and Bouldin, 1979 ;Hua等,2020 ;Yang等,2017)。在超高維數(shù)據(jù)的操作中,LAK添加Lasso懲罰項進行標準化,mbkmeans使用小批量k均值實現(xiàn)百萬細胞級別的快速聚類(Hicks等,2021)。SMSC應(yīng)用譜聚類方法來提高聚類性能,但對于超高維數(shù)據(jù)會損失一定的準確性(Qi等,2021)。另一大類廣泛使用的距離聚類方法依賴于共享最近鄰圖結(jié)構(gòu)和圖聚類,其中使用最廣泛的是Louvain或Leiden(Blondel等,2008 ;Xu and Su, 2015)。稀有細胞的識別需要結(jié)合特定方法進行改進,例如dropClust使用局部敏感哈希工作流篩選最近鄰,然后是Louvain聚類,它使用指數(shù)衰減函數(shù)來保留更多稀有細胞的轉(zhuǎn)錄組特征(Sinha等,2018)。其他基于距離的聚類方法使用不同的算法核心:SIMLR使用高斯核學(xué)習(xí)模型為數(shù)據(jù)集中潛在的C細胞群體構(gòu)建核矩陣,而Conos提出聯(lián)合相互最近鄰(mNN)圖聚類來實現(xiàn)對多個不同單細胞轉(zhuǎn)錄組樣本的整合分析(Barkas等,2019 ; Wang等,2017a);诿芏鹊木垲惱脴颖痉植嫉慕咏潭冗M行聚類,DBSCAN是最經(jīng)典的算法(Ester等,1996 ; Fukunaga and Hostetler, 1975)。對于單細胞測序,densityCut和FlowGrid就是基于此原理設(shè)計的(Ding等,2016 ; Fang and Ho, 2021)。層次聚類是一種自下而上的聚類方法,通過無監(jiān)督學(xué)習(xí),不斷重復(fù)計算細胞與細胞的相似性進行分類,直至完成預(yù)設(shè)的聚類數(shù)(Guo等,2015)。隨后,RCA聚類采用常規(guī)的層次聚類方法,對映射到全局參考面板的細胞進行聚類;HGC在SNN圖上構(gòu)建層次樹(Li等,2017 ;Zou等,2021)。為了解決常規(guī)層次聚類方法難以對某一組細胞進行聚類、只允許同一組特征基因進行聚類的缺陷,K2Taxonomer采用約束K均值算法擴展到樣本組,基于多個基因集遞歸進行積分計算,以捕獲各種分辨率下的亞組(“類似分類學(xué)的細胞”)(Reed and Monti, 2021)。Mrtree將層次聚類的策略應(yīng)用于平面簇的多個劃分,并構(gòu)造多分辨率協(xié)調(diào)樹用于細胞聚類(Peng等,2021a)。最近, Zelig和Kaplan(2020)提出了一種KMD聚類方法,通過平均鏈接層次聚類模型在聚類時消除了超參數(shù)K,大大減少了主觀性帶來的判斷誤差。
深度學(xué)習(xí)聚類方法是將機器學(xué)習(xí)方法與上述單細胞轉(zhuǎn)錄組聚類策略相結(jié)合,可以以無監(jiān)督、監(jiān)督或半監(jiān)督的形式實現(xiàn)更高效的聚類結(jié)果。這些方法傾向于學(xué)習(xí)一種非線性變換,通過將原始高維數(shù)據(jù)映射到較小的潛在空間中來獲得最佳的低維表示?傮w而言,這種方法避免了傳統(tǒng)聚類方法對聚類前數(shù)據(jù)處理方法選擇的影響。無監(jiān)督聚類方法包括ADClust、DESC、SAUCIE、VAE-SNE等,通常不需要預(yù)設(shè)聚類個數(shù)等參數(shù),以自主學(xué)習(xí)的方式完成對數(shù)據(jù)集的分析處理(Amodio等,2019 ;Graving and Couzin,2020 ;Li等,2020c ;Zeng等,2022c)。雖然無監(jiān)督聚類方法避免了手動輸入聚類個數(shù)等參數(shù),可以延伸到超高維細胞聚類,但有時利用高質(zhì)量標注數(shù)據(jù)集或其他先驗知識輔助約束進行監(jiān)督或半監(jiān)督聚類,可以實現(xiàn)更為準確的細胞類型分類,提高聚類性能(Bai等,2021)。基于遷移學(xué)習(xí)的ItClust、基于互監(jiān)督ZINB自編碼器和圖神經(jīng)網(wǎng)絡(luò)(GNN)的scDSC、基于軟K均值卷積自編碼器的ScCAE、基于Cramer-World距離最大均值懲罰高斯混合自編碼器的SeGMA、基于時間序列聚類網(wǎng)絡(luò)STCN都是廣泛使用的監(jiān)督聚類(Gan等,2022 ; Hu等,2022a ; Hu等,2020a ; Ma等,2021b ; Smieja等,2021)。此外,Zhang團隊(Yang等,2023b)利用分層GAN設(shè)計了另一種廣泛使用的深度學(xué)習(xí)方法IMDGC,用于單細胞轉(zhuǎn)錄組數(shù)據(jù)分析,以生成的方式構(gòu)建細胞嵌入簇。
針對聚類中的特殊情況,設(shè)計了有針對性的聚類方法:GiniClust(Jiang等,2016)(更新為GiniClust 3(Dong and Yuan,2020))、MicroCellClust(Gerniers等,2021)用于稀有細胞亞群聚類;EDClust(Wei等,2022)、ENCORE(Song等,2021b)和MLG(Lu等,2021)用于降噪和消除批次效應(yīng);ClonoCluster(克隆起源信息)(Richman等,2023)、IsoCell(可變剪接信息)(Liu等,2023)使用附加信息進行聚類。Wu 和 Yang 從特征選擇對聚類的影響的角度對聚類方法進行了評估,他們證明更具代表性的特征選擇會提高細胞聚類的水平,基于“聚類相似性”的方法(我們綜述中提到的大多數(shù)基于距離的聚類方法)通常具有廣泛的高聚類類型性能;然而,高精度和高運行速度需要根據(jù)實際數(shù)據(jù)集進行有針對性的選擇(Su等,2021 ;Yu等,2022)。雙重浸入 (double dipping)是一個顯著的問題,即在細胞聚類和差異表達基因中使用相同的表達數(shù)據(jù),導(dǎo)致在細胞聚類不正確時 DE 基因的錯誤發(fā)現(xiàn)率 (FDR)過高。例如,如果只存在一個特定的細胞聚類,則不應(yīng)將任何基因視為差異基因。為了系統(tǒng)地解決這個問題,ClusterDE 采用了聚類對比學(xué)習(xí)策略進行聚類后 DE 測試。該方法與截斷正態(tài)分布 (TN)檢驗和 Countsplit 方法相比,在不同閾值范圍內(nèi)具有更好的 FDR 控制 ( Song等,2023a )。
(7) 細胞類型注釋
細胞分型注釋是指利用特定的信息對單細胞測序數(shù)據(jù)集中的細胞或細胞亞群進行注釋,作為后續(xù)生物學(xué)分析的基礎(chǔ)。最常用的策略是對細胞進行無監(jiān)督聚類,然后根據(jù)標記基因進行注釋,例如 scCATCH、SCSA ( Cao等,2020b ;Shao等,2020a ),但它難以處理復(fù)雜的高維數(shù)據(jù)集 ( Franzén等,2019 ;Luecken and Theis, 2019 ;Zhang等,2019c )。目前已經(jīng)開發(fā)了多種自動細胞分型方法,大致可分為兩類,即依賴參考和無參考的注釋方法。
依賴參考信息的注釋方法要求用戶提供預(yù)先注釋的高質(zhì)量單細胞轉(zhuǎn)錄組數(shù)據(jù)集或來自 PanglaoDB 數(shù)據(jù)庫、ScType 數(shù)據(jù)庫等的先驗知識進行比對(Ianevski等,2022)。根據(jù)方法原理的不同,可分為基于層次樹的方法(CHETAH(de Kanter等,2019)、Garnett(Pliner等,2019)、HieRFIT(Kaymaz等,2021)、scHPL(Michielsen等,2021)、scMRMA(Li等,2022e))、基于相似性的方法(SingleR(Aran等,2019)、scmap(Kiselev等,2018)、deCS(Pei等,2023)、scID(Boufea等,2020)、scMatch(Hou等,2019)、Symphony(Kang等,2021))、基于簽名基因的方法(Cellassign(Zhang等,2021))、基于特征基因的方法(Cellassign(Zhang等,2022))。al., 2019a )、Cell-ID(Cortal等,2021)、scMAGIC(Zhang等,2022g)、SciBet(Li等,2020b))和其他DL方法。作為早期方法,ACTINN是一種使用3個隱藏層神經(jīng)網(wǎng)絡(luò)進行注釋分類的深度學(xué)習(xí)方法(Ma and Pellegrini, 2020)。SCPred隨后提出了一種基于嵌入的無偏特征選擇的機器學(xué)習(xí)概率預(yù)測方法(Alquicira-Hernandez等,2019)。其他方法如Seurat在PCA空間中投影查詢細胞并通過加權(quán)投票分類器訓(xùn)練細胞分型注釋;scSorter 采用高斯混合模型,GraphCS 使用虛擬對抗訓(xùn)練 (VAT)損失修改的 GNN 來擴展到多物種、大規(guī)模細胞注釋數(shù)據(jù)集(Guo and Li,2021 ;Zeng等,2022a)。
不依賴參考信息的注釋方法使用預(yù)先訓(xùn)練的深度學(xué)習(xí)模型,可以直接使用查詢數(shù)據(jù)集作為輸入進行細胞分類。scDeepSort 使用來自人類細胞圖譜 (HCL)和小鼠細胞圖譜 (MCA)數(shù)據(jù)庫的單細胞圖譜作為預(yù)訓(xùn)練加權(quán) GNN 模型的輸入,該模型適用于人類和小鼠細胞注釋并取得良好的效果(Han等,2018b ;Han等,2020 ;Shao等,2021b)。類似地,Pollock 是一個預(yù)訓(xùn)練的人類癌癥參考 VAE 模型,用于對癌癥環(huán)境中的多模態(tài)細胞進行分類(Storrs等,2022)。雖然使用起來更方便,但對于差異顯著的查詢數(shù)據(jù)集難以達到更好的細胞注釋效果,而且由于準確性和預(yù)訓(xùn)練參考數(shù)據(jù)集的數(shù)量也難以擴展應(yīng)用。還有一些其他用于有針對性領(lǐng)域研究的細胞注釋工具,例如,用于人類腎細胞注釋的 DevKidCC(Wilson等,2022),用于識別癌癥和正常細胞的 ikarus(Dohmen等,2021)。總體而言,無參考注釋方法的性能受到預(yù)訓(xùn)練參考數(shù)據(jù)集的覆蓋率和準確性的制約。
目前,改進細胞注釋工具以在大平臺和多細胞模式下統(tǒng)一分配細胞類型是細胞注釋研究的主流方向,最新的Cellar和ELeFHAnt方法在這方面做了一些嘗試并取得了初步成果(Hasanaj等,2022 ; Thorner等,2021)?傮w而言,基于相似性的注釋方法計算量大,在應(yīng)用于非常大的查詢和參考數(shù)據(jù)集時,往往會在準確率和速度之間做出權(quán)衡,因此一般只適合在較小的數(shù)據(jù)集中進行細胞分類;對于較大規(guī)模的數(shù)據(jù)集,建議使用F檢驗特征選擇或MLP分類器(Hu等,2020a ; Huang and Zhang, 2021 ; Ma等,2021c)。此外,半監(jiān)督遷移學(xué)習(xí)的方法,如Itclust,在發(fā)現(xiàn)新的細胞亞型方面也有不錯的效果。近年來,基于上述參考注釋方法分類的新方法不斷完善,VAE等深度學(xué)習(xí)模型也在該領(lǐng)域得到應(yīng)用。
(8)差異表達分析(DEG )
統(tǒng)計檢驗是Bulk RNA-seq的差異基因分析中常用到的方法,類似章節(jié)2.4HVG Selection算法:通常以P值和對數(shù)倍變化量作為重要參數(shù)。統(tǒng)計檢驗包括t檢驗(兩個樣本為基礎(chǔ)),Wilcoxon檢驗,Kolmogorov-Smirnov檢驗(KS檢驗),Kruskal-Wallis檢驗(KW檢驗),其中一些在單細胞轉(zhuǎn)錄組DEGs的檢驗中也被廣泛使用;诖,發(fā)展了相應(yīng)的檢測工具:limma(Ritchie等,2015),edgeR(Robinson等,2010),DESeq2(Love等,2014)。limma和edgeR算法均由Smyth GK提出,前者基于正態(tài)或近似正態(tài)分布模型,后者基于過度離散的泊松分布模型。DESeq2基于NB分布模型進行假設(shè)檢驗,對DEG采用經(jīng)驗貝葉斯程序。目前l(fā)imma由于特定的分布模型假設(shè),在RNA計數(shù)分析中誤差較大,雖然edgeR和DESeq2都利用貝葉斯模型對過度離散進行歸一化,但后者通過數(shù)據(jù)集reads的平均值和異常值檢測促進了CPM閾值的篩選,分析效果更好。
單細胞轉(zhuǎn)錄組DEG按照時間和分析方法大致可以分為早期零值參數(shù)檢驗、非參數(shù)檢驗和其他方法。由于scRNA-seq數(shù)據(jù)中存在大量零數(shù),早期的方法大多基于此觀察做參數(shù)檢驗,例如Monocle ( Trapnell等,2014 )、SCDE ( Kharchenko等,2014 )、MAST ( Finak等,2015 )、scDD ( Korthauer等,2016 )、D3E ( Delmans and Hemberg, 2016 )、TASC ( Jia等,2017 )、DEsingle ( Miao等,2018 )和HIPPO ( Kim等,2020b )。對以上一些方法的評測表明,雖然它們在單細胞數(shù)據(jù)集的分析中普遍取得了不錯的效果,但對于批量數(shù)據(jù)(Soneson and Robinson, 2018)相比DEA方法并沒有明顯的性能提升。對于不同的數(shù)據(jù)集,有可能沒有最好的分布模型,因此一種替代解決方案是考慮非參數(shù)DEA方法。
非參數(shù)檢驗或無分布檢驗不需要對數(shù)據(jù)分布形式做事先假設(shè),因此適用于多數(shù)據(jù)集的分析,常用方法有Swish(Zhu等,2019a)、IDEAS(Zhang等,2022d)、ccdf(Gauthier等,2021)、distinct(Tiberi等,2022)。Swish通過Salmon Gibbs評估轉(zhuǎn)錄本水平,然后用Mann-Whitney Wilcoxon檢驗計算FC值。IDEAS是一種使用Jensen-Shannon散度(JSD)或Wasserstein距離(Was)進行基因差異表達測量的偽F統(tǒng)計量檢驗, P值由基于PERMANOVA的距離測試器基于核的回歸生成。Ccdf 是一種依賴條件累積分布函數(shù)的條件獨立性檢驗,通過多元回歸模型預(yù)測 DEG。Distinct 提出了一種分層非參數(shù)置換方法,使用經(jīng)驗累積分布函數(shù) (ECDF)的總距離進行 DEG 識別。替代方法包括深度學(xué)習(xí)策略 MRFscRNAseq ( Li等,2021a )、基于擬時序推斷的 PseudotimeDE ( Song and Li, 2021 )、基于非預(yù)聚類的 singleCellHaystack ( Vandenbon and Diez, 2020 )、基于多重評分的 MarcoPolo ( Kim等,2022 )。建議不同的單細胞轉(zhuǎn)錄組數(shù)據(jù)集應(yīng)采用數(shù)據(jù)特定的DEGs檢測策略,以優(yōu)化DEGs分析,基于scCODE工作流程,可以使用涉及CDO(DE基因順序)和AUCC(一致性曲線下面積)的指標找到最優(yōu)化的DEGs方法(Zou等,2022)。此外,研究方法在不同的研究背景下會有特定的研究取向,例如在給藥后的劑量反應(yīng)研究中,DEGs分析、LRT線性檢驗和貝葉斯多組檢驗均比其他方法有更好的結(jié)果(Nault等,2022)。
(9)可視化
單細胞轉(zhuǎn)錄組數(shù)據(jù)分析可視化是指將上述分析結(jié)果以圖形的形式直觀地呈現(xiàn),ggplot2是R中最廣泛的可視化工具,在R中被廣泛使用,可以大大增強繪圖能力(Wickham,2009)。ARL 是另一個專門顯示標記基因關(guān)聯(lián)圖并可顯示其在每個簇中的特征的 R 包(Gralinska等,2022)。此外,還有其他專門用于標記基因可視化的包,如 Complex Heatmap,本文不再詳細介紹。HVG 可視化通常以火山圖的形式呈現(xiàn),默認情況下,圖的左側(cè)和右側(cè)部分分別是代表性不足的基因和代表性過高的基因,而中間是恒定基因。Enhanced Volcano 是一個專門用于繪制火山圖的 R 包,默認情況下也可以使用 ggplot2 來獲得更好的結(jié)果。簇可視化通常以 PCA 圖、t-SNE 圖和 UMAP 圖呈現(xiàn),但值得注意的是,可視化的結(jié)果非常具有欺騙性,因為一些小的細胞亞群可能代表 UMAP 圖中顯示的大量細胞。為了解決這些問題,提出了den-SNE/densMAP、j-SNE/j-UMAP等改進方法(Macqueen,1967 ;Marco等,2014)。此外,F(xiàn)astProject可以輸出注釋簇的2D顯示,PieParty可以在簇2D圖中為每個基因繪制顏色圖(DeTomaso and Yosef,2016 ;Kurtenbach等,2021)。
同時,單細胞轉(zhuǎn)錄組數(shù)據(jù)的交互式可視化是目前的熱門領(lǐng)域,諸如Single Cell Explorer等軟件可以一定程度上實現(xiàn)交互式可視化,但仍需增加交互自由度,以提供更全面的單細胞轉(zhuǎn)錄組數(shù)據(jù)3D呈現(xiàn)(Cakir等,2020 ;Feng等,2019)。為此,CellexalVR利用VR理論進行交互可視化;CellView 是一個基于 Web 的工具,包括用于不同用途的探索選項卡、共表達選項卡、子簇分析選項卡模塊;Cellxgene VIP 是一個基于 cellxgene 框架的插件,并擴展到基于多個模塊組合的 ST 數(shù)據(jù)的交互式可視化(Bolisetty等,2017 ; Legetth等,2021 ; Li等,2022f)。
(10)單細胞模擬
隨著單細胞轉(zhuǎn)錄組方法的不斷擴展,基準測試成為了重要挑戰(zhàn),關(guān)鍵問題是需要穩(wěn)定可靠的數(shù)據(jù),因為單細胞轉(zhuǎn)錄組的直接測序可能缺乏基本事實。真實的單細胞模擬數(shù)據(jù)為基準測試提供了已知的事實,允許使用真實數(shù)據(jù)進行訓(xùn)練,同時匹配實際數(shù)據(jù)的特征。此外,模擬數(shù)據(jù)比真實數(shù)據(jù)提供了更大的靈活性,使分析師能夠根據(jù)特定的測試方法調(diào)整諸如 dropout rate 等參數(shù)。
Splatter 是一個兩步模擬框架,首先模擬來自真實數(shù)據(jù)的估計參數(shù),然后合并來自用戶的額外參數(shù)(Zappia 等,2017)。其六個預(yù)先設(shè)計的管道模塊接口確保了數(shù)據(jù)生成的可重復(fù)性。最近的更新側(cè)重于專業(yè)化和泛化。在專業(yè)化領(lǐng)域,splaPop 生成具有遺傳效應(yīng)(數(shù)量性狀基因座)的人口規(guī)模數(shù)據(jù),而 dyngen 模擬動態(tài)細胞過程,如發(fā)育軌跡(Azodi 等,2021 ;Cannoodt 等,2021)。在泛化領(lǐng)域,Li的團隊介紹了理想模擬的六個概念,包括真實性、基因的保存、基因相關(guān)性的捕獲、穩(wěn)健性、參數(shù)可調(diào)性和效率(Song 等,2023b ;Sun 等,2021)。隨后,scDesign2 提出來滿足所有 6 個屬性(Sun等,2021),接著是 scDesign3,解決單細胞組學(xué)統(tǒng)計模擬的空白(Song等,2023b)。模擬準確性和透明度的提高增強了不同單細胞數(shù)據(jù)處理方法之間的基準測試,指導(dǎo)選擇最合適的方法以滿足特定數(shù)據(jù)和許可需求。
下游拓展分析
(1) 擬時序分析
為了更真實地恢復(fù)生物體中的真實過程,需要使用擬時序分析整合多個轉(zhuǎn)錄組數(shù)據(jù),通過推斷不同時間點的細胞信息(包括狀態(tài)、分布、數(shù)量和基因表達)來重建細胞發(fā)育軌跡(BarJoseph等,2012 ; Bendall等,2014 ; Ding等,2022)。這種對轉(zhuǎn)錄組特征的動態(tài)分析稱為擬時序分析(圖 4 E)。根據(jù)是否依賴于基因表達,擬時序分析方法可以分為基于基因(外顯子)表達的方法和基于RNA-velocity的方法。
基于基因表達水平的擬時序分析最早被提出,它通常利用降維等聚類方法在低維空間構(gòu)建多分支圖模型來模擬細胞的發(fā)育軌跡:基于最小生成樹(MST)的方法monocle( Trapnell等,2014 )、monocle 2( Qiu等,2017 )、TSCAN( Ji and Ji, 2016 );基于PAGA 的方法PAGA( Wolf等,2019 )、monocle 3( Cao等,2019 );其他圖架構(gòu)方法Wishbone( Setty等,2016 )、p-Creode( Herring等,2018 )等都用于此目的。MST是連接二維平面上所有點的模型,具有最低的總連接權(quán)重,最早用于解決旅行商問題, Qiu et al. (2011)在2011年應(yīng)用Boruvka算法構(gòu)建的MST模型來分析細胞層級。Monocle將細胞映射到高維歐氏空間,并使用ICA降維,Monocle 2更新單片機并使用反向圖嵌入(RGE)策略構(gòu)建細胞路徑,隨后細胞分布到使用質(zhì)心構(gòu)建的生成樹上。PAGA(基于分區(qū)的圖抽象)通過鄰域圖權(quán)重(默認為KNN圖)的統(tǒng)計連通性度量保留數(shù)據(jù)集的全局拓撲結(jié)構(gòu),基于擴展擴散擬時序(DPT)方法生成多種分辨率的PAGA圖進行擬時序分析。Monocle 3結(jié)合了monocle 2和PAGA的優(yōu)點,在UMAP空間上形成多個PAGA圖,然后使用SimplePPT算法學(xué)習(xí)主圖,再通過其他PAGA圖的約束,最終得出的細胞發(fā)育軌跡可以適應(yīng)具有成分復(fù)雜性的大數(shù)據(jù)集?傮w而言,PAGA和monocle 3綜合考慮了計算速度、準確性和魯棒性,是目前單細胞轉(zhuǎn)錄組擬時序分析的最佳方法。除了圖方法外,其他基于基因表達的方法還包括CSHMM,利用HMM模型計算每個細胞到根細胞的距離,然后迭代完成細胞軌跡分配;SCUBA,采用分叉分析模型;SLICE,由于高度分化的細胞使scEntropy最小化,因此提出了一個scEntropy有向模型(Guo等,2017 ;Lin and Bar-Joseph,2019 ;Marco等,2014)。
基于RNA速率的方法依賴于RNA速率信息,該方法由Peter V. Kharchenko小組(La Manno等,2018)于2018年首次提出,他們認為未剪接/剪接mRNA的比例可用于推斷轉(zhuǎn)錄動力學(xué),因為未剪接mRNA比例較高的細胞更年輕(作為較晚的細胞分化狀態(tài))。同時,他們還提出了專門的分析軟件velocyto(可通過R包velocyto.R獲得)作為穩(wěn)態(tài)模型來量化RNA速率以進行發(fā)育軌跡分析。scVelo是另一種專門為RNA速率設(shè)計的分析工具,它使用基于似然的動力學(xué)模型來解決具有穩(wěn)態(tài)mRNA水平的細胞軌跡推斷,并且情況違反了常見剪接速率的中心假設(shè)(Bergen等,2020)。但速度投影方法仍有方法論改進的空間:恒定降解和核輸出假設(shè)仍需證明。這也為后續(xù)基于RNA速率的方法提供了方向(Bergen等,2021)。深度學(xué)習(xí)相關(guān)方法被廣泛應(yīng)用于RNA速率的建模預(yù)測,以進一步增強對大型復(fù)雜數(shù)據(jù)集的處理能力,如貝葉斯分層模型BRIE2(Huang and Sanguinetti,2021);基于速度自編碼模型的VeloAE(Qiao and Huang,2021);變分自編碼模型DeepCycle(Riba等,2022)。
(2)細胞間相互作用
細胞間相互作用(CCI)是多細胞生物維持正常生理功能的重要特征,決定了細胞的命運,探討疾病發(fā)生的機制,探索遺傳變異過程和其他調(diào)控過程(Shao等,2020b ;Singer, 1992)。細胞相互作用網(wǎng)絡(luò)直觀地體現(xiàn)了細胞間的相互作用關(guān)系(圖4 F)。
基于鄰域結(jié)構(gòu)的直接CCI是指利用細胞間的物理距離,對有可能直接接觸的CCI進行提取和分析。ProximID方法對具有預(yù)定相互作用距離(歐幾里德距離)的合格細胞完成物理細胞網(wǎng)絡(luò)構(gòu)建(Boisset等,2018)。Neighbor-seq使用隨機森林分類器識別細胞類型,通過igraph方法利用富集分數(shù)計算得分構(gòu)建CCI網(wǎng)絡(luò)(Csardi and Nepusz, 2006 ; Ghaddar and De, 2022)。由于這種分析方法的局限性很大,目前并不單獨使用。這種KNN連通圖通常作為深度學(xué)習(xí)中CCI的輸入之一,其物理距離也成為單細胞CCI研究中的一個重要假設(shè)(兩個物理上直接接觸的相鄰細胞比兩個隨機細胞更有可能發(fā)生某種形式的相互作用),用于全局CCI分析。
間接接觸的CCI關(guān)系完整過程應(yīng)包括配體、受體、信號蛋白、轉(zhuǎn)錄因子(TF)和靶基因。常見的間接CCI方法主要利用先驗的配體-受體對數(shù)據(jù)庫(如CellTalkDB數(shù)據(jù)庫,該數(shù)據(jù)庫整合了經(jīng)過驗證的3,398個人類LR對和2,033個小鼠LR對的信息(Shao等,2021a)),制作細胞-細胞連接矩陣,其中每個值代表LR對的共表達水平。然后構(gòu)建細胞連接圖進行CCI分析,主要的分析方法包包括單細胞CCI推斷方法SoptSC(Wang等,2019d)、Scriabi(Wilk等,2024);基于LR對的集群CCI方法NATMI(Hou等人,2020)、SingleCellSignalR(Cabello-Aguilar等人,2020)、scCrossTalk(Shao等人,2024)、CellPhoneDB(Efremova等人,2020)、Nichenet(Browaeys等人,2020)、CellChat(Jin等人) al., 2021)、CellCall(Zhang 等人,2021d)、ICELLNET(Noël 等人,2021)、 scMLnet(Cheng 等人,2021)、CytoTalk(Hu 等人,2021b)、Tensor-cell2cell(Armingol 等人,2022)、LRLoop(Xin 等人) 2022);其他基于信息的聚類CCI方法有InterCellDB(Jin等,2022b)、EBOCOST(Zheng等,2022b);贚R對的方法使用文獻數(shù)據(jù)庫整理或之前自我驗證的LR對構(gòu)建數(shù)據(jù)庫:NATMI默認使用connectomeDB2020數(shù)據(jù)庫(2,293個LR對中有1,751個來自作者在2015年驗證的草圖)來構(gòu)建加權(quán)有向多邊網(wǎng)絡(luò)(Ramilowski等,2015)。CellPhoneDB提出了一種特定的SQLite數(shù)據(jù)庫來保留LR對的特定亞基架構(gòu),使用平均表達閾值來確定相互作用的細胞,并使用幾何草圖子樣本框架來增強對大數(shù)據(jù)集的功效并排除噪音。同樣,ICELLNET利用異源復(fù)合物中配體與受體的多亞基結(jié)構(gòu)。NicheNet 在LR 先驗?zāi)P蜕喜捎没谀P偷膮?shù)優(yōu)化,通過添加細胞內(nèi)信號信息(靶基因)來優(yōu)化 CCI 強度,克服了上述方法直接用受體基因表達水平表示細胞內(nèi)受體蛋白數(shù)量以及結(jié)合下游信號通路與 GRN 改進 CCI 分析的問題。因此在單細胞轉(zhuǎn)錄組 CCI 分析中,通常將 CellPhoneDB 與 NicheNet 結(jié)合使用以達到最佳分析效果(Dimitrov等,2022)。
最新的單細胞 CCI 方法采用了 DL 的策略,在一定程度上提高了應(yīng)用性能。DeepLinc 使用 VGAE 模型重建全范圍細胞間 CCI 網(wǎng)絡(luò)(Li and Yang, 2022)。TraSig 是一個連續(xù)狀態(tài)隱馬爾可夫模型,使用擬時序排序計算動態(tài)交互分數(shù)進行 CCI 推斷(Li等,2022a)。此外,由于現(xiàn)在空間分辨的轉(zhuǎn)錄組學(xué) (ST)為基因信息提供了至關(guān)重要的空間信息,推斷空間細胞間通訊仍然是一個巨大的挑戰(zhàn)。SpaOTsc 可以重建 scRNA-seq 數(shù)據(jù)的空間屬性,并依靠結(jié)構(gòu)化的最佳傳輸方法構(gòu)建 CCI 網(wǎng)絡(luò) ( Cang and Nie, 2020 )。Giotto 使用細胞間鄰近圖來推斷信號通路 ( Dries等,2021b )。然而,SpaOTsc 和 Giotto 都很難解析基于點的 ST 數(shù)據(jù)。最近,范實驗室( Shao等,2022a )提出了 SpaTalk,它使用知識圖和圖網(wǎng)絡(luò)為單細胞和基于點的 ST 數(shù)據(jù)構(gòu)建空間相鄰細胞之間的配體-受體-靶標網(wǎng)絡(luò)。
(3)通路富集分析
基因通路富集分析是指以感興趣的基因作為前景基因與已知的特定數(shù)據(jù)庫關(guān)聯(lián),建立基因-生物過程鏈路,用于解釋差異表達基因的生理功能、上下游通路等(Creixell等,2015);虮倔w論(GO)和京都基因與基因組百科全書(KEGG)是首批提出用作富集分析的數(shù)據(jù)庫(Ashburner等,2000 ;Ogata等,1999)。基因集富集分析(GSEA)是另一種廣泛使用的方法,通過計算富集得分來確定基因集S是否會在ranker DEGs列表L的兩側(cè)出現(xiàn),以及顯著性檢驗值(Subramanian等,2005)。Ingenuity 通路 Analysis (IPA)軟件中所有通路都經(jīng)過實驗驗證,與其他分析相比,它可以預(yù)測激活時整個通路的變化趨勢。其他常見的數(shù)據(jù)庫通路富集方法還包括過度表達分析(ORA)(Khatri等,2012)、基于網(wǎng)絡(luò)拓撲的分析(NTA)(Wang等,2013)、Reactome基因集(Fabregat等,2018)、CORUM復(fù)合體(Ruepp等,2010)。參考數(shù)據(jù)集的來源通路和富集手段的差異會直接影響通路富集結(jié)果。為了方便分析,已經(jīng)提出了集成不同數(shù)據(jù)庫的基于Web的在線分析工具(Wang等,2017b ;Zhang等,2005)。Metascape涉及轉(zhuǎn)錄組數(shù)據(jù)庫(KEGG、GO、CORUM、TRRUST等)和蛋白質(zhì)-蛋白質(zhì)相互作用數(shù)據(jù)庫(STRING、BioGrid、OmniPath等),共有25個數(shù)據(jù)庫可用于人類和小鼠等8個物種的遺傳和蛋白質(zhì)組富集分析(Zhou等,2019b)。
綜上所述,雖然我們列舉了單細胞轉(zhuǎn)錄組下游分析最常見的部分(表 S3和S4),但仍然有很多方法沒有涉及到,包括基因調(diào)控網(wǎng)絡(luò)分析、免疫分析、細胞周期分配、基因變異探索、可變剪接分析等?傮w而言,單細胞轉(zhuǎn)錄組分析方法多種多樣且仍在不斷發(fā)展,所有分析方法的出發(fā)點和最終目的都是利用從單細胞轉(zhuǎn)錄組測序數(shù)據(jù)中精準挖掘出的生物學(xué)信息進行生物學(xué)解釋。
參考文獻:
Sun F, Li H, Sun D, et al. Single-cell omics: experimental workflow, data analyses and applications. Sci China Life Sci. 2025;68(1):5-102. doi:10.1007/s11427-023-2561-0