時空組學(xué)研究進展(五):單細(xì)胞表觀基因組測序技術(shù)、分析方法及應(yīng)用
瀏覽次數(shù):32 發(fā)布日期:2025-1-22
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
期刊:Science China-Life Sciences
影響因子:8.0
細(xì)胞的表觀基因組調(diào)節(jié)其細(xì)胞類型特異性基因表達。了解表觀遺傳變異對于揭示決定發(fā)育、疾病形成和進展過程中組織和細(xì)胞異質(zhì)性的轉(zhuǎn)錄機制至關(guān)重要。表觀基因組涉及多種精確調(diào)控的表觀遺傳特征,例如核酸甲基化、染色質(zhì)狀態(tài)、核小體位置、組蛋白修飾 (HM)、轉(zhuǎn)錄因子(TF)結(jié)合和高級染色質(zhì)結(jié)構(gòu)。這些特征相互作用,影響鄰近基因組的活動而不改變DNA序列,進而控制細(xì)胞活動并導(dǎo)致可遺傳的表型。單細(xì)胞表觀基因組測序技術(shù)以及相應(yīng)的計算分析方法已經(jīng)被開發(fā)并廣泛應(yīng)用于許多研究領(lǐng)域,特別是在癌癥免疫學(xué)、胚胎發(fā)育和神經(jīng)生物學(xué)中。本章節(jié)概述了用于單細(xì)胞表觀基因組數(shù)據(jù)分析的測序技術(shù)和計算工具的最新進展及應(yīng)用。
單細(xì)胞表觀基因組測序技術(shù)
一、甲基化
在脊椎動物中,DNA甲基化主要發(fā)生在胞嘧啶環(huán)的第五個碳原子上形成5mC,且多在CpG二核苷酸背景下,這些二核苷酸聚集在與基因啟動子高度相關(guān)的CpG島區(qū)域,能順式調(diào)控基因表達。
(1)亞硫酸鹽處理
在DNA甲基化測序方面,亞硫酸鹽測序是分析全基因組DNA甲基化的金標(biāo)準(zhǔn)。經(jīng)亞硫酸鹽處理,未甲基化的胞嘧啶脫氨基為尿嘧啶,甲基化的胞嘧啶保持不變;在后續(xù)PCR擴增和測序中,未甲基化的胞嘧啶被讀取為胸腺嘧啶,甲基化的胞嘧啶仍被讀取為胞嘧啶。該方法處理效率約95%,可達到單堿基對分辨率。WGBS(Whole-genome bisulfite-sequencing)(Cokus等,2008)能覆蓋整個基因組幾乎所有CpG位點,但因需較深測序深度,成本較高。RRBS(reduced representation bisulfite sequencing)(Gu等,2010)則利用限制性內(nèi)切酶(MspI)消化和大小分級的方法富集富含CG位點的區(qū)域,降低序列庫的復(fù)雜性和大小,是一種經(jīng)濟高效的方法。m6A(N6-methyladenosine)是一種豐富的RNA甲基化,對RNA調(diào)控和細(xì)胞功能有重要影響,還開發(fā)了用于單細(xì)胞水平的m6A RNA甲基化分析技術(shù)。
為了克服單細(xì)胞甲基化檢測中DNA的大量丟失,開發(fā)了多種技術(shù)。scRRBS(single-cell RRBS)(Guo 等,2013)整合實驗流程,省去亞硫酸鹽轉(zhuǎn)化前純化步驟,經(jīng)兩輪PCR擴增和深度測序?qū)崿F(xiàn)檢測。為消除PCR擴增偏差,Q-RRBS(quantitative RRBS)(Wang 等,2015)引入UMI。為避免亞硫酸鹽引起的完整測序模板丟失并避免擴增偏向性,scBS-seq(Clark 等,2017)和scPBAT(Kobayashi 等,2016)采用PBAT(post-bisulfite adaptor tagging),scWGBS(Farlik 等,2015)實現(xiàn)PBAT且無需預(yù)擴增,適合低覆蓋率高通量分析。鑒于全基因組CpG覆蓋成本高,SLBS(single-cell locus-specific bisulfite sequencing)(Gravina 等,2015)應(yīng)運而生,并可直接檢測表觀突變。伴隨單細(xì)胞條形碼、分離技術(shù)發(fā)展,MID-RRBS(microfluidic diffusion-based reduced representation bisulfite sequencing)(Ma 等,2018)、sci-MET(single-cell combinatorial indexing for methylation analysis)(Mulqueen 等,2018)和snmCseq(single-nucleus methylcytosine sequencing)(Luo 等,2017)等技術(shù)相繼出現(xiàn)。為覆蓋更多功能相關(guān)CpG甲基化區(qū)域,包括啟動子、CpG島、CTCF絕緣子和增強子scXRBS(single-cell extended representation bisulfite sequencing )(Shareef等,2021)被開發(fā),其早期引入條形碼步驟,實現(xiàn)高靈敏度和樣本多重分析。
(2)甲基化酶輔助
亞硫酸鹽處理存在局限性,它會使未甲基化的胞嘧啶、5fCs和5caCs 都轉(zhuǎn)化為尿嘧啶,難以區(qū)分,限制了DNA去甲基化研究。scMAB-seq(Single-cell methylase-assisted bisulfite sequencing)(Wu 等, 2017b)通過用CpG甲基化酶M.SssI預(yù)處理DNA,僅將胞嘧啶轉(zhuǎn)化為5mCs,保護Cs但不保護5fCs 和 5caCs,從而能直接將5fCs 和 5caCs 檢測為尿嘧啶解決了這一問題。MSRE(Besides bisulfite treatment, methylation-sensitive restriction enzymes)也用于DNA甲基化檢測。RSMA(Restriction enzyme-based singlecell methylation assay)(Kantlehner等,2011)和SCRAM(single-cell restriction analysis of methylation)(Lorthongpanich 等,2013)雖易于實現(xiàn),但無法區(qū)分雜合和半合甲基化等位基因。單細(xì)胞基因型、表達和甲基化分析(scGEM)(Cheow 等, 2016)結(jié)合了SCRAM和單細(xì)胞基因分型,可更可靠評估甲基化狀態(tài)。scCGI-seq(Genome-wide CGI methylation sequencing for single cells)(Han 等, 2017)將MSRE的使用拓展到基因組規(guī)模的CGI。scAba-seq(single-cell hydroxymethylation sequencing)采用限制性內(nèi)切酶AbaSI檢測5hmC標(biāo)記。RGM(reporter of genomic methylation)(Stelzer 等, 2015)則用熒光報告系統(tǒng)可視化和追蹤DNA甲基化動態(tài)變化。
(3)酶轉(zhuǎn)化
除了常規(guī)的亞硫酸鹽處理等方法,基于酶轉(zhuǎn)化的處理方法作為一種破壞性更小的替代方案,已應(yīng)用于單細(xì)胞分析。EM-seq利用兩組酶促反應(yīng)識別5mC和5hmC,先通過TET2和T4-BGT將5mC和5hmC轉(zhuǎn)化為對APOBEC3A脫氨有抵抗力的產(chǎn)物,再利用APOBEC3A對未修飾胞嘧啶脫氨轉(zhuǎn)化為尿嘧啶(Vaisvila 等,2021)。sciEM將單細(xì)胞組合索引與酶促轉(zhuǎn)化結(jié)合,成為首個非亞硫酸氫鹽單細(xì)胞DNA甲基化測序方法(Chatterton 等,2023)。類似的酶促轉(zhuǎn)化策略也被用于RNA甲基化檢測。整體RNA m6A分析揭示了其在基因表達控制、生理過程和疾病狀態(tài)中的作用。DART-seq(Deamination adjacent to RNA modification targets)利用融合蛋白(APOBEC1-YTH)進行C到U編輯,無需抗體,可從極低量RNA中定位m6A;诖耍芯繄F隊建立了單scDART-seq(single-cell DART-seq)(Tegowski等,2022),用于識別單細(xì)胞中的RNA m6A位點。
二、染色質(zhì)的可及性和核小體定位
染色質(zhì)可及性是真核生物基因組的關(guān)鍵特征,開放染色質(zhì)是DNA與TF或非編碼RNA等因子相互作用的必要條件,這些因子對重塑染色質(zhì)或啟動轉(zhuǎn)錄至關(guān)重要。核小體由8個組蛋白單位組成,被裸露DNA包裹形成染色質(zhì),其移動或定位會影響染色質(zhì)可及性。在總體水平上,ATAC-seq(transposase-accessible chromatin)(Buenrostro 等,2013)和DNase-seq(Deoxyribonuclease I digestion)(Song 和 Crawford,2010)被廣泛用于揭示染色質(zhì)可及性,它是表觀遺傳學(xué)景觀的關(guān)鍵組成部分,其動態(tài)變化驅(qū)動細(xì)胞分化和精確基因調(diào)控。單細(xì)胞水平分析染色質(zhì)可及性有助于揭示細(xì)胞異質(zhì)性和基因表達本質(zhì)。
ATAC-seq和DNase-seq已應(yīng)用于單細(xì)胞。scATAC-seq(Buenrostro 等,2015)結(jié)合微流體、Tn5標(biāo)記和測序條形碼,scDNase-seq通過FACS分選單細(xì)胞并用DNase I消化,可檢測更多DHS(DNase I hypersensitive sites)。但兩者細(xì)胞通量受限于微流控設(shè)備而較低。為提高細(xì)胞通量,μATAC-seq(scATAC-seq in small volumes )(Mezger等,2018年)整合熒光成像和可尋址試劑沉積技術(shù),通過平行納米孔板陣列提高細(xì)胞通量,每芯片可處理約1800個細(xì)胞且富集度更高。多重索引條形碼方法也被引入,如sci-ATAC-seq(single-cell profiling of chromatin accessibility by combinatorial cellular indexing)通過組合細(xì)胞索引(Cusanovich等,2015)和iscDNaseseq(droplet-based single-cell combinatorial indexing for ATAC-seq)(Gao等,2021b)應(yīng)用,顯著提高細(xì)胞通量至約15,000個細(xì)胞。dsciATAC-seq(droplet-based single-cell combinatorial indexing for ATAC-seq)(Lareau等,2019)整合基于微滴的微流控方法和組合索引,使約500,000個單細(xì)胞染色質(zhì)可及性分析成為可能。snATAC-seq 僅用細(xì)胞核測序,減輕線粒體污染,產(chǎn)生更高質(zhì)量細(xì)胞和更低噪音。
核小體組織和定位參與染色質(zhì)壓縮和可及性形成。scMNase-seq(Single-cell micrococcal nuclease sequencing )(Lai等,2018年)采用FACS排序、裂解和MNase消化構(gòu)建文庫,分析全基因組核小體位置,展示了DHSs(DNase I hypersensitive sites)處核小體定位和核小體間距的細(xì)胞異質(zhì)性。
三、組蛋白修飾和轉(zhuǎn)錄因子結(jié)合
不同的組蛋白修飾(HMs)代表著不同的染色質(zhì)狀態(tài)和活性,會影響轉(zhuǎn)錄因子(TF)的結(jié)合和轉(zhuǎn)錄;诳贵w的ChIP-seq(chromatin immunoprecipitation assays with sequencing)(Kim和Ren,2006)被廣泛用于繪制全基因組的組蛋白修飾和轉(zhuǎn)錄因子圖譜。Drop-ChIP(Droplet-based chromatin immunoprecipitation followed by sequencing)(Rotem等,2015)和scChIP-seq(later single-cell ChIP-seq )(Grosselin等,2019)通過將細(xì)胞分離成含裂解緩沖液和MNase的微滴,并在免疫沉淀前進行條形碼標(biāo)記,提高了沉淀效率并得到低背景結(jié)果。同時itChIP-seq(indexing and tagmentation-based ChIP-seq)(Ai等,2019)采用Tn5轉(zhuǎn)座酶打標(biāo)簽技術(shù),添加條形碼和PCR擴增引物,實現(xiàn)每個細(xì)胞約9000次讀取,但因抗體親和力和效率低,主要用于分析組蛋白修飾而非轉(zhuǎn)錄因子。
CUT&RUN(Cleavage under targets & release using nuclease)(Skene和Henikoff,2017)是一種方便高效的低輸入方法,利用原生染色質(zhì)上的免疫切割。它衍生出多種技術(shù),如scChIL-seq(single-cell chromatin integration labeling)(Harada等,2019年)、scChIC-seq(single-cell chromatin immune-cleavage sequencing technique)(Ku等,2019)、uliCUT&RUN(ultralow-input cleavage under targets and release using nuclease)、scCUT&Tag(single-cell cleavage under targets and tagmentation)。scChIC-seq、uliCUT&RUN和iscChIC-seq使用pA-MNase作為切割酶,其他方法使用pA-Tn5;赥n5的方法還可分析RNA聚合酶II等豐富轉(zhuǎn)錄因子。
scDamID(Single-cell DNA adenine methyltransferase identification)(Kind等,2015)用于檢測細(xì)胞間期核內(nèi)染色體空間組織,通過DNA腺嘌呤甲基轉(zhuǎn)移酶(Dam)甲基化相鄰腺嘌呤,經(jīng)PCR擴增和NGS鑒定。結(jié)合scDam&T-seq(single-cell DamID with messenger RNA sequencin)(Rooijers等,2019)成功分析RING1B結(jié)合位點,為識別動態(tài)過程和異質(zhì)組織中調(diào)節(jié)細(xì)胞類型特異性轉(zhuǎn)錄程序的蛋白介導(dǎo)機制提供有力工具。
四、3D基因組結(jié)構(gòu)
染色質(zhì)在細(xì)胞核內(nèi)具有空間和結(jié)構(gòu)上的組織與區(qū)室化,影響順式調(diào)控元件(CRE)和反式調(diào)控因子的作用。3C(Chromosome conformation capture)技術(shù)(Hagège等,2007)用于檢測彼此接近的基因組區(qū)域。隨著基于構(gòu)象的技術(shù)不斷發(fā)展,基于高通量測序的Hi-C技術(shù)實現(xiàn)了全基因組染色質(zhì)相互作用檢測。與其它單細(xì)胞測序方法類似,scHi-C(single-cell Hi-C)(Nagano等,2013)需先分離或條形碼標(biāo)記單個細(xì)胞,其縮小了傳統(tǒng)Hi-C規(guī)模,將細(xì)胞分至多孔板進行標(biāo)記。snHi-C(Singlenucleus Hi-C)(Flyamer等,2017年)則擴增整個基因組,省去生物素填充步驟。Dip-C(Diploid chromatin conformation capture)(Tan等,2018)采用基于標(biāo)記的策略簡化實驗流程。
sciHi-C( Single-cell combinatorial indexed Hi-C)(Ramani等,2017)引入組合索引,避免細(xì)胞分離。為彌補近端連接限制,scSPRITE(single-cell split-pool recognition of interactions by tag extension)(Arrastia等,2022)可檢測細(xì)胞內(nèi)染色體間和染色體內(nèi)相互作用,以及更多DNA接觸點。未來需克服諸多挑戰(zhàn)。首先,由于單細(xì)胞中DNA捕獲率低且含量低于RNA,單細(xì)胞表觀基因組數(shù)據(jù)目前高度稀疏。其次,現(xiàn)有方法仍難以精確檢測TF的結(jié)合位點,尤其是那些在全基因組分布不均的TF。第三,從DNA到細(xì)胞狀態(tài)和表型的基因調(diào)控機制闡釋,仍需單細(xì)胞多組學(xué)方法的進一步發(fā)展。
單細(xì)胞表觀基因組數(shù)據(jù)的計算方法
為bulk組織設(shè)計的讀適配器修剪器和映射器也可用于單細(xì)胞讀段,如Fastp(Chen等,2018)和Trimmomatic(Bolger等,2014)用于去除適配器序列以便映射。對于DNA甲基化數(shù)據(jù),Bismark(Krueger和Andrews,2011)、BSMAP(Xi和Li,2009)和Bsseeker(Chen等,2010)被用于映射讀段到基因組,但亞硫酸鹽轉(zhuǎn)化會導(dǎo)致胞嘧啶耗盡,產(chǎn)生多映射讀段,尤其在單細(xì)胞數(shù)據(jù)中更嚴(yán)重,scBS-map(Wu等,201)通過局部比對方法重新映射嵌合讀段提高映射效率。對于scATAC-seq等非轉(zhuǎn)化DNA序列,BWA(Li和Durbin,2009)、bowtie2(Langmead等,2019)和minimap2(Li,2018)被廣泛用于映射,chromap引入偽比對技術(shù)顯著提高映射效率。
在質(zhì)量控制方面,F(xiàn)astQC用于閱讀水平的質(zhì)量控制,通過限制映射讀段和線粒體讀段數(shù)量過濾低質(zhì)量細(xì)胞。單細(xì)胞DNA甲基化計數(shù)矩陣從胞嘧啶摘要表或自定義特征構(gòu)建,MethylStar(Shahryary等,2020)和EpiScanpy(Danese等,2021)內(nèi)置功能量化甲基化讀段,BPRmeth引入廣義線性模型(GLM)回歸量化甲基化輪廓。scATAC-seq計數(shù)矩陣以BAM或片段文件為輸入,定義特征有兩種方法:一是合并通過QC的細(xì)胞用MACS2(Zhang等,2008)或chromHMM(Ernst和Kellis,2012)調(diào)用峰值,減少特征數(shù)量加快下游分析但可能丟失稀有細(xì)胞群體信息;二是使用分段基因組統(tǒng)計reads,如SnapATAC(Fang等,2021)捕獲稀有細(xì)胞群體但產(chǎn)生大量特征需下游過濾。scATAC-seq的計數(shù)矩陣通常會進行二值化處理。
一、填補
單細(xì)胞表觀基因組數(shù)據(jù)的稀疏性影響了下游分析的敏感度與準(zhǔn)確性,技術(shù)偏差導(dǎo)致數(shù)據(jù)存在缺失值,為此開發(fā)了多種預(yù)測填補方法。
對于DNA甲基化,DeepCpG利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)DNA序列特征與相鄰CpG位點的甲基化狀態(tài)關(guān)聯(lián),MOFA和MOFA+通過PCA推斷低維數(shù)據(jù)表示來插補缺失值,MELISSA、scMET和Epiclomal使用貝葉斯混合模型利用相似細(xì)胞中的甲基化模式插補缺失值。
在scATAC-seq數(shù)據(jù)方面,ChromA采用貝葉斯統(tǒng)計方法結(jié)合HSMM(hidden semi-Markov models)克服稀疏性問題,ScOpen整合NMF(nonnegative matrix factorization)的無監(jiān)督學(xué)習(xí)模型,AtacWorks使用ResNet架構(gòu)從高質(zhì)量批量ATAC-seq數(shù)據(jù)中訓(xùn)練模型預(yù)測單細(xì)胞信號軌跡,SCATE整合共激活峰值等信息預(yù)測峰值信號,這些方法還增強了細(xì)胞聚類性能。
對于scHi-C數(shù)據(jù),scHiCluster將染色體相互作用視為網(wǎng)絡(luò)用隨機游走算法傳播平滑相互作用,HiCImpute考慮二維數(shù)據(jù)結(jié)構(gòu)的空間依賴性借鑒信息,scHiCEmbed借鑒scHiCluster結(jié)果用圖自編碼器學(xué)習(xí)節(jié)點嵌入實現(xiàn)插補和TAD(topologically associating domains )檢測,Higashi將數(shù)據(jù)轉(zhuǎn)換為超圖預(yù)測缺失超邊插補接觸圖。在重建3D基因組結(jié)構(gòu)方面,Si-C應(yīng)用貝葉斯理論框架重建基因組3D結(jié)構(gòu),SCL將3D結(jié)構(gòu)視為珠子在弦上在3D立方格內(nèi)重建結(jié)構(gòu)用2D高斯插補估計傾向,SIMBA3D先利用批量Hi-C數(shù)據(jù)恢復(fù)遺漏相互作用再用廣義貝葉斯框架推斷3D染色體結(jié)構(gòu)。
二、分群
將相似細(xì)胞聚類可賦予細(xì)胞身份,有助于發(fā)現(xiàn)稀有細(xì)胞群體、理解基因調(diào)控模式并減輕噪聲。單細(xì)胞轉(zhuǎn)錄組中使用的聚類算法,如tSNE(Laurens和Hinton,2008)、UMAP(McInnes等,2018)、Louvain聚類(Fortunato,2009)、Leiden聚類(Guo等,2019)和擴散偽時間(Haghverdi等,2016),也被應(yīng)用于單細(xì)胞表觀基因組。ALLCools(liu等,2021)、EpiScanpy(Danese等,2021)、Signac(Stuart等,2021)、ArchR(Granja等,2021)、SnapATAC(Fang等,2021)等分析流程集成了這些算法,便于細(xì)胞聚類。
單細(xì)胞表觀基因組數(shù)據(jù)比轉(zhuǎn)錄組數(shù)據(jù)更稀疏、特征更多。為克服稀疏性,可利用插補方法填補缺失特征并保持細(xì)胞異質(zhì)性以提高聚類性能。scABC(Zamanighomi等,2018)通過加權(quán)Kmedoids聚類算法減輕低測序深度細(xì)胞的噪聲,給予測序深度低的細(xì)胞較低權(quán)重。
在聚類算法中,特征或維度降低是關(guān)鍵區(qū)別,PCA是最常用方法。Seurat v3(Stuart等,2019)整合LSI(latent semantic indexing)降低scATAC-seq特征計數(shù)矩陣維度。CisTopic(Bravo González-Blas等,2019)使用LDA結(jié)合塌陷的Gibbs采樣器識別順式調(diào)控主題,還預(yù)測轉(zhuǎn)錄因子結(jié)合位點和染色質(zhì)狀態(tài)。PeakVI(Ashuach等,2022)采用深度生成模型學(xué)習(xí)概率低維表示。ScVAEBGM(Duan等,2022)將VAE(Variational Autoencoder)與BGM(Bayesian Gaussianmixture model)結(jié)合處理scATAC-seq數(shù)據(jù),利用BGM估計聚類數(shù)量。
除單細(xì)胞表觀基因組數(shù)據(jù)信息外,借鑒序列特征、批量數(shù)據(jù)集和單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)集信息也助于聚類。多組學(xué)實驗方法如MAPLE(Uzun等,2021)、scAI(Jin等,2020)、LIGER(Welch等,2019)、scMC(Zhang和Nie,2021)以及scGCN(Song等,2021)通過與scRNA-seq整合提高聚類性能。chromVAR(Schep等,2017)、BROCKMAN(de Boer和Regev,2018)、scFAN(Fu等,2020年)和scBasset(Yuan和Kelley,2022)考慮序列特征,包括基序或特定的k - mer,將維度從峰值水平降低到k - mer水平或轉(zhuǎn)錄因子水平。此外,CellWalkR(Przytycki和Pollard,2022)將scATAC-seq與細(xì)胞類型標(biāo)簽和批量表觀遺傳數(shù)據(jù)整合,更好說明特定細(xì)胞類型中活躍的CREs。SCRIP(Dong等,2022)整合許多批量ChIP-seq數(shù)據(jù)集,用峰值集相似性將特征矩陣從峰值計數(shù)轉(zhuǎn)換為轉(zhuǎn)錄因子計數(shù)。這些方法不僅增強聚類性能,還提供生物學(xué)信息,說明哪些峰值或序列特征對特定調(diào)控因子重要。
對于scHi-C數(shù)據(jù),SCL和scHiCEmbed通過插補減輕數(shù)據(jù)稀疏性提高聚類性能。最近,scHiCStackL(wu等,2022)提出雙層堆疊集成模型進行細(xì)胞分類,在細(xì)胞類型聚類任務(wù)上超越其他方法。
三、細(xì)胞類型注釋和軌跡推斷
盡管單細(xì)胞方法允許對眾多細(xì)胞的基因組數(shù)據(jù)進行并行分析,通常需要知道每個聚類的細(xì)胞類型或分化階段。使用單細(xì)胞表觀基因組數(shù)據(jù)對細(xì)胞進行注釋通常需要推斷基因活性以協(xié)助區(qū)分細(xì)胞類型。這與單細(xì)胞RNA測序(scRNA-seq)不同,后者可以通過基因標(biāo)記來識別細(xì)胞狀態(tài)。
ArchR和MAESTRO都提供了統(tǒng)計模型,用于從scATAC-seq峰值推斷聚類水平上的基因得分。ArchR結(jié)合了指數(shù)衰減模型,并考慮了擴展的基因體和基因邊界。MAESTRO也使用指數(shù)衰減模型,但考慮了每個基因的外顯子,并去除了附近基因的影響。Garnett借鑒了Cicero(Pliner等,2018)計算基因活性得分的方法,并將其預(yù)定義的標(biāo)記語言和預(yù)訓(xùn)練分類器應(yīng)用于scATAC-seq數(shù)據(jù)。除了使用推斷的基因得分作為標(biāo)記來注釋細(xì)胞外,另一種方法是使用經(jīng)過良好注釋的批量數(shù)據(jù)作為參考。SCRAT(Ji等,2017)建立了一個包含多種細(xì)胞類型的ENCODE(de Souza,2012)DNase-seq輪廓的調(diào)控組數(shù)據(jù)庫,以推斷每個細(xì)胞可能的細(xì)胞類型。此外,MAESTRO不僅使用了ENCODE項目的數(shù)據(jù),還使用了Cistrome Data Browser(Mei等,2017;Zheng等,2019;Zheng等,2020)的數(shù)據(jù),收集了最全面的先前公共DNase-seq和ATAC-seq數(shù)據(jù)集。
RNA的轉(zhuǎn)錄需要時間,因此與scRNA-seq相比,單細(xì)胞表觀基因組數(shù)據(jù)在捕獲細(xì)胞分化事件方面更為敏感。為了推斷細(xì)胞軌跡,STREAM(Chen等,2019)首先使用PCA提取最有信息量的特征。然后,使用非線性降維技術(shù)改進的局部線性嵌入(MLLE),將細(xì)胞投影到低維空間,再實施彈性主圖(Elastic Principal Graph)。MIRA(Lynch等,2022)使用主題建模來推斷細(xì)胞狀態(tài),并在可解釋的潛在空間中表示這些狀態(tài),允許推斷細(xì)胞狀態(tài)樹和識別分支點命運決策的重要調(diào)控因子。此外,許多流程工具,如EpiScanpy和Signac,整合了PAGA(Wolf等,2019)或Monocle(Trapnell等,2014)來推斷細(xì)胞軌跡。然而,在使用單細(xì)胞數(shù)據(jù)建模軌跡時,理解生物系統(tǒng)以及其背后的假設(shè)是必要的。因此,為了解釋軌跡的結(jié)果,通常需要進行良好的聚類注釋。
四、差異分析與特征選擇
通過差異分析確定與特定細(xì)胞狀態(tài)相關(guān)的特征至關(guān)重要,這種方法將細(xì)胞狀態(tài)和表型與基因組區(qū)域或順式調(diào)控元件(CREs)聯(lián)系起來。最近的一項報告聲稱,在大樣本量數(shù)據(jù)中,Wilcoxon秩和檢驗在差異性檢驗方法中表現(xiàn)優(yōu)于其他方法,因為它不需要任何假設(shè)(Li等,2022)。實際上,Wilcoxon秩和檢驗是大多數(shù)流程工具中用于檢測差異表達基因的最常用檢驗方法。
盡管使用當(dāng)前工具進行差異分析并不困難,但一個棘手的問題是如何定義單細(xì)胞表觀基因組數(shù)據(jù)的有用特征。對于scATAC-seq,采用了基于bin的方法和基于峰值的方法。scMET在諸如啟動子區(qū)域或增強子等區(qū)域內(nèi)聚合輸入數(shù)據(jù)。這些基因組特征依賴于各個區(qū)域的聚合。最近,一個深度生成模型PeakVI為每個細(xì)胞推斷出高維表示,這使得在單區(qū)域水平上對差異可訪問性和細(xì)胞狀態(tài)注釋進行統(tǒng)計穩(wěn)健的推斷成為可能。
五、基因調(diào)控推斷
利用單細(xì)胞表觀基因組數(shù)據(jù)推斷TF活性是研究基因調(diào)控的重要應(yīng)用,多種工具通過不同方法從scATAC-seq數(shù)據(jù)中推斷TF活性。ChromVAR通過估計共享相同TF基序的峰值區(qū)域內(nèi)的可及性變化來推斷TF活性;scFAN則預(yù)先訓(xùn)練基于深度學(xué)習(xí)的模型,結(jié)合全基因組批量ATAC-seq、DNA序列和ChIP-seq數(shù)據(jù),應(yīng)用于單細(xì)胞ATAC-seq以預(yù)測單個細(xì)胞中的TF結(jié)合;scBasset引入卷積神經(jīng)網(wǎng)絡(luò)(CNNs),利用scATAC-seq峰值下的DNA序列信息推斷TF活性,且其TF活性與表達的相關(guān)性顯著高于ChromVAR;TRIPOD結(jié)合scRNA-seq、scATAC-seq和DNA序列特征,考慮基于文獻的知識推斷與基因表達關(guān)聯(lián)的TF活性;SCRIP整合數(shù)千個批量水平的ChIP-seq數(shù)據(jù)集和scATAC-seq,基于峰值集相似性推斷TF活性,成功區(qū)分單細(xì)胞水平上具有相似基序的TF活性。
然而,CREs與靶基因的聯(lián)系是基因調(diào)控中的關(guān)鍵問題。Cicero通過抽樣和聚合相似細(xì)胞量化潛在CREs相關(guān)性,并用圖形Lasso模型將CREs與靶基因聯(lián)系起來;JRIM(Dong等,2021)使用組Lasso發(fā)現(xiàn)調(diào)控網(wǎng)絡(luò)中相似稀疏模式,重建順式調(diào)控互作網(wǎng)絡(luò)。為準(zhǔn)確識別不同細(xì)胞類型中關(guān)鍵CREs位置,scEpiLock(Gong等,2022)采用CNN模型檢測染色質(zhì)可及區(qū)域,用Grad-CAM細(xì)化峰值邊界;DIRECT-NET(Zhang等,2022)采用XGBoost識別功能性CREs,推斷具有已知基序模式的TF結(jié)合位點。此外,DeepTFni(Li等,2022d)實現(xiàn)帶有變分圖自編碼器(VGAE)的圖神經(jīng)網(wǎng)絡(luò)(GNN)推斷TF調(diào)控網(wǎng)絡(luò),展示TF間關(guān)系;SMGR(Song等,2022)將scRNA-seq和scATAC-seq作為輸入,利用廣義線性回歸模型識別一致表達的基因和峰值潛在表示,識別共調(diào)控機制。
ScHi-C技術(shù)從三維角度探索基因調(diào)控模式,deTOKI(Li等,2021)利用NMF從稀疏的scHi-C數(shù)據(jù)中預(yù)測類似TAD結(jié)構(gòu)域;染色質(zhì)環(huán)是將CREs與靶基因物理連接的較小結(jié)構(gòu),SnapHiC(Yu等,2021)和SnapHiC2(Li等,2022)通過scHi-C數(shù)據(jù)中的RWR算法,在10kb分辨率下識別染色質(zhì)環(huán)。這些方法和技術(shù)的發(fā)展,為深入研究基因表達調(diào)控機制提供了有力工具。
六、多功能分析流程
隨著單細(xì)胞表觀基因組數(shù)據(jù)計算方法的發(fā)展,選擇和組織工具以有效提取潛在信息成為挑戰(zhàn)。Chen等(2019)對10種scATAC-seq計算方法進行基準(zhǔn)測試,發(fā)現(xiàn)各方法有優(yōu)缺點。多功能流程如Dr.seq2、SCRAT、Scasat、Destin、scitools、scATAC-pro、EpiScanpy、Signac 和 SnapATAC,提供一站式解決方案,簡化生物學(xué)家工作,使他們能專注生物學(xué)結(jié)果。這些工具涵蓋質(zhì)量控制、過濾低質(zhì)量細(xì)胞或特征、基序分析、聚類、差異分析和可視化等功能。scHiCTools 專門用于scHi-C數(shù)據(jù)。Seurat v3、APEC、MAESTRO、scAI、ArchR 和 ALLCools 不僅提供上述功能,還能整合表觀基因組數(shù)據(jù)和轉(zhuǎn)錄組數(shù)據(jù),更好解釋基因調(diào)控機制。
此外,g-chromVAR(Ulirsch等,2019)使用精細(xì)映射的變異后驗概率和調(diào)控活性的定量測量來衡量每個細(xì)胞狀態(tài)下調(diào)控變異的富集。Methylscaper(Knight等,2021)專門用于單細(xì)胞DNA甲基化和染色質(zhì)可及性模式的可視化。MATCHER(Welch等,2017)、耦合NMF(Duren等,2018)、coupleCoC(Zeng等,2021)、coupleCoC+(Zeng和Lin,2021)、scAMACE(Wangwu等,2021)、epiConv(Lin和Zhang,2022)、scMVP(Li等,2022b)、scREG(Duren等,2022)和MIRA等整合方法分析scRNA-seq和單細(xì)胞表觀基因組數(shù)據(jù),提供全面視角理解基因調(diào)控過程。這些整合的計算方法提供了一個更全面和多角度的視角來理解基因調(diào)控過程。表S7列出了在審查的計算方法的原始分析中應(yīng)用的編程語言、關(guān)鍵特征、局限性和基準(zhǔn)數(shù)據(jù)集(圖7)
圖 7 單細(xì)胞表觀基因組學(xué)分析流程
單細(xì)胞表觀基因組的應(yīng)用
單細(xì)胞技術(shù)為研究各種生物過程和基因調(diào)控模式提供了前所未有的機會。將這些單細(xì)胞技術(shù)應(yīng)用于不同的生物系統(tǒng),有助于在單細(xì)胞水平上發(fā)現(xiàn)細(xì)胞分化事件和疾病發(fā)生機制。這些單細(xì)胞表觀基因組測序方法已在許多領(lǐng)域得到采用。
一、早期胚胎發(fā)育
在配子發(fā)育和胚胎發(fā)生的早期階段,細(xì)胞在表觀基因組上經(jīng)歷了顯著且劇烈的變化和重編程,這導(dǎo)致了細(xì)胞分化和細(xì)胞表型的多樣性。因此,胚胎干細(xì)胞被廣泛用作發(fā)展單細(xì)胞表觀基因組測序技術(shù)的實驗材料。
Zhu等(2018)利用scWGBS技術(shù),對人類著床前胚胎進行了研究,揭示了小鼠著床前胚胎中存在三波全球性去甲基化現(xiàn)象。這一發(fā)現(xiàn)表明,在全球去甲基化和劇烈再甲基化之間存在動態(tài)平衡,這一平衡發(fā)生在著床前發(fā)育過程中。隨后,Li等(2018)進一步應(yīng)用scCOOL-seq技術(shù),對人類著床前發(fā)育的六個階段進行了深入分析。他們發(fā)現(xiàn),多能性主TF結(jié)合區(qū)域以及近端和遠(yuǎn)端核小體缺失區(qū)域主要富集在染色質(zhì)可及性變化最大的基因組區(qū)域。此外,他們還發(fā)現(xiàn),與小鼠相比,人類合子在卵母細(xì)胞中對母體基因組的染色質(zhì)訪問減少,并且在四細(xì)胞階段之前父本等位基因之間的平衡被延遲,這表明染色質(zhì)可及性具有物種特異性特征。Argelaguet等(2019)則對小鼠原腸發(fā)育階段進行了scNMT-seq研究,發(fā)現(xiàn)承諾成為中胚層和內(nèi)胚層的細(xì)胞在增強子標(biāo)記處經(jīng)歷了廣泛的協(xié)調(diào)表觀遺傳重排。這些重排是由ten-eleven translocation(TET)介導(dǎo)的去甲基化和伴隨的染色質(zhì)可及性增加所驅(qū)動的。此外,他們還發(fā)現(xiàn)在早期上胚層中,外胚層細(xì)胞的甲基化和可及性景觀已經(jīng)建立。
這些研究揭示了表觀基因組如何影響細(xì)胞分化和譜系承諾。未來,使用單細(xì)胞多組學(xué)技術(shù)對細(xì)胞群體進行的研究將使我們有機會理解協(xié)調(diào)的表觀基因組重編程過程,這有可能改變我們對細(xì)胞命運決定的理解,并惠及干細(xì)胞生物學(xué)領(lǐng)域。
二、腫瘤免疫學(xué)
腫瘤中惡性和非惡性細(xì)胞共存,這是一個高度異質(zhì)的結(jié)構(gòu)。這兩種類型的細(xì)胞在癌癥的發(fā)展中都扮演著關(guān)鍵角色。正在開發(fā)單細(xì)胞表觀基因組測序方法,以幫助從腫瘤的復(fù)雜性中區(qū)分出對癌癥進程有貢獻的非遺傳因素。
Satpathy等(2019)對接受PD-1阻斷治療的基底細(xì)胞癌(BCC)患者的原發(fā)性腫瘤活檢樣本應(yīng)用了scATAC-seq。他們研究了對治療有反應(yīng)的T細(xì)胞亞群的染色質(zhì)調(diào)節(jié)因子,并觀察到一個共同的調(diào)控途徑,該途徑控制著CD4+ T濾泡輔助細(xì)胞的發(fā)展和腫瘤內(nèi)CD8+ T細(xì)胞耗竭。不僅免疫細(xì)胞通過單細(xì)胞表觀基因組測序進行研究,惡性細(xì)胞在腫瘤微環(huán)境(TME)中也表現(xiàn)出異質(zhì)性。Meir等(2020)使用scRNA-seq和甲基化組分析表明,不同類型的癌細(xì)胞具有克隆穩(wěn)定的表觀遺傳記憶。此外,他們發(fā)現(xiàn)DNA甲基化景觀反映了一個獨立的類時鐘甲基化喪失機制,同時與通過轉(zhuǎn)錄組分析在克隆性結(jié)癌細(xì)胞群體中識別的上皮-間充質(zhì)轉(zhuǎn)化(EMT)身份相關(guān)聯(lián)。Wu等(2021)使用scCUT&Tag來表征腦腫瘤患者在治療前后的H3K27me3。他們在原發(fā)性樣本和治療后對腦腫瘤H3K27me3進行了分析,并在TME中發(fā)現(xiàn)了各種細(xì)胞類型和多梳組活性的異質(zhì)性。
表觀遺傳機制對于腫瘤細(xì)胞和免疫細(xì)胞之間的相互作用至關(guān)重要。理解免疫細(xì)胞和腫瘤細(xì)胞中表觀遺傳修飾的基本過程為藥物和免疫治療技術(shù)的開發(fā)鋪平了道路。
三、神經(jīng)生物學(xué)
理解大腦的正常功能以及功能障礙和疾病的機制,需要我們更好地了解細(xì)胞組成。Lake等(2018)在單細(xì)胞水平上檢測了成人大腦中的轉(zhuǎn)座子超敏感位點。他們鑒定了成人大腦皮層和小腦半球中的細(xì)胞亞群,并利用表觀基因組數(shù)據(jù)將遺傳風(fēng)險變異與細(xì)胞類型特異性的cCREs聯(lián)系起來。在一組認(rèn)知健康的人群中,Corces等(2020)檢查了不同成人大腦區(qū)域的單細(xì)胞染色質(zhì)可及性景觀和三維染色質(zhì)相互作用。他們創(chuàng)建了一個機器學(xué)習(xí)分類器,將這個多組學(xué)框架納入其中,并預(yù)測了帕金森病和阿爾茨海默病的幾個功能性SNPs(單核苷酸多態(tài)性)。Yang等(2023)在不同發(fā)育階段對豬海馬體的單核可及性染色質(zhì)景觀進行了分析,揭示了轉(zhuǎn)座元件在細(xì)胞類型特異性可及性染色質(zhì)區(qū)域的顯著富集。這項研究有助于加深我們對人類神經(jīng)退行性疾病的理解。未來在單細(xì)胞水平上的研究將非常引人入勝,特別是在檢查表觀基因組的動態(tài)調(diào)控,特別是在學(xué)習(xí)和記憶過程中依賴于神經(jīng)元活動的基因組變化。
總結(jié)
在本章中,總結(jié)了單細(xì)胞表觀基因組測序的技術(shù)、計算方法和應(yīng)用。單細(xì)胞測序技術(shù)的最新應(yīng)用將研究范圍擴大到了生物過程和疾病。盡管存在一些局限性,但這些方法之前已證明其在闡明復(fù)雜組織的各個部分和揭示新見解方面是有效的。未來具有更高覆蓋率和靈敏度的測序技術(shù)以及專用、先進和完善的計算方法有望開啟理解生物學(xué)的新時代,并為治療疾病鋪平道路。
參考文獻:
Sun F, Li H, Sun D, et al. Single-cell omics: experimental workflow, data analyses and applications. Sci China Life Sci. 2025;68(1):5-102. doi:10.1007/s11427-023-2561-0