生物信息學(xué)在基因芯片數(shù)據(jù)功能分析中的應(yīng)用
瀏覽次數(shù):7314 發(fā)布日期:2009-4-29
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
隨著人類基因組計劃(Human Genome Project)即全部核苷酸測序的即將完成,人類基因組研究的重心逐漸進入后基因組時代(Postgenome Era),向基因的功能及基因的多樣性傾斜。通過對個體在不同生長發(fā)育階段或不同生理狀態(tài)下大量基因表達的平行分析,研究相應(yīng)基因在生物體內(nèi)的功能,闡明不同層次多基因協(xié)同作用的機理,進而在人類重大疾病如癌癥、心血管疾病的發(fā)病機理、診斷治療、藥物開發(fā)等方面的研究發(fā)揮巨大的作用。它將大大推動人類結(jié)構(gòu)基因組及功能基因組的各項基因組研究計劃。生物信息學(xué)在基因組學(xué)中發(fā)揮著重大的作用, 而另一項嶄新的技術(shù)——基因芯片已經(jīng)成為大規(guī)模探索和提取生物分子信息的強有力手段,將在后基因組研究中發(fā)揮突出的作用;蛐酒c生物信息學(xué)是相輔相成的,基因芯片技術(shù)本身是為了解決如何快速獲得龐大遺傳信息而發(fā)展起來的,可以為生物信息學(xué)研究提供必需的數(shù)據(jù)庫,同時基因芯片的數(shù)據(jù)分析也極大地依賴于生物信息學(xué),因此兩者的結(jié)合給分子生物學(xué)研究提供了一條快捷通道。
本文介紹了幾種常用的基因功能分析方法和工具:
一、GO分類法
最先出現(xiàn)的芯片數(shù)據(jù)基因功能分析法是GO分類法。Gene Ontology(GO,即基因本體論)數(shù)據(jù)庫是一個較大的公開的生物分類學(xué)網(wǎng)絡(luò)資源的一部分,它包含38675 個Entrez Gene注釋基因中的17348個,并把它們的功能分為三類:分子功能,生物學(xué)過程和細胞組分。在每一個分類中,都提供一個描述功能信息的分級結(jié)構(gòu)。這樣,GO中每一個分類術(shù)語都以一種被稱為定向非循環(huán)圖表(DAGs)的結(jié)構(gòu)組織起來。研究者可以通過GO分類號和各種GO數(shù)據(jù)庫相關(guān)分析工具將分類與具體基因聯(lián)系起來,從而對這個基因的功能進行描述。在芯片的數(shù)據(jù)分析中,研究者可以找出哪些變化基因?qū)儆谝粋共同的GO功能分支,并用統(tǒng)計學(xué)方法檢定結(jié)果是否具有統(tǒng)計學(xué)意義,從而得出變化基因主要參與了哪些生物功能。
EASE(Expressing Analysis Systematic Explorer)是比較早的用于芯片功能分析的網(wǎng)絡(luò)平臺。由美國國立衛(wèi)生研究院(NIH)的研究人員開發(fā)。研究者可以用多種不同的格式將芯片中得到的基因?qū)隕ASE 進行分析,EASE會找出這一系列的基因都存在于哪些GO分類中。其最主要特點是提供了一些統(tǒng)計學(xué)選項以判斷得到的GO分類是否符合統(tǒng)計學(xué)標(biāo)準(zhǔn)。EASE能進行的統(tǒng)計學(xué)檢驗主要包括Fisher 精確概率檢驗,或是對Fisher精確概率檢驗進行了修飾的EASE 得分(EASE score)。
由于進行統(tǒng)計學(xué)檢驗的GO分類的數(shù)量很多,所以EASE采取了一系列方法對“多重檢驗”的結(jié)果進行校正。這些方法包括弗朗尼校正法(Bonferroni),本杰明假陽性率法(Benjamini falsediscovery rate)和靴帶法(bootstraping)。同年出現(xiàn)的基于GO分類的芯片基因功能分析平臺還有底特律韋恩大學(xué)開發(fā)的Onto-Express。2002年,挪威大學(xué)和烏普薩拉大學(xué)聯(lián)合推出的Rosetta 系統(tǒng)將GO分類與基因表達數(shù)據(jù)相聯(lián)系,引入了“最小決定法則”(minimal decision rules)的概念。它的基本思想是在對多張芯片結(jié)果進行聚類分析之后,與表達模式不相近的基因相比,相近的基因更有可能參與相同的生物學(xué)功能的實現(xiàn)。比較著名的基于GO分類法的芯片數(shù)據(jù)分析網(wǎng)絡(luò)平臺還有七十多個,表1列舉了其中的一部分。
Name |
Internet Site |
Onto-Tools |
http://vortex.cs.wayne.edu/projects.htm |
ROSETTA |
http://rosetta.lcb.uu.se/general/ |
GOToolBox |
http://burgundy.cmmt.ubc.ca/GOToolBox/ |
GOstat |
http://gostat.wehi.edu.au/ |
GFINDer |
http://www.medinfopoli.polimi.it/GFINDer/ |
FatiGO |
http://www.fatigo.org/ |
EASE |
http://david.abcc.ncifcrf.gov/ease/ease.jsp |
表1 用GO 分類法進行芯片功能分析的網(wǎng)絡(luò)平臺
二、通路分析法
通路分析是現(xiàn)在經(jīng)常被使用的芯片數(shù)據(jù)基因功能分析法。與GO分類法(應(yīng)用單個基因的GO分類信息)不同,通路分析法利用的資源是許多已經(jīng)研究清楚的基因之間的相互作用,即生物學(xué)通路。研究者可以把表達發(fā)生變化的基因列表導(dǎo)入通路分析軟件中,進而得到變化的基因都存在于哪些已知通路中,并通過統(tǒng)計學(xué)方法計算哪些通路與基因表達的變化最為相關(guān)。現(xiàn)在已經(jīng)有豐富的數(shù)據(jù)庫資源幫助研究人員了解及檢索生物學(xué)通路,對芯片的結(jié)果進行分析。主要的生物學(xué)通路數(shù)據(jù)庫有以下兩個:① KEGG 數(shù)據(jù)庫:迄今為止,KEGG數(shù)據(jù)庫(Kyoto encyclopedia of genes and genomes)是向公眾開放的最為著名的生物學(xué)通路方面的資源網(wǎng)站。在這個網(wǎng)站中,每一種生物學(xué)通路都有專門的圖示說明。② BioCarta 數(shù)據(jù)庫:BioCarta 是一家生物技術(shù)公司,它在其公共網(wǎng)站上提供了用于繪制生物學(xué)通路的模板。研究者可以把符合標(biāo)準(zhǔn)的生物學(xué)通路提供給BioCarta數(shù)據(jù)庫。BioCarta數(shù)據(jù)庫不會檢驗這些生物學(xué)通路的質(zhì)量,因此其中的資源質(zhì)量參差不齊,并且有許多相互重復(fù)。然而BioCarta數(shù)據(jù)庫數(shù)據(jù)量巨大,且不同于KEGG數(shù)據(jù)庫,包含了大量代謝通路之外的生物學(xué)通路,所以也得到廣泛的應(yīng)用。
最先出現(xiàn)的通路分析軟件之一是GenMAPP(gene microarray pathway profiler)。它可以免費使用,其最新版本為Gen-MAPP2。在這個軟件中,使用者可以用幾種靈活的文件格式輸入自己的表達譜數(shù)據(jù),GenMAPP的基因數(shù)據(jù)庫包含許多從常用的資源中得到的物種特異性的基因注釋和識別符(ID)。這些ID可以將使用者輸入的基因與不同的生物學(xué)通路的基因聯(lián)系起來。這些生物學(xué)通路存在于GenMAPP 的MAPP文件中。MAPP文件需要時常下載更新。它包含有許多KEGG生物學(xué)通路,一些GenMAPP自己的生物學(xué)通路和許多GO分類的MAPP 文件,全部操作簡單明了。而且依靠其自帶的MAPPBuilder和MAPPFinder 兩個軟件,使用者可以自己繪制生物學(xué)通路和對MAPP 文件進行檢索。由于使用者可以自己繪制生物學(xué)通路保存為MAPP 格式,這個文件很小易于在網(wǎng)絡(luò)上傳播,所以GenMAPP數(shù)據(jù)庫更有利于研究者之間的及時交流。由于上述特點,GenMAPP數(shù)據(jù)庫及軟件仍是現(xiàn)今免費平臺里應(yīng)用比較廣泛的。2004年推出的Pathway Miner也是應(yīng)用較為廣泛的免費通路分析網(wǎng)絡(luò)平臺,由美國亞利桑那大學(xué)癌癥中心建立維護,其最突出的特點就是信息全面,操作簡便。使用者可以在這個網(wǎng)站中獲得單個基因的序列、功能注釋,以及有關(guān)它們編碼的蛋白結(jié)構(gòu)功能,組織分布,OMIM等信息。對于通路分析部分,使用者給出基因列表及他們的表達變化值,網(wǎng)站可以根據(jù)三大公用的通路數(shù)據(jù)庫:KEGG、GenMAPP 和BioCarta,生成變化基因參與的通路,并用fisher 精確概率檢驗。PathwayMiner自動把得到的通路分成兩大類:代謝通路和細胞調(diào)節(jié)通路。方便使用者根據(jù)不同的研究目的選擇需要查看的結(jié)果。在2006年國內(nèi)也開發(fā)了用于通路分析的網(wǎng)絡(luò)平臺,即KOBAS(KO-Based Annotation System),其基于KEGG數(shù)據(jù)庫建立,由北京大學(xué)生命科學(xué)院開發(fā)和維護。其特點是可直接采用基因或蛋白質(zhì)的序列錄入基因,并對錄入的基因列表進行KO 注釋。對于結(jié)果的可靠性檢驗提供了四種統(tǒng)計方法。使用者可以在網(wǎng)站進行注冊,網(wǎng)站會為使用者保存輸入的數(shù)據(jù),方便日后直接調(diào)用。最近推出的軟件Eu.Gene 整合了來自KEGG,Gen-MAPP 以及Reactome 的通路數(shù)據(jù),并采用fisher 精確概率檢驗及基因集富集分析(Gene Set Enrichment Analysis, GSEA)來檢驗結(jié)果是否具有統(tǒng)計學(xué)意義。表2 列舉了部分通路分析的網(wǎng)絡(luò)平臺及它們的網(wǎng)址。
Name |
Internet Site |
GenMAPP |
http://www.genmapp.org/ |
PathwayMiner |
http:///pathway.html |
KOBAS |
http://kobas.cbi.pku.edu.cn |
GEPAT |
http://gepat.bioapps.biozentrum.uni-wuerzburg.de/GEPAT/index.faces |
VitaPad |
http://bioinformatics.med.yale.edu/group |
KEGGanim |
http://biit.cs.ut.ee/kegganim/ |
WholePathwayScope |
http://www.abcc.ncifcrf.gov/wps/wps_index.php |
VisANT 3.0 |
http://visant.bu.edu/ |
Eu.Gene |
http://www.ducciocavalieri.org/bio/Eugene.htm |
表二 通路分析網(wǎng)絡(luò)平臺
三、基因調(diào)控網(wǎng)絡(luò)分析
通路分析法是芯片功能分析的有力工具之一,其與GO分類法的主要區(qū)別也正是它的弱點。在生物反應(yīng)的過程中,發(fā)生表達變化的基因通常不只局限在一個通路中,而是存在于由許多調(diào)控因子和通路參與的復(fù)雜調(diào)控網(wǎng)絡(luò)中。生物調(diào)控網(wǎng)絡(luò)十分復(fù)雜,并沒有現(xiàn)成的文獻和數(shù)據(jù)庫供參考。而且,把芯片中發(fā)生表達變化的基因放在生物調(diào)控網(wǎng)絡(luò)的水平來看,它們通常在多個通路中都有分布,而每個通路只包含幾個發(fā)生表達變化的基因。這就解釋了為什么有些通路只有部分基因表達發(fā)生變化,而且表達變化的趨勢在整個通路水平上不一定是一致的。
進行生物調(diào)控網(wǎng)絡(luò)的研究需要更多的數(shù)據(jù)庫及分析工具的支持。比如需要關(guān)于基因組調(diào)控序列(啟動子和增強子)的信息,現(xiàn)在已經(jīng)有許多關(guān)于轉(zhuǎn)錄因子結(jié)合位點(transcription factor binding site, TFBS)的數(shù)據(jù)庫可以滿足這個要求,如TRANSFAC及JASPAR。而且芯片檢測的基因變化應(yīng)該深入到轉(zhuǎn)錄本水平,因為不同的轉(zhuǎn)錄本的轉(zhuǎn)錄可能是由不同的啟動子啟動的。外顯子連接芯片(exon junction microarray)將基因組中外顯子與外顯子之間的連接序列做成36nt 的探針點到芯片上,與樣本mRNA 進行雜交后可檢測出樣本中多外顯子基因pre-mRNA 的剪接狀況。
轉(zhuǎn)錄調(diào)節(jié)控制基因表達,調(diào)控不同組織中的細胞在各種生理條件及外界刺激下的反應(yīng)。不同于原核細胞,真核細胞的轉(zhuǎn)錄調(diào)節(jié)涉及大量轉(zhuǎn)錄因子的相互作用,而且基因組調(diào)控序列不只位于啟動子,還包括內(nèi)含子及許多基因下游序列。所以真正了解真核細胞的基因調(diào)控網(wǎng)絡(luò)是一項非常艱巨的工作。用基因調(diào)控網(wǎng)絡(luò)來分析基因芯片數(shù)據(jù)還需要更多信息及技術(shù)的支持。