在后基因體時代,基因芯片 (microarray) 的出現(xiàn)讓研究人員得以宏觀的視野來探討分子機轉。在許多努力和資源投入到尋找新的疾病基因后,許多單基因疾病已成功地找出致病基因。然而,在復雜疾病 (例如高血壓、糖尿病及一些常見癌癥) 的研究上,收獲卻不如期待中的豐富。大多數(shù)復雜疾病的研究中都可找出分布在不同染色體上的致病基因,但其與疾病僅有小至中等的連結 (linkage) 或關聯(lián)性 (association),且只有極少數(shù)的致病基因能在大量人口資料中,仍對疾病的連結或關聯(lián)性具有顯著性。目前從復雜疾病研究找到的致病基因,大多數(shù)在跨研究的報告中皆不具重現(xiàn)性。
復雜疾病具異質性、多源性
以肥胖為例,在2004年Dr. Perusse1的研究發(fā)現(xiàn):與人類肥胖相關的113個候選基因 (candidate gene) 在50個全基因掃描研究中,僅有18個基因在五個以上的研究提出一致的正面相關報導。另外,2005年Dr. Agarwal2 的評論提到 (如圖一所示),25個高血壓基因在不同的連結或關聯(lián)性研究中,有9個基因在連結性研究中負面相關的報導多于正面相關的報導。而25個基因中,多數(shù)在關聯(lián)性研究中正面相關和負面相關的報導不相上下。
文獻中將復雜疾病的致病基因在跨研究間缺乏重復性的現(xiàn)象,歸納出了幾點解釋。其中一個最廣為接受的看法是這些多因子疾病的異質性 (heterogeneous)。另外,因在不同研究中,對各種表型 (phenotype,如血壓、血糖) 定義上的不同和量測的不精確、對環(huán)境危險或保固因子 (如抽煙量,對污染物的攝取量) 的不同暴露程度以及不同人口之間基因背景的差異等因素,皆會遮蔽、加強或改變基因的作用并造成不同程度的疾病外顯率 (penetrance)。
簡而言之,由于復雜疾病患者病因的多源性,稀釋了任何一個基因變異的效果。所以,當我們將許多病患集中在一起,試圖比較他們的基因和正常人有何不同時可能會發(fā)現(xiàn)不同的致病基因,甚至亦會發(fā)現(xiàn)跟疾病無關而是與病患其他特性相關的基因。
生物路徑叢 (Pathway Cluster) 概念
目前在復雜疾病的研究上,一般以使用類似的表型以減少樣本間的異質性。然而,表型的同質化并不等于基因型的同質化。再者,一個疾病可能只是多種表型類似,但起源(基因)不同的病征組合。這個概念雖曾在文獻中被提出過,但科學家所使用的簡化表型方法并不盡理想。譬如在精神疾病領域,許多學者提出 ”endophenotype”,也就是「內在生物表型」這個概念。但他們所提出的操作方法,僅只是簡單化(或減化)表型,譬如:以解剖學、影像學,或癥兆定義上來減化,而沒有著眼在減化「參與病征發(fā)展的生化路徑」上。
這個問題的主要瓶頸在于科學家對于疾病發(fā)展的機制還不夠了解。因此,中研院潘文涵教授3 提出以下建議:在現(xiàn)今大量產(chǎn)生的基因表現(xiàn)數(shù)據(jù)上,運用「數(shù)據(jù)探勘 (data mining)」的方法,進行群組分析 (cluster analysis);將這些資料分成若干個群組內相關,但群組間不相關的多個群組,每一個群組可能代表一兩個少數(shù)源頭基因、和一些他的下游基因的表現(xiàn)狀態(tài)。所得群組同構型高且接近病原的潛在基因,因此可視為「生物路徑叢」的指針。
我們首先用遺傳流行病學的方法學來檢驗,這些群組是否具遺傳性,再用此表現(xiàn)群組所得的分數(shù)(數(shù)量性狀)或再進一步切割出來的 0/1 性質來進行基因定位,成功率必大為增加。
高血壓研究案例
本公司特約研究員林可軒博士在中研院潘文涵教授實驗室服務期間,即在高血壓的研究上4運用特殊的人工神經(jīng)網(wǎng)絡 (artificial neural network) 模型,以華聯(lián)的人類表達譜芯片 (HOA, Human OneArray®) 所產(chǎn)生的大量基因數(shù)據(jù)來實現(xiàn)「生物路徑叢」的概念。如圖二所示,基因數(shù)據(jù)自神經(jīng)網(wǎng)絡左方的輸入端進入模型。藉由不同的聯(lián)機連接到中間的隱藏點 (hidden node)。這些中間的隱藏點及代表不同的「生物路徑叢」。藉由聯(lián)機上不同的權重,決定各生物路徑叢包含的基因。最后,各生物路徑叢對各所屬基因加權 的結果決定是否送出影響輸出端 (output node) 做決策的信號。最后,輸出端對各生物路徑叢送出信號加權的結果決定是否誘發(fā)高血壓。林博士在文獻中詳述了決定各聯(lián)機的權重及生物路徑叢數(shù)量的方法。鑒于篇幅有限,本文中不予詳述。圖三顯示該文中以類神經(jīng)網(wǎng)絡所構建之生物路徑叢與血壓的關系。圖中左方顯示高血壓病人的數(shù)據(jù),右方顯示正常血壓者的數(shù)據(jù)。圖中由上而下分別為收縮壓、舒張壓、模型輸出端信號、模型隱藏點信號以及構建的三個生物路徑叢中實際基因的表現(xiàn)量。從模型隱藏點信號 (圖三(g)及(h)) 可看出三個生物路徑叢在高血壓病人及正常血壓者中呈現(xiàn)不同樣板。紅色樣板代表該生物路徑叢是處于表現(xiàn) (expressed) 的狀況,藍色樣板則代表該生物路徑叢是處于不 (或低) 表現(xiàn)的狀況。從圖中可看出,生物路徑叢一 (endophenotype 1) 是強保固的 (strongly protective),生物路徑叢二是弱保固的 (weakly protective),生物路徑叢三則是強危害的 (strongly risk)。這三個生物路徑叢將高血壓病人及正常血壓者分成幾個群組,不同群組中,含生物路徑叢三者血壓最高,含生物路徑叢二者血壓微降,含生物路徑叢一者血壓下降最多。即構建的三個生物路徑叢對血壓調控有不同的角色。生物路徑叢亦可對高血壓病人做適當?shù)姆秩骸?/FONT>
結論
這一年來華聯(lián)快訊介紹基因芯片在各領域的應用,在年末我們希望藉這期簡短的介紹,帶大家認識生物路徑叢的概念,拓展基因芯片數(shù)據(jù)在構建與表型相關之分析模塊的可能方向。面對復雜疾病或表型的異質與多源性,我們預期這個生物路徑叢概念的運用應能幫助簡化復雜疾病或表型的面向,而有效定位疾病或表型,并協(xié)助找出致病基因及其他因子,以期早日找出有效治療方針或追蹤的生物標志。
圖一、2005年Dr. Agarwal 的評論中針對25個高血壓基因在不同的連結或關聯(lián)性研究中的統(tǒng)計報導
圖二、運用特殊的人工神經(jīng)網(wǎng)絡模型配合大量基因數(shù)據(jù)來仿真基因、生物路徑叢跟高血壓之間的關系
圖三、構建之生物路徑叢與血壓及不同病人群組的關系
參考文獻:
1. Perusse L, Rankinen T, Zuberi A, Chagnon YC, Weisnagel SJ, Argyropoulos G, Walts B, Snyder EE, Bouchard C. 2005. The human obesity gene map: the 2004 update. Obes Res 13:381–490.
2. Agarwal A, Williams GH, Fisher ND. 2005. Genetics of human hypertension. Trends Endocrinol Metab 16:127–133.
3. Pan WH, Lynn KS, Chen CH, Wu YL, Lin CY, Chang HY. Using endophenotypes for pathway cluster to map complex disease genes. Genet. Epidemiol. 2006;30:143-154.
4. Lynn KS, Li LL, Lin YJ, Wang CH, Sheng SH, Lin JH, Liao W, Hsu WL, Pan WH. A neural network model for constructing endophenotypes of common complex diseases: an application to male young-onset hypertension microarray data. Bioinformatics. 2009 Apr 15;25(8):981-8.