基於基因晶片數據和代謝網絡測定癌症關鍵代謝酶的方法
2023-04-24 15:46:06 5
基於基因晶片數據和代謝網絡測定癌症關鍵代謝酶的方法
【專利摘要】本發明屬醫學【技術領域】,涉及基於基因晶片數據和代謝網絡測定癌症關鍵代謝酶的方法。本發明方法包括建立基因共表達網絡、劃分共表達網絡為模塊、共表達網絡性質和模塊的癌症特異性計算和建立酶網絡、預測關鍵酶和代謝物。本發明方法可預測對於癌症代謝的關建酶,作為癌症治療的藥物候選靶點;每一個預測的癌症關鍵酶基因可對應到所涉及反應的代謝物,作為每種癌症的關鍵代謝物預測結果,該代謝物也可作為候選的藥物設計基礎代謝物;本方法能明顯縮小實驗搜尋的範圍並加快靶點尋找進程,節約時間及費用,可用於篩選癌症及其他與代謝重調相關的複雜疾病的藥物靶點,具有推廣價值。
【專利說明】基於基因晶片數據和代謝網絡測定癌症關鍵代謝酶的方法
【技術領域】
[0001]本發明屬醫學【技術領域】,涉及癌症關鍵代謝酶及候選藥物靶點,具體涉及一種基於基因晶片數據和代謝網絡測定癌症關鍵代謝酶的方法,尤其涉及尋找癌症關鍵代謝酶以作為候選藥物治療靶點的方法(Met-express);本方法可有效地預測癌症中處於關鍵地位可能可重調代謝過程的酶以為藥物開發提供候選靶點。
【背景技術】
[0002]近幾十年來,癌症診斷和治療領域取得了若干的進展,然而,目前癌症仍然是危及人類健康和壽命的最嚴重疾病之一;為了減少病痛及由癌症引起的死亡,癌症相關領域的研究仍引起有關研究人員的密切關注。其中,在癌症的致病機理研究中,很多關於癌症的聞通量實驗數據被發布在公共資料庫中,例如,GEO資料庫中的基因表達晶片數據數量龐大,通常有助於各實驗特定的研究目的,其中的大量信息可被跨實驗綜合利用。
[0003]現有技術公開了,在癌細胞中有許多代謝通路被重調以適應癌症的特定需求或促進癌症的發生發展;有研究通過計算方法挖掘整合公共資料庫中的高通量數據以研究癌細胞相對的代謝變化,尋找居於核心地位的酶,以期通過影響這些酶的表達來影響癌細胞代謝過程,進而起到治療癌症的作用。
[0004]關於對大規模數據的處理,本領域公知,其中除了依賴於數據的質量,還依賴於適宜的計算方法;由於 計算模擬方法具有易操作性,通過計算機模擬進行癌症代謝特徵分析並預測候選靶點可以為下一步大規模實驗驗證節約大量的時間和經費。目前,迫切需要一種可以通過大規模數據預測癌症治療靶點的計算方法,為癌症的治療方案的設計提供新的可能性。
[0005]與本發明有關的參考文獻:
[0006]1.Arakaki AK, Mezencev R,Bowen NJ et al !identification of metaboliteswith anticancer properties by computational metabolomics.Mol Cancer 2008,7:57.[0007]2.Ruan J,Dean AK, Zhang W:A general co-expression network-basedapproach to gene expression analysis-comparison and applications.BMC systemsbiology 2010,4(1):8.[0008]3.Ruan J,Zhang W:Identifying network communities with a highresolution.Phys Rev E Stat Nonlin Soft Matter Phys 2008,77 (I Pt 2):016104.[0009]4.Ma H,Zeng AP !Reconstruction of metabolic networks from genome dataand analysis oftheir global structure for various organisms.Bioinformatics2003,19 (2):270-277.[0010]5.Horne AB, Hodgman TC,Spence HD et al !Constructing an enzyme-centricview of metabolism.Bioinformatics 2004,20 (13):2050-2055.[0011]6.Tan SH,Lee SC,Goh BC et al !Pharmacogenetics in breast cancer therapy.Clin Cancer Res 2008,14(24):8027-8041.[0012]7.Greco F,Vicent MJ,Penning NA et al:HPMA copolymer-aminoglutethimideconjugates inhibit aromatase in MCF-7 cell lines.J Drug Target 2005,13(8-9):459-470.[0013]8.Martinez-Campa C,Gonzalez A,Mediavilla MD et al:Melatonin enhancesthe inhibitory effect of aminoglutethimide on aromatase activity in MCF-7 humanbreast cancer cells.Breast Cancer Res Treat 2005,94(3):249-254.[0014]9.Shirakawa H,Katsuki H,Kume T et al:Aminoglutethimide preventsexcitotoxic and ischemic injuries in cortical neurons.Br J Pharmacol 2006,147(7):729-736.[0015]10.Xu X,Qiao M,Zhang Y et al !Quantitative proteomics study of breastcancer cell lines isolated from a single patient !discovery of TIMM17A as amarker for breast cancer.Proteomics 2010,10(7):1374-1390.[0016]11.Langbein S,Zerilli M,Zur Hausen A et al !Expression of transketolaseTKTLl predicts colon and urothelial cancer patient survival:Warburg effectreinterpreted.Br J Cancer 2006,94(4):578-585.[0017]12.Foldi M,Stickeler E,Bau L et al:Transketolase protein TKTLloverexpression:A potential biomarker and therapeutic target in breast cancer.0ncol Rep 2007,17 (4):841-845.?
【發明內容】
[0018]本發明的目的在於提供一種基於基因晶片數據和代謝網絡測定癌症關鍵代謝酶的方法,尤其涉及尋找癌症關鍵代謝酶以作為候選藥物治療靶點的方法(Met-express);本方法採用基因表達晶片,從中建立基因共表達網絡,將之劃分為共表達模塊,與代謝網絡整合,結合多個數據集的結果,最終給出預測;本方法可有效地預測癌症中處於關鍵地位可能可重調代謝過程的酶以進一步為藥物開發提供候選靶點。
[0019]具體而言,本發明的一種基於基因晶片數據和代謝網絡測定癌症關鍵代謝酶的方法,其特徵在於,其包括步驟:
[0020](I)選擇具有人類癌症、正常樣本對照的基因表達晶片數據,建立共表達網絡;
[0021](2)將共表達網絡劃分為模塊,並鑑定模塊的癌症特異性;
[0022](3)將共表達網絡模塊與人類代謝網絡整合,對代謝網絡中的每個酶進行打分;
[0023](4)結合來自不同癌症、不同數據集的結果,給出高分酶作為預測結果。
[0024]本發明中,基於基因表達晶片數據和代謝網絡,將共表達網絡與代謝網絡整合,對所有存在於共表達網絡中的酶進行重要性打分,得分高的酶設定其在癌症代謝中處於關鍵地位,擬定為治療祀點,則方法(Met-express)中通過:若給定一個癌症特異的基因共表達模塊,該模塊中的基因將處在相關的生物過程中或被共調控,若其中一個酶編碼基因與其在代謝網絡中的較多近鄰共存在此共表達模塊中,那麼該酶基因具有更大的改變癌細胞代謝狀況的可能性;
[0025]本發明所述的方法(Met-express)中,將癌症的表達晶片數據劃分為共表達模塊,並將該信息與KEGG的代謝網絡整合,根據模塊特異性及酶與代謝近鄰在模塊中的共存情況對每個酶基因進行打分,綜合來自不同表達晶片數據的結果,得到高分的預測;預測所得的酶基因和其相關代謝物(底物或產物)經文獻驗證,對有關癌症具有重要的潛在治療價值(如圖1所示)。
[0026]本發明的方法步驟(I)中,建立基因共表達網絡的步驟為,
[0027]從GEO資料庫(www.ncb1.nlm.nih.gov/geo)下載癌症的⑶S數據,小於10個樣本的數據集不納入考慮;所選取的數據集必須同時包括癌症樣本和正常樣本,尤其是來自組織而非細胞系的數據;實驗所用的樣本必須是未經藥物或其他刺激處理過的,因此,所選取的數據集在實驗背景上較為一致,更具有可比性,且由於選取的是組織數據,更接近於體內情況;
[0028]首先,對數據進行如下預處理:①在一個數據集中,對於每一個基因,若對應探針的表達中位值有不少於80%為空缺值,則該基因將被刪除,不用於後續分析;②對於每一種癌症,選取兩個數據集共有的基因進行後續分析;③對於每一個數據集,上述步驟之後留下的每一個基因,表達值取其對應的所有探針表達值的中位值;④對於每一個數據集,做Qauntile標準化(使用R中Iimma包的normal izeQuanti Ies函數)!⑤對於每一個數據集,用KNN的方法補缺失值(使用R中impute包的impute, knn函數);?將每一個數據集上表達值做log2轉化;
[0029]然後,依照Ruan等提出的基於表達相似度排序的構建基因共表達網絡的方法,對於每一個數據集建立一個共表達網絡;其中,表達相似度使用皮爾森相關係數(PearsonCorrelation Coefficient, PCC)度量,對於每個基因,將其他所有基因與之的表達相關度進行排序,取前三個基因作為共表達的基因;
[0030]本發明方法的步驟(2)中,劃分共表達網絡為模塊的步驟為:
[0031]採用Qcut對每一個共表達網絡進行模塊劃分,所得的亞網絡結構具有最優化的模塊度(Modularity函數function (Q)),且模塊內連接比隨機期待高;所述Qcut已經在合成網絡、社會網絡和真實生物學網絡中檢測過,該方法被證明能夠有效地找到特別有意義的、在特異GO terms (gene ontology terms)中富集基因的亞網絡(模塊);每一個數據集所劃分為模塊後,只選取基因數不小於10個的模塊進行之後的分析;
[0032]本發明方法的步驟(3)中,共表達網絡性質和模塊的癌症特異性計算的步驟為:
[0033]對每一個數據集,計算其中連接度與對應點的個數,分別取1glO底,畫圖,並計算線性回歸r值,得到所建立的共表達網絡的網絡性質;
[0034]其中,衡量一個模塊與癌症的相關程度的步驟為:檢測每個樣本中每個模塊基因表達的中位值,根據該中位值區分癌症和正常樣本的準確程度畫ROC曲線,對每一個曲線得到一個AUC值(曲線下面積),該面積範圍是O?I ;面積值越遠離0.5,代表該模塊表達值越能正確區分癌症和正常樣本,就認定該模塊與癌症的關係更緊密-AUC小於0.5代表該模塊在癌症中下調,而AUC大於0.5代表該模塊在癌症中上調(本發明對比了不同AUC的模塊所S集的GO );
[0035]本發明方法中,建立酶網絡的步驟為:
[0036]從KEGG 資料庫(www.genome, jp/kegg/)中下載人類的 KEGG Makeup Language(KGML)文件;所述KGML文件中包含代謝反應、對應的代謝物和酶、基因的信息;然後,根據人類代謝網絡,建立一個酶網絡;因為代謝網絡中參與眾多反應的一些代謝物,如H20,ATP和NADP等,會破壞網絡的結構,造成一些原本不存在的「近路」,因此需將該代謝物去掉;參照現有技術中使用的方法,用以下步驟去掉一部分代謝物:①統計代謝物所參與的反應數,發現大多數代謝物參與的反應數低於10個,一些代謝物參與10-18個反應,只有較少的代謝物參與大於18個反應,因此,首先去掉參與反應數大於18個的代謝物;②去掉只參與「Xenobiotics Biodegradation and Metabolism」 中代謝反應的代謝物;
[0037]然後,用篩選的代謝物和反應構建酶網絡;對於每一個酶A,若其參與反應的產物被另一個酶B用作反應底物,則A被連接到B,方向為A->B ;酶網絡的網絡性質用R的bi graph包進行計算;
[0038]本發明方法的步驟(4)中,預測關鍵酶和代謝物的步驟為:
[0039]將所構建人類酶網絡對應到酶編碼基因和共表達網絡模塊中後,對於每一個數據集的每一個模塊,計算每一個酶基因與模塊內和模塊外的酶基因在酶網絡中的連接數;若一個酶基因與模塊內其他酶基因在代謝網絡中的連接數(Cin)大於基於總連接數(Call)的期待值,則該酶基因被認為是一個關鍵酶基因;本發明採用下述打分公式衡量酶基因的重要程度:
【權利要求】
1.一種基於基因晶片數據和代謝網絡測定癌症關鍵代謝酶的方法,其特徵在於,其包括步驟: (1)選擇具有人類癌症、正常樣本對照的基因表達晶片數據,建立共表達網絡; (2)將共表達網絡劃分為模塊,並鑑定模塊的癌症特異性; (3)將共表達網絡模塊與人類代謝網絡整合,對代謝網絡中的每個酶進行打分; (4)結合來自不同癌症、不同數據集的結果,給出高分酶作為預測結果。
2.如權利要求1所述的方法,其特徵在於,所述步驟(1)中,建立基因共表達網絡的步驟為, 從GEO資料庫www.ncb1.nlm.nih.gov/geo下載癌症的⑶S數據,不納入小於10個樣本的數據集;所選取的數據集同時包括癌症樣本和正常樣本的組織的數據;實驗所用的樣本未經藥物或其他刺激處理; 首先,對數據進行如下預處理法: ①在一個數據集中,對於每一個基因,若對應探針的表達中位值有不少於80%為空缺值,則該基因被刪除,不用於後續分析; ②對於每一種 癌症,選取兩個數據集共有的基因進行後續分析; ③對於每一個數據集,上述步驟之後留下的每一個基因,表達值取其對應的所有探針表達值的中位值; ④對於每一個數據集,做Qauntile標準化,使用R中Iimma包的normalizeQuantiIes函數; ⑤對於每一個數據集,用KNN的方法補缺失值,使用R中impute包的impute,knn函數; ⑥將每一個數據集上表達值做log2轉化; 然後,依照基於表達相似度排序的構建基因共表達網絡的方法,對每一個數據集建立一個共表達網絡,其中,表達相似度使用皮爾森相關係數度量,對於每個基因,將其他所有基因與之的表達相關度進行排序,取前三個基因作為共表達的基因。
3.如權利要求1所述的方法,其特徵在於,所述步驟(2)中,劃分共表達網絡為模塊的步驟為: 採用Qcut對每一個共表達網絡進行模塊劃分,所得的亞網絡結構具有最優化的模塊度Modularity函數function (Q),且模塊內連接比隨機期待高;每一個數據集所劃分為模塊後,只選取基因數不小於10個的模塊進行之後的分析。
4.如權利要求1所述的方法,其特徵在於,所述步驟(3)中,共表達網絡性質和模塊的癌症特異性計算的步驟為: 對每一個數據集,計算其中連接度與對應點的個數,分別取1glO底,畫圖,並計算線性回歸r值,得到所建立的共表達網絡的網絡性質; 其中,衡量一個模塊與癌症的相關程度的步驟為:檢測每個樣本中每個模炔基因表達的中位值,根據該中位值區分癌症和正常樣本的準確程度畫ROC曲線,對每一個曲線得到一個AUC值,該面積範圍是O~I ;面積值越遠離0.5,代表該模塊表達值越能正確區分癌症和正常樣本,則認定該模塊與癌症的關係緊密;AUC小於0.5代表該模塊在癌症中下調,AUC大於0.5代表該模塊在癌症中上調。
5.如權利要求1所述的方法,其特徵在於,所述步驟(3)中,建立酶網絡的步驟為: 從 KEGG 資料庫 www.genome, jp/kegg/ 中下載人類的 KEGG Makeup Language 文件;所述KGML文件中包含代謝反應、對應的代謝物和酶、基因的信息; 然後,根據人類代謝網絡,建立一個酶網絡; 採用以下步驟去掉一部分代謝物:①統計代謝物所參與的反應數,去掉參與反應數大於18個的代謝物;②去掉只參與「Xenobiotics Biodegradation and Metabolism」中代謝反應的代謝物; 用篩選的代謝物和反應構建酶網絡;對於每一個酶A,若其參與反應的產物被另一個酶B用作反應底物,則A被連接到B,方向為A->B ;酶網絡的網絡性質用R的bigraph包進行計算。
6.如權利要求1所述的方法,其特徵在於,所述步驟(4)中,預測關鍵酶和代謝物的步驟為: 將所述的人類酶網絡對應到酶編碼基因和共表達網絡模塊中後,對每一個數據集的每一個模塊,計算每一個酶基因與模塊內和模塊外的酶基因在酶網絡中的連接數;若一個酶基因與模塊內其他酶基因在代謝網絡中的連接數Cin大於基於總連接數Call的期待值,則該酶基因被認為是一個關鍵酶基因,採用下述打分公式衡量酶基因的重要程度:
7.權利要求1所述的方法在篩選癌症藥物靶點中的用途。
8.權利要求1所述的方法在篩選與代謝重調相關的藥物靶點中的用途。
【文檔編號】G06F19/10GK103902849SQ201210588060
【公開日】2014年7月2日 申請日期:2012年12月30日 優先權日:2012年12月30日
【發明者】田衛東, 陳靖琪 申請人:復旦大學