新四季網

由連續的基因表達譜構建基因調控網絡方法

2023-04-27 23:12:11 1

專利名稱:由連續的基因表達譜構建基因調控網絡方法
技術領域:
本發明涉及生物晶片基因表達譜系統,大規模基因晶片連續表達譜數據的分析技術領域。特別是一種由連續的基因表達譜構建基因調控網絡方法。
背景技術:
基因表達譜晶片可以分為差異表達晶片和連續表達晶片。差異表達晶片可以同時檢測正常組織和腫瘤組織的基因表達水平,發現異常表達的基因。連續表達晶片可以檢測基因在組織中一段時間表達量的變化,發現基因表達量隨時間變化的規律。發現基因變異和基因異常表達的檢測晶片已經在臨床上廣泛應用,而連續表達晶片數據分析多應用在科學研究領域。
對連續表達晶片的分析目前僅停留在確定基因共表達的水平上。這種分析的方法應用於大規模基因表達譜數據的分析,起始於1998年建立的表達譜數據聚類的分析方法,當時的分析涉及了酵母細胞的6178個基因,共83個時間點的表達譜數據。聚類分析是利用基因兩兩之間表達譜的相似程度,確定共同表達的基因。
表達譜聚類分析的核心是確定基因兩兩之間的表達譜相似性的度量,直觀的理解為基因兩兩之間的距離。基因間距離的計算有主要有三種方法即Pearson相關性、Euclidean距離和Spearman相關性。其中,Pearson相關性對基因表達水平起伏較大的調控關係敏感,而對基因絕對的表達量不敏感,是最常選用的基因間表達譜相似距離的計算方法。Euclidean距離的計算主要是根據基因的絕對表達量。如果在一段時間內,兩個基因的表達十分一致,而它們的絕對表達量不同,它們之間的Euclidean距離也會很遠。Spearman相關性分析主要是用在表達譜原始數據的分析上,因為它對數據中起伏較大的極值不敏感,其他方面它和Pearson相關性相當。
對表達譜進行基因調控關係的分析只能小規模的進行或者進行特定的分析。從大規模的基因表達譜數據提取基因調控網絡信息是一個難題,原因如下,第一,基因數目多,調控關係複雜。例如,最簡單的真核生物酵母有6000多個基因,人類估計有3-5萬基因。這麼多的基因,要實現總個生物體所有的生理功能,它們之間的調控關係的複雜性可想而知。
第二,現在對基因表達水平大規模測定的技術有限,不能準確地測定所有基因在一定時間範圍內的表達水平。雖然基因晶片技術的發展可以同時測定成千上萬個基因的表達水平,但是不能保證測定的這成千上萬個基因的表達水平都具有很高的準確性,由這些數據來構造基因調控網絡,準確性不會很高。

發明內容
本發明的目的在於提供一種由連續的基因表達譜構建基因調控網絡方法。本發明的由連續的基因表達譜構建基因調控網絡方法,很好的避免了上述從大規模的基因表達譜數據提取基因調控網絡的局限。
本發明涉及的基因表達譜晶片數據,是利用基因晶片技術,對於特定生物組織(或細胞)採用按一定時間間隔取樣的方法,在一定時間內(如一個細胞周期內),測定若干個基因多個時間點的表達水平。通過不同時間間隔來控制時間點的數目。通過選取較多的時間點(密的時間間隔),來降低基因晶片技術的本身的誤差,使最終構建的基因調控網絡更準確。
本發明設計的基因兩兩之間調控關係的距離計算方法,可以獲得基因間的調控關係。這個距離表示了基因間表達量的時空關係,具有大小、方向和一定相位差。對於每兩個基因,通過對多個相位差情況下分別計算調控關係的距離,取最優值,從而引入它們之間調控的相位信息。這樣更有可能獲得基因間真實的調控關係。這不同於對大規模晶片數據的基因共表達分析,後者只提供基因間沒有相位差的距離。構建基因調控網絡的方法是按照調控關係距離的絕對值大小順序進行循環選擇,全面考慮了基因之間的正調控和負調控。這種對正調控和負調控的考慮有別於普通的聚類方法。
在構建基因調控網絡過程中,最新被選擇的調控關係的兩個基因和已經生成的調控網絡當中的基因,如果有直接或間接的連接,在以後的選擇過程中忽略它們之間的調控關係。這種策略簡化了基因網絡,只保留了最重要的調控關係,認為後生成的調控關係是對已生成的基因集團的調控。
這個方法可以應用到基因調控網絡的研究,腫瘤組織相關基因網絡的建立,疾病相關基因調控機制的研究等領域。利用這個方法和特定生理、病理的大規模的基因晶片表達譜數據,可以把連續表達晶片分析推廣到臨床應用領域。
發明技術方案一種由連續的基因表達譜構建基因調控網絡方法,該方法包括如下步驟a)獲得若干個基因的若干個時間點的連續表達譜基因晶片數據;b)確定所有基因兩兩之間的調控關係距離;c)選擇特定基因間的調控關係距離構建基因調控網絡。
所述步驟a)中的若干個基因的若干個時間點的連續表達譜基因晶片數據,是利用基因晶片技術,對於特定生物組織或細胞,採用按一定時間間隔取樣的方法,在一段時間內(如一個細胞周期內),測定這些基因的多個時間點的表達水平。
所述步驟c)中構建基因調控網絡,其方法是按照調控關係距離的絕對值大小順序進行循環選擇,每次循環增加兩個基因間的一個調控關係進入待構建的基因調控網絡。
所述基因調控網絡的循環構建方法,在基因調控關係選擇過程中,最新被選擇的調控關係的兩個基因和已經生成的調控網絡當中的基因,如果有直接或間接的連接,在以後的選擇過程中忽略它們之間的調控關係。
所述構建的基因調控網絡是一個全連通的有權、有向網絡,每個調控關係都具有大小、方向和相位,總個網絡含有比所有基因的總數目少1的調控關係數。


圖1是本發明的由連續的基因表達譜構建基因調控網絡方法流程圖。
圖1中,顯示了表達譜晶片數據的獲得、基因調控關係距離計算,基因調控網路的生成等主要步驟。(以M個基因N個時間點為例)S1,利用基因晶片測定M個基因N個時間點的表達數據;S2,對於M個基因的每兩個基因,通過對多個相位差情況下分別計算調控關係距離,取最優值作為它們間可能的調控關係;S3,用循環選擇的方法構建基因調控網絡,每次生成兩個基因間的一個調控關係;S4,完成基因調控網絡及對基因調控網絡進行信息獲取。
具體實施例方式
為實現上述目的,由連續的基因表達譜構建基因調控網絡,需要以下四個步驟(見圖1)1.獲得連續表達譜晶片數據以M個基因為例,利用基因晶片測定M個基因的N個時間的基因表達譜數據。
對於特定的生物組織(或細胞),採用特定時間間隔取樣的方法,利用基因晶片技術,測定M個基因的N個時間的表達譜數據。舉例說明為人肝相關的2,000個基因在細胞培養的0分鐘,5分鐘,10分鐘,15分鐘,……,270分鐘,275分鐘,共56個時間點的表達水平就是一套連續的基因晶片表達譜數據。連續的基因晶片表達譜數據可以表示為M行N列組成的一個表,每一行表示一個基因,每一列是基因在各個時間點上的表達量。
2.基因兩兩間調控關係距離的確定對於M個基因的每兩個,通過對多個相位差情況下分別計算調控關係距離,選取最優值作為它們間可能的調控關係。由計算過程中獲得的調控關係距離的絕對值、正負符號和相位,確定這個調控關係的大小、方向和相位差。
以M個基因N個時間點的連續基因晶片表達譜數據為例。取M個基因每一個,和剩餘的M-1個基因兩兩配對。對於調控關係距離的計算,可以是兩個基因的相應的N個時間點對齊,也可以前後進行小於或等於k個錯位。得到2k+1個相位調控關係距離D-k,D-k+1,D-k+2,……,D-1,D0,D1,……,Dk-1,Dk。
例如,計算相位差為p(取值[-k,k],k表示最大於允許相位差)的基因x和基因y間調控關係距離公式為Dp=i=max[1,p]min[N,N+p](xi-x)(yi+p-y)(i=1N(xi-x)2)(i=1N(yi-y)2),]]>其中,N表示總的時間點個數,xi和yi分別表示兩基因的表達譜第i個時間點的表達量,x和y分別表示兩個基因的N個時間點表達量的平均值,min和max分別指其中的最小值和最大值。
在2k+1個調控關係距離D-k,D-k+1,D-k+2,……,D-1,D0,D1,……,Dk-1,Dk,中取絕對值|Dp|最大的Dp作為基因x和基因y間可能的調控關係距離,距離Dp是-1和1之間的一個值。
調控關係方向由調控關係距離Dp中的p的符號確定p<0表示基因y調控基因x,p>0表示基因x調控基因y,p=0表示基因x和基因y互相調控(或者是共表達)。
調控關係相位由調控關係距離Dp的p等於絕對值|p|。
所述任兩基因間的通過計算獲得的2k+1個候選調控關係距離,選擇其中絕對值最大的一個作為它們之間的調控關係距離。
所述被選擇的調控關係距離,具有大小、方向和相位差,分別由該調控關係距離計算過程中獲得的絕對值和正負符號和相位決定。
3.基因調控網絡的構建方法以上計算出M個基因兩兩之間的調控關係的距離、方向和相位,利用循環選擇的方法構建基因調控網絡。按照調控關係距離的絕對值大小順序進行循環選擇,每次循環增加兩個基因間的一個調控關係進入待構建的基因調控網絡。在基因調控關係選擇過程中,最新被選擇的調控關係的兩個基因和已經生成的調控網絡當中的基因,如果有直接或間接的連接,在以後的選擇過程中忽略它們之間的調控關係。具體方法如下a)找出調控關係距離的絕對值|Dp|最大兩個基因,比如基因x和基因y,通過調控關係的距離、方向和相位確定基因x和基因y的相互關係。可能的調控關係是一下六種之一基因正x調控基因y(Dp>0;p>0)、基因正y調控基因x(Dp>0;p<0)、基因負x調控基因y(Dp<0;p>0)、基因負y調控基因x(Dp>0;p<0)、基因x與基因y共表達(Dp>0;p=0)和基因x與基因y抑制共表達(Dp<0;p=0)。如果基因x和基因y單向調控,調控的相位為|p|。紀錄基因x和基因y的調控關係和相位。
b)把步驟a)已紀錄的基因x和基因y合併成一個基因單元,去除它們之間的調控關係,在剩餘的兩兩關係距離中重複步驟a)。
c)如果調控關係距離的絕對值|Dp|最大的兩個基因,如x和y,其中之一或者兩個都包含於已經合併的基因單元當中,在步驟b)中,把基因和基因單元或者基因單元和基因單元合併成更大的基因單元。在合成後生成的基因單元中,把所有基因間存在的調控關係刪除。繼續步驟b)。
經過M-1次循環,可以生成一個包含全部M個基因的調控關係的網絡。基因間的調控是有方向和相位的,相位乘連續表達譜相鄰時間間隔就是基因調控的時序。
4.基因調控網絡的信息獲取通過以上的步驟,形成了包含M個基因的基因調控關係的網絡。利用以下的方法,可以對生成的這個網絡的整體信息和局部信息進行抽提。
a)整體信息抽提整個網絡就是所有M個基因的調控關係。
b)局部信息抽提在整個調控網絡中去除最後生成的調控關係的兩個基因之間的調控,就形成了兩個子調控網絡。每個子網絡都可以按相同的方法去除當中最後生成的調控關係的兩個基因間的調控,……,如此,循環可以遍歷基因調控網絡中任何的子調控網絡的結構。
權利要求
1.一種由連續的基因表達譜構建基因調控網絡方法,其特徵在於該方法包括如下步驟a)獲得若干個基因的若干個時間點的連續表達譜基因晶片數據;b)確定所有基因兩兩之間的調控關係距離;c)選擇特定基因間的調控關係距離構建基因調控網絡。
2.根據權利要求1所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述步驟a)中的若干個基因的若干個時間點的連續表達譜基因晶片數據,是利用基因晶片技術,對於特定生物組織或細胞,採用按一定時間間隔取樣的方法,在一段時間內,測定這些基因的多個時間點的表達水平。
3.根據權利要求1所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述步驟b)中的兩基因間的調控關係距離的計算方法,以基因x和y為例,它們之間調控關係距離的計算公式為Dp=i=max[1,p]min[N,N+p](xi-x)(yi+p-y)(i=1N(xi-x)2)(i=1N(yi-y)2),]]>其中,N表示總的時間點個數,xi和yi分別表示兩基因的表達譜第i個時間點的表達量,x和y分別表示兩個基因的N個時間點表達量的平均值,p為相位差(取值[-k,k],k表示最大於允許相位差),min和max分別指其中的最小值和最大值,通過計算,每對基因間有2k+1個候選的調控關係距離。
4.根據權利要求3所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述任兩基因間的通過計算獲得的2k+1個候選調控關係距離,選擇其中絕對值最大的一個作為它們之間的調控關係距離。
5.根據權利要求3或4所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述被選擇的調控關係距離,具有大小、方向和相位差,分別由該調控關係距離計算過程中獲得的絕對值和正負符號和相位決定。
6.根據權利要求1所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述步驟c)中構建基因調控網絡,其方法是按照調控關係距離的絕對值大小順序進行循環選擇,每次循環增加兩個基因間的一個調控關係進入待構建的基因調控網絡。
7.根據權利要求6所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述基因調控網絡的循環構建方法,在基因調控關係選擇過程中,最新被選擇的調控關係的兩個基因和已經生成的調控網絡當中的基因,如果有直接或間接的連接,在以後的選擇過程中忽略它們之間的調控關係。
8.根據權利要求6或7所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述構建的基因調控網絡是一個全連通的有權、有向網絡,每個調控關係都具有大小、方向和相位,總個網絡含有比所有基因的總數目少1的調控關係數。
9.根據權利要求1所述的由連續的基因表達譜構建基因調控網絡方法,其具體步驟如下S1,利用基因晶片測定M個基因N個時間點的表達數據;S2,對於M個基因的每兩個基因,通過對多個相位差情況下分別計算調控關係距離,取最優值作為它們間可能的調控關係;S3,用循環選擇的方法構建基因調控網絡,每次生成兩個基因間的一個調控關係;S4,完成基因調控網絡及對基因調控網絡進行信息獲取。
全文摘要
本發明涉及生物晶片基因表達譜系統,對大規模基因晶片連續表達譜數據的分析技術領域。特別是一種由連續的基因表達譜構建基因調控網絡方法。該方法考慮基因調控的大小、方向和時間的相位差。通過大規模的基因晶片連續表達譜數據,考慮表達量隨時間的變化情況,計算基因間的調控關係的距離,通過對基因間調控關係的距離的聚類分析,構建大規模的基因調控網絡。其步驟a)獲得若干個基因的若干個時間點的連續表達譜基因晶片數據;b)確定所有基因兩兩之間的調控關係距離;c)選擇特定基因間的調控關係距離構建基因調控網絡。
文檔編號C12Q1/68GK1560271SQ200410005568
公開日2005年1月5日 申請日期2004年2月18日 優先權日2004年2月18日
發明者蔡倫, 李志廣, 熊江輝, 蔡 倫 申請人:中國科學院計算技術研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀