由連續的基因表達譜構建基因調控網絡方法
2023-04-27 23:12:11 1
專利名稱:由連續的基因表達譜構建基因調控網絡方法
技術領域:
本發明涉及生物晶片基因表達譜系統,大規模基因晶片連續表達譜數據的分析技術領域。特別是一種由連續的基因表達譜構建基因調控網絡方法。
背景技術:
基因表達譜晶片可以分為差異表達晶片和連續表達晶片。差異表達晶片可以同時檢測正常組織和腫瘤組織的基因表達水平,發現異常表達的基因。連續表達晶片可以檢測基因在組織中一段時間表達量的變化,發現基因表達量隨時間變化的規律。發現基因變異和基因異常表達的檢測晶片已經在臨床上廣泛應用,而連續表達晶片數據分析多應用在科學研究領域。
對連續表達晶片的分析目前僅停留在確定基因共表達的水平上。這種分析的方法應用於大規模基因表達譜數據的分析,起始於1998年建立的表達譜數據聚類的分析方法,當時的分析涉及了酵母細胞的6178個基因,共83個時間點的表達譜數據。聚類分析是利用基因兩兩之間表達譜的相似程度,確定共同表達的基因。
表達譜聚類分析的核心是確定基因兩兩之間的表達譜相似性的度量,直觀的理解為基因兩兩之間的距離。基因間距離的計算有主要有三種方法即Pearson相關性、Euclidean距離和Spearman相關性。其中,Pearson相關性對基因表達水平起伏較大的調控關係敏感,而對基因絕對的表達量不敏感,是最常選用的基因間表達譜相似距離的計算方法。Euclidean距離的計算主要是根據基因的絕對表達量。如果在一段時間內,兩個基因的表達十分一致,而它們的絕對表達量不同,它們之間的Euclidean距離也會很遠。Spearman相關性分析主要是用在表達譜原始數據的分析上,因為它對數據中起伏較大的極值不敏感,其他方面它和Pearson相關性相當。
對表達譜進行基因調控關係的分析只能小規模的進行或者進行特定的分析。從大規模的基因表達譜數據提取基因調控網絡信息是一個難題,原因如下,第一,基因數目多,調控關係複雜。例如,最簡單的真核生物酵母有6000多個基因,人類估計有3-5萬基因。這麼多的基因,要實現總個生物體所有的生理功能,它們之間的調控關係的複雜性可想而知。
第二,現在對基因表達水平大規模測定的技術有限,不能準確地測定所有基因在一定時間範圍內的表達水平。雖然基因晶片技術的發展可以同時測定成千上萬個基因的表達水平,但是不能保證測定的這成千上萬個基因的表達水平都具有很高的準確性,由這些數據來構造基因調控網絡,準確性不會很高。
發明內容
本發明的目的在於提供一種由連續的基因表達譜構建基因調控網絡方法。本發明的由連續的基因表達譜構建基因調控網絡方法,很好的避免了上述從大規模的基因表達譜數據提取基因調控網絡的局限。
本發明涉及的基因表達譜晶片數據,是利用基因晶片技術,對於特定生物組織(或細胞)採用按一定時間間隔取樣的方法,在一定時間內(如一個細胞周期內),測定若干個基因多個時間點的表達水平。通過不同時間間隔來控制時間點的數目。通過選取較多的時間點(密的時間間隔),來降低基因晶片技術的本身的誤差,使最終構建的基因調控網絡更準確。
本發明設計的基因兩兩之間調控關係的距離計算方法,可以獲得基因間的調控關係。這個距離表示了基因間表達量的時空關係,具有大小、方向和一定相位差。對於每兩個基因,通過對多個相位差情況下分別計算調控關係的距離,取最優值,從而引入它們之間調控的相位信息。這樣更有可能獲得基因間真實的調控關係。這不同於對大規模晶片數據的基因共表達分析,後者只提供基因間沒有相位差的距離。構建基因調控網絡的方法是按照調控關係距離的絕對值大小順序進行循環選擇,全面考慮了基因之間的正調控和負調控。這種對正調控和負調控的考慮有別於普通的聚類方法。
在構建基因調控網絡過程中,最新被選擇的調控關係的兩個基因和已經生成的調控網絡當中的基因,如果有直接或間接的連接,在以後的選擇過程中忽略它們之間的調控關係。這種策略簡化了基因網絡,只保留了最重要的調控關係,認為後生成的調控關係是對已生成的基因集團的調控。
這個方法可以應用到基因調控網絡的研究,腫瘤組織相關基因網絡的建立,疾病相關基因調控機制的研究等領域。利用這個方法和特定生理、病理的大規模的基因晶片表達譜數據,可以把連續表達晶片分析推廣到臨床應用領域。
發明技術方案一種由連續的基因表達譜構建基因調控網絡方法,該方法包括如下步驟a)獲得若干個基因的若干個時間點的連續表達譜基因晶片數據;b)確定所有基因兩兩之間的調控關係距離;c)選擇特定基因間的調控關係距離構建基因調控網絡。
所述步驟a)中的若干個基因的若干個時間點的連續表達譜基因晶片數據,是利用基因晶片技術,對於特定生物組織或細胞,採用按一定時間間隔取樣的方法,在一段時間內(如一個細胞周期內),測定這些基因的多個時間點的表達水平。
所述步驟c)中構建基因調控網絡,其方法是按照調控關係距離的絕對值大小順序進行循環選擇,每次循環增加兩個基因間的一個調控關係進入待構建的基因調控網絡。
所述基因調控網絡的循環構建方法,在基因調控關係選擇過程中,最新被選擇的調控關係的兩個基因和已經生成的調控網絡當中的基因,如果有直接或間接的連接,在以後的選擇過程中忽略它們之間的調控關係。
所述構建的基因調控網絡是一個全連通的有權、有向網絡,每個調控關係都具有大小、方向和相位,總個網絡含有比所有基因的總數目少1的調控關係數。
圖1是本發明的由連續的基因表達譜構建基因調控網絡方法流程圖。
圖1中,顯示了表達譜晶片數據的獲得、基因調控關係距離計算,基因調控網路的生成等主要步驟。(以M個基因N個時間點為例)S1,利用基因晶片測定M個基因N個時間點的表達數據;S2,對於M個基因的每兩個基因,通過對多個相位差情況下分別計算調控關係距離,取最優值作為它們間可能的調控關係;S3,用循環選擇的方法構建基因調控網絡,每次生成兩個基因間的一個調控關係;S4,完成基因調控網絡及對基因調控網絡進行信息獲取。
具體實施例方式
為實現上述目的,由連續的基因表達譜構建基因調控網絡,需要以下四個步驟(見圖1)1.獲得連續表達譜晶片數據以M個基因為例,利用基因晶片測定M個基因的N個時間的基因表達譜數據。
對於特定的生物組織(或細胞),採用特定時間間隔取樣的方法,利用基因晶片技術,測定M個基因的N個時間的表達譜數據。舉例說明為人肝相關的2,000個基因在細胞培養的0分鐘,5分鐘,10分鐘,15分鐘,……,270分鐘,275分鐘,共56個時間點的表達水平就是一套連續的基因晶片表達譜數據。連續的基因晶片表達譜數據可以表示為M行N列組成的一個表,每一行表示一個基因,每一列是基因在各個時間點上的表達量。
2.基因兩兩間調控關係距離的確定對於M個基因的每兩個,通過對多個相位差情況下分別計算調控關係距離,選取最優值作為它們間可能的調控關係。由計算過程中獲得的調控關係距離的絕對值、正負符號和相位,確定這個調控關係的大小、方向和相位差。
以M個基因N個時間點的連續基因晶片表達譜數據為例。取M個基因每一個,和剩餘的M-1個基因兩兩配對。對於調控關係距離的計算,可以是兩個基因的相應的N個時間點對齊,也可以前後進行小於或等於k個錯位。得到2k+1個相位調控關係距離D-k,D-k+1,D-k+2,……,D-1,D0,D1,……,Dk-1,Dk。
例如,計算相位差為p(取值[-k,k],k表示最大於允許相位差)的基因x和基因y間調控關係距離公式為Dp=i=max[1,p]min[N,N+p](xi-x)(yi+p-y)(i=1N(xi-x)2)(i=1N(yi-y)2),]]>其中,N表示總的時間點個數,xi和yi分別表示兩基因的表達譜第i個時間點的表達量,x和y分別表示兩個基因的N個時間點表達量的平均值,min和max分別指其中的最小值和最大值。
在2k+1個調控關係距離D-k,D-k+1,D-k+2,……,D-1,D0,D1,……,Dk-1,Dk,中取絕對值|Dp|最大的Dp作為基因x和基因y間可能的調控關係距離,距離Dp是-1和1之間的一個值。
調控關係方向由調控關係距離Dp中的p的符號確定p<0表示基因y調控基因x,p>0表示基因x調控基因y,p=0表示基因x和基因y互相調控(或者是共表達)。
調控關係相位由調控關係距離Dp的p等於絕對值|p|。
所述任兩基因間的通過計算獲得的2k+1個候選調控關係距離,選擇其中絕對值最大的一個作為它們之間的調控關係距離。
所述被選擇的調控關係距離,具有大小、方向和相位差,分別由該調控關係距離計算過程中獲得的絕對值和正負符號和相位決定。
3.基因調控網絡的構建方法以上計算出M個基因兩兩之間的調控關係的距離、方向和相位,利用循環選擇的方法構建基因調控網絡。按照調控關係距離的絕對值大小順序進行循環選擇,每次循環增加兩個基因間的一個調控關係進入待構建的基因調控網絡。在基因調控關係選擇過程中,最新被選擇的調控關係的兩個基因和已經生成的調控網絡當中的基因,如果有直接或間接的連接,在以後的選擇過程中忽略它們之間的調控關係。具體方法如下a)找出調控關係距離的絕對值|Dp|最大兩個基因,比如基因x和基因y,通過調控關係的距離、方向和相位確定基因x和基因y的相互關係。可能的調控關係是一下六種之一基因正x調控基因y(Dp>0;p>0)、基因正y調控基因x(Dp>0;p<0)、基因負x調控基因y(Dp<0;p>0)、基因負y調控基因x(Dp>0;p<0)、基因x與基因y共表達(Dp>0;p=0)和基因x與基因y抑制共表達(Dp<0;p=0)。如果基因x和基因y單向調控,調控的相位為|p|。紀錄基因x和基因y的調控關係和相位。
b)把步驟a)已紀錄的基因x和基因y合併成一個基因單元,去除它們之間的調控關係,在剩餘的兩兩關係距離中重複步驟a)。
c)如果調控關係距離的絕對值|Dp|最大的兩個基因,如x和y,其中之一或者兩個都包含於已經合併的基因單元當中,在步驟b)中,把基因和基因單元或者基因單元和基因單元合併成更大的基因單元。在合成後生成的基因單元中,把所有基因間存在的調控關係刪除。繼續步驟b)。
經過M-1次循環,可以生成一個包含全部M個基因的調控關係的網絡。基因間的調控是有方向和相位的,相位乘連續表達譜相鄰時間間隔就是基因調控的時序。
4.基因調控網絡的信息獲取通過以上的步驟,形成了包含M個基因的基因調控關係的網絡。利用以下的方法,可以對生成的這個網絡的整體信息和局部信息進行抽提。
a)整體信息抽提整個網絡就是所有M個基因的調控關係。
b)局部信息抽提在整個調控網絡中去除最後生成的調控關係的兩個基因之間的調控,就形成了兩個子調控網絡。每個子網絡都可以按相同的方法去除當中最後生成的調控關係的兩個基因間的調控,……,如此,循環可以遍歷基因調控網絡中任何的子調控網絡的結構。
權利要求
1.一種由連續的基因表達譜構建基因調控網絡方法,其特徵在於該方法包括如下步驟a)獲得若干個基因的若干個時間點的連續表達譜基因晶片數據;b)確定所有基因兩兩之間的調控關係距離;c)選擇特定基因間的調控關係距離構建基因調控網絡。
2.根據權利要求1所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述步驟a)中的若干個基因的若干個時間點的連續表達譜基因晶片數據,是利用基因晶片技術,對於特定生物組織或細胞,採用按一定時間間隔取樣的方法,在一段時間內,測定這些基因的多個時間點的表達水平。
3.根據權利要求1所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述步驟b)中的兩基因間的調控關係距離的計算方法,以基因x和y為例,它們之間調控關係距離的計算公式為Dp=i=max[1,p]min[N,N+p](xi-x)(yi+p-y)(i=1N(xi-x)2)(i=1N(yi-y)2),]]>其中,N表示總的時間點個數,xi和yi分別表示兩基因的表達譜第i個時間點的表達量,x和y分別表示兩個基因的N個時間點表達量的平均值,p為相位差(取值[-k,k],k表示最大於允許相位差),min和max分別指其中的最小值和最大值,通過計算,每對基因間有2k+1個候選的調控關係距離。
4.根據權利要求3所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述任兩基因間的通過計算獲得的2k+1個候選調控關係距離,選擇其中絕對值最大的一個作為它們之間的調控關係距離。
5.根據權利要求3或4所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述被選擇的調控關係距離,具有大小、方向和相位差,分別由該調控關係距離計算過程中獲得的絕對值和正負符號和相位決定。
6.根據權利要求1所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述步驟c)中構建基因調控網絡,其方法是按照調控關係距離的絕對值大小順序進行循環選擇,每次循環增加兩個基因間的一個調控關係進入待構建的基因調控網絡。
7.根據權利要求6所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述基因調控網絡的循環構建方法,在基因調控關係選擇過程中,最新被選擇的調控關係的兩個基因和已經生成的調控網絡當中的基因,如果有直接或間接的連接,在以後的選擇過程中忽略它們之間的調控關係。
8.根據權利要求6或7所述的由連續的基因表達譜構建基因調控網絡方法,其特徵在於,所述構建的基因調控網絡是一個全連通的有權、有向網絡,每個調控關係都具有大小、方向和相位,總個網絡含有比所有基因的總數目少1的調控關係數。
9.根據權利要求1所述的由連續的基因表達譜構建基因調控網絡方法,其具體步驟如下S1,利用基因晶片測定M個基因N個時間點的表達數據;S2,對於M個基因的每兩個基因,通過對多個相位差情況下分別計算調控關係距離,取最優值作為它們間可能的調控關係;S3,用循環選擇的方法構建基因調控網絡,每次生成兩個基因間的一個調控關係;S4,完成基因調控網絡及對基因調控網絡進行信息獲取。
全文摘要
本發明涉及生物晶片基因表達譜系統,對大規模基因晶片連續表達譜數據的分析技術領域。特別是一種由連續的基因表達譜構建基因調控網絡方法。該方法考慮基因調控的大小、方向和時間的相位差。通過大規模的基因晶片連續表達譜數據,考慮表達量隨時間的變化情況,計算基因間的調控關係的距離,通過對基因間調控關係的距離的聚類分析,構建大規模的基因調控網絡。其步驟a)獲得若干個基因的若干個時間點的連續表達譜基因晶片數據;b)確定所有基因兩兩之間的調控關係距離;c)選擇特定基因間的調控關係距離構建基因調控網絡。
文檔編號C12Q1/68GK1560271SQ200410005568
公開日2005年1月5日 申請日期2004年2月18日 優先權日2004年2月18日
發明者蔡倫, 李志廣, 熊江輝, 蔡 倫 申請人:中國科學院計算技術研究所