新四季網

一種在染色體上定位並顯示生物基因表達信息及環境敏感區域的方法

2023-04-26 04:45:51

一種在染色體上定位並顯示生物基因表達信息及環境敏感區域的方法
【專利摘要】本發明提供了一種在染色體上定位顯示生物基因表達信息及環境敏感區域的方法以及系統。該方法包括:下載生物染色體基因組序列;讀入相應生物樣本基因表達晶片數據後經對照處理、對數處理和歸一化處理,得環境條件值;將基因表達晶片數據矩陣中的基因名字與下載的生物染色體基因序列中基因名字相匹配後,將基因的環境條件值定位到生物體基因組序列中對應基因位置上;根據定位的環境條件值,得生物染色體基因組上基因表達圖像以及環境敏感區域。本發明實現了表達變化的基因在染色體上的分布特徵的可視化功能,可獲得環境敏感區域基因的分布特徵數據,為在染色體層面上分析基因表達變化敏感區域,推測環境敏感型的轉錄因子提供有效的幫助。
【專利說明】一種在染色體上定位並顯示生物基因表達信息及環境敏感區域的方法

【技術領域】
[0001]本發明屬於生物信息【技術領域】,涉及一種可以將基因表達信息定位到染色體上進而分析染色體上基因表達變化敏感區域的方法。

【背景技術】
[0002]基因晶片技術採用光導原位合成或直接微量點樣等方法,將大量DNA片段或寡核苷酸片段有序地固化於濾膜、矽片等支持物的表面,待檢樣品用同位素或螢光分子標記後,與微矩陣雜交,通過檢測每個探針分子的雜交信號強度,進而獲取樣品分子的數量和序列信息。目前基因晶片主要用於基因表達水平的檢測,基因診斷,藥物篩選,個體化醫療,測序服務以及生物信息學等方面的研究。
[0003]表達譜基因晶片的出現為檢測整個基因組的表達情況提供了極為有力的幫助。一次微陣列實驗能獲得細胞在某一條件下的全基因組表達數據,構成了一個數據矩陣集,行向量代表基因,列向量代表某一條件各基因的表達水平。成千上萬個基因表達數據很難人工查找計算,迫切需要計算機參與處理以獲取所需信息。然而基因表達譜分析技術尚處於發展初期,開發適時高效的生物學軟體已成為當務之急。
[0004]模式生物在生物學和醫學研究中佔有十分重要的地位,其研究結果可以推演和應用到人類遺傳、疾病等生命科學的研究中。秀麗隱杆線蟲(簡稱線蟲)具有基因測序完整、基因與人類同源性很高、細胞發育譜系清晰等特點,被廣泛應用到各項生物學和醫學研究中,是一種經典的模式生物學材料。與正常環境下的線蟲相比,特定環境會誘導線蟲某些基因的表達水平發生上調或者下調的改變,進而導致基因轉錄成mRNA和翻譯成蛋白質時受到正性或負性調控,影響生物體的行為,表型,生理活動,甚至導致癌症或死亡。本發明中,經過特定環境處理的線蟲同一染色體上三個或三個以上的相鄰位點上,基因表達信息連續發生上調或者下調變化的基因區域被推測為基因表達熱點區域,即可能的基因表達變化環境敏感區域。
[0005]染色體的結構、基因表達以及調控之間能夠相互影響。從基因組以至染色體層面分析基因表達情況,將基因表達信息回歸定位到相應染色體上進行生物功能預測和分析是生物學重要的研究內容。基因晶片測得的原始的線蟲全基因組表達數據雖然具有線蟲完整的基因表達信息,但是並未按照線蟲基因在染色體上對應的位置順序排序。生物學研究者要分析表達改變的基因所對應編碼的DNA序列是否是環境易感區,即表達熱點區域在染色體上的分布情況,需要先將其回歸定位到基因所在的染色體上,再根據表達信息產生變化的基因在對應染色體上的分布位置,獲取染色體上環境誘變的上下調控的基因區域信息。這對於從基因組以至染色體層面分析環境誘變的生物學效應具有重要的意義。因此很有必要開發一種能夠在染色體上定位顯示模式生物基因表達信息的軟體。


【發明內容】

[0006]本發明的目的是提供一種可以引入模式生物資料庫且可將基因表達信息定位到染色體上進而分析染色體上基因表達變化敏感區域的方法,從而為在染色體層面上分析基因表達變化敏感區域提供數據處理和信息可視化輔助技術。
[0007]本發明的第一方面提供一種在染色體上定位顯示生物基因表達信息及環境敏感區域的方法,包括以下步驟:
[0008](a)從NCBI公共資料庫下載生物染色體基因組序列;
[0009](b)讀入相應生物樣本基因表達晶片數據,所述基因表達晶片數據包括來自實驗環境條件下的受試組樣品和對照組樣品的基因組基因的絕對表達量,將同一基因在受試組和對照組中的絕對表達量相除可獲得該基因的基因表達倍數比值;所述對照組為在非實驗環境條件下的樣品;
[0010](C)將基因表達倍數比值數據以2為底數求對數值;
[0011](d)將步驟(C)得到的所有基因表達倍數比值數據的對數值進行歸一化處理得環境條件值:將對數值大於等於I的基因的環境條件值規定為1,對數值小於等於-1的基因的環境條件值規定為-1,對數值大於-1小於I的基因的環境條件值與對數值相同;
[0012](e)將基因表達晶片數據矩陣中的基因名字與步驟(a)中下載的生物染色體基因序列中基因名字相匹配,匹配成功後,將步驟(d)得到的所有基因的環境條件值定位到生物體基因組序列中對應基因位置上;
[0013](f)根據定位到生物體基因組序列中對應基因位置上的環境條件值,劃定實驗環境條件下的基因界定條件,得生物染色體基因組上基因表達圖像;
[0014]其中,環境條件值為I的染色體基因的位置填充紅色,表示在實驗環境條件下的上調基因;環境條件值為-1的染色體基因的位置填充藍色,表示在實驗環境條件下的下調基因;環境條件值大於-1小於I的染色體基因位置填充白色,表示在實驗環境條件下的未見異常基因,未能匹配成功的染色體基因位置填充灰色,表示在實驗環境條件下的未能匹配成功基因;
[0015](g)根據染色體基因組上基因表達圖像,判斷環境敏感區域,所述判斷環境敏感區域的標準為:同一染色體上連續三個或三個以上被標記為紅色或者藍色的區域被推測為環境敏感區域。
[0016]在上述技術方案中,步驟(b)中,所述絕對表達量,是指樣品mRNA與帶有螢光標記物的cDNA探針結合後,反映在基因晶片上的螢光強度(光密度值)。所述對照組除了實驗環境條件與受試組不同之外,其他條件均與受試組相同,對照組通過比對消除非實驗環境的影響。
[0017]進一步,在上述技術方案中,所述步驟(f)還包括,統計和計算染色體基因中上調基因、下調基因、未見異常基因、未能匹配成功基因的數量和比例的步驟。
[0018]進一步,在上述技術方案中,所述步驟(g)還包括,統計和記錄所有環境敏感區域基因的名稱、在染色體上的絕對位置以及在基因表達圖像中的相對位置的步驟。
[0019]進一步,在上述技術方案中,所述步驟(g)還包括,按照基因在染色體上的先後順序導出環境敏感區域基因的基因表達晶片數據的步驟。所述環境敏感區域基因的基因表達晶片數據是指環境敏感區域基因的原始表達信息,即在上述步驟(b)中所述的在實驗環境條件下的受試組樣品和對照組樣品的基因組基因的絕對表達量。
[0020]在上述技術方案中,在步驟(e)中,把步驟(a)中下載的生物染色體基因序列中所有的基因名和本地晶片表達數據集中的名字信息相匹配後,將環境條件值定位到生物體基因組序列中對應基因位置上,並記錄在晶片表達數據集中的匹配位置,根據匹配位置查找基因的環境條件值。若未能查找成功,對應基因的環境條件值取10,即認為該基因的表達為空;對於查找成功的基因,若是查找結果只有一條基因表達信息,則直接取作該基因的表達值,若是查找結果大於一條基因信息,則取表達值絕對值最大的數據作為該基因的表達數據。將單個染色體上所有的表達結果按照基因所在染色體上的排序存儲到一個列表中,以便後續畫圖及統計時用。
[0021]本發明的第二方面提供一種在染色體上定位顯示生物基因表達信息及環境敏感區域的系統,該系統包括:
[0022]生物染色體基因信息下載單元,用於從NCBI公共資料庫下載生物染色體基因組序列;
[0023]基因表達數據處理單元,用於讀入相應生物樣本基因表達晶片數據,並通過對照處理模塊、對數處理模塊和歸一化處理模塊處理讀入的基因表達晶片數據,由此劃定實驗環境條件下的基因界定條件;所述基因表達晶片數據包括來自實驗環境條件下的受試組樣品和對照組樣品的基因組基因的絕對表達量,所述對照組為在非實驗環境條件下的樣品;
[0024]所述對照處理模塊,用於對所述基因表達晶片數據中的同一基因在受試組和對照組中的絕對表達量相除獲得基因表達倍數比值;
[0025]所述對數處理模塊,用於將所述基因表達倍數比值數據以2為底數求對數值;
[0026]所述歸一化處理模塊,用於對數處理單元得到的所有基因表達倍數比值數據的對數值得環境條件值:將對數值大於等於I的基因的環境條件值規定為1,對數值小於等於-1的基因的環境條件值規定為-1,對數值大於-1小於I的基因的環境條件值與對數值相同;
[0027]基因信息加載匹配單元,用於將基因晶片表達數據矩陣中的基因名字與下載的生物染色體基因組序列中基因名字相匹配,匹配成功後,將環境條件值定位到生物體基因組序列中對應基因位置上;
[0028]生成文件單元,包括4個功能模塊,包括:
[0029](I)生成染色體上基因表達信息圖像模塊,用於根據定位到生物體基因組序列中對應基因位置上的環境條件值,得生物染色體基因組上基因表達圖像;其中,環境條件值為I的染色體基因的位置填充紅色,表示在實驗環境條件下的上調基因;環境條件值為-1的染色體基因的位置填充藍色,表示在實驗環境條件下的下調基因;環境條件值大於-1小於I的染色體基因位置填充白色,表示在實驗環境條件下的未見異常基因,未能匹配成功的染色體基因位置填充灰色,表示在實驗環境條件下的未能匹配成功基因;
[0030](2)生成不同變化模式的基因統計文件模塊,用於計算將通過基因信息加載匹配模塊匹配完成的染色體上的上調基因、下調基因、未見異常基因、未能匹配成功基因的數量和比例,將輸出存儲到.txt文件中;
[0031](3)生成環境敏感區域基因信息統計文件模塊,用於根據基因組上基因表達圖像,判斷環境敏感區域,記錄所有環境敏感區域基因的名稱,在染色體上的絕對位置以及在基因表達圖像中的相對位置後,將所述信息輸出儲存到.txt文件中;所述判斷環境敏感區域的標準為:同一基因組上連續三個或三個以上被標記為紅色或者藍色的區域被推測為環境敏感區域;
[0032](4)生成環境敏感區域基因原始信息導出文件模塊,將環境敏感區域基因的基因表達晶片數據按照在染色體上的先後順序存儲到Excel表格中,實現環境敏感區域信息在染色體上的定位查找功能。
[0033]本發明的有益效果:本發明提供了一種將基因表達信息定位到染色體上進而分析染色體上基因表達變化敏感區域的方法及系統。本發明實現了表達變化的基因在染色體上的分布特徵的可視化功能,並可獲得基因表達環境敏感區域的分布特徵數據,從而為在染色體層面上分析基因表達變化敏感區域,推測環境敏感型的轉錄因子提供有效的幫助,有利於從獲取的生物學信息來闡明更多的生物學問題。

【專利附圖】

【附圖說明】
[0034]圖1為本發明方法的實現流程圖;
[0035]圖2為構建本發明方法的系統;
[0036]圖3是線蟲I號染色體基因表達信息圖像;
[0037]圖4是線蟲I號染色體基因中不同表達信息基因的個數和比列統計結果;
[0038]圖5是線蟲I號染色體基因中部分環境敏感區域基因信息統計結果。

【具體實施方式】
[0039]下面主要結合附圖和具體實施例對本發明的構建和結果進行詳細描述。但是本領域技術人員將會理解,下列實施例僅用於說明本發明,而不應視為限定本發明的範圍。
[0040]下面以線蟲全基因組為例詳細說明本發明。
[0041]線蟲全基因組基因表達晶片:上海康成生物公司
[0042]線蟲全基因組基因表達晶片數據,包括兩組數據,分別為:
[0043]第一組為受試組:在空間飛行環境條件下處理16.5天後,收集線蟲,提取得到總RNA,利用Invitrogen Superscript試劑盒合成ds-cDNA,並對其進行單色突光標記(NimbleGen)。使用NimbleGen晶片雜交系統和Axon GenePix 4000B晶片掃描儀進行突光雜交和對突光結果掃描,最後利用NimbleScan software (vers1n 2.5)以及AgilentGeneSpring GX software (vers1n 11.5.1)對晶片結果進行讀取和分析,獲得在實驗環境條件下的線蟲全基因組基因絕對表達量數據
[0044]第二組為對照組:在地麵條件下同步培養16.5天後,收集線蟲,提取得到未經空間飛行環境處理的線蟲總RNA,按上述受試組相同的方法,獲得在地麵條件下的線蟲全基因組基因絕對表達量數據,作為對照。
[0045]在實際應用中,通過對照組的比對消除非實驗變量的影響,使受試組的數據更為正確的反映在某一環境條件下的基因變化情況。
[0046]按照下述方法在線蟲染色體上定位顯示在空間飛行環境條件下的線蟲基因表達信息及環境敏感區域:
[0047](I)下載基因信息:訪問NCBI基因資料庫,下載Caenorhabditis elegans (線蟲)六個染色體完整的基因信息數據並保存;
[0048](2)讀入上述受試組和對照組的線蟲全基因組基因絕對表達量數據,將同一基因在受試組和對照組中的絕對表達量相除獲得相應基因的基因表達倍數比值;
[0049](3)將基因表達倍數比值數據以2為底數求對數值,處理結果存儲到預先定義的同樣維度的矩陣變量中。對數處理後的結果數據取值範圍一般在0-4之間;
[0050](4)將步驟(3)得到的所有基因表達倍數比值數據的對數值進行歸一化處理得所有基因的環境條件值:將對數值大於等於I的基因的環境條件值規定為1,對數值小於等於-1的基因的環境條件值規定為-1,對數值大於-1小於I的基因的環境條件值與對數值相同;
[0051](5)將晶片表達數據矩陣中的基因名字與步驟(I)中下載的線蟲染色體基因序列中基因名字相匹配,匹配成功後,將步驟(4)得到的環境條件值定位到線蟲染色體基因組序列中對應基因位置上;根據匹配位置查找基因的環境條件值。若未能查找成功,對應基因的環境條件值取10,即認為該基因的表達為空;對於查找成功的基因,若是查找結果只有一條基因表達信息,則直接取作該基因的表達值,若是查找結果大於一條基因信息,則取表達值絕對值最大的數據作為該基因的表達數據。將單個染色體上所有的表達結果按照基因所在染色體上的排序存儲到一個列表中,以便後續畫圖及統計時用;
[0052](6)根據定位到線蟲染色體基因組序列中對應基因位置上的環境條件值,得線蟲染色體上基因表達圖像;
[0053]其中,環境條件值為I的染色體基因的位置填充紅色,表示在實驗環境條件下的上調基因;環境條件值為-1的染色體基因的位置填充藍色,表示在實驗環境條件下的下調基因;環境條件值大於-1小於I的染色體基因位置填充白色,表示在實驗環境條件下的未見異常基因,未能匹配成功的染色體基因位置填充灰色,表示在實驗環境條件下的未能匹配成功基因;由此畫出的圖像存為.Jpg格式;
[0054]統計和計算出每條染色體上上調基因、下調基因、未見異常基因、未能匹配成功基因的數量和比例,將輸出存儲到.txt文件中,以供查閱;
[0055](7)根據染色體基因組上基因表達圖像,判斷環境敏感區域,所述判斷環境敏感區域的標準為:同一基因組上連續三個或三個以上被標記為紅色或者藍色的區域被推測為環境敏感區域;
[0056]記錄和統計所有環境敏感區域基因的名稱,在染色體上的絕對位置以及在基因表達圖像中的相對位置後,將所述信息輸出儲存到.txt文件,作為環境敏感區域基因信息統計文件,並按基因名分行顯示,以供查閱;
[0057](8)根據在(7)中的環境敏感區域基因信息統計文件,按照基因在染色體上的先後順序導出環境敏感區域基因的基因表達晶片數據,存儲到Excel表格中,實現環境敏感區域信息在染色體上的定位查找功能。
[0058]判定基因表達變化的常用方法之一就是倍數變化法(fold change),通常是以2為界限,當變化倍數> 2時,基因表達量增加,認為表達上調;當倍數< 0.5時,相反。上述步驟(3)-(4)中,將步驟(2)得到的所有基因的基因表達倍數比值取log2和歸一化處理處理是為了在作圖和數據處理時反映基因上下調更為直觀。
[0059]圖3為定位到I號染色體上的3000個基因的線蟲染色體基因表達圖像:圖3反映了在特定環境下線蟲I號染色體上前3000個基因的表達情況。圖中每一個小方格表不一個基因,所有的方格從下到上從左至右順次相連表示一條染色體上的所有基因。由於線蟲每條染色體上基因數量較大,包含基因最少的III號染色體也有3500多個,因此無法在圖像顯示區域長度範圍內將所有基因畫在同一列中並且清晰地展示出每一個基因的表達情況。本圖相當於將染色體分段,每一段都有75個基因。圖中的橫坐標刻度值代表基因段數,縱坐標刻度值代表對應基因段的基因位置,紅色和藍色方格分別代表環境誘變的上調基因和下調基因,白色和灰色分別代表未見異常基因和未匹配成功基因。
[0060]圖3中基因列位置nral、行位置nMW和染色體上基因的位置η的對應關係如公式⑴、⑵:
[0061]ncol = ceil (n/75)(I)
[0062]nrow = n mod75(2)
[0063]式(I)、⑵中ceil取整數;mod取餘數;n為基因位置。
[0064]比如要了解第370個基因的表達情況,由公式可得:
[0065]ncol = ceil (370/75) = 5
[0066]nrow = 370mod75 = 70
[0067]根據計算結果,先將位置定位到第5列,然後查看第5列第70個位置上方格的顏色。如圖中螢光圓圈所圈位置,查看結果是紅色表示第370個基因是環境誘變的上調基因。
[0068]在圖3中也可以找到多個連續被標記為紅色或者藍色的基因區域,如第11列位置上螢光方框區域中803-806四個連續標記紅色的基因區域,即被認為是一個可能的環境敏感區域。以此類推,生物研究者就可以從圖中直觀地看到所有基因的表達情況和環境敏感區域的分布情況。
[0069]圖4為不同表達信息基因的數量及比例統計結果:圖4所示文件與圖3是相對應的,文件中所存結果是同一處理條件下I號染色體不同表達信息基因的數量和比例的統計結果。圖 4 中 num_red = 203、num_blue = 122、num_white = 2289、num_grey = 386 分別表示I號染色體上前3000個基因中上調基因、下調基因、未見異常基因、未能匹配成功基因的數量分別是203、122、2289、386,所佔比例分別是6.77%,4.07%,76.30%U2.87%。
[0070]圖5為線蟲I號染色體環境敏感區域基因信息統計結果:圖5所示文件與圖3也是相對應的。文件中所存結果為同一處理條件下I號染色體上所有環境敏感區域包含基因的信息統計結果。第一列數據是環境敏感區域中的每個基因在染色體上的位置以及基因的名字、第二列數據是基因在圖3中的相對位置。例如,Gene_db_xref (2484): WBGene00005023表示I號染色體上第2484個基因是一個環境敏感區域,即可能的環境敏感型基因區域中的第一個基因,它的編號是WBGene00005023, posit1n: column (34), row(9)表不它在圖3所示圖像中的位置是第34列,第9行。chromosomel_up3_group_num = 15表示該環境條件下I號染色體上共有15組環境敏感區域基因。
[0071]在步驟(8)中,由於NCBI資料庫中記錄的基因名字沒有提供基因亞基信息,因此在導出環境敏感基因信息時,染色體上的某些基因可能會匹配到不止一個基因晶片表達數據,遇到這種情況時,本發明一律將匹配到的所有結果均導出到Excel表格中。
[0072]對於不同環境下線蟲的每條染色體,都有四個文件輸出:一個反映染色體上所有基因表達情況的彩色.jpg圖像(如圖3),一個存有不同表達信息的基因的數量和比例統計結果的.txt文件(如圖4),一個存有環境敏感區域基因名字、在染色體上絕對位置和在圖中相對位置信息的.txt文件(如圖5),和一個存有每條染色體上環境敏感區域基因原始表達數據的文件。生物研究者可以從這些文件中清楚地看到每條染色體上基因的表達信息和統計結果,以便直接利用統計結果進行下一步的生物學分析。
[0073]本領域普通技術人員可以理解,實現上述實施例方法中的全部或部分步驟是可以通過系統來指令相關的硬體完成的,所述的系統可以在儲存於一計算機可讀取存儲介質中,所述的存儲介質如R0M/RAM、硬碟、光碟等,該系統如圖2,具體為:
[0074]生物染色體基因信息下載單元,用於從NCBI公共資料庫下載生物染色體基因組序列;
[0075]基因表達數據處理單元,用於讀入相應生物樣本基因表達晶片數據,並通過對照處理模塊、對數處理模塊和歸一化處理模塊處理讀入的基因表達晶片數據,由此劃定實驗環境條件下的基因界定條件;所述基因表達晶片數據包括來自實驗環境條件下的受試組樣品和對照組樣品的全基因組基因的絕對表達量,所述對照組為在非實驗環境條件下的樣品;
[0076]所述對照處理模塊,用於對所述基因表達晶片數據中的同一基因在受試組和對照組中的絕對表達量相除獲得基因表達倍數比值;
[0077]所述對數處理模塊,用於將所述基因表達倍數比值數據以2為底數求對數值;
[0078]所述歸一化處理模塊,用於對數處理單元得到的所有基因表達倍數比值數據的對數值得環境條件值:將對數值大於等於I的基因的環境條件值規定為1,對數值小於等於-1的基因的環境條件值規定為-1,對數值大於-1小於I的基因的環境條件值與對數值相同;
[0079]基因信息加載匹配單元,用於將基因晶片表達數據矩陣中的基因名字與下載的生物染色體基因組序列中基因名字相匹配,匹配成功後,將環境條件值定位到生物體基因組序列中對應基因位置上;
[0080]生成文件單元,包括4個功能模塊,包括:
[0081](I)生成染色體上基因表達信息圖像模塊,用於根據定位到生物體基因組序列中對應基因位置上的環境條件值,得生物染色體基因組上基因表達圖像;其中,環境條件值為I的染色體基因的位置填充紅色,表示在實驗環境條件下的上調基因;環境條件值為-1的染色體基因的位置填充藍色,表示在實驗環境條件下的下調基因;環境條件值大於-1小於I的染色體基因位置填充白色,表示在實驗環境條件下的未見異常基因,未能匹配成功的染色體基因位置填充灰色,表示在實驗環境條件下的未能匹配成功基因;
[0082](2)生成不同變化模式的基因統計文件模塊,用於計算將通過基因信息加載匹配模塊匹配完成的染色體上的上調基因、下調基因、未見異常基因、未能匹配成功基因的數量和比例,將輸出存儲到.txt文件中;
[0083](3)生成環境敏感區域基因信息統計文件模塊,用於根據基因組上基因表達圖像,判斷環境敏感區域,記錄所有環境敏感區域基因的名稱,在染色體上的絕對位置以及在基因表達圖像中的相對位置後,將所述信息輸出儲存到.txt文件中;所述判斷環境敏感區域的標準為:同一基因組上連續三個或三個以上被標記為紅色或者藍色的區域被推測為環境敏感區域;
[0084](4)生成環境敏感區域基因原始信息導出文件模塊,將環境敏感區域基因的基因表達晶片數據按照在染色體上的先後順序存儲到Excel表格中,實現環境敏感區域信息在染色體上的定位查找功能。
[0085]系統中生成的文件可以通過用戶界面上設置的查看文件單元來查看。
[0086]本發明是一種在染色體層面上顯示基因表達變化特徵和分布特徵的可視化工具,不僅實現了基因表達信息在染色體上精確定位顯示的功能,同時完成了環境敏感區域位置和數量的統計工作及不同表達變化基因的數量和比例的統計工作,直觀地顯示並分析出環境誘導的基因熱點區域及其在染色體上的分布情況,為環境生物學研究提供了高效便捷的數據處理工具,比手工方法大大節約了時間。該軟體的功能可以不只局限於線蟲一種生物,也適用於其它生物的染色體環境敏感區域分析,為今後不同生物體內基因表達異常和染色體結構改變等研究提供了有力幫助。
[0087]以上實施例僅說明了本發明的一種實施方式,其描述較為具體和詳細,但並不能因此理解為對本發明專利範圍的限制。基於本發明思想的其他實施方式,均在本發明的保護範圍之中。
【權利要求】
1.一種在染色體上定位顯示生物基因表達信息及環境敏感區域的方法,包括以下步驟: (a)從NCBI公共資料庫下載生物染色體基因組序列; (b)讀入相應生物樣本基因表達晶片數據,所述基因表達晶片數據包括來自實驗環境條件下的受試組樣品和對照組樣品的基因組基因的絕對表達量,將同一基因在受試組和對照組中的絕對表達量相除可獲得該基因的基因表達倍數比值;所述對照組為在非實驗環境條件下的樣品; (c)將基因表達倍數比值數據以2為底數求對數值; (d)將步驟(C)得到的所有基因表達倍數比值數據的對數值進行歸一化處理得環境條件值:將對數值大於等於I的基因的環境條件值規定為1,對數值小於等於-1的基因的環境條件值規定為-1,對數值大於-1小於I的基因的環境條件值與對數值相同; (e)將基因表達晶片數據矩陣中的基因名字與步驟(a)中下載的生物染色體基因序列中基因名字相匹配,匹配成功後,將步驟(d)得到的所有基因的環境條件值定位到生物體基因組序列中對應基因位置上; (f)根據定位到生物體基因組序列中對應基因位置上的環境條件值,劃定實驗環境條件下的基因界定條件,得生物染色體基因組上基因表達圖像; 其中,環境條件值為I的染色體基因的位置填充紅色,表示在實驗環境條件下的上調基因;環境條件值為-1的染色體基因的位置填充藍色,表示在實驗環境條件下的下調基因;環境條件值大於-1小於I的染色體基因位置填充白色,表示在實驗環境條件下的未見異常基因,未能匹配成功的染色體基因位置填充灰色,表示在實驗環境條件下的未能匹配成功基因; (g)根據染色體基因組上基因表達圖像,判斷環境敏感區域,所述判斷環境敏感區域的標準為:同一染色體上連續三個或三個以上被標記為紅色或者藍色的區域被推測為環境敏感區域。
2.根據權利要求1所述的方法,其特徵在於,所述步驟(f)還包括,統計和計算染色體基因中上調基因、下調基因、未見異常基因、未能匹配成功基因的數量和比例的步驟。
3.根據權利要求1所述的方法,其特徵在於,所述步驟(g)還包括,統計和記錄所有環境敏感區域基因的名稱、在染色體上的絕對位置以及在基因表達圖像中的相對位置的步驟。
4.根據權利要求1所述的方法,其特徵在於,所述步驟(g)還包括,按照基因在染色體上的先後順序導出環境敏感區域基因的基因表達晶片數據的步驟。
5.一種在染色體上定位顯示生物基因表達信息及環境敏感區域的系統,該系統包括: 生物染色體基因信息下載單元,用於從NCBI公共資料庫下載生物染色體基因組序列; 基因表達數據處理單元,用於讀入相應生物樣本基因表達晶片數據,並通過對照處理模塊、對數處理模塊和歸一化處理模塊處理讀入的基因表達晶片數據,由此劃定實驗環境條件下的基因界定條件;所述基因表達晶片數據包括來自實驗環境條件下的受試組樣品和對照組樣品的基因組基因的絕對表達量,所述對照組為在非實驗環境條件下的樣品; 所述對照處理模塊,用於對所述基因表達晶片數據中的同一基因在受試組和對照組中的絕對表達量相除獲得該基因的基因表達倍數比值; 所述對數處理模塊,用於將所述基因表達倍數比值數據以2為底數求對數值; 所述歸一化處理模塊,用於對數處理單元得到的所有基因表達倍數比值數據的對數值得環境條件值:將對數值大於等於I的基因的環境條件值規定為1,對數值小於等於-1的基因的環境條件值規定為-1,對數值大於-1小於I的基因的環境條件值與對數值相同; 基因信息加載匹配單元,用於將基因晶片表達數據矩陣中的基因名字與下載的生物染色體基因組序列中基因名字相匹配,匹配成功後,將環境條件值定位到生物體基因組序列中對應基因位置上; 生成文件單元,包括4個功能模塊: (1)生成染色體上基因表達信息圖像模塊,用於根據定位到生物體基因組序列中對應基因位置上的環境條件值,得生物染色體基因組上基因表達圖像;其中,環境條件值為I的染色體基因的位置填充紅色,表示在實驗環境條件下的上調基因;環境條件值為-1的染色體基因的位置填充藍色,表示在實驗環境條件下的下調基因;環境條件值大於-1小於I的染色體基因位置填充白色,表示在實驗環境條件下的未見異常基因,未能匹配成功的染色體基因位置填充灰色,表示在實驗環境條件下的未能匹配成功基因; (2)生成不同變化模式的基因統計文件模塊,用於計算將通過基因信息加載匹配模塊匹配完成的染色體上的上調基因、下調基因、未見異常基因、未能匹配成功基因的數量和比例,將輸出存儲到.txt文件中; (3)生成環境敏感區域基因信息統計文件模塊,用於根據基因組上基因表達圖像,判斷環境敏感區域,記錄所有環境敏感區域基因的名稱,在染色體上的絕對位置以及在基因表達圖像中的相對位置後,將所述信息輸出儲存到.txt文件中;所述判斷環境敏感區域的標準為:同一基因組上連續三個或三個以上被標記為紅色或者藍色的區域被推測為環境敏感區域; (4)生成環境敏感區域基因原始信息導出文件模塊,用於將環境敏感區域基因的基因表達晶片數據按照在染色體上的先後順序存儲到Excel表格中。
【文檔編號】G06F19/20GK104182656SQ201410395461
【公開日】2014年12月3日 申請日期:2014年8月12日 優先權日:2014年8月12日
【發明者】馬寶山, 楊存敏, 高英, 徐丹, 董輝, 孫野青 申請人:大連海事大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀