新四季網

一種篩選基因晶片差異表達基因的方法

2023-05-27 01:57:41 2

專利名稱:一種篩選基因晶片差異表達基因的方法
一種篩選基因晶片差異表達基因的方法技術領域本專利涉及一種基因晶片數據分析中差異表達基因篩選的 一種 算法。該算法適用於缺乏重複的小樣本的基因晶片實驗設計。
背景技術:
基因晶片,又稱基因微陣列(microarray),是指將許多已知序列 寡核苷酸或cDNA片段有規律地排列在基片上,將待測的樣品標記後 與晶片上的核酸序列按鹼基互補配對原則進行雜交。通過焚光檢測系 統對晶片進行掃描,並配以計算機系統對每一探針上的螢光信號做出 檢測和比較,可以迅速得出實驗結果。利用基因晶片可以在一次實驗 中對上萬種基因的表達水平進行快速、準確、高效地檢測,並且樣本 的需要量可以大大減少。基因晶片技術是目前基因研究方面最先進、 也是最有效的方法之一,在生命科學研究及實踐、醫學科研及臨床、 藥物設計、環境保護、農業、軍事等各個領域有著廣泛的應用。差異表達基因的篩選A&因晶片分析最為關鍵的一步。對於兩樣 本的無重複的晶片數據,可以使用倍數法(Gerhold D, Lu M, Xu J, Austin C, Caskey CT, Rushmore T. Monitoring expression of genes involved in drug metabolism and toxicology using DM microarrays. Physiol Genomics 2001; 5:161-170) 或 z-score (Cheadle C, Vawter MP, Freed WJ and Becker KG. Analysis of microarray data using z score transformation. J Mol Diagn 2003: 5, 73-81)的方法;對於兩樣本的有重複的晶片數據則可以使用 倍數法或t檢驗(Baldi P, Long AD. A Bayesian framework for the analysis of microarray expression data: regularized t -test and statistical inferences of gene changes. Bioinformatics 2001; 17: 509-519 )等方法。對於多個分組的有重複的晶片數據則 可以使用方差 分析(Pavlidis P. Using A麗A for gene selection from microarray studies of the nervous system. Methods 2003: 31 (4): 282-9 )。對於長的時間序列一般會使用曲線擬合(StoreyJD, Xiao W, Leek JT, Tompkins RG, Davis RW. Significance analysis of time course microarray experiments. Proc Natl Acad Sci USA. 2005, 102 (36): 12837-4 )的方法。但是在實際應用中,由於基因晶片的費用昂貴,研究者往往只能 負擔少量樣本的晶片設計(樣本量<6),並且每個樣本的也只是進行 單次或兩次技術重複,這種缺乏重複的小樣本基因晶片實驗i殳計目前 非常很普遍。這類晶片數據目前並沒有很好的分析方法,主要是採用 倍數法,而倍數法是一種經驗算法,算法本身的敏感性與特異性是很 難估計的,會引起較大的實驗誤差。為了彌補這一技術空白,本專利 我們提出一種基於統計模型的新算法,來對小樣本,無重複的基因芯 片產生的差異基因進行篩選。發明內容本發明提供一種通過建立統計模型來篩選基因的方法。 本發明是這樣實現的,主要包括如下流程步驟l,對晶片數據 進行歸一化處理;步驟2,建立對數比值x,^戸+ A+f線性模型;步 驟3,計算出全局均值;/,列效應A和方差cT的值;步驟4,利用^、 A和a,計算每個基因的2xlnOWm"o);步驟5,設定域值 , 當步驟4中的2xln(oWra,/o)值大於;r2—, 的基因定為差異表達基因。注ln(.)為以e為底的自然對數。本發明的優點在於通過建立統計模型,設計適當的統計量,最 後使用假設檢驗的方法賦予每個基因一個顯著性的概率數值,作為篩 選基因的標準。該方法克服了常規的倍數法缺乏統計學基礎和對算法 本身敏感性與特異性難以估計的弱點。


圖l是本發明所述篩選基因晶片差異表達基因的方法的流程圖。
具體實施方式
具體方法描述如下首先使用晶片掃描圖像處理軟體(例如GenePix pro 4.0)獲得 基因水平的表達值數據。接著對晶片數據進行晶片間的歸一化處理。 然後將晶片結果的信號值轉換成相對於對照實驗的比值。取比值的對 數(取以e為底為佳)。我們將此對數比值(In ratio)作為分析的 基礎。假設我們有"張基因晶片(對應M個樣本,典型的,1<"5),每張晶片有w個基因。這樣我們獲得一個數值矩陣formula see original document page 5①其中、為第/(1^/《^)個基因在第7(1"")張晶片中的In ratio 數值。接著我們建立一個線性模型其中z/為全局的均值,為列效應,s為殘差。我們假設s W(0,a2)。即假設在不同的晶片中殘差s符合均值為0,方差為cr的正態分布。作為方差a,它體現的是所有晶片"晶片內"方差的平均。 A作為列效應,表示的是不同晶片之間差異的參數。//是全局的均值, 由於一般情況下晶片中大部分基因的表達值是不變的,所以/z是接近 於0的。該模型即是將一個基因在一張晶片上的表達值分解為全局效 應,列(晶片)效應和殘差。對模型的參數進行估計利用最大似然估計,々的估計值為全局的均值,即細A為列效應,即每列(即每張晶片)的平均值(上式中/i接近於0formula see original document page 6④
附 附w a的估計值取"組內"方差:
formula see original document page 6 5
建立檢驗假設:對於每個基因z,formula see original document page 6是上述線性模型的 一個實例。 formula see original document page 6與上述線性模型完全獨立。我們用formula see original document page 6表示基因/是該線性模型(即總體分布)的 一個實例的概率,用formula see original document page 6表示基因,'不是來自於該線性模型,而是來自於任何一種其它模型(分布)的概率。 習慣上,我們用優勢比odd ratio來表示數據對模型的偏離程度,formula see original document page 6可見優勢比odd ratio的值越大,說明基因/偏離總體分布越明 顯,越有可能是我們要尋找的差異基因。對於基因formula see original document page 6則可以寫作上面的公式中,使用聯合概率計算優勢比odd ratio的值。從最 終的結果我們可以看出統計量0《符合自由度為"的;r2分布。因此,用2x ln(oW r加'o)來作為基因的差異表達的度量是合理的,其顯著性結 果可以使用f檢驗來給出,即設定一定的閾值(cutoff), cutoff最優值為0.01,若 潔,>/— ,即P〈0. 01,那麼則可以認為第冷基因是差異表達基因。通過計算每個基因的0《值,與?分布的閾值;^,"相比較,即可篩選出所有的差異表達基因。一,以無重複4個樣本的Affymetrix公司的表達譜基因晶片數 據為例獲得基因水平表達數據。將晶片結果的信號值轉換成相對於對照 實驗的比值。取比值的對數。建立線性才莫型x,, + j=1...4。
A為全局的均值,//,為列效應,s為殘差,f ,,o"2)。計算出上述線性模型參數//,A和CT的估計值/i,A和6。這些估計值將用於統計量2xln(o必rato)的計算。對於每一個基因/,利用公式力卜—"'丫,計算每個基因的2 x ln(。W 值。該值反映了基因/表達數據與總體分布的偏離程度, 同時該值符合自由度為"=4的/分布。formula see original document page 7設定cutoff-O. 01,查f分布表,得到義2, 4=13. 28。即當統計 量大於13. 28時,p<o.01。篩選2xln(o必raf/。)值大於13. 28 (相當於/ <0.01)的基因,即為差異表達基因。二、以2次重複5個樣本的基因晶片數據為例獲得基因水平表達數據。將晶片結果的信號值轉換成相對於對照 實驗的比值。取比值的對數。 建立線性模型計算出上述線性模型參數一,A和CT的估計值。對於每一個基因/,利用公式tP"1 — A丫,計算每個基因的產l 、 °" Jformula see original document page 8值。設定cutoff=0.01,查f分布表,得到^。。, ,。=23. 21。篩選2xln(o必ra^)值大於23. 21的基因,即為差異表達基因。以上是對本發明的描述而非限定,基於本發明思想的其它實施方 式,均在本發明的保護範圍之中。
權利要求
1.一種篩選基因晶片差異表達基因的方法,其特徵在於該方法包括有如下步驟步驟1,對晶片數據進行歸一化處理;步驟2,建立對數比值xij=μ+μj+ε線性模型;步驟3,計算出全局均值μ,列效應μj和方差σ的值;步驟4,利用μ、μj和σ,計算每個基因的2×ln(odd ratio);步驟5,設定域值χ2cutoff,n,當步驟4中的2×ln(odd ratio)值大於χ2cutoff,n的基因定為差異表達基因。
2. 根據權利要求1所述的一種篩選基因晶片差異表達基因的方 法,其特徵在於在步驟l中,進行基因晶片數據的歸一化處理時的 樣本數,在1 ~ 5例之間。
3. 根據權利要求1所述的一種篩選基因晶片差異表達基因的方 法,其特徵在於在步驟3或步驟4中,o必ra加=--。
全文摘要
本發明提供一種篩選基因晶片差異表達基因的方法,涉及一種基因晶片數據分析中差異表達基因篩選的一種算法。本發明實施起來,包括如下步驟步驟1,晶片數據的歸一化處理;步驟2,建立對數比值xij=μ+μj+ε線性模型;步驟3,計算出全局均值μ,列效應μj和方差σ的值;步驟4,利用μ、μj和σ,計算每個基因的2×ln(odd ratio);步驟5,設定域值x2 cutoff,n,當步驟4中的2×ln(odd ratio)值大於x2 cutoff,n的基因定為差異表達基因。本發明通過建立統計模型,設計適當的統計量,最後使用假設檢驗的方法賦予每個基因一個顯著性的概率數值,作為篩選基因的標準。該方法克服了常規的倍數法缺乏統計學基礎和對算法本身敏感性與特異性難以估計的弱點。
文檔編號C12Q1/68GK101215602SQ20071017358
公開日2008年7月9日 申請日期2007年12月28日 優先權日2007年12月28日
發明者劉極龍, 曾華宗 申請人:上海敏芯信息科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀