新四季網

一種基於截斷冪的稀疏基因表達數據分析方法

2023-04-26 22:58:01 2

一種基於截斷冪的稀疏基因表達數據分析方法
【專利摘要】本發明公開了一種基於截斷冪的稀疏基因表達數據分析方法,具體包括:對基因數據集進行預處理,包括正則化處理、利用主成分分析法確定主成分個數和結合局部迭代搜索確定主成分的基數;對經過步驟一處理的基因數據集中的基因數據進行特徵提取,減少數據的幹擾性並提高後續過程聚類的準確性;對數據特徵被提取的基因數據進行聚類方法處理;將步驟三得到的聚類處理結果與設定的聚類精確率進行比對,並反饋調節稀疏降維的調優參數以達到最佳聚類精度。本發明解決了稀疏特徵值分解問題,用於稀疏主成分分析不僅主成分的解釋能力強且其運行速度快,可以很好驗證稀疏主成分方法,提高了基因數據分析的高效性和精確性。
【專利說明】一種基於截斷冪的稀疏基因表達數據分析方法

【技術領域】
[0001] 本發明公開了一種基於截斷冪的稀疏基因表達數據分析方法,涉及對基因表達的 數據分析【技術領域】。

【背景技術】
[0002] 伴隨生物醫學水平的快速發展,DNA晶片(DNA microarray)的廣泛應用可以快速 測量基因的表達水平。由於基因數據的分析可以用來識別癌細胞以預測某一疾病發生的概 率,對人的生活具有重大的意義。因此,基因聚類已經成為目前研究的熱門課題。
[0003] 原始收集的基因數據具有屬性多、樣本少等特點,直接對此聚類分析其結果往 往會受到大量冗餘數據的幹擾,並且高維數據對傳統的聚類方法也是一項挑戰。有為 了克服這些缺點,不同的降維主特徵提取方法被相繼提出,獨立成分分析(Incbpendent Component Analysis, ICA)可以將多維數據集分解到各自獨立的成分(ICs),消除了高階依 賴性。主成分分析(Principle Component Analysis, PCA)方法是一種經典的降維方法, 可以將高維數據進行降維處理提取其主要特徵數據,它所尋求的目標是方差最大化,即屬 性之間的相關變化最大。但由於其自身的線性組合缺陷導致其生成的主成分不具有可解釋 性,即基因數據中一個症狀不知有哪些具體的基因來決定。因此,通過在主成分的基礎上對 負載因子進行稀疏化處理,可以在提取主成分的過程中考慮主成分的表達能力與負載因子 的稀疏性(Loadings),使得主成分有少量的屬性決定,同時使得因子係數的非零個數小於 等於基因的個數但可表達能力比主成分分析更明顯。
[0004] 稀疏主成分(Sparse PCA)的求解方法有閾值、回歸、能量及規劃等不同類,相比之 下,能量方法在主成分分可解釋度、算法的運行時間及聚類的精確性都是非常穩定的,其中 截斷冪迭代法是其中的典型算法,可以很好的解決稀疏特徵值分解問題,用於稀疏主成分 分析不僅主成分的解釋能力強且其運行速度快,是一種很好的特徵提取方法。
[0005] 將稀疏主成分分析與聚類算法結合起來對基因表達數據是一種更高效、精確的分 析方法。聚類已經成為基因表達數據分析的主要方法之一,通過類別的判斷可以快速、準確 的判斷疾病的發生概率。而由於基因數據本身的特點,屬性多、樣本少以致在高維數據中將 存在大量的冗餘數據與幹擾信息,直接進行聚類分析將導致精確率不是很高。主成分分析 是一種經典的降維方法,可以將高維數據映射到低維空間,但因其結果不具有強解釋力。


【發明內容】

[0006] 本發明所要解決的技術問題是:針對現有技術的缺陷,提供一種基於截斷冪的稀 疏基因表達數據分析方法。利用稀疏主成分分析一截斷冪方法,對數據進行預處理提取其 主要的表達數據,在負載因子中非零個數最小化的同時保證基因主成分具有強表達能力。 通過典型的基因數據集實驗,將特徵提取之後的基因數據應用K-means方法進行聚類分 析。
[0007] 本發明為解決上述技術問題採用以下技術方案:
[0008] -種基於截斷冪的稀疏基因表達數據分析方法,具體步驟包括:
[0009] 步驟一、對基因數據集進行預處理,包括正則化、利用主成分分析法確定主成分個 數與結合局部迭代搜索確定主成分的基數;
[0010] 步驟二、對經過步驟一處理的確定的稀疏調優參數對基因數據進行截斷冪稀疏降 維與特徵提取,減少數據的幹擾性並提高後續過程聚類的準確性;
[0011] 步驟三、對數據特徵被提取的基因數據進行聚類方法處理;
[0012] 步驟四、將步驟三得到的聚類處理結果與設定的聚類精確率進行比對,並反饋調 節步驟一中稀疏降維的調優參數以達到最佳聚類精度。
[0013] 作為本發明的進一步優選方案,步驟一中,所述預處理的具體過程為:
[0014] 設定一個基因數據集A,其樣本個數為n,基因個數為P,且滿足η << P,對數據集 Α進行正則化處理後得出其協方差矩陣Σ,將主成分的求解模型表示如下:
[0015] find X' =arg max χτ Σ x subject to χτχ = 1
[0016] 其中,x為自變量,對應於高維數據轉換為低維數據的係數,在優化求解的過程中 將不斷更新,X'目標係數,即優化求解後主成分對應的最佳載荷,T表示轉置運算。
[0017] 作為本發明的進一步優選方案,採用冪迭代法求解主成分的求解模型中的矩陣特 徵值,其迭代求解過程為:
[0018] V! = Sv〇
[0019] v2 = Sv2 = S2v〇
[0020] ·
[0021] ·
[0022] ·
[0023] vt = Svh =…=Skv0
[0024] 其中,S為待求解的矩陣,Vi為每次迭代過程中的更新向量,其初始值為?,i為迭 代次數,其初始值為〇,當矩陣收斂時,i的取值為t,λ為 Vt向量中所有變量的最大公約 數;
[0025] 設定/為待求解的特徵向量,則/經由Vi同過提取公共參數λ變換得出。
[0026] 作為本發明的進一步優選方案,步驟一中,所述稀疏降維處理需滿足|x| 其 中,k為主成分的基數。
[0027] 作為本發明的進一步優選方案,採用截斷法控制稀疏度,並結合冪迭代法,進行稀 疏主成分的求解,具體過程包括:
[0028] (501)設定截斷算子:
[0029]

【權利要求】
1. 一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於,具體步驟包括:步驟 一、對基因數據集進行預處理,包括正則化、利用主成分分析法確定主成分個數、結合局部 迭代搜索確定主成分的基數; 步驟二、對經過步驟一處理後的確定的稀疏調優參數對基因數據進行截斷冪稀疏降維 與特徵提取,減少數據的幹擾性並提高後續過程聚類的準確性; 步驟三、對數據特徵被提取的基因數據進行聚類方法處理; 步驟四、將步驟三得到的聚類處理結果與設定的聚類精確率進行比對,並反饋調節稀 疏降維的調優參數以達到最佳聚類精度。
2. 如權利要求1所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於, 步驟一中,所述預處理的具體過程為: 設定一個基因數據集A,其樣本個數為n,基因個數為p,且滿足n<<p,對數據集A進 行正則化處理後得出其協方差矩陣E,將主成分的求解模型表示如下: findX,=argmaxxTExsubjecttoxTx=I 其中,X為自變量,對應於高維數據轉換為低維數據的係數,在優化求解的過程中將不 斷更新,X'目標係數,即優化求解後主成分對應的最佳載荷,T表示轉置運算。
3. 如權利要求2所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於: 採用冪迭代法求解主成分的求解模型中的矩陣特徵值,其迭代求解過程為: V1 = Sv0 v2 = Sv2 = S V0 ? ? Vt = SVh =…=Skv。 其中,S為待求解的矩陣,Vi為每次迭代過程中的更新向量,其初始值為了,i為迭代次 數,其初始值為〇,當矩陣收斂時,i的取值為t,A為Vt向量中所有變量的最大公約數; 設定/為待求解的特徵向量,則/經由Vi同過提取公共參數A變換得出。
4. 如權利要求3所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於, 步驟一中,所述稀疏降維處理需滿足IXIL<k,其中,k為主成分的基數。
5. 如權利要求4所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於, 採用截斷法控制稀疏度,並結合冪迭代法,進行稀疏主成分的求解,具體過程包括: (501) 設定截斷算子:
其中,F為k個下標的集合; (502) 根據如下公式求解稀疏主成分: 入max(2,k)=maxXt2XsubjecttoIIxI12 = 1,IIxI10<k 求解過程具體包括: Stepl:初始化Xci與迭代次數t= 1,設置基數Ici ; Step2:計算
按絕對值大小獲取k個Xt的下標賦給Ft ; Step3:計算xt' =Truncate(xt,Ft),歸一化xt =xt' / | |xt' | |,t一t+1 ; Step4 :當Step3計算結果收斂時,停止計算;否則,重複Step2和Step3步。
6.如權利要求1所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於: 步驟三中,採用K-means聚類算法進行聚類方法處理。
【文檔編號】G06K9/62GK104268564SQ201410472872
【公開日】2015年1月7日 申請日期:2014年9月16日 優先權日:2014年9月16日
【發明者】沈寧敏, 李靜, 周培雲 申請人:南京航空航天大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀