一種基於截斷冪的稀疏基因表達數據分析方法
2023-04-26 22:58:01 2
一種基於截斷冪的稀疏基因表達數據分析方法
【專利摘要】本發明公開了一種基於截斷冪的稀疏基因表達數據分析方法,具體包括:對基因數據集進行預處理,包括正則化處理、利用主成分分析法確定主成分個數和結合局部迭代搜索確定主成分的基數;對經過步驟一處理的基因數據集中的基因數據進行特徵提取,減少數據的幹擾性並提高後續過程聚類的準確性;對數據特徵被提取的基因數據進行聚類方法處理;將步驟三得到的聚類處理結果與設定的聚類精確率進行比對,並反饋調節稀疏降維的調優參數以達到最佳聚類精度。本發明解決了稀疏特徵值分解問題,用於稀疏主成分分析不僅主成分的解釋能力強且其運行速度快,可以很好驗證稀疏主成分方法,提高了基因數據分析的高效性和精確性。
【專利說明】一種基於截斷冪的稀疏基因表達數據分析方法
【技術領域】
[0001] 本發明公開了一種基於截斷冪的稀疏基因表達數據分析方法,涉及對基因表達的 數據分析【技術領域】。
【背景技術】
[0002] 伴隨生物醫學水平的快速發展,DNA晶片(DNA microarray)的廣泛應用可以快速 測量基因的表達水平。由於基因數據的分析可以用來識別癌細胞以預測某一疾病發生的概 率,對人的生活具有重大的意義。因此,基因聚類已經成為目前研究的熱門課題。
[0003] 原始收集的基因數據具有屬性多、樣本少等特點,直接對此聚類分析其結果往 往會受到大量冗餘數據的幹擾,並且高維數據對傳統的聚類方法也是一項挑戰。有為 了克服這些缺點,不同的降維主特徵提取方法被相繼提出,獨立成分分析(Incbpendent Component Analysis, ICA)可以將多維數據集分解到各自獨立的成分(ICs),消除了高階依 賴性。主成分分析(Principle Component Analysis, PCA)方法是一種經典的降維方法, 可以將高維數據進行降維處理提取其主要特徵數據,它所尋求的目標是方差最大化,即屬 性之間的相關變化最大。但由於其自身的線性組合缺陷導致其生成的主成分不具有可解釋 性,即基因數據中一個症狀不知有哪些具體的基因來決定。因此,通過在主成分的基礎上對 負載因子進行稀疏化處理,可以在提取主成分的過程中考慮主成分的表達能力與負載因子 的稀疏性(Loadings),使得主成分有少量的屬性決定,同時使得因子係數的非零個數小於 等於基因的個數但可表達能力比主成分分析更明顯。
[0004] 稀疏主成分(Sparse PCA)的求解方法有閾值、回歸、能量及規劃等不同類,相比之 下,能量方法在主成分分可解釋度、算法的運行時間及聚類的精確性都是非常穩定的,其中 截斷冪迭代法是其中的典型算法,可以很好的解決稀疏特徵值分解問題,用於稀疏主成分 分析不僅主成分的解釋能力強且其運行速度快,是一種很好的特徵提取方法。
[0005] 將稀疏主成分分析與聚類算法結合起來對基因表達數據是一種更高效、精確的分 析方法。聚類已經成為基因表達數據分析的主要方法之一,通過類別的判斷可以快速、準確 的判斷疾病的發生概率。而由於基因數據本身的特點,屬性多、樣本少以致在高維數據中將 存在大量的冗餘數據與幹擾信息,直接進行聚類分析將導致精確率不是很高。主成分分析 是一種經典的降維方法,可以將高維數據映射到低維空間,但因其結果不具有強解釋力。
【發明內容】
[0006] 本發明所要解決的技術問題是:針對現有技術的缺陷,提供一種基於截斷冪的稀 疏基因表達數據分析方法。利用稀疏主成分分析一截斷冪方法,對數據進行預處理提取其 主要的表達數據,在負載因子中非零個數最小化的同時保證基因主成分具有強表達能力。 通過典型的基因數據集實驗,將特徵提取之後的基因數據應用K-means方法進行聚類分 析。
[0007] 本發明為解決上述技術問題採用以下技術方案:
[0008] -種基於截斷冪的稀疏基因表達數據分析方法,具體步驟包括:
[0009] 步驟一、對基因數據集進行預處理,包括正則化、利用主成分分析法確定主成分個 數與結合局部迭代搜索確定主成分的基數;
[0010] 步驟二、對經過步驟一處理的確定的稀疏調優參數對基因數據進行截斷冪稀疏降 維與特徵提取,減少數據的幹擾性並提高後續過程聚類的準確性;
[0011] 步驟三、對數據特徵被提取的基因數據進行聚類方法處理;
[0012] 步驟四、將步驟三得到的聚類處理結果與設定的聚類精確率進行比對,並反饋調 節步驟一中稀疏降維的調優參數以達到最佳聚類精度。
[0013] 作為本發明的進一步優選方案,步驟一中,所述預處理的具體過程為:
[0014] 設定一個基因數據集A,其樣本個數為n,基因個數為P,且滿足η << P,對數據集 Α進行正則化處理後得出其協方差矩陣Σ,將主成分的求解模型表示如下:
[0015] find X' =arg max χτ Σ x subject to χτχ = 1
[0016] 其中,x為自變量,對應於高維數據轉換為低維數據的係數,在優化求解的過程中 將不斷更新,X'目標係數,即優化求解後主成分對應的最佳載荷,T表示轉置運算。
[0017] 作為本發明的進一步優選方案,採用冪迭代法求解主成分的求解模型中的矩陣特 徵值,其迭代求解過程為:
[0018] V! = Sv〇
[0019] v2 = Sv2 = S2v〇
[0020] ·
[0021] ·
[0022] ·
[0023] vt = Svh =…=Skv0
[0024] 其中,S為待求解的矩陣,Vi為每次迭代過程中的更新向量,其初始值為?,i為迭 代次數,其初始值為〇,當矩陣收斂時,i的取值為t,λ為 Vt向量中所有變量的最大公約 數;
[0025] 設定/為待求解的特徵向量,則/經由Vi同過提取公共參數λ變換得出。
[0026] 作為本發明的進一步優選方案,步驟一中,所述稀疏降維處理需滿足|x| 其 中,k為主成分的基數。
[0027] 作為本發明的進一步優選方案,採用截斷法控制稀疏度,並結合冪迭代法,進行稀 疏主成分的求解,具體過程包括:
[0028] (501)設定截斷算子:
[0029]
【權利要求】
1. 一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於,具體步驟包括:步驟 一、對基因數據集進行預處理,包括正則化、利用主成分分析法確定主成分個數、結合局部 迭代搜索確定主成分的基數; 步驟二、對經過步驟一處理後的確定的稀疏調優參數對基因數據進行截斷冪稀疏降維 與特徵提取,減少數據的幹擾性並提高後續過程聚類的準確性; 步驟三、對數據特徵被提取的基因數據進行聚類方法處理; 步驟四、將步驟三得到的聚類處理結果與設定的聚類精確率進行比對,並反饋調節稀 疏降維的調優參數以達到最佳聚類精度。
2. 如權利要求1所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於, 步驟一中,所述預處理的具體過程為: 設定一個基因數據集A,其樣本個數為n,基因個數為p,且滿足n<<p,對數據集A進 行正則化處理後得出其協方差矩陣E,將主成分的求解模型表示如下: findX,=argmaxxTExsubjecttoxTx=I 其中,X為自變量,對應於高維數據轉換為低維數據的係數,在優化求解的過程中將不 斷更新,X'目標係數,即優化求解後主成分對應的最佳載荷,T表示轉置運算。
3. 如權利要求2所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於: 採用冪迭代法求解主成分的求解模型中的矩陣特徵值,其迭代求解過程為: V1 = Sv0 v2 = Sv2 = S V0 ? ? Vt = SVh =…=Skv。 其中,S為待求解的矩陣,Vi為每次迭代過程中的更新向量,其初始值為了,i為迭代次 數,其初始值為〇,當矩陣收斂時,i的取值為t,A為Vt向量中所有變量的最大公約數; 設定/為待求解的特徵向量,則/經由Vi同過提取公共參數A變換得出。
4. 如權利要求3所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於, 步驟一中,所述稀疏降維處理需滿足IXIL<k,其中,k為主成分的基數。
5. 如權利要求4所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於, 採用截斷法控制稀疏度,並結合冪迭代法,進行稀疏主成分的求解,具體過程包括: (501) 設定截斷算子:
其中,F為k個下標的集合; (502) 根據如下公式求解稀疏主成分: 入max(2,k)=maxXt2XsubjecttoIIxI12 = 1,IIxI10<k 求解過程具體包括: Stepl:初始化Xci與迭代次數t= 1,設置基數Ici ; Step2:計算
按絕對值大小獲取k個Xt的下標賦給Ft ; Step3:計算xt' =Truncate(xt,Ft),歸一化xt =xt' / | |xt' | |,t一t+1 ; Step4 :當Step3計算結果收斂時,停止計算;否則,重複Step2和Step3步。
6.如權利要求1所述的一種基於截斷冪的稀疏基因表達數據分析方法,其特徵在於: 步驟三中,採用K-means聚類算法進行聚類方法處理。
【文檔編號】G06K9/62GK104268564SQ201410472872
【公開日】2015年1月7日 申請日期:2014年9月16日 優先權日:2014年9月16日
【發明者】沈寧敏, 李靜, 周培雲 申請人:南京航空航天大學