基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法

2024-02-25 02:34:15 3

基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法
【專利摘要】一種基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法，用蒙特卡洛方法從原樣本的基因表達數據中產生多個基因子集；每個子集通過非負矩陣因子分解方法分解為係數矩陣和基矩陣；每一個非負矩陣因子分解迭代中，若基矩陣中某樣本的稀疏性小於原樣本的最小稀疏性，該樣本中的元素從小到大逐步被零代替，至其稀疏性不再小於原樣本最小稀疏性；判斷收斂；迭代收斂後，基因得分用於判斷基因的重要性：按得分大小以降序排列基因，逐個選擇序列中的基因建立一系列模型，各模型通過十折交叉驗證方法校正；準確性最好的模型被用於預測。該方法能有效鑑別基因中的生物標誌物，且由鑑定出的生物標誌物建立的模型可用於有效地預測新的癌症中的顯型。
【專利說明】基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法

【技術領域】
[0001] 本發明屬於化學計量【技術領域】，涉及一種基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法。

【背景技術】
[0002] 癌症分類是臨床研宄中鑑定生物標誌物和治癒惡性腫瘤方面的關鍵問題。通過微陣列基因晶片技術得到的基因表達譜已經被成功地應用於鑑定生物標誌物和分類癌症樣本。
[0003] 基因表達譜通過大量的基因數據來反映生物信息。基因表達譜中的所有基因數據都可看作是潛在的生物標誌物。基因數據中的一些重要的生物標誌物和基因數據的特徵可以用來精確地預測新腫瘤的顯型。然而，如果使用所有的數據，分類將會遇到高維數據的問題。
[0004] 非負矩陣因子分解（nonnegative matrix factorization, NMF)能夠產生基因數據的非負和稀疏的基向量，它們能有效地表達基因數據並能用於精確地鑑定生物標志物。稀疏性是基向量的重要特徵，通過稀疏的基向量可以發現重要的基因。因此，一些方法被發展起來用於控制基向量的稀疏性。基於投影梯度下降（projected gradient descent，SNMF/P⑶）的一個方法通過乘性更新原理更新基因數據陣的逆矩陣，從而獲得具有渴望稀疏度的基向量。通過使用兩個正則化參數，約束非負矩陣因子分解（constrained NMF，CNMF)方法被提出並用於產生稀疏的基向量。通過使用定義的稀疏非負矩陣因子分解 [sparse NMF/L (SNMF/L)和sparse NMF/R (SNMF/R)]方法，一個方法通過在基因數據陣的逆矩陣上強加稀疏性來獲得稀疏的基向量。然而，通過稀疏化後得到的基因數據陣的稀疏的基向量會丟失原基因數據的很多重要信息，且稀疏性越大，丟失的信息越多。

【發明內容】

[0005] 本發明的目的是提供一種基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法，能最大限度地保留原基因數據中的重要信息，建立的模型可以用於有效地預測新的癌症中的顯型。
[0006] 為實現上述目的，本發明所採用的技術方案是：一種基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法，其特徵在於，該方法具體為：利用蒙特卡洛方法從原樣本的基因表達數據中產生^個基因子集；每個基因子集包含1/5的從基因表達數據中通過隨機採樣得到的/7·^基因數據，當直小於矩陣的秩if寸，直將設置為等於r; 然後，每個子集通過非負矩陣因子分解方法分解為一個係數矩陣s辦P-個基矩陣S//; 的初始元素是隨機數，^衝的初始元素是子集中的元素；在每一個非負矩陣因子分解迭代中，如果衝某樣本的稀疏性小於原樣本的最小稀疏性，該樣本中的元素將從小到大逐步被零代替，直至其稀疏性不再小於原樣本的最小稀疏性；為了判斷收斂，參數SC定義如下：

【權利要求】
1. 一種基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法，其特徵在於，該方法具體為：利用蒙特卡洛方法從原樣本的基因表達數據中產生S個基因子集；每個基因子集包含1/5的從基因表達數據中通過隨機採樣得到的/7^基因數據，當/74直小於矩陣的秩if寸，直將設置為等於r;然後，每個子集通過非負矩陣因子分解方法分解為一個係數矩陣S辦P-個基矩陣S的初始元素是隨機數的初始元素是子集中的元素；在每一個非負矩陣因子分解迭代中，如果SZ中某樣本的稀疏性小於原樣本的最小稀疏性，該樣本中的元素將從小到大逐步被零代替，直至其稀疏性不再小於原樣本的最小稀疏性；為了判斷收斂，參數SC定義如下：
式中，?是第?個回歸的數字；當SCf直接近零時，計算趨近收斂；一個閾值用來判斷收斂，即直小於該閾值時，認為計算收斂；如果當?值小於100時直小於閾值，則?值設為 100 ; 迭代收斂後，如下基因得分用於判斷基因的重要性：
式中，萬是一個基因的信息熵；一個基因在^個子集中出現沒次，因此，其最終得分是其沒個得分的平均值；然後，所有基因按其得分的大小以降序排列，通過逐個選擇序列中的基因建立一系列模型，且每個模型通過基於PLS-LDA的十折交叉驗證方法進行校正；校正準確性最好的模型被用於預測。
2. 根據權利要求1所述的基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法，其特徵在於，當直大於等於矩陣的秩K寸，直為隨機採樣的基因個數。
【文檔編號】G06F19/00GK104462817SQ201410745298
【公開日】2015年3月25日申請日期:2014年12月9日優先權日:2014年12月9日
【發明者】陳晶, 張苗, 邵學廣申請人:西北師範大學, 陳晶

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於蒙特卡洛和非負矩陣因子分解的基因選擇和癌症分類方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法