用於腫瘤檢測的基因選擇方法
2023-12-09 04:42:51
專利名稱:用於腫瘤檢測的基因選擇方法
技術領域:
本發明涉及一種用於腫瘤檢測的基因選擇方法,尤其涉及一種用於腫瘤檢測的對DNA微陣列中腫瘤相關基因進行選擇的基因選擇方法
背景技術:
常規的腫瘤檢測方法是建立在形態學基礎之上的,它高度依賴於病理學專家對腫瘤組織的主觀判斷。環境條件的差異性給疾病的診斷帶來許多不確定性的因素,進而影響預測判斷的結果。DNA微陣列隨著人類基因組的研究應運而生,它使用微縮技術,將核酸高密集有序地排列在固定的區域內作為微型的DNA檢測器件,以發現DNA中基因的內在聯繫。對癌症和正常的DNA片段進行比對操作,同時觀察數千種基因的各自表達情況,並利用數據分析技術推斷出基因之間的相互關係,依此對疾病的類型和診斷等做出精確的判斷,從而幫助專家對疾病做出正確的診斷。由於DNA微陣列是某組織或細胞中所有基因的表達數據,維數通常達到幾千或上萬維,但在實際應用中只有很小一部分基因對腫瘤診斷具有價值,而大部分基因是無用的或與分析無關的。同時,由於實際臨床治療中病例樣本一般較少和微陣列實驗成本很高等原因,大多數基因表達樣本集都具有很少數量的樣本和數以萬計的基因,過多的基因對數據分析方法而言是不適宜的。開發有效的基因表達數據分析和學習工具已經成為腫瘤檢測研究的熱點問題之一。基因選擇是利用機器學習的方法從成千上萬個基因中挑選出與腫瘤檢測相關的基因,從而建立精簡的預測模型,為腫瘤的治療提供可靠的診斷結果。在機器學習的應用中,基因選擇又被稱為特徵選擇。目前,現有的機器學習中的特徵選擇方法常常是選擇與目標相關性最大且冗餘性最小的特徵,而在DNA微陣列中往往是幾個高度相關的基因共同表達一類疾病,因此已有的特徵選擇算法在腫瘤檢測的應用中並不理想。
發明內容
本發明的目的在於提供一種用於腫瘤檢測的對DNA微陣列中腫瘤相關基因進行選擇的基因選擇方法,能夠根據已選基因與待選基因之間的相關性特徵動態地調整待選基因的權值,從而最大限度地選出具有較高正確診斷率基因,提供可靠的診斷結果和治療方案。一種用於腫瘤檢測的基因選擇方法,包括以下步驟1.預處理模塊獲取初始輸入的基因樣本,並對初始樣本進行預處理,生成候選基因集合,並提供給基因權值評估模塊;2.所述基因權值評估模塊首先對輸入的所述候選基因集合中的每個基因賦予相同的權值為I,生成加權候選基因集合,並進入基因選擇流程;3.所述基因選擇流程為A.基因選擇模塊從所述基因權值評估模塊獲得所述加權候選基因集合;B.所述基因選擇模塊計算每個基因與目標類的相關度並乘以該基因的權值,得到每個基因的優先級;C.所述基因選擇模塊按照候選基因集合中每個基因的優先級從大到小依次排列,具有最聞優先級的基因成為最新選擇基因,將該基因加入最優基因集合,並將其從候選基因集合中刪除;D.所述基因選擇模塊判斷是否符合終止條件,如果不符合,將所述最新選擇基因輸入相關性分析模塊,繼續進行步驟E ;如果符合終止條件,則結束基因選擇,輸出最優基因集合給分類器;E.所述相關性分析模塊對候選基因集合中的每個基因與所述最新選擇基因之間進行相關性分析,計算所述候選基因集合中的每個基因的權值的調整係數,進而獲得調整係數向量;F.所述基因權值評估模塊根據所述調整係數向量對候選基因集合中的每個基因的權值進行調整,得到新的加權候選基因集合,再返回到步驟A。其中步驟I所述預處理包括規範化處理和離散化處理,所述候選基因集合為特徵矩陣,列數表示基因數,行數為樣本數,其大小由輸入樣本決定;所述規範化處理是通過計算樣本的均值U和標準方差O ,對每個樣本所對應的基因值X規範化為(x-1i)/o,從而使得每個基因的均值為0和標準方差為I ;所述離散化處理的方法是基因值的範圍為(-①,-0. 5]時轉化為1,基因值的範圍在(-0. 5,0. 5)的轉化為2,基因值的範圍為
時轉化為I,基因值的範圍在(-0.5,0. 5)的轉化為2,基因值的範圍為[0. 5, + °° )轉化為3。
5.根據權利要求1所述的一種用於腫瘤檢測的基因選擇方法,其特徵在於步驟(三)E所述相關性分析為依賴性、冗餘性和無關性分析,首先計算所述候選基因集合中每個基因g與目標類class之間的互信息I (g ;class),以及將所述最新選擇基因g_作為已知條件的情況下基因g與目標類class之間的條件互信息I (g ;class | gnew),然後,計算I (g ;class IgneJ和I(g;class)之間的差值,如公式(2)所示e = I (g ;class I gnew) -1 (g ;class) (2) 如果e大於O,則基因g相對於所述最新選擇基因gn6W是依賴的,如果e小於O,則基因g相對於所述最新選擇基因gn6W是冗餘的,如果e等於O,則基因g與所述最新選擇基因gnew是無關的。
6.根據權利要求5所述的一種用於腫瘤檢測的基因選擇方法,其特徵在於步驟(三)E所述基因的調整係數是該基因g與所述最新選擇基因進行相關性分析後,該基因的權值需調整的比率,其計算方法如公式(3)所示
7.根據權利要求6所述的一種用於腫瘤檢測的基因選擇方法,其特徵在於步驟(三)F所述根據調整係數向量對候選基因集合中的每個基因的權值進行調整,其調整方法如公式(4)所示 (g) =1+0 (g) (0 彡 to (g) 2) (4) 其中g為所述候選基因集合中的一個基因,《 (g)為該基因的權值,9 (g)是該基因的調整係數。
全文摘要
本發明公開了一種用於腫瘤檢測的基因選擇方法,按下列步驟進行預處理模塊對初始輸入樣本進行預處理,生成候選基因集合;基因權值評估模塊對候選基因集合中的每個基因賦予相同的權值,進入基因選擇流程;基因選擇模塊計算每個基因的優先級,選擇具有最高優先級的基因作為最新選擇基因,並將其加入最優基因集合;相關性分析模塊根據最新選擇基因計算候選基因集合中的每個基因的權值的調整係數;基因權值評估模塊根據調整係數對基因的權值進行調整,並繼續進行基因選擇流程;選擇結束後,輸出最優基因集合給分類器。本發明能夠挑選出與腫瘤相關的最優基因集合用於診斷,更符合實際情況,滿足高精度的腫瘤診斷的需求。
文檔編號G06F19/00GK103065029SQ201110319228
公開日2013年4月24日 申請日期2011年10月20日 優先權日2011年10月20日
發明者孫鑫, 劉衍珩, 朱建啟, 李飛鵬 申請人:吉林大學