新四季網

一種生物醫學關鍵屬性選擇方法與流程

2023-07-11 21:54:26


本發明涉及一種生物醫學關鍵屬性選擇方法。從應用範圍的角度講,屬於生物醫學技術領域;從技術實現的角度來講,亦屬於計算機科學與生物信息處理技術領域。



背景技術:

近年來,生物醫學研究迅速發展,特別是測量儀器技術的提高和醫院信息系統的推廣,使得大量醫學信息能夠被精確的記錄下來,從而導致醫學數據資料爆炸性增長。然而大量豐富複雜的數據給研究工作帶來充足資料的同時,也給研究人員的分析處理帶來了更大的挑戰。數據挖掘總體過程包括數據採集、數據預處理、知識挖掘、模型評估和知識應用,能夠很好的處理海量數據,並能從提取潛在有用知識,正是由於該特性,數據挖掘技術從提出起就被應用到生物醫學研究領域,並取得了相當大的成功。

對於生物醫學研究領域來說,信息採集時往往沒有特定具體的研究目標,導致原始數據集中包含大量屬性,需要在數據分析之前對原始數據進行屬性選擇,得到一個具有代表性的屬性子集,其主要目的有:去除不相關屬性、冗餘屬性,提高存儲效率;去除共線性屬性和噪聲屬性,減少對數據分析的幹擾和影響;提高模型的泛化性能和運行效率;得到更加簡單和容易理解的學習模型,提高模型的可解釋性。

在生物醫學研究過程中進行屬性選擇,雖然現在已經有很多屬性選擇的方法,但是並不存在一種適用於任何問題的屬性選擇方法。按照評價標準區分屬性選擇算法,主要分為兩類:

1.過濾式屬性選擇(filter)

過濾式屬性選擇是一種計算效率較高的方法,它通過數據集本身的內在性質得到評價標準,與特定的學習算法無關,具有較好的通用性。過濾式屬性選擇的評價標準分為四類:即距離度量、信息度量、關聯度度量和一致性度量。

(1)距離度量包括幾何距離度量和概率距離度量。其中,幾何距離的評價標準通常分為類內和類間散度矩陣。類內散度矩陣表示各樣本點圍繞均值的散布情況,類間散度矩陣表示各類模式之間在空間的散布情況。屬性選擇的結果應使類內散布矩陣的跡越小越好,類間散布矩陣的跡越大越好。基於概率距離的評價標準有kullback-leibler距離,又稱相對熵,衡量相同事件空間裡的兩個概率分布的差異情況,由於其需要已知各個類別的概率密度函數,故具有很大的局限性。

(2)信息度量是採用資訊理論中基於熵的評價標準,比如最小描述長度(minimumdescriptionlength)、互信息(mutualinformation)、信息增益(informationgain)等。這些評價標準描述屬性的複雜程度,代表屬性包含信息量的大小,屬性選擇往往選擇複雜程度較大的屬性。

(3)關聯性度量主要考察屬性間的關聯度,即相關性和冗餘性。其中線性關聯有線性相關係數(皮爾遜係數和斯皮爾曼相關係數)等,非線性關聯有基於信息熵的互信息、對稱的不確定性等。

(4)一致性度量試圖找到與全集相同分類能力的最小特徵子集,不一致性定義為如果在選定的特徵子集取值相同的樣本,卻屬於不同的類。

2.封裝式屬性選擇(wrapper)

封裝式屬性選擇使用學習算法的性能指標來評價屬性子集的優劣,也就是封裝法使用待評價的屬性子集訓練分類器,再根據分類器的性能對該屬性子集進行評價。

封裝法用以評價屬性子集優劣的學習算法是多種多樣的,對於使用的學習算法要求很低,大部分分類算法都可以使用封裝法,例如決策樹、神經網絡、貝葉斯分類器、支持向量機以及近鄰法等等。

過濾法的通用性強,省去了模型訓練步驟,算法複雜度低,適用於大規模數據集,可以快速去除大量不相關屬性,但是該方法獨立於特定的學習算法,分類準確率較低。而封裝法雖然得到的屬性子集分類性能較好,但是特徵通用性不強,並且算法計算複雜度較高,尤其對於大規模數據集來說,算法的執行時間很長。

綜上所述,現有屬性選擇算法僅針對特定評價指標選擇屬性子集,無法兼顧通用性和算法複雜度,對大規模數據集的處理效率較低;而對生物醫學數據進行屬性選擇的效果也不甚理想,仍待進一步提高。



技術實現要素:

本發明的目的是為解決生物醫學數據中屬性選擇的問題,提出一種基於boruta-邏輯回歸的屬性選擇方法。

本發明的設計原理為:首先,使用boruta算法分析待選屬性的重要性,提取出影響研究目標的重要屬性;然後使用待選屬性構建邏輯回歸模型,採用aic準則進行逐步回歸,得到對研究目標有顯著影響屬性;對於兩種方法篩選得到關鍵屬性,結合專家意見,採用交集歸類的方法進行屬性融合,得到最終的關鍵屬性。本發明使用兩個不同方法對影響研究目標的屬性進行選擇,算法之間差異明顯,避免單一方法帶來的局限性,提高關鍵屬性的泛化性。

本發明的技術方案是通過如下步驟實現的:

步驟1,數據集s包含n個樣本,m維影響2型糖尿病幹預效果的待選屬性,使用boruta算法對人群的幹預效果進行擬合,得到影響幹預效果的關鍵屬性,以及待選屬性的重要性排序,具體實現方法為:

步驟1.1,創建數據集s的副本屬性,並進行重排得到重組數據集s',增加給定數據集的隨機性;

步驟1.2,構建樹的個數為n(0<n≤n)在數據集s'中,採用bootstrap方式有放回地隨機抽取n個新的樣本集,每個樣本集的數據量大約為2n/3,每個樣本集被記錄為di(0<i≤n),沒有被抽取的數據記錄為袋外數據oi(0<i≤n),構建包含n棵樹的隨機森林模型;

步驟1.3,構建分類回歸樹,計算每個樹對應的袋外數據均方誤差,記為msei,則n棵樹的原始袋外數據均方誤差向量為[mse1,mse2,…,msen];

步驟1.4,基於步驟2.2得到的均方誤差向量[mse1,mse2,…,msen],與對應屬性計算得到的z值,確定z值最大的副本屬性,同時篩選出比其值更大的屬性作為重要屬性,而對應其z值小的屬性標記為非重要屬性,並從數據集中刪除;

步驟1.5,重複以上步驟1.1至1.4,直到達到預設的終止條件;

步驟1.6,屬性的均方誤差代表屬性的重要性,屬性重要性排序靠前的屬性,為對2型糖尿病幹預效果具有重要影響的屬性。

步驟2,基於原始數據集s,根據人群的幹預效果構建邏輯回歸判別模型,使用邏輯回歸算法對人群的幹預效果進行擬合,得到對幹預效果具有顯著影響的屬性,具體實現方法為:

步驟2.1,對m維待選屬性進行歸一化處理,計算方法為:

其中,是第i個樣本第l維屬性原始值,是第i個樣本第l維屬性的歸一化值,和則分別是樣本第l維屬性的最大值和最小值;

步驟2.2,構建邏輯回歸模型,採用最大似然估計方法計算各屬性係數,回歸方程如下:

f(x)=b0+b1x1+b2x2+...+bmxm

其中,xl(0<l≤m)表示第l維屬性,m為屬性的維度,bl(0<l≤m)表示邏輯回歸模型中各屬性的權重;

步驟2.3,採用aic準則進行逐步回歸,得到aic最小時的屬性組合,構建邏輯回歸模型;

步驟2.4,對邏輯回歸模型中m維屬性權重進行顯著性檢驗,以顯著性水平為0.05,篩選對幹預效果具有顯著影響的屬性。

步驟3,基於步驟1中boruta算法得到對幹預效果具有重要影響的屬性,步驟2中邏輯回歸算法得到對幹預效果具有顯著影響的屬性,結合專家意見,採用交集歸類的方法,得到影響幹預效果的關鍵屬性,具體實現方法為:

步驟3.1,結合專家經驗意見,考慮屬性的採集難度,對步驟1和步驟2中選擇得到的屬性進一步篩選;

步驟3.2,基於boruta算法得到對幹預效果具有重要影響的屬性,和邏輯回歸算法得到對幹預效果具有顯著影響的屬性,選擇同時出現的屬性,作為影響幹預效果的關鍵屬性。

有益效果

本發明提出的基於boruta算法和邏輯回歸算法的生物醫學關鍵屬性選擇方法,通過邏輯回歸得到不同屬性對幹預效果的作用程度,選擇具有顯著影響的屬性,而boruta算法能夠量化不同屬性對幹預效果的作用靈敏程度,綜合兩個方法得到的關鍵屬性,既保證關鍵屬性的可信程度,又使得關鍵屬性對幹預效果具有重要影響,算法之間差異明顯,避免單一方法帶來的局限性,為針對性調整幹預指導措施提供了指導意見。

附圖說明

圖1為本發明提出的生物醫學關鍵屬性選擇方法原理圖;

圖2為具體實施方式中,基於boruta算法的屬性重要性排序。

具體實施方式

為了更好的說明本發明的目的和優點,下面結合附圖和實施例對本發明方法的實施方式做進一步詳細說明。

以下所有測試均在同一臺計算機上完成,具體配置為:intel雙核cpu(主頻2.53g),4g內存,windows7作業系統。

測試採用數據來源自於北京醫院老年醫學研究所合作的2型糖尿病高危個體強化生活方式幹預管理數據,對幹預組中受訪者的入組狀態進行rsd判定,選擇入組高危人群數據,共452條樣本。

對幹預半年後數據再次進行rsd風險狀態判定,保持高危為劃分為0類,風險狀態下降的劃分為1類(即幹預措施有效),作為二分類訓練數據源的標籤,共20維不同屬性,包括7維幹預措施(總運動時間、有效運動量、有效運動時間、有效運動次數、有效量比體重、實際攝入量、平衡量)、10維入組身體指標(體重、bmi、腰圍、收縮壓、舒張壓、血糖、膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白)、3維基本指標(年齡、性別、糖尿病家族史)。

1、基於boruta算法的重要屬性

高危人群經過半年的幹預時間發生不同變化,通過boruta算法,依據重要性排序結果選擇影響幹預效果的重要屬性,原理圖如圖1所示,具體實施步驟如下:

步驟1,複製變量的數據,構建並重排副本屬性,獲得擴展數據集;

步驟2,基於擴展數據集,採用bootstrap方式抽取樣本集,未被抽取到的作為袋外數據,構建隨機森林分類器;

步驟3,訓練分類回歸樹,並計算每棵樹對應袋外數據的均方誤差mse1,mse2,…,msei,其中(0<i≤n),則m棵樹的原始袋外數據均方誤差向量可以表示為[mse1,mse2,…,msen];

步驟4,基於步驟3得到的原始袋外數據均方誤差向量[mse1,mse2,…,msen],計算對應屬性的z值,篩選z值最大的副本屬性,以及比該屬性數值更大的屬性,融合得到重要屬性,將比該屬性數值小的屬性歸為非重要屬性,刪除非重要屬性及副本屬性;

步驟5,重複執行步驟1至步驟4,到達到預設終止條件為止;

步驟6,根據boruta算法的計算結果,屬性的均方誤差代表屬性的重要性,屬性重要性排序靠前的屬性,為對2型糖尿病幹預效果具有重要影響的屬性。

幹預半年時,20維屬性根據袋外數據均方誤差進行屬性重要性排序,結果見圖2。

通過迭代比較屬性的z值,最終確定5維重要屬性,分別是有效運動量、有效量比體重、腰圍、有效運動時間和bmi,1維暫定不確定屬性,是低密度脂蛋白,其餘14維屬性為不重要屬性。

2、基於邏輯回歸的顯著屬性

分別針對不同幹預時間人群變化情況,通過邏輯回歸算法,權重表示各屬性對幹預效果的影響程度,sig表示顯著檢驗的結果,當sig≤0.05時,表示該屬性對幹預效果有顯著性影響,具體實施步驟如下:

步驟1,對待選屬性進行歸一化處理,消除屬性的不同量綱對結果的影響;

步驟2,構建邏輯回歸模型,採用最大似然估計方法計算各屬性係數;

步驟3,採用aic準則進行逐步回歸,得到aic最小時的屬性組合,構建邏輯回歸模型;

步驟4,對邏輯回歸模型中屬性權重進行顯著性檢驗,以顯著性水平為0.05,篩選對幹預效果具有顯著影響的屬性。

實驗結果,見表1:

表1邏輯回歸屬性重要性排序結果

根據實驗結果,以顯著性水平為0.05為準,選擇有效量比體重、有效運動時間、bmi為顯著屬性。

3、屬性融合

基於boruta算法得到對幹預效果具有重要影響的屬性,和邏輯回歸算法得到對幹預效果具有顯著影響的屬性,選擇同時出現的屬性,作為影響幹預效果的關鍵屬性,最終確定有效量比體重、有效運動時間、bmi為影響幹預效果的關鍵屬性。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀