新四季網

一種模糊粗糙集中基於信息增益率的屬性選擇方法與流程

2023-06-12 13:59:37 2


本發明涉及屬性選擇方法,具體是指一種模糊粗糙集中基於信息增益率的屬性選擇方法。
背景技術:
:現實中由於數據採集的結果往往伴隨著噪聲數據,這使得不確定數學工具顯得尤為重要。粗糙集理論與其他處理不確定和不精確問題理論相比,無需提供問題所需處理的數據集合之外的任何先驗知識。由於粗糙集處理不確定數據的優越性,目前已經在分類、聚類等多個領域得到廣泛應用,其中,屬性選擇是最為重要的應用之一。屬性選擇可以從大量的屬性中消除冗餘、無關的屬性,從而提高數據質量、加速數據處理速度和改善分類器的泛化能力。經典的粗糙集理論只能夠處理符號屬性,對於數值屬性必須提前進行離散化處理。d.dubios和h.prad在1992年提出了模糊粗糙集,模糊粗糙集將模糊集和離散集結合,用模糊集和隸屬度來描述一個對象和集合間的關係,可以直接處理數值屬性。相比離散化,模糊化能較好的保留數值屬性的信息。信息增益率是一種選擇屬性的有效方法,可以懲罰值較多的屬性,在實際使用中往往具有較好的效果。但目前模糊粗糙集中存在的基於信息增益率的屬性選擇方法(daij,xuq.attributeselectionbasedoninformationgainratioinfuzzyroughsettheorywithapplicationtotumorclassification[j].appliedsoftcomputing,2013,13(1):211-221.):(1)沒有去除相關性較低的屬性,相關性較低的屬性可能會被選擇到結果中。(2)屬性選擇的結果中,可能存在冗餘。為了解決上述問題,提升模糊粗糙集中屬性選擇方法,本發明將提出一種新的模糊粗糙集中基於信息增益率的屬性選擇方法。相比目前模糊粗糙集中存在的基於信息增益率的屬性選擇方法,可以進一步從大量的屬性中消除無關、冗餘的屬性,從而提高數據質量、加速數據處理速度和改善分類器的泛化能力。技術實現要素:本發明的目的是為了提升模糊粗糙集中屬性選擇方法,而提出一種新的模糊粗糙集中基於信息增益率的屬性選擇方法。為了實現以上發明的目的,本發明採用的技術方案如下:本發明方法是在模糊粗糙集下,計算各屬性的信息增益率,去除信息增益率小於給定閾值的屬性;計算各個未被選擇的屬性的信息增益率,選擇信息增益率最大的屬性,並加入到屬性選擇結果中;重複上面的選擇過程,直到信息增益率的最大值為0或未被選擇的屬性集為空集,去除選擇結果中的冗餘屬性。這裡的各個未被選擇的屬性是指代刪除信息增益率小於給定閾值的屬性後的模糊粗糙集下的屬性。上述基於模糊粗糙集信息增益率的屬性選擇方法的具體描述如下:輸入:一個決策表dt=(u,a=c∪d,v,f),其中u是論域,c是條件屬性集,d是決策屬性集,v是值域,f是u和a到v的映射。論域中對象間的模糊相似關係。閾值δ(可根據實際情況調節,默認為一個較小的值:0.000001)。輸出:屬性選擇結果b第1步:令屬性選擇結果b的初始值為空集,未被選擇的屬性集m的初始值為c第2步:對於未選擇屬性集m中的每個屬性a,如果信息增益率gr(a,b,d)0,並且繼續執行第3步和第4步;否則,進入下一步。第6步:對於屬性選擇結果b中的每個屬性a,如果信息增益率gr(a,b–{a},d)=0,則b=b–{a}。遍歷屬性選擇結果b中所有屬性,最終得到所需的結果集。(先選擇的屬性往往更重要,因此優先去除後選擇的屬性,即在本步中反向遍歷b)本發明方法具有模糊粗糙集的優點,可以直接處理數值屬性,而且使用信息增益率選擇屬性;提前去除相關性較低的屬性,防止相關性較低的屬性被選擇到結果中;屬性選擇後,去除結果中的冗餘屬性。相比目前模糊粗糙集中存在的基於信息增益率的屬性選擇方法,可以進一步的從大量的屬性中消除無關、冗餘的屬性,從而提高數據質量、加速數據處理速度和改善分類器的泛化能力。附圖說明圖1為本發明的方法流程圖;圖2為本發明的實施流程圖。具體實施方式下面結合具體實施例對本發明做進一步的分析。本發明包括以下4個步驟,圖1為本發明的方法流程圖;圖2為本發明的實施流程圖。(1)將數據轉化為粗糙集中使用的決策表格式(2)計算決策表中對象的模糊相似關係,常用的數值屬性的模糊相似關係如下其中:xi和xj表示論域u中的2個對象,amax表示屬性a的最大值,amin表示屬性a的最小值。(3)通過本發明的基於模糊粗糙集信息增益率的屬性選擇方法,得到屬性選擇結果(4)輸出屬性選擇結果實驗例:在醫療領域,用機器學習算法診斷疾病已經成為一種新的趨勢。相比於傳統的人工診斷,使用機器學習算法診斷,效率更高,準確率更好。然而,現實生活中採集的數據往往包含大量的噪聲和冗餘屬性。使用這種數據訓練模型,效率低下,準確率低。因此,去除冗餘屬性和噪聲的預處理技術是必不可少的步驟。在本發明中,使用本專利提出的方法對uci(http://archive.ics.uci.edu/ml)數據倉庫中的breastcancerwisconsin(diagnostic)進行屬性約減,並驗證結果的有效性。breastcancerwisconsin(diagnostic)數據集的特徵是從乳腺腫塊的細針穿刺(fna)圖像提取的。這些特徵描述了圖像中細胞核的特性。數據集的類別只有兩種:良性(benign)和惡性(malignant)。數據集的信息如表1所示。運行的結果如表2所示:消除無關、冗餘的屬性,從而提高數據質量和改善分類器的泛化能力。屬性選擇後的數據集為原始數據集去除未在屬性選擇中的屬性;分類準確率為十者交叉驗證的平均值,採用的分類器為邏輯回歸。表1數據集信息#dataset#instances#attributes#classbcw569322表2屬性選擇後的數據集與原始數據集對比上述實施例並非是對於本發明的限制,本發明並非僅限於上述實施例,只要符合本發明要求,均屬於本發明的保護範圍。當前第1頁12

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀