新四季網

用於發現文本詞間關聯規則的完全加權模式挖掘方法

2023-09-10 06:34:50

用於發現文本詞間關聯規則的完全加權模式挖掘方法
【專利摘要】一種用於發現文本詞間關聯規則的完全加權正負模式挖掘方法,通過將待處理的完全加權數據進行預處理,構建完全加權資料庫和項目庫;挖掘完全加權頻繁項集和負項集,剪枝獲得有趣的完全加權頻繁項集和負項集;採用支持度-CPIR模型-相關性-興趣度評價框架,挖掘有效的完全加權正負關聯規則。本發明能夠克服現有加權挖掘技術的缺陷,將項目權值客觀分布於資料庫中並隨事務記錄變化的完全加權數據特點融入該發明技術中,獲得更加實際合理的完全加權正負關聯模式,避免無效的和無趣的關聯模式產生,所挖掘的候選項集、頻繁項集和負項集以及正負關聯規則模式數量均比現有技術挖掘的少,挖掘效率得到極大地提高,並且具有良好的可擴展性。
【專利說明】用於發現文本詞間關聯規則的完全加權模式挖掘方法
【技術領域】
[0001]本發明屬於數據挖掘領域,具體是一種用於發現文本詞間關聯規則的完全加權正負模式挖掘方法,適用於文本挖掘中特徵詞關聯模式發現以及文本信息檢索查詢擴展等領域。
【背景技術】
[0002]近20年來,關聯規則挖掘得到眾多學者的極大興趣和研究,已經成為數據挖掘研究的一個熱點之一,其研究主要集中在基於項目頻度挖掘和基於項目權值挖掘等兩個方面。
[0003]基於項目頻度的正負關聯模式挖掘的主要特點是平等一致地處理資料庫中的項目,以項集在資料庫中出現的概率作為支持度挖掘關聯模式。基於項目頻度的關聯規則挖掘存在的缺陷是:只重視項目頻度,忽略項目權值,常常導致冗餘的、無趣的和無效的關聯規則增多。
[0004]為了克服上述關聯規則挖掘方法的缺陷,基於項目權值的正負關聯規則挖掘得到了重視和研究,其引入了項權重,以體現項目之間具有不同的重要性和項目在資料庫中具有不同的權值。基於項目權值的正負關聯規則挖掘分為加權正負關聯規則挖掘和完全加權正負關聯規則挖掘。加權正負關聯規則挖掘的主要特點是其項目權值體現了項集之間具有不同的重要性,隨著研究的深入,加權負關聯規則的作用日顯突出,在挖掘有利因素的同時也期望發現一些不利因素,通過負關聯規則的分析可以達到此目的。加權關聯規則挖掘的缺陷是忽略了項目權值在資料庫各個事務記錄中具有不同權值的情況。將項目權值客觀分布於事務記錄並隨記錄變化而變化的數據稱為完全加權數據。現有加權關聯規則挖掘方法不能適用完全加權數據挖掘,為此,2003年以來,完全加權關聯規則挖掘研究得到了關注和研究,當前,完全加權正負關聯規則挖掘技術在文本挖掘、信息檢索等領域有重要的理論和應用價值。完全加權關聯規則挖掘方法能夠有效地克服加權關聯規則挖掘的缺陷,但還不能解決完全加權負關聯規則挖掘技術問題。針對這些問題,本發明對完全加權正負關聯規則挖掘進行深入研究,提出一種新的基於項內權值比和維數比的完全加權正負關聯規則挖掘方法,應用於文本信息檢索查詢擴展,可以提高檢索性能,應用於文本挖掘,可以發現更加實際合理的正負特徵詞關聯模式。

【發明內容】

[0005]本發明的目的在於針對現有技術存在的不足,提供一種用於發現文本詞間關聯規則的完全加權模式挖掘方法,豐富基於項目權值挖掘的關聯規則挖掘技術成果,解決項完全加權正負關聯規則挖掘中的技術難題。該方法在文本挖掘、文本信息檢索等領域有重要的理論價值和廣闊的應用前景。
[0006]本發明實現上述目的所採取的技術方案是:一種用於發現文本詞間關聯規則的完全加權模式挖掘方法,包括如下步驟:[0007]( I)完全加權數據預處理階段:
[0008]現實世界中,存在海量的完全加權數據,如文本信息數據等。完全加權數據預處理方法要視具體的數據對象而定,例如,對於中文文本數據信息,則要進行分詞、去除停用詞、提取特徵詞及其權值計算等預處理方法;對於英文文本數據信息,預處理方法是詞幹提取、排除停用詞、詞彙分析、提取特徵詞及其權值計算等。完全加權數據預處理的結果是構建基於完全加權資料庫和項目庫;
[0009]對於文本數據的特徵詞權值計算公式是=Wij=(C).5+0.SXtfij/maXj^tfij)) X idfi;
[0010]其中,Wij為第i個特徵詞在第j篇文檔的權值,tfu為第i個特徵詞在第j篇文檔的詞頻,Idfi為第i個特徵詞的逆向文檔頻度,其值idfelogW/dfi), N為文檔集中文檔總數,df,為含有第i個特徵詞的文檔數量。
[0011](2)完全加權頻繁項集和負項集挖掘階段,包括以下步驟2.1和步驟2.2:
[0012]2.1、從項目庫中提取完全加權候選1_項集BwC1,並挖掘完全加權頻繁1_項集BwL1 ;具體步驟按照2.1.1~2.1.3進行:
[0013]2.1.1、從項目庫中提取完全加權候選1_項集BwC1 ;
[0014]2.1.2、累加完全加權候選1_項集awC1在完全加權資料庫(All-WeightedDatabase,簡稱AWD)中的權值總和,計算其支持度;
[0015]awQ支持度計算公式如下:
【權利要求】
1.一種用於發現文本詞間關聯規則的完全加權模式挖掘方法,其特徵在於,包括如下步驟: (1)完全加權數據預處理階段:將待處理的完全加權數據進行預處理,構建完全加權資料庫和項目庫; (2)完全加權頻繁項集和負項集挖掘階段,包括以下步驟2.1和步驟2.2: ` 2.1、從項目庫中提取完全加權候選1_項集,並挖掘完全加權頻繁1_項集;具體步驟按照2.1.1~2.1.3進行: ` 2.1.1、從項目庫中提取完全加權候選1_項集; ` 2.1.2、累加完全加權候選1_項集在完全加權資料庫中的權值總和,計算其支持度;` 2.1.3、將完全加權候選1_項集中支持度大於或等於最小支持度閾值的完全加權頻繁1_項集加入到完全加權頻繁項集集合; ` 2.2、從完全加權候選2_項集開始,按照步驟2.2.1~2.2.4進行操作: `2.2.1、將完全加權頻繁(1_1)_項集進行Apriori連接,生成完全加權候選i_項集;所述的i 2 ; `2.2.2、累加完全加權候選〔項集在完全加權資料庫中的權值總和,計算其支持度; ` 2.2.3、從完全加權候選〔項集中將其支持度不小於支持度閾值的頻繁i_項集取出,存入完全加權頻繁項集集合,同時,將其支持度小於支持度閾值的完全加權負〔項集存入完全加權負項集集合; `2.2.4、將i的值加1,如果頻繁(1_1)_項集為空就轉入(3)步,否則,繼續2.2.1~``2.2.3步驟; (3)剪枝階段:通過剪枝階段獲得有趣的完全加權頻繁項集和負項集: ` 3.1、對於頻繁項集集合中的每一個頻繁i_項集awLi,計算IAWFKawLi)值,剪除其IAffFI (BwLi)值為假的頻繁項集,剪枝後得到有趣的完全加權頻繁項集集合; ` 3.2、對於完全加權負項集集合中的每一個負i_項集awNi,計算IAWNKawNi)值,剪除其IAWNKawNi)值為假的負項集,剪枝後得到有趣的完全加權負項集集合; (4)從有趣的完全加權頻繁項集集合中挖掘有效的完全加權正負關聯規則,包括以下步驟: ` 4.1、從有趣的完全加權頻繁項集集合取出頻繁項集awLi,求出aw、的所有真子集,構建awQ的真子集集合,然後進行下列操作:` ` 4.2.1、從aw、的真子集集合中任意取出兩個真子集I1和12,當I1和I2的交集為空集,I1和I2的項目個數之和等於其原頻繁項集的項目個數,以及IJP I2的支持度都不小於支持度閾值,則計算頻繁項集(I1 U I2)的項內權值比EwIWR(I11I2)及其維數比EwIDR(I11I2);` 4.2.2、當資料庫中事務記錄總數(η)和上述4.2.1步的項內權值比(awIWRd I2))的乘積大於其維數比(BwIDRd1, I2))時(即ηX BwIffRd1, I2) >awIDR(I1, I2)),進行如下操作: ` 4.2.2.1 若 I1 — I2 的 awCPIR 值(BwCPIRd1 — I2))不小於置信度閾值 minconf,則挖掘出完全加權關聯規則I1 — I2 ;若I2 — I1的awCPIR值(awCPIR (I2 — I1))不小於置信度閾值minconf,則挖掘出完全加權關聯規則I2 — I1 ; ` 4.2.2.2若(^I1 U ^ I2)的支持度不小於支持度閾值minsup,那麼,①如果^ I1 —-12的awCPIR值(awCPIR( ^ I1I2))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則一1 Ii — ―1〗2 ;②如果一1〗2 — ―1 Ii的awCPIR值(awCPIR(,I2 —,I1))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則一.12 I1 ; .4.2.3、當資料庫中事務記錄總數(η)和上述4.2.1步的項內權值比(awIWRd I2))的乘積小於其維數比(BwIDRd1, I2))時(即ηXBwIffRd1, I2XawIDRd1, I2)),進行如下操作:.4.2.3.1若(I1 U ^ I2)的支持度不小於支持度閾值minsup,那麼,①如果I1 I2的awCPIR值(awCPIRdi — ^ I2))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則I1 —,I2 如果,I2 — I1的awCPIR值(awCPIR(,I2 — I1))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則一.12 ^ I1 ; .4.2.3.2若(^I1 U I2)的支持度不小於支持度閾值minsup,那麼,①如果^ I1 — I2的awCPIR值(awCPIR(,I1 — I2))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則一I1 — I2 ;②如果I2 — I I1的awCPIR值(awCPIR(I2 — ^ I1))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則I2 —,I1 ; .4.2.4、繼續4.2.1~4.2.3步驟,如果awL,的真子集集合中每個真子集都若且唯若被取出一次,則轉入4.2.5步; . 4.2.5,繼續4.1步驟,如果有趣的完全加權頻繁項集集合中每個頻繁項集aw、都若且唯若被取出一次,則轉入第(5)步; (5 )從有趣的完全加權負項集集合中挖掘有效的完全加權負關聯規則,包括以下步驟: .5.1、從有趣的完全加權負項集集合取出負項集awNi,求出awNi的所有真子集,構建awNj的真子集集合,然後進行下列操作: . 5.2.1、從awNi的真子集集合中任意取出兩個真子集I1和12,當I1和I2的交集為空集,I1和I2的項目個數之和等於其原頻繁項集的項目個數,以及I1和I2的支持度都大於或者等於支持度閾值,則計算負項集(I1 U I2)的項內權值比(awIWRdpg)及其維數比(BwIDRd1, I2));.5.2.2、當資料庫中事務記錄總數(η)和上述5.2.1步的項內權值比(awIWRd I2))的乘積大於其維數比(BwIDRd1, I2))時(即ηX BwIffRd1, I2) >awIDR(I1, I2)),進行如下操作:.5.2.2.1若(^I1 U —I I2)的支持度大於或者等於支持度閾值minsup,那麼,①如果的awCPIR值(awCPIR(,I1 —,I2))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則一1 Ii — ―1;②如果一1— ―1 Ii的awCPIR值(awCPIR( I2 —一1 Ii))大於或者等於置彳目度閾值minconf,則挖掘出完全加權負關聯規則一I I2 ^ —1 Ii ; . 5.2.3、當資料庫中事務記錄總數(η)和上述5.2.1步的項內權值比(awIWRd I2))的乘積小於其維數比(BwIDRd1, I2))時(即ηXBwIffRd1, I2XawIDRd1, I2)),進行如下操作:.5.2.3.1若(I1 U I2)的支持度大於或者等於支持度閾值minsup,那麼,①如果I1 —-12的awCPIR值(awCPIRdi — ^ I2))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則I1 —,I2 如果,I2 — I1的awCPIR值(awCPIR (,I2 — I1))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則,I2 — I1 ; .5.2.3.2若(^I1 U I2)的支持度大於或者等於支持度閾值minsup,那麼,①如果,I1 — I2的awCPIR值(awCPIR (,I1 — I2))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則一I1 — I2 ;②如果I2 — I I1的awCPIR值(awCPIR(I2 — ^ I1))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則I2 —,I1 ; .5.2.4、繼續5.2.1~5.2.3步驟,如果awR的真子集集合中每個真子集都若且唯若被取出一次,則轉入5.2.5步; .5.2.5,繼續5.1步驟,如果有趣的完全加權負項集集合中每個負項集awNi都若且唯若被取出一次,則完全加權正負關聯規則挖掘結束; 所述的「 I1, 12,I1 U —I I2, I1 — ―1 I/』等符號中的「 一1」為負相關符號,一1 Ii表不在事務處理中不出現I1的事件,稱為負項集I1 JI1 U-12)表示一個項集,該項集有子項集I1和負子項集I2 ;關聯規則I1 —,I2其含義是:如果子集I1的事件出現或者發生,那么子集I2的事件不會出現或者不發生。
2.根據權利要求1所述的用於發現文本詞間關聯規則的完全加權模式挖掘方法,其特徵在於,所述的待處理的完全加權數據預處理的具體步驟為,當待處理的完全加權數據為中文文本數據時,進行分詞、去除停用詞、提取特徵詞並計算其權值;當待處理的完全加權數據為英文文本數據時,進行詞幹提取、排除停用詞、詞彙分析、提取特徵詞並計算其權值。
【文檔編號】G06F17/27GK103838854SQ201410096985
【公開日】2014年6月4日 申請日期:2014年3月14日 優先權日:2014年3月14日
【發明者】黃名選, 元昌安 申請人:廣西教育學院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀