用於發現文本詞間關聯規則的完全加權模式挖掘方法
2023-09-10 06:34:50
用於發現文本詞間關聯規則的完全加權模式挖掘方法
【專利摘要】一種用於發現文本詞間關聯規則的完全加權正負模式挖掘方法,通過將待處理的完全加權數據進行預處理,構建完全加權資料庫和項目庫;挖掘完全加權頻繁項集和負項集,剪枝獲得有趣的完全加權頻繁項集和負項集;採用支持度-CPIR模型-相關性-興趣度評價框架,挖掘有效的完全加權正負關聯規則。本發明能夠克服現有加權挖掘技術的缺陷,將項目權值客觀分布於資料庫中並隨事務記錄變化的完全加權數據特點融入該發明技術中,獲得更加實際合理的完全加權正負關聯模式,避免無效的和無趣的關聯模式產生,所挖掘的候選項集、頻繁項集和負項集以及正負關聯規則模式數量均比現有技術挖掘的少,挖掘效率得到極大地提高,並且具有良好的可擴展性。
【專利說明】用於發現文本詞間關聯規則的完全加權模式挖掘方法
【技術領域】
[0001]本發明屬於數據挖掘領域,具體是一種用於發現文本詞間關聯規則的完全加權正負模式挖掘方法,適用於文本挖掘中特徵詞關聯模式發現以及文本信息檢索查詢擴展等領域。
【背景技術】
[0002]近20年來,關聯規則挖掘得到眾多學者的極大興趣和研究,已經成為數據挖掘研究的一個熱點之一,其研究主要集中在基於項目頻度挖掘和基於項目權值挖掘等兩個方面。
[0003]基於項目頻度的正負關聯模式挖掘的主要特點是平等一致地處理資料庫中的項目,以項集在資料庫中出現的概率作為支持度挖掘關聯模式。基於項目頻度的關聯規則挖掘存在的缺陷是:只重視項目頻度,忽略項目權值,常常導致冗餘的、無趣的和無效的關聯規則增多。
[0004]為了克服上述關聯規則挖掘方法的缺陷,基於項目權值的正負關聯規則挖掘得到了重視和研究,其引入了項權重,以體現項目之間具有不同的重要性和項目在資料庫中具有不同的權值。基於項目權值的正負關聯規則挖掘分為加權正負關聯規則挖掘和完全加權正負關聯規則挖掘。加權正負關聯規則挖掘的主要特點是其項目權值體現了項集之間具有不同的重要性,隨著研究的深入,加權負關聯規則的作用日顯突出,在挖掘有利因素的同時也期望發現一些不利因素,通過負關聯規則的分析可以達到此目的。加權關聯規則挖掘的缺陷是忽略了項目權值在資料庫各個事務記錄中具有不同權值的情況。將項目權值客觀分布於事務記錄並隨記錄變化而變化的數據稱為完全加權數據。現有加權關聯規則挖掘方法不能適用完全加權數據挖掘,為此,2003年以來,完全加權關聯規則挖掘研究得到了關注和研究,當前,完全加權正負關聯規則挖掘技術在文本挖掘、信息檢索等領域有重要的理論和應用價值。完全加權關聯規則挖掘方法能夠有效地克服加權關聯規則挖掘的缺陷,但還不能解決完全加權負關聯規則挖掘技術問題。針對這些問題,本發明對完全加權正負關聯規則挖掘進行深入研究,提出一種新的基於項內權值比和維數比的完全加權正負關聯規則挖掘方法,應用於文本信息檢索查詢擴展,可以提高檢索性能,應用於文本挖掘,可以發現更加實際合理的正負特徵詞關聯模式。
【發明內容】
[0005]本發明的目的在於針對現有技術存在的不足,提供一種用於發現文本詞間關聯規則的完全加權模式挖掘方法,豐富基於項目權值挖掘的關聯規則挖掘技術成果,解決項完全加權正負關聯規則挖掘中的技術難題。該方法在文本挖掘、文本信息檢索等領域有重要的理論價值和廣闊的應用前景。
[0006]本發明實現上述目的所採取的技術方案是:一種用於發現文本詞間關聯規則的完全加權模式挖掘方法,包括如下步驟:[0007]( I)完全加權數據預處理階段:
[0008]現實世界中,存在海量的完全加權數據,如文本信息數據等。完全加權數據預處理方法要視具體的數據對象而定,例如,對於中文文本數據信息,則要進行分詞、去除停用詞、提取特徵詞及其權值計算等預處理方法;對於英文文本數據信息,預處理方法是詞幹提取、排除停用詞、詞彙分析、提取特徵詞及其權值計算等。完全加權數據預處理的結果是構建基於完全加權資料庫和項目庫;
[0009]對於文本數據的特徵詞權值計算公式是=Wij=(C).5+0.SXtfij/maXj^tfij)) X idfi;
[0010]其中,Wij為第i個特徵詞在第j篇文檔的權值,tfu為第i個特徵詞在第j篇文檔的詞頻,Idfi為第i個特徵詞的逆向文檔頻度,其值idfelogW/dfi), N為文檔集中文檔總數,df,為含有第i個特徵詞的文檔數量。
[0011](2)完全加權頻繁項集和負項集挖掘階段,包括以下步驟2.1和步驟2.2:
[0012]2.1、從項目庫中提取完全加權候選1_項集BwC1,並挖掘完全加權頻繁1_項集BwL1 ;具體步驟按照2.1.1~2.1.3進行:
[0013]2.1.1、從項目庫中提取完全加權候選1_項集BwC1 ;
[0014]2.1.2、累加完全加權候選1_項集awC1在完全加權資料庫(All-WeightedDatabase,簡稱AWD)中的權值總和,計算其支持度;
[0015]awQ支持度計算公式如下:
【權利要求】
1.一種用於發現文本詞間關聯規則的完全加權模式挖掘方法,其特徵在於,包括如下步驟: (1)完全加權數據預處理階段:將待處理的完全加權數據進行預處理,構建完全加權資料庫和項目庫; (2)完全加權頻繁項集和負項集挖掘階段,包括以下步驟2.1和步驟2.2: ` 2.1、從項目庫中提取完全加權候選1_項集,並挖掘完全加權頻繁1_項集;具體步驟按照2.1.1~2.1.3進行: ` 2.1.1、從項目庫中提取完全加權候選1_項集; ` 2.1.2、累加完全加權候選1_項集在完全加權資料庫中的權值總和,計算其支持度;` 2.1.3、將完全加權候選1_項集中支持度大於或等於最小支持度閾值的完全加權頻繁1_項集加入到完全加權頻繁項集集合; ` 2.2、從完全加權候選2_項集開始,按照步驟2.2.1~2.2.4進行操作: `2.2.1、將完全加權頻繁(1_1)_項集進行Apriori連接,生成完全加權候選i_項集;所述的i 2 ; `2.2.2、累加完全加權候選〔項集在完全加權資料庫中的權值總和,計算其支持度; ` 2.2.3、從完全加權候選〔項集中將其支持度不小於支持度閾值的頻繁i_項集取出,存入完全加權頻繁項集集合,同時,將其支持度小於支持度閾值的完全加權負〔項集存入完全加權負項集集合; `2.2.4、將i的值加1,如果頻繁(1_1)_項集為空就轉入(3)步,否則,繼續2.2.1~``2.2.3步驟; (3)剪枝階段:通過剪枝階段獲得有趣的完全加權頻繁項集和負項集: ` 3.1、對於頻繁項集集合中的每一個頻繁i_項集awLi,計算IAWFKawLi)值,剪除其IAffFI (BwLi)值為假的頻繁項集,剪枝後得到有趣的完全加權頻繁項集集合; ` 3.2、對於完全加權負項集集合中的每一個負i_項集awNi,計算IAWNKawNi)值,剪除其IAWNKawNi)值為假的負項集,剪枝後得到有趣的完全加權負項集集合; (4)從有趣的完全加權頻繁項集集合中挖掘有效的完全加權正負關聯規則,包括以下步驟: ` 4.1、從有趣的完全加權頻繁項集集合取出頻繁項集awLi,求出aw、的所有真子集,構建awQ的真子集集合,然後進行下列操作:` ` 4.2.1、從aw、的真子集集合中任意取出兩個真子集I1和12,當I1和I2的交集為空集,I1和I2的項目個數之和等於其原頻繁項集的項目個數,以及IJP I2的支持度都不小於支持度閾值,則計算頻繁項集(I1 U I2)的項內權值比EwIWR(I11I2)及其維數比EwIDR(I11I2);` 4.2.2、當資料庫中事務記錄總數(η)和上述4.2.1步的項內權值比(awIWRd I2))的乘積大於其維數比(BwIDRd1, I2))時(即ηX BwIffRd1, I2) >awIDR(I1, I2)),進行如下操作: ` 4.2.2.1 若 I1 — I2 的 awCPIR 值(BwCPIRd1 — I2))不小於置信度閾值 minconf,則挖掘出完全加權關聯規則I1 — I2 ;若I2 — I1的awCPIR值(awCPIR (I2 — I1))不小於置信度閾值minconf,則挖掘出完全加權關聯規則I2 — I1 ; ` 4.2.2.2若(^I1 U ^ I2)的支持度不小於支持度閾值minsup,那麼,①如果^ I1 —-12的awCPIR值(awCPIR( ^ I1I2))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則一1 Ii — ―1〗2 ;②如果一1〗2 — ―1 Ii的awCPIR值(awCPIR(,I2 —,I1))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則一.12 I1 ; .4.2.3、當資料庫中事務記錄總數(η)和上述4.2.1步的項內權值比(awIWRd I2))的乘積小於其維數比(BwIDRd1, I2))時(即ηXBwIffRd1, I2XawIDRd1, I2)),進行如下操作:.4.2.3.1若(I1 U ^ I2)的支持度不小於支持度閾值minsup,那麼,①如果I1 I2的awCPIR值(awCPIRdi — ^ I2))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則I1 —,I2 如果,I2 — I1的awCPIR值(awCPIR(,I2 — I1))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則一.12 ^ I1 ; .4.2.3.2若(^I1 U I2)的支持度不小於支持度閾值minsup,那麼,①如果^ I1 — I2的awCPIR值(awCPIR(,I1 — I2))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則一I1 — I2 ;②如果I2 — I I1的awCPIR值(awCPIR(I2 — ^ I1))不小於置信度閾值minconf,則挖掘出完全加權負關聯規則I2 —,I1 ; .4.2.4、繼續4.2.1~4.2.3步驟,如果awL,的真子集集合中每個真子集都若且唯若被取出一次,則轉入4.2.5步; . 4.2.5,繼續4.1步驟,如果有趣的完全加權頻繁項集集合中每個頻繁項集aw、都若且唯若被取出一次,則轉入第(5)步; (5 )從有趣的完全加權負項集集合中挖掘有效的完全加權負關聯規則,包括以下步驟: .5.1、從有趣的完全加權負項集集合取出負項集awNi,求出awNi的所有真子集,構建awNj的真子集集合,然後進行下列操作: . 5.2.1、從awNi的真子集集合中任意取出兩個真子集I1和12,當I1和I2的交集為空集,I1和I2的項目個數之和等於其原頻繁項集的項目個數,以及I1和I2的支持度都大於或者等於支持度閾值,則計算負項集(I1 U I2)的項內權值比(awIWRdpg)及其維數比(BwIDRd1, I2));.5.2.2、當資料庫中事務記錄總數(η)和上述5.2.1步的項內權值比(awIWRd I2))的乘積大於其維數比(BwIDRd1, I2))時(即ηX BwIffRd1, I2) >awIDR(I1, I2)),進行如下操作:.5.2.2.1若(^I1 U —I I2)的支持度大於或者等於支持度閾值minsup,那麼,①如果的awCPIR值(awCPIR(,I1 —,I2))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則一1 Ii — ―1;②如果一1— ―1 Ii的awCPIR值(awCPIR( I2 —一1 Ii))大於或者等於置彳目度閾值minconf,則挖掘出完全加權負關聯規則一I I2 ^ —1 Ii ; . 5.2.3、當資料庫中事務記錄總數(η)和上述5.2.1步的項內權值比(awIWRd I2))的乘積小於其維數比(BwIDRd1, I2))時(即ηXBwIffRd1, I2XawIDRd1, I2)),進行如下操作:.5.2.3.1若(I1 U I2)的支持度大於或者等於支持度閾值minsup,那麼,①如果I1 —-12的awCPIR值(awCPIRdi — ^ I2))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則I1 —,I2 如果,I2 — I1的awCPIR值(awCPIR (,I2 — I1))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則,I2 — I1 ; .5.2.3.2若(^I1 U I2)的支持度大於或者等於支持度閾值minsup,那麼,①如果,I1 — I2的awCPIR值(awCPIR (,I1 — I2))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則一I1 — I2 ;②如果I2 — I I1的awCPIR值(awCPIR(I2 — ^ I1))大於或者等於置信度閾值minconf,則挖掘出完全加權負關聯規則I2 —,I1 ; .5.2.4、繼續5.2.1~5.2.3步驟,如果awR的真子集集合中每個真子集都若且唯若被取出一次,則轉入5.2.5步; .5.2.5,繼續5.1步驟,如果有趣的完全加權負項集集合中每個負項集awNi都若且唯若被取出一次,則完全加權正負關聯規則挖掘結束; 所述的「 I1, 12,I1 U —I I2, I1 — ―1 I/』等符號中的「 一1」為負相關符號,一1 Ii表不在事務處理中不出現I1的事件,稱為負項集I1 JI1 U-12)表示一個項集,該項集有子項集I1和負子項集I2 ;關聯規則I1 —,I2其含義是:如果子集I1的事件出現或者發生,那么子集I2的事件不會出現或者不發生。
2.根據權利要求1所述的用於發現文本詞間關聯規則的完全加權模式挖掘方法,其特徵在於,所述的待處理的完全加權數據預處理的具體步驟為,當待處理的完全加權數據為中文文本數據時,進行分詞、去除停用詞、提取特徵詞並計算其權值;當待處理的完全加權數據為英文文本數據時,進行詞幹提取、排除停用詞、詞彙分析、提取特徵詞並計算其權值。
【文檔編號】G06F17/27GK103838854SQ201410096985
【公開日】2014年6月4日 申請日期:2014年3月14日 優先權日:2014年3月14日
【發明者】黃名選, 元昌安 申請人:廣西教育學院