一種決策級文本自動分類融合方法
2023-07-21 22:04:46 1
專利名稱::一種決策級文本自動分類融合方法
技術領域:
:本發明涉及一種決策級文本自動分類融合方法,屬於數據挖掘領域,適用於數字圖書館、網絡內容監管、垃圾郵件過濾等。
背景技術:
:文本自動分類是數據挖掘領域較為熱點的研究問題。其目的是訓練一個分類函數或分類器,該函數或分類器能把待分文檔映射到給定的相應類別中。其目標是研究分類速度更快、更準確的管理文本信息的方法。如何提高分類的準確率是目前研究的熱點問題。決策級融合模型是信息融合領域較為經典的融合模型,其結構有串聯和並聯兩種方式,採用特徵級和決策級進行最終的決策。信息融合的級別是指在信息處理的哪個層次上對多傳感器信息進行綜合處理和分析。按照數據信息由低到高的抽象層次,可以分為像素層、特徵層、決策層三個層次,信息融合的過程相應地也被分為三個級別,即像素級融合、特徵級融合和決策級融合。在融合系統的研究與應用中,融合可發生在像素級、特徵級和決策級三個層次上,不同的級別具有相應的方法和融合結構。像素級融合是直接在採集到的原始數據層上進行融合,也就是對各種傳感器的原始數據不經過處理就直接進行綜合和分析。特徵級融合是指先對來自每個傳感器的原始信息進行特徵抽取以獲得來自每個傳感器的特徵向量,然後對特徵信息向量進行綜合分析和處理。決策級融合是一種最高層次的融合,融合的結果為系統的控制決策提供依據。在融合過程中,多個傳感器觀測同一目標,並在本地完成預處理、特徵提取、識別或判決,以獲得各自初步的結論,然後通過關聯分析、決策級融合判決,獲得最終的聯合推斷結果,為決策提供直接的依據。決策級融合是三級融合的最終結果,直接關係到決策的效果,具有非常重要的作用。不同級別的融合通常採用不同的融合結構,但抽象出通用的結構可以分為並聯融合結構和串聯融合結構兩種。並聯融合結構是指所有的傳感器信息都輸入給同一個信息融合中心,在融合中心進行信息融合;串聯融合結構是指先將兩個傳感器信息進行一次融合,再將融合結果與另一個傳感器信息進行融合,依次進行下去,直到所有的傳感器信息都融合完為止。投票算法,其核心思想是k(k為大於1的整數)個專家判斷的有效組合應該優於某個專家個人的判斷。投票算法主要有兩種Bagging算法和Boosting算法。現有的文本自動分類技術的分類基本過程如圖1所示。具體操作步驟如下第l步對待分類文件進行格式分析和內容提取,獲得其純文本內容;第2步對純文本內容進行分詞及詞形還原,獲取最小的語義單位——詞條,以及每個詞條的頻率信息;第3步進行特徵提取以及特徵合併,降低向量空間的維數;第4步對抽取處理的特徵進行權重的計算;第5步對抽取處理的特徵進行向量化表示;經過向量化,將文本表示為計算機易於處理的向量形式;第6步最後利用分類器進行分類,輸出分類結果。分類算法是文本分類系統的核心,因此對分類算法的研究一直是文本分類研究的熱點。目前主要研究的是提高分類器的準確率問題。目前常用的分類方法有很多種,有基於概率的方法,如貝葉斯方法,其原理是通過概率計算,由待分類的數據對象的屬性值求出最可能的分類目標值,即計算各個類別在給定這組屬性值時的條件概率,並把輸出條件概率值最大的類標號作為目標值。其缺點是前提條件不容易滿足;基於實例的方法,如KNN方法,其基本原理是基於實例之間的距離,對每個實例來說,如果靠近它的實例都是某個類別,那麼該實例也可能是這個類別。該方法的缺點是分類效率較低;基於統計學習的方法,如SVM等。這種方法的原理從幾何上說,就是要在多維空間中尋找到最佳決策面,該決策面能最好地區分正例和反例,使正例與反例之間的分類間隔最大。SVM分類器是目前最好的文本分類器之一。其缺點是核函數的選擇缺乏指導,難以針對具體問題選擇最佳的核函數。另外SVM訓練速度極大地受到訓練集規模的影響,計算開銷比較大。雖然這些方法各自有各自的優勢,但各自有不同的缺點,分類準確率最高在80%左右,還不能夠滿足實際使用的要求。對文本分類的結果可以從兩個方面進行評價準確性和計算複雜度。準確性衡量的是一個分類器正確分類的能力。計算複雜度則包括時間複雜度和空間複雜度。而在這兩個方面之中,準確性最為重要,因為不管分類器的速度有多快,佔用的空間有多小,如果它不能正確分類的話,這個分類器也是沒有效果的。因此對分類的評價主要指的是準確性的評價。
發明內容本發明針對目前已有文本自動分類方法存在精度不高的缺點,提出一種決策級文本自動分類融合方法。本發明以信息融合為理論基礎,以分類精度高的文本自動分類算法為研究對象,建立了決策級文本自動分類融合模型,即採用多層融合結構,串、並聯混和的形式進行文本自動分類處理,得到準確率更高的分類結果。本發明是通過以下技術方案實現的。本發明的決策級文本自動分類融合模型如圖2所示,此模型分為特徵級和決策級兩級其中KNN分類器、貝葉斯分類器以及SVM分類器屬於特徵級;決策級融合中心屬於決策級,採用投票算法來實現。各分類器之間採用串、並聯相結合的方式對待分類文本進行分類,即各分類器之間既採用並聯的形式對待分類文本進行分類,並將分類結果輸入到決策級融合中心;又採用串聯方式,即前一個分類器將分類結果輸入決策級融合中心的同時,還要輸入到下一個分類器,以便於參與下一個分類器做分類決策,得出分類結果,輸入到決策級融合中心。本發明的一種決策級文本自動分類融合方法的具體操作步驟如下第1步對待分文檔進行分詞、特徵提取、權重計算等預處理;第2步在第1步的基礎上,將預處理後的結果分別發送到SVM,KNN和貝葉斯分類器中;第3步在第2步的基礎上,SVM分類器進行分類,並將分類結果發送到決策級融合中心以及KNN分類器中;第4步在第2步的基礎上,KNN分類器進行分類,得到KNN分類器的分類結果;第5步在第3步和第4步的基礎上,將KNN分類器的分類結果與SVM的分類結果進行比較,將KNN得到類別概率與SVM分類器的分類結果進行比較,概率最大者為該分類器的最終分類結果;然後將分類結果發送到決策級融合中心以及貝葉斯分類器中;第6步在第2步的基礎上,貝葉斯分類器進行分類,得到貝葉斯分類器的分類結果;第7步在第5步和第6步的基礎上,將貝葉斯分類器的分類結果與KNN的分類結果相比較,即將貝葉斯分類器得到的類別概率與KNN分類器的分類結果進行比較,概率最大者為該分類器的最終分類結果。將分類結果發送到決策級分類融合中心。第8步在第3步、第5步和第7步的基礎上,在決策級融合中心採用投票算法對特徵級得到的分類結果進行投票,得到最終的分類決策結果。有益效果1.在此融合結構模型中,不同的層次完成的功能不同。這種結構綜合了串、並聯融合結構的優勢,且採用了分層的融合結構可以確保每個子系統獨立、準確地完成本系統的局部融合分類,降低了對整個自動分類系統進行文本分類的複雜性。2.本發明方法不僅可以保證各個局部分類的正確性,還可以適應分類目標的改變,保證分類系統的效率及準確度。3.當分類系統對實時性要求較高時,通過系統的分層結構可以實現各個子系統的分別訓練和學習來實現全局文本分類功能的改進,提高分類系統性能,靈活地、自適應地、高效地實現文本自動分類,提高分類準確率。圖1為已有技術的文本自動分類基本過程流程圖;圖2為本發明的決策級分類融合模型。具體實施例方式根據上述技術方案,下面結合實施例對本發明進行詳細說明。本發明以本人實驗室文本自動分類的實際項目為實驗平臺,以驗證本發明提出的方法的有效性。基於本發明方法的系統採用JAVA開發平臺,Oracle資料庫本實驗採用本發明方法對一萬篇語料進行分類,其中7000篇為訓練語料、3000篇為測試語料,共分15個類別。採用本發明方法進行分類的步驟如下第l步對3000篇待分文檔進行分詞、特徵提取、權重計算等預處理;第2步在第1步的基礎上,將預處理後的結果分別發送到SVM,KNN和貝葉斯分類器中;第3步在第2步的基礎上,SVM分類器進行分類,並將分類結果發送到決策級融合中心(投票算法)以及KNN分類器中;第4步在第2步的基礎上,KNN分類器進行分類,得到KNN分類器的分類結果;第5步在第3步和第4步的基礎上,將KNN分類器的分類結果與SVM的分類結果進行比較,即將KNN得到類別概率與SVM分類器的分類結果進行比較,概率最大者為該分類器的最終分類結果。將分類結果發送到決策級融合中心(投票算法)以及貝葉斯分類器中;第6步在第2步的基礎上,貝葉斯分類器進行分類,得到貝葉斯分類器的分類結果;第7步在第5步和第6步的基礎上,將貝葉斯分類器的分類結果與KNN的分類結果相比較,即將貝葉斯分類器得到的類別概率與KNN分類器的分類結果進行比較,概率最大者為該分類器的最終分類結果。將分類結果發送到決策級融合中心(投票算法)。第8步在第3步、第5步和第7步的基礎上,在決策級融合中心採用投票算法對特徵級得到的分類結果進行投票,得到最終的分類決策結果。同時,為說明本發明的分類效果,本實驗是在同等條件下,以相同的訓練語料、測試語料以及相同的分類體系分別採用KNN分類器、SVM分類器和貝葉斯分類器進行分類,結果分類效果結果如表1所示-tableseeoriginaldocumentpage8結論本發明提出的決策級文本自動分類融合方法發揮了各種分類器的優勢,得到了高於其他單分類器的準確率和召回率,驗證了其有效性。需要強調的是,對於本領域技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進,這些也應視為屬於本發明的保護範圍。權利要求1.一種決策級文本自動分類融合方法,其特徵在於以信息融合為理論基礎,以分類精度高的文本自動分類算法為研究對象,建立了決策級文本自動分類融合模型,即採用多層融合結構,串、並聯混和的形式進行文本自動分類處理,得到準確率更高的分類結果;其具體實現步驟如下第1步對待分文檔進行分詞、特徵提取、權重計算等預處理;第2步在第1步的基礎上,將預處理後的結果分別發送到SVM,KNN和貝葉斯分類器中;第3步在第2步的基礎上,SVM分類器進行分類,並將分類結果發送到決策級融合中心以及KNN分類器中;第4步在第2步的基礎上,KNN分類器進行分類,得到KNN分類器的分類結果;第5步在第3步和第4步的基礎上,將KNN分類器的分類結果與SVM的分類結果進行比較,即將KNN得到類別概率與SVM分類器的分類結果進行比較,概率最大者為該分類器的最終分類結果;然後將分類結果發送到決策級融合中心以及貝葉斯分類器中;第6步在第2步的基礎上,貝葉斯分類器進行分類,得到貝葉斯分類器的分類結果;第7步在第5步和第6步的基礎上,將貝葉斯分類器的分類結果與KNN的分類結果相比較,即將貝葉斯分類器得到的類別概率與KNN分類器的分類結果進行比較,概率最大者為該分類器的最終分類結果;將分類結果發送到決策級分類融合中心;第8步在第3步、第5步和第7步的基礎上,在決策級融合中心採用投票算法對特徵級得到的分類結果進行投票,得到最終的分類決策結果。全文摘要本發明涉及一種決策級文本自動分類融合方法,屬於數據挖掘領域,適用於數字圖書館、網絡內容監管、垃圾郵件過濾等。本發明以信息融合為理論基礎,以分類精度高的文本自動分類算法為研究對象,建立了決策級文本自動分類融合模型,即採用多層融合結構,串、並聯混和的形式進行文本自動分類處理,得到準確率更高的分類結果。文檔編號G06F17/30GK101604322SQ20091008784公開日2009年12月16日申請日期2009年6月24日優先權日2009年6月24日發明者張曉丹,張正施,徐小梅,曹玉鵑,牛振東申請人:北京理工大學