一種針對網際網路涉稅數據的文本分類方法
2023-06-10 17:44:41
一種針對網際網路涉稅數據的文本分類方法
【專利摘要】本發明提出了一種針對網際網路涉稅數據的文本分類方法,可以有效的組織、管理、挖掘文本信息,伴隨著網際網路的快速發展,網絡上的多媒體信息快速的增長,我們如何從浩瀚的網絡資源中,高效地挖掘出有用信息,是文本分類中一項非常艱巨的任務,本發明可以通過文本分類技術,使網頁自動的按照類別的方式進行組織和管理,滿足稅務人員方便快捷的信息處理需求,準確定位所需信息資源減少和避免稅款流失,成為優化稅收徵管方式的現實問題。同時,文本分類技術作為信息過濾、信息檢索、搜尋引擎等領域的技術基礎,有著廣泛的應用前景,可產生巨大的社會效益和經濟效益。
【專利說明】一種針對網際網路涉稅數據的文本分類方法
【技術領域】
[0001]本發明涉及網際網路電商數據,短文本,用戶評論等相關文本領域,使網際網路中的有關數據得到有效組織和管理,滿足人們方便快捷的信息處理需求,準確定位所需信息資源滿足客戶的需求。具體地說是一種針對網際網路涉稅數據的文本分類方法。
【背景技術】
[0002]隨著網際網路和信息技術的快速發展,電子信息資源急劇增長,網際網路正深刻的影響著人們的生活。同時大多數的電子信息是以文本形式存在的。如何有效的組織和管理這些資源,並快速、準確地找到用戶所需信息成為當前信息【技術領域】面臨的一大問題。對於海量文本內容的處理,文本分類是基礎的且非常重要的。文本分類是指根據文本內容,將給定文本劃分到預定義的類別中。文本分類在信息過濾、信息檢索、垃圾郵件過濾、詞義消歧、中有重要應用。
[0003]文本分類是一個複雜的過程,主要包括文檔預處理、文本表示、分類算法設計、性能評估等主要步驟,文本分類的主要任務有文本的形式化表示以及在此基礎上的分類算法設計。從自然語言的角度看文本其核心的內容是它的語義信息。最理想的境界是計算機能準確地揣測和摹擬人們所理解的語義,把人們認為語義相近的文本分成一類。但是,計算機並不具有人的智能,根本不可能在讀懂文檔的基礎上對其進行分類。對於計算機,它只能從文本的外部特徵來反映它們的語義信息。因此,要利用它完成文本的分類,必須將它表示成計算機可以接受的模型,必須要對文本進行形式化表示。這種形式化表示應該儘可能多地反映文本所蘊涵的語義信息,同時應該是便於計算的,也就是說,從文本的形式化表示能比較容易地計算出文本所蘊涵的語義信息來,也正是因為把文檔以向量的形式定義到實數域中,才使得模式識別和其他領域中各種成熟的計算方法得以採用,極大地提高了自然語言文檔的可計算性和可操作性。因此,向量空間模型文檔表示的形式化方法是基於文檔處理的各種應用得以形式化的基礎和前提,如何讓這種向量儘量準確有效地表達出文本內容一直是該模型中的基礎性問題。在向量空間模型中,詞作為文本特徵存在著表達能力有限的問題。這種方法僅僅用詞作為文本特徵,並沒有使用人們掌握的知識,國內外研究人員為了處理同義和概念之間的上下級關係,提出基於概念的文本分類方法。在基於向量空間模型的文本分類算法中,文檔中出現的詞是按照詞形考慮的,使用這種簡單的表示方法,會使得內容相近的文檔由於使用不同的詞語而被認為不是同一類。
[0004]文本分類作為數據挖掘中一種見的研究熱點方向,主要步驟:文本預處理,特徵選擇(計算特徵詞的權重和選擇特徵詞),表示文本的特徵模型的建立,訓練分類器,用分類器進行分類。其中特徵選擇是文本分類中最重要的,能否利用特徵選擇選出合適的特徵詞對分類的效果有重要影響。能否利用特徵選擇選出合適的特徵詞會直接影響分類的效率和效果。由於之前方法沒有充分考慮詞的層次結構,沒有考慮到語義樹狀結構中的深度以及語義之間的相互獨立性,因此,造成了分類結果不夠精確,如何提高分類精確度一直是文本分類領域研究的熱點,相關領域的研究者提出了許多改進的算法,本發明也對文本分類提出了一種改進的方法。
【發明內容】
[0005]本發明的目的是提供一種針對網際網路涉稅數據的文本分類方法。
[0006]本發明的目的是按以下方式實現的,步驟包括(I)對文本進行特徵提取,(2 )對文中詞語的特徵進行降維處理,(3)針對基於語義的文本信息進行分類,其中:
(1)對文本進行特徵提取,文本分類存在的特點是訓練集較大,並且向量空間的維數較高,高維度的特徵數據會加劇機器學習的負擔,在不影響分類準確度的情況下,減少文本描述空間的高維特徵數量是很有必要的,這個過程就是特徵提取;
(2)對文中詞語的特徵進行降維處理,依據特徵的分類能力,採用AdaBoost算法同時進行特徵選擇和分類器增強;
(3)針對基於語義的文本信息進行分類,根據概念之間的語義關係,提出了如何計算兩個詞語之間相似度的公式如下:
Sim(A, B)= log p(common ( A, B))/log p(descript1n (A, B)) (1.1)
其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法過程如下:
O計算兩個義原間的相似度
義原是最基本的不可分割的最小單位,常用的義原之間的關係有上下位關係,反義關係,同義關係等,計算義原之間的相似度採用了義原之間的主要關係即上下位關係,利用層次結構樹中各個義原之間的一些關係來得到詞語的相似度,兩個義原間的相似度公式如式(1.2)所示:
【權利要求】
1.一種針對網際網路涉稅數據的文本分類方法,其特徵在於步驟包括(I)對文本進行特徵提取,(2)對文中詞語的特徵進行降維處理,(3)針對基於語義的文本信息進行分類,其中: (1)對文本進行特徵提取,文本分類存在的特點是訓練集較大,並且向量空間的維數較高,高維度的特徵數據會加劇機器學習的負擔,在不影響分類準確度的情況下,減少文本描述空間的高維特徵數量是很有必要的,這個過程就是特徵提取; (2)對文中詞語的特徵進行降維處理,依據特徵的分類能力,採用AdaBoost算法同時進行特徵選擇和分類器增強; (3)針對基於語義的文本信息進行分類,根據概念之間的語義關係,提出了如何計算兩個詞語之間相似度的公式如下:
Sim(A, B)= log p(common ( A, B))/log p(descript1n(A, B)) (1.1) 其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法過程如下: O計算兩個義原間的相似度 義原是最基本的不可分割的最小單位,常用的義原之間的關係有上下位關係,反義關係,同義關係等,計算義原之間的相似度採用了義原之間的主要關係即上下位關係,利用層次結構樹中各個義原之間的一些關係來得到詞語的相似度,兩個義原間的相似度公式如式(1.2)所示:
其中,上式中的α表示一個可以改變的參數,代表了相似度為0.5時的路徑的長度,依據義原樹的深度通常取a = 1.6, dist(si, s2)代表兩個義原在義原樹中的距離,在研究中發現,義原之間的距離並不代表義原之間的相互關係,其實,義原之間的相對位置對他們之間的相互關係也產生較大的影響; 2)計算出兩個義項的相似度 現實生活中面對的文本不僅包含實詞還有虛詞,基於實詞和虛詞在現實中是不可以相互替換的,這裡將實詞和虛詞之間的相似度記為零,結合虛詞的概念均用句法義原或關係義原方式簡單描述,僅僅計算其對應的句法義原或關係義原之間的相似度即可,兩個義項的整體相似度表達式如式(1.3)所示:
其中1(1≤i≤4)是可變化的,一般根據經驗指定,且有
因為一個概念的最主要的特徵由第一義原描述式所反映的,所以其取值一般要大於0.5,當我們在實例驗證時候發現,當Sim1非常小,但是Sim3或sim4比較大時,由表達式(1.3)將得出的整體的相似度仍然較大此現象是不合理的,將表達式(1.3)進行7修改,給出如式(1.4)所示:
至此,比較精確的表達出義項的相似度,但當考慮第一獨立義原在整個概念描述中起至關重要的作用,同時該部分與其餘部分是相互獨立的,當第一義原部分的相似度比較低時,其餘次要的三部分相似度對於整體相似度所起的作用也會降低,因此,對公式(1.4)進行修改為(1.5):
至此,比較精確的表達出義項的相似度; 3)得出詞語的相似度 假設有兩個詞語W1和W2,其中W1是由m個義項所組成,W2是由η個義項所組成,Cli (i=l, *.., m )和 C2j ( j=l,...,η )分別代表每個詞語的義項,W1 = { C11, C 12,…,C lm},W2 = { C21, C 22,…,C2n },兩個詞語的相似度為義項Cli和所有組合中相似度的最大值,如式(1.6)所示: 即詞語的相似度為所有義項相似度的加權平均值,
【文檔編號】G06F17/30GK104199959SQ201410477312
【公開日】2014年12月10日 申請日期:2014年9月18日 優先權日:2014年9月18日
【發明者】劉麗娜, 徐宏偉, 黃興柱 申請人:浪潮軟體集團有限公司