新四季網

一種針對網際網路涉稅數據的文本分類方法

2023-06-10 17:44:41

一種針對網際網路涉稅數據的文本分類方法
【專利摘要】本發明提出了一種針對網際網路涉稅數據的文本分類方法,可以有效的組織、管理、挖掘文本信息,伴隨著網際網路的快速發展,網絡上的多媒體信息快速的增長,我們如何從浩瀚的網絡資源中,高效地挖掘出有用信息,是文本分類中一項非常艱巨的任務,本發明可以通過文本分類技術,使網頁自動的按照類別的方式進行組織和管理,滿足稅務人員方便快捷的信息處理需求,準確定位所需信息資源減少和避免稅款流失,成為優化稅收徵管方式的現實問題。同時,文本分類技術作為信息過濾、信息檢索、搜尋引擎等領域的技術基礎,有著廣泛的應用前景,可產生巨大的社會效益和經濟效益。
【專利說明】一種針對網際網路涉稅數據的文本分類方法

【技術領域】
[0001]本發明涉及網際網路電商數據,短文本,用戶評論等相關文本領域,使網際網路中的有關數據得到有效組織和管理,滿足人們方便快捷的信息處理需求,準確定位所需信息資源滿足客戶的需求。具體地說是一種針對網際網路涉稅數據的文本分類方法。

【背景技術】
[0002]隨著網際網路和信息技術的快速發展,電子信息資源急劇增長,網際網路正深刻的影響著人們的生活。同時大多數的電子信息是以文本形式存在的。如何有效的組織和管理這些資源,並快速、準確地找到用戶所需信息成為當前信息【技術領域】面臨的一大問題。對於海量文本內容的處理,文本分類是基礎的且非常重要的。文本分類是指根據文本內容,將給定文本劃分到預定義的類別中。文本分類在信息過濾、信息檢索、垃圾郵件過濾、詞義消歧、中有重要應用。
[0003]文本分類是一個複雜的過程,主要包括文檔預處理、文本表示、分類算法設計、性能評估等主要步驟,文本分類的主要任務有文本的形式化表示以及在此基礎上的分類算法設計。從自然語言的角度看文本其核心的內容是它的語義信息。最理想的境界是計算機能準確地揣測和摹擬人們所理解的語義,把人們認為語義相近的文本分成一類。但是,計算機並不具有人的智能,根本不可能在讀懂文檔的基礎上對其進行分類。對於計算機,它只能從文本的外部特徵來反映它們的語義信息。因此,要利用它完成文本的分類,必須將它表示成計算機可以接受的模型,必須要對文本進行形式化表示。這種形式化表示應該儘可能多地反映文本所蘊涵的語義信息,同時應該是便於計算的,也就是說,從文本的形式化表示能比較容易地計算出文本所蘊涵的語義信息來,也正是因為把文檔以向量的形式定義到實數域中,才使得模式識別和其他領域中各種成熟的計算方法得以採用,極大地提高了自然語言文檔的可計算性和可操作性。因此,向量空間模型文檔表示的形式化方法是基於文檔處理的各種應用得以形式化的基礎和前提,如何讓這種向量儘量準確有效地表達出文本內容一直是該模型中的基礎性問題。在向量空間模型中,詞作為文本特徵存在著表達能力有限的問題。這種方法僅僅用詞作為文本特徵,並沒有使用人們掌握的知識,國內外研究人員為了處理同義和概念之間的上下級關係,提出基於概念的文本分類方法。在基於向量空間模型的文本分類算法中,文檔中出現的詞是按照詞形考慮的,使用這種簡單的表示方法,會使得內容相近的文檔由於使用不同的詞語而被認為不是同一類。
[0004]文本分類作為數據挖掘中一種見的研究熱點方向,主要步驟:文本預處理,特徵選擇(計算特徵詞的權重和選擇特徵詞),表示文本的特徵模型的建立,訓練分類器,用分類器進行分類。其中特徵選擇是文本分類中最重要的,能否利用特徵選擇選出合適的特徵詞對分類的效果有重要影響。能否利用特徵選擇選出合適的特徵詞會直接影響分類的效率和效果。由於之前方法沒有充分考慮詞的層次結構,沒有考慮到語義樹狀結構中的深度以及語義之間的相互獨立性,因此,造成了分類結果不夠精確,如何提高分類精確度一直是文本分類領域研究的熱點,相關領域的研究者提出了許多改進的算法,本發明也對文本分類提出了一種改進的方法。


【發明內容】

[0005]本發明的目的是提供一種針對網際網路涉稅數據的文本分類方法。
[0006]本發明的目的是按以下方式實現的,步驟包括(I)對文本進行特徵提取,(2 )對文中詞語的特徵進行降維處理,(3)針對基於語義的文本信息進行分類,其中:
(1)對文本進行特徵提取,文本分類存在的特點是訓練集較大,並且向量空間的維數較高,高維度的特徵數據會加劇機器學習的負擔,在不影響分類準確度的情況下,減少文本描述空間的高維特徵數量是很有必要的,這個過程就是特徵提取;
(2)對文中詞語的特徵進行降維處理,依據特徵的分類能力,採用AdaBoost算法同時進行特徵選擇和分類器增強;
(3)針對基於語義的文本信息進行分類,根據概念之間的語義關係,提出了如何計算兩個詞語之間相似度的公式如下:
Sim(A, B)= log p(common ( A, B))/log p(descript1n (A, B)) (1.1)
其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法過程如下:
O計算兩個義原間的相似度
義原是最基本的不可分割的最小單位,常用的義原之間的關係有上下位關係,反義關係,同義關係等,計算義原之間的相似度採用了義原之間的主要關係即上下位關係,利用層次結構樹中各個義原之間的一些關係來得到詞語的相似度,兩個義原間的相似度公式如式(1.2)所示:

【權利要求】
1.一種針對網際網路涉稅數據的文本分類方法,其特徵在於步驟包括(I)對文本進行特徵提取,(2)對文中詞語的特徵進行降維處理,(3)針對基於語義的文本信息進行分類,其中: (1)對文本進行特徵提取,文本分類存在的特點是訓練集較大,並且向量空間的維數較高,高維度的特徵數據會加劇機器學習的負擔,在不影響分類準確度的情況下,減少文本描述空間的高維特徵數量是很有必要的,這個過程就是特徵提取; (2)對文中詞語的特徵進行降維處理,依據特徵的分類能力,採用AdaBoost算法同時進行特徵選擇和分類器增強; (3)針對基於語義的文本信息進行分類,根據概念之間的語義關係,提出了如何計算兩個詞語之間相似度的公式如下:
Sim(A, B)= log p(common ( A, B))/log p(descript1n(A, B)) (1.1) 其中,分子部分是描述A、B共性所需要的信息量的大小,分母部分是完整的描述出A、B所需要的信息量大小,算法過程如下: O計算兩個義原間的相似度 義原是最基本的不可分割的最小單位,常用的義原之間的關係有上下位關係,反義關係,同義關係等,計算義原之間的相似度採用了義原之間的主要關係即上下位關係,利用層次結構樹中各個義原之間的一些關係來得到詞語的相似度,兩個義原間的相似度公式如式(1.2)所示:
其中,上式中的α表示一個可以改變的參數,代表了相似度為0.5時的路徑的長度,依據義原樹的深度通常取a = 1.6, dist(si, s2)代表兩個義原在義原樹中的距離,在研究中發現,義原之間的距離並不代表義原之間的相互關係,其實,義原之間的相對位置對他們之間的相互關係也產生較大的影響; 2)計算出兩個義項的相似度 現實生活中面對的文本不僅包含實詞還有虛詞,基於實詞和虛詞在現實中是不可以相互替換的,這裡將實詞和虛詞之間的相似度記為零,結合虛詞的概念均用句法義原或關係義原方式簡單描述,僅僅計算其對應的句法義原或關係義原之間的相似度即可,兩個義項的整體相似度表達式如式(1.3)所示:
其中1(1≤i≤4)是可變化的,一般根據經驗指定,且有
因為一個概念的最主要的特徵由第一義原描述式所反映的,所以其取值一般要大於0.5,當我們在實例驗證時候發現,當Sim1非常小,但是Sim3或sim4比較大時,由表達式(1.3)將得出的整體的相似度仍然較大此現象是不合理的,將表達式(1.3)進行7修改,給出如式(1.4)所示:
至此,比較精確的表達出義項的相似度,但當考慮第一獨立義原在整個概念描述中起至關重要的作用,同時該部分與其餘部分是相互獨立的,當第一義原部分的相似度比較低時,其餘次要的三部分相似度對於整體相似度所起的作用也會降低,因此,對公式(1.4)進行修改為(1.5):
至此,比較精確的表達出義項的相似度; 3)得出詞語的相似度 假設有兩個詞語W1和W2,其中W1是由m個義項所組成,W2是由η個義項所組成,Cli (i=l, *.., m )和 C2j ( j=l,...,η )分別代表每個詞語的義項,W1 = { C11, C 12,…,C lm},W2 = { C21, C 22,…,C2n },兩個詞語的相似度為義項Cli和所有組合中相似度的最大值,如式(1.6)所示: 即詞語的相似度為所有義項相似度的加權平均值,
【文檔編號】G06F17/30GK104199959SQ201410477312
【公開日】2014年12月10日 申請日期:2014年9月18日 優先權日:2014年9月18日
【發明者】劉麗娜, 徐宏偉, 黃興柱 申請人:浪潮軟體集團有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀