新四季網

中文文件自動分類法的製作方法

2023-09-22 07:42:40

專利名稱:中文文件自動分類法的製作方法
技術領域:
本發明是一種中文分類法,尤指一種中文文件自動分類法。
隨著電腦的日漸普及,有越來越多的中文電子化文件。然而眾多的文件是很不易管理的,需要將文件依其內容做分類,以方便管理。將眾多的文件依其文件內容的不同,將各文件加以歸類,或放置於不同的檔案目錄下,以達成文件分類的目的。
日前一般使用來做文件分類的方法,主要為「人工獲取關鍵詞法」。請參閱

圖1所示,其是為現有「人工獲取關鍵詞法」的流程圖,該「人工獲取關鍵詞法」是先利用人類對於每篇待分類文件1』的文件內容進行了解後,然後以人工的方式選取數個足以代表該篇待分類文件1』內容的詞彙、做為該篇待分類文件1』的關鍵詞2』。然後在進行待分類文件1』分類之時,將具有相同關鍵詞2』的文件歸為同一類。
上述的「人工獲取關鍵詞法」是利用人工來選取待分類文件1』的關鍵詞2』,然而利用人工處理文件分類時會有三大問題。第一個問題是「效率問題」,因為文件的關鍵詞必須利用人類對於文件內容的理解後加以判斷,始能決定那些文件的關鍵詞為何。此一人類的「理解-判斷」過程非常地耗時耗力,必需使用大量的人力,付出高昂的時間與成本,才能夠處理越來越多的中文電子化文件。
利用人工處理文件分類時的第二個問題是「標準性問題」。因為文件的關鍵詞選取過程必需依賴人類的理解與判斷,這是一個牽涉人類主觀意見的過程。同一群文件的分類結果可能會因人而異,因為每個人對於文件內容的主題與分類的看法都有不同,而導致每個人所選取的關鍵詞不盡相同,所以會欠缺一致性的分類標準,這是以人工處理文件分類時的最大問題。例如將一群內容皆是政治新聞的中文文件以人工進行分類,某個人經過對這群文件內容的了解所做出的判斷,可能將這群內容皆是政治新聞的中文文件的關鍵詞選取為「臺灣」及「美國」;然而另外一個人可能會將這一群內容皆是政治新聞的中文文件的關鍵詞選取為「李登輝」以及「柯林頓」。
利用人工處理文件分類時的第三個問題是「一致性問題」。即使是同一個人針對同一篇中文文件的文件內容進行理解與判斷,也會因為個人記憶、經驗的改變,以及外界環境的變遷,而有不同的理解與判斷。例如將一篇內容屬於政治新聞的中文文件交由同一人進行分類,可能第一次該篇中文文件的關鍵詞會被選取為「環境保育」;同一篇內容屬於政治新聞的中文文件交由同一人重做一次關鍵詞的選取,然而該篇中文文件的關鍵詞卻可能會被選取為「核四電廠」。同一篇中文文件交由同一人進行關鍵詞選取,但兩次選取的給果卻可能不相同,這就是「一致性問題」。
只要是通過人工處埋中文文件的分類,即使是聘請大量的專業人員來進行文件分類的工作,也都不可避免會有「效率問題」、「準確性問題」與「一致性問題」。因為人類要對於中文文件的文件內容有某一程度的了解後,才有可能將該份文件的文件內容摘要成數個具有代表性的關鍵詞,這是一個需時甚久的步驟,因此具有「效率問題」。除此之外,對於同一篇中文文件的文件內容,可能不同的人會獲取出數個不同的關鍵詞,因為每個人所認為足以代表該篇中文文件的文件內容的詞彙皆有不同,這也就是「準確性問題」。而同一篇中文文件的文件內容交由同一個人來獲取關鍵詞,也有可能會每次都有所不同,這就是「一致性問題」。
本發明的目的是提出一種中文文件自動分類法,本發明完全不需要人工參與,因此可以解決現有的「人工獲取關鍵詞法」以人工分類所帶來的「效率問題」、「準確性問通」與「一致性問題」。
本發明的目的可以通過以下措施來達到一種中文文件自動分類法,其是包含(1)先將各篇待分類文件利用斷詞法進行斷詞處理;(2)將斷詞處理所得的所有詞彙置於詞彙總表中;(3)再將詞彙總表中的每一個詞彙進行特徵鑑別步驟處理,以得詞彙總表中的每個詞彙在各篇待分類文件的特徵值;(4)將詞彙總表中的所有詞彙在單一篇待分類文件中的特徵值,進行特徵值組合處理,求得該篇待分類文件的特徵向量;(5)然後將各篇待分類文件的特徵向量進行文件相似性判別步驟處理,而得各篇待分類文件與其它篇待分類文件的相似係數;(6)最後將各篇待分類文件依其相似係數的大小進行分類,將相似係數大的數篇待分類文件結合成同一類別,完成文件分類。
該斷詞法為長詞優先斷詞法,其是利用主辭典對應待分類文件中的所有文字,優先找出符合主辭典中最長的詞彙。
其中該特徵鑑別步驟是包括有(1)計算詞彙總表中的每一個詞彙在各篇待分類文件中出現的次數,該次數值為詞彙頻率;(2)計算詞彙總表中的每一個詞彙在所有待分類文件中出現的篇數,該篇數值的倒數為詞彙散布率;(3)再將詞彙頻率與詞彙散布率進行加權運算,求得特徵值。
其中該相似性判別步驟是為將各篇待分類文件所得的特徵向量與其它待分類文件的特徵向量相乘積,再除以各篇待分類文件的特徵向量與其它待分類文件的特徵向量的絕對值平均數,求得相似係數。
本發明相比現有技術具有如下優點本發明的發明人經過不斷的研發,提出一種前所未見的中文文件自動分類法,可有效地解決改善上述的「人工獲取關鍵詞法」的缺點,亦即本發明中文文件自動分類法的特點在於本發明是將中文文件先進行中文斷詞步驟,然後以分割出的所有可能詞彙經過運算後,取得該詞彙在某一篇中文文件的特徵值,之後再將各詞彙在某一篇中文文件的特徵值組合成該篇中文文件的特徵向量。
該篇中文文件的特徵向量具有足以代表該份文件內容的性質,而不需以人工方式來選取關鍵詞,且利用本發明所求得的該篇中文文件的特徵向量比「人工獲取關鍵詞法」中的關鍵詞更能夠代表該篇中文文件的文件內容特性。
每篇中文文件的特徵向量皆可以通過本方法快速產生,因此可以解決以人工為每篇中文文件獲取關鍵字所帶來的「效率問題」;本方法對於不同篇的中文文件的文件內容,其所產生特徵向量的標準是一致的,因此可以解決人工為每篇中文文件獲取關鏈字時,所可能因個人主觀理解與判斷的不同而產生的「準確性問題」;本方法對於同一篇中文文件的文件內容,每次所產生的特徵向量都是一致的,因此可以解決同一人在為同一篇中文文件的文件內容獲取關鍵字時,所可能因個人主觀理解與判斷的改變而產生的「一致性問題」。綜上所述,本發明確實可以有效解決以往「人工獲取關鍵詞法」的三大問題「效率問題」、「準確性問題」與「一致性問題」。
再者,本發明提供一種不同篇中文文件的特徵向量間可以進行相似性比較的方法。其是利用計算出相似係數,作為不同篇中文文件的文件內容間相似程度的判斷標準,進而將文件依此一標準分類。意即本發明可以判斷兩份中文文件之間內容的相似性,而不需要人類的理解,即可利用中文文件的特徵向量間的相似性比較,將文件內容相似性較高者分為同一類別,達到文件分類的目的。
為使能對本發明中文文件自動分類法有更進一步的了解,茲將本發明配合圖示詳細說明於後圖1為現有的「人工獲取關鍵詞法」的流程圖。
圖2為本發明中文文件自動分類法的流程圖。
請參閱圖2所示,其是本發明一種中文文件自動分類法的流程圖,其本發明是先將各篇待分類文件1利用斷詞法對文件內容的文字進行斷詞處理,該斷詞法為長詞優先斷詞法,其是利用主辭典3對應待分類文件1中的所有文字,優先找出符合主辭典中最長的詞彙2。將由斷詞步驟所得的所有詞彙2置於詞彙總表4中。接著將詞彙總表4中的每一個詞彙2進行特徵鑑別步驟處理,即計算詞彙總表4中的每一個詞彙的在各篇待分類文件1中出現的次數,該次數值定義為詞彙頻率;另一方面計算詞彙總表4中的每一個詞彙2在所有待分類文件1中出現的篇數,該篇數值的倒數則定義為詞彙散布率,將所求得的詞彙頻率與詞彙散布率進行加權運算,得到詞彙總表4中的每個詞彙2在各篇待分類文件1的特徵值5。再將詞彙總表4中的所有詞彙2在單一篇待分類文件1中的特徵值5,進行特徵值組合處理,求得屬於該篇待分類文件1的特徵向量6,該特徵向量6即可充份代表該篇待分類文件1的內容特性。然後將各篇待分類文件1的特徵向量6進行文件相似性判別步驟處理,本發明的相似性判別步驟處理是把各篇待分類文件1所得的特徵向量6與其它待分類文件1的特徵向量6相乘積,再除以上述互相乘積的特徵向量6的絕對值平均數,來得到各篇待分類文件1與其它篇待分類文件1的相似係數7。最後,各篇待分類文件1依其與其它篇待分類文件1的相似係數7進行分類,把所求得的相似係數7值大者的數篇待分類文件1結合成同一類別,藉此完成文件的分類。
權利要求
1.一種中文文件自動分類法,其特徵是其是包含(1)先將各篇待分類文件利用斷詞法進行斷詞處理;(2)將斷詞處理所得的所有詞彙置於詞彙總表中;(3)再將詞彙總表中的每一個詞彙進行特徵鑑別步驟處理,以得詞彙總表中的每個詞彙在各篇待分類文件的特徵值;(4)將詞彙總表中的所有詞彙在單一篇待分類文件中的特徵值,進行特徵值組合處理,求得該篇待分類文件的特徵向量;(5)然後將各篇待分類文件的特徵向量進行文件相似性判別步驟處理,而得各篇待分類文件與其它篇待分類文件的相似係數;(6)最後將各篇待分類文件依其相似係數的大小進行分類,將相似係數大的數篇待分類文件結合成同一類別,完成文件分類。
2.如權利要求1所述的中文文件自動分類法,其特徵是該斷詞法為長詞優先斷詞法,其是利用主辭典對應待分類文件中的所有文字,優先找出符合主辭典中最長的詞彙。
3.如權利要求1所述的中文文件自動分類法,其特徵是其中該特徵鑑別步驟是包括有(1)計算詞彙總表中的每一個詞彙在各篇待分類文件中出現的次數,該次數值為詞彙頻率;(2)計算詞彙總表中的每一個詞彙在所有待分類文件中出現的篇數,該篇數值的倒數為詞彙散布率;(3)再將詞彙頻率與詞彙散布率進行加權運算,求得特徵值。
4.如權利要求1所述的中文文件自動分類法,其特徵是其中該相似性判別步驟是為將各篇待分類文件所得的特徵向量與其它待分類文件的特徵向量相乘積,再除以各篇待分類文件的特徵向量與其它待分類文件的特徵向量的絕對值平均數,求得相似係數。
全文摘要
本發明為一種中文文件自動分類法,先將各篇待分類文件利用斷詞法進行斷詞處理,並將所得的所有詞彙置於詞彙總表中;將每一個詞彙進行特徵鑑別步驟處理,得詞彙總表中的每個詞彙在各篇待分類文件的特徵值;進行特徵值組合處理,求得該篇待分類文件的特徵向量;將特徵向量進行文件相似性判別步驟處理,得各篇待分類文件與其它篇待分類文件的相似係數;依其相似係數的大小進行分類,將相似係數大的數篇待分類文件結合成同一類別,完成文件分類。
文檔編號G06F7/00GK1360253SQ0013672
公開日2002年7月24日 申請日期2000年12月21日 優先權日2000年12月21日
發明者楊立偉 申請人:意藍科技股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀