中文文件自動分類法的製作方法
2023-09-22 07:42:40 1
專利名稱:中文文件自動分類法的製作方法
技術領域:
本發明是一種中文分類法,尤指一種中文文件自動分類法。
隨著電腦的日漸普及,有越來越多的中文電子化文件。然而眾多的文件是很不易管理的,需要將文件依其內容做分類,以方便管理。將眾多的文件依其文件內容的不同,將各文件加以歸類,或放置於不同的檔案目錄下,以達成文件分類的目的。
日前一般使用來做文件分類的方法,主要為「人工獲取關鍵詞法」。請參閱
圖1所示,其是為現有「人工獲取關鍵詞法」的流程圖,該「人工獲取關鍵詞法」是先利用人類對於每篇待分類文件1』的文件內容進行了解後,然後以人工的方式選取數個足以代表該篇待分類文件1』內容的詞彙、做為該篇待分類文件1』的關鍵詞2』。然後在進行待分類文件1』分類之時,將具有相同關鍵詞2』的文件歸為同一類。
上述的「人工獲取關鍵詞法」是利用人工來選取待分類文件1』的關鍵詞2』,然而利用人工處理文件分類時會有三大問題。第一個問題是「效率問題」,因為文件的關鍵詞必須利用人類對於文件內容的理解後加以判斷,始能決定那些文件的關鍵詞為何。此一人類的「理解-判斷」過程非常地耗時耗力,必需使用大量的人力,付出高昂的時間與成本,才能夠處理越來越多的中文電子化文件。
利用人工處理文件分類時的第二個問題是「標準性問題」。因為文件的關鍵詞選取過程必需依賴人類的理解與判斷,這是一個牽涉人類主觀意見的過程。同一群文件的分類結果可能會因人而異,因為每個人對於文件內容的主題與分類的看法都有不同,而導致每個人所選取的關鍵詞不盡相同,所以會欠缺一致性的分類標準,這是以人工處理文件分類時的最大問題。例如將一群內容皆是政治新聞的中文文件以人工進行分類,某個人經過對這群文件內容的了解所做出的判斷,可能將這群內容皆是政治新聞的中文文件的關鍵詞選取為「臺灣」及「美國」;然而另外一個人可能會將這一群內容皆是政治新聞的中文文件的關鍵詞選取為「李登輝」以及「柯林頓」。
利用人工處理文件分類時的第三個問題是「一致性問題」。即使是同一個人針對同一篇中文文件的文件內容進行理解與判斷,也會因為個人記憶、經驗的改變,以及外界環境的變遷,而有不同的理解與判斷。例如將一篇內容屬於政治新聞的中文文件交由同一人進行分類,可能第一次該篇中文文件的關鍵詞會被選取為「環境保育」;同一篇內容屬於政治新聞的中文文件交由同一人重做一次關鍵詞的選取,然而該篇中文文件的關鍵詞卻可能會被選取為「核四電廠」。同一篇中文文件交由同一人進行關鍵詞選取,但兩次選取的給果卻可能不相同,這就是「一致性問題」。
只要是通過人工處埋中文文件的分類,即使是聘請大量的專業人員來進行文件分類的工作,也都不可避免會有「效率問題」、「準確性問題」與「一致性問題」。因為人類要對於中文文件的文件內容有某一程度的了解後,才有可能將該份文件的文件內容摘要成數個具有代表性的關鍵詞,這是一個需時甚久的步驟,因此具有「效率問題」。除此之外,對於同一篇中文文件的文件內容,可能不同的人會獲取出數個不同的關鍵詞,因為每個人所認為足以代表該篇中文文件的文件內容的詞彙皆有不同,這也就是「準確性問題」。而同一篇中文文件的文件內容交由同一個人來獲取關鍵詞,也有可能會每次都有所不同,這就是「一致性問題」。
本發明的目的是提出一種中文文件自動分類法,本發明完全不需要人工參與,因此可以解決現有的「人工獲取關鍵詞法」以人工分類所帶來的「效率問題」、「準確性問通」與「一致性問題」。
本發明的目的可以通過以下措施來達到一種中文文件自動分類法,其是包含(1)先將各篇待分類文件利用斷詞法進行斷詞處理;(2)將斷詞處理所得的所有詞彙置於詞彙總表中;(3)再將詞彙總表中的每一個詞彙進行特徵鑑別步驟處理,以得詞彙總表中的每個詞彙在各篇待分類文件的特徵值;(4)將詞彙總表中的所有詞彙在單一篇待分類文件中的特徵值,進行特徵值組合處理,求得該篇待分類文件的特徵向量;(5)然後將各篇待分類文件的特徵向量進行文件相似性判別步驟處理,而得各篇待分類文件與其它篇待分類文件的相似係數;(6)最後將各篇待分類文件依其相似係數的大小進行分類,將相似係數大的數篇待分類文件結合成同一類別,完成文件分類。
該斷詞法為長詞優先斷詞法,其是利用主辭典對應待分類文件中的所有文字,優先找出符合主辭典中最長的詞彙。
其中該特徵鑑別步驟是包括有(1)計算詞彙總表中的每一個詞彙在各篇待分類文件中出現的次數,該次數值為詞彙頻率;(2)計算詞彙總表中的每一個詞彙在所有待分類文件中出現的篇數,該篇數值的倒數為詞彙散布率;(3)再將詞彙頻率與詞彙散布率進行加權運算,求得特徵值。
其中該相似性判別步驟是為將各篇待分類文件所得的特徵向量與其它待分類文件的特徵向量相乘積,再除以各篇待分類文件的特徵向量與其它待分類文件的特徵向量的絕對值平均數,求得相似係數。
本發明相比現有技術具有如下優點本發明的發明人經過不斷的研發,提出一種前所未見的中文文件自動分類法,可有效地解決改善上述的「人工獲取關鍵詞法」的缺點,亦即本發明中文文件自動分類法的特點在於本發明是將中文文件先進行中文斷詞步驟,然後以分割出的所有可能詞彙經過運算後,取得該詞彙在某一篇中文文件的特徵值,之後再將各詞彙在某一篇中文文件的特徵值組合成該篇中文文件的特徵向量。
該篇中文文件的特徵向量具有足以代表該份文件內容的性質,而不需以人工方式來選取關鍵詞,且利用本發明所求得的該篇中文文件的特徵向量比「人工獲取關鍵詞法」中的關鍵詞更能夠代表該篇中文文件的文件內容特性。
每篇中文文件的特徵向量皆可以通過本方法快速產生,因此可以解決以人工為每篇中文文件獲取關鍵字所帶來的「效率問題」;本方法對於不同篇的中文文件的文件內容,其所產生特徵向量的標準是一致的,因此可以解決人工為每篇中文文件獲取關鏈字時,所可能因個人主觀理解與判斷的不同而產生的「準確性問題」;本方法對於同一篇中文文件的文件內容,每次所產生的特徵向量都是一致的,因此可以解決同一人在為同一篇中文文件的文件內容獲取關鍵字時,所可能因個人主觀理解與判斷的改變而產生的「一致性問題」。綜上所述,本發明確實可以有效解決以往「人工獲取關鍵詞法」的三大問題「效率問題」、「準確性問題」與「一致性問題」。
再者,本發明提供一種不同篇中文文件的特徵向量間可以進行相似性比較的方法。其是利用計算出相似係數,作為不同篇中文文件的文件內容間相似程度的判斷標準,進而將文件依此一標準分類。意即本發明可以判斷兩份中文文件之間內容的相似性,而不需要人類的理解,即可利用中文文件的特徵向量間的相似性比較,將文件內容相似性較高者分為同一類別,達到文件分類的目的。
為使能對本發明中文文件自動分類法有更進一步的了解,茲將本發明配合圖示詳細說明於後圖1為現有的「人工獲取關鍵詞法」的流程圖。
圖2為本發明中文文件自動分類法的流程圖。
請參閱圖2所示,其是本發明一種中文文件自動分類法的流程圖,其本發明是先將各篇待分類文件1利用斷詞法對文件內容的文字進行斷詞處理,該斷詞法為長詞優先斷詞法,其是利用主辭典3對應待分類文件1中的所有文字,優先找出符合主辭典中最長的詞彙2。將由斷詞步驟所得的所有詞彙2置於詞彙總表4中。接著將詞彙總表4中的每一個詞彙2進行特徵鑑別步驟處理,即計算詞彙總表4中的每一個詞彙的在各篇待分類文件1中出現的次數,該次數值定義為詞彙頻率;另一方面計算詞彙總表4中的每一個詞彙2在所有待分類文件1中出現的篇數,該篇數值的倒數則定義為詞彙散布率,將所求得的詞彙頻率與詞彙散布率進行加權運算,得到詞彙總表4中的每個詞彙2在各篇待分類文件1的特徵值5。再將詞彙總表4中的所有詞彙2在單一篇待分類文件1中的特徵值5,進行特徵值組合處理,求得屬於該篇待分類文件1的特徵向量6,該特徵向量6即可充份代表該篇待分類文件1的內容特性。然後將各篇待分類文件1的特徵向量6進行文件相似性判別步驟處理,本發明的相似性判別步驟處理是把各篇待分類文件1所得的特徵向量6與其它待分類文件1的特徵向量6相乘積,再除以上述互相乘積的特徵向量6的絕對值平均數,來得到各篇待分類文件1與其它篇待分類文件1的相似係數7。最後,各篇待分類文件1依其與其它篇待分類文件1的相似係數7進行分類,把所求得的相似係數7值大者的數篇待分類文件1結合成同一類別,藉此完成文件的分類。
權利要求
1.一種中文文件自動分類法,其特徵是其是包含(1)先將各篇待分類文件利用斷詞法進行斷詞處理;(2)將斷詞處理所得的所有詞彙置於詞彙總表中;(3)再將詞彙總表中的每一個詞彙進行特徵鑑別步驟處理,以得詞彙總表中的每個詞彙在各篇待分類文件的特徵值;(4)將詞彙總表中的所有詞彙在單一篇待分類文件中的特徵值,進行特徵值組合處理,求得該篇待分類文件的特徵向量;(5)然後將各篇待分類文件的特徵向量進行文件相似性判別步驟處理,而得各篇待分類文件與其它篇待分類文件的相似係數;(6)最後將各篇待分類文件依其相似係數的大小進行分類,將相似係數大的數篇待分類文件結合成同一類別,完成文件分類。
2.如權利要求1所述的中文文件自動分類法,其特徵是該斷詞法為長詞優先斷詞法,其是利用主辭典對應待分類文件中的所有文字,優先找出符合主辭典中最長的詞彙。
3.如權利要求1所述的中文文件自動分類法,其特徵是其中該特徵鑑別步驟是包括有(1)計算詞彙總表中的每一個詞彙在各篇待分類文件中出現的次數,該次數值為詞彙頻率;(2)計算詞彙總表中的每一個詞彙在所有待分類文件中出現的篇數,該篇數值的倒數為詞彙散布率;(3)再將詞彙頻率與詞彙散布率進行加權運算,求得特徵值。
4.如權利要求1所述的中文文件自動分類法,其特徵是其中該相似性判別步驟是為將各篇待分類文件所得的特徵向量與其它待分類文件的特徵向量相乘積,再除以各篇待分類文件的特徵向量與其它待分類文件的特徵向量的絕對值平均數,求得相似係數。
全文摘要
本發明為一種中文文件自動分類法,先將各篇待分類文件利用斷詞法進行斷詞處理,並將所得的所有詞彙置於詞彙總表中;將每一個詞彙進行特徵鑑別步驟處理,得詞彙總表中的每個詞彙在各篇待分類文件的特徵值;進行特徵值組合處理,求得該篇待分類文件的特徵向量;將特徵向量進行文件相似性判別步驟處理,得各篇待分類文件與其它篇待分類文件的相似係數;依其相似係數的大小進行分類,將相似係數大的數篇待分類文件結合成同一類別,完成文件分類。
文檔編號G06F7/00GK1360253SQ0013672
公開日2002年7月24日 申請日期2000年12月21日 優先權日2000年12月21日
發明者楊立偉 申請人:意藍科技股份有限公司