用於關鍵字提取的方法
2023-05-28 09:51:51 2
專利名稱:用於關鍵字提取的方法
用於關鍵字提取的方法
背景技術:
隨著計算機和網際網路的出現,世界已經經歷了前所未有的信息爆炸。印刷品過去主導表示媒介的日子已經一去不復返了。網際網路已經改變了人們消費數據的方式。找到現今所印刷的幾乎所有其他文檔的數字版本是非常常見的。這樣大量的數位化雖然在許多方面極為有益,但是也有其自身的限制。總是存在找到正確的信息或數據的這一迫切問題。因此,文檔搜索仍然是最具挑戰性的研究領域之一。關鍵字或關鍵字提供一種用於表徵文本文檔的有價值的機制。關鍵字提供一種在文檔或文檔全集(corpus)中搜索信息的有意義的方式。在傳統上,關鍵字由作者、圖書管理員、專業的索引編制員和編目員人工地指定。然而,隨著每天成千上萬的文檔得到數位化,人工指定不再可能。基於計算機的自動關鍵字提取是這一問題的自然結果。在過去的幾年裡已經提出了許多種關鍵字提取方法。在一些方法中,所述問題被制定為有監督的分類問題,並且基於加標記的訓練數據集對分類器進行訓練。在一些其他方法中,關鍵字提取被制定為排序問題,並且根據一些度量對候選字進行排序。然而,現有方法具有其自身的限制。舉例來說,現有方法沒有明確地考慮候選關鍵字與文檔之間的語義關係。此外,所提取的關鍵字受限於文檔內容。
為了更好地理解本發明,現在將純粹通過示例的方式參照附圖來描述實施例,其中
圖1示出根據一個實施例的計算機實施的關鍵字提取的方法的流程圖。圖2示出根據一個實施例的圖1的方法的一個子例程的流程圖。圖3示出根據一個實施例的圖1的方法的另一子例程的流程圖。圖4示出可以在其上實施一個實施例的計算機系統400的框圖。
具體實施例方式在包括附圖在內的整個本文檔中,下面的術語可以被互換地使用。(a) 「關鍵字」和「關鍵短語」
(b) 「文檔」和「電子文檔」。本發明的實施例提供用於從可能存在於文檔全集中的文檔提取關鍵字的方法、計算機可執行代碼和計算機存儲介質。具體來說,所公開的方法涉及文檔內關鍵字提取方法和全集內關鍵字提取方法。如者提取出現在單個文檔內的關鍵字;後者提取出現在全集內(可能未出現在所述文檔內)的關鍵字。圖1示出根據一個實施例的提取關鍵字的方法100的流程圖。方法100可以在計算機系統(或計算機可讀介質)上被執行。所述方法開始於步驟110。在步驟110中,獲得或訪問文檔全集。所述文檔全集可以從儲存庫獲得,所述儲存庫可以是電子資料庫。所述電子資料庫可以是內部資料庫(例如公司的內聯網)或者外部資料庫(例如維基百科(Wikipedia))。此外,所述電子資料庫可以被存儲在獨立的個人計算機上,或者可以分散在利用有線或無線技術聯網在一起的許多計算機器上。舉例來說,所述電子資料庫可以被寄放(host)在通過廣域網(WAN)或網際網路連接的許多伺服器上。在步驟120中,從文檔全集中選擇文檔,並且確定作為關鍵字出現在所述文檔中的字集合。在選擇作為關鍵字出現在所述文檔中的字集合中所涉及的方法步驟在下面參照圖2被更詳細地描述。在本步驟中,只要說可以選擇存在於文檔全集中的任何文檔並且可以確定作為關鍵字出現在所述文檔中的第一字集合就夠了。此外,可以針對存在於文檔全集中的任何數目的文檔來重複本步驟。在步驟130中,可以確定出現在文檔全集中的字集合。這樣的字集合可能不一定出現在步驟120中所選擇的文檔中。在確定出現在文檔全集中但是可能不一定作為關鍵字出現在較早所選的文檔中的第二字集合中所涉及的方法步驟在下面參照圖3被更詳細地描述。本步驟130是關於文檔全集而執行的。在步驟140中,確定所述文檔的最終關鍵字集合。該步驟涉及把在步驟120中確定的第一字集合與在步驟120中確定的第二字集合相組合。一旦完成了對於步驟120和130所概述的方法步驟,就出現了被一起用來確定在步驟120中所選擇的文檔的最終關鍵字集合的兩個關鍵字集合。圖2示出根據一個實施例的圖1的方法的一個子例程的流程圖。該流程圖詳細地描述方法步驟120。所述子例程可以被稱作文檔內關鍵字提取方法。在一個實施例中,所述方法涉及下列模塊統計話題建模的學習,統計話題建模的推斷,名詞短語分塊,以及基於話題的名詞短語評分。如下利用在下面的表I中提供的用在其中的標記法來描述所述方法的主要步驟。表 I
權利要求
1.一種計算機實施的提取關鍵字的方法,包括 獲得文檔全集; 確定作為關鍵字出現在存在於所述文檔全集中的文檔中的第一字集合; 確定出現在所述文檔全集中但是不一定作為關鍵字出現在所述文檔中的第二字集合;以及 通過組合第一字集合與第二字集合來確定所述文檔的最終關鍵字集合。
2.根據權利要求1所述的方法,其中,確定作為關鍵字出現在文檔中的第一字集合的所述步驟包括 學習關於所述文檔全集的統計話題模型; 關於所述文檔,根據所述統計話題模型來推斷話題關於所述文檔的多項式分布,以確定所述文檔的主要話題; 確定話題關於所述文檔中的字的後驗分布以將話題指派給所述文檔中的字,從而產生以三元組的形式的加標記的字的集合; 通過利用名詞短語分塊方法從所述文檔中提取名詞短語; 根據利用所述主要話題進行標記的字的出現率,對所述名詞短語進行評分; 按照降序對所述名詞短語進行排序;以及 將具有最高得分的靠前名詞短語輸出為作為所述文檔的關鍵字出現的第一字集合。
3.根據權利要求2所述的方法,在所述學習步驟之前還包括預處理步驟,所述預處理步驟包括 去除無用字; 字幹處理;以及 將所述文檔全集變換成字與文檔的矩陣。
4.根據權利要求2所述的方法,其中,所述統計話題模型由字關於話題的多項式分布集合來表示,並且可選地由話題關於所述文檔全集的多項式分布集合來表示。
5.根據權利要求2所述的方法,其中,通過概率潛在語義分析(PLSA)或潛在狄利克雷分配(LDA )統計話題建模方法來學習所述統計話題模型。
6.根據權利要求2所述的方法,其中,確定所述文檔的主要話題包括選擇具有最大概率的話題。
7.根據權利要求2所述的方法,其中,以三元組的形式的所述加標記的字的集合被表示為〈字,話題,概率>。
8.根據權利要求2所述的方法,在所述評分步驟之前還包括用於過濾前置冠詞的預處理步驟。
9.根據權利要求1所述的方法,其中,確定出現在所述文檔全集中的第二字集合的所述步驟包括 學習關於所述文檔全集的統計話題模型; 對於所述全集中的每個文檔,確定話題關於字的後驗分布以將話題指派給字,從而產生以三元組的形式的加標記的字的集合; 對於所述全集中的每個文檔,通過利用名詞短語分塊方法從所述文檔中提取名詞短語;通過根據所述三元組將每個字與話題和權重相關聯來為每個提取的名詞短語加標記;以及 將加標記的名詞短語輸出到儲存庫中。
10.根據權利要求9所述的方法,還包括從所述儲存庫中讀出加標記的名詞短語並且利用索引引擎對所述名詞短語編制索引。
11.根據權利要求10所述的方法,還包括 對於所述文檔的主要話題,通過按照布爾邏輯級聯所述文檔的主要話題來構造串查詢;以及 將所述串查詢提交到所述索引引擎,從而產生經匹配的名詞短語的已排序列表,其中靠前的名詞短語是出現在所述文檔全集中的第二字集合。
12.根據權利要求1所述的方法,其中,所述文檔全集是從儲存庫獲得的。
13.—種系統,包括 處理器;以及 耦合到所述處理器的存儲器,其中所述存儲器包括用於執行下列操作的指令 獲得文檔全集; 確定作為關鍵字出現在存在於所述文檔全集中的文檔中的第一字集合; 確定出現在所述文檔全集中但是不一定作為關鍵字出現在所述文檔中的第二字集合;以及 通過組合第一字集合與第二字集合來確定所述文檔的最終關鍵字集合。
14.一種包括電腦程式裝置的電腦程式,當所述程序在計算機上運行時,所述電腦程式裝置適於執行權利要求1的所有步驟。
15.根據權利要求14所述的電腦程式,其被具體實現在計算機可讀介質上。
全文摘要
給出一種提取關鍵字的方法。所述方法包括獲得文檔全集;確定作為關鍵字出現在存在於所述文檔全集中的文檔中的第一字集合;確定出現在所述文檔全集中但是不一定作為關鍵字出現在所述文檔中的第二字集合;以及通過組合第一字集合與第二字集合來確定所述文檔的最終關鍵字集合。
文檔編號G06F17/30GK103038764SQ201080066155
公開日2013年4月10日 申請日期2010年4月14日 優先權日2010年4月14日
發明者楊勝文, 熊宇紅, 劉偉 申請人:惠普發展公司,有限責任合夥企業