新四季網

用於關鍵字提取的方法

2023-05-28 09:51:51 2

專利名稱:用於關鍵字提取的方法
用於關鍵字提取的方法
背景技術:
隨著計算機和網際網路的出現,世界已經經歷了前所未有的信息爆炸。印刷品過去主導表示媒介的日子已經一去不復返了。網際網路已經改變了人們消費數據的方式。找到現今所印刷的幾乎所有其他文檔的數字版本是非常常見的。這樣大量的數位化雖然在許多方面極為有益,但是也有其自身的限制。總是存在找到正確的信息或數據的這一迫切問題。因此,文檔搜索仍然是最具挑戰性的研究領域之一。關鍵字或關鍵字提供一種用於表徵文本文檔的有價值的機制。關鍵字提供一種在文檔或文檔全集(corpus)中搜索信息的有意義的方式。在傳統上,關鍵字由作者、圖書管理員、專業的索引編制員和編目員人工地指定。然而,隨著每天成千上萬的文檔得到數位化,人工指定不再可能。基於計算機的自動關鍵字提取是這一問題的自然結果。在過去的幾年裡已經提出了許多種關鍵字提取方法。在一些方法中,所述問題被制定為有監督的分類問題,並且基於加標記的訓練數據集對分類器進行訓練。在一些其他方法中,關鍵字提取被制定為排序問題,並且根據一些度量對候選字進行排序。然而,現有方法具有其自身的限制。舉例來說,現有方法沒有明確地考慮候選關鍵字與文檔之間的語義關係。此外,所提取的關鍵字受限於文檔內容。


為了更好地理解本發明,現在將純粹通過示例的方式參照附圖來描述實施例,其中
圖1示出根據一個實施例的計算機實施的關鍵字提取的方法的流程圖。圖2示出根據一個實施例的圖1的方法的一個子例程的流程圖。圖3示出根據一個實施例的圖1的方法的另一子例程的流程圖。圖4示出可以在其上實施一個實施例的計算機系統400的框圖。
具體實施例方式在包括附圖在內的整個本文檔中,下面的術語可以被互換地使用。(a) 「關鍵字」和「關鍵短語」
(b) 「文檔」和「電子文檔」。本發明的實施例提供用於從可能存在於文檔全集中的文檔提取關鍵字的方法、計算機可執行代碼和計算機存儲介質。具體來說,所公開的方法涉及文檔內關鍵字提取方法和全集內關鍵字提取方法。如者提取出現在單個文檔內的關鍵字;後者提取出現在全集內(可能未出現在所述文檔內)的關鍵字。圖1示出根據一個實施例的提取關鍵字的方法100的流程圖。方法100可以在計算機系統(或計算機可讀介質)上被執行。所述方法開始於步驟110。在步驟110中,獲得或訪問文檔全集。所述文檔全集可以從儲存庫獲得,所述儲存庫可以是電子資料庫。所述電子資料庫可以是內部資料庫(例如公司的內聯網)或者外部資料庫(例如維基百科(Wikipedia))。此外,所述電子資料庫可以被存儲在獨立的個人計算機上,或者可以分散在利用有線或無線技術聯網在一起的許多計算機器上。舉例來說,所述電子資料庫可以被寄放(host)在通過廣域網(WAN)或網際網路連接的許多伺服器上。在步驟120中,從文檔全集中選擇文檔,並且確定作為關鍵字出現在所述文檔中的字集合。在選擇作為關鍵字出現在所述文檔中的字集合中所涉及的方法步驟在下面參照圖2被更詳細地描述。在本步驟中,只要說可以選擇存在於文檔全集中的任何文檔並且可以確定作為關鍵字出現在所述文檔中的第一字集合就夠了。此外,可以針對存在於文檔全集中的任何數目的文檔來重複本步驟。在步驟130中,可以確定出現在文檔全集中的字集合。這樣的字集合可能不一定出現在步驟120中所選擇的文檔中。在確定出現在文檔全集中但是可能不一定作為關鍵字出現在較早所選的文檔中的第二字集合中所涉及的方法步驟在下面參照圖3被更詳細地描述。本步驟130是關於文檔全集而執行的。在步驟140中,確定所述文檔的最終關鍵字集合。該步驟涉及把在步驟120中確定的第一字集合與在步驟120中確定的第二字集合相組合。一旦完成了對於步驟120和130所概述的方法步驟,就出現了被一起用來確定在步驟120中所選擇的文檔的最終關鍵字集合的兩個關鍵字集合。圖2示出根據一個實施例的圖1的方法的一個子例程的流程圖。該流程圖詳細地描述方法步驟120。所述子例程可以被稱作文檔內關鍵字提取方法。在一個實施例中,所述方法涉及下列模塊統計話題建模的學習,統計話題建模的推斷,名詞短語分塊,以及基於話題的名詞短語評分。如下利用在下面的表I中提供的用在其中的標記法來描述所述方法的主要步驟。表 I
權利要求
1.一種計算機實施的提取關鍵字的方法,包括 獲得文檔全集; 確定作為關鍵字出現在存在於所述文檔全集中的文檔中的第一字集合; 確定出現在所述文檔全集中但是不一定作為關鍵字出現在所述文檔中的第二字集合;以及 通過組合第一字集合與第二字集合來確定所述文檔的最終關鍵字集合。
2.根據權利要求1所述的方法,其中,確定作為關鍵字出現在文檔中的第一字集合的所述步驟包括 學習關於所述文檔全集的統計話題模型; 關於所述文檔,根據所述統計話題模型來推斷話題關於所述文檔的多項式分布,以確定所述文檔的主要話題; 確定話題關於所述文檔中的字的後驗分布以將話題指派給所述文檔中的字,從而產生以三元組的形式的加標記的字的集合; 通過利用名詞短語分塊方法從所述文檔中提取名詞短語; 根據利用所述主要話題進行標記的字的出現率,對所述名詞短語進行評分; 按照降序對所述名詞短語進行排序;以及 將具有最高得分的靠前名詞短語輸出為作為所述文檔的關鍵字出現的第一字集合。
3.根據權利要求2所述的方法,在所述學習步驟之前還包括預處理步驟,所述預處理步驟包括 去除無用字; 字幹處理;以及 將所述文檔全集變換成字與文檔的矩陣。
4.根據權利要求2所述的方法,其中,所述統計話題模型由字關於話題的多項式分布集合來表示,並且可選地由話題關於所述文檔全集的多項式分布集合來表示。
5.根據權利要求2所述的方法,其中,通過概率潛在語義分析(PLSA)或潛在狄利克雷分配(LDA )統計話題建模方法來學習所述統計話題模型。
6.根據權利要求2所述的方法,其中,確定所述文檔的主要話題包括選擇具有最大概率的話題。
7.根據權利要求2所述的方法,其中,以三元組的形式的所述加標記的字的集合被表示為〈字,話題,概率>。
8.根據權利要求2所述的方法,在所述評分步驟之前還包括用於過濾前置冠詞的預處理步驟。
9.根據權利要求1所述的方法,其中,確定出現在所述文檔全集中的第二字集合的所述步驟包括 學習關於所述文檔全集的統計話題模型; 對於所述全集中的每個文檔,確定話題關於字的後驗分布以將話題指派給字,從而產生以三元組的形式的加標記的字的集合; 對於所述全集中的每個文檔,通過利用名詞短語分塊方法從所述文檔中提取名詞短語;通過根據所述三元組將每個字與話題和權重相關聯來為每個提取的名詞短語加標記;以及 將加標記的名詞短語輸出到儲存庫中。
10.根據權利要求9所述的方法,還包括從所述儲存庫中讀出加標記的名詞短語並且利用索引引擎對所述名詞短語編制索引。
11.根據權利要求10所述的方法,還包括 對於所述文檔的主要話題,通過按照布爾邏輯級聯所述文檔的主要話題來構造串查詢;以及 將所述串查詢提交到所述索引引擎,從而產生經匹配的名詞短語的已排序列表,其中靠前的名詞短語是出現在所述文檔全集中的第二字集合。
12.根據權利要求1所述的方法,其中,所述文檔全集是從儲存庫獲得的。
13.—種系統,包括 處理器;以及 耦合到所述處理器的存儲器,其中所述存儲器包括用於執行下列操作的指令 獲得文檔全集; 確定作為關鍵字出現在存在於所述文檔全集中的文檔中的第一字集合; 確定出現在所述文檔全集中但是不一定作為關鍵字出現在所述文檔中的第二字集合;以及 通過組合第一字集合與第二字集合來確定所述文檔的最終關鍵字集合。
14.一種包括電腦程式裝置的電腦程式,當所述程序在計算機上運行時,所述電腦程式裝置適於執行權利要求1的所有步驟。
15.根據權利要求14所述的電腦程式,其被具體實現在計算機可讀介質上。
全文摘要
給出一種提取關鍵字的方法。所述方法包括獲得文檔全集;確定作為關鍵字出現在存在於所述文檔全集中的文檔中的第一字集合;確定出現在所述文檔全集中但是不一定作為關鍵字出現在所述文檔中的第二字集合;以及通過組合第一字集合與第二字集合來確定所述文檔的最終關鍵字集合。
文檔編號G06F17/30GK103038764SQ201080066155
公開日2013年4月10日 申請日期2010年4月14日 優先權日2010年4月14日
發明者楊勝文, 熊宇紅, 劉偉 申請人:惠普發展公司,有限責任合夥企業

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀