關於關鍵詞提取的系統和方法
2023-10-09 00:51:54 1
專利名稱:關於關鍵詞提取的系統和方法
關於關鍵詞提取的系統和方法
背景技術:
關鍵詞提取典型地用作上下文廣告系統的核心組件,其中基於從頁面文本中自動選擇的關鍵詞選擇與網頁內容匹配的廣告。為了顯示與網頁相關、從而可能使用戶更感興趣的廣告,需要對文本中出現的許多特徵進行評估,以作出哪些關鍵詞準確反映頁面內容的決定。在本文描述的示例性實施例中,關鍵詞提取系統將頁面url作為輸入,並返回由系統排序的10個關鍵詞短語作為最高關鍵詞候選。該系統首先處理網頁文本,並使用它的結構來提取作為關鍵詞候選池的短語。每個短語然後可以由一組特徵(例如其在網頁上的頻率、在文本中的位置、大寫及其語言結構(例如,其是否構成名詞短語)來描述。基於具有人工標註的關鍵詞的樣本網頁的集合,該系統學習這些特徵如何有助於候選短語是否有可能是「好的」關鍵詞的決定。一旦它以這種方式被訓練,該系統可以被用來識別先前沒有見過的網頁上的(即,在訓練集中所沒有的)關鍵詞。大多數現有的關鍵詞提取系統依靠採用統計頻率措施(如tf-1df1)的信息檢索模型。示例性系統的實施例通過使用自然語言處理技術改進該方式以實現改進的性能。一個或多個示例性實施例採用了一種新的關鍵詞候選提取方法,該方法對於短語結構是敏感的,並且可以包括附加的導致更好的機器學習結果的語言特徵。
發明內容
一個示例性方面包括一種計算機系統,包括:(a)預處理單元,----------------------kf-1df權重(詞頻- 逆文檔頻率)是通常用於信息檢索和文本挖掘中的權重。該權重是用於評估詞對於集合或文集中的文檔的重要性的統計措施。重要性與詞在文檔中出現的次數成比例地增大,但是由詞在文集中的頻率來進行偏移。從網頁中提取文本,以產生至少第一組的候選關鍵詞,應用語言處理以產生至少第二組的候選關鍵詞,並將所述第一組和第二組候選關鍵詞組成第一候選池;(b)候選提取單元,從所述預處理單元接收描述至少所述第一候選池的數據,並產生第二候選池;(C)特徵提取單元,接收描述至少所述第二候選池的數據,並針對一般特徵和語言特徵來分析所述第二候選池;以及(d)分類單元,從所述特徵提取單元接收描述至少所述第二候選池的所述數據和相關數據,並確定所述第二候選池中每個候選成為主關鍵詞或次關鍵詞的可能性。在一個或多個示例性實施例及其組合中:(I)所述語言處理的至少一部分是由標記器和解析器來執行的;(2)所述語言處理的至少一部分是由標記器(tokenizer)、解析器、詞性標註器(tagger)和命名實體標註器來執行的;(3)所述語言處理的至少一部分是由標記器執行的;(4)所述語言處理的至少一部分是由解析器執行的;(5)所述語言處理的至少一部分是由詞性標註器執行的;(6)所述語言處理的至少一部分是由命名實體標註器執行的;(7)所述第一組候選關鍵詞包括元數據文本;(8)所述第二候選池包括名詞短語和名詞序列;(9)所述第二候選池包括名詞短語、名詞序列和η元語言;(10)所述一般特徵包括以下一個或多個:頻率、在文檔中的位置、大寫;(11)所述語言特徵涉及以下一個或多個:詞性、短語結構和命名實體信息;(12)所述一般特徵包括頻率特徵,並且所述頻率特徵包括以下一個或多個:所述網頁內的相對詞頻和詞頻的對數;(13)確定每個候選是主關鍵詞或次關鍵詞的可能性的所述確定基於注釋訓練數據;(14)確定每個候選是主關鍵詞或次關鍵詞的可能性的所述確定基於通過組合來自多個注釋器的注釋輸入而創建的訓練數據,其中每個注釋包括主關鍵詞和次關鍵詞之間的區別;(15)所述一般特徵包括頻率、在文檔中的位置和大寫,並且所述語言特徵涉及詞性、短語結構、和命名實體信息;和/或
(16)所述一般特徵包括頻率特徵,所述頻率特徵包括以下一個或多個:所述網頁內的相對詞頻和詞頻的對數,以及所述語言特徵涉及詞性、短語結構和命名實體信息。另一個方面包括一種包括由計算機處理系統實現的步驟的方法,所述步驟包括:(a)從網頁提取文本以產生至少第一組候選關鍵詞,應用語言處理以產生至少第二組候選關鍵詞,以及將所述第一組和第二組候選關鍵詞組成第一候選池;(b)接收描述至少所述第一候選池的數據,並產生第二候選池;(c)接收描述至少所述第二候選池的數據,並針對一般特徵和語言特徵分析所述第二候選池;以及(d)從所述特徵提取單元接收描述至少所述第二候選池的所述數據和相關數據,並確定所述第二候選池中每個候選是主關鍵詞或次關鍵詞的可能性。另一個方面包括一種存儲有軟體的有形計算機可讀介質,可操作用於執行如下步驟:(a)從網頁提取文本以產生至少第一組候選關鍵詞,應用語言處理以產生至少第二組候選關鍵詞,以及將所述第一組和第二組候選關鍵詞組成第一候選池;(b)接收描述至少所述第一候選池的數據,並產生第二候選池;(c)接收描述至少所述第二候選池的數據,並針對一般特徵和語言特徵分析所述第二候選池;以及(d)從所述特徵提取單元接收描述至少所述第二候選池的所述數據和相關數據,並確定所述第二候選池中每個候選是主關鍵詞或次關鍵詞的可能性。根據本文所提供的描述和附圖,其它方面和實施例對於本領域技術人員將是顯而易見的。
圖1示出了示例實施例的處理的總覽圖。圖2示出了可以實現示例實施例的計算機系統。
具體實施例方式圖1示出了計算機實現的示例性實施例的概述。在本說明書的餘下部分中,進一步詳細描述每一個組件。示例預處理單元在示例性實施例中,在可以從頁面中選擇可能的關鍵詞短語之前,可以從HTML格式中提取頁面的純文本。該文本可以被進一步處理,以獲得有關它的結構的信息,該信息對於關鍵詞提取系統是有用的。優選地,系統的預處理單元執行提取以及標註和格式化網頁文本,以便為隨後的候選短語選擇階段和特徵提取階段提供合適的輸入。在預處理階段,首先可以使用BoilerPipe (例如,見[9])從網頁中提取內容文本,其消除了樣板內容,僅保留頁面的主要文本主體。除了主體文本,可以提取如標題、元描述和元關鍵詞的首部信息,並與BoilerPipe輸出組合以形成用於進一步處理的純文本輸入。然後,頁面文本可以被標記,而且標記器的輸出傳遞至詞性標註器(例如,見)和解析器(例如,見[13])。由於構成名詞短語的關鍵詞有一種傾向,解析器輸出可用於在文本中查找名詞短語。使用解析器而不是分塊器(chunker)可能由獲得更細粒度的分層短語結構信息(與基本的名詞短語塊相比)的願望而激勵,以改進關鍵詞候選提取。由於命名實體(「NE」)(如個人或組織名稱)可能是有用的關鍵詞,還可以從網頁文本中提取命名實體。優選地使用兩個不同的NE系統(參見,例如[18]、[4]),以提供更大的一組實體類型的覆蓋。示例性候選提取單元候選提取可用於選擇作為可能關鍵詞的短語,並且可以用作分類器的輸入,該分類器估計給定的短語是關鍵詞的可能性。此外,在示例性分類器的訓練階段,候選提取的更好的精度有助於過濾不可能是關鍵詞的詞組合,從而降低了負面訓練樣本的數量,由此提高了正面與負面訓練數據的比率(關鍵詞提取任務具有正面和負面樣本之間的不平衡,有極少數的正面標籤數據)。在示例性實施例中,關鍵詞提取方法如下執行。首先,通過遞歸地從解析的文本中提取所有名詞短語,形成基礎候選集。然後,僅包括名詞的(從左到右提取的)所有候選子序列被加入候選集(例如,如果最好的Nixon相機配件是候選,Nixon相機配件、相機配件和配件將被添加到候選集)。最後,向候選集添加從候選短語中提取的所有一元語言(unigram)、二元語言(bigrams)和三元語言(trigrams)
也可以參照最常見的英語單詞的停止列表來過濾候選集。優選地,從候選集中移除包含停止詞的一元語言或二元語言。然而,可以保留在短語中部包含停止列表中的詞的較長短語。示例性關鍵詞分類單元為了識別哪些候選短語是關鍵詞,示例性實施例採用了分類器,該分類器使用輸入(候選短語的特徵)來估計短語是關鍵詞的概率,並向短語指派輸出標籤(關鍵詞或非關鍵詞)。可以使用監督機器學習來獲得將特徵輸入映射到關鍵詞標籤的分類器功能。也就是說,映射可以由分類器系統根據其中「正確」輸出的標籤已被人類註解者提供的數據集來學習。為了訓練用於示例性系統的分類器,可使用最大熵(ME)模型(這有時被稱為邏輯回歸模型,請參見[11]的介紹)。ME模型從訓練數據中導出約束,並假定不包括訓練集的最大熵分布。ME分類器的輸入由每個關鍵詞候選的值向量組成,其由模型使用以學習與每個特徵相關聯的權重。給定新的輸入數據,然後訓練分類器可以計算在給定該候選短語的輸入值的情況下短語是關鍵詞的概率。給定輸入值了標籤c的概率可以根據以下公式來計算:
權利要求
1.一種計算機系統,包括: (a)預處理單元,從網頁中提取文本以產生至少第一組候選關鍵詞,應用語言處理以產生至少第二組候選關鍵詞,並將所述第一組候選關鍵詞和第二組候選關鍵詞組成第一候選池; (b)候選提取單元,從所述預處理單元接收描述至少所述第一候選池的數據,並產生第二候選池; (c)特徵提取單元,接收描述至少所述第二候選池的數據,並針對一般特徵和語言特徵來分析所述第二候選池;以及 (d)分類單元,從所述特徵提取單元接收描述至少所述第二候選池的所述數據和相關數據,並確定所述第二候選池中每個候選是主關鍵詞或次關鍵詞的可能性。
2.根據權利要求1所述的計算機系統,其中,所述語言處理的至少一部分是由標記器和解析器來執行的。
3.根據權利要求1所述的計算機系統,其中,所述語言處理的至少一部分是由標記器、解析器、詞性標註器和命名實體標註器來執行的。
4.根據權利要求1所述的計算機系統,其中,所述語言處理的至少一部分是由標記器執行的。
5.根據權利要求1所述的計算機系統,其中,所述語言處理的至少一部分是由解析器執行的。
6.根據權利要求1所述的計算機系統,其中,所述語言處理的至少一部分是由詞性標註器執行的。
7.根據權利要求1所述的計算機系統,其中,所述語言處理的至少一部分是由命名實體標註器執行的。
8.根據權利要求1所述的計算機系統,其中,所述第一組候選關鍵詞包括元數據文本。
9.根據權利要求1所述的計算機系統,其中,所述第二候選池包括名詞短語和名詞序列。
10.根據權利要求1所述的計算機系統,其中,所述第二候選池包括名詞短語、名詞序列和η兀語目。
11.根據權利要求1所述的計算機系統,其中,所述一般特徵包括以下一個或更多個:頻率、文檔中的位置和大寫。
12.根據權利要求1所述的計算機系統,其中,所述語言特徵涉及以下一個或更多個:詞性、短語結構和命名實體信息。
13.根據權利要求1所述的計算機系統,其中,所述一般特徵包括頻率特徵,並且所述頻率特徵包括以下一個或更多個:所述網頁內的相對詞頻和詞頻的對數。
14.根據權利要求1所述的計算機系統,其中,基於注釋訓練數據來確定每個候選是主關鍵詞或次關鍵詞的可能性。
15.根據權利要求1所述的計算機系統,其中,基於通過組合來自多個注釋器的注釋輸入而創建的訓練數據來確定每個候選是主關鍵詞或次關鍵詞的可能性,以及每個注釋包括主關鍵詞和次關鍵詞之間的區別。
16.根據權利要求1所述的計算機系統,其中,所述一般特徵包括頻率、文檔中的位置和大寫,並且所述語言特徵涉及詞性、短語結構和命名實體信息。
17.根據權利要求1所述的計算機系統,其中,所述一般特徵包括頻率特徵,所述頻率特徵包括以下一個或更多個:所述網頁內的相對詞頻和詞頻的對數,以及所述語言特徵涉及詞性、短語結構和命名實體信息。
18.—種包括由計算機處理系統實現的步驟的方法,所述步驟包括: (a)從網頁提取文本以產生至少第一組候選關鍵詞,應用語言處理以產生至少第二組候選關鍵詞,以及將所述第一組候選關鍵詞和第二組候選關鍵詞組成第一候選池; (b)接收描述至少所述第一候選池的數據,並產生第二候選池; (c)接收描述至少所述第二候選池的數據,並針對一般特徵和語言特徵分析所述第二候選池;以及 (d)從所述特徵提取單元接收描述至少所述第二候選池的所述數據和相關數據,並確定所述第二候選池中每個候選是主關鍵詞或次關鍵詞的可能性。
19.一種存儲有軟 件的有形計算機可讀介質,操作用於執行如下步驟: (a)從網頁提取文本以產生至少第一組候選關鍵詞,應用語言處理以產生至少第二組候選關鍵詞,以及將所述第一組和第二組候選關鍵詞組成第一候選池; (b)接收描述至少所述第一候選池的數據,並產生第二候選池; (C)接收描述至少所述第二候選池的數據,並針對一般特徵和語言特徵分析所述第二候選池;以及 (d)從所述特徵提取單元接收描述至少所述第二候選池的所述數據和相關數據,並確定所述第二候選池中每個候選是主關鍵詞或次關鍵詞的可能性。
全文摘要
一個示例性方面包括一種計算機系統,包括(a)預處理單元,從網頁中提取文本,以產生至少第一組候選關鍵詞,應用語言處理以產生至少第二組候選關鍵詞,並將所述第一組和第二組候選關鍵詞組成第一候選池;(b)候選提取單元,從所述預處理單元接收描述至少所述第一候選池的數據,並產生第二候選池;(c)特徵提取單元,接收描述至少所述第二候選池的數據,並針對一般特徵和語言特徵來分析所述第二候選池;以及(d)分類單元,從所述特徵提取單元接收描述至少所述第二候選池的所述數據和相關數據,並確定所述第二候選池中每個候選成為主關鍵詞或次關鍵詞的可能性。
文檔編號G06F7/06GK103201718SQ201180053175
公開日2013年7月10日 申請日期2011年11月2日 優先權日2010年11月5日
發明者佐菲亞·斯坦基維茲, 關根聰 申請人:樂天株式會社