用於搜尋引擎的色情用戶查詢識別方法及設備的製作方法
2023-06-12 05:06:11 1
專利名稱:用於搜尋引擎的色情用戶查詢識別方法及設備的製作方法
技術領域:
本發明涉及信息檢索和搜尋引擎,尤其涉及搜尋引擎中色情用戶查詢的識別方法。
背景技術:
隨著網際網路規模不斷增加,搜尋引擎成為網際網路上的重要應用系統之一。如何準確的理解用戶提交到搜尋引擎的查詢意圖是一個重要的技術問題。準確理解用戶的查詢意圖有助於搜尋引擎返回更好的結果或者調用相應的垂直搜尋引擎,從而提高搜尋引擎的用戶體驗。然而,網際網路中的信息紛繁複雜,糟柏與精華並存,搜尋引擎的返回結果中往往包含一些不良結果,例如色情頁面。正確識別用戶查詢中是否包含色情意圖能夠幫助搜尋引擎針對色情用戶查詢採取特殊措施,避免返回色情頁面。這對於保護未成年人和構建和諧的網際網路都十分重要。
搜尋引擎中用戶查詢意圖最初主要分為三類,分別是導航類,信息類,實務類。導航類是指用戶期望找到某個網站的首頁。信息類是指用戶期望找到一些滿足需求的網頁,這些網頁往往是內容型的,例如新聞,百科類的網頁。通過閱讀這些頁面,用戶可以得到滿意的信息。事務類是指用戶期望找到某個網頁能夠完成某項事務。例如銀行轉帳,購買商品,查詢機票信息等。隨著網際網路的快速發展,近期的研究工作對用戶查詢意圖進行了進一步的細分,例如用戶查詢是否涉及找工作,是否搜索餐廳,是否下載音樂等等。正確識別這些細粒度的用戶查詢意圖,能夠幫助搜尋引擎觸發正確的垂直搜尋引擎。
由於搜尋引擎的用戶查詢較短,文本特徵稀疏,且用戶查詢往往具有歧義性,因此如何準確的識別用戶的查詢意圖具有挑戰性。針對這些問題,現有的技術中主要採用下面兩類方法進行解決。一類方法利用用戶搜尋引擎的點擊日誌來識別用戶的查詢意圖。這類方法利用用戶在查詢結果頁中所點擊的網站或頁面來識別查詢意圖,這類方法假設用戶點擊的頁面滿足其查詢意圖,但是當用戶點擊頁面後快速離開卻往往意味著查詢意圖並沒有得到滿足,這種行為模式在用戶點擊日誌中並沒有得到體現。另一類方法通過使用用戶查詢的搜索結果反向判斷用戶查詢的意圖,這類方法利用搜索結果頁的主題分布特徵來識別用戶查詢意圖的分布,其對在查詢日誌中出現頻率較低的意圖識別不夠準確。而且這種基於搜索結果反向判斷用戶查詢意圖的方法識別查詢意圖的時間複雜度高,給搜尋引擎造成較大的負荷。發明內容
因此,本發明的目的在於克服上述現有技術的缺陷,提供一種融合命名實體和語言模型的色情用戶查詢識別方法,能快速有效地識別色情用戶查詢。
本發明的目的是通過以下技術方案實現的:
一方面,本發明提供了一種用於搜尋引擎的色情用戶查詢意圖識別方法,包括:步驟I)利用訓練好的用於識別色情用戶查詢的分類模型判斷待識別的用戶查詢是否為色請用戶查詢;其中,用於訓練所述分類模型的用戶查詢特徵包括用戶查詢的命名實體和實體上下文主題特徵。上述方法中,用於訓練所述分類模型的用戶查詢特徵還包括用戶屬於色情查詢和非色情查詢的概率。上述方法中,所述分類模型可以是基於已標註的用戶查詢集合通過以下步驟進行訓練:步驟21)基於用戶查詢日誌來訓練主題模型;步驟23)利用訓練好的主題模型來提取已標註的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特徵,並以用戶查詢的命名實體和實體上下文主題特徵來訓練所述分類模型。上述方法中,所述分類模型是基於已標註的用戶查詢集合通過以下步驟進行訓練:步驟21)基於用戶查詢日誌來訓練主題模型;步驟22)基於色情語料和非色情語料分別訓練基於統計的語言模型;步驟23)利用訓練好的主題模型來提取已標註的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特徵,利用訓練好的語言模型來判斷已標註的用戶查詢集合中每個用戶查詢屬於色情查詢和非色情查詢的概率,並以用戶查詢的命名實體和實體上下文主題特徵以及用戶查詢屬於色情查詢和非色情查詢的概率來訓練所述分類模型。上述方法中,所述步驟I)可包括:通過已收集的色情類型的命名實體集合將待識別的用戶查詢切分為命名實體和實體上下文兩部分,並利用訓練好的主題模型提取該用戶查詢的命名實體和實體上下文主題特徵;基於該用戶查詢的命名實體和實體上下文主題特徵,利用訓練好的分類模型判斷該用戶查詢是否為色請用戶查詢。上述方法中,所述步驟I)可包括:通過已收集的色情類型的命名實體集合將待識別的用戶查詢切分為命名實體和實體上下文兩部分,並利用訓練好的主題模型提取該用戶查詢的命名實體和實體上下文主題特徵;利用訓練好的語言模型來判斷該用戶查詢屬於色情查詢和非色情查詢的概率,基於該用戶查詢的命名實體和實體上下文主題特徵以及該用戶查詢屬於色情查詢和非色情查詢的概率,利用訓練好的分類模型判斷該用戶查詢是否為色請用戶查詢。上述方法中,所述步驟21)可包括:通過已收集的色情類型的命名實體集合將用戶查詢日誌中的每個查詢切分為命名實體和實體上下文兩部分;將每一個命名實體在用戶查詢日誌中的實體上下文聚合為一篇關於該命名實體的文檔,並構造該文檔的詞頻特徵向量;基於從用戶查詢日誌中提取的命名實體和關於命名實體的文檔及其詞頻特徵向量來對主題模型進行訓練,以得到實體上下文的主題分布特徵和每個命名實體的主題分布特徵。
另一方面,本發明提供了一種用於搜尋引擎的色情用戶查詢意圖識別設備,包括:識別裝置,用於利用訓練好的用於識別色情用戶查詢的分類模型判斷待識別的用戶查詢是否為色請用戶查詢;其中,用於訓練所述分類模型的用戶查詢特徵包括用戶查詢的命名實體和實體上下文主題特徵。上述設備中,用於訓練所述分類模型的用戶查詢特徵還包括用戶屬於色情查詢和非色情查詢的概率。上述設備中,還可包括訓練裝置,用於基於已標註的用戶查詢集合,訓練所述分類模型。與現有技術相比,本發明的優點在於:不需要基於搜尋引擎的查詢結果來識別色情查詢,而是通過利用用戶查詢中包含的命名實體特徵和語言模型特徵實現了快速、有效的色情查詢識別。
以下參照附圖對本發明實施例作進一步說明,其中:圖1為根據本發明一個實施例的用於搜尋引擎的色情用戶查詢意圖識別方法的流程示意圖。
具體實施例方式為了使本發明的目的,技術方案及優點更加清楚明白,以下結合附圖通過具體實施例對本發明進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。在本發明的一個實施例中,提供了一種用於搜尋引擎的色情用戶查詢意圖識別的方法。該方法包括離線訓練和在線識別兩個階段,在離線訓練階段,可以基於已標註的用戶查詢集合來訓練用於識別色情查詢意圖的分類模型;在在線識別階段,可以利用該訓練好的分類模型來判斷待識別的用戶查詢是否為色情用戶查詢。圖1給出了根據本發明實施例的色情用戶查詢識別方法的流程示意圖。該方法包括步驟I)基於已標註的用戶查詢集合,訓練用於識別色情用戶查詢的分類模型;步驟2)根據待識別的用戶查詢的特徵和該訓練好的分類模型來判斷該用戶查詢是否為色請用戶查詢。現參考圖1,更具體地,在步驟I)基於已標註的用戶查詢集合,訓練用於識別色情用戶查詢的分類模型(即離線訓練階段)。其中,已標註的用戶查詢集合包括被標註為色情或非色情的用戶查詢。例如,通過將用戶查詢輸入通用的搜尋引擎,查看其查詢結果就可以判斷該用戶查詢是否是色情查詢,從而可以對該用戶查詢進行標註。而分類模型可以採用邏輯回歸模型、決策樹、支持向量機(Support Vector Machine, SVM)模型等典型的分類模型。在訓練分類模型時,最關鍵的是以哪些特徵來選擇樣本並訓練模型,所謂訓練分類模型就是利用樣本數據和從樣本數據中提取的特徵通過訓練來學習出分類模型中的參數。在本發明的一個優選實施例中,可以以用戶查詢中的命名實體的主題分布特徵、實體上下文的主題分布特徵以及該用戶查詢屬於色情查詢和非色情查詢的概率這四個特徵來訓練該分類模型。在該實施例中,可使用訓練好的主題模型來發現用戶查詢中的命名實體及實體上下文的主題分布特徵,並且可採用基於統計的語言模型來估計的對於該用戶查詢屬於色情查詢和非色情查詢的概率。下面將分別介紹如何從已標註的用戶查詢集合中的每個用戶查詢中提取上述四個特徵。(I)對於命名實體及實體上下文的主題分布特徵,首先基於用戶查詢日誌來訓練主題模型,然後使用訓練好的主題模型來發現已標註的用戶查詢集合中每個用戶查詢的命名實體及實體上下文的主題分布特徵。其中,主題模型通常用來發現文檔中隱含的主題分布特徵,PLSA(ProbabilisticLatent Semantic Analysis,基於概率的隱含語義分析),LDA (Latent DirichletAllocation,隱含狄利克雷分配)等都是常用的主題模型。在一個實施例中,可以採用LDA作為主題模型。LDA是一種先進的主題模型,與PLSA相比需要學習更少的參數,因此LDA模型的泛化能力也更強。LDA模型基於詞袋(bag of world)假設,適合用來處理用戶查詢並不構成完整句子的問題。LDA的建模過程是逆向通過文本集合建立生成模型。假設一個語料庫中有若干個主題;在生成某個文檔時,首先隨機選擇某一主題;然後選擇單詞,選擇到那些和主題相關的詞的概率更高。這樣就完成了一個單詞的選擇。不斷選擇N個單詞,這樣就組成了一篇關於多個主題的文檔。具體來說,生成一篇文檔按照如下步驟:1.選擇N,N服從Poisson(I)分布,這裡N代表文檔的長度,ξ表示泊松分布的參數。2.選擇θ,Θ服從Dirichlet(a )分布,這裡Θ是k維列向量,該列向量中每個元素表示每個主題在該文檔發生的概率,a是Dirichlet分布的參數,k表示訓練主題模型過程中所設定的主題數量,可根據經驗設定,例如可設為10、20等。3.對N個單詞中的每一個:
a)選擇主題zn, Zn服從Multinomial ( Θ )多項分布。Zn代表當前選擇的主題;
b)選擇Wn,根據P (wn I ζη; β ):在ζη條件下的多項分布,p(wn|zn; β )表示了對於第η個單詞Wn,在選擇了主題Zn的情況下生成Wn的概率;β記錄了某個主題條件下生成某個單詞的概率,實際上β相當於一個矩陣,行為主題(共k行),列為單詞,該矩陣中每個元素表示在某個主題下某個單詞發生的概率。就本發明的實施例而言,Θ表示命名實體的主題分布特徵,β表示實體上下文的主題分布特徵。所建立的LDA模型例如為:
權利要求
1.一種用於搜尋引擎的色情用戶查詢識別方法,該方法包括: 步驟I)利用訓練好的用於識別色情用戶查詢的分類模型判斷待識別的用戶查詢是否為色請用戶查詢; 其中,用於訓練所述分類模型的用戶查詢特徵包括用戶查詢的命名實體和實體上下文主題特徵。
2.根據權利要求1所述的方法,其中用於訓練所述分類模型的用戶查詢特徵還包括用戶屬於色情查詢和非色情查詢的概率。
3.根據權利要求1所述的方法,其中,所述分類模型是基於已標註的用戶查詢集合通過以下步驟進行訓練: 步驟21)基於用戶查詢日誌來訓練主題模型; 步驟23)利用訓練好的主題模型來提取已標註的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特徵,並以用戶查詢的命名實體和實體上下文主題特徵來訓練所述分類模型。
4.根據權利要求2所述的方法,其中,所述分類模型是基於已標註的用戶查詢集合通過以下步驟進行訓練: 步驟21)基於用戶查詢日誌來訓練主題模型; 步驟22)基於色情語料和非色情語料分別訓練基於統計的語言模型; 步驟23)利用訓練好的主題模型來提取已標註的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特徵,利用訓練好的語言模型來判斷已標註的用戶查詢集合中每個用戶查詢屬於色情查詢和非色情查詢的概率,並以用戶查詢的命名實體和實體上下文主題特徵以及用戶查詢屬於色情查詢和非色情查詢的概率來訓練所述分類模型。
5.根據權利要求3所述的方法,所述步驟I)包括: 通過已收集的色情類型的命名實體集合將待識別的用戶查詢切分為命名實體和實體上下文兩部分,並利用訓練好的主題模型提取該用戶查詢的命名實體和實體上下文主題特徵; 基於該用戶查詢的命名實體和實體上下文主題特徵,利用訓練好的分類模型判斷該用戶查詢是否為色請用戶查詢。
6.根據權利要求4所述的方法,所述步驟I)包括: 通過已收集的色情 類型的命名實體集合將待識別的用戶查詢切分為命名實體和實體上下文兩部分,並利用訓練好的主題模型提取該用戶查詢的命名實體和實體上下文主題特徵; 利用訓練好的語言模型來判斷該用戶查詢屬於色情查詢和非色情查詢的概率, 基於該用戶查詢的命名實體和實體上下文主題特徵以及該用戶查詢屬於色情查詢和非色情查詢的概率,利用訓練好的分類模型判斷該用戶查詢是否為色請用戶查詢。
7.根據權利要求3至6之一所述的方法,所述步驟21)包括: 通過已收集的色情類型的命名實體集合將用戶查詢日誌中的每個查詢切分為命名實體和實體上下文兩部分; 將每一個命名實體在用戶查詢日誌中的實體上下文聚合為一篇關於該命名實體的文檔,並構造該文檔的詞頻特徵向量;基於從用戶查詢日誌中提取的命名實體和關於命名實體的文檔及其詞頻特徵向量來對主題模型進行訓練,以得到實體上下文的主題分布特徵和每個命名實體的主題分布特徵。
8.一種用於搜尋引擎的色情用戶查詢識別設備,該設備包括: 識別裝置,用於利用訓練好的用於識別色情用戶查詢的分類模型判斷待識別的用戶查詢是否為色請用戶查詢;其中,用於訓練所述分類模型的用戶查詢特徵包括用戶查詢的命名實體和實體上下文主題特徵。
9.根據權利要求8所述的設備,其中,用於訓練所述分類模型的用戶查詢特徵還包括用戶屬於色情查詢和非色情查詢的概率。
10.根據權利要求8或9所述的設備,還包括訓練裝置,用於基於已標註的用戶查詢集合,訓練所述分類模型。
11.根據權利要求10所述的設備,所述訓練裝置被配置為執行: 基於用戶查詢日誌來訓練主題模型;以及 利用訓練好的主題模型來提取已標註的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特徵,並以用戶查詢的命名實體和實體上下文主題特徵來訓練所述分類模型。
12.根據權利要求10所述的設備,所述訓練裝置被配置為執行: 基於用戶查詢日誌來訓練主題模型; 基於色情語料和非色情語料分別訓練基於統計的語言模型;以及利用訓練好的主題模型來提取已標註的用戶查詢集合中每個用戶查詢的命名實體和實體上下文主題特徵,利用訓練好的語言模型來判斷已標註的用戶查詢集合中每個用戶查詢屬於色情查詢和非色情查詢的概率,並以用戶查詢的命名實體和實體上下文主題特徵以及用戶查詢屬於色情查詢和非色情查詢的概率來訓練所述分類模型。
全文摘要
本發明提供一種用於搜尋引擎的色情用戶查詢識別方法,該方法包括基於已標註的用戶查詢集合,訓練用於識別色情用戶查詢的分類模型,以及利用該訓練好的分類模型判斷待識別的用戶查詢是否為色請用戶查詢。其中,用於訓練所述分類模型的用戶查詢特徵包括用戶查詢的命名實體和實體上下文主題特徵以及用戶屬於色情查詢和非色情查詢的概率。該方法不需要基於搜尋引擎的查詢結果來識別色情查詢,而是通過利用用戶查詢中包含的命名實體特徵和語言模型特徵實現了快速、有效的色情查詢識別。
文檔編號G06F17/30GK103177126SQ20131013493
公開日2013年6月26日 申請日期2013年4月18日 優先權日2013年4月18日
發明者程學旗, 熊錦華, 公帥, 張 成, 廖華明, 王元卓 申請人:中國科學院計算技術研究所