新四季網

查詢語句與網頁相似度的確定方法、裝置、終端及伺服器的製造方法

2023-10-08 23:00:14 3

查詢語句與網頁相似度的確定方法、裝置、終端及伺服器的製造方法
【專利摘要】本發明實施例公開了查詢語句與網頁相似度的確定方法、裝置、終端及伺服器。該方法包括:通過預先創建的短語翻譯模型,將目標查詢語句翻譯為具有相似語義的至少一條候選語句;根據所述至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似度;其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到的用於描述網頁主要內容的語句。本實施例提供的技術方案,可以提高搜尋引擎對任一查詢語句的網頁召回率,使得搜尋引擎能夠針對表現形式不同而語義相似的各條查詢句,返回相差較小的網頁集合,提升用戶對查詢結果的滿意度。
【專利說明】查詢語句與網頁相似度的確定方法、裝置、終端及伺服器

【技術領域】
[0001] 本發明實施例涉及數據處理【技術領域】,尤其涉及查詢語句與網頁相似度的確定方 法、裝置、終端及伺服器。

【背景技術】
[0002] 目前,搜尋引擎在為用戶提供搜索服務時,通常是先獲取用戶在搜索欄中所輸入 的指令,基於該指令生成查詢句,然後計算該查詢句與大量網頁之間的相關性,最後將相關 性較高的網頁所對應的連結作為本次查詢結果呈現給用戶,W供用戶點擊查看。
[0003] 由於基於相關性計算的網頁排名直接決定了搜尋引擎的優劣和用戶體驗質量,因 此如何能夠準確高效的計算出查詢語句和網頁之間的相關性是搜尋引擎的核也問題點。然 而,現有技術在得到用戶輸入的查詢句之後,並未對該查詢句進行其他處理,而是採取硬匹 配的方法,直接計算查詢語句和網頁的相關性,該樣一方面使得搜尋引擎對與查詢語句相 關的網頁的召回率較低;另一方面使得搜尋引擎分別在表現形式不同而語義相似的各條查 詢句下,所得到的網頁集合相差較大,用戶搜索體驗差。


【發明內容】

[0004] 本發明實施例提供查詢語句與網頁相似度的確定方法、裝置、終端及伺服器,W提 高搜尋引擎對任一查詢語句的網頁召回率,使得搜尋引擎能夠針對表現形式不同而語義相 似的各條查詢句,返回相差較小的網頁集合,提升用戶對查詢結果的滿意度。
[0005] 第一方面,本發明實施例提供了一種查詢語句與網頁相似度的確定方法,該方法 包括:
[0006] 通過預先創建的短語翻譯模型,將目標查詢語句翻譯為具有相似語義的至少一條 候選語句;
[0007] 根據所述至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句和網 頁主題句之間的相似度;
[0008] 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到 的用於描述網頁主要內容的語句。
[0009] 第二方面,本發明實施例還提供了一種查詢語句與網頁相似度的確定方法,該方 法包括:
[0010] 雲端伺服器獲取終端發送的目標查詢語句;
[0011] 所述雲端伺服器通過預先創建的短語翻譯模型,將所述目標查詢語句翻譯為具有 相似語義的至少一條候選語句,並下發給所述終端,W指示所述終端根據所述至少一條候 選語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似度;
[0012] 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到 的用於描述網頁主要內容的語句。
[0013] 第H方面,本發明實施例還提供了一種查詢語句與網頁相似度的確定方法,該方 法包括:
[0014] 終端向雲端伺服器發送目標查詢語句,W指示所述雲端伺服器通過預先創建的短 語翻譯模型,將所述目標查詢語句翻譯為具有相似語義的至少一條候選語句;
[0015] 所述終端接收所述雲端伺服器下發的至少一條候選語句,根據所述至少一條候選 語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似度;
[0016] 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到 的用於描述網頁主要內容的語句。
[0017] 第四方面,本發明實施例提供了一種查詢語句與網頁相似度的確定裝置,該裝置 包括:
[0018] 候選翻譯模塊,用於通過預先創建的短語翻譯模型,將目標查詢語句翻譯為具有 相似語義的至少一條候選語句;
[0019] 相似度確定模塊,用於根據所述至少一條候選語句與網頁主題句之間的相似度, 確定目標查詢語句和網頁主題句之間的相似度;
[0020] 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到 的用於描述網頁主要內容的語句。
[0021] 第五方面,本發明實施例提供了一種雲端伺服器,該伺服器包括:
[0022] 查詢語句獲取模塊,用於獲取終端發送的目標查詢語句;
[0023] 查詢語句翻譯模塊,用於通過預先創建的短語翻譯模型,將所述目標查詢語句翻 譯為具有相似語義的至少一條候選語句,並下發給所述終端,W指示所述終端根據所述至 少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似 度;
[0024] 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到 的用於描述網頁主要內容的語句。
[0025] 第六方面,本發明實施例提供了一種終端,該終端包括:
[0026] 查詢語句發送模塊,用於向雲端伺服器發送目標查詢語句,W指示所述雲端服務 器通過預先創建的短語翻譯模型,將所述目標查詢語句翻譯為具有相似語義的至少一條候 選語句;
[0027] 相似度確定模塊,用於接收所述雲端伺服器下發的至少一條候選語句,根據所述 至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相 似度;
[0028] 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到 的用於描述網頁主要內容的語句。
[0029] 在本發明實施例中,在獲取到用戶輸入的查詢語句後,並未採取硬匹配的方法來 直接計算查詢語句和網頁的相關性,而是:先通過預先創建的短語翻譯模型,對查詢語句進 行語義相似的轉錄,W得到多條與該查詢語句具有相似語義的候選語句;然後,基於轉錄 結果與網頁主題句之間的相關性,來計算查詢語句與網頁主題句之間的相關性。本發明實 施例提供的技術方案,一方面能夠提高搜尋引擎在任一查詢語句下的網頁召回率,另一方 面使得搜尋引擎能夠針對表現形式不同而語義相似的各條查詢句,返回相差較小的網頁集 合,提升用戶的搜索體驗。

【專利附圖】

【附圖說明】
[0030] 圖1是本發明實施例一提供的一種查詢語句與網頁相似度的確定方法的流程示 意圖;
[0031] 圖2是本發明實施例二提供的一種查詢語句與網頁相似度的確定方法的流程示 意圖;
[0032] 圖3是本發明實施例H提供的一種查詢語句與網頁相似度的確定方法的流程示 意圖;
[0033] 圖4是本發明實施例四提供的一種查詢語句與網頁相似度的確定方法的流程示 意圖;
[0034] 圖5A是本發明實施例五提供的一種查詢語句與網頁相似度的確定方法的流程示 意圖;
[00巧]圖5B是本發明實施例五提供的一種候選短語之間在組合為候選語句時的連接關 系W意圖;
[0036] 圖6是本發明實施例六提供的另一種查詢語句與網頁相似度的確定方法的流程 示意圖;
[0037] 圖7是本發明實施例走提供的再一種查詢語句與網頁相似度的確定方法的流程 示意圖;
[0038] 圖8是本發明實施例八提供的一種優選的查詢語句與網頁相似度的確定方法的 流程意圖;
[0039] 圖9是本發明實施例九提供的一種查詢語句與網頁相似度的確定裝置的結構示 意圖;
[0040] 圖10是本發明實施例十提供的一種雲端伺服器的結構示意圖;
[0041] 圖11是本發明實施例十一提供的一種終端的結構示意圖;
[0042] 圖12是本發明實施例十二提供的一種查詢語句與網頁相似度的確定方法在信息 檢索系統上的應用流程示意圖。

【具體實施方式】
[0043] 下面結合附圖和實施例對本發明作進一步的詳細說明。可W理解的是,此處所描 述的具體實施例僅僅用於解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便 於描述,附圖中僅示出了與本發明相關的部分而非全部結構。
[0044] 查詢語句和網頁的相關性計算是搜尋引擎的核也問題點。正是網頁的基於相關性 計算的排名決定了搜尋引擎的優劣和用戶體驗質量。查詢語句表現形式多種多樣,同樣的 語義可W用不同的句子表達,而相同的詞語也具有多義性。例如,查詢"日本收購的中國企 業"的時候,可W採用如下多種查詢語句;"被日本收購的中國企業"、"日本收購了哪些中國 企業"、"中國企業日本收購"、"哪些中國企業被日本控股"等等。而一個查詢語句,例如"蘋 果多少錢",其語義可W指的是:蘋果公司的市值、蘋果公司新推出產品的價格、用戶所在地 的水果的價格等。
[0045] 因此,在計算查詢語句和網頁的相關性的時候不得不盡力解決該些問題。本發明 實施例從計算查詢語句和網頁主題句的相關性該一視角出發,部分地刻畫查詢語句和候選 網頁的相關性。特別地,本發明實施例提出一種基於短語統計翻譯模型,來計算查詢語句與 網頁主題句之間相似度的解決方案。
[004引 實施例一
[0047] 圖1是本發明實施例一提供的一種查詢語句與網頁相似度的確定方法的流程示 意圖,本實施例可適用於在獲取到用戶輸入的查詢語句後,計算該查詢語句與網頁之間的 相似度的情況,W使得搜尋引擎能夠基於該相似度來確定網頁是否可W作為查詢結果中的 候選網頁,或者基於相似度對查詢語句下的各個候選網頁進行排名。
[0048] 該方法可W由查詢語句與網頁相似度的確定裝置來執行,所述裝置可W是為用戶 提供網頁搜索服務的搜尋引擎本身,也可W是為搜尋引擎提供查詢語句與網頁相似度計算 的第H方伺服器。參見圖1,本實施例提供的方法具體包括如下操作:
[0049] 操作110、通過預先創建的短語翻譯模型,將目標查詢語句翻譯為具有相似語義的 至少一條候選語句。
[0050] 在本實施例中,預先創建有短語翻譯模型,該模型能夠將輸入的查詢語句,翻譯為 與輸入的查詢語句具有相似語義的至少一條候選語句。具體的創建過程可W是通過對訓練 樣本集進行學習得到的。其中,訓練樣本集中包括:基於已知的大量的查詢語句樣本及相應 的具有相似語義的多條候選語句樣本。訓練樣本集可W是人工預先設定的,也可W是根據 歷史統計的用戶在搜尋引擎中所輸入的多個查詢語句,W及用戶在搜尋引擎返回的各個查 詢語句下的查詢結果中分別點擊的網頁信息,所實時生成的。本實施例對短語翻譯模型的 創建過程不作限定。
[0051] 在獲取到用戶在搜尋引擎中所輸入的查詢句之後,可將該查詢句作為本次要翻譯 的目標查詢句,輸入至預先創建的短語翻譯模型中,所得到的輸出便是具有相似語義的至 少一條候選語句。
[0052] 操作120、根據至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句 和網頁主題句之間的相似度。
[0053] 在本實施例中,網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析 得到的用於描述網頁主要內容的語句。
[0054] 在將目標查詢語句翻譯為具有相似語義的至少一條候選語句之後,可W獲取翻譯 得到的多條候選語句與網頁主題句之間的相似度,對所獲取的各個相似度作加權處理,將 處理結果直接作為目標查詢語句和網頁主題句之間的相似度。其中,各個相似度的權重系 數可W是預先設定的固定值,例如設定各個權重係數均為相等的值,或者依據各條候選語 句與目標查詢語句在語義上的相似程度,來設定各權重係數為不相等的值,相似程度越高 的,權重係數越大。具體的,可W實時的將短語翻譯模型得到的候選語句在目標查詢語句下 的翻譯概率,作為該條候選語句的權重係數。
[0055] 針對翻譯得到的各條候選語句,可W基於任何用於計算兩條語句之間相似度的算 法,來計算其與網頁主題句之間的相似度。例如,可W是單獨基於n元語言模型字符串匹配 算法,來計算當前所針對的候選語句與網頁主題句之間的相似度,n可W取1、2、3或者4等; 或者,同時基於1、2、3和4等n元語言模型符串匹配算法得到各個相似度,然後將該些相似 度加權得到當前所針對的候選語句與網頁主題句之間的相似度。
[0056] 在得到查詢語句與網頁主題句之間的相似度之後,可W將該相似度作為用於計算 查詢語句與網頁相似度的一個重要特徵,進行後續相應處理。查詢語句與網頁主題句之間 的相似度越高,查詢語句與網頁相似度也越高,搜尋引擎可將相似度高於設定闊值的網頁 的相關內容作為查詢結果返回給用戶。
[0057] 在本實施例中,在獲取到用戶輸入的查詢語句後,並未採取硬匹配的方法來直接 計算查詢語句和網頁的相關性,而是:先通過預先創建的短語翻譯模型,對查詢語句進行語 義相似的轉錄,W得到多條與該查詢語句具有相似語義的候選語句;然後,基於轉錄結果與 網頁主題句之間的相關性,來計算查詢語句與網頁主題句之間的相關性。本實施例提供的 技術方案,一方面能夠提高搜尋引擎在任一查詢語句下的網頁召回率;另一方面使得搜索 引擎能夠針對表現形式不同而語義相似的各條查詢句,返回相差較小的網頁集合,提升用 戶的搜索體驗。
[0058] 實施例二
[0059] 圖2是本發明實施例二提供的一種查詢語句與網頁相似度的確定方法的流程示 意圖,本實施例在上述實施例一的基礎上,進一步增加了 "創建短語翻譯模型"的操作。參 見圖2,本實施例提供的方法具體包括如下操作:
[0060] 操作210、確定翻譯雙語對語料;其中,翻譯雙語對語料中翻譯雙語對的源語言句 子為查詢語句,目標語言句子為網頁主題句。
[0061] 操作220、對翻譯雙語對語料進行訓練,W創建短語翻譯模型;所述短語翻譯模型 的輸入為查詢語句,輸出包括與輸入具有相似語義的至少一條候選語句。
[0062] 操作230、通過預先創建的短語翻譯模型,將目標查詢語句翻譯為具有相似語義的 至少一條候選語句。
[0063] 操作240、根據至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句 和網頁主題句之間的相似度。
[0064] 在本實施例中,在創建短語翻譯模型時,所需的訓練樣本集包括翻譯雙語對語料, 翻譯雙語對語料進一步由大量的翻譯雙語對組成。每個翻譯雙語對包括源語言句子和目標 語言句子,其中源語言句子為查詢語句,目標語言句子為網頁主題句。
[0065] 為得到大量的翻譯雙語對,在確定翻譯雙語對語料之前,可預先生成查詢日誌,用 於統計用戶在搜尋引擎中所輸入的各條查詢語句,W及用戶在搜尋引擎根據各條查詢語句 相應返回的多個查詢結果中所點擊的網頁信息。進而,可基於查詢日誌所統計的數據,來確 定相應的翻譯雙語對。
[0066] 具體的,每個翻譯雙語對的源語言句子為查詢日誌中統計的查詢語句,目標語言 句子可W是根據查詢日誌中統計的用戶在源語言句子下的查詢結果中所點擊的網頁信息, 得到的與該源語言句子對應的網頁主題句。當然,還可將查詢日誌中,任意具有相似語義的 兩條查詢語句,分別作為源語言句子和目標語言句子,來組成一個翻譯雙語對。在此情況 下,目標語言句子也為查詢語句,可被視為特殊的網頁主題句。另外,其他已有的用於創建 短語翻譯模型的訓練樣本,W及所有可利用的語義相同而文字表現形式不同的句子對,均 可被包括在訓練樣本集中,W結合翻譯雙語對語料,來創建短語翻譯模型。
[0067] 在本實施例的一種優選的【具體實施方式】中,確定翻譯雙語對語料,包括:
[0068] 基於用戶點擊數據,確定翻譯雙語對語料;
[0069] 其中,用戶點擊數據包括;查詢日誌中所統計的用戶輸入的查詢語句,與用戶在返 回的多個查詢結果中所點擊的網頁連結之間的映射關係;
[0070] 翻譯雙語對語料包括:由查詢日誌中所包含的查詢語句,和與該查詢語句對應的 網頁連結中點擊率超過設定點擊闊值的網頁連結的網頁主題句,分別作為源語言句子和目 標語言句子組成的第一翻譯雙語對;和/或,由查詢日誌中所包含的滿足預設條件的兩條 目標查詢語句分別作為源語言句子和目標語言句子組成的第二翻譯雙語對;所述預設條 件,包括;(1)所述兩條目標查詢語句所分別對應的網頁主題句集合之間的相似度大於設 定的第一闊值;(2)所述兩條目標查詢語句之間的相似度小於設定的第二闊值。
[0071] 在上述優選方式中,第二翻譯雙語對是通過查找用戶點擊數據中其對應的網頁主 題句所構成的集合非常接近(即滿足預設條件中的(1))但表現形式不同(即預設條件中 的(2))的任意兩條查詢語句得到的。所謂與目標查詢語句對應的網頁主題句集合,指的是 在所生成的所有第一翻譯雙語對中,與目標查詢語句對應的所有網頁主題句構成的集合。
[0072] 在本實施例中,任意兩個集合之間的相似度可W為;Ia n B|/|A U Bi,其中Ia U Bl表示為集合A和集合B的交集中元素的個數,Ia n Bl表示為集合A和集合B的併集中 元素的個數。例如,對於用戶點擊數據中的兩條查詢語句,與其中第一條查詢語句對應的網 頁主題句集合為A= Iul, u2,u3,u4, U引;而與其中第二條查詢語句對應的網頁主題句集合 為6={112,111,113,115,116},其相似度為4/6。該裡可^設定第一闊值,例如0.6。如果相似 度大於0. 6,則認為該兩個集合"非常接近"。
[0073] 在本實施例中,任意兩條目標查詢語句之間的相似度,可W通過直接比較該兩條 目標查詢語句之間的字符串差異值來得到。例如,一條目標查詢語句是a b C d,另外一條 目標查詢語句是X y a Z,該樣他們一共只有一個詞a是一樣的,因此可W將"兩條目標查 詢語句中相同詞的個數與所有詞的個數的比值"作為兩條目標查詢語句的相似度,即1/7。 假設,設定相似度判別闊值(即第二闊值)為0. 5,則判斷相似度小於為0. 5的兩條目標查 詢語句為"表現形式不同"的兩條目標查詢語句。
[0074] 在本實施例中,設置翻譯雙語對語料中翻譯雙語對的源語言句子為查詢語句,目 標語言句子為網頁主題句,基於用戶點擊數據來有效地組織海量的 < 查詢語句,網頁主題 句〉作為訓練數據,進而通過對訓練數據的學習來創建面向大規模數據的短語翻譯模型, 該樣使得短語翻譯模型可W基於大規模數據來進行短語之間的基於語義相似的轉錄,從而 更好地捕捉表現形式多樣而語義相同的查詢語句,使得搜尋引擎對它們的查詢結果具有相 似的網頁統一資源定位標識符返回集合,提高用戶體驗。
[007引 實施例H
[0076] 圖3是本發明實施例H提供的一種查詢語句與網頁相似度的確定方法的流程示 意圖,本實施例在上述各實施例的基礎上,將"確定目標查詢語句和網頁主題句之間的相似 度"的操作進一步優化為"根據候選語句的翻譯概率,W及候選語句與網頁主題句之間的相 似度,來確定目標查詢語句和網頁主題句之間的相似度"。參見圖3,本實施例提供的方法具 體包括如下操作:
[0077] 操作310、通過預先創建的短語翻譯模型,將目標查詢語句翻譯為具有相似語義的 至少一條候選語句。
[0078] 操作320、基於如下公式,確定目標查詢語句與網頁主題句之間的相似度:
[0079]

【權利要求】
1. 一種查詢語句與網頁相似度的確定方法,其特徵在於,包括: 通過預先創建的短語翻譯模型,將目標查詢語句翻譯為具有相似語義的至少一條候選 語句; 根據所述至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主 題句之間的相似度; 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到的用 於描述網頁主要內容的語句。
2. 根據權利要求1所述的查詢語句與網頁相似度的確定方法,其特徵在於,在通過預 先創建的短語翻譯模型,將目標查詢語句翻譯為具有相似語義的至少一條候選語句之前, 還包括: 確定翻譯雙語對語料;其中,所述翻譯雙語對語料中翻譯雙語對的源語言句子為查詢 語句,目標語言句子為網頁主題句; 對所述翻譯雙語對語料進行訓練,以創建短語翻譯模型;所述短語翻譯模型的輸入為 查詢語句,輸出包括與輸入具有相似語義的至少一條候選語句。
3. 根據權利要求2所述的查詢語句與網頁相似度的確定方法,其特徵在於,確定翻譯 雙語對語料,包括: 基於用戶點擊數據,確定翻譯雙語對語料; 其中,所述用戶點擊數據包括:查詢日誌中所統計的用戶輸入的查詢語句,與用戶在返 回的多個查詢結果中所點擊的網頁連結之間的映射關係; 所述翻譯雙語對語料包括:由查詢日誌中所包含的查詢語句,和與該查詢語句對應的 網頁連結中點擊率超過設定點擊閾值的網頁連結的網頁主題句,分別作為源語言句子和目 標語言句子組成的第一翻譯雙語對;和/或,由查詢日誌中所包含的滿足預設條件的兩條 目標查詢語句分別作為源語言句子和目標語言句子組成的第二翻譯雙語對;所述預設條 件,包括:所述兩條目標查詢語句所分別對應的網頁主題句集合之間的相似度大於設定的 第一閾值,所述兩條目標查詢語句之間的相似度小於設定的第二閾值。
4. 根據權利要求1-3中任一項所述的查詢語句與網頁相似度的確定方法,其特徵在 於,根據所述至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句與網頁主 題句的相似度,包括: 基於如下公式,確定目標查詢語句與網頁主題句之間的相似度:
其中,sim(q,t)為目標查詢語句q與網頁主題句t之間的相似度; N為所述至少一條候選語句的總條數; score (tranSi (q))為通過所述短語翻譯模型將目標查詢語句翻譯為所述至少一條候 選語句中的第i條候選語句transjq)的翻譯概率; BLElKtransi (q),t)為 tranSi (q)與 t 之間的相似度。
5. 根據權利要求4所述的查詢語句與網頁相似度的確定方法,其特徵在於,在根據所 述至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的 相似度之前,還包括: 基於語言模型字符串匹配算法,計算所述至少一條候選語句與網頁主題句的相似度。
6. 根據權利要求5所述的查詢語句與網頁相似度的確定方法,其特徵在於,基於語言 模型字符串匹配算法,計算所述至少一條候選語句與網頁主題句的相似度,包括: 按照如下公式,計算所述至少一條候選語句與網頁主題句的相似度:
其中,BPUransJq),!:)為transjq)與t對應的懲罰權重,如果transjq)的分詞個數 小於等於t的分詞個數,則BPUransi (q), t)的取值為exp(l-x/y),x為t的分詞個數,y為 tranSi (q)的分詞個數,如果tranSi (q)的分詞個數大於t的分詞個數,則BP Uransi (q),t) 的取值為1 ; Pn為採用n元語言模型所計算的tranSi (q)和t中匹配成功的次數。
7. 根據權利要求4所述的查詢語句與網頁相似度的確定方法,其特徵在於,通過預先 創建的短語翻譯模型,將目標查詢語句翻譯為具有相似語義的至少一條候選語句,包括: 對目標查詢語句進行短語的劃分,得到至少一個查詢短語; 遍歷各個查詢短語,將當前遍歷到的查詢短語翻譯為具有相似語義的至少一個候選短 語; 將各個查詢短語對應的至少一個候選短語進行組合,得到至少一條候選語句; 在根據所述至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句與網頁 主題句的相似度之前,還包括: 按照如下公式,計算通過所述短語翻譯模型將目標查詢語句翻譯為所述至少一條候選 語句中的第i條候選語句transjq)的翻譯概率:
其中,K為目標查詢語句所包含的查詢短語的個數; Pr (ek |fk)為通過所述短語翻譯模型將fk翻譯為ek的翻譯概率,f k為目標查詢語句f 的第k個查詢短語,ek為候選語句e中的第k個候選短語。
8. 根據權利要求7所述的查詢語句與網頁相似度的確定方法,其特徵在於,在根據所 述至少一條候選語句與網頁主題句之間的相似度,確定目標查詢語句與網頁主題句的相似 度之前,還包括: 按照如下公式,計算Pr(ek|fk):
其中,M為加在ek和fk上的所有特徵函數的總個數; hm(ek,fk)為用於表徵將fk翻譯為ek的翻譯概率的第m個特徵函數; hm(e' k,fk)為用於表徵將fk翻譯為e' k的翻譯概率的第m個特徵函數,e' k為根據所 述短語翻譯模型對fk進行翻譯得到的各個候選短語; 入m為第m個特徵函數的權重。
9. 根據權利要求8所述的查詢語句與網頁相似度的確定方法,其特徵在於,第m個特徵 函數為與雙向翻譯概率對應的函數、與語言模型對應的函數、或者根據短語分詞個數得到 的函數。
10. 根據權利要求7所述的查詢語句與網頁相似度的確定方法,其特徵在於,將各個查 詢短語對應的至少一個候選短語進行組合,得到至少一條候選語句,包括: 按照如下數據結構方式,存儲各個查詢短語對應的至少一個候選短語: 分別為各個候選短語創建一個節點,節點包括候選短語和至少一個後繼指針,所述至 少一個後繼指針用於指向目標查詢語句中與該候選短語對應的查詢短語的下一個查詢短 語所對應的至少一個候選短語節點;並記錄目標查詢語句中第一個查詢短語對應的各個候 選短語所在節點的存儲位置; 根據記錄的內容,對所存儲的候選短語進行讀取,以確定至少一條候選語句。
11. 根據權利要求10所述的查詢語句與網頁相似度的確定方法,其特徵在於,節點還 包括將查詢短語翻譯為候選短語的翻譯概率; 根據記錄的內容,對所存儲的候選短語進行讀取,以確定至少一條候選語句,包括: 根據記錄的內容,讀取存儲的各個節點所包括的候選短語; 根據讀取結果,生成由各個查詢短語對應的至少一個候選短語組合得到的至少一條候 選語句,及各條候選語句的翻譯概率; 從所述至少一條候選語句中挑選出翻譯概率排名位於前T的候選語句,用於作為與網 頁主題句進行相似度計算的候選語句,其中T為大於等於1的整數。
12. -種查詢語句與網頁相似度的確定方法,其特徵在於,包括: 雲端伺服器獲取終端發送的目標查詢語句; 所述雲端伺服器通過預先創建的短語翻譯模型,將所述目標查詢語句翻譯為具有相似 語義的至少一條候選語句,並下發給所述終端,以指示所述終端根據所述至少一條候選語 句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似度; 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到的用 於描述網頁主要內容的語句。
13. -種查詢語句與網頁相似度的確定方法,其特徵在於,包括: 終端向雲端伺服器發送目標查詢語句,以指示所述雲端伺服器通過預先創建的短語翻 譯模型,將所述目標查詢語句翻譯為具有相似語義的至少一條候選語句; 所述終端接收所述雲端伺服器下發的至少一條候選語句,根據所述至少一條候選語句 與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似度; 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到的用 於描述網頁主要內容的語句。
14. 一種查詢語句與網頁相似度的確定裝置,其特徵在於,包括: 候選翻譯模塊,用於通過預先創建的短語翻譯模型,將目標查詢語句翻譯為具有相似 語義的至少一條候選語句; 相似度確定模塊,用於根據所述至少一條候選語句與網頁主題句之間的相似度,確定 目標查詢語句和網頁主題句之間的相似度; 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到的用 於描述網頁主要內容的語句。
15. 根據權利要求14所述的查詢語句與網頁相似度的確定裝置,其特徵在於,還包括: 翻譯語料確定模塊,用於在所述候選翻譯模塊根據預先創建的短語翻譯模型,將目標 查詢語句翻譯為具有相似語義的至少一條候選語句之前,確定翻譯雙語對語料;其中,所述 翻譯雙語對語料中翻譯雙語對的源語言句子為查詢語句,目標語言句子為網頁主題句; 翻譯模型創建模塊,用於對所述翻譯雙語對語料進行訓練,以創建短語翻譯模型;所述 短語翻譯模型的輸入為查詢語句,輸出包括與輸入具有相似語義的至少一條候選語句。
16. 根據權利要求15所述的查詢語句與網頁相似度的確定裝置,其特徵在於,所述翻 譯語料確定模塊,具體用於: 基於用戶點擊數據,確定翻譯雙語對語料; 其中,所述用戶點擊數據包括:查詢日誌中所統計的用戶輸入的查詢語句,與用戶在返 回的多個查詢結果中所點擊的網頁連結之間的映射關係; 所述翻譯雙語對語料包括:由查詢日誌中所包含的查詢語句,和與該查詢語句對應的 網頁連結中點擊率超過設定點擊閾值的網頁連結的網頁主題句,分別作為源語言句子和目 標語言句子組成的第一翻譯雙語對;和/或,由查詢日誌中所包含的滿足預設條件的兩條 目標查詢語句分別作為源語言句子和目標語言句子組成的第二翻譯雙語對;所述預設條 件,包括:所述兩條目標查詢語句所分別對應的網頁主題句集合之間的相似度大於設定的 第一閾值,所述兩條目標查詢語句之間的相似度小於設定的第二閾值。
17. 根據權利要求14-16中任一項所述的查詢語句與網頁相似度的確定裝置,其特徵 在於,所述相似度確定模塊,具體用於: 基於如下公式,確定目標查詢語句與網頁主題句之間的相似度:
其中,sim(q,t)為目標查詢語句q與網頁主題句t之間的相似度; N為所述至少一條候選語句的總條數; score (tranSi (q))為通過所述短語翻譯模型將目標查詢語句翻譯為所述至少一條候 選語句中的第i條候選語句transjq)的翻譯概率; BLElKtransi (q),t)為 tranSi (q)與 t 之間的相似度。
18. 根據權利要求17所述的查詢語句與網頁相似度的確定裝置,其特徵在於,還包括: 候選相似度計算模塊,用於在所述相似度確定模塊根據所述至少一條候選語句與網頁 主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似度之前,基於語言模型 字符串匹配算法,計算所述至少一條候選語句與網頁主題句的相似度。
19. 根據權利要求18所述的查詢語句與網頁相似度的確定裝置,其特徵在於,所述候 選相似度計算模塊,具體用於: 按照如下公式,計算所述至少一條候選語句與網頁主題句的相似度:
其中,BPUransJq),!:)為transjq)與t對應的懲罰權重,如果transjq)的分詞個數 小於等於t的分詞個數,則BPUransi (q), t)的取值為exp(l-x/y),x為t的分詞個數,y為 tranSi (q)的分詞個數,如果tranSi (q)的分詞個數大於t的分詞個數,則BP Uransi (q),t) 的取值為1 ; Pn為採用n元語言模型所計算的tranSi (q)和t中匹配成功的次數。
20. 根據權利要求17所述的查詢語句與網頁相似度的確定裝置,其特徵在於,所述候 選翻譯模塊,包括: 短語劃分單元,用於對目標查詢語句進行短語的劃分,得到至少一個查詢短語; 短語翻譯單元,用於遍歷各個查詢短語,將當前遍歷到的查詢短語翻譯為具有相似語 義的至少一個候選短語; 候選語句確定單元,用於將各個查詢短語對應的至少一個候選短語進行組合,得到至 少一條候選語句; 所述裝置還包括: 語句翻譯概率計算模塊,用於在所述相似度確定模塊根據所述至少一條候選語句與網 頁主題句之間的相似度,確定目標查詢語句與網頁主題句的相似度之前,按照如下公式,計 算通過所述短語翻譯模型將目標查詢語句翻譯為所述至少一條候選語句中的第i條候選 語句tranSi (q)的翻譯概率:
其中,K為目標查詢語句所包含的查詢短語的個數; Pr (ek |fk)為通過所述短語翻譯模型將fk翻譯為ek的翻譯概率,f k為目標查詢語句f 的第k個查詢短語,ek為候選語句e中的第k個候選短語。
21. 根據權利要求20所述的查詢語句與網頁相似度的確定裝置,其特徵在於,還包括: 短語翻譯概率計算模塊,用於在所述相似度確定模塊根據所述至少一條候選語句與網 頁主題句之間的相似度,確定目標查詢語句與網頁主題句的相似度之前,按照如下公式,計 算 Pr(ek|fk):
其中,M為加在ek和fk上的所有特徵函數的總個數; hm(ek,fk)為用於表徵將fk翻譯為ek的翻譯概率的第m個特徵函數; hm (e' k,fk)為用於表徵將fk翻譯為e' k的翻譯概率的第m個特徵函數,e' k為根據所述 短語翻譯模型對fk進行翻譯得到的各個候選短語; 入m為第m個特徵函數的權重。
22. 根據權利要求21所述的查詢語句與網頁相似度的確定裝置,其特徵在於,第m個特 徵函數為與雙向翻譯概率對應的函數、與語言模型對應的函數、或者根據短語分詞個數得 到的函數。
23. 根據權利要求20所述的查詢語句與網頁相似度的確定裝置,其特徵在於,所述候 選語句確定單元,包括: 短語存儲子單元,用於按照如下數據結構方式,存儲各個查詢短語對應的至少一個候 選短語:分別為各個候選短語創建一個節點,節點包括候選短語和至少一個後繼指針,所述 至少一個後繼指針用於指向目標查詢語句中與該候選短語對應的查詢短語的下一個查詢 短語所對應的至少一個候選短語節點;並記錄目標查詢語句中第一個查詢短語對應的各個 候選短語所在節點的存儲位置; 短語讀取子單元,用於根據所述短語存儲子單元記錄的內容,對所存儲的候選短語進 行讀取,以確定至少一條候選語句。
24. 根據權利要求23所述的查詢語句與網頁相似度的確定裝置,其特徵在於,節點還 包括將查詢短語翻譯為候選短語的翻譯概率; 所述短語讀取子單元,具體用於: 根據記錄的內容,讀取所述短語存儲子單元存儲的各個節點所包括的候選短語; 根據讀取結果,生成由各個查詢短語對應的至少一個候選短語組合得到的至少一條候 選語句,及各條候選語句的翻譯概率; 從所述至少一條候選語句中挑選出翻譯概率排名位於前T的候選語句,用於作為與網 頁主題句進行相似度計算的候選語句,其中T為大於等於1的整數。
25. -種雲端伺服器,其特徵在於,包括: 查詢語句獲取模塊,用於獲取終端發送的目標查詢語句; 查詢語句翻譯模塊,用於通過預先創建的短語翻譯模型,將所述目標查詢語句翻譯為 具有相似語義的至少一條候選語句,並下發給所述終端,以指示所述終端根據所述至少一 條候選語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似度; 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到的用 於描述網頁主要內容的語句。
26. -種終端,其特徵在於,包括: 查詢語句發送模塊,用於向雲端伺服器發送目標查詢語句,以指示所述雲端伺服器通 過預先創建的短語翻譯模型,將所述目標查詢語句翻譯為具有相似語義的至少一條候選語 句; 相似度確定模塊,用於接收所述雲端伺服器下發的至少一條候選語句,根據所述至少 一條候選語句與網頁主題句之間的相似度,確定目標查詢語句和網頁主題句之間的相似 度; 其中,所述網頁主題句為網頁標題,或者基於設定算法對網頁內容進行解析得到的用 於描述網頁主要內容的語句。
【文檔編號】G06F17/30GK104331449SQ201410592231
【公開日】2015年2月4日 申請日期:2014年10月29日 優先權日:2014年10月29日
【發明者】呉先超 申請人:百度在線網絡技術(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀