新四季網

確定用戶查詢語句句法結構的方法及裝置製造方法

2023-06-01 06:17:16 1

確定用戶查詢語句句法結構的方法及裝置製造方法
【專利摘要】本發明實施例公開了一種確定用戶查詢語句句法結構的方法及裝置。其中,所述方法包括:識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係;根據所述對齊關係和網頁主題句的句法結構,構建用戶查詢語句的句法結構。本發明實施例提供的技術方案,能夠採用一種便於後續處理的方式來捕捉用戶查詢語句的句法結構,特別是便於後續衡量用戶查詢語句和待匹配網頁主題句之間的相關性處理。
【專利說明】確定用戶查詢語句句法結構的方法及裝置

【技術領域】
[0001]本發明實施例涉及計算機【技術領域】,尤其涉及一種確定用戶查詢語句句法結構的方法及裝置。

【背景技術】
[0002]用戶查詢語句(用戶向搜尋引擎輸入的字符串)和網頁主題句(網頁標題,或者對網頁進行解析得到的用於描述網頁主要內容的語句)的相關性計算是搜索產品的核心問題點。正是網頁的基於相關性計算的排名決定了搜尋引擎的優劣和用戶的搜索體驗質量。其中,對於在搜尋引擎輸入的用戶查詢語句而言,其表現形式具有多樣性,不僅同樣的語義可以用不同的用戶查詢語句表達,而且同樣的分詞在不同的用戶查詢語句中也具有多義性。
[0003]例如,查詢「日本收購的中國企業」的時候,可以採用如下多種用戶查詢語句:「被日本收購的中國企業」、「日本收購了哪些中國企業」、「中國企業日本收購」、「哪些中國企業被日本控股」等。而同一個查詢關鍵詞,例如「蘋果多少錢」,可以指的是:蘋果公司的市值,蘋果公司新推出產品的價格,也可以指用戶所在地的蘋果這一水果的價格等。
[0004]因此,在計算用戶查詢語句和網頁主題句的相關性的時候,不得不盡力解決這些問題。然而,傳統的基於詞袋(bag-of-words)的方法,只是簡單地考慮單個詞或者多個詞的直接匹配,並沒有考慮這些詞組合起來後得到的真正語義是怎樣的。例如一個用戶查詢語句「日本收購的中國企業」和一個網頁主題句「中國收購日本企業」,雖然採用單個詞直接匹配的方法,相似度非常高(除了助詞「的」,其他的詞都被匹配上了),然而這二者的含義卻大為不同。即單單考慮詞級別的匹配,無法區分開上述兩句話的語義不匹配的問題。圖1A是現有技術提供的一種搜尋引擎在用戶查詢語句為「日本收購的中國企業」下的排名前六的搜索結果。參見圖1A,只有排名第四的網頁與用戶查詢語句所表達的含義是較為吻合的,而排名第一的網頁、排名第二的網頁、排名第三的網頁、排名第五的網頁、以及排名第六的網頁,所表達的含義都趨向於「中國收購日本企業」,與用戶查詢語句「日本收購的中國企業」所表達的含義完全相反,嚴重影響用戶體驗。
[0005]為此,可嘗試從句法結構的層面,來計算用戶查詢語句和網頁主題句的相關性。也即,分別構建用戶查詢語句和網頁主題句的句法結構,然後根據二者的句法結構之間的相似度,來衡量其相關性。但是,由於在搜尋引擎中輸入的用戶查詢語句往往是多種多樣的,在語序上也是自由的,用戶查詢語句較為隨意,所以要想捕捉到用戶查詢語句的句法結構,存在較大難度。即使能夠捕捉成功,基於該捕捉結果與網頁主題句的句法結構進行匹配,其匹配結果的準確率也十分低下。


【發明內容】

[0006]本發明實施例提供一種確定用戶查詢語句句法結構的方法及裝置,以能夠採用一種便於後續處理的方式來捕捉用戶查詢語句的句法結構,特別是便於後續衡量用戶查詢語句和待匹配網頁主題句之間的相關性處理。
[0007]第一方面,本發明實施例提供了一種確定用戶查詢語句句法結構的方法,該方法包括:
[0008]識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係;
[0009]根據所述對齊關係和所述網頁主題句的句法結構,構建所述用戶查詢語句的句法結構。
[0010]第二方面,本發明實施例還提供了一種確定用戶查詢語句句法結構的裝置,該裝置包括:
[0011]對齊關係識別單元,用於識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係;
[0012]句法結構構建單元,用於根據所述對齊關係和所述網頁主題句的句法結構,構建所述用戶查詢語句的句法結構。
[0013]本發明實施例通過用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係,以及所述網頁主題句的句法結構,來捕捉用戶查詢語句的句法結構,十分便於後續處理。特別是,在預設的網頁主題句為與用戶查詢語句具有很高置信度關係的網頁主題句的情況下,能夠更好的以一種符合人類自然語言的方式來描述用戶查詢語句所表達的含義;在預設的網頁主題句為與用戶查詢語句待匹配的網頁主題句的情況下,可以提高後續搜尋引擎對用戶查詢語句與網頁主題句之間相似度的計算精度,有效保證搜索結果返回的準確率,提升用戶的搜索體驗。

【專利附圖】

【附圖說明】
[0014]圖1A是現有技術提供的一種搜尋引擎在用戶查詢語句為「日本收購的中國企業」下的排名前六的搜索結果示意圖;
[0015]圖1B是本發明實施例一提供的一種確定用戶查詢語句句法結構的方法的流程示意圖;
[0016]圖2是本發明實施例二提供的一種確定用戶查詢語句句法結構的方法的流程示意圖;
[0017]圖3是本發明實施例三提供的一種確定用戶查詢語句句法結構的方法的流程示意圖;
[0018]圖4A是本發明實施例四提供的一種基於句法結構模型計算用戶查詢句和候選網頁標題相似度的方法的流程示意圖;
[0019]圖4B是本發明實施例四提供的在建立某候選網頁標題的各個依存弧的過程中所涉及的第一個動作狀態選擇示意圖;
[0020]圖4C是本發明實施例四提供的在建立上述候選網頁標題的各個依存弧的過程中所涉及的第二個動作狀態選擇示意圖;
[0021]圖4D是本發明實施例四提供的在建立上述候選網頁標題的各個依存弧的過程中所涉及的第三個動作狀態選擇示意圖;
[0022]圖4E是本發明實施例四提供的最終建立的上述候選網頁標題的包含有多條依存弧的語法依存樹的結構示意圖;
[0023]圖4F是本發明實施例四提供的候選網頁標題為「我吃紅蘋果」的語法依存樹的結構示意圖;
[0024]圖4G是本發明實施例四提供的一種用戶查詢語句為「理想的薪水」的語法依存樹構建示意圖;
[0025]圖5A是本發明實施例五提供的另一種基於句法結構模型計算用戶查詢句和候選網頁標題相似度的方法的流程示意圖;
[0026]圖5B是本發明實施例五提供的一個候選網頁標題的語義角色標註樹的結構示意圖;
[0027]圖5C是本發明實施例五提供的一個候選網頁標題的語法依存樹和語義角色標註樹的生成示意圖;
[0028]圖是本發明實施例五提供的一種用戶查詢語句為「小官打貪的調查」的語法依存樹構建示意圖;
[0029]圖6是本發明實施例六提供的確定用戶查詢語句句法結構的裝置的結構示意圖;
[0030]圖7是本發明實施例七提供的一種基於句法結構模型計算用戶查詢句和網頁標題的相似度方法在搜尋引擎中的信息檢索系統上的應用流程圖。

【具體實施方式】
[0031]下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用於解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便於描述,附圖中僅示出了與本發明相關的部分而非全部結構。
[0032]實施例一
[0033]圖1B是本發明實施例一提供的一種確定用戶查詢語句句法結構的方法的流程示意圖。該方法可以由確定用戶查詢語句句法結構的裝置來執行;所述裝置由軟體實現,可作為搜尋引擎的一部分,被置備於安裝在終端上的搜尋引擎中,當然也可為能夠與搜尋引擎進行數據通信的獨立產品。。參見圖1B,本實施例提供的確定用戶查詢語句句法結構的方法具體包括如下操作:
[0034]操作110、識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係。
[0035]操作120、根據所述對齊關係和網頁主題句的句法結構,構建用戶查詢語句的句法結構。
[0036]由於用戶查詢語句形式的多樣性和任意性,故在對其語句句法結構的確定上會存在較大難度。構造高精度高覆蓋率(指覆蓋廣闊的形式自由的用戶查詢語句)的面向用戶查詢語句的句法結構分析器並不是一件簡單的事情。但是,網頁主題句通常則較為規則,其句法結構的隨意性更小一些,從而使得構建網頁主題句句法結構的難度要遠低於構建用戶查詢語句句法結構的難度。在本發明實施例中,句法結構指的是句子的語法結構(例如語法依存樹)和/或語義結構(例如語義角色標註樹)。
[0037]為此,本實施例使用詞對齊的思想,從構建相對容易的網頁主題句的句法結構出發,來構建用戶查詢句的句法結構。具體的,首先根據設定的詞對齊算法,來識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係;然後,根據識別的對齊關係和網頁主題句的句法結構,來構建用戶查詢語句的句法結構。在本實施例中,如果用戶查詢語句中的一個分詞與預設的網頁主題句中的一個分詞是完全相同,或是同義的,則可判定這兩個分詞是對齊的,二者之間具有對齊關係。
[0038]如果本實施例所確定的用戶查詢語句句法結構是應用於用戶查詢語句與網頁主題句之間匹配度計算的,則預設的網頁主題句可以是與用戶查詢語句待匹配的網頁主題句;如果本實施例所確定的用戶查詢語句句法結構主要應用於對用戶查詢語句所表達含義的正確表示的,則預設的網頁主題句可以是與用戶查詢語句具有置信關係的網頁主題句。其中,與用戶查詢語句具有置信關係的網頁主題句,可具體指的是與用戶查詢語句對應的用戶點擊網頁連結中點擊率最高的網頁連結的網頁主題句。
[0039]在本實施例的一種【具體實施方式】中,可預先通過人工或智能學習的方式來得到大量的分詞之間的對齊關係;然後根據該對齊關係,來識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係。例如,用戶查詢語句為「理想的薪水」,預設的網頁主題句為「理想薪水」,則會識別出用戶查詢語句中的分詞「理想」與「薪水」,分別與預設的網頁主題句中的「理想」與「薪水」是對齊的;再例如,用戶查詢語句為「小官巨貪的調查」,預設的網頁主題句為「警方調查小官巨貪」,則會識別出用戶查詢語句中的分詞「小官巨貪」與「調查」,分別與預設的網頁主題句中的「小官巨貪」與「調查」是對齊的。
[0040]在本實施例的一種【具體實施方式】中,根據識別的對齊關係和預設的網頁主題句的句法結構,來構建用戶查詢語句的句法結構,可具體包括:如果預設的網頁主題句中的兩個分詞之間具備句法結構關係,且所述兩個分詞分別與用戶查詢語句中的兩個分詞具備對齊關係,則在用戶查詢語句中的兩個分詞之間,建立預設的網頁主題句中的兩個分詞之間所具備的句法結構關係,以構成用戶查詢語句的句法結構。其中,如果句法結構為語法依存樹,則句法結構關係為依存關係,兩個分詞之間具備句法結構關係指的是兩個分詞之間具有依存弧;如果句法結構為語義角色標註樹,句法結構關係為語義關係。
[0041]本實施例通過用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係,以及所述網頁主題句的句法結構,來捕捉用戶查詢語句的句法結構,十分便於後續處理。特別是,在預設的網頁主題句為與用戶查詢語句具有很高置信度關係的網頁主題句的情況下,能夠更好的以一種符合人類自然語言的方式來描述用戶查詢語句所表達的含義;在預設的網頁主題句為與用戶查詢語句待匹配的網頁主題句的情況下,可以提高後續搜尋引擎對用戶查詢語句與網頁主題句之間相似度的計算精度,有效保證搜索結果返回的準確率,提升用戶的搜索體驗。
[0042]實施例二
[0043]圖2是本發明實施例二提供的一種確定用戶查詢語句句法結構的方法的流程示意圖。本實施例在上述實施例一的基礎上,進一步增加了生成詞對齊列表的操作,並相應優化識別詞對齊關係的操作。參見圖2,本實施例提供的確定用戶查詢語句句法結構的方法具體包括如下操作:
[0044]操作210、獲取樣本集。
[0045]其中,獲取的樣本集包括:由多個查詢語句樣本組成的源語言樣本子集,以及由與查詢語句樣本具有置信關係的網頁主題句樣本組成的翻譯語言樣本子集。
[0046]在本實施例中,源語言樣本子集包括:查詢日誌中所包含的用戶輸入的歷史查詢語句;翻譯語言樣本子集包括:與歷史查詢語句對應的用戶點擊網頁連結中點擊率超過設定點擊閾值的網頁連結的網頁主題句。互為對應關係的歷史查詢語句與網頁主題句可為一組數據對。
[0047]操作220、基於詞對齊算法,對樣本集進行訓練,以學習得到詞對齊列表,其中詞對齊列表中包含源語言樣本子集中的分詞與翻譯語言樣本子集中的分詞之間的對齊關係。
[0048]在本實施例中,預先通過查詢日誌中所包含的大規模的歷史查詢語句與網頁主題句的用戶點擊數據,來挖掘具有高相關性的查詢語句樣本與網頁主題句樣本對的數據集合。從而,可進一步根據分詞的共現頻次等信息,來迭代學習出來查詢語句樣本中的分詞和網頁主題句樣本中的分詞之間的對齊概率。
[0049]具體的,在學習詞對齊關係的時候,需優先考慮那些詞形完全一致的詞對,例如,對實施例一中所述的「理想的薪水」和「理想薪水」而言,這兩個不同語句中的「理想」與「理想」,「薪水」與「薪水」都是相同詞形的詞的對齊。當然,本實施例允許不是相同詞形的詞的對齊,這樣可以更好地抽取同義詞。例如,在迭代學習過程當中,學習到「理想的薪水」與「理想工資」這樣的數據對出現的頻次非常高的時候,可得出「薪水」與「工資」是對齊的,從而,根據詞的共現信息,抽出了具有詞對齊關係的同義詞對「薪水」與「工資」。
[0050]在本實施例的一種【具體實施方式】中,詞對齊算法可以是基於EM(Expectat1nMaximizat1n,期望最大化)算法得到的。
[0051]下面介紹一下基於EM算法的詞對齊方法。
[0052]例如,假設存在兩個查詢語句樣本與網頁主題句樣本對如下:
[0053]X: a
[0054]X y:a b
[0055]上述中的「x」和「x y」均為查詢語句樣本,「a」和「a b」均為網頁主題句樣本。假設根據查詢日誌中的用戶點擊數據,已確定在輸入查詢語句「X」(只含有「X」這一個詞)的時候,用戶點擊網頁主題句為「a」的網頁次數最多;用戶在輸入查詢語句「X y」 (網頁主題句樣本中包含「X」和「y」這兩個詞)的時候,用戶點擊網頁主題句為「a b」的網頁次數最多。這樣,根據EM算法,可以首先建立x-a,x-b,y-a,y-b (其中表示具有對齊關係)四種可能的詞對齊關係;然後,因為x_a出現了 2次,而x-b只出現了一次,再考慮到y-a,y-b只有一對查詢語句樣本和網頁主題句樣本的支持。這樣,根據χ-a和xy-ab,可推斷出x_a的可能性大於x-b的可能性;而當χ-a的時候,y-b的可能性(概率)就提高了。從而最終學習出x-a, y-b是兩種更加可能的詞對齊方式。
[0056]操作230、根據詞對齊列表,識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係。
[0057]具體的,可先在詞對齊列表中,查找與預設的網頁主題句中的分詞(設為第一分詞)具有對齊關係的目標分詞(設為第二分詞),然後判斷用戶查詢語句中是否包含目標分詞,如果是,則判定預設的網頁主題句中的第一分詞與用戶查詢語句中的第二分詞是對齊的。
[0058]操作240、根據所述對齊關係和網頁主題句的句法結構,構建用戶查詢語句的句法結構。
[0059]本實施例通過獲取樣本集,對樣本集進行訓練學習得到詞對齊列表,從而能夠以一種智能學習的方式而非人工的方式,來預先得到大量的分詞之間的對齊關係,然後據此來識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係,這樣可節省大量的人力和物力,縮短詞對齊關係的生成周期,且識別結果的準確率也很高,能夠更好的捕捉用戶查詢語句的句法結構,以便後續處理。
[0060]在上述技術方案的基礎上,在識別用戶查詢語句的各分詞與預設的網頁主題句中的分詞之間的對齊關係之前,還包括:
[0061]識別用戶查詢語句中的各分詞的詞性,以得到詞性標註結果;獲取網頁主題句的詞性標註結果。
[0062]相應的,識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係,包括:
[0063]根據詞對齊列表、用戶查詢語句的詞性標註結果和網頁主題句的詞性標註結果,確定用戶查詢語句中的分詞與網頁主題句中的分詞之間的對齊關係。
[0064]在實際處理當中,根據中文語言的特性可知,在具有相同詞性的兩個分詞之間,在名詞與動詞之間,形容詞與副詞之間,存在對齊關係的可能性較大,而形容詞或者副詞與動詞之間存在對齊關係的可能性則十分小。為加快詞對齊關係的識別速度,可同時結合用戶查詢語句與網頁主題句中各分詞的詞性,以及詞對齊列表,來進行詞對齊關係的識別。例如,可先根據用戶查詢語句與網頁主題句中各分詞的詞性標註結果,初步分析用戶查詢語句中與網頁主題句中的分詞可能存在對齊關係的至少一個候選分詞;然後,進一步根據詞對齊列表,來驗證所分析得到的各個候選分詞是否確實為與網頁主題句中的分詞存在對齊關係的分詞。
[0065]實施例三
[0066]圖3是本發明實施例三提供的一種確定用戶查詢語句句法結構的方法的流程示意圖。本實施例針對搜尋引擎在計算用戶查詢語句與候選網頁主題句之間的相關性這一應用場景,將預設的網頁主題句優選為候選網頁主題句(也即與用戶查詢語句待匹配的網頁主題句)。本實施例在上述實施例一和實施例二的基礎上,進一步增加了計算用戶查詢語句的句法結構與網頁主題句的句法結構之間的相似度的操作。參見圖3,本實施例提供的確定用戶查詢語句句法結構的方法具體包括如下操作:
[0067]操作310、識別用戶查詢語句中的分詞與候選網頁主題句中的分詞之間的對齊關係O
[0068]操作320、根據所述對齊關係和候選網頁主題句的句法結構,構建用戶查詢語句的句法結構。
[0069]操作330、計算用戶查詢語句的句法結構與候選網頁主題句的句法結構之間的相似度,將計算結果作為用戶查詢語句與候選網頁主題句之間的匹配結果。
[0070]在本實施例的一種優選實施方式下,計算用戶查詢語句的句法結構與候選網頁主題句的句法結構之間的相似度,包括:
[0071]按照如下公式,計算相似度:
[0072]L = S/[{Sl+S2}/2]
[0073]其中,L為用戶查詢語句的句法結構與候選網頁主題句的句法結構之間的相似度;SI為用戶查詢語句的句法結構中所包含的分詞之間的句法結構關係的總數量;S2為候選網頁主題句的句法結構中所包含的分詞之間的句法結構關係的總數量;S為用戶查詢語句的句法結構中與候選網頁主題句的句法結構中具有的相同句法結構關係的總數量。
[0074]現依然通過現有技術中所給的計算用戶查詢語句「日本收購的中國企業」和一個候選網頁主題句「中國收購日本企業」之間相關性的示例,來解釋本實施例所具備的優點。對於該示例,採用本實施例的方案,可以得到用戶查詢語句中的主語是「日本」,謂語是「收購」,賓語是「中國企業」;而候選網頁標題的主語是「中國」,謂語是「收購」,賓語是「日本企業」。這樣的話,主謂結構不匹配,因為前者是「日本-收購」,後者是「中國-收購」;同樣地,謂賓結構也不匹配。通過計算用戶查詢語句和候選網頁主題句之間在句法結構上的相似度來衡量用戶查詢語句和候選網頁主題句之間的相關性,可以更好地區分開具有很高匹配度的分詞,而含義完全不同的用戶查詢語句和候選網頁主題句。
[0075]上面的例子是關於「字面意思相似,而語義不同」的例子,下面再給出一個「字面匹配度低,語義相同」的例子。例如,用戶查詢語句為「崔永元罵教育廳」,一個網頁標題(也即網頁候選主題句)為「著名主持人崔永元昨天發帖罵湖南省教育廳不要臉不作為不負責」。可以看到,網頁標題中的大部分詞都沒有匹配到用戶查詢語句上。簡單的基於詞的匹配度的相似度計算方法,有把這個網頁標題與用戶查詢語句之間的相關性調低的傾向。但是採用本實施例的方案,在句法結構上來看,用戶查詢語句是「崔永元-主語罵-謂語教育廳-賓語」,而網頁標題的語義主幹是「崔永元-主語罵-謂語湖南省教育廳-賓語」,可以看到這個時候的基於語義主幹的匹配,可以把這兩個句子的相似度提高。
[0076]本實施例基於句法結構來刻畫用戶查詢語句和候選網頁主題句之間的相關性,可以提高後續搜尋引擎對用戶查詢語句與網頁主題句之間相似度的計算精度,有效保證搜索結果返回的準確率,提升用戶的搜索體驗。
[0077]實施例四
[0078]圖4A是本發明實施例四提供的一種基於句法結構模型計算用戶查詢句和候選網頁標題相似度的方法的流程示意圖。本實施例以上述實施例一至實施例三為基礎,提供一種優選實例。本實施例可適用於計算用戶查詢語句與候選網頁標題之間的相關性的情況。在本實施例中,候選網頁標題為與用戶查詢語句待匹配的網頁主題句。參見圖4A,本實施例提供的方法具體包括如下操作:
[0079]操作401、獲取用戶查詢句。
[0080]操作402、確定用戶查詢句中所包含的各個分詞。
[0081]操作403、識別用戶查詢語句中各分詞的詞性,以得到用戶查詢句的詞性標註結果O
[0082]操作404、獲取候選網頁標題。
[0083]操作405、確定候選網頁標題中所包含的各個分詞。
[0084]操作406、識別候選網頁標題中各分詞的詞性,以得到候選網頁標題的詞性標註結果O
[0085]操作407、採用移近歸約算法,構建候選網頁標題的語法依存樹。
[0086]操作408、根據預先生成的詞對齊列表、用戶查詢語句的詞性標註結果和候選網頁標題的詞性標註結果,識別用戶查詢語句中的分詞與候選網頁標題中的分詞之間的對齊關係O
[0087]操作409、根據所述對齊關係和候選網頁標題的語法依存樹,構建用戶查詢語句的語法依存樹。
[0088]操作410、計算用戶查詢語句的語法依存樹與候選網頁標題的語法依存樹之間的相似度,將計算結果作為用戶查詢語句與候選網頁標題之間的匹配結果。
[0089]具體的,按照如下公式,計算所述相似度L:
[0090]L = S/[{Sl+S2}/2]
[0091]其中,SI為用戶查詢語句的語法依存樹中所包含的分詞之間的依存關係(依存弧)的總數量;S2為候選網頁標題的語法依存樹中所包含的分詞之間的依存關係(依存弧)的總數量;S為用戶查詢語句的語法依存樹中與候選網頁標題的語法依存樹中具有的相同依存關係(依存弧)的總數量。
[0092]需要說明的是,本實施例對操作401-403和操作404-406之間的先後執行順序不作限定,操作404-406還可先於操作401-403而被執行。類似的,對操作407和操作408之間的先後執行順序也不作限定,操作408還可先於操作407而被執行。
[0093]在本發明實施例中,任意一條句子的語法依存樹為用於描述句子中分詞之間的依存關係的樹形圖。如果句子中的兩個分詞之間存在依存關係,則在該句子的語法依存樹中這兩個分詞之間應存在一條依存弧。具體的,可使用移近歸約算法來執行對候選網頁標題的語法依存樹的構建。其中,根據依存弧的方向,分為向左(Left-arc或者稱為Left-reduce)和向右(Right_arc或者稱為Right_reduce)建立依存弧,再加上一個移近(Shift)操作,一共三個動作(Act1n)。
[0094]現舉例說明Shift、Left-reduce 和 Right-reduce 這三個動作。
[0095]參見圖4B所示的在建立某候選網頁標題的各個依存弧的過程中所涉及的第一個動作狀態選擇示意圖。在當前的狀態(state)中,有σ這個堆棧(stack)和β這個隊列(buffer);其中在σ這個堆棧中只有一個節點root。root節點是為每個句子的核心詞所設定的一個「虛擬」節點。O代表的是其標號,一般設定一個句子的最左邊的詞為第一個詞,而這個詞之前,有一個認為設定的虛擬的root節點,其標號為O。而β這個隊列中有輸入的等待句法結構解析的某候選網頁標題「Economic news had little effect on financialmarkets.,,這一句子。
[0096]使用三個動作Shift, Left-arc, Right-arc來具體構造依存弧arc的效果在該圖4B中的上部:
[0097]Shift,即把β中的首個單詞「economic」移動到σ中;
[0098]Left-arc,即建立一個左方向的依存弧,從「economic」這個單詞出發到root節點,即將「economic」作為root的父親節點;
[0099]Right-arc,即建立一個右方向的依存弧,從root節點出發到「economic」這個單詞,即root作為「economic」的父親節點;
[0100]SVM(Support Vector Machine,支持向量機)分類器負責給上面三種動作進行打分,移近歸約算法將按照打分從大到小的順序,來選用一種動作到當前的狀態(state)中,並得到下一步的結果。假設這裡選擇了 shift這個動作,則得到如圖4C所示的在建立上述候選網頁標題的各個依存弧的過程中所涉及的第二個動作狀態選擇示意圖。
[0101]進一步的,可以持續對當前的狀態(state)進行下一個動作的預測,例如在shift, left-arc和right-arc中選擇了概率最大的動作Left-arc進行進一步的擴展,得到如圖4D所示的在建立上述候選網頁標題的各個依存弧的過程中所涉及的第三個動作狀態選擇示意圖。
[0102]進一步的,可以持續對當前的狀態(state)進行下一個動作的預測,例如在shift, left-arc和right-arc中選擇了概率最大的動作shift進行進一步的擴展。
[0103]按照上述方式持續下去,最終可以得到如圖4E所示的包含有多條依存弧的語法依存樹的結構不意圖。
[0104]參見圖4E,在最後生成語法依存樹的時候,當前的狀態(state)中的β這個隊列已經為空,從而當前的狀態(state)作為終結狀態。
[0105]圖4F是本發明實施例四提供的候選網頁標題為「我吃紅蘋果」的語法依存樹的結構示意圖。參見圖4F,「紅」是修飾「蘋果」的,「吃」的主語是「我」,賓語是「紅蘋果」,該候選網頁標題的語法依存樹共有四個依存關係,分別為:「吃」作為「我吃紅蘋果」句子的核心詞,與「root」節點(也為核心詞「吃」設定的「虛擬」節點)具有向左的依存弧;「我」與「吃」具有向左的依存弧;「蘋果」與「吃」具有向右的依存弧;「紅」與「蘋果」具有向左的依存弧。一條依存弧為一個依存關係。
[0106]圖4G是本發明實施例四提供的一種用戶查詢語句為「理想的薪水」的語法依存樹構建示意圖;
[0107]參見圖4G,在現有技術採用與生成候選網頁標題的句法結構相同的句法結構解析器,所得到的用戶查詢語句的原始語法依存樹中,總共有三條依存弧,分別為:「薪水」作為「理想的薪水」用戶查詢語句的核心詞,與「root」節點具有的向左的依存弧;「的」與「薪水」具有的向左的依存弧;「理想」與「的」具有的向左的依存弧;
[0108]在採用本實施例提供的確定用戶查詢語句句法結構的方法,所得到的用戶查詢語句的新的語法依存樹中,由於候選網頁標題中的「理想」與用戶查詢語句中的「理想」具有詞對齊關係,候選網頁標題中的「薪水」與用戶查詢語句中的「薪水」具有詞對齊關係,並且候選網頁標題的語法依存樹包括:「薪水」與「root」節點具有的向左的依存弧;「理想」與「薪水」具有的向左的依存弧,所以在用戶查詢語句中所包含的「理想」與「薪水」之間,也應具備候選網頁標題中的「理想」與「薪水」之間所具備的依存關係,即具有向左的依存弧。
[0109]因此,在上述示例中,對於候選網頁標題的語法依存樹與用戶查詢語句的原始語法依存樹而言,由於二者具有的相同語法依存關係的總數量為1,也即二者僅有「薪水」與「root」之間的一條向左的依存弧是相同的,所以這兩個語法依存樹之間的相似度為:1/((3+2)/2) = 0.4,這裡的「I」代表的是二者具有的相同語法依存關係的總數量,而「3」代表的是用戶查詢語句的原始語法依存樹中所包含的分詞之間的語法依存關係(也即依存弧)的總數量,與「3」作相加操作的「2」代表的是候選網頁標題的語法依存樹中所包含的分詞之間的語法依存關係的總數量。
[0110]同理,對於候選網頁標題的語法依存樹與用戶查詢語句的新的語法依存樹而言,其相似度為2/((2+2)/2) = I。
[0111]本實施例提供的基於句法結構模型計算用戶查詢句和候選網頁標題相似度的方法,可以有效地增強語法結構對於用戶查詢句和候選網頁標題的匹配的影響能力,提高匹配的精度。
[0112]實施例五
[0113]圖5A是本發明實施例五提供的另一種基於句法結構模型計算用戶查詢句和候選網頁標題相似度的方法的流程示意圖。本實施例以上述實施例一至實施例三為基礎,提供一種優選實例。本實施例可適用於計算用戶查詢語句與候選網頁標題之間的相關性的情況。在本實施例中,候選網頁標題為與用戶查詢語句待匹配的網頁主題句。參見圖5A,本實施例提供的方法具體包括如下操作:
[0114]操作501、獲取用戶查詢句;
[0115]操作502、確定用戶查詢句中所包含的各個分詞;
[0116]操作503、識別用戶查詢語句中各分詞的詞性,以得到用戶查詢句的詞性標註結果;
[0117]操作504、獲取候選網頁標題;
[0118]操作505、確定候選網頁標題中所包含的各個分詞;
[0119]操作506、識別候選網頁標題中各分詞的詞性,以得到候選網頁標題的詞性標註結果;
[0120]操作507、採用移近歸約算法,構建候選網頁標題的語法依存樹;
[0121]操作508、根據得到的語法依存樹,構建候選網頁標題的語義角色標註樹;
[0122]操作509、根據預先生成的詞對齊列表、用戶查詢語句的詞性標註結果和候選網頁標題的詞性標註結果,識別用戶查詢語句中的分詞與候選網頁標題中的分詞之間的對齊關係;
[0123]操作510、根據所述對齊關係和候選網頁標題的語義角色標註樹,構建用戶查詢語句的語義角色標註樹;
[0124]操作511、計算用戶查詢語句的語義角色標註樹與候選網頁標題的語義角色標註樹之間的相似度,將計算結果作為用戶查詢語句與候選網頁標題之間的匹配結果。
[0125]具體的,按照如下公式,計算所述相似度L:
[0126]L = S/[{Sl+S2}/2]
[0127]其中,SI為用戶查詢語句的語義角色標註樹中所包含的分詞之間的語義關係的總數量;S2為候選網頁標題的語義角色標註樹中所包含的分詞之間的語義關係的總數量;S為用戶查詢語句的語義角色標註樹中與候選網頁標題的語義角色標註樹中具有的相同語義關係的總數量。
[0128]需要說明的是,本實施例對操作501-503和操作504-506之間的先後執行順序不作限定,操作504-506還可先於操作501-503而被執行。類似的,對操作507-508和操作509之間的先後執行順序不作限定,操作509還可先於操作507-508而被執行。
[0129]依存關係是從語法角度刻畫句子的結構信息的。相對於語法結構而言,本實施例中所述的語義角色標註樹,則著重從「語義」角度刻畫句子的結構信息。在本發明實施例中,任意一條句子的語義角色標註樹為用於描述句子中分詞之間的語義關係的樹形圖。特別地,本發明涉及的「語義」,主要指的是以句子中的核心動詞(例如「我吃紅蘋果」中的「吃」就是這個句子的核心動詞)為中心,識別核心動詞,判別核心動詞的主語賓語等關鍵語義角色成分,以及時間,地點等狀語成分。從而以一種「只看大局,不看細節」的方式,勾勒出句子的語義主幹。
[0130]具體的,可基於語義角色標註系統,構建候選網頁標題的語義角色標註樹。現對語義角色標註系統的相關知識,詳細介紹如下:
[0131]任務是:為一個句子中的每個謂詞找到其所有論元並確定每個論元的語義角色,進而理解句子的主幹語義;
[0132]核心的語義角色包括:(謂詞的)施事、受事等;
[0133]非核心的語義角色包括:地點、時間等;
[0134]解決的問題為:理解句子的主幹語義,即:
[0135]Who did what to whom, for whom or what, how, where, when, and why ?
[0136]解決的是句子主幹抽取,即「主謂賓定狀補」的自動識別自動抽取的問題。
[0137]語義角色標註以一個句子的語法依存樹(包括已經分詞和詞性標註好的句子)為輸入,輸出的是該句子的「主幹結構」。該「主幹結構」包括:謂詞,謂詞的語義分類,以及每個謂詞的論元和謂詞與論元之間的語義關係。基於對速度和精度的雙重要求,語義角色標註器可採用0(n)複雜度的解碼算法,其中η是輸入句子中分詞的個數。
[0138]例如,候選網頁標題為:「克裡斯蒂娜昨天用棒球打了斯科特」。該候選網頁標題的語義角色標註樹的結構示意圖可參見圖5Β。
[0139]根據圖5Β所示的語義角色分析結果,可以進行如下提問:
[0140]誰用棒球打了斯科特?
[0141]誰被克裡斯蒂娜用棒球打了?
[0142]克裡斯蒂娜用啥打的斯科特?
[0143]克裡斯蒂娜什麼時候用棒球打的斯科特?
[0144]上面完成了對語義角色標註系統的介紹。
[0145]圖5C是本發明實施例五提供的一個候選網頁標題的語法依存樹和語義角色標註樹的生成示意圖。參見圖5C,在獲取到候選網頁標題51「謝霆鋒和張栢芝的孩子Lucas出生了 」之後,首先對該候選網頁標題51進行分詞、詞性標註(包含命名實體識別),得到該候選網頁標題中共包含8個分詞52,依次為:「謝霆鋒」、「和」、「張栢芝」、「的」、「孩子」、「Lucas」、「出生」以及「了」,其中「謝霆鋒」、「張栢芝」以及「Lucas」均為名詞性質的人名;然後,構建該候選網頁標題的語法依存樹53 ;進而,將該語法依存樹作為語義角色標註系統的輸入,基於語義角色標註系統得到語義角色標註樹54。
[0146]從圖5C中可以看到,語法依存樹的輸出作為語義角色標註系統的輸入使用。對於給定的例子,通過人名識別,依存分析,以及語義角色標註這一系列解析,最終得到語法語義結構化表示。
[0147]為更加清楚的闡述本實施例提供的技術方案,先進行舉例說明。
[0148]圖是本發明實施例五提供的一種用戶查詢語句為「小官打貪的調查」的語法依存樹構建示意圖。參見圖5D,候選網頁標題為「警方調查小官大貪」,用戶查詢語句為「小官大貪的調查」;在基於動詞的語義角色標註系統中,候選網頁標題可以解析出來「警方〈-A0/主語調查_>A1/賓語小官大貪」這樣的語義關係,也即「調查」與「警方」是主謂形式的語義關係(也即「調查」);「調查」與「小官巨貪」是動賓形式的語義關係;而在現有技術中採用與生成候選網頁標題的句法結構相同的句法結構解析器,所得到的用戶查詢語句的原始語義角色標註樹中,不包含任何語義關係。因為,用戶查詢語句中的「調查」是名詞,採用現有技術中的基於動詞的語義角色標註系統,是不會產生出來「小官大貪〈-Al/賓語調查」這樣的語義結構的。
[0149]在採用本實施例提供的方法中,所得到的用戶查詢語句的新的語義角色標註樹中,由於候選網頁標題中的「小官巨貪」與用戶查詢語句中的「小官巨貪」具有詞對齊關係,候選網頁標題中的「調查」與用戶查詢語句中的「調查」具有詞對齊關係,並且候選網頁標題的義角色標註樹表明:「調查」與「小官巨貪」是動賓形式的語義關係,所以在用戶查詢語句中所包含的「調查」與「小官巨貪」之間,也應具備候選網頁標題中的「調查」與「小官巨貪」之間所具備的語義關係,即為動賓關係,從而將用戶查詢語句中所包含的「調查」賦予具有動詞性質的語義。這樣使得原本沒有語義結構的用戶查詢語句,也可以通過新生成的這種語義關係,來實現在語義結構上的候選網頁標題與用戶查詢語句的匹配了,這裡匹配上的是「調查_>A1/賓語-> 小官巨貪」。
[0150]因此,在上述示例中,對於候選網頁標題的語義角色標註樹與用戶查詢語句的原始語義角色標註樹而言,由於二者具有的相同語義關係的總數量為0,所以這兩個語義角色標註樹之間的相似度為:0/((0+2)/2) =O0但是,對於候選網頁標題的語法依存樹與用戶查詢語句的新的語法依存樹而言,其相似度則為1/((1+2)/2) = 0.67。
[0151]在本實施例中,Al代表的是第一個論元,也即是所謂的賓語;AO代表的是第O個論元,也即是所謂的主語」。更進一步的有A2,代表的是謂詞的簡介賓語;例如對於「給你一本書」這樣的句子,「你」是「給」的直接賓語Al,而「一本書」是「給」的簡介賓語A2)。
[0152]本實施例提供的基於句法結構模型計算用戶查詢句和候選網頁標題相似度的方法,可以有效地增強語法結構對於用戶查詢句和候選網頁標題的匹配的影響能力,提高匹配的精度。
[0153]實施例六
[0154]圖6是本發明實施例六提供的確定用戶查詢語句句法結構的裝置的結構示意圖。參見圖6,該裝置的具體結構如下:
[0155]對齊關係識別單元610,用於識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係;
[0156]句法結構構建單元620,用於根據所述對齊關係和所述網頁主題句的句法結構,構建所述用戶查詢語句的句法結構。
[0157]進一步的,所述句法結構構建單元620,具體用於:
[0158]如果所述網頁主題句中的兩個分詞之間具備句法結構關係,且所述兩個分詞分別與所述用戶查詢語句中的兩個分詞具備對齊關係,則在所述用戶查詢語句中的兩個分詞之間,建立所述網頁主題句中的兩個分詞之間所具備的句法結構關係,以構成所述用戶查詢語句的句法結構。
[0159]進一步的,該裝置還包括詞對齊列表生成單元600,用於:
[0160]獲取樣本集,其中所述樣本集包括:由多個查詢語句樣本組成的源語言樣本子集,以及由與所述查詢語句樣本具有置信關係的網頁主題句樣本組成的翻譯語言樣本子集;
[0161]基於詞對齊算法,對所述樣本集進行訓練,以學習得到詞對齊列表,其中所述詞對齊列表中包含源語言樣本子集中的分詞與翻譯語言樣本子集中的分詞之間的對齊關係;
[0162]所述對齊關係識別單元610,具體用於:
[0163]根據所述詞對齊列表生成單元600得到的詞對齊列表,識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係。
[0164]進一步的,所述源語言樣本子集包括:查詢日誌中所包含的用戶輸入的歷史查詢語句;
[0165]所述翻譯語言樣本子集包括:與所述歷史查詢語句對應的用戶點擊網頁連結中點擊率超過設定點擊閾值的網頁連結的網頁主題句。
[0166]進一步的,該裝置還包括詞性標註單元605,用於:
[0167]識別所述用戶查詢語句中的各分詞的詞性,以得到詞性標註結果;獲取所述網頁主題句的詞性標註結果;
[0168]所述對齊關係識別單元610,具體用於:
[0169]根據所述詞對齊列表生成單元600得到的詞對齊列表,以及所述詞性標註單元605得到的所述用戶查詢語句的詞性標註結果和所述網頁主題句的詞性標註結果,確定所述用戶查詢語句中的分詞與所述網頁主題句中的分詞之間的對齊關係。
[0170]在上述技術方案的基礎上,所述網頁主題句為與所述用戶查詢語句待匹配的網頁主題句;
[0171]所述裝置還包括:
[0172]相似度計算單元630,用於在所述句法結構構建單元620構建所述用戶查詢語句的句法結構之後,計算所述用戶查詢語句的句法結構與所述網頁主題句的句法結構之間的相似度,將計算結果作為所述用戶查詢語句與所述網頁主題句之間的匹配結果。
[0173]進一步的,所述相似度計算單元630,具體用於:
[0174]按照如下公式,計算所述相似度:
[0175]L = S/[{Sl+S2}/2]
[0176]其中,L為所述相似度;S1為所述用戶查詢語句的句法結構中所包含的分詞之間的句法結構關係的總數量;S2為所述網頁主題句的句法結構中所包含的分詞之間的句法結構關係的總數量;S為所述用戶查詢語句的句法結構中與所述網頁主題句的句法結構中具有的相同句法結構關係的總數量。
[0177]在上述技術方案的基礎上,所述句法結構為語法依存樹,句法結構關係為依存關係;或者
[0178]所述句法結構為語義角色標註樹,句法結構關係為語義關係。
[0179]上述產品可執行本發明任意實施例所提供的方法,具備執行方法相應的功能模塊和有益效果。
[0180]實施例七
[0181]圖7是本發明實施例七提供的一種基於句法結構模型計算用戶查詢句和網頁標題的相似度方法在搜尋引擎中的信息檢索系統上的應用流程圖。在本實施例中,用戶查詢句和網頁標題的相似度計算結果,作為用戶查詢句和網頁匹配的一部分特徵使用;用戶查詢句可以是來自用戶輸入的文本,音聲識別出的文本,圖片OCR識別出的文本等信息;在文本級別執行匹配之後,輸出的檢索結果可以是傳統的文本,文本轉換成的音聲(舉例說明,例如「日本收購的中國企業」,檢索系統返回一系列候選),也可以是OCR識別出來的文字在網頁上的檢索結果的顯示。
[0182]參見圖7,該流程具體包括如下操作:
[0183]信息檢索系統通過網絡爬蟲技術爬取大量的網頁內容,對所爬取的網頁(web)內容進行理解,根據對每個網頁內容的理解結果,建立一條索引信息,並存儲至索引列表中,索引信息包括網頁統一資源定位標識符、網頁摘要以及網頁標題等信息;
[0184]信息檢索系統獲取用戶在用戶交互界面上輸入的查詢語句(也即用戶查詢句),並對該查詢語句進行理解,然後從索引列表中檢索出多條索引信息,基於查詢語句理解結果和檢索出的索引信息,完成查詢語句與各網頁的匹配,該匹配包括查詢語句與各網頁標題的匹配(即計算查詢語句與各網頁標題之間的相似度);
[0185]信息檢索系統在完成查詢語句與各網頁的匹配之後,按照查詢語句與各網頁的相關性,對各網頁進行排序,根據排序結果確定返回給用戶的候選網頁信息。
[0186]其中,網頁理解過程包括短語識別、關鍵短語識別、主題識別、句法結構識別等。即對於包括了眾多句子的一個網頁,從其中識別出短語和關鍵短語(頻次明顯高於其他η元連續的詞的字符串的短語),所在領域(科技,新聞,娛樂等)。
[0187]查詢語句理解包括拼寫檢查、短語識別、近似查詢語句查詢、主題識別等,以及句法結構識別。其中,對查詢語句句法結構的識別可通過本發明任意實施例提供的確定用戶查詢句句法結構的方法實現。例如,對於查詢語句:誰是謝蜓峰的兒子,執行拼寫檢查,確定「謝蜓峰」的正確描述是「謝霆鋒」;短語識別:「謝霆鋒的兒子」是一個短語;近似查詢語句:「誰是謝蜓峰的兒子」 _> 「謝霆鋒兒子」;主題識別:謝霆鋒是演員、明星,屬於「娛樂」領域;句法結構包括:謂語「是」,主語「誰」,賓語「謝霆鋒的兒子」。
[0188]網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人),是一種按照一定的規則,自動的抓取全球資訊網信息的程序或者腳本。網絡爬蟲是一個自動提取網頁的程序,它為搜尋引擎從全球資訊網上下載網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的統一資源定位標識符開始,獲得初始網頁上的統一資源定位標識符,在抓取網頁的過程中,不斷從當前頁面上抽取新的統一資源定位標識符放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為複雜,需要根據一定的網頁分析算法過濾與主題無關的連結,保留有用的連結並將其放入等待抓取的統一資源定位標識符隊列。然後,它將根據一定的搜索策略從隊列中選擇下一步要抓取的網頁統一資源定位標識符,並重複上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁將會被系統存貯,進行一定的分析、過濾,並建立索引,以便之後的查詢和檢索;對於聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出反饋和指導。
[0189]注意,上述僅為本發明的較佳實施例及所運用技術原理。本領域技術人員會理解,本發明不限於這裡所述的特定實施例,對本領域技術人員來說能夠進行各種明顯的變化、重新調整和替代而不會脫離本發明的保護範圍。因此,雖然通過以上實施例對本發明進行了較為詳細的說明,但是本發明不僅僅限於以上實施例,在不脫離本發明構思的情況下,還可以包括更多其他等效實施例,而本發明的範圍由所附的權利要求範圍決定。
【權利要求】
1.一種確定用戶查詢語句句法結構的方法,其特徵在於,包括: 識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係; 根據所述對齊關係和所述網頁主題句的句法結構,構建所述用戶查詢語句的句法結構。
2.根據權利要求1所述的確定用戶查詢語句句法結構的方法,其特徵在於,根據所述對齊關係和所述網頁主題句的句法結構,確定所述用戶查詢語句的句法結構,包括: 如果所述網頁主題句中的兩個分詞之間具備句法結構關係,且所述兩個分詞分別與所述用戶查詢語句中的兩個分詞具備對齊關係,則在所述用戶查詢語句中的兩個分詞之間,建立所述網頁主題句中的兩個分詞之間所具備的句法結構關係,以構成所述用戶查詢語句的句法結構。
3.根據權利要求1所述的確定用戶查詢語句句法結構的方法,其特徵在於,在識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係之前,還包括: 獲取樣本集,其中所述樣本集包括:由多個查詢語句樣本組成的源語言樣本子集,以及由與所述查詢語句樣本具有置信關係的網頁主題句樣本組成的翻譯語言樣本子集; 基於詞對齊算法,對所述樣本集進行訓練,以學習得到詞對齊列表,其中所述詞對齊列表中包含源語言樣本子集中的分詞與翻譯語言樣本子集中的分詞之間的對齊關係; 識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係,包括: 根據所述詞對齊列表,識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係。
4.根據權利要求3所述的確定用戶查詢語句句法結構的方法,其特徵在於,所述源語言樣本子集包括:查詢日誌中所包含的用戶輸入的歷史查詢語句; 所述翻譯語言樣本子集包括:與所述歷史查詢語句對應的用戶點擊網頁連結中點擊率超過設定點擊閾值的網頁連結的網頁主題句。
5.根據權利要求3所述的確定用戶查詢語句句法結構的方法,其特徵在於,在識別用戶查詢語句的各分詞與預設的網頁主題句中的分詞之間的對齊關係之前,還包括: 識別所述用戶查詢語句中的各分詞的詞性,以得到詞性標註結果;獲取所述網頁主題句的詞性標註結果; 識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係,包括: 根據所述詞對齊列表、所述用戶查詢語句的詞性標註結果和所述網頁主題句的詞性標註結果,確定所述用戶查詢語句中的分詞與所述網頁主題句中的分詞之間的對齊關係。
6.根據權利要求1-5中任一項所述的確定用戶查詢語句句法結構的方法,其特徵在於,所述網頁主題句為與所述用戶查詢語句待匹配的網頁主題句; 在構建所述用戶查詢語句的句法結構之後,還包括: 計算所述用戶查詢語句的句法結構與所述網頁主題句的句法結構之間的相似度,將計算結果作為所述用戶查詢語句與所述網頁主題句之間的匹配結果。
7.根據權利要求6所述的確定用戶查詢語句句法結構的方法,其特徵在於,計算所述用戶查詢語句的句法結構與所述網頁主題句的句法結構之間的相似度,包括: 按照如下公式,計算所述相似度:
L = S/[{Sl+S2}/2] 其中,L為所述相似度;S1為所述用戶查詢語句的句法結構中所包含的分詞之間的句法結構關係的總數量;S2為所述網頁主題句的句法結構中所包含的分詞之間的句法結構關係的總數量;S為所述用戶查詢語句的句法結構中與所述網頁主題句的句法結構中具有的相同句法結構關係的總數量。
8.根據權利要求1-5中任一項所述的確定用戶查詢語句句法結構的方法,其特徵在於,所述句法結構為語法依存樹,句法結構關係為依存關係;或者 所述句法結構為語義角色標註樹,句法結構關係為語義關係。
9.一種確定用戶查詢語句句法結構的裝置,其特徵在於,包括: 對齊關係識別單元,用於識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係; 句法結構構建單元,用於根據所述對齊關係和所述網頁主題句的句法結構,構建所述用戶查詢語句的句法結構。
10.根據權利要求9所述的確定用戶查詢語句句法結構的裝置,其特徵在於,所述句法結構構建單元,具體用於: 如果所述網頁主題句中的兩個分詞之間具備句法結構關係,且所述兩個分詞分別與所述用戶查詢語句中的兩個分詞具備對齊關係,則在所述用戶查詢語句中的兩個分詞之間,建立所述網頁主題句中的兩個分詞之間所具備的句法結構關係,以構成所述用戶查詢語句的句法結構。
11.根據權利要求9所述的確定用戶查詢語句句法結構的裝置,其特徵在於,還包括詞對齊列表生成單兀,用於: 獲取樣本集,其中所述樣本集包括:由多個查詢語句樣本組成的源語言樣本子集,以及由與所述查詢語句樣本具有置信關係的網頁主題句樣本組成的翻譯語言樣本子集; 基於詞對齊算法,對所述樣本集進行訓練,以學習得到詞對齊列表,其中所述詞對齊列表中包含源語言樣本子集中的分詞與翻譯語言樣本子集中的分詞之間的對齊關係; 所述對齊關係識別單元,具體用於: 根據所述詞對齊列表生成單元得到的詞對齊列表,識別用戶查詢語句中的分詞與預設的網頁主題句中的分詞之間的對齊關係。
12.根據權利要求11所述的確定用戶查詢語句句法結構的裝置,其特徵在於,所述源語言樣本子集包括:查詢日誌中所包含的用戶輸入的歷史查詢語句; 所述翻譯語言樣本子集包括:與所述歷史查詢語句對應的用戶點擊網頁連結中點擊率超過設定點擊閾值的網頁連結的網頁主題句。
13.根據權利要求11所述的確定用戶查詢語句句法結構的裝置,其特徵在於,還包括詞性標註單元,用於: 識別所述用戶查詢語句中的各分詞的詞性,以得到詞性標註結果;獲取所述網頁主題句的詞性標註結果; 所述對齊關係識別單元,具體用於: 根據所述詞對齊列表生成單元得到的詞對齊列表,以及所述詞性標註單元得到的所述用戶查詢語句的詞性標註結果和所述網頁主題句的詞性標註結果,確定所述用戶查詢語句中的分詞與所述網頁主題句中的分詞之間的對齊關係。
14.根據權利要求9-13中任一項所述的確定用戶查詢語句句法結構的裝置,其特徵在於,所述網頁主題句為與所述用戶查詢語句待匹配的網頁主題句; 所述裝置還包括: 相似度計算單元,用於在所述句法結構構建單元構建所述用戶查詢語句的句法結構之後,計算所述用戶查詢語句的句法結構與所述網頁主題句的句法結構之間的相似度,將計算結果作為所述用戶查詢語句與所述網頁主題句之間的匹配結果。
15.根據權利要求14所述的確定用戶查詢語句句法結構的裝置,其特徵在於,所述相似度計算單元,具體用於: 按照如下公式,計算所述相似度:
L = S/[{Sl+S2}/2] 其中,L為所述相似度;S1為所述用戶查詢語句的句法結構中所包含的分詞之間的句法結構關係的總數量;S2為所述網頁主題句的句法結構中所包含的分詞之間的句法結構關係的總數量;S為所述用戶查詢語句的句法結構中與所述網頁主題句的句法結構中具有的相同句法結構關係的總數量。
16.根據權利要求9-13中任一項所述的確定用戶查詢語句句法結構的裝置,其特徵在於,所述句法結構為語法依存樹,句法結構關係為依存關係;或者所述句法結構為語義角色標註樹,句法結構關係為語義關係。
【文檔編號】G06F17/30GK104391969SQ201410733986
【公開日】2015年3月4日 申請日期:2014年12月4日 優先權日:2014年12月4日
【發明者】吳先超, 劉佔一 申請人:百度在線網絡技術(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀