用於查詢擴展的機器翻譯的製作方法
2023-11-02 08:12:57 1
專利名稱:用於查詢擴展的機器翻譯的製作方法
技術領域:
本說明書涉及搜索查詢擴展。
背景技術:
查詢擴展是指在執行搜索以前修改從用戶處接收的搜索查詢。理想地,與原始查 詢相比較,修改後的搜索查詢將產生改進的搜索結果。用於查詢擴展的典型的方法包括單 詞的詞幹提取、拼寫錯誤的改正和搜索查詢的擴增,例如使用在原始查詢中出現的單詞的 同義詞。存在許多使用同義詞的查詢擴展的方法。例如,可以從專家指定的詞庫或詞彙本 體識別單詞的同義詞。在一些系統中,從在語句構成上與原始查詢相似的其它搜索查詢識 別同義詞。在單詞可能具有多個潛在的同義詞,且每一個具有寬泛的變化的含義時,同義詞 選擇尤其富有挑戰性。例如,在查詢「How to ship a box(如何運送箱子)」中,單詞「ship」 可以具有同義詞例如「boat (船)」和「send(發送)」。用與用戶的預期的含義不一致的同 義詞擴展查詢可能導致不相關的搜索結果的識別。例如,與拖網漁船有關的搜索結果可能 與運送箱子不相關。
發明內容
本說明書描述與搜索查詢擴展有關的技術。總的來說,在本說明書中描述的主題 的一個方面可以在包括以下行為的方法中被實現接收搜索查詢;基於在所接收的搜索查 詢中的詞語的出現語境來選擇搜索查詢中的詞語的同義詞,所述同義詞已從所述詞語的統 計機器翻譯導出;用所述同義詞擴展所接收的搜索查詢;以及使用所擴展的搜索查詢來搜 索文檔的集合。本方面的其它實施例包括對應的系統、設備以及電腦程式產品。這些和其它的實施例可以可選地包括以下特徵的一個或多個。識別多個已記錄的 搜索查詢,其中所述詞語在所述已記錄的搜索查詢的每一個中出現。使用統計機器翻譯來 將所述多個已記錄的搜索查詢翻譯成相應的翻譯的搜索查詢。可以從所述翻譯的搜索查詢 識別多個潛在的同義詞。潛在的同義詞可以是在所述翻譯的搜索查詢中的所述詞語的一個 或多個特有的翻譯,其中每一個潛在的同義詞具有相關聯的出現的語境。通過將在所接收 的查詢中的詞語的出現語境與在翻譯的搜索查詢中的每一個潛在的同義詞的出現語境進 行匹配,可以從多個潛在的同義詞選擇同義詞。統計機器翻譯可以使用雙向短語對準。可以從多個文檔識別問題短語和對應的回答短語。將問題短語用作為源語言,並 且將對應的回答短語用作為目標語言,可以建立用於統計機器翻譯的翻譯模型。可以識 別第一自然語言形式的第一短語。通過將第一短語翻譯成第二自然語言可以生成第二自 然語言形式的第二短語。通過將第二短語翻譯回第一自然語言可以識別第一短語的釋義 (paraphrase)。將第一短語用作為源語言,並且將釋義用作為對應的目標語言,可以建立用 於統計機器翻譯的翻譯模型。可以識別搜索結果訪問日誌。在搜索結果訪問日誌中的每一個記錄可以識別相應的已記錄的搜索查詢和對應的摘錄。相應的已記錄的搜索查詢的摘錄可以是來自用戶所訪 問的文檔的內容的部分,其中響應於接收相應的已記錄的搜索查詢,已將所述文檔作為搜 索結果呈現給用戶。將來自搜索結果訪問日誌的搜索查詢用作為源語言,並且將對應的摘 錄用作為目標語言,建立用於統計機器翻譯的翻譯模型。基於與每一個記錄相關聯的相應 的信息可以過濾來自查詢日誌的記錄。相應的信息可以是以下的一個或多個文檔相對於 作為搜索結果呈現給用戶的其它文檔的位置,在已向用戶提供搜索結果和用戶訪問文檔之 間流逝的時間量,以及在用戶訪問文檔和用戶執行隨後的操作之間流逝的時間量。來自文 檔的內容的部分可以是以下的一個或多個文檔的標題、與文檔相關聯的錨詞語、以及文檔 的摘要,其中所述摘要可以包含來自相應的已記錄的搜索查詢的詞語。總的來說,在本說明書中所描述的主題的一個方面可以在包括以下的行為的方法 中實現接收對文檔的語料庫進行搜索的請求,所述請求指定搜索查詢;使用統計機器翻 譯將指定的搜索查詢翻譯成擴展的搜索查詢,所述指定的搜索查詢和所述擴展的搜索查詢 是相同的自然語言形式;以及響應於所述請求,使用所述擴展的搜索查詢來搜索文檔的集 合。本方面的其它實施例包括對應的系統、設備和電腦程式產品。可以實施特定的實施例來實現以下優勢的一個或多個。可以用單詞來擴展搜索查 詢,所述單詞是為搜索查詢識別的同義詞,從而增加響應於搜索查詢可能提供相關的結果 的可能性。在一些實施方式中,只有在給定的搜索查詢的語境的情況下是相關的同義詞才 在擴展中被使用,從而避免用不恰當的單詞擴展查詢。可以從文檔的語料庫中選擇用於查 詢擴展的同義詞,所述文檔基於其他用戶使用相似的搜索查詢所選擇的搜索結果。這樣的 擴展生成擴展的查詢,所述擴展的查詢可被用來識別更相關的(例如,根據一些規則滿足 查詢)、精確的搜索結果。將在下面的附圖和具體實施方式
中闡述本說明書中所描述的主題的一個或多個 實施例的細節。其它的特徵、方面以及主題的優勢從具體實施方式
、附圖和權利要求書中將 是顯而易見的。
圖1是示例統計機器翻譯系統的圖。圖2示出了從文檔導出問題_回答對的示例。圖3示出了從查詢日誌導出查詢-摘錄對的示例。圖4示出了從短語集合導出短語_釋義對的示例。圖5示出了使用統計機器翻譯模型導出語境映射的示例。圖6是用於使用統計機器翻譯來擴展搜索查詢的示例過程。圖7是示例系統的框圖。各個圖中相同的附圖標記表示相同的元素。
具體實施例方式圖1是示例統計機器翻譯系統100的圖。統計機器翻譯系統100被用來將源語言 形式的一序列輸入單詞翻譯成目標語言形式的一序列翻譯的單詞。統計機器翻譯取決於統 計模型,所述統計模型基於在訓練語料庫中的單詞的出現之間的先驗概率和統計相關性。統計機器翻譯的常規應用假設源語言和目標語言兩者是不同的自然語言(例如,法語、英 語、德語或者阿拉伯語)。然而,原則上,作為輸入使用的自然語言和作為輸出提供的自然語 言不必是不同的。統計機器翻譯系統100包括兩個不同的模型語言模型117和翻譯模型113。語 言模型117在機器翻譯中被使用來確定文本段落是否可能是目標語言的形式(例如,使用 與目標語言相關聯的概率)。在輸入文本以源語言形式的情況下,翻譯模型113被用來導 出目標語言形式的潛在翻譯(例如,使用給定的源語言文本對應於目標語言文本的概率)。 在接收文本段落時,兩個模型都被用來實施段落的統計機器翻譯。基於任何潛在翻譯將在 目標語言中出現的可能性,語言模型117被用來確定由翻譯模型建議的潛在翻譯中的哪些 是最合理的。從而,文本段落的翻譯是由翻譯模型113預測和根據語言模型117可能是目 標語言的形式兩者。可以說兩個模型一起組成統計機器翻譯模型110。在統計機器翻譯模型110可被用來翻譯文本段落之前,從樣本數據(例如樣本文 本)訓練語言模型117和翻譯模型113兩者。樣本文本被用作為示例數據,語言模型117 和翻譯模型113均從該樣本文本導出。例如,可以使用目標語言形式的樣本文本的語言語 料庫130來訓練語言模型113。類似地,可以使用平行文本的語料庫120來訓練翻譯模型 117,所述平行文本的語料庫120包括源語言和目標語言兩者的樣本文本。在平行文本的語 料庫120中,對於源語言形式的文本的給定段落,提供了目標語言形式的對應的文本段落, 其被假定為源語言形式的給定段落的翻譯。在源語言形式的單詞和目標語言形式的單詞的出現之間的統計相關性被表示為 在特定單詞或短語之間的對準。在目標語言和源語言是相同的自然語言時,對準對的主要 含義是相同的。對準單詞或短語對被假定具有類似的含義,即其被假定是同義的。例如,單 詞「ship」在某些情況下(例如,在特定的語境中)可以與單詞「transport (運送)」對準。 從而,對於這些情況,「ship」與「transport」是同義的。統計機器翻譯模型110被用來將所接收的搜索查詢140翻譯成翻譯的搜索查詢。 每一個所接收的搜索查詢140包括描述信息搜索者希望從搜索語料庫180檢索的內容的文 本。理想地,所接收的搜索查詢140的翻譯識別同義詞,所述同義詞在所接收的搜索查詢中 未提供但是其改進響應於查詢的搜索結果,例如,在所接收的搜索查詢140和使用同義詞 導出的擴展的搜索查詢150具有大體上相同的含義時。在一些實施方式中,翻譯的查詢被用作為擴展的搜索查詢150。在其它的實施方式 中,翻譯的搜索查詢被用來將所接收的搜索查詢140擴展成擴展的搜索查詢150。擴展所接 收的搜索查詢140可以包括添加在翻譯的搜索查詢中出現而在所接收的查詢140中未出現 的單詞。擴展的搜索查詢150被用來搜索搜索語料庫180。由搜尋引擎160幫助搜索搜索 語料庫180。搜索搜索語料庫180產生響應於所接收的搜索查詢140可以提供給信息搜索 者的搜索結果170。搜尋引擎160可以是作為例如在一個或多個位置通過網絡相互連接的一個或多 個計算機上運行的電腦程式實現的搜索系統的部分。搜尋引擎160通過生成搜索結果對 查詢作出響應,所述搜索結果例如識別對應於查詢的在儲存庫中的位置的結果。在搜尋引擎160接收查詢時,搜尋引擎160使用信息檢索技術來識別相關的資源 (例如,在源集合中的文檔)。搜尋引擎160通常包括排名引擎(或其它軟體)來將與查詢有關的資源進行排名。可以使用用於針對給定的查詢為索引資源確定信息檢索分值的常規 技術來執行資源的排名。特定資源關於特定查詢詞語或關於其它所提供的信息的相關性可 以通過任何恰當的技術確定。為了下面的論述的目的,任何便利的統計機器翻譯實施方式可被用來翻譯文本。 在一些實施方式中,統計機器翻譯實施方式的下面的特徵的一個或多個可被配置來改進同 義詞選擇的效能。例如,可以預處理訓練語料庫來移除無關信息,例如標點符號或格式化標 志(例如,來自從網頁導出的語料庫的超文本標記語言(HTML)標誌)。在一些實施方式中, 根據常規實踐配置句子和塊對準、單詞對準以及短語提取。在一些實施方式中,導出查詢擴展的統計機器翻譯模型偏好在同義單詞之間的強 關聯的識別而不是流暢翻譯短語的生成。通常,在高度可能的同義詞之間的較少對準優於 微小可能的同義詞之間的許多對準。從而,統計機器翻譯實施方式可被配置來只識別在目 標短語和源短語之間的高度可能的對準。例如,統計機器翻譯實施方式可被配置來只有當 對準應用於兩方翻譯方向才對準短語-這樣的對準可能是精確的。從而,如果對準指示第 一短語翻譯成第二短語,而第二短語翻譯成第三短語(而不是翻譯回第一短語),則對準可 在翻譯模型中被省略。用於統計機器翻譯實施方式的配置的一個參數是空單詞概率。對於給定單詞對, 空單詞概率由統計機器翻譯模型用來確定允許源文本中多少比例的單詞不被映射到目標 文本中的單詞。對於平行文本的語料庫,源語言短語可以比對應的目標語言短語具有顯著 少的單詞。如下所述,這對於問題-回答對尤其正確。在這樣的情況下,可將實施方式的空 單詞概率設置得相對高。例如,當從回答通常比其對應的問題長得多的問題_回答對的平 行語料庫建立翻譯模型時,可將空單詞概率設置為值90%。使用迭代過程直到局部最優值被確定,期望_最大化(「EM」)技術可被用來估計參 數值和對準概率。EM技術計算概率模型中的變量的最大似然估計。EM技術是兩步驟過程。 期望步驟通過將觀測到的變量值原樣包括進來來計算對可能性的期望。最大化步驟通過將 在期望步驟中計算的期望的可能性最大化計算最大似然估計。過程在期望和最大化步驟之 間迭代,其中將在最大化步驟中計算的變量的值用於下一期望步驟。術語「EM技術」是指一 類有關的技術期望和最大化步驟提供路標以發展特定的EM技術。在一些實施方式中,其 它的技術被用來找尋最大似然估計而不是EM技術,例如梯度下降或者共軛梯度技術。使用諸如EM技術的技術,翻譯模型113被訓練來確定最可能的參數值和對準。下面的論述描述了用於訓練統計機器翻譯模型的三種不同的方法。在前兩種方法 中,從文本導出翻譯的搜索查詢,所述文本代表響應於搜索查詢將被提供的結果。換句話 說,在包括查詢(源語言)和對應的搜索結果(目標語言)的文本的平行語料庫上訓練翻 譯模型。理想地,查詢樣本代表可能由統計機器翻譯模型110接收並翻譯的搜索查詢。類 似地,對應的搜索結果代表將對各個樣本查詢作出響應的結果。在第一種方法中,以問題_回答對為基礎訓練翻譯模型。對於每一個問題_回答 對,問題表示查詢並且其對應的回答表示相關的結果。可以例如從常見問題(FAQ)文檔的 內容識別問題-回答對。這樣的文檔典型地包括一系列問題,並且對於每一個問題有各自 的回答。總的來說,可以分析任何文檔來確定文檔的內容是否包括可被併入問題-回答平 行語料庫的問題和回答。關於如何從文檔識別問題和回答的進一步詳情將在下面參考圖2進行描述。在 第二種方法中,可以以查詢-摘錄對為基礎訓練翻譯模型。每一個查詢_回答對 表示搜索查詢和響應於搜索查詢的對應的搜索結果的內容。例如,從例如搜尋引擎的信息 檢索系統的用戶接收的搜索查詢可以被記錄並被存儲。對於這些已存儲的搜索查詢中的每 一個,響應於接收搜索查詢而向用戶呈現的搜索結果也可以被存儲。在一些實施方式中,系 統可以進一步識別用戶訪問了哪些呈現的搜索結果(例如,用戶檢索了哪個文檔)。用戶訪 問過的這些搜索結果是可能與對應的搜索查詢尤其相關的搜索結果。可以將來自由每一個 搜索結果識別的文檔(例如摘錄)的內容的部分與搜索查詢配成對以形成添加到查詢-摘 錄平行語料庫中的查詢-摘錄對。關於如何從搜索查詢的記錄導出平行語料庫的進一步詳 情將在下面參考圖3進行描述。在第三種方法中,可以以同義短語_釋義對為基礎訓練翻譯模型。每一個短語-釋 義對包括短語和對應的釋義,所述釋義具有與其對應的短語大致相同的含義。在一些實施 方式中,可以人工地指定短語-釋義對(例如通過語言專家)。在其它的實施方式中,最初 從文本的語料庫自動識別短語。來自語料庫的為第一自然語言的短語被選擇並且被翻譯成 第二不同自然語言形式的另一個短語。使用任何便利的全自動或半自動機器翻譯技術可以 實現該翻譯。第二自然語言形式的短語然後被翻譯回第一自然語言。假定該過程生成的每 一個雙重翻譯的短語是原始輸入短語的同義釋義。關於如何從這樣的翻譯導出平行語料庫 的進一步詳情將在下面參考圖4進行描述。用來訓練語言模型117的目標語言語料庫130可以改變。在一些實施方式中,該 語料庫僅是來自搜索語料庫180的內容的樣本。例如,對於網際網路搜尋引擎,可以使用由搜 索引擎檢索並編目的網頁的語料庫中的內容來訓練語言模型。替選地,在一些其它的實施 方式中,使用已記錄的搜索查詢來訓練語言模型。圖2示出了從文檔210導出問題-回答對235的示例。可能包括問題和回答的文 檔可以基於可能在這樣的文檔中出現的詞語識別。例如,在網際網路上找到的文檔中,關鍵詞 「FAQ」或者「Frequently AskedQuestions (常見問題)」經常在以一系列問題和對應的回答 為特徵的網頁上出現。這樣的關鍵詞可首先被用來識別潛在地包含問題和回答的文檔的集 合。在一些實施方式中,分類器被訓練來識別文檔的語料庫中的頁面。這樣的分類器可以 由例如指定對問題-回答文檔來說是共同的特徵(例如在文檔內包括五「wh-單詞」(who、 what.why.when以及where)的關鍵詞或者問號和其它標點符號的出現)的專家用戶訓練。 分類器可以在文檔的語料庫上使用來識別哪些可能包含問題和回答。在識別了潛在的問題_回答文檔的集合後,從文檔提取單獨的問題_回答對。可 以基於標點符號(例如界定問題的結束的問號)、格式化標識符(例如在問題和回答之間的 段落分隔符)、列表標記(例如諸如「Q: 」或者「1 」的問題順序標識符)以及詞彙線索 (例如用於界定問題的開始的開頭大寫的wh-單詞)提取問題和其對應的回答。對於在文檔210的內容中指定的每一個問題,從文檔提取問題文本230和問題的 對應的回答文本220。問題文本230和回答文本220表示添加到平行語料庫的問題-回答 對235。可以類似地處理集合中的所有文檔以導出平行語料庫240中的問題-回答對。圖3示出了從查詢日誌310導出查詢-摘錄對的示例。查詢日誌310包括已記錄 的搜索查詢350。對於每一個已記錄的搜索查詢350,對應的搜索結果353也在查詢日誌310中被識別。搜索結果353的每一個搜索結果識別包含文本的文檔。每一個文檔可以與 資料庫或者一些其它內容容器中的記錄、文件、網頁相對應。在日誌310中記錄的搜索結果 353是與搜索查詢350最可能相關的那些結果。
在一些實施方式中,使用額外的信息來確定響應於搜索查詢而呈現的搜索結果中 的哪些是最相關的。例如,由用戶檢查(例如基於點擊或文檔訪問記錄)的搜索結果可被 認為是被確定為與搜索查詢350相關的搜索結果。每一個搜索結果353與來自由搜索結果353識別的文檔的內容357相關聯。在一 些實施方式中,內容357是由搜索結果353識別的文檔的文本。在一些實施方式中,內容 357包括位置標識符(例如從其可以找到內容357的統一資源定位器(URL)或文件/路徑 名)。在其它的實施方式中,內容357包括由其它文檔使用來指向文檔的文本(例如在網頁 中使用來指向搜索結果353識別的文檔的錨文本)。在一些實施方式中,每一個搜索結果353與在響應於對應的搜索查詢350而呈現 每一個搜索結果時描述搜索結果353的特徵的屬性355相關聯。例如,次序屬性描述特定 搜索結果相對於其它搜索結果所呈現的位置。例如,搜索結果的次序可以是五,其指示搜索 結果在響應於搜索查詢350而呈現的搜索結果中排第五。在一些實施方式中,訪問長度屬 性描述用戶訪問由特定搜索結果識別的給定文檔的時間長度。屬性也可以包括關於與何時 向用戶提供搜索結果相比較(或者替選地,與何時接收搜索查詢相比較)用戶何時訪問搜 索結果的信息。例如,屬性可以指定在用戶提交搜索查詢350或者響應於搜索查詢350而 呈現搜索結果25秒鐘後用戶訪問給定的搜索結果。搜索結果的屬性355可被用來從日誌310過濾查詢350和對應的搜索結果353。 過濾可被用來移除相關性未超過指定的閾值的任何搜索結果。通過為任何給定的屬性指定 條件可以測量搜索結果的相關性。可以指定條件使滿足條件的搜索結果被省略。在一些實施方式中,條件是指定的閾值。例如,只有低於第五搜索結果出現的搜索 結果才被使用。在一些實施方式中,在最上面的(例如前五個)結果可能被用戶訪問時該 規則是有效的。替選地,用戶訪問結果不到十秒鐘的所有搜索結果可被省略。可以基於可 用的屬性指定用於選擇或者省略搜索結果的其它條件。對於已記錄的搜索查詢350和對應的搜索結果353中的每一對,導出查詢-摘錄 對320。查詢-摘錄對320包括已記錄的搜索查詢350和對應的摘錄340。摘錄340從搜 索結果353導出,尤其從搜索結果識別的內容357導出。在一些實施方式中,摘錄340是從 內容357提取的文本串。文本串可以包括與給定的搜索查詢350相關的單詞。例如,文本串可以包括在內 容357中出現並且包括在搜索查詢350中出現的任何單詞的句子或者句子的部分。摘錄 340也可以包括其它內容,例如與內容相關聯的標題、內容的位置標識符或者用來指向其它 文檔中的內容的錨文本。從而,對於任何給定的搜索查詢,可以從日誌310中記錄的搜索結 果的每一個導出多個查詢-摘錄對320。將從日誌310導出的每一個查詢-摘錄對320添 加到查詢-摘錄對的平行語料庫380中用於在訓練翻譯模型(例如圖1的翻譯模型113) 時使用。圖4示出了從短語集合410導出短語-釋義對455的示例。短語集合410是第一 自然語言形式的單個短語的集合,其與搜索語料庫的自然語言相同。在一些實施方式中,從文檔的語料庫的內容自動識別這些短語。在其它的實施方式中,可以由語言專家指定短語 或者甚至短語-釋義對。
將集合410中的輸入短語415翻譯成第二不同的自然語言。可以由將第一自然語 言的文本翻譯成第二自然語言的文本(例如用於將英語翻譯成中文)的第一翻譯組件420 執行翻譯。第一翻譯組件420可以是包括通過語言期望或者使用機器翻譯的翻譯的任何便 利的翻譯裝置。翻譯的結果是第二自然語言形式的經翻譯的短語430。假定為輸入短語415 的翻譯的經翻譯的短語430具有與輸入短語415類似的含義。第二翻譯組件440再次翻譯經翻譯的短語用於將第二自然語言的文本翻譯成第 一自然語言的文本(例如,用於將中文翻譯回英語)。因此產生的雙重翻譯的短語是與輸入 短語415有相同自然語言的短語,並且被假定具有與經翻譯的短語430類似的含義。通過 關聯,雙重翻譯的短語被假定為輸入短語415的同義釋義450。在通過以給定的外語來翻譯而將一種語言形式的短語從相同語言的另一個字符 串導出的情況下,所導出的字符串可被認為是在該外語上迴轉(Pivot)而獲取的。導出的 釋義450和輸入短語415被用作為短語-釋義對455並且被添加到平行語料庫480中。假設諸如短語-釋義對455的特定短語-釋義對,輸入短語415翻譯成釋義450 的可能性被定義為輸入短語415翻譯成經翻譯的短語430和經翻譯的短語430翻譯成釋義 450的聯合可能性。在一些實施方式中,兩個事件被假定為獨立可能的,並且從而可被表示 為p(para\in) = max p(trans\in) p(para\trans)p{in\para) = max p(trans\para) p(in\trans)在此,將輸入短語表示為in,釋義表示為para以及翻譯的短語表示為trans。總 的來說,給定的短語-釋義對可以通過在多個外語上迴轉來獲取。對的翻譯可能性可以從 每一個迴轉語言形式的對的翻譯獲取。在一些實施方式中,短語-釋義對的翻譯可能性可 被賦值為所有外語形式的該對的所有翻譯可能性的總和。然而,這樣可能將過高的概率賦 值給以許多語言形式出現的短語-釋義對。在其它的實施方式中,對的翻譯可能性是任何 外語的最大翻譯可能性。圖5示出了使用統計機器翻譯模型520導出語境映射580的示例。在一些實施方 式中,在接收到搜索查詢時,使用統計機器翻譯模型520來將搜索查詢翻譯成擴展的搜索 查詢。這樣的實施方式可被描述為同步在線翻譯,因為模型520被用來在每一個搜索查詢 被接收時對該搜索查詢進行翻譯。在其它的實施方式中,使用統計機器翻譯模型520將預先存在的搜索查詢翻譯成 對應的預先存在的翻譯。可將這些預先存在的翻譯記錄在語境映射580中。之後,可以基 於語境映射580中的預先存在的翻譯來對新的搜索查詢進行擴展。這樣的實施方式可被描 述為異步離線翻譯,因為首先翻譯預先存在的搜索查詢,並且僅在之後使用翻譯過程的結 果來擴展搜索查詢。在統計機器翻譯需要相對更多的資源時,該離線方法可以比在線方法 更有效。因為擴展基於統計機器翻譯模型520確定的預先存在的翻譯,所以查詢的擴展最 終仍然基於統計機器翻譯模型520識別的同義詞。識別包括搜索查詢515的查詢日誌510。搜索查詢515代表可能在之後被接收並被擴展的搜索查詢。在一些實施方式中,查詢日誌310是從搜尋引擎(例如圖1中示出的 搜尋引擎160)接收的搜索查詢的記錄。來自查詢日誌510的搜索查詢515被用作為可從 上述訓練方法導出的統計機器學習模型520上的輸入。由統計翻譯模型520翻譯的每一個輸入搜索查詢產生該輸入搜索查詢的對應的 翻譯。每一個翻譯的搜索查詢已經通過由統計機器翻譯模型520所執行的翻譯潛在地擴 展。例如,搜索查詢「how to become amason (如何成為石匠)」的翻譯可以產生經翻譯的 搜索查詢「how to bea bricklayer (如何是磚匠),,。比較模塊540將輸入搜索查詢與翻譯的搜索查詢相比較以確定哪些同義詞在翻 譯中被使用,如果同義詞存在的話。在一些實施方式中,比較模塊540將輸入查詢與翻譯的 查詢逐個單詞地進行比較以確定哪些單詞在翻譯中被替換。在翻譯的搜索查詢中不同的任 何單詞被識別為輸入搜索查詢中的對應的單詞的同義詞560。同義詞(單個單詞或者同義詞短語)可以替換原始詞句中的任何單個單詞。例 如,從對上述示例搜索查詢所進行的比較可以確定單詞「mason (石匠)」在翻譯中由單詞 "bricklayer (磚匠),,替換,以及單詞"become (成為)」由短語"be (是)」替換。任何數量的單詞可以在原始查詢中的被替換的單詞的左邊或者右邊出現。這些 單詞被認為是同義詞替換的語境550。從而,被替換的單詞用特定的同義詞替取,被給予 輸入搜索查詢中的被替換的單詞的語境。這些左邊和右邊的單詞作為左邊和右邊的語境 與同義詞一起被存儲在語境映射580中。例如,從上述示例比較,單詞「mason」、其同義詞 「bricklayer」以及左邊的語境「how to become a」被添加到語境映射中。單詞「become」、 其同義詞「be」、左邊的語境「how to」以及右邊的語境「a mason」也被添加到語境映射中。在處理查詢日誌510中的搜索查詢後,語境映射包含多個目標單詞。目標單詞中 的每一個是對於記錄的搜索查詢中的至少一個由機器翻譯模型用同義詞替換的單詞。每一 個目標單詞與至少一個同義詞相關聯並且每一個同義詞與相應的左邊和右邊的語境相關 聯。在一些實施方式中,任何一個同義詞可以與多個左邊和右邊的語境相關聯,所述左邊和 右邊的語境對相同目標單詞的其它同義詞的左邊和右邊的語境來說均為唯一的。在一些實施方式中,對於語境映射580中的任何給定單詞,具有相關聯的語境的 每一個潛在同義詞與分值相關聯。潛在同義詞的分值表示給定的同義詞是給定語境中的單 詞的恰當擴展的可能性。該分值從在記錄的搜索查詢被翻譯時由機器翻譯模型給出的翻譯 可能性導出。翻譯可能性是輸出文本多大可能是輸入文本的翻譯的測量。通常,翻譯可能 性包括與翻譯概率相結合的語言概率,正如統計機器翻譯模型所預測。在選擇將多個同義詞中的哪個用於擴展查詢時可以使用同義詞的分值。例如,特 定的語境映射可以包括與同義詞「knot」和「Windsor」相關聯的單詞「tie」,其中兩個同義 詞的語境是相同的(例如「how totie a」)。在使用語境映射來擴展字符串「how to tie a tie」時,同義詞「knot」被使用而不是同義詞「Windsor」,因為「knot」與比同義詞「Windsor」 的分值高的分值相關聯。圖6是用於使用統計機器翻譯來擴展搜索查詢的示例過程600。為了便利,將參照 執行過程600的系統來描述過程600。系統接收搜索查詢(步驟610)。搜索查詢可由尋找 信息的用戶從搜尋引擎(例如圖1中的搜尋引擎160)提供。在其它的實施方式中,從在其 中搜索查詢被程序性地導出的另一個過程或者應用接收搜索查詢。
系統600對所接收的搜索查詢進行擴展(步驟620)。特別地,系統可以使用語境 映射(例如圖5的語境映射580),根據所識別的用於在搜索查詢中出現的單詞的同義詞來 擴展搜索查詢。在一些實施方式中,系統對在所接收的搜索查詢中出現的單詞進行選擇(步驟 630)。基於所選擇的單詞,系統從語境映射識別潛在的同義詞(步驟640)。在語境映射中, 所選擇的單詞與數個同義詞相關聯,所述同義詞每一個具有各自的語境。語境映射的每一 個同義詞例如使用統計機器翻譯導出。系統基於與同義詞相關聯的語境和所接收的搜索查 詢中的所選擇的單詞的語境來選擇數個同義詞中的一個(步驟650)。具有與所選擇的單詞 的語境相匹配的語境的同義詞被用來擴展 搜索查詢。特別地,系統基於同義詞的左邊或右邊的語境是否與所選擇的單詞的左邊或右邊 的語境相匹配來識別特定的同義詞。例如,對於查詢「how to tie a bow」,在該查詢中的單 詞「tie」的左邊和右邊的語境分別是「how to」和「a bow」。在語境映射中,單詞tie可能 與兩個同義詞「equal」和「knot」相關聯。如果「how to」或者「a bow」是與「knot」相關聯 的左邊或右邊的語境,則「knot」被選擇為「tie」的同義詞。在一些實施方式中,如果兩個 語境中的單詞的某些部分是相同的,則該兩個語境被認為是相匹配的。例如,如果兩個左邊 的語境的最後兩個單詞是相同的,則一個左邊的語境與另一個左邊的語境相匹配。類似地, 如果兩個右邊的語境的前兩個單詞是相同的,則一個右邊的語境與另一個右邊的語境相匹 配。在一些實施方式中,當多個同義詞的語境與查詢中被擴展的單詞的語境相匹配或者部 分匹配時,具有最長語境的同義詞被選擇。系統通過將識別的同義詞添加到查詢中來使用該識別的同義詞來擴展搜索查詢 (步驟660)。通過用同義詞擴增所接收的搜索查詢來擴展搜索查詢。在一些實施方式中, 僅將同義詞附加到查詢。在其它的實施方式中,搜索查詢被重新表述以使被擴展的單詞和 同義詞以邏輯析取(例如「或」)的方式結合。例如,查詢「how to be a mason」被擴展成 "how to (be or become) a (mason or bricklayer) 」。使用擴展的搜索查詢來搜索搜索語料 庫(步驟670)。對擴展的搜索查詢作出響應的識別特定資源(例如網頁、圖像、文本文檔、 過程、多媒體內容)的搜索結果隨後可以被(例如向用戶)返回。替選地,如上所述,使用在線方法的統計機器翻譯可以被使用(例如在步驟620)。 在該方法中,將搜索查詢直接翻譯成對應的翻譯的搜索查詢。可以將翻譯的搜索查詢和搜 索查詢進行比較以識別在翻譯中所使用的同義詞。系統使用這些同義詞來擴展搜索查詢。 使用擴展的搜索查詢來搜索搜索語料庫(步驟670)。圖7示出了適於實現設備或者執行在本說明書中描述的主題的各個方面的方法 的示例系統700的框圖。系統700可以包括處理器710、存儲器720、存儲裝置730以及輸 入/輸出裝置740。組件710、720、730和740中的每一個使用系統總線750相互連接。處 理器710能夠處理用於在系統700內執行的指令。在一個實施方式中,處理器710是單線 程處理器。在另一個實施方式中,處理器710是多線程處理器。處理器710能夠處理存儲 在存儲器720中或者在存儲裝置730上的指令來為輸入/輸出裝置740上的用戶界面顯示 圖形信息。存儲器720是存儲系統700內的信息的計算機可讀介質,諸如易失性或者非易失 性的。存儲裝置730能夠為系統700提供持久存儲。存儲裝置730可以是軟盤裝置、硬碟裝置、光碟裝置或者帶裝置,或者其它合適的持久存儲裝置。輸入/輸出裝置740為系統700 提供輸入/輸出操作。在一個實施方式中,輸入/輸出裝置740包括鍵盤和/或指示裝置。 在另一個實施方式中,輸入/輸出裝置740包括用於顯示圖形用戶界面的顯示單元。在本說明書中描述的主題和功能操作的實施例可以在包括本說明書中公開的結 構和其結構等效物的數字電子電路中或者計算機軟體、固件或硬體中或者在上述的一個或 多個的組合中實現。在本說明書中描述的主題的實施例可以作為一個或多個電腦程式產 品來實現,即用於通過數據處理設備來執行或者控制數據處理設備的操作的編碼在有形的 程序載體上的電腦程式指令的一個或多個模塊。有形的程序載體可以是傳播信號或者計 算機可讀介質。傳播信號是例如機器生成的電的、光的或者電磁的信號的人工生成的信號, 所述信號被生成來對信息進行編碼以傳輸到合適的接收器設備以通過計算機來執行。計算 機可讀介質可以是機器可讀存儲裝置、機器可讀存儲襯底、存儲器裝置、實現機器可讀傳播 信號的物質的組成物或者上述的一個或多個的組合。術語「數據處理設備」包含用於處理數據的所有設備、裝置和機器,作為示例包括 可編程的處理器、計算機或者多個處理器或計算機。除硬體外,設備可以包括創建用於正討 論的電腦程式的執行環境的代碼,例如構成處理器固件、協議棧、資料庫管理系統、操作 系統或者上述中的一個或多個的組合的代碼。電腦程式(也被稱為程序、軟體、軟體應用、腳本或代碼)可以以任何形式的編 程語言來編寫,所述程式語言包括編譯或解釋語言、或者聲明或過程語言,並且所述計算機 程序可以以任何形式部署,所述形式包括作為獨立程序或者作為模塊、組件、子程序或適合 於在計算環境中使用的其它單元。電腦程式不需要與文件系統中的文件相對應。程序可 被存儲在保持其它程序或數據(例如存儲在標記語言文檔中的一個或多個腳本)的文件的 部分中、在專用於正討論的程序的單個文件中、或者在多個協調文件(例如存儲一個或多 個模塊、子程序或者代碼的部分的文件)中。電腦程式可被部署為在一個計算機上或者 在位於一個場所或跨多個場所分布並通過通信網絡相互連接的多個計算機上執行。在本說明書中描述的過程和邏輯流程可以由一個或多個可編程的處理器來執行, 所述可編程的處理器執行一個或多個電腦程式來通過對輸入數據進行操作並且生成輸 出來執行功能。所述過程和邏輯流程也可以由專用邏輯電路來執行,以及設備也可以作為 專用邏輯電路來實現,所述專用邏輯電路例如FPGA(現場可編程門陣列)或ASIC(專用集 成電路)。作為示例,適合於執行電腦程式的處理器包括通用和專用微處理器兩者、以及 任何類型的數字計算機的任何一個或多個處理器。通常,處理器將從只讀存儲器或隨機存 取存儲器或兩者接收指令和數據。計算機的必要元素是用於執行指令的處理器和用於存儲 指令和數據的一個或多個存儲器裝置。通常,計算機也將包括或者被操作地連接來從用於 存儲數據的一個或多個大容量存儲裝置接收數據或者將數據傳送到所述大容量存儲裝置 或者兩者均可,所述大容量存儲裝置例如磁、磁光碟或光碟。然而,計算機不必具有這樣的 裝置。此外,計算機可被嵌入另一個裝置中,所述另一個裝置例如行動電話、個人數字助理 (PDA)、移動音頻或視頻播放器、遊戲控制臺、全球定位系統(GPS)接收器,僅列舉了一些。適合於存儲電腦程式指令和數據的計算機可讀介質包括所有形式的非易失性 存儲器、介質和存儲器裝置,作為示例包括例如EPROM、EEPR0M和快閃記憶體裝置的半導體存儲裝置;例如內部硬碟或可移動盤的磁碟;磁光碟;以及CD-ROM和DVD-ROM盤。處理器和存儲 器可由專用邏輯電路增補或者併入專用邏輯電路。為了提供與用戶的交互,在本說明書中描述的主題的實施例可以在具有以下裝置 的計算機上實現用於向用戶顯示信息的顯示裝置,例如CRT(陰極射線管)或LCD(液晶顯 示)監視器;以及鍵盤和例如滑鼠或跟蹤球的指示裝置,通過所述鍵盤和指示裝置用戶可 以向計算機提供輸入。也可以使用其它類型的裝置來提供與用戶的交互;例如向用戶提供 的反饋可以是任何形式的感官反饋,例如視覺反饋、聽覺反饋或觸覺反饋;並且可以以任何 形式接收來自用戶的輸入,所述形式包括聲音、言語或觸覺輸入。雖然 本說明書包含許多具體的實施方式細節,但是這些不應當被解釋為對任何發 明的範圍或者可能主張的專利權項的範圍的限制,相反地作為可以具體到特定發明的特定 實施例的特徵的描述。在本說明書中,在單獨實施例的背景中描述的某些特徵也可在單個 實施例中以組合的方式實現。相反地,在單個實施例的背景中描述的各個特徵也可單獨地 在多個實施例中或以任何合適的子組合實現。此外,雖然特徵可能在上面被描述為在某些 組合中起作用,並且甚至最初被主張為如此,但是來自所主張的組合中的一個或多個特徵 在一些情況下可從組合刪去,以及所主張的組合可被用於子組合或子組合的變體。類似地,雖然操作在附圖中以特定的次序描述,但是這不應當被理解為要求以示 出的特定次序或以相繼次序來執行這樣的操作,或者所有圖示的操作被執行來獲得期望的 結果。在某些情況中,多任務和並行處理可能是有益的。此外,在上面描述的實施例中的各 個系統組件的分離不應當被理解為在所有的實施例中要求這樣的分離,並且應當理解所描 述的程序組件和系統通常可以被一起集成在單個軟體產品中或包裝入多個軟體產品中。已描述了在本說明書中描述的主題的特定實施例。其它實施例在權利要求書的範 圍內。例如,在權利要求書中敘述的行為可以以不同的次序執行並且仍然獲得期望的結果。 作為一個示例,在附圖中描述的過程不必要求示出的特定次序或者相繼次序來獲得期望的 結果。在某些實施方式中,多任務和並行處理可能是有益的。
權利要求
一種計算機實現的方法,包括接收搜索查詢;基於在所接收的搜索查詢中的詞語的出現語境來選擇在所述搜索查詢中的所述詞語的同義詞,所述同義詞已從所述詞語的統計機器翻譯導出;用所述同義詞來擴展所接收的搜索查詢;以及使用所擴展的搜索查詢來搜索文檔的集合。
2.如權利要求1所述的方法,進一步包括識別多個已記錄的搜索查詢,所述詞語在所述已記錄的搜索查詢的每一個中出現; 使用統計機器翻譯來將所述多個已記錄的搜索查詢翻譯成相應的翻譯的搜索查詢; 從所述翻譯的搜索查詢識別多個潛在的同義詞,潛在的同義詞是在所述翻譯的搜索查 詢中的所述詞語的一個或多個特有的翻譯,每一個潛在的同義詞具有相關聯的出現語境; 以及通過將在所接收的查詢中的所述詞語的所述出現語境與在所述翻譯的搜索查詢中的 每一個潛在的同義詞的所述出現語境進行匹配,從所述多個潛在的同義詞選擇所述同義 詞。
3.如權利要求1所述的方法,其中所述統計機器翻譯使用雙向短語對準。
4.如權利要求1所述的方法,進一步包括從多個文檔識別問題短語和對應的回答短語;以及將所述問題短語用作為源語言,並且將所述對應的回答短語用作為目標語言,建立用 於所述統計機器翻譯的翻譯模型。
5.如權利要求1所述的方法,進一步包括 識別第一自然語言形式的第一短語;通過將所述第一短語翻譯成第二自然語言來生成所述第二自然語言形式的第二短語;通過將所述第二短語翻譯回所述第一自然語言來識別所述第一短語的釋義;以及 將所述第一短語用作為源語言,並且將所述釋義用作為對應的目標語言,建立用於所 述統計機器翻譯的翻譯模型。
6.如權利要求1所述的方法,進一步包括識別搜索結果訪問日誌,在所述搜索結果訪問日誌中的每一個記錄識別相應的已記錄 的搜索查詢和對應的摘錄,相應的已記錄的搜索查詢的所述摘錄是來自用戶所訪問的文檔 的內容的部分,所述文檔已經響應於接收所述相應的已記錄的搜索查詢而作為搜索結果被 呈現給所述用戶;以及將來自所述搜索結果訪問日誌的所述搜索查詢用作為源語言,並且將所述對應的摘錄 用作為目標語言,建立用於所述統計機器翻譯的翻譯模型。
7.如權利要求6所述的方法,進一步包括基於與每一個記錄相關聯的相應的信息來過濾來自所述查詢日誌的記錄,所述相應的 信息是以下的一個或多個所述文檔相對於作為搜索結果呈現給所述用戶的其它文檔的位置; 在已向所述用戶提供所述搜索結果和所述用戶訪問所述文檔之間流逝的時間量;以及在所述用戶訪問所述文檔和所述用戶執行隨後的操作之間流逝的時間量。
8.如權利要求6所述的方法,其中所述來自文檔的內容的部分是以下的一個或多個 所述文檔的標題;與所述文檔相關聯的錨詞語;以及所述文檔的摘要,所述摘要包含來自所述相應的已記錄的搜索查詢的詞語。
9.一種計算機實現的方法,包括接收對文檔的語料庫進行搜索的請求,所述請求指定搜索查詢; 使用統計機器翻譯將所指定的搜索查詢翻譯成擴展的搜索查詢,所指定的搜索查詢和 所擴展的搜索查詢是相同的自然語言形式;以及響應於所述請求,使用所擴展的搜索查詢來搜索文檔的集合。
10.一種編碼在有形的程序載體上、可操作來使數據處理設備執行操作的電腦程式 產品,所述操作包括接收搜索查詢;基於在所接收的搜索查詢中的詞語的出現語境來選擇在所述搜索查詢中的所述詞語 的同義詞,所述同義詞已從所述詞語的統計機器翻譯導出; 用所述同義詞來擴展所接收的搜索查詢;以及 使用所擴展的搜索查詢來搜索文檔的集合。
11.如權利要求10所述的電腦程式產品,可進一步操作來執行包括以下的操作 識別多個已記錄的搜索查詢,所述詞語在所述已記錄的搜索查詢的每一個中出現; 使用統計機器翻譯來將所述多個已記錄的搜索查詢翻譯成相應的翻譯的搜索查詢; 從所述翻譯的搜索查詢識別多個潛在的同義詞,潛在的同義詞是在所述翻譯的搜索查詢中的所述詞語的一個或多個特有的翻譯,每一個潛在的同義詞具有相關聯的出現語境; 以及通過將在所接收的查詢中的所述詞語的所述出現語境與在所述翻譯的搜索查詢中的 每一個潛在的同義詞的所述出現語境進行匹配,從所述多個潛在的同義詞選擇所述同義 詞。
12.如權利要求10所述的電腦程式產品,其中所述統計機器翻譯使用雙向短語對準。
13.如權利要求10所述的電腦程式產品,可進一步操作來執行包括以下的操作 從多個文檔識別問題短語和對應的回答短語;以及將所述問題短語用作為源語言,並且將所述對應的回答短語用作為目標語言,建立用 於所述統計機器翻譯的翻譯模型。
14.如權利要求10所述的電腦程式產品,可進一步操作來執行包括以下的操作 識別第一自然語言形式的第一短語;通過將所述第一短語翻譯成第二自然語言來生成所述第二自然語言形式的第二短語;通過將所述第二短語翻譯回所述第一自然語言來識別所述第一短語的釋義;以及 將所述第一短語用作為源語言,並且將所述釋義用作為對應的目標語言,建立用於所 述統計機器翻譯的翻譯模型。
15.如權利要求10所述的電腦程式產品,可進一步操作來執行包括以下的操作識別搜索結果訪問日誌,在所述搜索結果訪問日誌中的每一個記錄識別相應的已記錄 的搜索查詢和對應的摘錄,相應的已記錄的搜索查詢的所述摘錄是來自用戶所訪問的文檔 的內容的部分,所述文檔已經響應於接收所述相應的已記錄的搜索查詢而作為搜索結果被 呈現給所述用戶;以及將來自所述搜索結果訪問日誌的所述搜索查詢用作為源語言,並且將所述對應的摘錄 用作為目標語言,建立用於所述統計機器翻譯的翻譯模型。
16.如權利要求15所述的電腦程式產品,可進一步操作來執行包括以下的操作基於與每一個記錄相關聯的相應的信息來過濾來自所述查詢日誌的記錄,所述相應的 信息是以下的一個或多個所述文檔相對於作為搜索結果呈現給所述用戶的其它文檔的位置; 在已向所述用戶提供所述搜索結果和所述用戶訪問所述文檔之間流逝的時間量;以及 在所述用戶訪問所述文檔和所述用戶執行隨後的操作之間流逝的時間量。
17.如權利要求15所述的電腦程式產品,其中所述來自文檔的內容的部分是以下的 一個或多個所述文檔的標題;與所述文檔相關聯的錨詞語;以及所述文檔的摘要,所述摘要包含來自所述相應的已記錄的搜索查詢的詞語。
18.—種編碼在有形的程序載體上、可操作來使數據處理設備執行操作的電腦程式 產品,所述操作包括接收對文檔的語料庫進行搜索的請求,所述請求指定搜索查詢; 使用統計機器翻譯將所指定的搜索查詢翻譯成擴展的搜索查詢,所指定的搜索查詢和 所擴展的搜索查詢是相同的自然語言形式;以及響應於所述請求,使用所擴展的搜索查詢來搜索文檔的集合。
19.一種系統,包括被配置來執行操作的一個或多個計算機,所述操作包括 接收搜索查詢;基於在所接收的搜索查詢中的詞語的出現語境來選擇在所述搜索查詢中的所述詞語 的同義詞,所述同義詞已從所述詞語的統計機器翻譯導出; 用所述同義詞來擴展所接收的搜索查詢;以及 使用所擴展的搜索查詢來搜索文檔的集合。
20.如權利要求19所述的系統,所述系統被進一步配置來執行包括以下的操作 識別多個已記錄的搜索查詢,所述詞語在所述已記錄的搜索查詢的每一個中出現; 使用統計機器翻譯來將所述多個已記錄的搜索查詢翻譯成相應的翻譯的搜索查詢; 從所述翻譯的搜索查詢識別多個潛在的同義詞,潛在的同義詞是在所述翻譯的搜索查詢中的所述詞語的一個或多個特有的翻譯,每一個潛在的同義詞具有相關聯的出現語境; 以及通過將在所接收的查詢中的所述詞語的所述出現語境與在所述翻譯的搜索查詢中的 每一個潛在的同義詞的所述出現語境進行匹配,從所述多個潛在的同義詞選擇所述同義詞。
21.如權利要求19所述的系統,其中所述統計機器翻譯使用雙向短語對準。
22.如權利要求19所述的系統,所述系統被進一步配置來執行包括以下的操作 從多個文檔識別問題短語和對應的回答短語;以及將所述問題短語用作為源語言,並且將所述對應的回答短語用作為目標語言,建立用 於所述統計機器翻譯的翻譯模型。
23.如權利要求19所述的系統,所述系統被進一步配置來執行包括以下的操作 識別第一自然語言形式的第一短語;通過將所述第一短語翻譯成第二自然語言來生成所述第二自然語言形式的第二短語;通過將所述第二短語翻譯回所述第一自然語言來識別所述第一短語的釋義;以及 將所述第一短語用作為源語言,並且將所述釋義用作為對應的目標語言,建立用於所 述統計機器翻譯的翻譯模型。
24.如權利要求19所述的系統,所述系統被進一步配置來執行包括以下的操作 識別搜索結果訪問日誌,在所述搜索結果訪問日誌中的每一個記錄識別相應的已記錄的搜索查詢和對應的摘錄,相應的已記錄的搜索查詢的所述摘錄是來自用戶所訪問的文檔 的內容的部分,所述文檔已經響應於接收所述相應的已記錄的搜索查詢而作為搜索結果被 呈現給所述用戶;以及將來自所述搜索結果訪問日誌的所述搜索查詢用作為源語言,並且將所述對應的摘錄 用作為目標語言,建立用於所述統計機器翻譯的翻譯模型。
25.如權利要求24所述的系統,所述系統被進一步配置來執行包括以下的操作基於與每一個記錄相關聯的相應的信息來過濾來自所述查詢日誌的記錄,所述相應的 信息是以下的一個或多個所述文檔相對於作為搜索結果呈現給所述用戶的其它文檔的位置; 在已向所述用戶提供所述搜索結果和所述用戶訪問所述文檔之間流逝的時間量;以及 在所述用戶訪問所述文檔和所述用戶執行隨後的操作之間流逝的時間量。
26.如權利要求24所述的系統,其中所述來自文檔的內容的部分是以下的一個或多個所述文檔的標題;與所述文檔相關聯的錨詞語;以及所述文檔的摘要,所述摘要包含來自所述相應的已記錄的搜索查詢的詞語。
27.—種系統,包括被配置來執行操作的一個或多個計算機,所述操作包括 接收對文檔的語料庫進行搜索的請求,所述請求指定搜索查詢; 使用統計機器翻譯將所指定的搜索查詢翻譯成擴展的搜索查詢,所指定的搜索查詢和 所擴展的搜索查詢是相同的自然語言形式;以及響應於所述請求,使用所擴展的搜索查詢來搜索文檔的集合。
全文摘要
用於擴展搜索查詢的方法、系統和設備,包括電腦程式產品。一個方法包括接收搜索查詢;基於在所接收的搜索查詢中的詞語的出現語境來選擇搜索查詢中的詞語的同義詞,所述同義詞已從所述詞語的統計機器翻譯導出;以及用所述同義詞來擴展所接收的搜索查詢並且使用擴展的搜索查詢來搜索文檔的集合。替選地,另一個方法包括接收對文檔的語料庫進行搜索的請求,所述請求指定搜索查詢;使用統計機器翻譯來將指定的搜索查詢翻譯成擴展的搜索查詢,所指定的搜索查詢和擴展的搜索查詢是相同的自然語言形式;以及響應於請求而使用擴展的搜索查詢來搜索文檔的集合。
文檔編號G06F17/28GK101878476SQ200880102717
公開日2010年11月3日 申請日期2008年6月20日 優先權日2007年6月22日
發明者亞歷山大·L·瓦謝爾曼, 斯特凡·裡茨勒 申請人:谷歌公司