新四季網

結合搜索結果進行蹤跡識別的系統和方法

2023-05-12 13:33:21

專利名稱:結合搜索結果進行蹤跡識別的系統和方法
結合搜索結果進行蹤跡識別的系統和方法
背景技術:
在線搜索和廣告對於從事電子商務的企業可能是重要的收入來源。與諸如超文本 標記語言(HTML)和超文本傳輸協議(HTTP)之類的技術相關聯的過程使得網頁能夠被配置 來顯示搜索結果和/或廣告。在線搜索是消費者定位網際網路上的信息、商品或服務的方式。 消費者可使用在線搜尋引擎來鍵入一個或多個關鍵字(也稱為搜索字詞或搜索查詢),以 便搜索具有與該(一個或多個)關鍵字有關的信息的頁面或網站。在搜尋引擎頁面上示出 的搜索結果包括去往具有與該(一個或多個)關鍵字有關的內容的頁面或站點的連結。提 供給用戶的搜索結果可能包括也可能不包括用戶正在搜索的信息。因為在線廣告可受到搜 索引擎提供最相關結果的能力的影響,搜尋引擎可嘗試基於查詢而向用戶提供與該用戶最 相關的信息和頁面。


參考以下附圖和說明書可更好地理解系統和方法。參考以下附圖描述非限制性且 非窮盡性的實施例。附圖中的組件不一定是按比例的,重點則在於圖示本發明的原理。在 附圖中,相似的標號在不同的視圖中始終指代對應的部件。圖1是示例性網絡系統的示圖;圖2是示例性瀏覽蹤跡的示圖;圖3是蹤跡生成器的示圖;圖4是示例性蹤跡識別因素的示圖;圖5是示例性搜索屏幕;圖6是用於識別蹤跡的過程;圖7是另一示例性搜索屏幕;並且圖8是用於產生具有多個連結的蹤跡的過程。
具體實施例方式作為介紹,描述了用於識別和生成潛在用戶蹤跡的系統和方法。該蹤跡可以是用 戶的基於搜索查詢的預期瀏覽路徑,例如所建議或預期的一系列連結或URL序列,用戶可 能按順序選擇這些連結或URL以便查看一系列相關聯的網頁。該蹤跡也可以是基於當前和 /或歷史瀏覽數據來確定的,所述瀏覽數據包括搜索日誌、瀏覽歷史和其他數據。該蹤跡可 響應於接收到搜索查詢而被顯示為搜索結果概要和/或與各個搜索結果相關聯地顯示。在 查閱以下附圖和詳細描述後,其他系統、方法、特徵和優點對於本領域的技術人員將是清楚 的或者將變得清楚。希望所有這種額外的系統、方法、特徵和優點都被包括在本說明書內、 在本發明的範圍內並且被以下權利要求所保護。本部分中的記載不應被理解為對這些權利 要求的限定。另外的方面和優點在下文中論述。圖1提供了網絡系統100的簡化視圖,在該網絡系統100中可實現本系統和方法。 然而,並非所有示出的組件都是必需的,一些系統可包括附圖中沒有示出的額外組件、不同組件或更少組件。可對這些組件的布置和類型做出變化,而不脫離這裡記載的權利要求的 精神或範圍。圖1是示出用於蹤跡識別和分析的示例性網絡系統100的框圖。具體而言,系統 100包括蹤跡生成器112,蹤跡生成器112可從搜尋引擎106接收搜索查詢,並且基於來自 搜索日誌資料庫108和/或工具條日誌資料庫110的數據來為該搜索查詢生成蹤跡。客 戶端設備102通過網絡104與搜尋引擎106相耦合,用於請求搜索查詢。搜尋引擎106與 搜索日誌資料庫108、工具條日誌資料庫110和/或蹤跡生成器112相耦合。這裡,短語 「與...相耦合」可以指直接連接或者通過一個或多個中間組件間接連接。這種中間組件既 可包括基於硬體的組件也可包括基於軟體的組件。可對這些組件的布置和類型做出變化, 而不脫離這裡記載的權利要求的精神或範圍。客戶端設備102可以是允許用戶連接到網絡104(例如網際網路)的計算設備。用 戶設備的示例包括但不限於個人計算機、個人數字助理(「PDA」)、蜂窩電話或者其他有線 或無線電子設備。客戶端設備102可被配置為利用web瀏覽器(例如INTERNET EXPLORER 或FIREF0X)經由網絡104訪問網頁以及其他數據/信息。客戶端設備102可以使得用戶 能夠經由網絡104 (例如網際網路)查看頁面。客戶端設備102可被配置為使用戶可與搜尋引擎106、蹤跡生成器112或系統100 的其他組件交互。客戶端設備102可以接收並顯示由搜尋引擎106提供的站點或頁面,例 如搜索頁面或包括搜索結果的頁面。客戶端設備102可包括鍵盤、小鍵盤或光標控制設備 (例如滑鼠)、或者控制杆、觸控螢幕顯示器、遙控器或任何其他可操作來使用戶可與由搜索 引擎106提供的(一個或多個)頁面交互的設備。搜尋引擎106通過網絡104與客戶端設備102相耦合,並且還與蹤跡生成器112、 搜索日誌資料庫108和/或工具條日誌資料庫110相耦合。搜尋引擎106可以是web服務 器或者可由web伺服器提供。搜尋引擎106可提供可經由諸如網絡104或網際網路之類的網 絡得到的站點或頁面。站點或頁面可以指可經由網絡接收或查看的一個或多個網頁。站點 或頁面不限於網頁,而可包括任何可經由網絡訪問的、可在客戶端設備102處顯示的信息。 站點可以指通過站點地圖連結或以其他方式相關聯的一系列頁面。例如,www. yahoo, com 的網站(由Sunnyvale,California的Yahoo ! Inc.運營)可包括數千頁面,這些頁面被 包括在yahoo, com處。以下,頁面將被描述為網頁、網站或任何其他可經由網絡訪問的站點 /頁面。客戶端設備102的用戶可經由網絡104訪問由搜尋引擎106提供的頁面。如下所 述,搜尋引擎106提供的頁面可以是搜索頁面,該搜索頁面可操作來接收來自客戶端設備 102的搜索查詢並且使得基於接收到的搜索查詢例如經由一個或多個搜索結果頁面提供搜 索結果,並且還可使得提供與搜索查詢相關聯的廣告。搜尋引擎106可包括用於搜索可經由網絡104訪問的其他頁面的界面,比如網頁, 例如可在全球資訊網上的yahoo, com處訪問的網頁。客戶端設備102可自主地或者在用戶的指 導下經由該界面向搜尋引擎106輸入搜索查詢(也稱為用戶查詢、原始查詢、搜索字詞或搜 索關鍵字)。單個搜索查詢可包括多個單詞或短語。搜尋引擎106可針對該搜索查詢執行 搜索並且在客戶端設備102上顯示搜索的結果。搜索的結果可包括由搜尋引擎106響應於 接收到該搜索查詢而提供的有關頁面或站點的列表。在另一種系統中,廣告伺服器(未示出)可與搜尋引擎106和/或蹤跡生成器112相耦合。廣告伺服器可被配置為向搜尋引擎106提供廣告。或者,搜尋引擎106和廣告服 務器可以是共同的組件,並且/或者搜尋引擎106可以選擇並提供廣告。廣告伺服器可包 括廣告資料庫或與之相耦合,該廣告資料庫包括可用來供搜尋引擎106針對贊助搜索而顯 示的廣告。此外,廣告可與一個或多個搜索關鍵字或查詢相關聯。搜索關鍵字可被廣告主 購買或出價。因此,當搜索關鍵字或有關查詢被搜索時,已出價的廣告主被排列,以競爭對 其廣告的顯示。廣告主的排名順序可由各種因素來決定,其中一些可包括廣告的質量以及 廣告主的出價額。搜索日誌資料庫108包括在一段時間中在搜尋引擎106中輸入的搜索查詢的至少 一個子集的記錄或日誌,並且也可被稱為搜索查詢日誌、搜索字詞資料庫、關鍵字資料庫或 查詢資料庫。搜索日誌資料庫108可存儲廣告伺服器108在為特定搜索查詢選擇廣告時使 用的搜索關鍵字。搜索日誌資料庫108可包括在任何時間段中來自任何數目的用戶的搜索 查詢。搜索日誌資料庫108中存儲的查詢可包括與查詢相關聯的相關瀏覽蹤跡。圖2是示例性瀏覽蹤跡200。瀏覽蹤跡200可包括一系列頁面或網站,用戶可沿著 這一系列頁面或網站前進。蹤跡也可被稱為路徑或軌跡,並且可包括用戶查看或選擇的項 目的列表。這些項目可以是諸如用戶查看的網頁之類的頁面,或者可以指在蹤跡中標識的 特定產品、服務或廣告。或者,蹤跡可包括標識產品、服務或廣告的頁面。蹤跡可包括用戶 接連訪問的頁面的通用資源定位符(URL)的列表。列表中的每個項目可由列表中的先前項 目連結。項目的列表可被稱為導覽列(bread crumb) 0導覽列可提供返回到用戶為了到達 當前頁面而瀏覽過的每個先前頁面的連結,對於層次結構而言,這些先前頁面可以是當前 頁面的父頁面。導覽列可提供一蹤跡,用戶可沿著該蹤跡而回到網站的起點/入口點。蹤跡200可源自於一搜索查詢,並且該蹤跡是用戶在該搜索之後可去往的目的地 的記錄或列表。在塊202中,接收搜索查詢,並且顯示包括至少一個搜索結果的搜索結果頁 面。搜索結果頁面和/或各個搜索結果可包括在這些頁面上用戶可選擇的連結。例如,與 搜索結果一起顯示的特定廣告可能是流行的並且可以是在瀏覽蹤跡內選擇的項目。或者, 對來自搜索結果頁面的搜索結果之一的選擇可以是蹤跡中的第一項目,像塊204中那樣。 從該頁面起,可能有去往第二頁面的額外連結,該第二頁面可表示蹤跡中的下一項目,像塊 206中那樣。類似地,可能有去往第三頁面的額外連結,該第三頁面可表示蹤跡中的下一項 目,像塊208中那樣。蹤跡可包括用戶點擊了的頁面的列表,其可包括η個項目,像塊210 中那樣。或者,額外的連結(第二頁面)可能不是從第一頁面連結來的。蹤跡可包括用戶的潛在瀏覽會話以及用戶可能查看的頁面。瀏覽會話可包括多個 蹤跡。例如,用戶可能具有一蹤跡,該蹤跡包括搜索和檢閱數位相機。該用戶也可具有另一 蹤跡,該另一蹤跡包括搜索和選擇棒球比賽的票證。該蹤跡可能開始於接收到的搜索查詢 以及隨後的搜索結果頁面,如圖2中所示。用戶查看的、與該查詢有關的頁面可被認為是該 查詢的蹤跡。如上所述,可以基於接收到的查詢以及額外的數據或因素來為用戶識別和預 測蹤跡。工具條日誌資料庫110包括在一段時間中一個或多個用戶的瀏覽歷史的至少一 個子集的記錄或日誌,並且也可被稱為工具條日誌、瀏覽資料庫或瀏覽日誌。客戶端設備 102可包括跟蹤或監視機制,該機制記錄客戶端設備102的用戶的瀏覽歷史。在一個系統 中,該蹤跡/監視機制可以是結合web瀏覽器而安裝在客戶端設備102上的搜索工具條。該工具條可允許用戶選擇提供可被存儲在工具條日誌資料庫110中的使用情況統計數據。這 些使用情況統計數據可包括搜索歷史和瀏覽歷史。這些統計數據可包括用戶考察過的蹤跡 並且可用於識別用戶可執行的常見蹤跡。在一個示例中,用戶在提交查詢後所遵循的蹤跡 可被記錄在工具條日誌資料庫110中。搜索日誌資料庫108或工具條日誌資料庫110也可與單元字典(未示出)相耦 合。單元字典可以是以單元(unit)的形式相互耦合的用戶查詢或搜索關鍵字的資料庫。 單元也可被稱為概念或主題,並且是出現在搜索查詢中的一個或多個單詞的序列。例如, 搜索查詢「New York City lawenforcement」可包括兩個單元,例如「New York City」可 以是一個單元,而「law enforcement」可以是另一單元。單元是標識單個概念的常見單詞 的短語。又例如,搜索查詢「Chicago art museums」可包括兩個單元,例如「Chicago」和 "art museums,,。"Chicago,,單元是單個單詞,而「art museums,,是雙單詞單元。單元標識 常見的關鍵字群組,以使搜索結果的效率和相關性最大化。單元字典和將搜索查詢分成單 元的分類可用於分析由搜尋引擎106接收到的查詢。搜索查詢可被分解成單元,這些單元 用於分析搜索歷史,以便識別和生成蹤跡。將搜索查詢分成單元的分類在與本申請屬於同 一所有者的、於2006年5月23日授權公告的題為「SYSTEMS AND METHODS FOR GENERATING CONCEPT UNITS FROM SEARCHQUERIES」的美國專利No. 7,051,023中有所論述,特此通過引 用將該專利併入。蹤跡生成器112可以是用於基於搜索查詢和額外數據和/或因素來分析和識別蹤 跡的計算設備。客戶端設備102、搜索日誌資料庫108和/或工具條日誌資料庫110可與蹤 跡生成器112相耦合。蹤跡生成器112可接收來自客戶端設備102和/或搜尋引擎106的 用戶查詢,並且基於對該用戶查詢的分析來識別潛在蹤跡。蹤跡生成器112包括處理器120、存儲器118、軟體116和接口 114。蹤跡生成器 112可以是與搜尋引擎106分開的組件,或者可以結合為單個組件或設備。接口 114可與客 戶端設備102、搜尋引擎106、搜索日誌資料庫108和/或工具條日誌資料庫110中的任何 一個通信。接口 114可包括被配置為使用戶可與蹤跡生成器112的任何組件交互的用戶接 口。例如,用戶可以在蹤跡中編輯、添加或刪除項目,或者更新被蹤跡生成器112所使用的 使用情況統計數據。蹤跡生成器112中的處理器120可包括中央處理單元(CPU)、圖形處理單元 (GPU)、數位訊號處理器(DSP)或其他類型的處理設備。處理器120可以是多種系統中的 任何一種中的組件。例如,處理器120可以是標準個人計算機或工作站的一部分。處理器 120可以是一個或多個通用處理器、數位訊號處理器、專用集成電路、現場可編程門陣列、服 務器、網絡、數字電路、模擬電路、其組合、或者其他現在已知的或以後開發出的用於分析和 處理數據的設備。處理器120可與軟體程序(例如手工生成(即,編程)的代碼)協同工 作。處理器120可與存儲器118相耦合,或者存儲器118可以是單獨的組件。接口 114 和/或軟體116可被存儲在存儲器118中。存儲器118可包括但不限於計算機可讀存儲 介質,例如各種類型的易失性和非易失性存儲介質,包括隨機存取存儲器、只讀存儲器、可 編程只讀存儲器、電可編程只讀存儲器、電可擦除只讀存儲器、快閃記憶體、磁帶或磁碟、光介質等 等。存儲器118可包括用於處理器120的隨機存取存儲器。或者,存儲器118可以與處理器120分開,例如處理器的緩存存儲器、系統存儲器或其他存儲器。存儲器118可以是用於存 儲所記錄的圖像數據的外部存儲設備或資料庫。示例包括硬碟驅動器、壓縮盤(「CD」)、數 字視頻盤(「DVD」)、存儲卡、記憶棒、軟盤、通用串行總線(「USB」)存儲設備、或者任何其 他可操作來存儲圖像數據的設備。存儲器118可操作以存儲可由處理器120運行的指令。附圖中示出或在這裡描述的功能、動作或任務可通過編程的處理器運行存儲器 118中存儲的指令來執行。這些功能、動作或任務獨立於特定類型的指令集、存儲介質、處理 器或處理策略,並且可通過單獨或組合工作的軟體、硬體、集成電路、固件、微代碼等等來執 行。類似地,處理策略可包括多處理、多任務、並行處理等等。處理器120被配置為運行軟 件116。軟體116可包括用於基於接收到的查詢來分析和識別蹤跡以便顯示的指令。接口 114可以是用戶輸入設備或顯示器。接口 114可包括鍵盤、小鍵盤或光標控 制設備(例如滑鼠)、或者控制杆、觸控螢幕顯示器、遙控器或者任何其他可操作來與蹤跡生 成器112交互的設備。接口 114可包括與處理器120相耦合併被配置為顯示來自處理器 120的輸出的顯示器。該顯示器可以是液晶顯示器(LCD)、有機發光二極體(OLED)、平板顯 示器、固態顯示器、陰極射線管(CRT)、投影儀、印表機或其他現在已知或將來開發出的用於 輸出所確定的信息的顯示設備。該顯示器可以充當供用戶看到處理器120的運作的接口, 或者充當與軟體116的接口,用於提供輸入參數。尤其,接口 114可允許用戶與蹤跡生成器 112交互以查看或修改對與用戶查詢有關的蹤跡的分析和識別。系統100中的任何組件都可通過網絡相互耦合。例如,蹤跡生成器112可經由網 絡與搜尋引擎106、搜索日誌資料庫108或工具條日誌資料庫110相耦合。系統100中的任 何組件都可包括被配置為與網絡相連接的通信埠。本公開設想到了計算機可讀介質,該 計算機可讀介質包括指令或者接收並運行響應於傳播的信號的指令,使得連接到網絡的設 備可以經由網絡傳輸語音、視頻、音頻、圖像或任何其他數據。這些指令可以經由通信埠 通過網絡來發送或接收,或者可以是單獨的組件。該通信埠可以用軟體來創建或者可以 是硬體形式的物理連接。該通信埠可被配置為與網絡、外部介質、顯示器或系統100中的 任何其他組件或其組合相連接。與網絡的連接可以是物理連接,例如有線乙太網連接,或者 可以無線地建立,如下所述。類似地,與系統100的其他組件的連接可以是物理連接或者可 以無線地建立。可連接系統100中的任何組件以使能設備之間的數據通信的一個或多個網絡可 包括有線網絡、無線網絡或其組合。無線網絡可以是蜂窩電話網絡、根據諸如由電氣和電 子工程師學會發布的IEEE 802. 11,802. 16,802. 20之類的標準化協議工作的網絡、或者 WiMax網絡。另外,該(一個或多個)網絡可以是公共網絡(例如網際網路)、專用網絡(例如 內聯網)或者其組合,並且可以利用現在可得或以後開發出的多種聯網協議,包括但不限 於基於TCP/IP的聯網協議。該(一個或多個)網絡可包括區域網(LAN)、廣域網(WAN)、直 接連接(例如通過通用串行總線(USB)埠)等等中的一種或多種,並且可包括構成因特 網的一組互連網絡。該(一個或多個)網絡可包括任何通信方法,或使用任何形式的機器 可讀介質,用於將信息從一個設備傳輸到另一個設備。例如,搜尋引擎106可經由網絡(例 如網絡104)向客戶端設備102提供頁面。搜尋引擎106、搜索日誌資料庫108、工具條日誌資料庫110、蹤跡生成器112和/ 或客戶端設備102可表示各種計算設備。這種計算設備一般可包括任何被配置為執行計算
8並能夠通過一個或多個有線和/或無線通信接口來發送和接收數據通信的設備。這種設備 可被配置為根據如上所述的多種網絡協議中的任何一種來通信。例如,客戶端設備102可 被配置為運行瀏覽器應用,該瀏覽器應用使用HTTP來向搜尋引擎106請求信息,比如網頁。 本公開設想到了計算機可讀介質,該計算機可讀介質包括指令或者接收並運行響應於傳播 的信號的指令,使得任何連接到網絡的設備可以經由網絡傳輸語音、視頻、音頻、圖像或任 何其他數據。圖3示出了示例性蹤跡生成器。如針對圖1所述,蹤跡生成器112可接收搜索查詢 並且分析與該查詢和/或搜索結果有關的潛在瀏覽蹤跡。相關或流行的蹤跡可結合搜索結 果被顯示。蹤跡生成器112可包括接收器302、分析器304和識別器306。蹤跡生成器112 或其任何組件可表示各種計算設備。圖3所示的任何組件可以用軟體116來實現、存儲在 存儲器118中並由處理器120運行,如圖1所示。接收器302可以從搜尋引擎106接收用戶查詢,搜尋引擎106可以從客戶端設備 102接收該用戶查詢。接收器302還可接收可用於識別蹤跡的信息或數據。蹤跡和蹤跡信 息可被分析器304所分析。圖4示出了可被接收器302接收並被分析器304分析的蹤跡識 別因素400。蹤跡識別因素400可用於響應於接收到的查詢而生成蹤跡。在其他實施例中, 在識別和生成蹤跡時可使用更多或更少的因素400。原始用戶查詢402是第一蹤跡識別因素。所生成的蹤跡可至少部分基於原始用戶 查詢402。此外,蹤跡可基於原始用戶查詢402的搜索結果。來自搜索日誌資料庫108的搜 索日誌數據404可提供歷史搜索數據,以及歷史瀏覽數據。類似地,來自工具條日誌資料庫 110的工具條日誌數據406可提供歷史搜索數據和/或歷史瀏覽數據。數據404、406可用 於識別相關蹤跡並且可包括其他因素400。點進率(click through rate, CTR)和/或流行度408可以是另一種蹤跡識別因 素。頁面上的更加流行的項目或連結可用於建立蹤跡。例如,某一查詢的搜索結果可導致用 戶點擊這些結果或者點擊來自這些搜索結果的連結或站點。更流行的目的地可被識別為該 搜索查詢的潛在蹤跡。流行度可以基於根據搜索日誌數據404和/或工具條日誌數據406 測量的點擊。圖5是示例性搜索屏幕500。搜索查詢是針對「ΙΡΗ0ΝΕ」的並且搜索結果502被 顯示。如圖所示,搜索限於域站點techmeme. com,然而搜索可以在任何域上,而不是必須要 受限。蹤跡504可包括先前用戶點擊過的流行連結。這些連結可以是從搜索結果的頁面 連結的。例如,第一蹤跡連結506是與ZUNE 2有關的博客文章,第二蹤跡連結508是關於 IPHONE EXTREME的。搜索/工具條數據可指示出第一蹤跡連結506是搜索過「ΙΡΗ0ΝΕ」並 且點進過一些搜索結果的用戶的流行目的地。在一個示例中,第一蹤跡連結506可以是來 自第一搜索結果510內的連結。換言之,用戶可以點擊以查看第一搜索結果510,並最終從 第一搜索結果510的頁面中查看第一蹤跡連結506的連結。返回參考圖4,相關度410是額外蹤跡識別因素。相關度410可涉及潛在的蹤跡是 否與原始搜索查詢有關。例如,生成搜索結果的搜索技術可用於判定潛在蹤跡是否與查詢 有關。該關係可基於潛在蹤跡與搜索結果之間的比較。該關係可基於該查詢與搜索結果和 潛在連結之間的比較。該比較可包括考慮搜索結果的標題、概要、URL和描述。可連結度412和用戶意圖414可以是額外的蹤跡識別因素。可連結度412可以指
9其他頁面連結到特定站點的數量或頻率。與很少被連結的站點相比,被頻繁連結的站點可 以是蹤跡的更好候選者。用戶意圖414可以是關於用戶或客戶端利用每個查詢要搜索什麼 的度量。用戶意圖414可以基於搜索查詢和/或用戶在查看搜索結果之後的瀏覽路徑來確 定。此外,用戶意圖414可以是基於先前搜索查詢或過去搜索數據的,該過去搜索數據標識 出用戶基於搜索查詢的常見目標。用戶意圖414在下述專利申請中有進一步描述,該專利 申請描述了可以是用戶意圖414的任務和目標,特此通過引用將其併入與本申請轉讓給 同一受讓人的、於2007年12月14日提交的、Kristina Lisa Klinkner和Rosie Jones的 題為「SEGMENTATION OF SEARCH TOPICS IN QUERY LOGS」的美國專利申請No. 11/957,150、 現在為美國專利公布No. —/—,—,(代理人案卷號12729/339、Y02729US00)。人口統計數據416可以是用於識別蹤跡的一種考慮因素。例如,用戶的位置或性 別可以是用來識別潛在蹤跡的一種因素。連結的新近度或新鮮度418也可被考慮。在蹤跡 中顯示較新的連結或者避免顯示去往較舊的信息或已經有一段時間沒有更新的站點的鏈 接,可能是有益的。另外,蹤跡可被顯示在各搜索結果附近。例如,在一個示例中,潛在蹤跡 可被顯示在每個搜索結果下方。查詢擴展420和圖理論422可以是蹤跡識別的另外的考慮因素。圖理論422可以 貢獻出一種算法,例如廣度優先搜索,用於從起始網頁起高效地遍歷和發現網站連結。查 詢擴展420可以取得用戶的查詢,將其發布給搜尋引擎,並且檢閱來自web搜索結果的文 本,以為該查詢構建代表性文檔。傳統的信息檢索(IR)算法可用於根據該文檔來計算字 詞頻率逆文檔頻率(Term Frequency Inverse Document Frequency, TFIDF)力口權型詞袋 (bag-of-words)式字詞向量。例如,搜索結果的標題、URL、概要和描述可用於為特定搜索 提供加權詞袋。利用此查詢文檔,系統可計算該查詢文檔與蹤跡的候選web文檔之間的餘 弦或傑卡德相似度。該相似度得分可表示用戶的查詢與網站的相關度。蹤跡選擇可以最大 化web連結的查詢相關度和流行度。返回參考圖3,識別器306接收經分析的蹤跡識別因素400。尤其,識別器306可 使用來自分析器304的經分析的因素400來識別潛在蹤跡連結。如上所述,潛在蹤跡連結 可以結合搜索結果一起顯示,如圖5所示。圖6是用於識別蹤跡的過程。在塊602中,在搜尋引擎106處從客戶端設備102 的用戶接收查詢。該查詢可被發送到蹤跡生成器112的接收器302。在塊604中,可為分析 器304收集蹤跡識別因素信息400。在塊606中,分析器304可分析蹤跡識別因素400。基 於對因素400的分析,像塊608中那樣,識別蹤跡。此蹤跡隨後可結合搜索結果一起顯示。 在塊610中,可重複來自塊606的分析,以便識別要結合搜索結果一起顯示的額外的蹤跡。 蹤跡可包括被顯示的一個或多個連結。在一個示例中,圖5示出了具有兩個連結的蹤跡;然 而,也可顯示更多或更少連結。圖7是另一示例性搜索屏幕700。屏幕700示出了搜索查詢框701中接收到的針 對「yahoo search」的用戶查詢。如圖所示,該搜索限於域站點techmeme. com,然而,搜索 也可在任何域上,而是不必受限。搜索結果702示出了與該查詢相關的web連結。所識別 出的第一和第二蹤跡706可表示用戶的潛在未來路徑。蹤跡704、706可以是用戶可瀏覽到 的、來自搜索結果702中的任何一個的連結。如上所述,對蹤跡的識別可以基於對因素的分 析。在另外的實施例中,不是顯示多個蹤跡,而是可以顯示控制框,該控制框可包括前進或倒退按鈕,該按鈕使得用戶可以滾動經過可能相關的潛在連結/蹤跡。從而,用戶可以利用 這些功能來滾動經過或查看所預測的蹤跡。在覆蓋模型環境中,蹤跡可以出現在各搜索結果下。蹤跡中的起始頁面可以是其 下顯示了該蹤跡的搜索結果頁面。或者,蹤跡也可以被顯示在Yahoo ! Search Assistance 層中,該層可以是顯示在搜索框下的下拉菜單。Search Assistance層可被稱為查詢建議 框,並且可向用戶提供查詢建議或有關字詞,以及建議的蹤跡。搜索屏幕700在屏幕700的 "also try」(還可嘗試)708部分附近顯示了額外的搜索推薦。also try 708部分可以被 可為用戶提供額外推薦的Yahoo ! Research Assist所替換。Research Assist中的推薦 的至少一部分可包括潛在蹤跡。在一個實施例中,將描述用於識別潛在蹤跡的示例性快進算法。該快進算法嘗試 預測用戶的未來瀏覽位置,例如來自圖7的蹤跡704、706。該快進算法可以接收兩個輸入, 包括原始查詢和起始頁面的通用資源定位符(URL)。起始頁面可以是基於針對該查詢的搜 索的搜索結果頁面中的任何一個,或者可以是與該查詢相關聯的另一頁面。可以對查詢執 行查詢擴展。查詢擴展可包括從針對該查詢的web搜索的頂部結果中檢索URL、摘要、概要 和標題。可基於這些項來加權向量。可以通過一函數來識別路徑路徑=bfs(start_url,branch_factor = 10,d印th =4, graph_model = path_score, query_model = qe)。bfs 函數可以指廣度優先搜索,這 種搜索是一種用於逐級別遍歷圖的算法。該遍歷可以限於等於10個連結的分支因子和等 於4的深度。queryjiiodel = qe可以指原始查詢的查詢擴展。又例如,例如,可以爬過來自搜索結果頁面的前10個連結。例如,如果第一連結是圖像,則 在該圖像頁面上,來自該頁面的前十個連結或結果被識別,並且其中每一個被爬過。或者, 更多或更少的連結可用作查詢的搜索結果的數目和被爬過的連結的數目。爬過來自該圖像 頁面的連結可表示第三級別。示例性的算法可爬過四個級別的深度。所爬過的全部連結是 104個連結。這些頁面可能已經被爬過或保存在來自web搜索爬行過程的表格中。在此遍 歷期間,圖的邊緣可以被收集並用bfs算法來打分並被保存在鄰接列表結構(表格)中。示例性的打分函數可以是 path_score (prev_url, next_url, qe) :returnpr_ visit (prev_url, next_url) +weight氺sim(qe,next_url)。pr_visit 可以是從 prev_url 頁 面點擊neXt_Url的概率。此概率可以基於搜索數據、工具條數據、isp日誌或其他數據來確 定。pr_Visit函數可以使用以上所述的蹤跡識別因素400中的任何一種來確定蹤跡連結。 sim可以是取入查詢向量和next_Url頁面(函數將其轉換為文檔向量)並且計算它們的相 似度的函數。該相似度可以是關於該查詢與next_url頁面有多相關的度量。該相似度函 數可以計算兩個向量的餘弦距離(內積),並且返回0至1之間的得分,其中1是100%相 似或者說相同。被傳遞給sim函數的兩個向量可以對應於字詞頻率逆文檔頻率(TFIDF)加 權型詞袋式查詢擴展文檔向量(qe)和TFIDF加權型詞袋式網頁文檔向量(neXt_url)。權 重可以是遵循衰減模型的比例因子,其中,隨著頁面的度(深度)增大,對於查詢相關度的 重視就變得越輕。當用戶從一 web搜索結果點出去並向外瀏覽了十個頁面時,該用戶可能 已經不再關注該查詢了。排序函數可以根據示例性打分函數來確定哪些路徑(蹤跡)具有最高得分。得分 較高的路徑可用作結合搜索結果一起顯示的快進蹤跡的連結。
圖8是用於產生具有多個連結的蹤跡的過程。在塊802中,可以分析蹤跡識別因 素400以識別第一蹤跡連結,像塊804中那樣。在塊806中,所識別的第一蹤跡連結可用於 對因素400的後續分析,以識別第二蹤跡連結,像塊808中那樣。尤其,如果第二蹤跡連結 像塊514中那樣是從第一蹤跡連結頁面起的後續蹤跡,則可以利用第一蹤跡連結來識別第 二蹤跡連結。在塊516中,除了第一和第二蹤跡連結外,還可識別額外的蹤跡。第二蹤跡鏈 接可以是從第一蹤跡連結頁面到達的後續頁面。從而,第二蹤跡連結可以是從第一蹤跡鏈 接起的常見目的地。在塊510中,所識別出的第一蹤跡連結可能是死路,而沒有從該頁面起 的任何進一步連結,在此情況下,像塊512中那樣,獨立於所識別出的第一蹤跡連結來識別 後續蹤跡。換言之,蹤跡中的連結可能不是相互有關或連結的。或者,像塊514中那樣,蹤 跡連結是相互連結的。第一蹤跡連結可提供到第二蹤跡連結的連結。所描述的系統和過程可被編碼在信號承載介質、計算機可讀介質(例如存儲器) 中、編程在設備(例如一個或多個集成電路,以及一個或多個處理器)內、或者由控制器或 計算機所處理。如果方法是用軟體執行的,則軟體可存在於存儲器(其存在於存儲設備中 或與存儲設備相接口)、同步器、通信接口或與發送器通信的非易失性或易失性存儲器中。 電路或電子設備被設計來發送數據到另外的位置。存儲器可包括用於實現邏輯功能的可運 行指令的有序列表。所描述的邏輯功能或任何系統元件可以通過光學電路、數字電路、通 過原始碼、通過模擬電路、通過諸如模擬電氣、音頻或視頻信號之類的模擬源或其組合來實 現。軟體可被包含在任何計算機可讀或信號承載介質中供可運行指令的系統、裝置或設備 使用,或者與這些系統、裝置或設備相聯繫地被包含在任何計算機可讀或信號承載介質中。 這種系統可包括基於計算機的系統、包含處理器的系統、或者可以從可運行指令的系統、裝 置或設備(這些系統、裝置或設備也可運行指令)選擇性地取得指令的另一系統。「計算機可讀介質」、「機器可讀介質」、「傳播信號」介質和/或「信號承載介質」可包 括任何這樣的設備該設備存儲、傳輸、傳播或傳送軟體以供可運行指令的系統、裝置或設 備使用或與這些系統、裝置或設備相聯繫地存儲、傳輸、傳播或傳送軟體。機器可讀介質可 以選擇性地是但不限於電子、磁、光、電磁、紅外或半導體系統、裝置、設備或傳播介質。機器 可讀介質的示例的非窮盡列表將包括具有一條或多條導線的電連接「電子」、可攜式磁碟 或光碟、諸如隨機存取存儲器「RAM」、只讀存儲器「ROM」、可擦除可編程只讀存儲器(EPR0M 或快閃記憶體)之類的易失性存儲器、或者光纖。機器可讀介質還可包括其上印刷有軟體的有形 介質,因為軟體可以被電子地存儲為圖像或以另外的格式存儲(例如,通過光學掃描),然 後被編譯、和/或解釋或以其他方式處理。經處理的介質隨後可被存儲在計算機和/或機 器存儲器中。在另一實施例中,諸如專用集成電路、可編程邏輯陣列和其他硬體設備之類的專 用硬體實現方式可被構造來實現這裡描述的方法中的一種或多種。可包括各種實施例的裝 置和系統的應用可廣泛地包括多種電子和計算機系統。這裡描述的一個或多個實施例可利 用兩個或更多個特定的互連硬體模塊或設備、結合可在模塊之間和通過模塊傳輸的控制和 數據信號來實現功能,或者以專用集成電路的一部分的形式來實現功能。從而,本系統涵蓋 了軟體、固件和硬體實現方式。對這裡描述的實施例的圖示旨在提供對各種實施例的結構的大體理解。這些圖示 並不旨在用作對利用這裡描述的結構或方法的裝置和系統的所有元件和特徵的完整描述。本領域的技術人員在檢閱本公開之後,可清楚許多其他實施例。根據本公開可利用和得出 其他實施例,從而可做出結構和邏輯替換和改變,而不脫離本公開的範圍。此外,這些圖示 只是表示性的,而不一定是按比例繪製的。這些圖示內的某些比例可能被誇大了,而其他比 例可能被最小化了。從而,本公開和附圖應被認為是例示性的而非限制性的。
權利要求
1.一種用於提供至少一個潛在目的地的蹤跡的方法,包括 接收原始查詢;為所述原始查詢確定至少一個搜索結果; 提供包括所述至少一個搜索結果的搜索結果頁面;基於所述原始查詢識別至少一個潛在連結,其中所述至少一個潛在連結構成所述蹤 跡;以及在所述搜索結果頁面上提供所述蹤跡。
2.如權利要求1所述的方法,其中,所述至少一個潛在目的地包括至少一個預測的瀏覽位置。
3.如權利要求1所述的方法,其中,識別至少一個潛在連結包括 識別來自所述至少一個搜索結果的一個或多個字詞;基於所識別的字詞生成加權文檔向量; 搜索所述搜索結果頁面的多個級別以識別連結; 為所識別的連結打分;以及提供所述至少一個潛在連結,其中所述至少一個潛在連結基於得分而包括所識別的鏈 接中的至少一個。
4.如權利要求3所述的方法,其中,來自所述至少一個搜索結果的字詞包括所述至少 一個搜索結果的通用資源定位符(URL)、標題、摘要和/或概要。
5.如權利要求3所述的方法,其中,搜索還包括利用廣度優先搜索來進行搜索。
6.如權利要求3所述的方法,其中,打分包括確定特定的所識別的連結將被選擇的概率。
7.如權利要求6所述的方法,其中,所述概率是根據搜索日誌數據、工具條日誌數據、 相關度、可連結度、用戶意圖、新近度或其組合中的至少一個來確定的。
8.如權利要求3所述的方法,其中,搜索包括在所述搜索結果頁面的多個級別上搜索 以識別連結,其中每個級別與來自每個搜索結果的至少一個頁面相對應。
9.如權利要求8所述的方法,其中,搜索包括在四個級別上搜索並且在每個級別上搜 索十個連結,其中每個級別上的連結包括若干個搜索結果。
10.一種蹤跡識別系統,包括搜尋引擎,該搜尋引擎經由網絡接收查詢;與所述搜尋引擎通信的搜索日誌資料庫,該搜索日誌資料庫存儲由所述搜尋引擎接收 到的歷史查詢數據;以及與所述搜尋引擎通信的蹤跡生成器,該蹤跡生成器利用接收到的查詢和所述歷史查詢 數據來生成蹤跡,其中,所述歷史查詢數據基於所述接收到的查詢而標識出至少一個潛在 目的地,並且其中所述蹤跡包括至少一個潛在目的地。
11.如權利要求10所述的系統,其中,所述歷史查詢數據標識出所述至少一個潛在目 的地的相對流行度,其中所述蹤跡標識出具有較高流行度的至少一個潛在目的地。
12.如權利要求10所述的系統,其中,所述至少一個潛在目的地構成用戶基於所述接 收到的查詢而可能採取的預測瀏覽路徑。
13.如權利要求10所述的系統,還包括與所述搜尋引擎和所述蹤跡生成器通信的工具條日誌資料庫,該工具條日誌資料庫存儲用戶的瀏覽數據。
14.如權利要求13所述的系統,其中,所述工具條日誌資料庫中存儲的用戶的瀏覽數 據被所述蹤跡生成器用於識別所述蹤跡。
15.如權利要求10所述的系統,其中,所述蹤跡生成器包括 接收器,該接收器接收所述查詢和歷史查詢;與所述接收器相耦合的分析器,該分析器分析所述查詢和所述歷史查詢;以及 與所述分析器相耦合的識別器,該識別器基於來自所述分析器的分析而識別所述蹤跡。
16.如權利要求15所述的系統,其中,所述接收器還接收被所述分析器所分析以便識 別所述蹤跡的數據,該數據包括搜索日誌數據、工具條日誌數據、流行度、相關度、可連結 度、用戶意圖、人口統計數據和/或新近度數據。
17.在一種存儲有表示可由編程的處理器運行以便預測蹤跡的指令的數據的計算機可 讀存儲介質中,該存儲介質包括可用於進行以下操作的指令接收查詢; 收集蹤跡識別因素; 分析所述蹤跡識別因素;基於對所述蹤跡識別因素的分析來識別所述蹤跡,其中所述蹤跡包括預測的瀏覽路 徑;以及結合針對所接收的查詢的搜索結果頁面顯示所述蹤跡。
18.如權利要求17所述的存儲介質,其中,所述蹤跡識別因素包括所述查詢、搜索日誌 數據、工具條日誌數據、流行度、相關度、可連結度、用戶意圖、人口統計數據、新近度、查詢 擴展和/或圖理論。
19.如權利要求17所述的存儲介質,其中,所述預測的瀏覽路徑包括在所述搜索結果 頁面上顯示的至少一個連結。
20.如權利要求19所述的存儲介質,其中,分析所述蹤跡識別因素包括為所述蹤跡確 定潛在連結。
全文摘要
公開了用於識別和生成潛在用戶蹤跡的系統和方法。蹤跡可以是用戶的基於當前和/或歷史瀏覽數據的預期瀏覽路徑,所述瀏覽數據包括搜索日誌、瀏覽歷史和其他數據。蹤跡可響應於接收到搜索查詢而被顯示為搜索結果概要和/或結合各個搜索結果一起顯示。
文檔編號G06F17/30GK102007494SQ200980113376
公開日2011年4月6日 申請日期2009年4月1日 優先權日2008年4月15日
發明者維克·辛格 申請人:雅虎公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀