新四季網

資料庫構建裝置和方法、搜索應用整合系統和方法

2023-05-05 16:06:01 1

專利名稱:資料庫構建裝置和方法、搜索應用整合系統和方法
技術領域:
本發明總體上涉及Web應用領域,更具體地,本發明涉及一種用於構建搜索應用信息資料庫的資料庫構建裝置和方法、以及搜索應用整合系統和方法。
背景技術:
Web應用的整合(Mashup)是一種用來將幾個Web應用組合起來創建新功能的技術。整合可以定義為通過從不同的Web應用中提取和合併數據與功能來向Web應用添加新的功能,以支持用戶的需要和任務。搜索應用整合是將來自幾個不同Web搜索應用的搜索功能和/或搜索結果組合起來以支持用戶的搜索需要和任務的整合技術。在傳統的方法中,已經研究了對一組特定的搜索應用的整合。例如,諸如MetaCrawler的元搜尋引擎(www.metacrawler.com)組合了Google (谷歌)、Yahoo !(雅虎)、Bing和Ask等幾個常用搜索應用的搜索結果,以向終端用戶提供這幾個搜索應用的經整合的搜索結果。在傳統的搜索應用整合方法和系統中,通常針對較為流行的、使用廣泛的幾個搜索應用人工地進行整合,而且不同的終端用戶總是使用相同的搜索應用整合資料庫,不能根據用戶的需求、使用偏好等對搜索應用整合進行個性化定製。

發明內容
在下文中給出了關於本發明的簡要概述,以便提供關於本發明的某些方面的基本理解。應當理解,這個概述並不是關於本發明的窮舉性概述。它並不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的範圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍後論述的更詳細描述的前序。
`
鑑於現有技術的上述缺陷,本發明的目的之一是提供一種用於構建搜索應用信息資料庫的資料庫構建裝置和方法以及搜索應用整合系統和方法,以至少克服在現有技術中存在的不能同時滿足不同用戶的使用偏好及需求的問題。為了實現上述目的,根據本發明的一個方面,提供了一種用於構建搜索應用信息資料庫的資料庫構建裝置,包括瀏覽會話識別單元,其被配置用於基於用戶的瀏覽歷史記錄及其發生時間來識別瀏覽歷史中的瀏覽會話;搜索會話判定單元,其被配置用於根據瀏覽會話中的記錄的參數特徵以及記錄間的關聯性來判定瀏覽會話是否為搜索會話;以及資料庫構建單元,其被配置用於根據判定的搜索會話來獲得搜索會話中的搜索應用信息,並基於所獲得的搜索應用信息來構建搜索應用信息資料庫。根據本發明的另一個方面,還提供了一種搜索應用整合系統,包括如上所述的資料庫構建裝置,還包括應用整合單元,其被配置用於利用資料庫構建裝置所構建的搜索應用信息資料庫中涉及的所有搜索應用對用戶輸入的關鍵詞進行搜索,得到將所有搜索應用的搜索結果組合起來的整合搜索結果;以及接口單元,其被配置用於顯示輸入界面,接收用戶輸入的關鍵詞,以及顯示上述整合搜索結果。
根據本發明的另一個方面,還提供了一種用於構建搜索應用信息資料庫的資料庫構建方法,包括基於用戶的瀏覽歷史記錄及其發生時間來識別瀏覽歷史中的瀏覽會話;根據瀏覽會話中的記錄的參數特徵以及記錄間的關聯性來判定瀏覽會話是否為搜索會話;以及根據判定的搜索會話來獲得搜索會話中的搜索應用信息,並基於所獲得的搜索應用信息來構建搜索應用信息資料庫。根據本發明的另一個方面,還提供了一種搜索應用整合方法,包括如上所述的資料庫構建方法,還包括接收用戶輸入的關鍵詞,並利用通過資料庫構建方法所構建的搜索應用信息資料庫中涉及的所有搜索應用對用戶輸入的關鍵詞進行搜索,得到將所有搜索應用的搜索結果組合起來的整合搜索結果。依據本發明的其它方面,還提供了相應的計算機可讀存儲介質,該計算機可讀存儲介質上存儲有能夠由計算設備執行的電腦程式,所述程序在執行時能夠使所述計算設備執行上述資料庫構建方法或者上述搜索應用整合方法。根據上述本發明實施例的資料庫構建裝置和方法以及搜索應用整合裝置和方法,以能夠實現至少以下益處之一通過挖掘用戶的瀏覽歷史形成一個整合型的搜索應用信息資料庫,該資料庫可以不僅能夠包含流行的網絡搜尋引擎,還可以包括具有很少用戶的搜索應用;而且,由於該資料庫及整合是基於用戶的瀏覽歷史的,因此該資料庫、以及整合後的搜索結果均能夠充分地匹配用戶的使用偏好和需求;此外,資料庫的創建過程不需用戶的參與,使得用戶容易開始使用。通過以下結合附圖對本發明的最佳實施例的詳細說明,本發明的這些以及其他優點將更加明顯。


本發明可以通過參考下文中結合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中並且形成本說明書的一部分,而且用來進一步舉例說明本發明的優選實施例和解釋本發明的原理和優點。在附圖中圖1是示意性地示出根據本發明實施例的、用於構建搜索應用信息資料庫的資料庫構建裝置的結構的方框圖。圖2是示意性地示出了根據本發明實施例的資料庫構建裝置的另一種結構的方框圖。圖3是示出了從網絡代理日誌中獲得的、已濾除了無用記錄的瀏覽歷史記錄的一個示例的示意圖。圖4是示意性地示出根據本發明實施例的如圖1和圖2中所示的瀏覽會話識別單元110的結構的框圖。圖5是示出用戶在一段時間內的瀏覽歷史記錄的時間分布的示意圖。圖6是示意性地示出根據本發明實施例的如圖1和圖2中所示的搜索會話判定單元120的結構的框圖。圖7是是示意性地示出根據本發明實施例的如圖1和圖2中所示的資料庫構建單元130的結構的框圖。
圖8是示意性地示出根據本發明實施例的圖7中所示的搜索應用信息提取子單元710的結構(省略了搜索應用信息提取子單元710除點擊條目統計模塊800之外的部件)的框圖。圖9是示出了在根據本發明實施例的資料庫構建裝置的一個示例中獲得的一組搜索應用信息的示意圖。圖10是是示意性地示出根據本發明實施例的資料庫構建裝置的另一種結構的框圖。圖11是示意性地示出根據本發明實施例的搜索應用整合系統的結構的框圖。圖12是示意性示出了根據本發明實施例的整合系統的另一種結構的框圖。圖13是在根據本發明的實施例的整合系統的一個應用示例中,利用第二種排序方式對整合搜索結果進行排序後的顯示界面。圖14是示意性地示出根據本發明實施例的用於構建搜索應用信息資料庫的資料庫構建方法的處理流程的示意圖。圖15示意性地示出根據本發明實施例的搜索應用整合方法的處理流程的示意圖。圖16是示出了可用來實現根據本發明實施例的資料庫構建裝置和方法(或搜索應用整合裝置和整合方法)的一種可能的信息處理設備的硬體配置的結構簡圖。本領域技術人員應當理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的,而且不一定是按比例繪製的。例如,附圖中某些元件的尺寸可能相對於其他元件放大了,以便有助於提高對本發明實施例的理解。
具體實施例方式在下文中將結合附圖對本發明的示範性實施例進行描述。為了清楚和簡明起見,在說明書中並未描述實際實施方式的所有特徵。然而,應該了解,在開發任何這種實際實施例的過程中必須做出很多特定於實施方式的決定,以便實現開發人員的具體目標,例如,符合與系統及業務相關的那些限制條件,並且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發工作有可能是非常複雜和費時的,但對得益於本公開內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本發明,在附圖中僅僅示出了與根據本發明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發明關係不大的其他細節。圖1是示意性地示出根據本發明實施例的、用於構建搜索應用信息資料庫的資料庫構建裝置的結構的方框圖。如圖1所示,資料庫構建裝置100包括瀏覽會話識別單元110、搜索會話判定單元120和資料庫構建單元130。其中,瀏覽會話識別單元110基於用戶的瀏覽歷史記錄及其發生時間來識別用戶瀏覽歷史中的瀏覽會話,搜索會話判定單元120根據瀏覽會話中的記錄的參數特徵以及記錄間的關聯性來判定瀏覽會話是否為搜索會話,資料庫構建單元130根據所判定的搜索會話來獲得該搜索會話中的搜索應用信息,並基於所獲得的搜索應用信息來構建搜索應用信息資料庫。目前,Web瀏覽器作為用戶使用Web應用的平臺已被廣泛使用,當用戶通過瀏覽器瀏覽網頁或者是使用某個Web應用的時候,用戶的每個動作(比如訪問某個連結,或者向遠程伺服器提交一些數據等等)都會被記錄成為一條用戶的瀏覽歷史記錄。在一個例子中,用戶的瀏覽歷史記錄可以是直接獲得的原始瀏覽歷史記錄。原始瀏覽歷史記錄可以通過用戶端計算機來獲得,例如,通過安裝在用戶端計算機上的瀏覽器插件或網絡嗅探器等技術來獲得。此外,在用戶使用網絡代理上網的情況下,原始瀏覽歷史記錄也可以通過網絡代理的日誌來獲得。在另一個例子中,用戶的瀏覽歷史記錄也可以是按預定過濾條件對上述原始瀏覽歷史記錄進行過濾後得到的結果。例如,圖2示意性地示出了根據本發明實施例的資料庫構建裝置的另一種結構。如圖2所示,資料庫構建裝置200除包括瀏覽會話識別單元110、搜索會話判定單元120和資料庫構建單元130外,還包括過濾單元140。過濾單元140用於從獲得的用戶的原始瀏覽歷史記錄中濾除掉無用記錄,並將過濾後的瀏覽歷史記錄發送至瀏覽會話識別單元進行處理。其中,無用記錄是指在本發明實施例的實際應用中不重要的那些記錄條目、數據等。利用過濾單元140,可以得到例如如圖3所示的瀏覽歷史記錄。圖3是示出了從網絡代理日誌中獲得的、已濾除了無用記錄的瀏覽歷史記錄的一個示例的示意圖。在如圖3所示出的瀏覽歷史記錄中可以包括訪問時間(time)、訪問方法(method)、正被訪問的URL(統一資源定位符)、指向本連結URL的網頁的URL(以下簡稱為參照頁)(referer)、從遠程主機返回的數據內容的類型(content-type)等信息,另外,還包括了從遠程伺服器得到的原始的HTML(超文本標記語言)頁面。可以通過使用規則表達式或者其它公知的技術把URL分解成遠程伺服器的域名(hostname)、請求路徑(S卩,遠程伺服器上的執行腳本路徑)(requestpath)以及本次請求的參數(parameters)。由此,一條瀏覽歷史記錄可以表示為如下形式SR = (time, method, hostname, requestpath,parameters, content-type, referer, body)其中,上式中的「body」是記錄中的正文部分,表示來自遠程伺服器的應答內容,通常是HTML原始碼的形式。為了簡潔與清楚起見,圖3所示出的瀏覽歷史記錄中省略了「body」的內容。另外,訪問方法可以包括GET、POST、PUT、DELETE等。此外,referer即HTTP Referer,當瀏覽器向web伺服器發送請求的時候,一般會帶上referer,告訴伺服器是從哪個頁面連結過來的,伺服器藉此可以獲得一些信息用於處理。例如,從A的主頁上連結到B的網站,則B的伺服器能夠根據HTTP Referer統計出每天有多少用戶通過點擊A的主頁上的連結來訪問B的網站。 圖3中所示出的瀏覽歷史記錄可以是根據基於規則的方法從原始瀏覽歷史記錄中濾除掉無用記錄後獲得的剩餘記錄。具體地,可以將過濾單元140配置成能夠實現基於規則的方法來濾除無用記錄的功能,上述規則可以是若記錄的內容類型不是文本或html,則去除該記錄;若記錄的訪問方式不是GET或POST,則去除該記錄;若記錄的請求路徑包含後綴css」、「.1co」或js」中的一個,則去除該記錄;以及若記錄的body為空,則去除該記錄。只要記錄滿足上述規則中的任何一個,過濾單元140就將該記錄濾除。由此,可以從用戶的瀏覽歷史記錄中濾除對於本發明而言不重要的、可被看作是搜索應用的噪聲記錄的那些記錄,從而可以減少要由瀏覽會話識別單元110處理的記錄的數量,因此有助於提供整個裝置的處理效率。下面結合圖4 圖9對瀏覽會話識別單元110、搜索會話判定單元120和資料庫構建單元130的具體處理操作進行描述。在用戶通過瀏覽器進行瀏覽時,可能有若干個活躍的瀏覽期,也即,用戶可能並非一直連續地通過瀏覽器進行瀏覽。例如,用戶可能通過瀏覽器使用了 5分鐘的Web應用,然後用戶停止了瀏覽,轉而以其他的方式使用電腦,例如使用Microsoft office進行了 10分鐘的文檔操作,然後又開始通過瀏覽器進行網頁瀏覽等。因此,需要利用瀏覽會話識別單元110從用戶的瀏覽歷史中識別出活躍的瀏覽期、即瀏覽會話,然後才能利用搜索會話判定單元從瀏覽會話中找出包含搜索應用的活躍瀏覽期、即搜索會話。圖4是示意性地示出根據本發明實施例的如圖1和圖2中所示的瀏覽會話識別單元110的結構的框圖。如圖4所示,瀏覽會話識別單元110可以進一步包括第一判定子單元410和識別子單元420。第一判定子單元410可以被配置用於判定用戶的瀏覽歷史記錄中的相鄰瀏覽歷史記錄是否屬於同一瀏覽會話。例如,第一判定子單元410可以通過判定用戶的瀏覽歷史記錄中的相鄰瀏覽歷史記錄之間的時間間隔是否大於或等於預設時間間隔,來判定所述相鄰瀏覽歷史記錄是否屬於同一瀏覽會話。具體來說,在用戶的瀏覽歷史記錄中的相鄰瀏覽歷史記錄之間的時間間隔大於或等於預設時間間隔的情況下,第一判定子單元410判定所述相鄰瀏覽歷史記錄分別屬於不同的瀏覽會話,否則,第一判定子單元410判定所述相鄰瀏覽歷史記錄屬於同一個瀏覽會話。當然,也可以通過其他的方式來判斷相鄰瀏覽歷史記錄是否屬於同一瀏覽會話。圖5示出了用戶在一段時間內的瀏覽歷史記錄的時間分布圖。在圖5中,橫坐標表示歷史記錄發生的時間(假設沿橫坐標軸方向的時間單位為I分鐘),縱坐標表示在每個時間單位內產生的歷史記錄的數量。識別子單元420可以被配置用於根據第一判定子單元410的判定結果在用戶的瀏覽歷史記錄中識別出多個瀏覽會話。由此,可以把用戶的大量瀏覽歷史記錄分為多個組,每組即一個瀏覽會話,其中,每個瀏覽會話中可以包括一個或多個瀏覽歷史記錄。對於如圖5所示的用戶瀏覽歷史記錄而言,假設預設時間間隔為5分鐘,則第一判定子單元410把彼此間的時間間隔大於或等於5分鐘的兩個相鄰歷史記錄判定為屬於不同的瀏覽會話,而把彼此間的時間間隔小於5分鐘的兩個相鄰歷史記錄判定為同一瀏覽會話。這樣的話,識別子單元420可以從如圖5所示的用戶瀏覽歷史中識別出3個瀏覽會話。但是,本發明並不局限於該結構,其他能夠根據瀏覽歷史記錄及其發生時間來識別瀏覽會話的類似結構也應當包括在本發明的範圍中。例如,通過配置瀏覽會話識別單元110,使其能夠通過識別用戶瀏覽歷史中的空白時間期來對瀏覽歷史進行分割,從而獲得多個瀏覽會話,換句話說,將每相鄰兩個空白時間期之間的瀏覽歷史記錄判定為一個瀏覽會話。如上所述,在用戶的瀏覽歷史中,不僅包括使用搜索應用的歷史記錄,還可能包括其他的歷史記錄,例如使用諸如用於讀新聞或查收郵件等功能的各種網絡Web應用的歷史記錄。因此,需要從識別出的瀏覽會話中進一步地識別出那些包含搜索應用信息的會話、即搜索會話。
通過觀察可以發現,搜索結果的body中通常包含突出顯示的搜索關鍵詞,並且用戶可能經常點擊搜索結果,在用戶點擊搜索結果之前和之後產生的記錄之間存在一定關聯性(即,所點擊的記錄的referer是搜索操作記錄的URL),因此可以根據瀏覽會話中的記錄的參數特徵(例如,搜索關鍵詞的出現頻率、高亮顯示特徵等)以及記錄間的關聯性來判定瀏覽會話中的搜索會話。圖6是示意性地示出根據本發明實施例的如圖1和圖2中所示的搜索會話判定單元120的結構的框圖。如圖6所示,搜索會話判定單元120可以進一步包括第二判定子單元610、第三判定子單元620和第四判定子單元630。第二判定子單元610可以被配置用於判定在所識別的瀏覽會話中是否存在搜索操作記錄,其中搜索操作記錄是在正文、即body中具有出現次數超過預設值且被突出顯示的參數值的記錄,假設用SILsearch表示。第三判定子單元620可以被配置用於在第二判定子單元610的判定結果為肯定、即在所識別的瀏覽會話中存在搜索操作記錄的情況下,判定在該瀏覽會話中是否存在這樣的記錄發生在搜索操作記錄SR_search之後的、並以搜索操作記錄的URL為參照頁referer的記錄。第四判定子單元630可以被配置用於在第三判定子單元620的判定結果為肯定的情況下,將該瀏覽會話判定為搜索會話。由此,通過具有如圖6所示的結構的搜索會話判定單元,可以在所識別出的瀏覽會話中進一步識別出哪些瀏覽會話是搜索會話。圖7是示意性地示出根據本發明實施例的如圖1和圖2中所示的資料庫構建單元130的結構的框圖。如圖7所示,資料庫構建單元130可以包括搜索應用信息提取子單元710和資料庫建立子單元720。其中,搜索應用信息提取子單元710可以被配置用於從所判定的搜索會話中包括的記錄中提取搜索應用信息,該搜索應用信息至少可以包括以下的信息搜索應用的域名(即,搜索操作記錄中包含的hostname);與該搜索應用的域名相對應的請求路徑(即,所述搜索操作記錄中包含的request path);與所述域名和所述請求路徑相對應的搜索關鍵詞參數;與所述域名、所述請求路徑和所述搜索關鍵詞參數相對應的搜索時間;以及與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數。其中,與所述域名和所述請求路徑相對應的搜索關鍵詞參數是在所述搜索操作記錄的正文(即body)中的出現次數超過預定閾值且被突出顯示的參數值。通常,一組搜索應用的域名和請求路徑可對應於至少一個關鍵詞,這表明用戶可以在同一域名、同一請求路徑下先後進行多次搜索,而且每次搜索可以使用相同的或不同的搜索關鍵詞。由於用戶可能在同一域名、同一路徑下對同一關鍵詞進行了一次或多次的搜索,所以相應地,與同一域名、同一請求路徑以及同一搜索關鍵詞參數相對應的搜索時間也可以為一個或多個。此外,由於與確定的域名、請求路徑、搜索關鍵詞及搜索時間相對應的搜索結果是唯一的,因此該搜索結果中被點擊過的條目數也是唯一確定的。在根據本發明實施例的資料庫構建裝置的另一個具體實現方式中,可以通過在搜索應用信息提取子單元710中設置一個如圖8所示的點擊條目統計模塊800,來確定在搜索結果中被點擊過的條目數。即,點擊條目統計模塊800被配置用於統計與上述域名、上述請求路徑、上述搜索關鍵詞參數和上述搜索時間相對應的搜索結果中被點擊過的條目數。具體地,如圖8所示,點擊條目統計模塊800可以包括確定子模塊810和統計子模塊820。其中,確定子模塊810被配置用於確定在所判定的搜索會話中的、具有在正文中出現次數超過預設值且被突出顯示的參數值的搜索操作記錄。統計子模塊820被配置用於在所述搜索會話中統計在所述搜索操作記錄之後發生的、以所述搜索操作記錄的URL為參照頁的記錄的條數,並將該條數確定為與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數。由此,可以確定在搜索結果中被點擊過的條目數。此外,如圖7所示的資料庫建立子單元720可被配置用於根據搜索應用信息提取子單元710所提取的搜索應用信息來建立搜索應用信息資料庫。在所述搜索應用信息資料庫中,搜索應用信息可以是按照所述域名和所述請求路徑進行分組的,即,可以將與同一域名和同一請求路徑有關的搜索應用信息分為同一組信息。例如,圖9示出了在根據本發明實施例的資料庫構建裝置的一個示例中獲得的一組搜索應用信息。如圖9所示,搜索應用的域名為「www. baidu. com」,請求路徑為「s」,用戶在2010年12月24日16:38:35對關鍵詞「富士通」進行了搜索,並且在相應的搜索結果中點擊了 3個條目,用戶在2010年12月27日15:22:12對關鍵詞「日本」進行了搜索,並且在相應的搜索結果中點擊了 6個條目,等等。此外,除上面舉例所說明的信息之外,例如通過公知技術獲得的諸如搜索應用標題、標識圖等信息也可以被包括在本發明實施例所涉及的「搜索應用信息」中。圖10是示意性地示出根據本發明實施例的資料庫構建裝置的另一種結構的框圖,其中,在圖10中使用實線框描繪的單元為必選部件,而使用虛線框描繪的單元為非必要的可選部件,在實際應用中可根據需要選用。如圖10所示,在根據本發明實施例的資料庫構建裝置1000中,裝置1000除包括瀏覽會話識別單元110、搜索會話判定單元120和資料庫構建單元130以及可選的過濾單元140外,還可以包括更新單元150。其中,更新單元150被配置用於定期地啟動包括在裝置1000中的瀏覽會話識別單元110、搜索會話判定單元120和資料庫構建單元130以及可選的過濾單元140以重新構建搜索應用信息資料庫,並用新構建的搜索應用信息資料庫來替換原來的搜索應用信息資料庫。具體地,例如,更新單元150可以按照預設的時間間隔周期啟動瀏覽會話識別單元110、搜索會話判定單元120、資料庫構建單元130以及可選的過濾單元140進行各自相應的處理,以重新構建搜索應用信息資料庫,並用該新構建的搜索應用信息資料庫替代原來的資料庫。由此,可以實現裝置1000的定期更新功能,使得由該裝置獲得的搜索應用信息資料庫能夠與用戶的最新瀏覽歷史相匹配,並且能夠更符合用戶當前的搜索習慣以及需求。通過以上的描述可以看出,在根據本發明實施例的資料庫構建裝置中,能夠通過挖掘用戶的上網瀏覽歷史,創建一個包括與用戶瀏覽歷史有關的搜索應用的相關信息的資料庫,即搜索應用信息資料庫,從而實現對用戶瀏覽歷史中包含的搜索應用相關信息的整合。所創建的搜索應用信息資料庫可支持用戶的個性化搜索,這是因為,該搜索應用信息資料庫中的搜索應用及信息是通過基於對特定用戶的瀏覽歷史進行挖掘而獲得的,因此能夠充分地匹配用戶的使用偏好與需求。傳統的搜索應用整合中構建的資料庫通常是對幾個固定的搜索應用的相關信息的整合,其中通常只包括網絡上較為流行的、使用廣泛的若干個搜索應用的相關信息,因此不能同時滿足不同用戶的各種不同的使用偏好及需求;而由根據本發明實施例的裝置創建的資料庫中可以包括用戶曾經使用過的所有搜索應用的相關信息,或用戶在最近一段時間內使用過的所有搜索應用的相關信息,因此其中可以包含網絡上較不流行、鮮少使用的某些搜索應用的相關信息,而這些非主流的搜索應用卻有可能恰好是最適合某類用戶的需求及習慣的搜索應用,因此,由根據本發明實施例的裝置創建的資料庫可以支持不同用戶的不同搜索需求。根據本發明的實施例,還提供了一種搜索應用整合系統,該整合系統包括以上所描述的用於構建搜索應用信息資料庫的資料庫構建裝置,下面結合圖11來進行描述。圖11是示意性地示出根據本發明實施例的搜索應用整合系統的結構的框圖。如圖11所示,整合系統1100包括以上結合圖1-10所描述的用於構建搜索應用信息資料庫的資料庫構建裝置1110、應用整合單元1120和接口單元1130。其中,資料庫構建裝置1110可以具有例如如圖1、2和10所示的結構和功能,為了避免重複,在此省略了對資料庫構建裝置1110的結構和功能的描述。此外,資料庫構建裝置1110中各組成部件的結構也可以具有例如如圖4、6、7及8所示的結構和功能,例如,資料庫構建裝置1110中包括的資料庫構建單元可以具有與以上結合圖7所描述的資料庫構建單元130相同的結構和功能,即,資料庫構建裝置1110中包括的資料庫構建單元可以包括搜索應用信息提取子單元和資料庫建立子單元,其中,搜索應用信息提取子單元和資料庫建立子單元的功能可參見以上結合圖7所描述的搜索應用信息提取子單元710和資料庫建立子單元720的功能,等等,在此省略其具體描述。參見圖11,應用整合單元1120可以被配置用於利用資料庫構建裝置1110所構建的搜索應用信息資料庫中涉及的所有搜索應用對用戶輸入的關鍵詞進行搜索,得到將所有搜索應用的搜索結果組合起來的整合搜索結果。接口單元1130可以被配置用於顯示輸入界面,接收用戶輸入的關鍵詞,以及顯示上述整合搜索結果。在利用根據本發明實施例的搜索應用整合系統進行搜索的一個應用實例中,當用戶通過接口單元1130輸入一個關鍵詞開始搜索時,應用整合單元1120利用由資料庫構建裝置1110已創建的搜索應用信息資料庫中的所涉及到的各個搜索應用,來分別對用戶所輸入的關鍵詞在網絡上進行搜索,然後應用整合單元1120將各個搜索應用的搜索結果整合到一起,並通過接口單元1130顯示當前得到的整合搜索結果。此外,接口單元1130可以按照一定的順序顯示上述整合搜索結果。例如,圖12示意性示出了根據本發明實施例的整合系統的另一種結構。如圖12所示,整合系統1200除包括資料庫構建裝置1110、應用整合單元1120和接口單元1130之外,還包括排序單元1140。排序單元1140被配置用於按照以下三種方式之一對整合搜索結果進行排序,並將排序後的整合搜索結果發送至接口單元1130,之後由接口單元1130顯示該排序後的整合搜索結果。第一種排序方式是按照與整合搜索結果相關的搜索應用被使用過的次數進行排序。具體地,可以計算與整合搜索結果相關的搜索應用的域名各自對應的搜索應用信息的組數,將各個搜索應用的域名對應的搜索應用信息的組數作為對應的搜索應用被使用過的次數。第二種排序方式是按照與整合搜索結果相關的搜索應用的域名各自對應的搜索結果中被點擊過的條目數的多少進行排序。第三種排序方式是按照與整合搜索結果相關的搜索應用的域名各自對應的最新的搜索時間的先後進行排序,也即,根據其最後一次的使用時間來排序。其中,上述所有的排序方式可以是將同一應用對應的搜索結果作為整體來進行排序的,也即,排序的目的是對各個應用之間進行排序,而一個應用對應的若干搜索結果則採用該應用本身的排序方式。例如,以第二種排序方式為例來說明,在根據本發明的實施例的整合系統的一個應用示例中,在根據用戶的瀏覽歷史構建的搜索應用信息資料庫中,共涉及Google、某公司內部管理部網站、Nifty以及百度四個搜索應用,也即上述「與整合搜索結果相關的搜索應用的域名」包括以上四個搜索應用各自的域名。例如,在Google中搜索「富士通」的結果cn. fujitsu. com和detail, zol. com. cn這兩個結果被點擊過,而在Google中搜索「NEC」,又有nec. com和nec. jp兩個結果被點擊過,則Google所對應的史搜索結果中被點擊過的條目數為4。同樣地,可以獲得某公司內部管理部網站、Nifty以及百度三個搜索應用對應的搜索結果中被點擊過的條目數,在本示例中,該3個條目數依次分別為2、1和3。則根據上述第二種排序方式對整合搜索結果進行排序的結果為G00gle、百度、某公司內部管理部網站和Nifty。如圖13所示,圖13是在根據本發明的實施例的整合系統的一個應用示例中,利用第二種排序方式對整合搜索結果進行排序後的顯示界面。其中,在圖13中,每個應用以及其對應的搜索結果是位於同一行的。本發明的實施例還提供了一種用於構建搜索應用信息資料庫的資料庫構建方法,圖14示出了該方法的處理流程。如圖14所示,該資料庫構建方法的處理流程1400開始於步驟S1410,然後執行步驟 S1420。在步驟S1420中,基於用戶的瀏覽歷史記錄及其發生時間來識別瀏覽歷史中的瀏覽會話,然後執行步驟S1430。在一個例子中,用戶的瀏覽歷史記錄可以是直接獲得的原始瀏覽歷史記錄。其中,原始瀏覽歷史記錄可以通過在上文中描述的獲得原始瀏覽歷史記錄的方式而獲得,具體可參見上文描述。在另一個例子中,用戶的瀏覽歷史記錄也可以是通過從獲得的用戶的原始瀏覽歷史記錄中濾除掉無用記錄後獲得的過濾後的瀏覽歷史記錄此外,在處理流程1400的一個具體實現方式中,步驟S1420中的識別瀏覽歷史中的瀏覽會話的步驟可以包括判定用戶的瀏覽歷史記錄中的相鄰瀏覽歷史記錄是否屬於同一瀏覽會話;以及根據判定的結果在用戶的瀏覽歷史記錄中識別出多個瀏覽會話。其中,上述判定用戶的瀏覽歷史記錄中的相鄰瀏覽歷史記錄是否屬於同一瀏覽會話的具體判定過程可與上文中結合圖4所描述的利用第一判定子單元410的判定過程相同,具體描述不再重複。在步驟S1430中,根據瀏覽會話中的記錄的參數特徵以及記錄間的關聯性,來判定上述瀏覽會話是否為搜索會話,然後執行步驟S1440。例如,在處理流程1400的一個具體實現方式中,在步驟S1430中可以通過以下方式來判定搜索會話在瀏覽會話同時滿足以下兩個條件的情況下,將該瀏覽會話判定為搜索會話。其中,一個條件是在所識別的瀏覽會話中存在搜索操作記錄,其中,搜索操作記錄是具有在正文中出現次數超過預設值且被突出顯示的參數值的記錄。另一個條件是在瀏覽會話中存在這樣的記錄發生在搜索操作記錄之後、並以搜索操作記錄的URL為參照頁的記錄。由此,基於以上兩個條件即可在已識別的瀏覽會話中判斷出哪些會話是搜索會話。在步驟S1440中,根據判定的搜索會話來獲得搜索會話中的搜索應用信息,並由該搜索應用信息構建搜索應用信息資料庫,然後執行步驟S1450。其中,在處理流程1400的一個具體實現方式中,可以在已判定的搜索會話中包括的瀏覽記錄中提取搜索應用信息,進而來構建搜索應用信息資料庫,其中,提取的搜索應用信息可以至少包括以下信息搜索應用的域名,與上述域名相對應的請求路徑,與上述域名和上述請求路徑相對應的搜索關鍵詞參數,與上述域名、上述請求路徑和上述搜索關鍵詞參數相對應的搜索時間,以及與上述域名、上述請求路徑、上述搜索關鍵詞參數和上述搜索時間相對應的搜索結果中被點擊過的條目數;其中,上述搜索應用信息是按照所述域名和所述請求路徑進行分組後的信息。此外,除上面舉例所說明的信息類型,例如通過公知技術獲得的諸如搜索應用標題、標識圖等信息也可以包括在本發明實施例所涉及的「搜索應用信息」中。在此說明,這裡所提及的搜索應用信息與上文中結合圖7所描述的搜索應用信息提取子單元710所提取的搜索應用信息相同,其具體意義參見上文描述。此外,這裡所提及的搜索應用信息中包括的各個信息的獲取方法也可與上文中描述的各個對應信息的獲得方法相同。例如,在處理流程1400的一個具體實現方式中,「與上述域名、上述請求路徑、上述搜索關鍵詞參數和上述搜索時間相對應的搜索結果中被點擊過的條目數」可以通過以下方式獲得確定在所判定的搜索會話中的、具有在正文中出現次數超過預設值且被突出顯示的參數值的搜索操作記錄;以及在上述搜索會話中統計在上述搜索操作記錄之後發生的、以上述搜索操作記錄的URL為參照頁的記錄的條數,並將該條數確定為與上述域名、上述請求路徑、上述搜索關鍵詞參數和上述搜索時間相對應的搜索結果中被點擊過的條目數。處理流程1400結束於步驟S1450。此外,在處理流程1400的另一個具體實現方式中,處理流程1400還可以包括更新步驟定期地重新構建搜索應用信息資料庫,並使用新構建的搜索應用信息資料庫替換原來的搜索應用信息資料庫。例如,在根據處理流程1400的該另一個具體實現方式圖中,可以預設一個時間間隔,並使處理流程1400每經過該時間間隔便重新執行一次步驟S1420-1440,從而對搜索應用信息資料庫進行了更新。更新步驟能夠更符合用戶最近的瀏覽歷史,也從而更滿足用戶當前的使用偏好和習慣。根據本發明實施例的資料庫構建方法創建的資料庫,其中可以包括用戶使用過的所有搜索應用及信息或用戶在最近一段時間內使用過的所有搜索應用及信息,因此其中可以包括網絡上較不流行、鮮為使用的某些搜索應用及信息,而有可能這些非主流的搜索應用卻恰恰是最適合某類用戶的需求及習慣的,因此,根據本發明實施例的資料庫構建方法創建的資料庫可以支持不同用戶的不同搜索需求。本發明的實施例還提供了一種搜索應用整合方法,該整合方法包括上述資料庫構建方法,圖15示出了該整合方法的處理流程。如圖15所示該整合方法的處理流程1500開始於步驟S1510,然後在步驟S1520中基於用戶的瀏覽歷史記錄及其發生時間,識別瀏覽歷史中的瀏覽會話,在步驟S1530中根據瀏覽會話中的記錄的參數特徵以及記錄間的關聯性,判定上述瀏覽會話是否為搜索會話,在步驟S1540中根據判定的搜索會話,獲得搜索會話中的搜索應用信息,並由搜索應用信息構建搜索應用信息資料庫,在步驟S1550中,使用與構建的搜索應用信息資料庫有關的所有搜索應用對用戶輸入的關鍵詞進行搜索,並得到整合搜索結果,上述整合方法結束於步驟S1560。其中,該處理流程1500中所包括的步驟S1520 S1540分別對應於上文描述的處理流程1400中包括的步驟S1420 S1440,其具體實現過程可參見上文描述,亦可獲得類似的技術效果,在此不再贅述。上述根據本發明實施例的資料庫構建裝置(或搜索應用整合裝置)中的各個組成單元、子單元等可以通過軟體、固件、硬體或其任意組合的方式進行配置。在通過軟體或固件實現的情況下,可從存儲介質或網絡向具有專用硬體結構的機器(例如圖16所示的通用機器1600)安裝構成該軟體或固件的程序,該機器在安裝有各種程序時,能夠執行上述各組成單元、子單元的各種功能。圖16是示出了可用來實現根據本發明實施例的資料庫構建裝置和方法(或搜索應用整合裝置和整合方法)的一種可能的信息處理設備的硬體配置的結構簡圖。在圖16中,中央處理單元(CPU) 1601根據只讀存儲器(ROM) 1602中存儲的程序或從存儲部分1608加載到隨機存取存儲器(RAM) 1603的程序執行各種處理。在RAM 1603中,還根據需要存儲當CPU 1601執行各種處理等等時所需的數據。CPU 160KROM 1602和RAM1603經由總線1604彼此連接。輸入/輸出接口 1605也連接到總線1604。下述部件也連接到輸入/輸出接口 1605 :輸入部分1606(包括鍵盤、滑鼠等等)、輸出部分1607(包括顯示器,例如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚聲器等)、存儲部分1608 (包括硬碟等)、通信部分1609 (包括網絡接口卡例如LAN卡、數據機等)。通信部分1609經由網絡例如網際網路執行通信處理。根據需要,驅動器1610也可連接到輸入/輸出接口 1605。可拆卸介質1611例如磁碟、光碟、磁光碟、半導體存儲器等等可以根據需要被安裝在驅動器1610上,使得從中讀出的電腦程式可根據需要被安裝到存儲部分1608中。在通過軟體實現上述系列處理的情況下,可以從網絡例如網際網路或從存儲介質例如可拆卸介質1611安裝構成軟體的程序。本領域的技術人員應當理解,這種存儲介質不局限於圖16所示的其中存儲有程序、與設備相分離地分發以向用戶提供程序的可拆卸介質1611。可拆卸介質1611的例子包含磁碟(包含軟盤)、光碟(包含光碟只讀存儲器(⑶-ROM)和數字通用盤(DVD))、磁光碟(包含迷你盤(MD)(註冊商標))和半導體存儲器。或者,存儲介質可以是ROM 1602、存儲部分1608中包含的硬碟等等,其中存有程序,並且與包含它們的設備一起被分發給用戶。
此外,本發明還提出了 一種存儲有機器可讀取的指令代碼的程序產品。所述指令代碼由機器讀取並執行時,可執行上述根據本發明實施例的資料庫構建方法(或搜索應用整合方法)。相應地,用於承載這種程序產品的例如磁碟、光碟、磁光碟、半導體存儲器等的各種存儲介質也包括在本發明的公開中。根據本發明實施例的上述資料庫構建裝置和方法、以及搜索應用整合裝置和方法,通過挖掘用戶的瀏覽歷史,能夠通過挖掘用戶的瀏覽歷史來創建一個包括與用戶瀏覽歷史有關的搜索應用及相關信息的整合型資料庫,使得該該資料庫可以不僅能夠包含流行的網絡搜尋引擎,還可以包括具有很少用戶的搜索應用;而且,由於該資料庫及整合是基於用戶的瀏覽歷史的,因此能夠充分地匹配用戶的使用偏好和需求;此外,資料庫的創建過程不需用戶的參與,使得用戶容易開始使用。在上面對本發明具體實施例的描述中,針對一種實施方式描述和/或示出的特徵可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特徵相組合,或替代其它實施方式中的特徵。應該強調,術語「包括/包含」在本文使用時指特徵、要素、步驟或組件的存在,但並不排除一個或更多個其它特徵、要素、步驟或組件的存在或附加。涉及序數的術語「第一」,「第二」等並不表示這些術語所限定的特徵、要素、步驟或組件的實施順序或者重要性程度,而僅僅是為了描述清楚起見而被配置用於在這些特徵、要素、步驟或組件之間進行標識。此外,本發明的各實施例的方法不限於按照說明書中描述的或者附圖中示出的時間順序來執行,也可以按照其他的時間順序、並行地或獨立地執行。因此,本說明書中描述的方法的執行順序不對本發明的技術範圍構成限制。儘管上面已經通過對本發明的具體實施例的描述對本發明進行了披露,但是,應該理解,本領域的技術人員可在所附權利要求的精神和範圍內設計對本發明的各種修改、改進或者等同物。這些修改、改進或者等同物也應當被認為包括在本發明的保護範圍內。此外,顯然,根據本發明的上述方法的各個操作過程也可以以存儲在各種機器可讀的存儲介質中的計算機可執行程序的方式實現。而且,本發明的目的也可以通過下述方式實現將存儲有上述可執行程序代碼的存儲介質直接或者間接地提供給系統或設備,並且該系統或設備中的計算機或者中央處理單元(CPU)讀出並執行上述程序代碼。此時,只要該系統或者設備具有執行程序的功能,則本發明的實施方式不局限於程序,並且該程序也可以是任意的形式,例如,目標程序、解釋器執行的程序或者提供給作業系統的腳本程序等。上述這些機器可讀存儲介質包括但不限於各種存儲器和存儲單元,半導體設備,磁碟單元例如光、磁和磁光碟,以及其它適於存儲信息的介質等。另外,客戶計算機通過連接到網際網路上的相應網站,並且將依據本發明的電腦程式代碼下載和安裝到計算機中然後執行該程序,也可以實現本發明。最後,還需要說明的是,在本文中,諸如左和右、第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、
物品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個......」限定的
要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。綜上,在根據本發明的實施例中,本發明提供了如下方案
附記1. 一種用於構建搜索應用信息資料庫的資料庫構建裝置,包括瀏覽會話識別單元,其被配置用於基於用戶的瀏覽歷史記錄及其發生時間來識別所述瀏覽歷史中的瀏覽會話;搜索會話判定單元,其被配置用於根據所述瀏覽會話中的記錄的參數特徵以及記錄間的關聯性來判定所述瀏覽會話是否為搜索會話;以及資料庫構建單元,其被配置用於根據判定的搜索會話來獲得所述搜索會話中的搜索應用信息,並基於所獲得的搜索應用信息來構建搜索應用信息資料庫。附記2.根據附記I所述的資料庫構建裝置,其中,所述瀏覽會話識別單元包括 第一判定子單元,其被配置用於判定用戶的瀏覽歷史記錄中的相鄰瀏覽歷史記錄是否屬於同一瀏覽會話;以及識別子單元,其被配置用於根據第一判定子單元410的判定結果在用戶的瀏覽歷史記錄中識別出多個瀏覽會話。附記3.根據附記I所述的資料庫構建裝置,其中,所述搜索會話判定單元包括 第二判定子單元,其被配置用於判定在所識別的瀏覽會話中是否存在搜索操作記錄,其中,所述搜索操作記錄是具有在正文中具有出現次數超過預設值且被突出顯示的參數值的記錄;第三判定子單元,其被配置用於在所述第二判定子單元的判定結果為肯定的情況下,判定在所述瀏覽會話中是否存在這樣的記錄發生在所述搜索操作記錄之後、並以所述搜索操作記錄的URL為參照頁的記錄;以及第四判定子單元,其被配置用於在所述第三判定子單元的判定結果為肯定的情況下,將所述瀏覽會話判定為搜索會話。附記4.根據附記I所述的資料庫構建裝置,還包括過濾單元,其被配置用於從獲得的用戶的原始瀏覽歷史記錄中濾除掉無用記錄,並將過濾後的瀏覽歷史記錄發送至瀏覽會話識別單元進行處理。附記5.根據附記I所述的資料庫構建裝置,還包括更新單元,其被配置用於定期地啟動包括在所述資料庫構建裝置中的、除所述更新單元之外的其他部件,以重新構建搜索應用信息資料庫,並用新構建的搜索應用信息資料庫來替換原來的搜索應用信息資料庫。附記6.根據附記1-5中任意一項所述的資料庫構建裝置,其中,所述資料庫構建單元包括搜索應用信息提取子單元,其被配置用於從所判定的搜索會話中包括的記錄中提取搜索應用信息,所述搜索應用信息至少包括以下信息搜索應用的域名,與所述域名相對應的請求路徑,與所述域名和所述請求路徑相對應的搜索關鍵詞參數,與所述域名、所述請求路徑和所述搜索關鍵詞參數相對應的搜索時間,以及與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數;以及資料庫建立子單元,其被配置用於根據搜索應用信息提取子單元所提取的所述搜索應用信息來建立搜索應用信息資料庫,並且,在所述搜索應用信息資料庫中,所述搜索應用信息是按照所述域名和所述請求路徑進行分組的。附記7.根據附記6所述的資料庫構建裝置,其中,在所述搜索應用信息提取子單元中包括點擊條目統計模塊,所述點擊條目統計模塊被配置用於統計所述與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數,其中所述點擊條目統計模塊包括確定子模塊,其被配置用於確定在所判定的搜索會話中的、具有在正文中出現次數超過預設值且被突出顯示的參數值的搜索操作記錄;以及統計子模塊,其被配置用於在所述搜索會話中統計在所述搜索操作記錄之後發生的、以所述搜索操作記錄的URL為參照頁的記錄的條數,並將該條數確定為與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數。附記8. —種搜索應用整合系統,包括如附記1-5中的任意一種資料庫構建裝置,還包括應用整合單元,其被配置用於利用資料庫構建裝置所構建的搜索應用信息資料庫中涉及的所有搜索應用對用戶輸入的關鍵詞進行搜索,得到將所有搜索應用的搜索結果組合起來的整合搜索結果;以及接口單元,其被配置用於顯示輸入界面,接收用戶輸入的關鍵詞,以及顯示所述整合搜索結果。附記9.根據附記8所述的搜索應用整合系統,其中,所述資料庫構建裝置中包含的資料庫構建單元包括搜索應用信息提取子單元,其被配置用於從所判定的搜索會話中包括的記錄中提取搜索應用信息,所述搜索應用信息至少包括以下信息搜索應用的域名,與所述域名相對應的請求路徑,與所述域名和所述請求路徑相對應的搜索關鍵詞參數,與所述域名、所述請求路徑和所述搜索關鍵詞參數相對應的搜索時間,以及與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數;以及資料庫建立子單元,其被配置用於根據搜索應用信息提取子單元所提取的所述搜索應用信息來建立搜索應用信息資料庫,並且,在所述搜索應用信息資料庫中,所述搜索應用信息是按照所述域名和所述請求路徑進行分組的。附記10.根據附記9所述的搜索應用整合系統,還包括排序單元,所述排序單元被配置用於按照以下三種方式之一對所述整合搜索結果進行排序,並將排序後的整合搜索結果發送至接口單元按照與所述整合搜索結果相關的搜索應用被使用過的次數進行排序;按照與所述整合搜索結果相關的搜索應用的域名各自對應的搜索結果中被點擊過的條目數的多少進行排序;或者按照與所述整合搜索結果相關的搜索應用的域名各自對應的最新的搜索時間的先後進行排序。附記11. 一種用於構建搜索應用信息資料庫的資料庫構建方法,包括基於用戶的瀏覽歷史記錄及其發生時間來識別所述瀏覽歷史中的瀏覽會話;根據所述瀏覽會話中的記錄的參數特徵以及記錄間的關聯性來判定所述瀏覽會話是否為搜索會話;以及根據判定的搜索會話來獲得所述搜索會話中的搜索應用信息,並基於所獲得的搜索應用信息來構建搜索應用信息資料庫。附記12.根據附記11所述的資料庫構建方法,所述的識別所述瀏覽歷史中的瀏覽會話包括判定用戶的瀏覽歷史記錄中的相鄰瀏覽歷史記錄是否屬於同一瀏覽會話;以及根據判定的結果在用戶的瀏覽歷史記錄中識別出多個瀏覽會話。附記13.根據附記11所述的資料庫構建方法,其中,所述的判定所述瀏覽會話是否為搜索會話包括在所述瀏覽會話同時滿足以下兩個條件的情況下,判定所述瀏覽會話為搜索會話在所識別的瀏覽會話中存在搜索操作記錄,其中,所述搜索操作記錄是具有在正文中具有出現次數超過預設值且被突出顯示的參數值的記錄;以及判定在所述瀏覽會話中是否存在這樣的記錄發生在所述搜索操作記錄之後、並以所述搜索操作記錄的URL為參照頁的記錄。附記14.根據附記11所述的資料庫構建方法,其中,所述的用戶的瀏覽歷史記錄是通過從獲得的用戶的原始瀏覽歷史記錄中濾除掉無用記錄後獲得的過濾後的瀏覽歷史記錄。附記15.根據附記11所述的資料庫構建方法,還包括定期地重新構建搜索應用信息資料庫,並使用新構建的搜索應用信息資料庫替換原來的搜索應用信息資料庫。附記16.根據附記11-15中任意一項所述的資料庫構建方法,其中,所述搜索應用信息至少包括以下信息搜索應用的域名,與所述域名相對應的請求路徑,與所述域名和所述請求路徑相對應的搜索關鍵詞參數,與所述域名、所述請求路徑和所述搜索關鍵詞參數相對應的搜索時間,以及與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數;其中,所述搜索應用信息是按照所述域名和所述請求路徑進行分組後的信息。附記17.根據附記16所述的資料庫構建方法,其中所述與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數通過以下方式獲得確定在所判定的搜索會話中的、具有在正文中出現次數超過預設值且被突出顯示的參數值的搜索操作記錄;以及在所述搜索會話中統計在所述搜索操作記錄之後發生的、以所述搜索操作記錄的URL為參照頁的記錄的條數,並將所述條數確定為與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數。附記18. —種搜索應用整合方法,包括如附記11-17中的任意一種資料庫構建方法,還包括接收用戶輸入的關鍵詞,並利用通過資料庫構建方法所構建的搜索應用信息資料庫中涉及的所有搜索應用對用戶輸入的關鍵詞進行搜索,得到將所有搜索應用的搜索結果組合起來的整合搜索結果。附記19. 一種計算機可讀存儲介質,其上存儲有能夠由計算設備執行的電腦程式,所述程序在執行時能夠使所述計算設備執行根據附記11-17中任意一項所述的資料庫構建方法或者根據附記18所述的搜索應用整合方法。雖然已經詳細說明了本發明及其優點,但是應當理解在不脫離由所附的權利要求所限定的本發明的精神和範圍的情況下可以進行各種改變、替代和變換。而且,本申請的範圍不僅限於說明書所描述的過程、設備、製造、物質的結構、手段、方法和步驟的具體實施例。本領域內的普通技術人員從本發明的公開內容將容易理解,根據本發明可以使用執行與在此所述的相應實施例基本相同的功能或者獲得與其基本相同的結果的、現有和將來要被開發的過程、設備、製造、物質的結構、手段、方法或者步驟。因此,所附的權利要求旨在它們的範圍內包括這樣的過程、設備、製造、物質的結構、手段、方法或者步驟。以上雖然結合附圖詳細描述了本發明的實施例,但是應當明白,上面所描述的實施方式只是用於說明本發明,而並不構成對本發明的限制。對於本領域的技術人員來說,可以對上述實施方式作出各種修改和變更而沒有背離本發明的實質和範圍。因此,本發明的範圍僅由所附的權利要求及其等效含義來限定。
權利要求
1.一種用於構建搜索應用信息資料庫的資料庫構建裝置,包括 瀏覽會話識別單元,其被配置用於基於用戶的瀏覽歷史記錄及其發生時間來識別所述瀏覽歷史中的瀏覽會話; 搜索會話判定單元,其被配置用於根據所述瀏覽會話中的記錄的參數特徵以及記錄間的關聯性來判定所述瀏覽會話是否為搜索會話;以及 資料庫構建單元,其被配置用於根據判定的搜索會話來獲得所述搜索會話中的搜索應用信息,並基於所獲得的搜索應用信息來構建搜索應用信息資料庫。
2.根據權利要求1所述的資料庫構建裝置,還包括 過濾單元,其被配置用於從獲得的用戶的原始瀏覽歷史記錄中濾除掉無用記錄,並將過濾後的瀏覽歷史記錄發送至瀏覽會話識別單元進行處理。
3.根據權利要求1所述的資料庫構建裝置,還包括 更新單元,其被配置用於定期地啟動包括在所述資料庫構建裝置中的、除所述更新單元之外的其他部件,以重新構建搜索應用信息資料庫,並用新構建的搜索應用信息資料庫來替換原來的搜索應用信息資料庫。
4.根據權利要求1-3中任意一項所述的資料庫構建裝置,其中,所述資料庫構建單元包括 搜索應用信息提取子單元,其被配置用於從所判定的搜索會話中包括的記錄中提取搜索應用信息,所述搜索應用信息至少包括以下信息搜索應用的域名;與所述域名相對應的請求路徑;與所述域名和所述請求路徑相對應的搜索關鍵詞參數;與所述域名、所述請求路徑和所述搜索關鍵詞參數相對應的搜索時間;以及與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數;以及 資料庫建立子單元,其被配置用於根據搜索應用信息提取子單元所提取的所述搜索應用信息來建立搜索應用信息資料庫,並且,在所述搜索應用信息資料庫中,所述搜索應用信息是按照所述域名和所述請求路徑進行分組的。
5.根據權利要求4中所述的資料庫構建裝置,其中,在所述搜索應用信息提取子單元中包括點擊條目統計模塊,所述點擊條目統計模塊被配置用於統計所述與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數,其中 所述點擊條目統計模塊包括 確定子模塊,其被配置用於確定在所判定的搜索會話中的、具有在正文中出現次數超過預設值且被突出顯示的參數值的搜索操作記錄;以及 統計子模塊,其被配置用於在所述搜索會話中統計在所述搜索操作記錄之後發生的、以所述搜索操作記錄的URL為參照頁的記錄的條數,並將該條數確定為與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數。
6.一種搜索應用整合系統,包括如權利要求1-3中的任意一種資料庫構建裝置,還包括 應用整合單元,其被配置用於利用資料庫構建裝置所構建的搜索應用信息資料庫中涉及的所有搜索應用對用戶輸入的關鍵詞進行搜索,得到將所有搜索應用的搜索結果組合起來的整合搜索結果;以及接口單元,其被配置用於顯示輸入界面,接收用戶輸入的關鍵詞,以及顯示所述整合搜索結果。
7.根據權利要求6所述的搜索應用整合系統,其中,所述資料庫構建裝置中包含的資料庫構建單元包括 搜索應用信息提取子單元,其被配置用於從所判定的搜索會話中包括的記錄中提取搜索應用信息,所述搜索應用信息至少包括以下信息搜索應用的域名;與所述域名相對應的請求路徑;與所述域名和所述請求路徑相對應的搜索關鍵詞參數;與所述域名、所述請求路徑和所述搜索關鍵詞參數相對應的搜索時間;以及與所述域名、所述請求路徑、所述搜索關鍵詞參數和所述搜索時間相對應的搜索結果中被點擊過的條目數;和 資料庫建立子單元,其被配置用於根據搜索應用信息提取子單元所提取的所述搜索應用信息來建立搜索應用信息資料庫,並且,在所述搜索應用信息資料庫中,所述搜索應用信息是按照所述域名和所述請求路徑進行分組的。
8.根據權利要求7所述的搜索應用整合系統,還包括 排序單元,其被配置用於按照以下三種方式之一對所述整合搜索結果進行排序 按照與所述整合搜索結果相關的搜索應用被使用過的次數進行排序; 按照與所述整合搜索結果相關的搜索應用的域名各自對應的搜索結果中被點擊過的條目數的多少進行排序;或者 按照與所述整合搜索結果相關的搜索應用的域名各自對應的最新的搜索時間的先後進行排序。
9.一種用於構建搜索應用信息資料庫的資料庫構建方法,包括 基於用戶的瀏覽歷史記錄及其發生時間來識別所述瀏覽歷史中的瀏覽會話; 根據所述瀏覽會話中的記錄的參數特徵以及記錄間的關聯性來判定所述瀏覽會話是否為搜索會話;以及 根據判定的搜索會話來獲得所述搜索會話中的搜索應用信息,並基於所獲得的搜索應用信息來構建搜索應用信息資料庫。
10.一種搜索應用整合方法,包括如權利要求9所述的資料庫構建方法,還包括 接收用戶輸入的關鍵詞,並利用通過資料庫構建方法所構建的搜索應用信息資料庫中涉及的所有搜索應用對用戶輸入的關鍵詞進行搜索,得到將所有搜索應用的搜索結果組合起來的整合搜索結果。
全文摘要
本發明提供了用於構建搜索應用信息資料庫的資料庫構建裝置和方法、以及搜索應用整合裝置和方法,以克服在現有技術中存在的不能同時滿足不同用戶的使用偏好及需求的問題。資料庫構建裝置包括被配置用於識別瀏覽歷史中的瀏覽會話的瀏覽會話識別單元;被配置用於判定瀏覽會話是否為搜索會話的搜索會話判定單元;以及被配置用於獲得搜索會話中的搜索應用信息、並基於所獲得的搜索應用信息來構建搜索應用信息資料庫的資料庫構建單元。整合裝置包括上述構建裝置,還包括應用整合單元和接口單元,用於進行搜索、整合及顯示。應用本發明的上述技術,能夠更充分地匹配用戶的使用偏好和需求。
文檔編號G06F17/30GK103034662SQ20111030483
公開日2013年4月10日 申請日期2011年9月28日 優先權日2011年9月28日
發明者張軍, 鍾朝亮, 李邵明, 松尾昭彥, 鄒綱 申請人:富士通株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀