新四季網

用於分類呈現搜索結果的方法和系統的製作方法

2023-06-15 00:44:06 2

專利名稱:用於分類呈現搜索結果的方法和系統的製作方法
技術領域:
本發明涉及文檔搜索工具和方法。具體地說,本發明涉及旨在用於 對存儲有大量電子文檔的大型電子資料庫進行搜索的電子文檔搜索工具 和方法。
背景技術:
存在日益增加的大量的電子地存儲的信息。另外,存在針對使得不 同資料庫的數據為臨時搜索者可用的增長的趨勢。例如,因為越來越多 的數據被寫入網際網路伺服器並且因為越來越多的組織將他們的資料庫連 接至網際網路並由此使這些資料庫中包含的信息可經由網際網路使用,所以 包括大量存儲各種信息的不同伺服器的網際網路在持續擴大。
為了使得用戶能夠篩選這種大量信息並且在海量無關文檔中尋找相 關文檔,信息技術界內花費了許多努力來研究並開發搜索方法和工具, 以解決由此引發的、所謂的"數據超載信息貧乏"問題。
用於在網際網路上尋找電子文檔的多數搜索工具是基於關鍵字的搜 索,並且這些搜索工具趨於針對包括一個或僅幾個關鍵字(至少它們是
相當普通的字)的任何合理普通查詢,返回難於處理的大量命中(hit)。 甚至更多採用了精細分類文檔內容等的高級搜索工具因其基本上趨向於 基於關鍵字的搜索工具,故而針對任何相當普通的査詢仍然趨於返回大 量"命中"。
這種問題的原因之一僅僅在於計算機能夠非常快速地處理大量數據 從而生成非常大的命中列表。將典型網際網路搜尋引擎的性能與人類圖書 管理員相比,針對諸如"Hercules"的簡單查詢來說,前者很可能生成數 以萬計的結果,而後者通常至多生成兩個或三個"命中"。然而,在執行 "搜索"之前,人類圖書管理員將大概檢查讀者是否意指傳說中的希臘
英雄或是完全不同的內容(例如,具有該名稱的商業組織,電腦程式, 等等),並且人類圖書管理員將幾乎確定地尋找和讀者相關的內容。
因此,清楚的是,因為人類圖書管理員能夠向請求搜索的人詢問智 能問題並由此排除整個文檔"圖書館"中的僅僅基於簡單關鍵字搜索而 可能被分類為"命中"的大部分,所以他或她通常可以做得比網際網路搜 索引擎好。這種能力超出了當前計算機能夠成功模仿的能力,因此,需 要另選技術方案來在利用計算機的技術實力同時設法克服它們相應的弱 點(具體地說,它們缺乏智能)的情況下使得計算機能夠提高它們的搜 索能力,或者更加精確地說,提高計算機輔助用戶/請求者從利用基於簡 單關鍵字的搜索通常找到的大量可能文檔中尋找和該用戶/請求者特別相 關或所關注的一個或兩個文檔的能力。
US專利No. 6526440描述了一種根據返回文檔被其它文檔引用的頻 率對搜索結果進行重排序的系統。換句話說,這個文獻描述了一種基於 元信息(即,關於文檔的信息)而非簡單地依賴文檔中包含的信息重排 序文檔的方法。
Vivisimo已經生產出一種稱為"Clusty"的搜尋引擎,該搜尋引擎目 前可從http://clusty.com上獲得,在該搜尋引擎中將任何特定搜索的結果
聚類成相關類別。
由Amazon.com提交的WO 01/46870描述了如下一種系統,該系統 用於將搜索結果放入對應類別(每一個結果都已被預指配給特定類別(例 如,書、CD等)),並且用於根據多種規則(例如,通過計算特定類別中 的結果數與該類別中的項數的比率並且根據關於各類別的該比率的值對 多個類別進行排序)確定要向用戶呈現不同類別的次序。
US 6385602描述了一種類似於上述Clusty搜尋引擎的系統,在該系 統中,在執行搜索之後,使所得結果聚類,並基於聚類動態類別對這些 結果進行限定且用於將其呈現給用戶。
US 2003/0088553描述了這樣一種系統,即,在該系統中,第一數據
庫存儲預定類別集,第二資料庫存儲一組"預期搜索項"和到一個或更 多個預定類別的映射,而第三資料庫存儲類別與各種網際網路網站之間的
映射(即,將網站預分類到一個或更多個預定義類別)。接著,通過將輸 入搜索查詢指配給一類別並接著檢索與輸入搜索查詢對應的被預分類到 相應類別的所有網站(或到這些網站的連結或標題)來進行搜索。要注 意的是,這一活動代表了搜索處理的全部,由此,既沒有階段執行關鍵 字類型搜索,接著也沒有將這種搜索的結果分類到多個單獨的類別,而 搜索結果僅僅是分類為屬於輸入搜索查詢匹配的哪個類別的網站的總 和。
EP 1217542描述了這樣一種系統,即,在該系統中,移動通信裝置 (例如,行動電話)包括個人化本體(ontdogy),其用於幫助用戶將喜 愛的服務(或到這些服務的連結)存儲在該個人化本體的對應節點中來 標識這些服務。這個描述對於有關怎樣精確地執行搜索說得有點不太清 楚,但是,該描述給出(尤其從圖6中)它是通過如下步驟進行操作的 首先從個人化本體中尋找針對搜索請求的結果,並且如果失敗則使用普 通搜尋引擎來尋找針對該搜索的合適結果(參見第616、618以及620項)。 沒有討論如何向用戶顯示搜索結果,或在向用戶顯示結果之前是否根據 個人化本體對這些結果進行分類。

發明內容
根據本發明第一方面,提供了一種自動地對電子文檔庫進行搜索以 便輔助用戶尋找該用戶可用的全部文檔中的該用戶尤為關注(在那時) 的小子集的方法,所述方法包括以下步驟控制用戶接口以準許用戶輸 入包括一個或更多個關鍵字的搜索項;利用所述搜索項執行基於關鍵字 的搜索;將由所述搜索返回的文檔分類到多個不同類別;以及控制所述 用戶接口按使特定類別的文檔被分組到一起的分組方式來呈現通過所述 搜索返回的文檔或對其的引用,其中,所述多個類別是根據搜索查詢而 選定和/或動態地生成的。
優選的是,所述多個類別是通過處理所述搜索査詢以及公用本體或 本體集而選定和/或動態地生成的。優選的是,所述公用本體或本體集是 根據與用戶相關聯的偏好而個人化的。
優選的是,所述類別中的至少一個類別或一些類別是通過組合本體 中的概念來形成複合類別而根據所述本體動態地生成的。例如,如果本 體中的第一概念(例如,概念A)具有和該本體中單獨的第二概念(例
如,概念B)對應的屬性(例如,屬性B),該第二概念具有多個子概念 或子代(例如,子概念bl、 b2、 b3),則選定的類別可以包括通過對第二 概念中的子概念和第一概念(例如,形成作為A的實例並且具有屬性類 型bl、 b2以及b3的檢索文檔相應地分類到的類別blA、 b2A以及b3A) 進行組合而形成的複合類別。例如, 一種本體可能包括具有屬性"烹調 風格"、"地點"以及"電話號碼"的概念"餐館",其中,至少"烹調風 格"可能是本體中單獨的概念,其具有子概念"印度"、"現代歐洲"、"英 國"以及"素食"等,在該種情況下,至少可以形成下列複合類別,艮P, "印度餐館"、"現代歐洲餐館"、"英國餐館"以及"素食餐館"。要注意 的是,如果第三概念也具有"烹調風格"作為屬性(例如,概念"烹調 書"——或許其本身是概念"書"的子概念),則可以基於該第三概念形 成類似的複合類別(例如,"印度烹調書"等)。
優選的是,所述方法還包括以下步驟選擇優選類別,以基於用戶 的歷史行動更突出地呈現給用戶;並且動態地調整對用戶的類別呈現, 以改變基於用戶的行動顯示類別的突出性。在下面的具體說明中將對其 實施例進行更詳細的闡述。
根據結果的特性,可以有利地採用很多不同的向用戶呈現搜索結果 的方法。如果存在結果被視為落入其中的大量不同類別,則恰當的是初 始僅向用戶顯示類別,而非任何實際文檔(或對其的引用)。在只存在幾 個不同類別的情況下,恰當的是顯示一些實際文檔(或對其的引用),但 清楚地指示它們所屬的類別等。
優選的是,所述方法還包括如下步驟結合本體中包含的分級信息 利用用戶先前行動的存儲歷史,來生成向該用戶呈現的新的類別集,所 述新的類別集是通過根據一種類別的屬性所引用的本體中概念的存儲分 級來擴展該屬性以生成多個子類別而生成的,並且根據選定屬性的值將搜 索結果分組成相應的子類別。下面,在具體說明中對其實施例進行闡述。
應清楚的是,這個方法的典型實現將包含安裝和執行運行在遠程計 算機接入的伺服器計算機上的電腦程式。由此,控制用戶接口以準許 用戶輸入搜索項並且向用戶呈現搜索結果的步驟可以通過生成超文本標
記語言(HTML)頁面並將其發送給用戶所在的遠程計算機來執行,所述 超文本標記語言頁面包括到遠程計算機可接入(例如,通過網際網路)的 其它文檔的有效連結,並且為了允許用戶輸入搜索項還包括文本輸入字 段,該文本輸入欄位中的內容可以是由遠程計算機例如藉助於來自遠程 計算機的包括文本欄位的內容的HTML請求向其上正運行實現本發明實 施方式的電腦程式的伺服器發送的(可以採用預處理方式)。
根據本發明第二方面,提供了一種伺服器計算機,該伺服器計算機 用於輔助用戶利用遠程裝置從存儲在連接至伺服器和所述遠程裝置所連 接的同一數據網絡的裝置上的該用戶可用的文檔集中選擇文檔子集,所 述伺服器包括:用於接收來自遠程終端的包括一個或更多個關鍵字的搜 索項的裝置;用於利用所述搜索項執行基於關鍵字的搜索的裝置;用於 將通過所述搜索返回的文檔分類到多個不同類別的裝置;以及用於向所 述遠程終端返回輸出數據的裝置,該裝置準許所述遠程終端按特定類別 的文檔被分組到一起的分組方式來向用戶呈現通過所述搜索返回的文檔 或對其的引用,其中,所述多個類別是根據搜索查詢來選定的。
本發明的其他方面包括用於執行根據本發明第一方面所述的方法的 電腦程式或程序組,並且包括載帶這種程序或程序組的載體裝置。


為了更好地理解本發明,下面將參照附圖僅以實施例的方式對本發 明的實施方式進行說明,附圖中
圖1是實現本發明一實施方式的系統的框圖2是圖1的搜索伺服器的框圖,更詳細地示出了該搜索伺服器;
圖3是圖1和圖2中的搜索伺服器內存儲的本體的一部分的示意性 例示圖4是來自接入實現本發明一實施方式的伺服器的終端顯示器的屏 幕快照(screen shot)的示意性例示圖;以及
圖5是圖4的屏幕快照的後續(followon)屏幕快照的示意性例示圖。
具體實施例方式
參照圖1,所述系統包括經由網際網路50連接至搜索伺服器20的遠 程終端10。另外,連接至網際網路50的還有多個普通網絡伺服器30,每 一個普通網絡伺服器30都可以連接至存儲有可經由網際網路50存取的電 子文檔的多個資料庫41、 42、 43。
參照圖2,搜索伺服器20包括多個資料庫用戶簡檔(profile)庫 21,其存儲關於每一個用戶的由搜索伺服器20提供的搜索服務的詳情; 本體庫22,其存儲一個或更多個公用本體以及本體間的映射(如果存在 多於一個本體);以及辭典23,其存儲計算機可存取的指定單詞的不同含 義、同義詞以及單詞之間(或者因為某些單詞可以具有多於一種的含義, 所以更精確地說是這些單詞的不同含義之間)的關係(例如,其專用化、 通用化等)的字典(例如,WordNet)。另外,搜索伺服器包括多個程序 模塊.*文檔定位器和排序模塊25,其響應於輸入的搜索查詢而生成"命 中"列表並且將它們排序成用戶可能感興趣的次序;文檔分類器模塊26, 其將輸入的文檔分類到指定的一個本體或多個本體的概念;以及HTML 頁面生成器模塊27,其響應於從遠程裝置接收到的HTML請求生成向遠 程裝置發送的HTML頁面。
在這些資料庫和程序模塊中,辭典23與文檔定位器和排序模塊25 可以根據這些組件的任何適合常規實施方式形成(例如,關於怎樣形成 合適的辭典資料庫 23 的詳情參見目前在 http:〃www.cogsci.princeton.edu/ wn/上可獲的WordNet的網絡站點,並 且關於怎樣設置合適的文檔定位器和排序模塊25的詳情參見美國專利 No. 6526440),由此,下面將不再更詳細說明這些組件,除非是闡明本實 施方式的操作所必需的。在這個實施方式中,我們使用WordNet來提供 辭典23,該辭典23除了列舉有多個單詞意義以外,還列舉了同義詞、反 義詞、下位詞等,並且闡述了單詞分級,例如"狗"是"動物"的子類
別等。
在本優選實施方式中,用戶簡檔庫21存儲有關於先前每一個用戶在
使用搜索伺服器時採取的行動的詳情,以及關於用戶的詳情。該庫還可 以存儲對存儲在本體資料庫中的對相應用戶來說是個人化的所述本體或 公用本體(或公用本體集)的修改。下面給出了關於這個可能性以及用
戶先前行動的格式的詳情。
在本實施方式中,所述公用本體或每一個公用本體是利用OWL (網 絡本體語言)(其詳情目前可以在http:〃www.w3 .org/TR/owl-features/找到) 在資料庫22內表示的,然而,任何本體語言都可以用於這個目的。
如公知的,在信息技術領域中,本體是典型地通過採用樹狀結構排 列在一起的多個節點(這使得典型節點具有一個父系節點和一個或更多 個子系節點)來形成的。根節點是沒有父系節點的特殊節點(它是本體 中的所有其它節點的最終父系),並且葉節點是沒有子系的特殊節點。每 一個節點都具有標註(指定該節點表示什麼的單詞或短語),並且具有一 個或更多個屬性(其中每一個都具有其自己的名稱和值或值列表等)。除 了遺傳分級以外,每一個節點還可以指定其與其它節點的關係,例如, 狗和貓不相交。
為了例示本體的這個典型排列,圖3示出了本實施方式的公用本體 的一小部分。這個公用本體的根節點10被標註為"事物"並且沒有屬性。 然而,它具有五個直接子系(這些是例示出的——很自然,它可以另外 包含更多沒有例示出的直接子系)"公司"節點312、"產品"節點314、 "價格"節點316、"貨幣"節點318以及"產品特徵"節點319。"公司" 節點312被例示為具有稱為"名稱"和"地址"的兩個屬性。 一般來說, 屬性將一值存儲為簡單文本串或號等,或者存儲為本體內的另一概念。 如果存儲為後者(即,另一概念),則該屬性值可以是屬於該屬性引用的 相應節點/概念的個體。"產品"節點314具有標註為"名稱"和"說明書" 的兩個屬性。"價格"節點316具有標註為"量"、"比例因子"以及"貨 幣"的三個例示屬性。"產品特徵"節點319具有標註為"名稱"的一個 屬性。
"貨幣"節點318沒有被例示為具有任何屬性,而是被例示為具有
兩個屬於它的個體,即,US美元和UK英鎊。"價格"節點316的"貨 幣"屬性是引用本體內另一概念/節點的屬性的實施例,並且,在圖3中 所示部分中,由此將取個體"US $" 320或者個體"UK£" 322作為其值。 "公司"節點312具有作為"公司"概念的子概念的兩個子系節點,"電 子儀器"324和"服務"326。這些子概念中的每一個都繼承了其父系節 點312的所有性質,以使這些概念中的任一個的任何個體成員都包括屬 性"名稱"和"地址"以及專用於作為一成員的實際子類的屬性。在圖3 中,子節點324被例示為具有一個指定屬性"具有產品"。類似的是,"服 務"子節點326被例示為具有"具有服務"屬性。"產品"節點314被例 示具有"行動電話"子節點328,該子節點328具有子屬性"具有特徵"。
要注意的是,上述圖3部分地例示的本體是公用本體。對於個體用 戶來說,可以通過對該公用本體中包含的概念加以限制或改變來對該公 用本體進行個人化。例如,具有屬性"具有特徵"(以及具有繼承屬性"名 稱"和"說明書")的子概念"行動電話"328可以被個人化成要求該特 徵中的一個必須是該電話具有至少2K存儲器。根據這種個人化,公用"移 動電話"概念中的任何具有小於2K存儲器的個體都不被視為屬於個人化 行動電話概念的個體,而是被簡單地分類為用於特定用戶的產品。這樣, 當特定用戶引用概念"行動電話"時,意指具有至少2K存儲器的移動電 話。在本實施方式中,為了使這種個人化本體在篩選特定檢索數據項中 有效,數據源必需按某些方式(舉例來說,如,包括根據指定相關性質 的方案以機器可讀形式列舉(舉例來說,如通過以XML文檔的形式寫入) 關於數據項的性質的元標籤)恰當地結構化。
要注意的是,除了能夠經由全球資訊網(WWW)從普通網絡伺服器獲 取信息以外,在另選實施方式中,搜索伺服器20還可以位於和用戶相同 的內聯網域內,並由此可以另外(或另選地)從內聯網內的數據源獲取 信息,等等。
當用戶想要執行搜索時,該用戶訪問搜索伺服器20的網絡主頁,然 後該頁面被顯示在用戶正從其接入搜索伺服器的遠程終端10的屏幕上。
圖4例示(示意性地)了搜索伺服器20的主頁怎樣被顯示在遠程終 端10的屏幕上。如從圖4可以看到,如顯示在遠程終端10上的主頁包 括用戶可以鍵入搜索查詢的文本輸入框410。用戶隨意將任何文本輸入文 本輸入框410中,並且在用戶敲擊輸入/回車鍵時,由用戶輸入到文本輸 入框中的文本被從遠程終端10發送至搜索伺服器20。
搜索伺服器20假定用戶輸入的文本是諸如短語或句子的自然語言 查詢。由此考慮下面的實施例查詢 "Mobile phone with message"
當搜索伺服器接收到這個消息時,第一步是將查詢"分塊"(chunk) 成短語。存在許多用於執行這種分塊的已知算法。在本實施方式中使用 的一種算法是基於文本工程通用架構(GATE)的,該算法是在Sheffield 大學開發的並由此通常被稱為"She伍eld Gate"系統(詳情參見 http:〃gate.ac.uk)。利用這種分塊算法,上述查詢被轉換成兩個"塊",艮卩, "Mobile phone"和"message"。(注意,對於其他合適的"分塊"算法 的實施例,參見待審英國專利申請No. 0421754.3中的"Key Phrase Extraction"部分)。
搜索伺服器20接著嘗試將每一個"塊"映射至公用(或個人化)本 體內的一個或更多個節點。在本實施方式中,映射處理通過首先尋找相 應"塊"與本體中的任何節點之間的任何直接匹配來執行。如果成功,
則存儲所述直接匹配節點並且處理結束。如果沒有直接匹配,則將"塊" 分成單詞從而被"詞幹化"(stem)(關於適合詞幹化算法的詳情再次參 見http:〃gate.ac.uk或待審英國專利申請No. 0421754.3),並且該算法尋找 詞幹化的單詞與本體中的節點之間的部分匹配(例如,假設在節點標註 與詞幹化單詞之間只有一個公用單詞或部分單詞)。如果以這種方式找到 一些匹配,則存儲每一個匹配節點,並且處理結束。如果沒有找到和詞 幹化單詞的匹配,則在辭典中尋找詞幹化單詞的任何同義詞(即,具有 相同含義的單詞)並且用於搜索和本體的節點的匹配,如果找到,則在 結束處理之前存儲它。如果不能找到任何匹配,則將辭典用於尋找詞幹 化單詞的通用化和專業化,並將這些用於尋找本體中的匹配節點。如果
以這種方式找到一些匹配,則存儲每一個匹配節點,並且處理結束。如 果沒有找到匹配,則處理結束,並且,在本實施方式中,沒有選擇類別 且搜索按完全常規的方式進行,並且以通過某些相關性測量排序的普通 未分類結果列表將搜索結果呈現給用戶。
因此,在本實施例中,塊"Mobilephone"直接匹配至"行動電話" 概念/節點328。本實施方式中的(偏向電信)公用本體中的"message" 塊沒有直接匹配至該公用本體中的任何節點/概念。然而,在對"message" 執行單詞詞幹化從而得到"messag"之後,將其部分地映射至單獨節點
334 ("messag"部分地被地映射至標註"short message service (短消息業 務)"中的單詞"message")和概念/節點340 ("messag"部分地被映射至 標註"Instant Messaging Application (即時消息接發應用)"中的單詞 "message ,,)。
作為匹配處理的一部分,可以採用一些技術以基於作為整體的輸入 搜索查詢的語境使特定匹配優先於其它匹配。可以使用(單獨地或組合 地)多個不同技術以便獲得這種效果。例如,本體本身可以被用於設法 確定某些可能匹配是否比其它匹配更適合。例如,在本實施例的公用本 體中,節點32S (輸入查詢的第一塊已經和其匹配)具有一屬性,BP,對 節點332的引用,節點332具有作為個體成員的節點334 (其是第二塊的 兩個可能映射之一)。另一方面,在節點328與340之間不存在這種連結 (第二塊的另一可能匹配)。基於此,輸入查詢的第二塊"message"到 節點334的可能映射,可以優於到節點340的可能映射(當然,這假定 Instant Messaging沒有作為行動電話特徵表示在公用本體中——如果應 當更新包括這種特徵開始的行動電話而不是更新本體來對此進行反映, 則沒有一種映射會優於其它映射)。
有助於使一種匹配優於其他匹配的另一技術可以使用關聯單詞列表 的資料庫。這種關聯單詞列表可以例如利用WordNet的一些特徵自動地 生成(或者預先生成然後存儲,或者匆忙生成)。例如,考慮輸入查詢 "software in java"。這個査詢將被分塊成"software"和"java"。可以在 辭典中查找這兩項。針對利用WordNet形成辭典的情況,第一項僅具有
一個意義,而"Java"返回3個不同意義(一個島, 一種咖啡以及一種面 向對象的程式語言);可以生成用於每一個意義的關聯單詞列表(例如, 利用三個意義中的每一個的定義,同樣可以根據源自針對每一個意義的 直接同義詞、上位詞以及下位詞的定義),並接著使用該關聯單詞列表, 以察看第一塊(即,"software")是否出現在這些列表中的任一個中(在
這種情況下,它應當僅呈現在與第三個意義相對應的關聯單詞列表中), 並且如果這樣,則可以推斷用戶可能意指該項的含義。在大型通用本體 中,很可能單詞Java的這三個不同意義中的每一個意義都具有其自己的 獨立的節點/概念。每一個這種節點都可以明確地連結至通過辭典已知的 單詞java的意義中的對應一種意義,或者另選的是,可以使用從本體內 的父系節點(或其他緊密關聯節點)中的關聯單詞列表中尋找其它匹配 單詞的處理,以將確定的意義匹配至本體中的對應節點。
如果匹配處理成功找到和本體中的節點的某些匹配,則匹配的節點 被用作搜尋引擎將嘗試把搜索結果放於其中的類別。由此,在本實施方 式中,將原始搜索查詢(例如,"Mobile phone with message")輸入到文 檔定位器和排序模塊25 (如上所述,其是簡單的常規搜尋引擎)中,結 果返回"命中"的排序列表。接著,將該排序"命中"輸入到文檔分類 器模塊26,該文檔分類器模塊26使用一算法以嘗試將每一個返回的文檔 分類到匹配類別中的一個。在本實施方式中,分類器使用的算法簡單地 包括如下內容存儲與本體的每一個節點有關的關鍵字列表;並且搜索 每一個返回的文檔以察看它是否包含列出的關鍵字。如果該文檔至少包 含最小數量的列出關鍵字,則它被分類為屬於相應的類別。顯然,通過 例如具有某些反關鍵字(它們如果存在將使得文檔被分類到相應的類別
的可能性更小)等,可以有更複雜的規則。而且,關鍵短語也可以出現 在列表中,並且也可以利用關鍵字或短語之間的距離(按照單詞數)來 幫助進行分類等。
要注意的是,如果匹配的概念具有子概念(即,子系節點,例如, 在概念328的情況下,"行動電話"可以具有諸如"諾基亞"、"索尼愛立 信"等的子概念)。在這種情況下,如果可以將任何文檔分類到父系概念
或者分類到子系概念,則由於子系文檔比父系概念/節點更具體故而將該 文檔分類到子系文檔。
圖5例示了怎樣將本情況下的搜索結果在遠程終端10的屏幕上呈現 給用戶。如在早先的畫面中一樣,仍舊有文本輸入框410,其中繼續顯示 剛輸入的搜索查詢並且用戶可以在任何時候向其中輸入新的搜索查詢。
在文本輸入框的下面是結果顯示區510。該結果顯示區被分成兩個子區, 左手面板512顯示多種類別(對應於公用或個人化本體中的節點)的分 級或可展開樹狀視圖,而右手面板514顯示與根據最新搜索的命中(如 分類在左手面板512中的當前突出的類別中的)相對應的URL。在任何 時候,左手面板中所示類別中的一個將被突出(如圖5中通過圍繞類別 "行動電話"的虛線框518),並且可以由用戶在任何時候點擊到左手面 板中的類別中的另一類別上來改變。在本實施方式中,如果用戶點擊右 手面板514中顯示的URL中的一個,則通過瀏覽器應用打開新的窗口, 以顯示與點擊的URL對應的HTML內容(在另選實施方式中,可以將與 點擊的URL對應的內容顯示在代替新窗口的右手面板內)。
讀者應當清楚,左手面板512向用戶呈現與通過許多作業系統和其 它應用提供的經典目錄樹狀結構視圖類似的顯示,其中,目錄和子目錄 按分級排列的形式排列。然而,本實施方式的左手面板中的顯示具有的 一個顯著差別在於,顯示節點的次序以及節點展開的深度是高度可變且 可配置的。這和樹沿任何特定一個分支或多個分支擴展的深度可變的標 準瀏覽器形成對比(通常,系統將具有針對應當怎樣擴展樹的一些默認 種類設置——例如,通過除包含特定選定文件或目錄的分支以外將樹保 持為儘可能得不擴展,或者通過記住樹在相應的應用上次關閉時的準確 狀態等,可能用戶不考慮任何默認設置而手動地確定擴展哪個分支並且 擴展至什麼程度)。然而,在任何情況下,節點的實際次序在標準的常規 瀏覽器中都不是可變的(並且通常是按字母表次序簡單完成的)。與此相 反,在本實施方式中,節點出現在左手面板512的樹狀視圖中的次序按 這樣的方式改變,即,通常將被認為是用戶目前最感興趣的節點呈現在 面板的頂部,通常將格外被認為具有相關性更小的節點呈現在左手面板中的更低處。由於仍舊想要將父系節點相應地呈現為比它們的子系節點 更高(在本實施方式中)並且向左縮進,故而多少限制了上述方面可以 實現的程度。然而,通過將樹狀視圖放入巻動窗格中,可以一定程度地 調解這一問題(即,通過將以上最相關節點的父系節點放置在滑動窗格 的"頂部"的當前位置,以使得看不見它們,除非用戶向上巻動來察看 它們)。
在本實施方式中,使用多個策略來設法確定在左手面板中呈現節點 的最佳次序,以實現試圖將最相關的節點呈現在面板的頂部處的目的。 這種方法的最重要之處在於參照如存儲在用戶簡檔庫21中的相應用戶的 過去行動。在本實施方式中,將這些簡單地存儲為三元組,其中用戶id是所關注的用戶的唯一標識符,類別1是觀看
的類別(即,左手面板512中由用戶選定並由此突出的類別),而類別2 是用戶在觀看類別1之後觀看的下一個類別。將大到一定數量的這些內 容存儲(採用先入先出的方式)在設置用戶簡檔庫21的資料庫中。當用 戶點擊左手面板512中的類別時,搜索用戶簡檔庫21來尋找相應用戶的 點擊類別表現為類別1的所有三元組。對於不太常用的後續類別來說, 如果這些三元組中的一些示出一個類別與其它任何類別相比更經常地出 現為類別2,則試圖將該類別拉到樹狀視圖列表中儘可能髙處,等等。在 存在按照類別出現為類別2的頻率糾結的情況下,出於排序的目的,最 新的三元組優於較舊的三元組。
如果用戶首次突出了一類別(或者,在用戶簡檔庫21已經刪除了任 何這種記錄的足夠長的時間內至少首次),可以將該歷史簡單地用作關於 用戶喜歡的類別的一般引導,並且可以將這些呈現為更高次序。然而, 在另選實施方式中,首先可以針對觀看當前類別的父系或祖父系等類別 並且基於針對任何這種祖先類別等的關聯類別2項確定可能的嵌套類別 的任何先前歷史來執行搜索。
下面,再參照圖5,行動電話類別是突出518的類別,右手面板在 頂部處顯示與涉及行動電話和SMS但沒有專用於製造者A至D中的任 何特定一個的文檔有關的URL列表,越不相關的文檔(例如,通常涉及
行動電話但未引用SMS的那些文檔)的URL顯示在列表的逐漸越低處。 如果用戶點擊了專用於特定製造商的類別中的一個,則右手面板將改變 成專用於該特定製造商的URL列表,還是將越不相關的文檔的URL顯 示在列表的逐漸越低處。要注意的是,分類到SMS類別的URL將對應 於相當概括地討論SMS而非特別關於任何特定類型的行動電話等的文 檔。而且,要注意的是,按相關性來排序文檔是通過常規文檔定位器和 排序模塊基於如上所述的輸入搜索查詢來執行的。
如上所述,根據用戶的過去行動等在動態基礎上自動地重構左手面 板518中的節點的排列。在本實施方式中,在自用戶突出了新的類別起 經過了預定時間量之後,或者在用戶點擊了右手面板514中的URL之後, 完成這種重構,然而,在另選實施方式中可以使用其它觸發。
如上所述,當左手面板動態地改變而不輸入新的搜索查詢時,在可 能的情況下,將當前類別和用戶歷史一起使用,以便確定左手面板512 中的類別的次序。然而,如果用戶沒有歷史,則當觸發左手面板512中 的類別的重排列時,和與本體中定義的概念對應的當前頁面類別關聯的 第一屬性的類別(例如,行動電話概念328具有如下屬性,即具有移動 電話特徵,其類型為與概念"行動電話特徵"332對應的"行動電話特徵" 的類型)顯示在當前關注的類別的正下方。要注意的是,當完成這個時, 該類別在某種意義上將出現兩次,因為它可在是其屬性的突出類別的正 下方獲得,並且其還可以單獨作為表示全部本體的用戶能夠差不多和普 通樹狀瀏覽器一樣隨意導航的樹狀結構的一部分。
如果歷史搜索成功,則將找到的所有第二類別(按照頻率和/或晚近 的順序)顯示在跟隨有先前顯示的分級的當前突出的類別之下。作為一 實施例,假定用戶關注於"索尼產品"類別,並接著觸發對左手面板的 動態重排列(例如,通過觀看與該類別對應的URL),如果用戶歷史簡檔 示出在觀看索尼產品類別之後他通常轉至"零售商"類別,則零售商類 別將顯示在索尼類別之下。在一變型例中,除了下一類別,還顯示下一 類別的整個下遊分級或其一部分。由此,在零售商類別具有幹道商店和 在線零售商兩個子類別的情況下,將這些也顯示在零售商類別之下。在
代替子類別(或除了子類別以外)特定類別具有個體的情況下,可以將 這些顯示在類別下面。
要注意的是,用戶可能不總是希望左手面板中的樹狀視圖動態地改 變,而在這種情況下,他可以設置一選項以使這個特徵無效。此外,因
為通過搜索伺服器生成新的HTML頁面並將其發送給遠程裝置來執行重 排列,所以為了在不同排列之間導航以及如果用戶希望返回至早先排列 等,他可以使用其網絡瀏覽器上的向前按鈕和向後按鈕。
在一個實施方式中,代替包括表示整個本體以及任何動態地生成的 類別的所有節點(最不相關節點"摺疊(collapse)"),可以僅顯示相關類 別。另選的是,左手面板可以顯示兩個單獨的樹(具有單獨的根節點), 其中一個是整個本體(採用摺疊形式,以使你僅看到根節點),而另一個 正好包含與相應搜索查詢相關的類別。
本實施方式中提供的一附加特徵是該系統有時可以預見來確定怎樣 最佳地在左手面板中顯示節點分級。這種預見使用來自用戶歷史的兩個 後續類別。例如,考慮其中用戶搜索大學系部內的內部學生資料庫的情 況。在這個資料庫中,每一個學生都在其詳情中包括該學生所上的課程 的詳情
學生
課程課程 年年
系部提供的課程也以分級形式存儲在資料庫中-課程
AI課程 推理課程 演繹 反繹 信息課程 資料庫 網絡
如果用戶的歷史示出了他經常遵循學生>課程>學生的路線,則當該 用戶點擊左手面板的學生類別時,系統推斷該用戶可能對於了解如按所 上的課程分類的學生感興趣。同樣,針對學生的搜索獲得下面出現在左 手面板中的顯示
AI學生 推理課學生
演繹課學生
反繹課學生 信息課學生
資料庫課學生
網絡課學生
其中,類別學生的最恰當的屬性(如根據學生的歷史簡檔確定的) 已經根據屬性的(即,課程的)關聯概念(即,課程)的分級而擴展, 從而形成複合類別。
要注意的是,這個實施例還例示了本發明怎樣可以應用至搜索諸如 結構化資料庫(例如,關係資料庫)的結構化數據源。具體地說,本發 明特別適於包括已經利用基於本體的集成裝置(如在下面公布的國際專 利申請WO 02/080026; WO 02/080028; WO /02/080029;以及WO 03/0025 中描述的集成裝置)集成的大量不同數據源的結構化數據源。在這種情 況下,代替將如用戶輸入的原始搜索查詢發送到常規的基於關鍵字的搜 索引擎,在利用公用本體或本體集預處理輸入的查詢以排除不可能的結 構化查詢等之後根據輸入的查詢生成結構化查詢。上述專利申請提供了 關於怎樣將自然語言查詢轉換成恰當的結構化査詢集來接入集成的異種 數據源集的更多細節,並且由此在這個方面中通過引用併入本申請。自 然地,當利用結構化數據源時,己經按照公用本體恰當地分類了該結果, 因此不再需要這個處理。然而,利用改變呈現類別的次序的GUI的左手 面板向用戶呈現信息的方式不受搜索的數據源的性質影響。
權利要求
1、一種自動地對電子文檔庫進行搜索的方法,該方法包括以下步驟控制用戶接口以準許用戶輸入搜索項;利用所述搜索項執行搜索;將由所述搜索返回的文檔分類到多個不同類別;以及控制所述用戶接口按使特定類別的文檔被分組到一起的分組方式來呈現由所述搜索返回的文檔或對其的引用,其中,所述多個類別是根據所述搜索項來選定的。
2、 根據權利要求1所述的方法,其中,所述多個類別是通過將所述 搜索項與公用本體或本體集一起進行處理而選定的。
3、 根據權利要求1所述的方法,其中,所述多個類別是通過將所述 搜索項與個人化本體一起進行處理而選定的。
4、 根據權利要求3所述的方法,其中,所述個人化本體是通過針對 公用本體或本體集內的概念的特定屬性或性質的允許值或值的範圍設置 限制而形成的。
5、 根據權利要求2到4中的任一項所述的方法,該方法還包括如下 步驟結合所述本體或本體集中包含的分級信息利用用戶先前搜索行動 的存儲歷史,來生成向該用戶呈現的新的子類別集,其中,所述新的子 類別集是通過如下操作生成的,即,根據基礎類別的引用所述本體或本 體集中另一概念的屬性所引用的所述本體或本體集中的所述概念的存儲 分級來擴展該屬性,從而生成所述基礎類別的子類別,由此,隨後可以 根據選定屬性的值將搜索結果分類到所述新生成的子類別中的相應子類 別。
6、 根據權利要求2到5中的任一項所述的方法,其中,所述多個類 別中的至少一個類別或一些類別是通過組合所述本體中的概念來形成復 合類別而根據所述本體動態地生成的。
7、 根據前述權利要求中的任一項所述的方法,其中,所述搜索是基 於關鍵字的搜索。
8、 根據權利要求1到5中的任一項所述的方法,其中,所述搜索項被轉換成用於査詢一個或更多個關係資料庫的結構化查詢。
9、 一種伺服器計算機,該伺服器計算機用於輔助用戶利用遠程裝置 在存儲於連接至伺服器和所述遠程裝置二者所連接的同一數據網絡的裝 置上的該用戶可用的文檔集中進行搜索,所述伺服器包括用於接收來 自遠程終端的搜索項的裝置;用於利用所述搜索項執行搜索的裝置;用 於將由所述搜索返回的文檔分類到多個不同類別的裝置;以及用於向所 述遠程終端返回輸出數據的裝置,該裝置準許所述遠程終端按特定類別 的文檔被分組到一起的分組方式來向用戶呈現由所述搜索返回的文檔或 對其的引用,其中,所述多個類別是根據所述搜索項來選定的。
10、 一種電腦程式或程序組,該電腦程式或程序組用於使得在 .執行該電腦程式或程序組期間執行根據權利要求1到7中的任一項所述的方法。
11、 一種載體裝置,該載體裝置載帶根據權利要求9所述的計算機 程序或程序組。
全文摘要
本發明涉及用於分類呈現搜索結果的方法和系統。一種自動地對電子文檔庫進行搜索的方法,該方法包括以下步驟控制用戶接口以準許(410)用戶輸入搜索項;利用所述搜索項執行搜索;將由所述搜索返回的文檔分類到多個不同類別;以及控制所述用戶接口按使特定類別的文檔或對其的引用被分組到一起的分組方式,在左手面板(512)中呈現所述多個不同類別,而在右手面板(514)中呈現由所述搜索返回的文檔或對其的引用,其中,所述多個類別是根據所述搜索項來選定的。
文檔編號G06F17/30GK101116072SQ200680003954
公開日2008年1月30日 申請日期2006年2月2日 優先權日2005年2月3日
發明者湛 崔, 西蒙·詹姆斯·凱斯, 貝南·阿斯文 申請人:英國電訊有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀