新四季網

響應於用戶輸入精煉搜索空間的製作方法

2023-09-23 18:16:55

專利名稱:響應於用戶輸入精煉搜索空間的製作方法
技術領域:
本發明大體涉及詞法分析,更具體地說,涉及響應於用戶輸入精煉搜索空間。
背景技術:
本申請要求2007年10月5日提交的、發明人為David Marvit等、發明名稱為 "Techniques for Reduction of a Search Space"的美國臨時專利申請No.60/977,800的優先權。 數據的語料庫(corpus)可以保持大量信息,然而,找尋相關信息可能很難。可 以對文檔加標籤,以便於搜索相關信息。然而,在特定情況下,用於對文檔加標籤的已 知技術對於信息定位不是很有效。


圖1例示了精煉搜索空間的系統的一個實施方式; 圖2例示了可與圖1的系統一起使用的親和度(affinity)模塊的一個實施方式; 圖3例示了記錄基本親和度的親和度矩陣的一個示例; 圖4例示了記錄有向親和度的親和度矩陣的一個示例; 圖5例示了記錄平均親和度的親和度矩陣的一個示例; 圖6例示了親和度圖的一個示例; 圖7例示了可與圖1的系統一起使用的聚類模塊的一個實施方式; 圖8例示了可與圖1的系統一起使用的本體(ontology)特徵模塊的一個實施方
式; 圖9例示了可與圖1的系統一起使用的搜索模塊的一個實施方式;以及 圖10例示了用於精煉搜索空間的方法的一個示例。
具體實施方式

概述 在一個實施方式中,搜索語料庫的搜索空間,以生成結果。所述語料庫包括與 關鍵詞相關聯的文檔,其中各個文檔都與指示該文檔的至少一個主題的至少一個關鍵詞 相關聯。將一個或更多個關鍵詞確定為不相關關鍵詞。根據所述不相關關鍵詞精煉所述 搜索空間。 示例性實施方式在特定實施方式中,生成並查詢領域本體(domain ontology)可以包括下列步
驟 1、收集領域中的文檔。在特定實施方式中,文檔(document)是詞條(term)的集
合。文檔可以包括可讀文本,例如,新約全書。文檔不需要包括採用敘述形式的文本, 例如,文檔可以包括單獨和共同地描述圖像內容的一組用戶鍵入的標籤。文檔的集合可以被稱為"領域語料庫(domain corpus)"。 2、識別該領域中所關注的詞條("詞典詞條")。詞條的示例包括詞(諸如 "樹")、短語(諸如"圖解算法")、命名實體(諸如"紐約")等。詞條(或概念)可 以具有不同形式。在特定情況下,不同的詞被用於同一概念,例如,"kidney stones(腎 結石)"禾卩"kidney calculi(腎結石)"指同一概念,艮卩"腎結石"。在其他情況下,詞 幹可以具有許多詞形變化,例如,詞幹"tree"具有詞形變化"tree"和"trees"。 在 特定實施方式中,可以把同一詞條的各種形式映射為同一詞條進行處理。在文檔中可以 出現詞典詞條的任何適當形式,但特定詞典詞條不必出現在任意文檔中。
識別詞典詞條的方法的示例包括使用針對特定領域的人類生成的詞典,例如, 醫學詞典。在特定實施方式中,可以由語料庫中的文本串集合自動生成一系列詞典詞 條。可以根據頻度對文本串進行索引和排序,並且可以選擇頻度超過閾值的文本串。可 以使用其他適當的統計方法來確定詞條。在特定實施方式中,"詞"可以與"詞條"和 "詞典詞條"互換。 3、計算給定的共現語境(co-occurrence context)中的詞典詞條的共現次數。如果 兩個詞條在同一共現語境內各自出現至少一次,則它們共現。共現語境的示例包括文檔 和段落。 4、生成包括領域本體的有向加權圖(directed weighted graph)。 有向加權圖包括 作為節點(node)的詞典詞條和作為邊(edge)的權重的親和度。"有向加權圖"可以被用 作可由任何適當的數據結構(例如,矩陣、二值判決圖,或二值判決圖的集合)表示的同 一信息的實際表示。 5、應用查詢有向加權圖的過程。指定一個或更多個詞典詞條作為輸入,該過程 輸出與輸入的詞典詞條有關的一個或更多個詞典詞條。例如,該過程可以輸出針對一個 或更多個輸入詞條具有最高的差分有向親和度(將在下面描述)的一個或更多個詞條的有 序列表。在這種情況下,該輸出包括與本體涉及的領域有關的、與輸入詞條更加密切相 關的詞條。 可以使用親和度的任何適當定義。在特定實施方式中,可以使用下列定義
1、基本親和度 a、可以將詞條A與B之間的基本親和度(A)定義為包括詞條A和B兩者的共現 語境的數量與包括詞條A或B中的任一者的共現語境的數量的比
A(A, B) = |AB|/|A或B| b、可以將詞條A和B之間的基本親和度(A)定義為包括詞條A和B兩者的共現 語境的數量與包括A的共現語境的數量或者包括B的共現語境的數量中的最大值的比
A(A, B) = |AB|/max(|A|, |B|)
2、有向親和度 可以將詞條A和B之間的有向親和度(DAff)定義為在共現語境中觀察到A的情 況下,觀察到B的條件概率
DAff(A, B) = |AB|/|A| g卩,有向親和度可以是包括詞條A和B兩者的共現語境的數量與包括詞條A的 共現語境的數量的比。
一般而言,DAff(A, B)不同於DAff(B, A)。
6
3、差分有向親和度 可以將詞條A與B之間的差分有向親和度(DiffDAff)定義為詞條A與B之間的
有向親和度減去一個表示詞條B在語料庫中的普遍性的係數。詞條B在語料庫中的普遍
性可以是詞條B對於語料庫中的其他詞條的基本親和度或有向親和度值的統計值。在特
定實施方式中,詞條B在語料庫中的普遍性可以是詞條B的平均親和度(AA),這導致了
如下的差分有向親和度定義 DiffDAff(A, B) = DA(A, B)-AA(B) 可以將詞條B的平均親和度(AA)、或平均有向親和度定義為
AA(B) = AVERAGE_x DAff(x, B) g卩,平均親和度可以是詞條B對於共現語境中的其他詞條的有向親和度的平均值。 圖1例示了精煉搜索空間的系統10的一個實施方式。在特定實施方式中,系統 IO搜索語料庫的搜索空間,並且向用戶呈現結果及其相關聯的關鍵詞,其中,結果的關 鍵詞可以指示該結果的主題。用戶可以選擇不相關的關鍵詞。系統io可以接收不相關 關鍵詞的選擇並且根據該不相關關鍵詞精煉搜索空間。 在具體實施方式
中,可以針對給定的詞子集和詞典D來對特定反向索引II計算 有向親和度,其中,索引II例如包括針對字Wi和Wj的條目I(wO禾PI(Wj)。 一般來說, 反向索引是存儲從詞條到其位置的映射(即,詞條所出現的共現語境)的索引數據結構。 對於D中的每一詞對Wl和Wj, DA(i, j)可以被定義為II中的條目I(Wl)和I(Wj)的合取 (conjunction)中的值除以I(O中的值的數量。
一般來說,DA(i, j)不必等於DA(j, i)。該 結果可以按任何適當方式存儲,例如,按行存儲,其中,存儲D(l, i),接著存儲D(2, j),等等等。對於每一行i,可以存儲II(OI,繼之以與Wj的合取的基數(cardinality)。
在具體實施方式
中,可以按三個階段計算有向親和度。在該實施方式中,各個 詞典詞條都被指定有唯一的整數標識符。反向索引的條目對應於該整數標識符。在階段 0中,讀取對應於D的II條目。對於參數(s, o),僅保持ks+o形式的元素標識符。值 ks+o定義了待檢查的II條目的子集。按這種方式,可以並行計算有向親和度。作為一 示例,由參數s得到的結果o(l, 0)等同於由參數(3, 0)、 (3, 1)(3, 2)的計算的合併所得 到的結果。這個步驟允許針對非常大的反向索引計算DA表。 在階段1中,僅針對DA(i, j)按行計算合取。在階段2中,讀取計算出的上三 角UTDA矩陣。由此,作為UT的轉置得到下三角部分。在特定實施方式中,可以將相 同維的多個DA矩陣歸併成一個矩陣。較大II上的DA矩陣可以利用參數(s, j)被計算 為sumiDDDa。可以與計算出的合取一起存儲附加信息,以使可以計算有向親和度。 在特定情況下,可以存儲II條目的基數。 在特定實施方式中,可以按行存儲DA,這樣AA條目的計算可以與DA條目的 計算並行進行。具體來說,可以通過對從磁碟讀出的DA的行進行累加並最後通過字典 條目的數量對累加結果進行歸一化來生成AA。 在例示的實施方式中,系統10包括客戶端20,伺服器22以及存儲器24。客 戶端20使用戶能夠與伺服器22通信,以生成語言的本體。客戶端20可以向伺服器22 發送用戶輸入,並且可以向用戶提供(例如,顯示或列印)伺服器輸出。伺服器系統22管理用於生成語言的本體的應用。存儲器24存儲伺服器系統22所使用的數據。
在例示的實施方式中,存儲器24存儲頁面50和記錄54。 頁面50(或文檔或共 現語境)可以指詞的集合。頁面50的示例包括文檔的一頁或更多頁、 一個或更多個文 檔、 一本或更多本書、 一個或更多個網頁、信件(例如,電子郵件或即時消息),禾P/或其 他的詞集合。頁面50可以由頁面標識符進行識別。頁面50可以以電子方式存儲在一種 或更多種實體計算機可讀介質中。頁面50可以與任何適當內容相關聯,例如,文本(如 字符、詞,禾P/或數字)、圖像(如圖形、照片,或視頻)、音頻(如錄音或計算機生成的 聲音),和/或軟體程序。在具體實施方式
中, 一組頁面50可以屬於一個語料庫。語料 庫可以與特定主題、集合、組織或其他實體相關聯。 記錄54描述頁面50。在該實施方式中,記錄54包括索引58、反向索引62、 本體66,以及群集(cluster)67。索引58包括索引列表,其中,頁面50的索引列表指示頁 面50的詞。反向索引62包括反向索引列表,其中,詞(或詞集)的反向索引列表指示包 括該詞(或詞集)的頁面50。在一個示例中,列表Wi包括含有詞Wl的頁面50的頁面標 識符。列表W在Wj包括含有詞Wl和Wj兩者的合取頁面50的頁面標識符。列表W一Wj 包括含有詞Wl和Wj中之一的析取頁面50的頁面標識符。P(WO是Wl的頁面50的數量, 即,包括詞Wi的頁面50的數量。 在一個實施方式中,可以將列表(如索引列表或反向索引列表)存儲為二進位判
決圖(BDD : Binary decision diagram)。在一個示例中,集合Wt的二進位判決圖BDD(W^
表示具有詞wt的頁面50。
BDD(WD的滿足指配計數Satisf(BDD(WO)生成具有詞Wl的頁
面50的數量P(WO :P同=Satisf(BDD(WO) 相應地,P(W&W》=Satisf(BDD(W)AND BDD(W》)
P(W一W》=Satisf(BDD(WOOR BDD(W》) 本體66表示語言的詞和這些詞之間的關係。在一個實施方式中,本體66表示 詞之間的親和度。在所示實施例中,本體66包括親和度矩陣和親和度圖。參照圖3到 圖5,對親和度矩陣的一個示例進行描述。參照圖6,對親和度圖的一個示例進行描述。 群集67記錄了彼此相關的詞的群集。參照圖7,對群集進行更詳細描述。
在所示實施方式中,伺服器22包括親和度模塊30、聚類模塊31、本體特徵模 塊32、以及搜索模塊37。親和度模塊30可以計算詞對的親和度,在親和度矩陣中記錄 該親和度,和/或報告該親和度矩陣。親和度模塊30也可以生成親和度圖。參照圖2, 對親和度模塊30進行更詳細描述。 在具體實施方式
中,聚類模塊31可以通過識別數據集中的相關元素的群集來發 現該數據集中的模式(pattem)。在具體實施方式
中,聚類模塊31可以識別一組詞的群集 (例如, 一種語言或一組頁面50)。 一般來說,群集的詞彼此高度相關,但與該群集以外 的詞不相關。詞的群集可以指定該組詞的主題(或話題)。在具體實施方式
中,聚類模塊 31根據詞之間的親和度來識別相關詞的群集。在實施方式中,群集的詞彼此高度親和, 但與該群集以外的詞不親和。參照圖7,對聚類模塊31進行更詳細的描述。
在具體實施方式
中,本體特徵模塊32可以確定一個或更多個詞的集合(例如,特定詞或包括詞的文檔)的一個或更多個本體特徵,並接著可以在多種情形中的任一種 中應用該本體特徵。本體特徵是可以將詞集放置在語言本體空間中的詞集特徵。本 體特徵的示例包括深度和專度。在具體實施方式
中,深度可以指示詞集的文本複雜性 (sophistication)。越深的詞集可能越技術化並且專業化,而更淺的詞集可能更通用。在具體實施方式
中,詞集的專度與詞集的主題的數量相關。更專的詞集可能具有更少的主 題,而不太專的詞集可能具有更多的主題。 本體特徵模塊32可以在任何適當的情形下應用本體特徵。適當情形的示例包括 根據本體特徵搜索、排序或選擇文檔;報告文檔的本體特徵;以及確定一個或更多個用 戶的文檔的本體特徵。參照圖8對本體特徵模塊32進行更詳細的描述。
在特定實施方式中,搜索模塊37搜索語料庫的搜索空間並且向用戶呈現該結果 及其相關聯的關鍵詞,其中,結果的關鍵詞可以指示該結果的主題。用戶可以選擇不相 關的關鍵詞。搜索模塊37可以接收不相關關鍵詞的選擇,識別與該不相關關鍵詞有關的 關鍵詞,並且通過去除該不相關關鍵詞和相關的關鍵詞來精煉搜索空間。參照圖9,對搜 索模塊37進行更詳細描述。 系統10的組件可以包括接口、邏輯、存儲器,和/或其他適當部件。接口接 收輸入、發送輸出、處理該輸入和/或輸出、和/或執行其他適當操作。接口可以包括硬 件和/或軟體。 邏輯執行對組件的操作,例如,執行指令以根據輸入來生成輸出。邏輯可以包 括硬體、軟體和/或其他邏輯。邏輯可以編碼在一種或更多種實體介質中,並且可以在由 計算機執行時執行操作。諸如處理器的特定邏輯可以管理組件的操作。處理器的示例包 括一個或更多個計算機、 一個或更多個微處理器、 一個或更多個應用程式,和/或其他邏 輯。 存儲器存儲信息。存儲器可以包括一個或更多個實體的、計算機可讀和/或計算 機可執行的存儲介質。存儲器的示例包括計算機存儲器(例如,隨機存取存儲器(RAM) 或只讀存儲器(ROM))、大容量存儲介質(例如,硬碟)、可移除存儲介質(例如,光碟 (CD)或數字視頻盤(DVD》、資料庫和/或網絡存儲器(例如,伺服器)、和/或其他計算 機可讀介質。 在不脫離本發明的範圍的情況下,可以對系統10進行改進、添加或省略。系統 IO的組件可以是集成或分離的。此外,可以通過更多、更少或其他組件來執行系統10的 操作。例如,可以通過一個組件執行生成器42和生成器46的操作,或者可以通過一個 以上的組件來執行親和度計算器34的操作。另外,可以使用包括軟體、硬體的任何適當 邏輯和/或其他邏輯來執行系統10的操作。如本說明書中所使用的,"各個"指集合中 各成員,或集合的子集中的各成員。 在不脫離本發明的範圍的情況下,可以對矩陣的示例進行改進、添加或省略。 矩陣可以包括更多、更少或其他值。另外,可以以任何適當的順序來排列矩陣的值。
圖2示出了可以與圖1的系統10 —起使用的親和度模塊30的一個實施例。親 和度模塊30可以計算詞對的親和度、將該親和度記錄在親和度矩陣中、和/或報告該親 和度矩陣。親和度模塊30還可以生成親和度圖。 在所示的實施方式中,親和度模塊30包括親和度計算器34、本體生成器38以及詞推薦器48。親和度計算器34計算詞Wl或包括第一詞Wl和第二詞Wj的詞對的任何適 當類型的親和度。親和度的示例包括基本親和度、有向親和度、平均親和度、差分親和 度和/或其他親和度。這一個實施方式中,詞推薦器48接收種子詞(seed word),並且識別與種子詞之 間具有比閾值親和度大的親和度的詞。閾值親和度可以具有任何適當值,例如大於或等 於0.25、 0.5、 0.75或0.95。閾值親和度可以是預先編程的或者由用戶指定。
可以根據包括詞Wl和/或Wj的頁面50的量(例如,數量)來計算基本親和度。 合取頁面量是指既包括詞Wl又包括詞Wj的頁面50的量,而析取頁面量是指包括詞Wl或 詞Wj中的一個的頁面50的量。可以由合取頁面量除以析取頁面量而給出基本親和度。 在一個示例中,合取頁面數量指包括詞Wi和詞Wj的頁面的數量,而析取頁面數量指包括 詞Wi或詞Wj的頁面的數量。可以由合取頁面數量除以析取頁面數量而給出基本親和度。
Affinity(Wl, w》=P(Wi&Wj)/P(W,Wj) 圖3示出了記錄基本親和度的親和度矩陣110的一個示例。在所示的示例中, 親和度矩陣110記錄詞Wl......w5的逐對親和度。根據親和度矩陣110,詞w。和Wl之間
的親和度為0.003,詞w。和^之間的親和度為0.005,等等。 返回參照圖l,親和度組包括彼此具有高親和度的詞對,並且可以被用來針對 頁面內容來捕捉詞W工和W2之間的關係。高親和度可以被指定為高於親和度組閾值的 親和度。閾值可以被設置為任何適當的值(例如,大於或等於0.50、 0.60、 0.75、 0.90 或0.95)。詞可以屬於一個以上的親和度組。在一個實施方式中,親和度組可以表示為 BDD。
BDD的指針與該組的各個詞一起被存儲在反向索引62中。 有向親和度可以被用來測量詞Wl對於詞Wj的重要性。親和度計算器34根據包
括詞Wl和Wj的頁面50的量(例如,數量)來計算在給定詞Wj的情況下詞Wl的有向親和
度。詞Wj頁面量是指包括詞Wi的頁面50的量。可以由合取頁面量除以詞Wj頁面量來
給出給定詞Wj的情況下的詞Wl的有向親和度。例如,詞Wj頁面數量指包括詞Wl的頁面
50的數量。可以由合取頁面50的數量除以詞Wl頁面50的數量來提供給定詞Wj的情況
下的詞W的有向親和度 DAffinity(w" w》=P(Wi&W》/P(W0 DAffinity(Wl, w」)和DAffinity(Wj , 不同。詞wt和w」之間的較高有向親和度 DAffinity(Wl, w》表示在頁面50包括詞Wj的情況下、頁面50包括詞Wl的概率較高。在 一個示例中,頁面[123456]包括詞Wl,而頁面[4 2]包括詞"。包括詞w」的頁面也包括
詞Wi,因此從詞Wj的觀點來看,詞Wi具有高重要性。僅三分之一的包括Wi的頁面還包 括詞Wj,所以從詞Wi的觀點來看,詞Wj具有低重要性。 圖4示出了記錄針對詞w。,…,Ws的有向親和度的親和度矩陣120的一個示例。 在該示例中,詞124是A詞,而詞128是B詞。矩陣120的行記錄了在給定A詞的情況 下B詞的親和度,而親和度矩陣120的列記錄了在給定B詞的情況下A詞的親和度。
返回參照圖l,針對其他詞Wj計算詞Wi的平均親和度。在一個實施方式中,平 均親和度可以是詞Wl和每個其他詞Wj之間的親和度的平均值。詞Wl在N個詞中的平均 親和度可以通過下式給出
10
AveAff(,/)= — E^f(wJ,j) 圖5示出了記錄平均親和度的親和度矩陣140的一個示例。行142記錄了詞1 到詞50,000的基本親和度。行144記錄了詞1到詞50,000的平均親和度。
返回參照圖l,詞的平均親和度可以指示詞的深度。具有較低平均親和度的詞 可以被認為是較深的詞,而具有較高平均親和度的詞可以被認為是較淺的詞。較深的詞 傾向於更技術化、具體並且準確。具有較高比例的較深詞的頁面50可以被認為是較深頁 面,而具有較低比例的較深詞的頁面50可以被認為是較淺頁面。在一個實施方式中,用 戶可以指定要檢索的詞和/或頁面50的深度。 頁面50的較深詞可以形成高度相關詞的一個或更多個群集。群集可以表示共同 的觀點或主題。頁面50的主題的數量可以指示頁面50的專度。具有較少主題的頁面50 可以被認為更專,而具有較多主題的頁面50可以被認為不太專。 詞Wl對於詞Wj的差分親和度是詞Wl和Wj之間的有向親和度減去詞Wj對於所有 其他詞的平均親和度。差分親和度可以被表達為
DiffAff(w" w》=DAffinity(w" w》-AveAss(w》 差分親和度消除了由詞Wj在頁面50中出現的總體傾向性而導致的偏置。在具 體環境中,差分親和度可以提供在頁面包括詞Wj的情況下還包括詞Wl的概率的更準確的 指示。 差分親和度可以被用於各種應用中。在一個示例中,人名之間的差分親和度可 以被用來研究社會網絡。在另一示例中,語素之間的差分親和度可以被用來研究自然語 言處理。在另一示例中,產品之間的差分親和度可以被用來研究市場策略。
親和度計算器34可以使用任何適當的技術來搜索反向索引列表以計算親和度。 例如,為了識別既包括詞Wi又包括Wj的頁面,親和度計算器34可以針對公共元素(即, 公共頁面標識符)搜索詞Wl的列表Wt和詞Wj的列表Wj。 在具體實施方式
中,本體生成器38生成語言的本體66(例如,親和度矩陣或親 和度圖)。可以根據諸如基本親和度、有向親和度、平均親和度、差分親和度和/或其他 親和度中的任何適當親和度來生成本體。可以根據以任何適當的方式從語言中選擇的詞 來生成本體66。例如,可以選擇來自語言的公用部分的詞或者與一個或更多個特定主題 區域相關的詞。 在所示的實施方式中,本體生成器38包括親和度矩陣生成器42和親和度圖生成 器46。親和度矩陣生成器42生成記錄詞之間的親和度的親和度矩陣。親和度圖生成器 46生成表示詞之間的親和度的親和度圖。在親和度圖中,節點表示詞,而節點之間的有 向邊的權重表示由節點所表示的詞之間的親和度。親和度圖可以具有任何適當的維數。
圖6示出了親和度圖150的一個示例。親和度圖150包括節點154和鏈路158。 節點154表示詞。在本示例中,節點154a表示詞"binary(二進位)"。節點154之間 的有向邊的權重表示由節點154表示的詞之間的親和度。例如,更大的權重表示更大的 親和度。節點之間的鏈路158指示由節點154表示的詞之間的親和度高於親和度閾值。 親和度閾值可以具有任何適當的值(例如,大於或等於0.25、 0.5、 0.75或0.95)。
圖7示出了可以與圖1的系統10—起使用的聚類模塊31的一個實施例。在具體實施方式
中,聚類模塊31通過識別數據集中的相關元素的群集來發現數據集中的模式。 在具體實施方式
中,聚類模塊31可以識別詞集(例如,語言或頁面50的集合)的群集。 一般來說,群集的詞彼此高度相關,而與群集以外的詞不高度相關。詞的群集可以指定 詞集的主題(或話題)。 在具體實施方式
中,聚類模塊31根據詞之間的親和度來識別相關詞的群集。在 這些實施方式中,群集的詞彼此高度親和,但是與群集以外的詞不高度親和。在一個實 施方式中,如果詞足夠親和,則可以認為它們高度親和。如果詞滿足一個或更多個親和 度標準(例如,閾值),則詞足夠親和,下面提供了一些例子。 可以使用任何適當的親和度來識別群集。在具體實施方式
中,聚類模塊31使用 有向親和度。 一個詞相對於其他詞的有向親和度表徵了該詞的共現(cooccurrence)。群 集包括具有類似共現的詞。在特定實施方式中,聚類模塊31使用差分親和度。差分親 和度傾向於消除由詞在頁面50中出現的總體傾向性而導致的偏置。 在所示的實施方式中,聚類模塊31包括聚類引擎210和聚類分析器214。聚類 引擎210根據親和度來識別詞的群集,並且聚類分析器214應用親和度聚類以分析各種情 形。 聚類引擎210可以根據親和度以任何適當的方式來識別詞的群集。提出了識別
群集的方法的三個例子根據詞集構建群集、將詞分類成群集,以及比較詞的親和度矢
量。在一個實施方式中,聚類引擎210根據詞集構建群集。在一個示例中,聚類引擎210
根據具有親和度*Aff(Wl, Wj)的詞(w)的集合W來構建群集S。親和度值^Aff(Wi, Wj)
表示詞Wl相對於詞Wj的任何適當類型的親和度(例如,有向親和度DAffinity(Wl, w》或
差分親和度DiffAff(Wl, Wj》。這裡提供的親和度值的特定示例可以被認為是歸一化值。
在本例中,AfffOT(Wl, Wj)表示前向親和度,而AfUwj, wO表示後向親和度。 在本例中,群集S以種子詞Wq開始。當前詞Wx表示在當前迭代中群集S中的
正與來自集合W的詞進行比較的詞。最初,將當前詞Wx設為種子詞Wq。 在迭代期間,把當前詞Wx設為群集S的詞。根據集合W的詞Wi與當前詞Wx的
前向親和度Afff。r(Wi, w》來對它們進行排序。從有序集合W的起點開始,識別滿足親和
度標準的候選詞we。親和度標準可以包括對於當前詞wx的前向親和度標準 Afffor(wc, wx) > Thcf 和對於種子詞Wq的後向親和度標準 Affback(Wq, wc)>Thcb 其中,Th。f表示候選詞的前向閾值,而Th。b表示候選詞的後向閾值。候選詞 {wc}的有序集合的第一詞被添加到群集S,添加的詞的數量由參數Size。給出。閾值Thrf 和Th。b可以是具有從最小值到最大值的任何適當值的浮點參數。在特定實施例中,可以 根據實際親和度的有序列表來確定Th。f和Th。b的適當值。例如,可以使用列表中第200 個值。參數Size。可以是具有任何適當值的整數參數。適當值的示例包括默認值l、 2、 3或4。在具體實施方式
中,這些參數在具體迭代中可以不同。 可以執行任何適當次數的迭代。在一個示例中,可以在開始執行該方法之前指 定迭代次數。在另一示例中,可以在方法執行期間計算該次數。例如,可以根據群集S 的大小增長率來計算該次數。
在另一實施方式中,聚類引擎210通過將詞集的詞歸類成群集來識別群集。在 一個示例中,根據親和度*Aff(Wl, Wj)(例如,差分親和度或有向親和度)來對集合W的詞 (Wl)進行歸類。在另一例中,根據詞Wl與不同詞集Q的各成員的親和度的累積函數(例 如,求和)來對詞(wj進行歸類。可以以任何適當方式選擇集合W。例如,集合W可 以是與查詢最相關的X個詞,其中X可以具有任何適當值(例如,從10到100、 100到 200或者200以上範圍中的值)。 在本例中,群集初始為空。把來自集合W的第一詞Wi置入群集中。在每次迭 代中,從集合W選擇當前詞Wx。如果*八(代^, Wf)滿足親和度閾值Th給出的親和度標 準,則把當前詞Wx置入群集中,其中Wf表示該群集中置入的第一詞。閾值Th可以具有 任何適當值(例如,對於最小值0.0和最大值1.0來說,具有範圍在O.l到0.5的值)。如 果AAff(Wx, Wf)不滿足閾值Th,則把當前詞Wx置入空群集中。針對集合W的各詞重複 這些迭代。 在處理了集合W的詞之後,可以消除小群集。例如,可以消除具有少於Y個詞 的群集。Y可以是任何適當值(例如範圍在3到5、 5到10、 10到25、 25到50或者50 以上的值)。 如果群集的數量不在滿意範圍內,則可以利用導致更嚴格或更寬鬆的群集置入 標準的不同閾值Th來重複該處理。可以通過具有任何適當值的群集數量最小值和群集數 量最大值給出該滿意範圍。適當值的示例包括最小值在1到5、 5到10或者10以上範圍 中的值,以及最大值在10到15、 15到20或者20以上範圍中的值。可以增加閾值Th的 值,以增加群集的數量,並且可以減小閾值Th的值以減小群集的數量。
在另一實施方式中,聚類引擎210通過比較詞的親和度矢量來識別群集。在具體實施方式
中,親和度矩陣的行和列可以產生親和度矢量,該親和度矢量表示詞Wi相對於詞WjG'= 1,…,n)的 親和度。親和度值*Aff(Wl, Wj)表示詞Wl相對於詞Wj的任何適當類型的親和度(例如, 有向親和度或差分親和度)。 在具體實施方式
中,具有相似親和度值的親和度矢量可以表示一個群集。僅出 於描述性目的,可以將親和度矢量看作是詞的親和度在親和度空間中的坐標。即,每個 親和度值*Aff(Wl, Wj)可以被認為是特定維的坐標。具有相似親和度值的親和度矢量表 示與這些矢量相關聯的詞在親和度空間中彼此接近。即,這些矢量指示這些詞具有與其 他詞相似的親和度關係,並因此適於作為同一群集中的成員。 如果通過適當的距離函數確定一個親和度矢量近似於另一親和度矢量,則這些 親和度矢量相似。可以把親和度矢量的距離函數定義為例如給定大小的矢量的標準歐幾 裡得距離,或者定義為給定大小的矢量的餘弦。該距離函數還可以由聚類引擎210或者 由用戶指定。 在具體實施方式
中,聚類引擎210應用聚類算法來識別具有彼此近似的值的親 和度矢量。群集算法的示例包括直接、重複二分(bisection)、凝聚(agglomerative)、偏置 凝聚(biased agglomerative)、禾P/或其它適當算法。在一個示例中,聚類引擎210可以包 括諸如CLUTO的聚類軟體。聚類分析器214可以在任何適當的應用中使用親和度聚類來進行分析。在一個實施方式中,聚類分析器214可以使用親和度聚類來對頁面50進行分類。類別可以與群 集標識符或者群集的一個或更多個成員相關聯。在一個示例中,可以識別頁面50的群 集,並且接著可以根據該群集對頁面50進行歸類。在另一例中,可以選擇頁面50的重 要詞,並且接著確定包括這些詞的群集。接著可以根據所確定的群集對頁面50歸類。
在一個實施方式中,聚類分析器214可以使用親和度聚類來分析頁面50的語料 庫。語料庫可以與特定主題、 一個或更多個個體的集合(community)、組織或其他實體相 關聯。在一個示例中,聚類分析器214可以識別語料庫的群集,並根據該群集確定語料 庫的庫屬性。庫屬性可以指示與和該語料庫相關聯的實體相關的詞。如果一個或更多個 頁面50具有庫屬性的群集,則頁面50與該實體相關。 在一個實施方式中,聚類分析器214可以使用親和度聚類來搜索查詢解疑和查 詢擴展。在本實施方式中,聚類分析器214識別包括給定搜索查詢的搜索詞條的群集。 群集提供與給定搜索查詢相關的可替換詞和/或類別。在一個示例中,來自群集的詞可以 被報告給搜索者,以幫助下一搜索查詢。在另一例中,聚類分析器214可以從群集中選 擇詞,並自動形成一個或更多個新的搜索查詢。聚類分析器214可以串行或並行運行新 的查詢。 在一個實施方式中,聚類分析器214可以使用親和度聚類來研究社會網絡。在 一個示例中,頁面50可以讓人看到社會網絡。這些頁面的示例包括信件(例如信函、電 子郵件以及即時消息)、便箋、文章以及會議記錄。這些頁面50可以包括含有社會網絡 的人員的用戶標識符(例如,姓名)的詞。可以識別姓名的群集,以分析網絡的人員之間 的關係。在一個示例中,差分親和度聚類可以被用來在不提供諸如系統管理員的姓名的 信息的情況下濾除頁面50中出現最多的名稱。 在具體實施方式
中,聚類分析器214可以通過組合和/或比較數據集的群集來分 析數據集。在一個實施方式中,對重疊的數據集的群集進行比較。來自一個數據集的群 集可以被映射到另一數據集的群集上,這樣可以看出這些數據集之間的關係。例如,該 數據集可以來自對一組同事的文檔的分析和來自對該組的社會網絡研究。可以將社會網 絡群集映射至文檔主題群集,來分析社會網絡與該主題之間的關係。 圖8示出了本體特徵模塊32的一個實施例。本體特徵模塊32可以確定一個或 更多個詞(例如,特定的詞或包括詞的文檔)的集合的一個或更多個本體特徵,並且接著 可以在任何不同情形中應用該本體特徵。 一個或更多個詞的集合可以包括文檔的關鍵詞 條。如果與詞條t相關的前k個詞條中的至少一個也呈現在該文檔中,則詞條t可以是關 鍵詞條。否則,該詞條對於該文檔可能不是必不可少的。 本體特徵是沿一個或更多個特徵軸表徵文檔的可量化度量,所述特徵軸可以在 給定區域中從語義上對該文檔與其他文檔進行區分。例如,文檔的深度可以針對它的可 理解性來區分文檔、文檔的專度可以針對它的關注點來區分文檔,而文檔的主題可以針 對其關注的主題範圍來區分文檔。可以以任何適當方式定義本體特徵。例如,計算機語 言中的獨立算法可以被用來表徵文檔的可讀性或深度。 在所示的實施方式中,本體特徵模塊32包括深度引擎230、主題引擎240、專度 引擎244以及本體特徵(OF : ontology feature)應用引擎250。 深度引擎230可以確定一 個或更多個詞(例如,特定的詞或包括詞的文檔)的深度。
一般來說,深度可以指示詞
14的文本複雜性。越深的詞可以是更加技術化的並且更專業的,而越淺的詞可以是更通用 的。在具體實施方式
中,深度模塊32可以計算文檔的詞的深度,並接著根據詞的深度來 計算文檔的深度。在具體實施方式
中,深度引擎230可以為文檔和/或詞指配深度值和/ 或深度級別。越深的文檔或詞可以被指配越高的深度值或級別,而越淺的文檔或詞可以 被指配越低的深度值或級別。 深度引擎230可以以任何適當的方式計算詞深度。在具體實施方式
中,深度引 擎230根據平均親和度來計算詞深度。在這些實施方式中,詞的深度是詞的平均親和度 的函數。越深的詞可以具有越低的平均親和度,而越淺的詞可以具有越高的平均親和 度。在具體實施例中,深度引擎230可以通過根據詞的平均親和度對它們進行排位,從 而計算詞的深度。對具有較低平均親和度的詞給予高的深度排位,而對具有較高平均親 和度的詞給予低的深度排位。 在具體實施方式
中,深度引擎230可以使用聚類分析來計算詞深度。在這些實 施方式中,群集的詞相互高度親和,而與群集以外的詞不高度親和。可以根據能夠作為 深度指示的親和度來測量群集空間中的距離。在具體實施方式
中,屬於更少數群集或者 屬於更小群集和/或離其他群集更遠的群集的詞可以被認為更深,而屬於更多數群集或者 屬於更大群集和/或離其他群集更近的群集的詞被認為更淺。 在其他具體實施方式
中,深度引擎230可以通過對親和度圖150應用鏈路分析來 計算詞深度。可以通過任何適當的鏈路分析算法(例如,PAGERANK)來執行該鏈路分 析。僅出於描述性目的,圖6的親和度圖150可以被用來計算詞深度。親和度圖150包 括節點154和鏈路158。 節點154表示詞。節點154之間的鏈路158指示由節點154表 示的詞之間的親和度高於親和度閾值,即,這些詞令人滿意地親和。 在具體實施方式
中,深度引擎230計算節點154的通用性。越通用的節點154 可以表示較淺的詞,而不太通用的節點154可以表示較深的詞。從第一節點154到第二 節點154的鏈路136被認為是第一節點154對第二節點154的通用性投票。另外,來自 更通用節點154的投票可以比來自不太通用節點154的投票具有更大的權重。此外,第 一節點154到第二節點154的親和度對投票進行加權。深度引擎230根據節點154的加 權投票來計算節點154的通用性。不太通用的詞被認為是深詞,而更通用的詞可以被認 為是淺詞。 深度引擎230可以以任何適當方式來計算文檔深度。在具體實施方式
中,深度 引擎230根據文檔中的至少一個、 一些或所有詞的深度來計算文檔的深度。在具體實施 方式中,由平均親和度給出詞深度,因此可以根據文檔的詞的平均親和度來計算文檔深 度。例如,文檔的淺度可以是文檔的詞的平均親和度的平均值(即,文檔中各詞的平均親 和度的和除以文檔中的詞的總數)。接著,文檔的深度可以被計算為文檔的淺度的倒數。
在具體實施方式
中,可以根據文檔的所選詞集的平均深度來計算深度。所選的 詞集可以包括文檔的關鍵的詞(例如,前(最深)XX的詞,其中X可以小於IO、 10到20、 20到30、 30到40、 40到50、 50到60、 60到70,或者大於100)。所選的集合可以排除 P%的標準語法詞和/或Q%的結束詞,其中P和Q具有任何適當值(例如小於10、 10到 20、 20到30、 30到40、 40到50、 50到60、 60到70,或者大於100)。
在具體實施方式
中,深度引擎230根據文檔中詞深度的分布來計算文檔的深度。在具體實施方式
中,越深的文檔可以具有越高比例的深詞。 在具體實施方式
中,深度引擎230根據文檔親和度來計算文檔的深度。文檔之 間的親和度描述文檔之間的關係。在具體實施方式
中,平均文檔親和度可以按與平均詞 親和度可以指示詞深度的方式相似的方式來指示文檔深度。可以以任何適當方式來定義 文檔親和度。在一個示例中,公共詞數量P(D^D》指示既存在於文檔D工中又存在於文 檔D2中的詞的數量,而不同詞數量P(D^D》指示存在於文檔D工或D2中詞的數量。文 檔Di和D2之間的文檔親和度DocAff可以被定義為
DocAf肌,D2) = P(Di&D2)/P(D丄+D2) 深度引擎230可以以與計算平均詞親和度相似的方式來計算平均文檔親和度。 具有較低平均親和度的文檔被認為較深,而具有較高平均親和度的文檔被認為較淺。
在具體實施方式
中,深度引擎230可以通過對文檔親和度圖應用鏈路分析來計 算文檔深度。除文檔親和度圖的節點表示文檔而不是詞之外,文檔親和度圖可以與親和 度圖150類似。深度引擎230利用給定第一文檔的情況下第二文檔的文檔親和度來對從 表示第一文檔的第一節點到表示第二文檔的第二節點的鏈路進行加權。接著,可以對外 向鏈路的權重進行歸一化。 在具體實施方式
中,可以在用戶接口上顯示深度圖以示出文檔的深度。也可以 顯示可以用來選擇深度等級的深度滑塊。在具體實施方式
中,如果文檔包括較大文檔的 多個部分,則深度圖可以指示各部分的深度。 在具體實施方式
中,深度引擎230可以以任何其他適當方式來計算文檔深度(例 如,處理文檔的親和度直方圖,和/或基於深度截短不同詞的比例,接著處理直方圖)。 其他方法包括Gunning-Fog、 Flesch或Fry方法。 在具體實施方式
中,深度引擎230可以通過將深度值映射為特定深度等級來標 定深度。在具體實施方式
中,範圍Ri中的深度值可以被映射到等級Li。例如,R。= {r。
r。 < c。}可以被映射到等級L。、 & = {ri : c。 < & < Cl}可以被映射到等級Ln…, 以及R。二fc: c。〈U可以被映射到等級L。。該範圍可以包括任何適當深度值並且不需 要具有相同大小。可以存在任何適當數量的等級(例如小於5、 5到7、 7或8、 8到10、 10到20、 20到50、 50到100,或者大於100)。 主題引擎240可以確定文檔的主題(或話題)。在具體實施方式
中,主題引擎240 根據由聚類模塊31識別的、文檔中詞的群集來確定主題。如上面所討論的,詞的群集可 以指定詞集的主題(或話題)。文檔的主題可以提供關於文檔的內容的有用信息。例如, 包括群集(腎臟的(renal)、腎(kidney)、蛋白質、問題)的文檔可能關於由於腎功能衰退而 導致的蛋白質流失,而不是芸豆的蛋白質含量。 在具體實施方式
中,主題引擎240根據主題圖(theme map)來確定主題。在 這些實施方式中,使用任何適當技術(例如,詞條頻度-逆文檔頻度(TF-IDF: term frequency-inverse document frequency)技術)從文檔中提取關鍵詞。關鍵詞被用來從主題 圖中選擇候選主題。候選主題與文檔進行比較,以確定該主題多大程度上與文檔匹配。 在具體實施例中,候選主題的直方圖可以與文檔的直方圖進行比較。如果候選主題與文 檔匹配,則這些主題可以提供文檔的主題的類型估計和數量估計。 專度引擎240可以計算文檔的專度。在具體實施方式
中,專度引擎240可以對
16文檔指配專度值和/或專度等級。更專的文檔可以被指配更高的專度值或等級,而不太專 的文檔可以被指配更低的專度值或等級。 在具體實施方式
中,專度引擎240根據文檔的主題數量來計算專度。在具體 實施例中,更專的文檔可以具有更少的主題,而不太專的文檔可以具有更多主題。在具體實施方式
中,專度引擎240根據文檔的主題數量和這些主題之間的親和度來計算專 度。在具體實施例中,更專的文檔可以具有更少的主題,且這些主題之間具有更高的親 和度,而不太專的文檔可以具有更多的主題,且這些主題之間具有更低的親和度。
在具體實施方式
中,主題數量可以取決於深度(或等級)。例如,較淺深度處的 單個主題可以表示較大深度處的多個主題。在具體實施方式
中,可以通過用戶使用深度 滑塊來選擇深度,或者深度可以是預先確定的。在具體實施方式
中,等級可以由用戶選 擇或者可以被預先確定。例如,可以定義任何適當數量的等級,並且可以針對該等級計 算深度。例如,等級可以基於領域(例如,工程、醫學、新聞、體育或金融領域);基 於專業(例如、心臟病學、眼科學或者腎臟專業);基於主題(例如,高血壓、膽固醇、 搭橋手術或動脈阻塞主題);基於細節(例如,體位性低血壓、慢性高血壓或者急性高血 壓);基於解決方案(例如,老年人病理、藥物或者遺傳學解決方案);基於人(例如,用 戶查詢等級)。 本體特徵應用引擎250可以應用本體特徵(例如深度、主題或專度),來在任何 適當情形中執行本體特徵分析。適當情形的示例包括根據本體特徵來搜索、排序、推 薦或選擇文檔;報告文檔的本體特徵;以及確定一個或更多個用戶的文檔(或文檔集)的 本體特徵。在具體實施方式
中,本體特徵應用引擎250可以使用包括關於本體特徵的信 息的索引。在一個示例中,本體特徵應用引擎250使用根據深度等級生成和/或維護的文 檔深度(DD: document depth)反向索引62。 DD反向索引62包括DD反向索引列表,其 中詞的DD反向索引列表列出了包括該詞的文檔(或頁面50)的文檔標識符。文檔的文檔 標識符可以指示文檔的深度。例如,用來編碼文檔標識符的二進位編碼可以指示深度。 在一些情況下,DD反向索引列表可以僅列出具有令人滿意的深度的文檔。在另一例中, 除反向索引62之外,本體特徵應用引擎250還使用等級表和深度表。該深度表可以指示 文檔的深度。 在具體實施方式
中,本體特徵應用引擎250搜索具有本體特徵的指定值(例如, 文檔深度或專度的指定值)的文檔。該指定值可以由用戶預先確定、計算或者選擇。在具體實施方式
中,可以使用深度滑塊和/或專度滑塊來選擇這些值。 在具體實施方式
中,本體特徵應用引擎250可以將本體特徵用作排序標準來對 文檔進行排序。例如,本體特徵應用引擎250可以針對主題以及其它排序標準,根據文 檔深度和/或專度來對文檔進行排序。在具體實施例中,本體特徵應用引擎250搜索DD 反向索引62以獲得根據文檔深度排序的文檔。在一些實施例中,本體特徵應用引擎250 使用非DD反向索引62來搜索文檔,並接著根據深度對這些文檔排序。
在具體實施方式
中,本體特徵應用引擎250可以向客戶端20以圖形方式顯示本 體特徵的值。可以為一些或所有文檔(例如,為來自搜索結果的前X^的文檔)提供圖形 顯示。該本體特徵值可以以任何適當方式呈現。在一些實施例中,圖形指示符(例如, 數量、詞或圖標)可以指示該值。例如,圖形指示符可以例如位於搜索結果列表中的項
17目、在線報紙的標題或者文檔圖標的旁邊。在一些實施例中,對已有插圖的修改可以指 示該值。例如,文本的尺寸、字體、風格、顏色或圖形指示符可以指示值。在另一例 中,圖形可以指示這些值。本體特徵直方圖可以包括文檔量軸和本體特徵軸,並且可以 指示具體本體特徵值的文檔量。例如,包括文檔量軸和文檔深度軸的文檔深度直方圖可
以指示特定文檔深度的文檔量。 在具體實施方式
中,本體特徵應用引擎250可以允許用戶請求搜索具有特定本 體特徵值的文檔。用戶可以被允許為查詢的不同詞指定值。在具體實施例中,本體特徵 應用引擎250可以為用戶提供選項來選擇深度,並接著用戶可以輸入該選擇的深度。這 些選項可以以任何適當方式呈現,例如(i)絕對項(例如,表示深度的數量或者數量範 圍);(ii)相對項(例如,針對深度的一部分搜索結果,例如"最深的XX" ); (iii)語義 項(例如,"介紹"、"淺"、"深"、"非常深"禾P/或"高技術的");(iv)圖形項 (例如,滑塊、按鈕和/或其他圖形元素);或者(v)任何適當的組合項(例如,具有語義標 籤的滑塊)。在一些情況下,滑塊可以包括淺端和深端。用戶可以將滑塊移向一端或另 一端,以指示選擇的深度。當提供搜索結果時,可以通過該滑塊顯現文檔深度直方圖, 並且可以將該滑塊用作文檔深度軸。 在具體實施方式
中,本體特徵應用引擎250可以計算一個或更多個用戶的集合 的本體特徵屬性。本體特徵屬性可以包括主題上下文中的用戶深度和用戶專度。本體特 徵屬性描述了文檔的與用戶集相關聯的本體特徵。例如,科學家可以使用比三年級學生 更深的文檔。可以針對一個或更多個主題給出本體特徵屬性。例如,遺傳學家可以在遺 傳學領域中使用比他在詩歌領域中使用的文檔更深的文檔。本體特徵屬性可以被用來確 定用戶的專長、為用戶自動構建簡歷,以及分析用戶的社會網絡。 可以分析與用戶相關聯的任何適當的文檔,以估計本體特徵屬性,例如,信件 (例如,電子郵件和即時消息)、網頁、以及搜索歷史(例如搜索查詢和選擇的頁面)。在具體實施方式
中,本體特徵應用引擎250可以隨著時間跟蹤本體特徵屬性,並且可以使 用過去的屬性來預測未來的屬性。在具體實施例中,本體特徵應用引擎250可以假設用 戶深度和/或專度總體上隨時間和/或區域中的活動而增加。 在具體實施方式
中,本體特徵應用引擎250可以組合某些操作。例如,本體特 徵應用引擎250可以監控用戶的深度,並且接著根據該用戶深度來搜索文檔。在一個示 例中,監控用戶深度,並且接著根據該深度向用戶提供新聞。預測未來的用戶深度,並 且提供適合該預測用戶深度的新聞。 圖9例示了可以精煉搜索空間的搜索模塊37的一個實施方式。搜索空間可以是 從其中選擇搜索結果的空間。例如,語料庫(如全球資訊網)可以包括頁面(如網頁或文檔)。 語料庫的搜索空間可以是從中選擇搜索結果的語料庫的子集。在例示的實施方式中,搜索模塊37包括搜尋引擎360和可以根據NetiNeti方法 工作的搜索空間管理器364。在特定實施方式中,搜尋引擎360搜索語料庫的搜索空間, 並且向用戶呈現多個結果及其相關聯的關鍵詞,其中,結果的關鍵詞可以指示該結果的 主題。用戶可以選擇與該搜索不相關的關鍵詞。搜索空間管理器364可以根據不相關關 鍵詞接收不相關關鍵詞的選擇。在特定實施方式中,搜索模塊37可以根據網摘(Webfeeds)(如RSS(真正簡易聯合、資源描述框架(RDF)站點摘要、或豐富站點摘要)摘要)來過濾結果。在該實施方式 中,用戶可以提供或選擇不相關關鍵詞來過濾該摘要,並且搜索模塊37可以提供可能也 被視為不相關的相關詞。 搜尋引擎360和搜索空間管理器364可以使用任何適當的方法來精煉搜索空間。 例如,可以將搜索查詢映射至本體空間的相關部分,並接著可以消除從語義的觀點來看 不可能的候選主題。參照圖10,對方法的示例進行描述。 圖IO例示了精煉搜索空間的方法的示例。該方法在步驟550開始,其中,搜索 模塊37從用戶接收搜索參數和搜索查詢。例如,該搜索查詢可以包括搜索詞條"樹"。 搜尋引擎360根據搜索參數在步驟554進行對搜索空間的搜索。例如,該搜索可以生成 表示"樹"的多種意思的結果,如計算機科學、家族、或植物學意義上的"樹"。
在步驟558,搜尋引擎360向該用戶呈現該搜索的結果和描述該結果的關鍵詞。 在特定實施方式中,搜索結果(如網頁)可以具有描述該結果的一個或更多個關鍵詞(如 文檔的主題)。該結果可以按任何適當的方式呈現。例如,該結果可以被呈現為結果的 列表和/或它們的關聯關鍵詞。作為另一示例,該結果和/或它們的關聯關鍵詞可以被呈 現為親和度圖(圖6例示了其示例)。作為另一示例,如果在特定結果上移動光標,則可 以在該結果邊上顯示關鍵詞的彈出窗口。作為另一示例,結果可以在其邊上具有當點擊 時擴展並顯示關鍵詞的欄目。結果的關鍵詞可以在視覺上接近於該結果。
在已經呈現了結果的一個或更多個迭代之後,用戶可以選擇與該搜索不相關的 關鍵詞。例如,用戶可以選擇詞條"植物"作為不相關關鍵詞。可以按任何適當的方 式來選擇不相關關鍵詞。例如,該用戶可以在該關鍵詞上或附近放置標記,或者可以點 擊關鍵詞。 在步驟562,搜索空間管理器364接收不相關關鍵詞的選擇。例如,接收詞條 "植物"。在步驟574,可以擴展該不相關關鍵詞。如果要擴展該不相關關鍵詞,則該 方法進行至步驟566。如果不擴展該不相關關鍵詞,則該方法直接進行至步驟570。
在步驟566,搜索空間管理器364通過將與該不相關關鍵詞有關的關鍵詞添加至 不相關關鍵詞的集合來擴展該不相關關鍵詞。例如,可以將"森林"識別為與"植物" 有關。由此,可以將它視為不相關關鍵詞。 可以按任何適當的方式來定義關鍵詞之間的相關性。在特定實施方式中,相關 關鍵詞(或由關鍵詞指示的主題)與其他關鍵詞(或主題)相比可以彼此具有更高的親和 度。在一個示例中,相關關鍵詞可以屬於同一群集、主題或話題。在另一示例中,對應 於高度親和主題的關鍵詞可以被視為相關。在該示例中,確定由不相關關鍵詞指示的不 相關主題,並且識別與該不相關主題高度親和的主題。 可以利用邏輯來確定相關關鍵詞。在特定實施方式中,可以使用基於暗示 的邏輯。例如,給定主題X和Y, X —Y。如果主題Y不相關,則主題X也不相 關。因此,可以將針對主題X的關鍵詞視為與針對主題Y的關鍵詞相關。而且,因為 NOTOO — NOTpQ,所以可以將NOTpQ用於識別相關主題。 可以將邏輯用於表示關係。在特定實施方式中,布爾值可以表示主題之間的關 系。作為一示例,可以使用布爾0/l/X,其中,布爾O表示相反關係。布爾X表示不存 在關係,而布爾l表示存在關係。在特定實施方式中,可以使用模糊邏輯來表達主題之間的含糊關係。 在特定實施方式中,對精煉搜索空間的具體約束可以預先設定、可以通過用戶 指定,或者可以根據先前用戶指定而自動生成。例如,用戶可以在修整搜索空間時動態 地調整不相關關鍵詞應當具有多少影響。在某些情況下,可以在將關鍵詞用於修整搜索 空間之前移動圖形元素(如滑塊)來指定關鍵詞應當是多麼鬆散地相關或多麼緊密地相關 以成為不相關關鍵詞。接著,該方法進行至步驟570。 在步驟570,搜索空間管理器364精煉搜索。該搜索可以按任何適當的方式根據 不相關關鍵詞來精煉。作為示例,可以通過去除不相關關鍵詞來調節搜索查詢,並且可 以利用調節後的搜索查詢來執行新搜索。作為另一示例,可以通過從搜索空間中去除不 相關關鍵詞來縮減該搜索空間。作為另一示例,可以通過去除與不相關關鍵詞有關的結 果來精煉搜索結果。 在步驟574,可以執行下一個搜索。如果執行下一個搜索,則該方法進行至步驟 578,其中,在精煉後的搜索空間中進行搜索。接著,該方法返回至步驟558,其中,呈 現搜索結果。如果不執行下一個搜索,則該方法結束。 在不脫離本發明的範圍的情況下,而可以對本方法進行修改、增加、或省略。 本方法可以包括更多、更少、或其他的步驟。另外,可以按任何適當的次序執行步驟。
儘管根據具體實施方式
對本公開進行了描述,但本領領域技術人員應當清楚這 些實施方式的改變例和置換例。因此,這些實施方式的上述描述不對本公開構成限制。 在不脫離權利要求所限定的本發明的精神和範圍的情況下,可以對本發明進行其他變 化、代替以及改變。
20
權利要求
一種方法,該方法包括以下步驟搜索語料庫的搜索空間以得到多個結果,所述語料庫包括與多個關鍵詞相關聯的多個文檔,各個文檔與至少一個指示所述文檔的至少一個主題的關鍵詞相關聯;將一個或更多個關鍵詞確定為不相關關鍵詞;以及根據所述不相關關鍵詞精煉所述搜索。
2. 根據權利要求1所述的方法,該方法還包括以下步驟擴展所述不相關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵詞。
3. 根據權利要求1所述的方法,該方法進一步包括通過執行以下步聚來擴展所述不相關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵詞 確定由所述不相關關鍵詞指示的一個或更多個不相關主題; 識別與所述不相關主題高度親和的一個或更多個親和主題; 確定與所述親和主題相對應的一個或更多個親和關鍵詞;以及 將所述親和關鍵詞識別為與所述不相關關鍵詞有關的關鍵詞。
4. 根據權利要求1所述的方法,該方法進一步包括通過執行以下步驟來擴展所述不相 關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵詞選擇與所述不相關關鍵詞屬於同一群集的一個或更多個關鍵詞;以及 將所選擇的關鍵詞識別為與所述不相關關鍵詞有關的關鍵詞。
5. 根據權利要求1所述的方法,該方法進一步包括通過執行以下步驟來擴展所述不相 關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵詞確定由所述不相關關鍵詞指示的一個或更多個不相關主題; 識別暗示了不相關主題的暗示主題; 確定與暗示主題相關聯的暗示關鍵詞;以及 將所述暗示關鍵詞識別為與所述不相關關鍵詞有關的關鍵詞。
6. 根據權利要求1所述的方法,該方法進一步包括通過執行以下步驟來擴展所述不相 關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵詞接收指示關鍵詞應當是多麼鬆散地相關或多麼緊密地相關以便被識別為與不相關關 鍵詞有關的關鍵詞的用戶選擇;以及根據所述用戶選擇識別與所述不相關關鍵詞有關的所述關鍵詞。
7. 根據權利要求1所述的方法,該方法還包括作為下述其中之一來呈現所述結果以及 與所述結果相關聯的所述關鍵詞所述結果和所述關鍵詞的列表; 所述關鍵詞的親和度圖; 各具有關鍵詞彈出窗口的結果;或 各具有關鍵詞擴展欄位的結果。
8. 根據權利要求1所述的方法,其中所述根據所述不相關關鍵詞精煉所述搜索的步驟 還包括以下步驟從搜索查詢中去除所述不相關關鍵詞。
9. 根據權利要求1所述的方法,其中所述根據所述不相關關鍵詞精煉所述搜索的步驟還包括以下步驟去除與所述不相關關鍵詞相關聯的結果。
10. 根據權利要求1所述的方法,其中, 所述語料庫包括全球資訊網;並且 所述多個文檔包括多個網頁。
11. 根據權利要求l所述的方法,其中所述結果包括來自網摘的多個摘要。
12. 根據權利要求1所述的方法,該方法還包括以下步驟 使用布爾值來表示兩個主題之間的關係。
13. 根據權利要求1所述的方法,該方法還包括以下步驟 使用模糊邏輯來表示兩個主題之間的含糊關係。
14. 一種或更多種編碼有軟體的實體計算機可讀介質,該軟體在執行時可執行以下步驟搜索語料庫的搜索空間以生成多個結果,所述語料庫包括與多個關鍵詞相關聯的多 個文檔,各個文檔與指示所述文檔的至少一個主題的至少一個關鍵詞相關聯; 將一個或更多個關鍵詞確定為不相關關鍵詞;以及 根據所述不相關關鍵詞精煉所述搜索空間。
15. 根據權利要求14所述的計算機可讀介質,其中所述軟體還可執行以下步驟 擴展所述不相關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵詞。
16. 根據權利要求14所述的計算機可讀介質,所述軟體進一步可通過執行以下步驟來擴展所述不相關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵詞 確定由所述不相關關鍵詞指示的一個或更多個不相關主題; 識別與所述不相關主題高度親和的一個或更多個親和主題; 確定與所述親和主題相對應的一個或更多個親和關鍵詞;以及 將所述親和關鍵詞識別為與所述不相關關鍵詞有關的關鍵詞。
17. 根據權利要求14所述的計算機可讀介質,其中所述軟體進一步可通過執行以下 步驟來擴展所述不相關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵 詞選擇與所述不相關關鍵詞屬於同一群集的一個或更多個關鍵詞;以及 將所選擇的關鍵詞識別為與所述不相關關鍵詞有關的關鍵詞。
18. 根據權利要求14所述的計算機可讀介質,其中所述軟體進一步可通過執行以下 步驟來擴展所述不相關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵 詞確定由所述不相關關鍵詞指示的一個或更多個不相關主題; 識別暗示了不相關主題的暗示主題; 確定與所述暗示主題相關聯的暗示關鍵詞;以及 將所述暗示關鍵詞識別為與所述不相關關鍵詞有關的關鍵詞。
19. 根據權利要求14所述的計算機可讀介質,其中所述軟體進一步可通過執行以下 步驟來擴展所述不相關關鍵詞以包括與所述不相關關鍵詞有關的一個或更多個其他關鍵詞接收指示關鍵詞應當多麼鬆散地相關或多麼緊密地相關以便被識別為與不相關關鍵 詞有關的關鍵詞的用戶選擇;以及根據所述用戶選擇識別與所述不相關關鍵詞有關的關鍵詞。
20. 根據權利要求14所述的計算機可讀介質,其中所述軟體還可作為下述其中之一呈 現所述結果以及與所述結果相關聯的所述關鍵詞所述結果和所述關鍵詞的列表; 所述關鍵詞的親和度圖; 各具有關鍵詞彈出窗口的結果;或 各具有關鍵詞擴展欄位的結果。
21. 根據權利要求14所述的計算機可讀介質,其中所述軟體進一步可通過以下步驟來 根據所述不相關關鍵詞精煉所述搜索從搜索查詢中去除所述不相關關鍵詞。
22. 根據權利要求14所述的計算機可讀介質,其中所述軟體進一步可通過以下步驟來 根據所述不相關關鍵詞精煉所述搜索去除與所述不相關關鍵詞相關聯的結果。
23. 根據權利要求14所述的計算機可讀介質,其中, 所述語料庫包括全球資訊網;並且 所述多個文檔包括多個網頁。
24. 根據權利要求14所述的計算機可讀介質,其中所述結果包括來自網摘的多個摘要。
25. 根據權利要求14所述的計算機可讀介質,其中所述軟體還可執行以下步驟 使用布爾值來表示兩個主題之間的關係。
26. 根據權利要求14所述的計算機可讀介質,其中所述軟體還可執行以下步驟 使用模糊邏輯來表示兩個主題之間的含糊關係。
全文摘要
響應於用戶輸入精煉搜索空間。在一個實施方式中,對語料庫的搜索空間進行搜索以得到結果。所述語料庫包括與多個關鍵詞相關聯的多個文檔,其中各個文檔與至少一個指示該文檔的至少一個主題的關鍵詞相關聯。將一個或更多個關鍵詞確定為不相關關鍵詞。根據所述不相關關鍵詞精煉所述搜索空間。
文檔編號G06F17/30GK101692223SQ20081016617
公開日2010年4月7日 申請日期2008年10月6日 優先權日2007年10月5日
發明者大衛·馬爾維特, 斯特吉奧斯·斯特吉奧, 賈瓦哈拉·賈殷 申請人:富士通株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀