新四季網

確定單詞和文檔的深度的製作方法

2023-06-04 21:40:26 2

專利名稱:確定單詞和文檔的深度的製作方法
技術領域:
本發明總體上涉及詞典(lexigraphical)分析,更具體地說,涉及單 詞和文檔的深度的確定。
背景技術:
一組數據可以包含大量信息,然而查找到相關信息卻可能比較困難。 關鍵詞搜索是查找信息的主要技術。然而,在特定情況下關鍵詞搜索在 定位信息時並不有效。

發明內容


圖1例示了確定單詞和/或文檔的深度的系統10的一種實施方式; 圖2例示了可與圖1的系統一起使用的相關度模塊的一種實施方式; 圖3例示了記錄基本相關度的相關度矩陣的實施例; 圖4例示了記錄有向相關度的相關度矩陣的實施例; 圖5例示了記錄平均相關度的相關度矩陣的實施例; 圖6例示了相關度圖的實施例;
圖7例示了可與圖1所示的系統一起使用的聚類模塊的一種實施方
式;
圖8例示了可與圖1所示的系統一起使用的本體特徵模塊的一種實 施方式;以及
圖9的圖例示了單詞深度分布的一個實施例。
具體實施方式
概述
在一種實施方式中,確定文檔深度包括訪問描述了文檔的記錄。該 記錄對與文檔有關的相關度進行記錄。根據相關度確定文檔的文檔深度。 可以藉助文檔深度執行文檔深度分析。在一種實施方式中,確定單詞深 度包括訪問描述了單詞相關度的記錄。根據相關度確定單詞的單詞深度。
示例實施方式
在具體實施方式
中,領域本體的創建及査詢包括以下步驟
1、 收集領域中的文檔。在具體實施方式
中,文檔是詞條的集合。文 檔包括可讀文本,例如,書《新約》。文檔不需要包括敘述性形式的文本, 例如,文檔可以包括用戶輸入的一組標註(tag),其單獨及共同地描述了 圖像的內容。文檔的集合可稱為"領域文集(domain corpus)"。
2、 識別該領域中感興趣的詞條("詞典詞條")。詞條的實施例包括 單詞(諸如"樹")、短語(諸如"圖形算法")、命名實體(諸如"紐約") 等。詞條(或概念)可具有不同的形式。在特定情況下,不同的單詞用 於同一概念,例如,"kidney stones (腎結石)"和"kidney calculi (腎結 石)"是指同一概念,即"腎結石"。在其它情況下,詞幹可具有多種詞 形變化(inflected variant),例如,詞幹"tree"具有詞形變化"tree"和
"trees"。在具體實施方式
中,同一詞條的各種形式可處理為映射到同一 詞條。詞典詞條的任意適當形式可出現在文檔中,但是具體詞典詞條不 一定出現在任意文檔中。
識別詞典詞條的方法的實施例包括利用用於特定領域的人造詞典, 例如,醫學詞典。在具體實施方式
中,可根據文檔集中的一組文本串自 動地生成詞典詞條的列表。可以按照頻度對這些串進行索引及分類,並 且可選擇頻度大於閾值的串。可使用其它合適的統計方法來確定詞條。 在具體實施方式
中,"單詞"可與"詞條"及"詞典詞條"互換。
3、 計算給定的共現上下文中詞典詞條的共現(co-occurrence)數量。 如果兩個詞條中的每一個都在同一共現上下文(co-occurrence context)中 至少出現一次,則這兩個詞條共現。共現上下文的實施例包括文檔和段 落。4、 創建包括該領域本體的有向加權圖(directed weighted graph)。該
有向加權圖包括作為節點的詞典詞條以及作為邊的權重的相關度。"有向 加權圖"可以用作可由任意合適的數據結構(例如,矩陣、二值判決圖、 或二值判決圖的集合等)代表的同一信息的實際表達。
5、 應用查詢該有向加權圖的過程。給定一個或更多個詞典詞條作為 輸入,該過程輸出與輸入的詞典詞條有關的一個或更多個詞典詞條。例 如,該過程可輸出一個或更多個詞條的分類列表,所述一個或更多個詞 條針對一個或更多個輸入詞條具有最高的差分有向相關度(如下所述)。 在這種情況下,就該本體涉及的領域而言,該輸出包括與輸入詞條較密 切相關的詞條。
可使用任意適當的相關度定義。在具體的實施方式中,可使用以下 定義
1、 基本相關度
a. 詞條A與B之間的基本相關度(A)可定義為包括詞條A和B 這兩者的共現上下文的數量與包括詞條A或B的共現上下文的數量的比 值
A(A,B) = |AB|/|AorB|
b. 詞條A與B之間的基本相關度(A)還可定義為包括詞條A和B 這兩者的共現上下文的數量與包括A的共現上下文的數量或包括B的共 現上下文的數量中的最大值的比值
A(A,B) = |AB|/max(|A|,|B|)
2、 有向相關度
詞條A與B之間的有向相關度(DAff)可定義為在假定共現上下文 中觀察到了 A的情況下觀察到B的條件概率 DAff(A,B) = |AB| / |A|
也就是說,有向相關度可以是包括詞條A和B這兩者的共現上下文 的數量與包括詞條A的共現上下文的數量的比值。通常,DAff(A,B)與 DAff(B,A)不同。
3、 差分有向相關度詞條A和B之間的差分有向相關度(DiffDAff)可定義為詞條A 與B之間的有向相關度減去代表該文集中的詞條B的常見程度 (common-ness)的參數。在該文集中的詞條B的常見程度可以是詞條B 與該文集中的其它詞條的基本相關度或有向相關度值的統計值。在具體 實施方式中,該文集中的詞條B的常見程度可以是詞條B的平均相關度 (AA),這得到以下差分有向相關度的定義 DifBDAff(A,B) - DA(A,B) - AA(B、)詞條B的平均相關度(AA)或平均有向相關度可定義為 AA(B) = AVERAGE一x DAff(x, B)也就是說,平均相關度是術語B與共現上下文中的其他術語的有向 相關度的平均值。圖1示出了判斷文檔特異性的系統10的一種實施方式。在特定實施 方式中,系統10根據文檔的主題數確定文檔的特異性。如果文檔具有較 少的主題數,則文檔較特殊。如果文檔具有較多的主題數,則文檔較不 特殊。在特定實施方式中,系統10執行特異性分析。特異性分析的實施 例包括獲取滿足需要的文檔特異性的文檔,顯示指示文檔的特異性的圖 像元素,以及根據用戶文檔確定用戶特異性。在特定實施方式中,可以 根據依據單詞之間的相關度所確定出的聚類來確定特異性。在某些實施方式中,對於給定的單詞子集和詞典D,可以基於特定的反向索引II計算有向相關度,其中索引II例如包括針對單詞Wj和Wj的條目I(Wi)和I(Wj)。一般而言,反向索引是存儲從詞條到它的位置(即 詞條出現的共現上下文)的映射的索引數據結構。對於D中的每對單詞 Wi和Wj,DA(i,j)可以被定義為II中的條目I(Wi)和I(Wj)的合取(conjunction) 值除以I(Wi)的數目值。一般而言,DA(i,j)不必等於DA(j,i)。結果可以以 任意合適的方式例如以行方式存儲,其中D(l,i)被存儲,然後D(2,i)被存儲,依此類推。對於每行i,可以存儲II(Wj)l,接著是與Wj的合取的基數(cardinality )。在特定實施方式中,可以在三個階段中計算有向相關度。在這些實 施方式中,每個詞典詞條被指派以唯一的整數標識符。反向索引的條目對應於整數標識符。在階段O,對應於D的II條目被讀取。對於參數(s,0), 僅形式ks+o的元素標識符被保留。值ks+o定義了將被檢驗的II條目的 子集。以這樣的方式,可以並行地計算有向相關度。作為示例,來自參 數s,o(l,0)的結果相當於根據參數(3, 0)、 (3, 1)、 (3, 2)合併計算獲得的 結果。該步驟允許計算用於很大反向索引的DA表。
在階段1內,僅僅針對DA(i, j)以行的方式計算了合取。在階段2 內,讀取計算出的上三角形UTDA陣列。據此獲得作為UT置換的下三 角形部分。在特定的實施方式中,可以將多個維數相同的DA並成單個 陣列。可以以(s,i)為參數按照simiH)...(s.D DA來計算與大II相關的DA 數組。可以將附加信息與計算的合取存儲起來,以便可以計算有向相關 度。在一定的情況中,可以存儲II項的基數。
在特定的實施方式中,可以以行的方式存儲DA,所以AA條目的計 算可以與DA條目的計算並行地進行。具體地,可以通過在從盤中讀取 DA時對DA的行進行累加並且最後通過詞典條目的數量歸一化而生成 AA。
在示出的實施方式中,系統10包括客戶端20、伺服器22和存儲器 24。客戶端20允許用戶與伺服器22通信以便生成語言本體。客戶端20 可以將用戶輸入發送到伺服器22,並且可以將伺服器輸出提供(例如顯示 或列印)給用戶。伺服器系統24管理用於生成語言本體的應用程式。存儲 器24存儲伺服器系統24使用的數據。
在示出的實施方式中,存儲器24存儲頁面50和記錄54。頁面50(或 文檔或共現上下文)可以指單詞集合。頁面50的例子包括一個或更多個文 檔頁面、 一個或更多個文檔、 一本或更多本書、 一個或更多個網頁、信 件(例如電子郵件或即時消息和成其它單詞集合。可以通過頁面識別符識 別頁面50。可以將頁面50電子地存儲中一個或更多個有形計算機可讀介 質中。頁面50可以與任何適當的內容例如文本(例如字符、單詞和/或數 字)、圖像(例如圖形、像片或視頻)、音頻(例如錄音或計算機生成的聲音) 和/或軟體程序相聯繫。在特定的實施方式中, 一組頁面50可以屬於一個 文集。該文集可以與具體的主題、團體、組織或其它實體相聯繫。記錄54描述了頁面50。在該實施方式中,記錄54包括索引58、反 向索引62、本體66以及聚類67。索引58包括索引列表,其中,頁面50 的索引列表指示頁面50的單詞。反向索引62包括反向索引列表,其中, 單詞(或單詞集)的反向索引列表指示包括所述單詞(或所述單詞集) 的頁面50。在一個實施例中,列表Wi包括包含有單詞Wi的頁面50的頁 面標識符。列表Wj&Wj包括合取頁面50 (其包含單詞Wj和Wj這兩者) 的頁面標識符。列表Wi+Wj包括分取(disjunction)頁面50 (其包含單 詞Wi或Wj)的頁面標識符。P(Wi)是Wj中頁面50的數量,即,包括單詞 Wi的頁面50的數量。
在一種實施方式中,列表(諸如索引列表或反向索引列表)可被存 儲為二值判決圖(BDD)。在一個實施例中,集合Wi的二值判決圖BDD (Wi)代表具有單詞Wi的頁面50。 BDD(Wi)的滿足指定計數(satisfying assignment count) Satisf(BDD(WO)得到具有單詞Wi的頁面50的數量 P(Wj):
P(WO = Satisf(BDD(Wj))
因此,
P(Wi&Wj) = Satisf(BDD(Wi) AND BDD(Wj》 P(Wi+Wj) = Satisf(BDD(Wi) OR BDD(Wj))
本體66代表語言的單詞以及這些單詞之間的關係。在一種實施方式 中,本體66代表單詞之間的相關度。在例示的實施例中,本體66包括 相關度矩陣和相關度圖。參照圖3到圖5來描述相關度矩陣的實施例。 參照圖6來描述相關度圖的實施例。聚類67記錄彼此相關的詞的聚類。 參照圖7更詳細地描述這些聚類。
在示出的實施方式中,伺服器22包括相關度模塊30、聚類模塊31 以及本體特徵模塊32。相關度模塊30可以計算單詞對的相關度、記錄相 關度矩陣中的相關度和/或報告相關度矩陣。相關度模塊30還可以產生相 關度圖。將參照圖2更詳細地描述相關度模塊30。
在特定實施方式中,聚類模塊31可以通過識別數據集內相關元素的 聚類發現數據集內的模式(pattem)。在特定實施方式中,聚類模塊31可以識別一組單詞(例如,針對一種語言或一組頁面50)的聚類。 一般 而言,聚類單詞彼此高度相關,但是不與聚類外的單詞高度相關。單詞 聚類可以指示單詞集的主題(或題目)。在特定實施方式中,聚類模塊31 根據單詞之間的相關度識別相關單詞的聚類。在這些實施方式中,聚類 單詞彼此高度相關,但是不與聚類外的單詞高度相關。將參照圖7更詳 細地描述聚類模塊31。在特定實施方式中,本體特徵模塊32可以確定一組一個或更多個單 詞(例如,特定單詞或包括單詞的文檔)的一個或更多的本體特徵,且 然後可以在某種變化的情況下應用本體特徵。本體特徵是在語言的本體 空間中放置單詞集的單詞集的特徵。本體特徵的實施例包括深度和特異 性。在特定實施方式中,深度可以指示單詞集的原文複雜度。較深的單 詞集可以較技術和專業,而較淺的單詞集可以較常見。在具體實施方式
中,單詞集的特異性涉及單詞集的主題數目。較特殊的單詞集可以具有 較少的主題,而較不特殊的單詞集可以具有較多的主題。本體特徵模塊32可以在任意合適的情況下應用本體特性。合適的情 況的示例包括根據本體特徵搜索、分類或選擇文檔;報告文檔的本體特 徵;以及確定一個或更多個用戶的文檔的本體特徵。將參照圖8更詳細 地描述本體特徵模塊32。系統10的組件可以包括接口、邏輯、存儲器和/或其他合適的元件。 接口接收輸入、發送輸出,處理輸入和/輸出,和/或執行其他合適的操作。 接口可以包括硬體和/或軟體。邏輯執行這些組件的操作,例如,執行指令以根據輸入產生輸出。 邏輯可以包括硬體、軟體和/或其他邏輯。邏輯可以在一個或更多個有形 介質中編碼且當被計算機執行時可以進行操作。某些邏輯,例如,處理 器,可以管理組件的操作。處理器的實施例包括一個或更多個計算機、 一個或更多個微處理器、 一個或更多個應用和/或其他邏輯。存儲器存儲信息。存儲器可以包括一個或更多個有形的、計算機可 讀的和/或計算機可執行的存儲介質。存儲器的示例包括計算機存儲器(例 如,隨機存取存儲器(RAM)或只讀存儲器(ROM),)、海量存儲介質(例如,硬碟)、可移動存儲介質(光碟(CD)或數字視頻光碟(DVD))、 資料庫和/或網絡存儲器(例如,伺服器)以及/或其他計算機可讀介質。
可以對系統IO做出修改、添加或刪減而不偏離本發明的範圍。系統 10的組件可以是集成的或分立的。而且,系統10的操作可以通過更多或 更少或其他組件實施。例如,生成器42和46的操作可以通過一個組件 執行,或者相關度計算器34的操作可以通過多於一個的組件執行。另外, 系統10的操作可以使用任意合適的邏輯實施,包括軟體、硬體和/或其他 邏輯。當在本文檔中使用時,"各個(each)"表示集合中的各個成員或集 的子集中的各個成員。
可以對矩陣的實施例做出修改、添加或刪減而不偏離本發明的範圍。 矩陣可以包括更多的、更少的或其他的值。另外,矩陣的值可以以任意 合適的順序布置。
圖2示出了可以與圖1的系統10 —起使用的相關度模塊30的一種 實施方式。相關度模塊30可以為單詞對計算相關度、在相關度矩陣中記 錄相關度以及/或者報告相關度矩陣。相關度模塊30還產生相關度圖。
在所示出的實施方式中,相關度模塊30包括相關度計算器34、本 體生成器38和單詞推薦器48。相關度計算器34為單詞Wi或包括第一單 詞Wi和第二單詞Wj的單詞對計算任意類型的相關度。相關度的實施例包 括基本相關度、有向相關度、平均相關度、差分相關度和/或其他相關度。
在一種實施方式中,單詞推薦器48接收種子單詞且識別與該種子單 詞之間的相關度大於閾值相關度的單詞。閾值相關度可以具有任何適當 的值,諸如大於或等於0.25、 0.5、 0.75或0.95。閾值相關度可以被預編 程或由用戶設定。
基本相關度可以根據包括單詞Wj和/或Wj的頁面50的數量(例如, 數目)計算。合取頁面數量代表包括單詞Wi和單詞Wj兩者的頁面50的 數量。分取頁面數量代表包括Wi或Wj的頁面50的數量。通過將合取頁 面數量除以分取頁面數量,可以給出基本相關度。在一個實施例中,合 取頁面數表示包括單詞Wj和單詞Wj的頁面數,而分取頁面數表示包括單 詞Wj或Wj的頁面數。通過將合取頁面數除以分取頁面數可以給出基本相關度Affinity (Wi, w》=P(Wi & Wj) / P(W; + W》圖3例示了記錄基本相關度的相關度矩陣110的實施例。在所例示 的實施例中,相關度矩陣110記錄單詞w,,…,W5的逐對相關度。根據相 關度矩陣110,單詞w。與w,之間的相關度是0.003,單詞wo與W2之間 的相關度是0.005,以此類推。返回參照圖1,相關度組包括彼此具有高相關度的單詞對,並可用於針對頁面內容而獲得單詞W〗和W2之間的關係。較高的相關度可指定為大於相關度組閾值的相關度。閾值可以設定為任意合適的值,例如大 於或等於0.50、 0.60、 0.75、 0.卯或0.95。一個單詞可屬於多於一個的相 關度組。在一種實施方式中,相關度組可表示為BDD。用於該BDD的 指針可與該組的各個單詞一起存儲在反向索引62中。有向相關度可用於測量單詞Wi對於Wj的重要性。相關度計算器34 根據包括單詞Wj和Wj的頁面50的數量(例如,數目)來計算單詞wi與 給定單詞Wj的有向相關度。單詞Wj頁面數量表示包括單詞Wi的頁面50的數量。單詞Wi與給定單詞Wj的有向相關度可通過合取頁面數量除以單 詞Wj頁面數量得到。例如,單詞Wj頁面的數量指示包括單詞Wi的頁面50的數量。單詞Wi與給定單詞Wj的有向相關度可通過合取頁面50的數 量除以單詞Wi頁面50的數量得到-DAffinity(Wi, Wj) = P(Wj & Wj) / P(W;)DAffinity(Wi, Wj)與DAffinity(Wj, Wi)不同。單詞w;與w」之間的高有向 相關度DAffinity(Wi, w》指示在頁面50包括單詞w」的情況下頁面50包括 單詞Wi的概率較高。在一個實施例中,頁面[1 23 4 5 6]包括單詞Wi,而 頁面[4 2]包括單詞Wj。包括單詞Wj的頁面也包括單詞Wi,因此從單詞Wj的角度,單詞Wi具有較高的重要性。包括單詞Wi的頁面中僅有三分之 一的頁面也包括單詞Wj,因此從單詞Wi的角度,單詞Wj具有較低的重要性。圖4例示了記錄單詞,,..., 5的有向相關度的相關度矩陣120。在 該實施例中,單詞124是A單詞,而單詞128是B單詞。矩陣120的各行記錄了 B單詞與給定A單詞的相關度,而矩陣120的各列記錄了 A單 詞與給定B單詞的相關度。返回參照圖l,針對其它單詞Wj來計算單詞Wi的平均相關度。在一 種實施方式中,平均相關度可以是單詞Wj與其它各個單詞Wj之間的相關度的平均。N個單詞中的單詞Wi的平均相關度可由下式給出 AVeAff(Wi)= &二屍(一)圖5例示了記錄平均相關度的相關度矩陣140的實施例。行142記 錄單詞l到單詞50,000的基本相關度。行144記錄單詞1到單詞50,000 的平均相關度。返回參照圖l,單詞的平均相關度可指示該單詞的深度(depth)。具 有較低平均相關度的單詞可認為是較深的單詞,而具有較高平均相關度 的單詞可認為是較淺的單詞。較深的單詞傾向於更技術、更具體和更精 確。較深單詞的百分比較高的頁面50可被認為是較深的頁面,而較深單 詞的百分比較低的頁面50可被認為是較淺的頁面。在一種實施方式中, 用戶可指定要提取的單詞和/或頁面50的深度。頁面50的較深的單詞可形成具有高度相關單詞的一個或更多個聚 類(cluster)。聚類可表示共同思想或主題。頁面50的主題的數量可指示 頁面50的特異性。具有較少主題的頁面50可被認為是較特殊的,而具 有較多主題的頁面50可被認為是較不特殊的。單詞Wi相對單詞Wj的差分相關度是單詞Wi與單詞Wj之間的有向相關度減去單詞Wi相對其它全部單詞的平均相關度。差分相關度可表示為 DiffAff(Wi, Wj) = DAffinity(Wi, w》—AveAff(Wj)差分相關度排除了由單詞Wi在頁面50中出現的一般趨勢而造成的 偏差(bias)。在具體情況下,差分相關度可提供針對給定了頁面包括單 詞Wj情況下該頁面包括單詞Wi的概率的更精確指示。差分相關度可用於多種應用。在一個實施例中,人名之間的差分相 關度可用於研究社會網絡。在另一實施例中,語言元素之間的差分相關 度可用於研究自然語言處理。在另一實施例中,產品之間的差分相關度 可用於研究營銷。相關度計算器34可使用任意合適的技術來搜索反向索引列表,以計
算相關度。例如,為了識別包括單詞Wi和單詞Wj這兩者的頁面,相關度
計算器34可搜索單詞Wi的列表Wi以及單詞Wj的列表Wj,以獲得公共 元素,即公共頁面標識符。
在特定實施方式中,本體生成器38產生語言的本體66,諸如相關 度矩陣或相關度圖。本體可以根據任意合適的相關度產生,諸如根據基 本相關度、有向相關度、平均相關度、差分相關度和/或其他相關度產生。 本體66可以以任意方式根據從語言中選出的單詞產生。例如,可以選擇 來自於語言的普遍使用部分的單詞或涉及一個或更多個特定主題領域的 單詞。
在所示出的實施方式中,本體生成器38包括相關度矩陣生成器42 和相關度圖生成器46。相關度矩陣生成器42產生相關度矩陣,該相關度 矩陣記錄單詞之間的相關度。相關度圖生成器46產生相關度圖,該相關 度圖代表單詞之間的相關度。在相關度圖中,節點代表單詞,節點之間 的有向邊的權重代表節點代表的單詞之間的相關度。相關度圖可以具有 任意適當大小的維數。
圖6示出了相關度圖150的示例。相關度圖150包括節點154和鏈 路158。節點154代表單詞。在該實施例中,節點154a代表單詞"二進位"。 節點154之間的節點有向邊的權重代表節點154代表的單詞之間的相關 度。例如,較大的權重代表較大的相關度。節點之間的鏈路158表示節 點154代表的單詞之間的相關度大於相關度閾值。相關度閾值可以具有 任意合適的值,例如,大於或等於0.25、 0.5、 0.75或0.95。
圖7示出了可以與圖1的系統10 —起使用的聚類模塊31的一種實 施方式。在特定實施方式中,聚類模塊31通過識別數據集中的相關元素 的聚類發現數據集中的圖案。在特定實施方式中,聚類模塊31可以識別 一組單詞(例如,語言或一組頁面50)的聚類。 一般而言,聚類單詞彼 此高度相關,但是不與聚類之外的單詞高度相關。單詞的聚類可以指示 該組單詞的主題(或題目)。
在特定實施方式中,聚類模塊31根據單詞之間的相關度識別相關單詞的聚類。在該實施方式中,聚類的單詞彼此高度相關,但是不與聚類 外的單詞高度相關。在一種實施方式中,如果單詞足夠相關,它們可以 被認為高度相關。如果單詞滿足一個或更多個相關度標準(例如閾值), 單詞可以足夠相關,標準的實施例在下面提供。
任意合適的相關度都可用於識別聚類。在特定實施方式中,聚類模
塊31使用有向相關度。單詞相對其他單詞的有向相關度表徵了單詞的共 現。聚類包括具有相似共現的單詞。在特定實施方式中,聚類模塊31使 用差分相關度。差分相關度旨在去除單詞在頁面50中出現的一般趨勢導 致的偏差。
在所示出的實施方式中,聚類模塊31包括聚類引擎210和聚類分析 器214。聚類引擎210根據相關度識別單詞的聚類,且聚類分析器214應 用相關度聚類以分析各種情況。
聚類引擎210可以以任意合適方式根據相關度識別單詞的聚類。用 於識別聚類的方法的三個實施例為根據一組單詞建立聚類,將單詞分 入聚類,以及比較單詞的相關度向量。在一種實施方式中,聚類引擎210 根據一組單詞建立聚類。在一種實施方式中,聚類引擎210根據具有相 關度+Aff(Wi, Wj)的單詞(wJ的集W建立聚類S。相關度值tAff(Wi, Wj)代表 單詞Wi相對於Wj的任意合適類型的相關度,諸如有向相關度DAffinity(Wi, Wj)或差分相關度DiffAff (Wi, Wj)。這裡提供的相關度值的某些實施例可以 被認為是歸一化值。在該實施例中,Afffol. (Wi, Wj)代表前向相關度,且 Affback (Wj, Wi)代表後向相關度。
在該實施例中,聚類S開始於種子單詞Wq。當前單詞wx代表在當 前迭代中與來自集W的單詞比較的聚類S的單詞。最初,當前單詞wx 被設置為種子單詞wq。
在迭代中,當前單詞Wx被設置為聚類S的單詞。集W的單詞Wi根 據它們與當前單詞wx的前向聚類AfffM(Wi, w》分類。從分類集W的起點
開始,識別滿足相關度標準的候選單詞We。相關度標準可以包括與當前 單詞Wx的前向相關度標準 Afffor(Wc, wx) > Thcf以及與種子單詞Wq的後向相關度標準 Affback(Wq, Wc) > ThCb
其中Thef代表候選單詞的前向閾值,Thcb代表候選單詞的後向閾值。
候選單詞(wj的有序集的第一單詞被添加到聚類S,添加的單詞數由參數 Size。給出。閾值Tlv和Thcb可以為範圍從最小值到最大值的任何適當值 的浮點參數。在特定的實施例中,閾值Thef和Thcb的適當值可以根據實
際相關度的等級列表確定。例如,可以使用列表的第200個值。參數Sizec 可以是具有任意合適值的整數參數。合適的值的實施例包括預設值l、 2、 3或4。在特定實施方式中,參數可以在特定迭代處變化。
可以執行任意合適數目的迭代。在一個實施例中,可以在方法啟動 之前指定迭代數目。在另一實施例中,可以在方法的執行過程中計算次 數。例如,可以根據聚類S的尺寸的生長速度計算次數。
在另一實施方式中,聚類引擎210通過將一組單詞中的單詞分類成 聚類來識別聚類。在一個實施例中,集W的單詞(Wi)根據相關度+Aff(Wi, Wj)(諸如差分相關度或有向相關度)分類。在另一實施例中,單詞(Wi〉 根據聚集函數分類,例如,根據單詞Wj的與單詞分離集Q中的各個成員 的相關度之和分類。集W可以以任意合適的方式選擇。例如,集W可 以是與查詢最相關的X個單詞,其中X可以是任意合適的值,諸如從IO 至100、 100至200或等於或大於200的值。
在該實施例中,聚類最初為空。集W的第一單詞Wi被放置在聚類 中。在每次迭代,當前單詞Wx從集W中選擇。如果+Aff(^, Wf)滿足相 關度閾值Th給出的相關度標準,則當前單詞wx被放入到聚類,其中Wf 代表聚類中放置的第一單詞。閾值Th可以具有任意合適的值,例如,0.1 至0.5範圍的值(最小值為0.0和最大值為1.0)。如果+Aff(Wx, w》不滿足 閾值Th,則當前單詞Wx被置於空聚類。針對集W中的每個單詞重複該 迭代。
在處理了集W的單詞之後,小聚類可以被消除。例如,可以消除具 有少於Y個單詞的聚類。Y可以具有任意合適的值,諸如3至5、 5至 10、 10至25、 25至50,或大於等於50的範圍中的值。如果聚類的數目不在滿意的範圍內,則可以使用不同的閾值Th重複 該處理,該不同的閾值Th給出了針對在聚類中進行放置的較嚴格或較寬 松的標準。滿意的範圍可以由具有任意合適值的聚類數目最小值和聚類 數目最大值給出。合適值的實施例包括針對最小值的1至5、 5至10或 大於或等於10範圍的值,以及針對最大值的10至15、 15至20或大於 或等於20的範圍中的值。可以增加閾值Th的值以增加聚類的數目,且 可以減小閾值Th的值以減小聚類數目。
在另一實施方式中,聚類引擎210通過比較單詞的聚類向量識別聚
類。在特定實施方式中,相關度矩陣的行和列可以得出聚類向量〈Wi,
*Aff(Wi, w,), ..., *Aff(Wi, Wj), *Aff(Wi, wn)>,這代表單詞Wi相對於單詞 Wj的相關度,j = 1,…,n。相關度值*六〖《^, Wj)代表單詞Wi相對於單詞 Wj的任意合適類型的相關度,例如,有向相關度或差分相關度。
在特定實施方式中,具有相似相關度值的相關度向量可以表示聚類。 僅用於描述目的,相關度向量可以被認為是相關度空間中單詞的相關度 的坐標。即,每個相關度值*八£《^,")可以被認為是特定維數的坐標。具 有相似相關度值的相關度向量表示這些向量與之相關的單詞在相關度空 間彼此靠近。即,這些向量表示這些單詞與其他單詞具有類似相關度關 系,且因而可以適用於相同聚類中的成員關係。
如由合適的距離函數所確定的,如果一個相關度向量接近另一相關 度向量,則這些相關度向量相似。距離函數可以基於相關度向量定義為 例如針對給定尺寸的向量的標準歐幾裡得距離,或者給定尺寸的向量的 餘弦。距離函數可以通過聚類引擎210或通過用戶指定。
在特定實施方式中,聚類引擎210應用聚類算法以識別值彼此接近 的相關度向量。聚類算法的示例包括直接算法、重複二等分算法、聚合 算法、偏差聚合算法和/或其它適當算法。在一個實施例中,聚類引擎210 可以包括聚類軟體,諸如CLUTO。
聚類分析器214可以在任意合適的應用中使用相關度聚類以用於分 析。在一種實施方式中,聚類分析器214可以使用相關度聚類對頁面50 進行分類。類可以與聚類標識符或一個或更多個聚類成員相關。在一個實施例中,頁面50的聚類被識別,然後可以根據聚類對頁面50進行分 類。在另一實施例中,可以選擇頁面50的重要單詞,然後定位包括該單 詞的聚類。然後根據定位的聚類對頁面50進行分類。
在一種實施方式中,聚類分析器214可以使用相關度聚類來分析頁 面50的文集。文集可以與特定主題、 一個或更多個個體的社團、組織或 它們的實體相關。在一個實施例中,聚類分析器214可以識別文集的聚 類且根據聚類確定文集的文集特性。文集特性可以表示與實體(所述實 體與文集相關)相關的單詞。如果一個或更多的頁面50具有文集特徵的 聚類,則頁面50可以與該實體相關。
在一種實施方式中,針對搜索查詢歧義消除和擴展,聚類分析器214 可以使用相關度聚類。在該實施方式中,聚類分析器214識別包括給定 搜索查詢的搜索詞條的聚類。聚類提供與給定搜索査詢相關的另選單詞 和/或分類。在一個實施例中,來自於聚類的單詞可以被報告給搜索者以 幫助下一次搜索査詢。在另一實施例中,聚類分析器214可以從聚類選 擇單詞且自動地形成一個或更多個新的搜索査詢。聚類分析器214可以 順序地或並行地運行新的查詢。
在一種實施方式中,聚類分析器214可以使用相關度聚類來研究社 會網絡。在一個實施例中,頁面50可以提供對社會網絡的了解。這種頁 面的實施例包括信件(諸如信、電子郵件和即時消息)、備忘錄、文章和 會議記錄。這些頁面50可以包括包含社會網絡的中的人的用戶標識符(諸 如名字)的單詞。可以識別名字的聚類以分析該網絡中的人之間的關係。 在一個實施例中,差分相關度聚類可用於過濾頁面50中的出現最多的名 字,而不提供諸如系統管理員的名字之類的信息。
在特定實施方式中,聚類分析器214可以通過組合和/或比較數據集 的聚類來分析數據集。在一種實施方式中,比較交疊數據集的聚類。一 個數據集的聚類可以映射到其他數據集的聚類,這使得可以了解兩個數 據集之間的關係。例如,數據集可以來自於對一組同事的文檔的分析且 來自於該組的社會網絡研究。社會網絡聚類可以映射到文檔主題聚類以 分析該社會網絡與該主題之間的關係。圖8示出了本體特徵模塊32的一種實施方式。本體特徵模塊32可 以確定一組一個或更多個單詞(例如,特定單詞或包括單詞的文檔)的 一個或更多的本體特徵,且然後可以在任意各種情況下應用本體特徵。 一個或更多單詞的集合可以包括文檔的關鍵詞條。如果與詞條t相關的前 k個詞條中的至少一個也出現在文檔中,則詞條t可以是關鍵詞條。否則, 詞條對於文檔可能是不關鍵的。
本體特徵是一種量化指標,其在語義學方面沿著可以區分文檔的一 個或更多個特徵軸,將文檔從給定領域的其他文檔中區別開來。例如, 文檔的深度可以在可理解性方面對文檔進行區分,文檔的特異性可以在 其側重點方面對文檔進行區分,且文檔的主題可以在文檔考慮的主題範 圍方面對文檔進行區分。本體特徵可以以任意合適的方式定義。例如, 計算機語言學中的獨立的算法可用於表徵文檔的可讀性或深度。
在所示出的實施方式中,本體特徵模塊32包括深度引擎230、主題 引擎240、特異性引擎244和本體特徵(OF)應用引擎250。深度引擎 230可以確定一個或更多個單詞(例如特定單詞或包括單詞的文檔)的深 度。 一般而言,深度可以指示單詞的原文複雜度。較深的單詞可以較技 術和專業,而較淺的單詞可以較常見。在特定實施方式中,深度模塊32 可以計算文檔的單詞的深度且然後根據單詞的深度計算文檔的深度。在 特定實施方式中,深度引擎230可以為文檔和/或單詞指定深度值和/或深 度等級。可以向較深的文檔或單詞指派較高的深度值或等級,且可以向 較淺的文檔或單詞指派較淺的深度值或等級。
深度引擎230可以以任意合適的方式計算單詞深度。在特定實施方 式中,深度引擎230根據平均相關度計算單詞深度。在實施方式中,單 詞的深度是單詞的平均相關度的函數。較深的單詞可以具有較低的平均 相關度,而較淺的單詞可以具有較高的平均相關度。在特定實施例中, 深度引擎230可以通過根據它們的平均相關度排列單詞而計算單詞的深 度。具有較低平均相關度的單詞可以被給予較高的深度等級,且具有較 高平均相關度的單詞可以被給予較低的深度等級。
在特定實施方式中,深度引擎230可以使用聚類分析計算單詞深度。在實施方式中,聚類的單詞彼此高度相關,但是與聚類外的單詞較少相 關。可以根據相關度測量聚類空間中的距離,所述相關度可以是深度的 指示器。在特定實施方式中,屬於較少聚類的單詞或屬於較小和/或遠離 其他聚類的聚類的單詞可以被認為較深,且屬於較多聚類或屬於較大和/ 或與其他聚類靠近的聚類的單詞可以被認為較淺。
在其他特定實施方式中,深度引擎230可以通過對相關度圖150應 用鏈路分析計算單詞深度。可以通過任意合適的鏈路分析算法(例如 PAGERANK)執行所述鏈路分析。僅用於說明目的,圖6的相關度圖150 可用於計算單詞深度。相關度圖150包括節點154和鏈路158。節點154 代表單詞。節點154之間的鏈路158指示節點154代表的單詞之間的相 關度大於相關度閾值,即,該單詞令人滿意地相關。
在特定實施方式中,深度引擎230計算節點154的普遍性 (popularity)。較普遍的節點154可以代表較淺的單詞,而較不普遍的節 點154可以代表較深的單詞。第一節點154到第二節點154之間的鏈路 136被認為是第一節點154對第二節點154的普遍性選票。另外,來自較 普遍節點154的選票可以比來自較不普遍的節點154具有更大的權重。 而且,第一節點154與第二節點154的相關度加權了該選票。深度引擎 230根據對節點154的加權選票計算節點154的普遍性。較不普遍的單詞 可以被認為較深,且較普遍的單詞被認為較淺。
深度引擎230可以以任意合適的方式計算文檔深度。在特定實施方 式中,深度引擎230根據文檔的至少一個、某些或全部單詞的深度計算 文檔的深度。在特定實施方式中,單詞深度通過平均相關度給定,使得 文檔深度可以根據文檔的單詞的平均相關度計算。例如,文檔的淺度可 以是文檔的單詞的平均相關度平均,即,文檔的各單詞的平均相關度的 總和除以文檔中的單詞的總數。文檔的深度然後計算為文檔的淺度的倒 數。
在特定實施方式中,可以根據文檔的一組選定的單詞的平均深度計 算深度。所選的組可以包括文檔的關鍵性的單詞,諸如最高(最深)的 XX的單詞,其中X可以小於IO、 10至20、 20至30、 30至40、 40至50、 50至60、 60至70或大於10。所選的組可以排除P。/。的標準語法單 詞和/或QX的停頓詞(stop word),其中P和Q具有任意合適的值,諸 如小於10, 10至20、 20至30、 30至40、 40至50、 50至60、 60至70 或大於10。
在特定實施方式中,深度引擎230根據文檔中單詞深度的分布計算 文檔的深度。在特定實施方式中,較深的文檔可以具有較高百分比的較 深單詞。參照圖9更詳細地描述單詞深度的分布的實施例。
圖9是示出了單詞深度的分布的實施例的圖240。圖240示出了具
有特定單詞深度的文檔的單詞的百分比。在特定實施方式中,深度引擎 230可以丟棄超過最大閾值Thmax的單詞深度的單詞。在特定實施方式中, 深度引擎230可以根據具有這樣的單詞深度的單詞計算文檔深度,即該
單詞深度處於大於處理閾值Thpr。e且低於最大閾值Thmax (如果存在)的
處理範圍內。百分比XX代表不處理的單詞的百分比,且百分比YW代表 處理的單詞的百分比。百分比YX可以具有任意合適的值,諸如2%至 5%、 5%至10%、或10%、或更大的範圍的值。在某些實施方式中,深 度引擎230可以根據所選的單詞計算文檔深度。例如,深度引擎230可 以選擇語言中的頻率範圍內的單詞,諸如最前的Z個單詞,其中Z可以 是10,000至50,000、或大於或等於50,000的範圍中的值。
返回圖8,在特定實施方式中,深度引擎230根據文檔相關度計算 文檔深度。文檔之間的相關度描述了文檔之間的關係。在特定實施方式 中,平均文檔相關度可以以類似於平均單詞相關度怎樣指示單詞深度的 方式,指示文檔深度。文檔相關度可以以任意合適的方式定義。在一個 實施例中,公共單詞數P(D, & D》表示文檔D,和D2中都存在的單詞的數 目,而分立單詞數P(D, + D》表示存在於文檔A或D2中的單詞的數目。 文檔D,和D2之間的文檔相關度DocAff可以定義為
DocAff (Dh D2) = P(D, & D2) / P(D! + D2)
深度引擎230可以以類似於計算平均單詞相關度的方式計算平均文 檔相關度。具有較低平均相關度的文檔可以被認為是較深的,且具有較 高平均相關度的文檔可以認為是較淺的。在特定實施方式中,深度引擎230可以通過向文檔相關度圖應用鏈 路分析計算文檔深度。文檔相關度圖可以類似於相關度圖150,只不過文 檔相關度圖的節點代表文檔而不是單詞。深度引擎230使用第二文檔相 對於給定的第一文檔的文檔相關度來加權從代表第一文檔的節點到代表 第二文檔的第二節點的鏈路。然後可以歸一化外向鏈路的權重。
在特定實施方式中,深度圖可以在用戶界面上顯示以顯示文檔的深 度。用於選擇深度級別的深度滑動器也可以被顯示。在某些實施方式中, 如果文檔包括較大文檔的部分,則深度圖可以指示這些部分的深度。
在某些實施方式中,深度引擎230可以以任意其他合適的方式計算 文檔深度,例如處理文檔的相關度直方圖和/或基於深度而截取不同單詞 的百分比然後處理直方圖。其他方法包括Gunning-Fog、 Flesch或Fry方 法。
在特定實施方式中,深度引擎230可以通過映射深度值到特定深度 級別來校準深度。在某些實施方式中,範圍Ri中的深度值可以被映射到 級別Lj。例如,可以將Ro = {ro: ro < c^映射到級別U,,將R, = {r1: C < n
〈CJ映射到級別L,,…,,且將Rn^(IVCn〈1^映射到級別Ln。這些範圍
可以包括任意合適的深度值且不需要是相同的尺寸。可以存在任意合適 的級別數,諸如小於5、 5到7、 7或8、 8到10、 10到20、 20至50、 50 至100或大於100。
主題引擎240可以確定文檔的主題(或題目)。在特定實施方式中, 主題引擎240根據文檔的單詞的聚類確定主題,該聚類可以通過聚類模 塊31識別。如上所述,單詞的聚類可以指出單詞集的主題(或題目)。 文檔的主題可以提供關於文檔的內容的有用信息。例如,例如,包括聚 類{腎臟、腎、蛋白質、問題}的文檔可能與由於腎功能虛弱導致的蛋白 質從腎的流失有關而不是與腎臟(kidneybean)的蛋白質含量有關。
在特定實施方式中,主題引擎240根據主題圖確定主題。在這些實 施方式中,使用任意合適的技術從文檔提取關鍵詞,這些技術例如,詞 頻率-逆向文檔頻率(TF-IDF)技術。關鍵詞用於根據主題圖選擇候選主 題。候選主題與文檔相比較以確定主題與文檔的匹配程度。在特定實施例中,候選主題的直方圖可以與文檔的直方圖比較。如果候選主題與文 檔匹配,則主題可以提供文檔的類型和主題的數目的評估。
特異性引擎240可以計算文檔的特異性。在特定實施方式中,特異 性引擎240可以為文檔指派特異性值和/或特異性等級。較特殊的文檔可 以被指派較高的特異性值或等級,且較不特殊的文檔可以指派較低的特 異性值或等級。
在特定實施方式中,特異性引擎240根據文檔的主題數計算特異性。 在特定實施例中,較特殊的文檔可以具有較少的主題,且較不特殊的文 檔可以具有較多的主題。在特定實施方式中,特異性引擎240根據文檔 的主題數以及這些主題之間的相關度計算特異性。在特定實施例中,較 特殊的文檔可以具有較少的主題,主題之間具有較高的相關度,且較不 特殊的文檔可以具有較多的主題,主題之間具有較低的相關度。
在特定實施方式中,主題數可以取決於深度(或級別)。例如,較淺 深度的單個主題可以代表較深深度的多個主題。在特定實施方式中,用 戶可以使用深度滑動器選擇級別或可以預先確定級別。在特定實施方式 中,級別可以被用戶選擇或者預定義。例如,可以定義任意合適數目的 級別,且可以根據級別計算深度。例如,級別可以是基於領域(例如, 工程、醫學、新聞、體育或金融領域)、基於專業(例如,低血壓、膽固 醇、心病學、眼科學或腎臟專業)、基於課題(例如,體位性低血壓、搭 橋手術或動脈阻斷題目)、基於細節(例如,體位性低血壓、慢性低血壓 或急性低血壓細節)、基於消退(resolution)(例如,老年病因、藥學、 或遺傳消退)、基於個人的(例如,用戶査詢級別)。
本體特徵應用引擎250可以應用本體特徵(諸如深度、主題或特異 性)從而在任意合適的情況下執行本體特徵分析。合適的情況的示例包 括根據本體特徵搜索、分類、推薦或選擇文檔;報告文檔的本體特徵; 且確定一個或更多個用戶的文檔(或文集)的本體特徵。在具體實施方 式中,本體特徵應用引擎250可以使用包括關於本體特徵的信息的索引。 在一個實施例中,本體特徵應用引擎250使用根據深度等級產生和/或維 持的文檔深度(DD)反向索引62。 DD反向索引62包括DD反向索引列表,其中用於單詞的DD反向索引列表列出了包括該單詞的文檔(或頁 面50)的文檔標識符。文檔的文檔標識符可以表示文檔的深度。例如, 用於編碼文檔標識符的二進位編碼可以表示深度。在某些情況下,DD反 向索引列表可以僅列出滿意深度的文檔。在另一實施例中,除了反向索 引62之外,本體特徵應用引擎250還使用等級表和深度表。深度表可以
表示文檔的深度。
在特定實施方式中,本體特徵應用引擎250使用本體特徵的特定值 (諸如文檔深度或特異性的指定值)搜索文檔。特定值可以被預定義、 計算或由用戶選擇。在特定實施方式中,該值可以使用深度滑動器和/或 特異性滑動器選擇。
在特定實施方式中,本體特徵應用引擎250可以使用本體特徵作為 分類標準以分類文檔。例如,本體特徵應用引擎250可以根據文檔深度 和/或相對於主題的特異性以及其他分類標準分類文檔。在某些實施例中, 本體特徵應用引擎250搜索DD反向索引62以獲得根據文檔深度分類的 文檔。在某些實施例中,本體特徵應用引擎250使用非DD反向索引62 搜索文檔且然後根據深度分類文檔。
在特定實施方式中,本體特徵應用引擎250可以向客戶端20圖形地 顯示本體特徵的值。圖形顯示可以提供某些或全部的文檔,例如,搜索 結果的前xy。的文檔。本體特徵可以以任意合適的方式呈現。在某些實施 例中,諸如數字、單詞、或圖標之類的圖形指示符可以指示值。圖形指 示符例如可以靠近搜索結果列表中的項、在線新聞的標題或文檔圖標放 置。在某些實施例中,現有的圖標(iconograph)的變更可以表示值。例 如,圖形指示符或文本的大小、字體、類型、顏色可以指示值。在另一 實施例中,圖表可以指示值。本體特徵直方圖可以包括文檔數量軸和本 體特徵軸,且可以指示特定本體特徵值的文檔數量。例如,包括文檔數 量軸和文檔深度軸的文檔深度直方圖可以指示特定文檔深度的文檔數
在特定實施方式中,文檔特徵應用引擎250可以允許用戶請求搜索 具有特定本體特徵值的文檔。可以允許用戶指定用於查詢的不同單詞的值。在特定實施例中,本體特徵應用引擎250可以為用戶提供選項以選 擇深度,用戶然後可以輸入所選的深度。這些選項可以以任意合適的方 式呈現,諸如以(i)絕對詞條(例如,代表深度的數值或數值範圍);
(ii)相對詞條(例如,搜索結果相對於深度的比例,諸如,"最深的 X%,,); (iii)語義學詞條(例如,'介紹性的'、'淺'、'深'、'很深'和/或'高 度專業,);(iv)圖形詞條(例如,滑動器、按鈕和/或其他圖形元素)或
(V)詞條的任意合適的組合(例如具有語義學標籤的滑動器)。在某些
情況下,滑動器可以包括淺端和深端。用戶可以移動滑動器朝向一端或 另一端以指示所選的深度。當提供搜索結果時,文檔深度直方圖可以通 過滑動器呈現,且可以使用滑動器作為文檔深度軸。
在特定實施方式中,本體特徵應用引擎250可以計算一組一個或更 多個用戶的本體特徵特性。本體特徵特性可以包括用戶深度和主題語境 中的用戶特異性。本體特徵特性描述了與用戶設置相關的文檔的本體特 徵。例如,科學家比三年級學生使用更深的文檔。可以相對於一個或更 多的主題給出本體特徵特性。例如,遺傳學家在遺傳性領域可以比他在 詩歌領域使用更深的文檔。本體特徵特性可用於確定用戶的專業技術、 自動為用戶建立簡歷,且分析用戶社會網絡。
可以分析與用戶相關的任意合適的文檔以評估本體特徵特性,例如, 信件(諸如電子郵件和即時通訊)、網頁和搜索歷史(諸如搜索查詢和選 擇的頁面)。在具體實施方式
中,本體特徵應用引擎250可以隨時間跟蹤 本體特徵特性,且可以使用過去的特性來預測未來的特性。在特定實施 例中,本體特徵應用引擎250可以假設用戶深度和/或特異性一般隨時間 和/或在區域中的活動增加。
在特定實施方式中,本體特徵應用引擎250可以組合某些操作。例 如本體特徵應用引擎250可以監控用戶的深度且然後根據用戶深度搜索 文檔。在一個實施例中,監控用戶深度,且根據該深度,向用戶提供新 聞。未來的用戶深度被預測,且適合該預測出的深度的新聞被提供。
本發明的特定實施方式可以提供一個或更多的技術優點。 一種實施 方式的技術優點可以是可以根據單詞的相關度確定單詞的單詞深度。一種實施方式的另一個技術優點可以是可以根據文檔的相關度確定文檔的 文檔深度。 一種實施方式的另一個技術優點可以是可以執行深度分析。 深度分析的實施例包括獲取滿足要求的文檔深度的文檔,協助顯示指示 了文檔深度的圖形元素,以及根據用戶文檔確定用戶深度。本發明的特 定實施方式可以不包括上述技術優點,包括一些或所有上述技術優點。 根據本文包括的附圖、說明和權利要求,對於本領域技術人員而言,一 個或更多的技術優點是顯而易見的。
儘管己經根據某些實施方式描述了本公開,但這些實施方式的變型 和改變對於本領域技術人員而言是顯見的。因此,實施方式的上述描述 並不限制本公開。在不偏離所附權利要求限定的本發明的精神和範圍的 情況下,可以做出其他變型、替代和變更。
相關申請
本申請要求由DavidMarvit等於2007年10月5日提交的題目為"單 詞深度及文檔深度的確定及應用"的美國臨時申請序列號No. 60/977,782 的優先權。
權利要求
1.一種方法,所述方法包括以下步驟訪問存儲在一個或更多個有形介質中的記錄,所述記錄描述了多個文檔,文檔包括多個單詞,所述記錄對與所述多個文檔有關的多個相關度進行記錄;根據所述多個相關度確定所述多個文檔的至少一個子集中的各個文檔的文檔深度;根據所述文檔深度執行文檔深度分析以便產生結果;以及報告所述文檔深度分析的所述結果。
2. 根據權利要求1所述的方法所述多個相關度還包括所述多個單詞的多個平均相關度。
3. 根據權利要求1所述的方法所述記錄還包括文檔相關度圖,所述文檔相關度圖包括所述多個相 關度,所述文檔相關度圖包括多個節點,每個節點表示文檔;以及 確定所述各個文檔的所述文檔深度的步驟還包括將鏈路分析應用到所述文檔相關度圖,以確定所述多個節點的至少 一個子集的普遍性;如果該個文檔由不太普遍的節點表示,則確定該個文檔較深;以及 如果該個文檔由較普遍的節點表示,則確定該個文檔較淺。
4. 根據權利要求1所述的方法,根據所述文檔深度執行文檔深度分 析以便產生結果的步驟還包括接收檢索查詢,所述檢索查詢包括文檔深度要求;以及 獲取所述多個文檔中的滿足所述檢索查詢和所述文檔深度要求的一 組文檔。
5. 根據權利要求1所述的方法,根據所述文檔深度執行文檔深度分 析以便產生結果的步驟還包括對所述各個文檔的所述文檔深度進行圖形顯示,所述圖形顯示包括 一個或更多個從由圖形指示器、圖形變更、深度滑動塊和深度圖形組成的組中挑選出來元素。
6. 根據權利要求1所述的方法,根據所述文檔深度執行文檔深度分析以便產生結果的步驟還包括接收檢索查詢;獲取所述多個文檔中的滿足所述檢索查詢的一組文檔;以及 對該組文檔進行分類。
7. 根據權利要求1所述的方法 所述多個文檔與一個或更多個用戶相關;以及 確定所述各個文檔的文檔深度的步驟還包括 根據所述多個文檔確定所述一個或更多個用戶的用戶深度。
8. 根據權利要求1所述的方法 所述多個文檔與一個或更多個用戶相關; 確定所述各個文檔的文檔深度的步驟還包括根據來自所述多個文檔的主題確定所述一個或更多個用戶的用戶深度。
9. 一個或更多個編碼有軟體的計算機可讀有形介質,所述計算機可 讀有形介質在執行時可操作以便訪問存儲在一個或更多個有形介質中的記錄,所述記錄描述了多個 文檔,文檔包括多個單詞,所述記錄對與所述多個文檔相關的多個相關 度進行記錄;根據所述多個相關度確定所述多個文檔的至少一個子集的各個文檔 的文檔深度;根據所述文檔深度執行文檔深度分析以便產生結果;以及 報告所述文檔深度分析的所述結果。
10. 根據權利要求9所述的計算機可讀有形介質 所述多個相關度還包括所述多個單詞的多個平均相關度。
11. 根據權利要求9所述的計算機可讀有形介質所述記錄還包括文檔相關度圖,所述文檔相關度圖包括所述多個相 關度,所述文檔相關度圖包括多個節點,每個節點表示文檔;以及所述計算機可讀有形介質還可操作以便通過以下步驟確定所述各個 文檔的所述文檔深度將鏈路分析應用到所述文檔相關度圖,以便確定所述多個節點的至 少一個子集的普遍性;如果該個文檔由不太普遍的節點表示,則確定該個文檔較深;以及如果該個文檔由較普遍的節點表示,則確定該個文檔較淺。
12. 根據權利要求9所述的計算機可讀有形介質,其還可操作以便通 過以下步驟根據所述文檔深度執行所述文檔深度分析以便產生所述結 果接收檢索查詢,所述檢索査詢包括文檔深度要求;以及 獲取所述多個文檔中的滿足所述檢索查詢和所述文檔深度要求的一 組文檔。
13. 根據權利要求9所述的計算機可讀有形介質,其還可操作以便通 過以下步驟根據所述文檔深度執行所述文檔深度分析以便產生所述結 果對所述各個文檔的所述文檔深度進行圖形顯示,所述圖形顯示包括 一個或更多個從由圖形指示器、圖形變更、深度滑動塊和深度圖形組成 的組中挑選出來元素。
14. 根據權利要求9所述的計算機可讀有形介質,其還可操作以便通 過以下步驟根據所述文檔深度執行所述文檔深度分析以便產生所述結果接收檢索查詢;獲取所述多個文檔中的滿足所述檢索查詢的一組文檔;以及 對所述組文檔進行分類。
15. 根據權利要求9所述的計算機可讀有形介質 所述多個文檔與一個或更多個用戶相關;以及所述計算機可讀有形介質還可操作以便通過以下步驟確定所述各個 文檔的所述文檔深度根據所述多個文檔確定所述一個或更多個用戶的用戶深度。
16. 根據權利要求9所述的計算機可讀有形介質-所述多個文檔與一個或更多個用戶有關;所述計算機可讀有形介質還可操作以便通過以下步驟確定所述各個 文檔的所述文檔深度根據所述多個文檔的主題確定所述一個或更多個用戶的用戶深度。
17. —種方法,所述方法包括以下步驟訪問存儲在一個或更多個有形介質內的記錄,所述記錄描述了多個單詞,所述記錄包括所述多個單詞的多個相關度;根據所述多個相關度確定所述多個單詞中的各個單詞的單詞深度以 便產生多個單詞深度;以及報告所述多個單詞深度。
18. 根據權利要求17所述的方法所述多個相關度還包括多個平均相關度,平均相關度指示了關聯詞 的深度;以及確定所述多個單詞中的各個單詞的所述單詞深度還包括 如果該個單詞具有較低平均相關度,則確定該個單詞較深;以及 如果該個單詞具有較高的平均相關度,則確定該個單詞較淺。
19. 根據權利要求17所述的方法所述記錄包括根據所述多個相關度生成的多個聚類,所述多個聚類 包括所述多個單詞;以及確定所述多個單詞中的各個單詞的單詞深度的步驟還包括 如果該個單詞屬於較少較小的聚類,則確定該個單詞較深;以及 如果該個單詞屬於較多較大的聚類,則確定該個單詞較淺。
20. 根據權利要求17所述的方法所述記錄包括相關度圖,所述相關度圖包括所述多個相關度,所述相關度圖包括多個節點,各節點表示單詞;以及確定所述多個單詞中的各個單詞的單詞深度的步驟還包括 對所述相關度圖進行鏈路分析以便確定所述相關度圖的各個節點的普遍性;如果該個單詞由不太普遍的節點表示,則確定該個單詞較深;以及 如果該個單詞由較普遍的節點表示,則確定該個單詞較淺。
21. —個或更多個編碼有軟體的計算機可讀有形介質,其被執行時可 操作以便-訪問存儲在一個或更多個有形介質內的記錄,所述記錄描述了多個 單詞,所述記錄包括所述多個單詞的多個相關度;根據所述多個相關度確定所述多個單詞中的各個單詞的單詞深度以 便產生多個單詞深度;以及報告所述多個單詞深度。
22. 根據權利要求21所述的計算機可讀有形介質 所述多個相關度還包括多個平均相關度,平均相關度指示了關聯詞的深度;以及計算機可讀有形介質還可操作以便通過以下步驟確定所述多個單詞 的所述各個單詞的所述單詞深度如果該個單詞具有較低平均相關度,則確定該個單詞較深;以及 如果該個單詞具有較高的平均相關度,則確定該個單詞較淺。
23. 根據權利要求21所述的計算機可讀有形介質 所述記錄包括根據所述多個相關度生成的多個聚類,所述多個聚類包括所述多個單詞;以及計算機可讀有形介質還可操作以便通過以下步驟確定所述多個單詞 的所述各個單詞的所述單詞深度如果該個單詞屬於較少較小的聚類,則確定該個單詞較深;以及如果該個單詞屬於較多較大的聚類,則確定該個單詞較淺。
24. 根據權利要求21所述的計算機可讀有形介質所述記錄包括相關度圖,所述相關度圖包括所述多個相關度,所述相關度圖包括多個節點,各節點表示單詞;以及計算機可讀有形介質還可操作以便通過以下步驟確定所述多個單詞的所述各個單詞的所述單詞深度對所述相關度圖形進行鏈路分析以便確定所述相關度圖形的各個節點的普遍性;如果該個單詞由不太普遍的節點表示,則確定該個單詞較深;以及 如果該個單詞由較普遍的節點表示,則確定該個單詞較淺。
25. —種方法,所述方法包括-訪問存儲在一個或更多個有形介質內的記錄,所述記錄描述了文檔, 所述文檔包括多個單詞;確定所述文檔的所述多個單詞中的由兩個或更多單詞組成的選定組 的平均單詞深度;以及根據所述平均單詞深度計算所述文檔的文檔深度。
26. 根據權利要求25所述的方法,所述選定組包括所述文檔的兩個 或更多重要單詞。
27. 根據權利要求25所述的方法,所述選定組包括最深的X百分比 的單詞,其中X為50或更大。
28. 根據權利要求25所述的方法,所述選定組包括最深的X百分比 的單詞,其中X為50或更小。
29. 根據權利要求25所述的方法,所述選定組將所述文檔的多個標 準語法詞的百分之P排除,其中P為50或更大。
30. 根據權利要求25所述的方法,所述選定組將所述文檔的多個標 準語法詞的百分之P排除,其中P為50或更小。
31. 根據權利要求25所述的方法,所述選定組將所述文檔的多個停 頓詞的百分之Q排除,其中Q為50或更大。
32. 根據權利要求25所述的方法,所述選定組將所述文檔的多個停 頓詞的百分之Q排除,其中Q為50或更小。
33. —個或更多個編碼有軟體的計算機可讀的有形介質,所述編碼軟 件在執行時可操作以便訪問存儲在一個或更多個有形介質內的記錄,所述記錄描述了文檔, 所述文檔包括多個單詞;確定所述文檔的所述多個單詞中的由兩個或更多單詞組成的選定組 的平均單詞深度;以及根據所述平均單詞深度計算所述文檔的文檔深度。
34. 根據權利要求33所述的計算機可讀有形介質,所述選定組包括 所述文檔的兩個或更多重要單詞。
35. 根據權利要求33所述的計算機可讀有形介質,所述選定組包括 最深X百分比的單詞,其中X為50或更大。
36. 根據權利要求33所述的計算機可讀有形介質,所述選定組包括 最深X百分比的單詞,其中X為50或更小。
37. 根據權利要求33所述的計算機可讀有形介質,所述選定組將所 述文檔的多個標準語法詞的百分之P排除,其中P為50或更大。
38. 根據權利要求33所述的計算機可讀有形介質,所述選定組將所 述文檔的多個標準語法詞的百分之P排除,其中P為50或更小。
39. 根據權利要求33所述的計算機可讀有形介質,所述選定組將所 述文檔的多個停頓詞的百分之Q排除,其中Q為50或更大。
40. 根據權利要求33所述的計算機可讀有形介質,所述選定組將所 述文檔的多個停頓詞的百分之Q排除,其中Q為50或更小。
全文摘要
本發明涉及確定單詞和文檔的深度。在一種實施方式中,確定文檔深度包括訪問描述了文檔的記錄。該記錄對與文檔有關的相關度進行了記錄。根據相關度確定文檔的文檔深度。可以使用文檔深度執行文檔深度分析。在一種實施方式中,確定單詞深度包括訪問描述了單詞相關度的記錄。根據相關度確定單詞的單詞深度。
文檔編號G06F17/30GK101408884SQ200810166170
公開日2009年4月15日 申請日期2008年10月6日 優先權日2007年10月5日
發明者大衛·馬爾維特, 斯特吉奧斯·斯特吉奧, 賈瓦哈拉·賈殷 申請人:富士通株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀