便利內容檢索服務系統內本體和語言模型生成的信息獲取和匯聚方法及子系統的製作方法

2023-12-03 19:58:16 1

專利名稱：便利內容檢索服務系統內本體和語言模型生成的信息獲取和匯聚方法及子系統的製作方法
技術領域：
本發明涉及檢索內容(包括具有音軌的視頻文件)來識別與檢索查詢詞和短語相關的內容部分，並且具體地涉及內容檢索服務系統的信息匯聚和分類組件，其採用本體和副本以對內容檢索服務的檢索服務組件用於向內容檢索服務系統客戶端呈遞檢索結果的副本進行評分。
背景技術：
在早期的計算中，信息一般被編碼為格式化的字母數字字符串，或者編碼為信息儲存單元(通常是字節)的未格式化有序序列。隨著計算硬體、作業系統和計算機應用一齊演進，開發了很多不同類型的信息編碼，並且現在大量不同類型的信息慣常以電子方式編碼、儲存、交換和呈遞以供用戶訪問，包括文本文件、特殊格式的專用文件、音頻記錄、視頻記錄以及多媒體呈現。儘管在早期的計算中數據曾主要是被呈遞為顯示於單色M行終端上的字符串，但是當前電子編碼並通過計算機系統發布的很多不同類型信息通過各種不同的應用程式被呈遞以向人類用戶呈現，所述應用程式包括文本和圖像編輯器、視頻播放器、音頻播放器和網絡瀏覽器。一種重要類別的信息包括被編碼為依序被呈遞以向人類用戶顯示或呈現的有序信息單元序列。MPEG編碼的視頻文件是順序信息編碼的一種例子。MPEG編碼採用多種著實複雜的多層不同類型編碼方法來壓縮編碼一個或多個視頻流和/或音頻流。一般來說，視頻幀是按次序從MPEG編碼視頻文件逐幀重構的。對MPEG編碼視頻文件的呈遞提供視頻幀流和音頻流。呈遞應用和設備一般允許用戶開始或繼續視頻文件的呈遞，停止視頻文件的呈遞，以及快進或快退到視頻流中的選定位置。在很多情況下，用戶可能僅對視頻呈現中的某部分感興趣。例如，特定用戶可能僅對本地電視新聞廣播中包括的天氣預報感興趣，而所述本地電視新聞廣播除了天氣預報以外還包括對當前本地和全國事件的評論、對體育事件的評論以及對人們趣味故事的呈現。在很多情況下，視頻呈現可能並未按段索引以便利對用戶感興趣的視頻呈現部分進行直接訪問，或者可能以非常粗略的話題粒度進行索引，需要用戶採用通過相對粗糙的技術開始、停止、前進和後退視頻流的不定(hit-or-miss)策略來定位感興趣的部分。除了編碼的視頻外，存在很多其他類型的順序信息編碼，它們被依序呈遞給人們的感官，包括純音頻記錄、各種類型的多媒體呈現、書籍和文本文檔中頁的圖像以及其他這樣的信息編碼。在很多情況下，當前檢索人類用戶感興趣的編碼信息部分被限於視頻呈遞應用和很多視頻信號呈遞設備的用戶所熟悉的上述停止/開始/前進/和後退操作。呈遞順序信息編碼來向人類用戶、設計師、實施者、供應商以及信息呈遞應用(包括媒體播放器、網絡瀏覽器和控制程序)用戶，以及很多其他涉足記錄、傳播和呈遞信息的人進行呈現的計算機和其他電子設備的設計師及製造商已經認識到對於更有效的檢索工具的需求，以允許用戶識別和高效地訪問這些信息的受眾所感興趣的信息編碼部分。響應於這些需求，已經開發了內容檢索服務系統。本發明的各個實施例包括該內容檢索服務系統的組件和子系統。內容檢索服務系統接收和/或定位並獲取內容檢索服務系統客戶端電子可獲得的各內容項，並且準備這些內容項或這些內容項的部分的內部表示，以使得內容檢索服務能夠以圖形方式呈遞內容檢索服務系統響應於內容檢索服務系統客戶端所作檢索請求而生成的檢索結果。內容檢索服務系統的設計師、開發者和製造商，以及內容檢索服務提供商和內容檢索服務系統與內容檢索服務所提供服務的用戶，均已經認識到對高效和準確的內容檢索服務組件的需求，以便利快速而準確地響應從採用內容檢索服務系統的內容檢索服務客戶端接收的指向內容項的檢索請求。

發明內容
本發明的各個實施例包括內容檢索服務系統的信息匯聚和分類組件，該信息匯聚和分類組件從信息源得到信息，匯聚並標準化所得到的信息，並且分類所得到的信息，之後將經標準化和分類的信息進行儲存以供內容檢索服務系統的語言模型構建器組件和本體構建器組件使用。本發明另外的實施例包括本體構建器組件，該本體構建器組件針對特定日期、日期/時間、日期範圍或日期/時間範圍並且針對特定種類從經標準化和分類的信息來建立本體。

圖1說明內容檢索服務系統向客戶端提供檢索服務。圖2說明內容呈遞應用界面。圖3根據本發明的實施例說明添加到圖2所示內容呈遞應用界面的熱圖 (heat-map)檢索結果顯示。圖4提供代表本發明一個實施例的內容檢索服務系統的框圖表示。圖5根據本發明一個實施例說明本體。圖6根據本發明一個實施例示出「動物」種類的示例性詞彙表的一部分。圖7根據本發明一個實施例說明本體的mXm表示。圖8根據本發明一個實施例示出本體的列表表示。圖9示出本發明一個實施例中使用的本體表示的一部分。圖10根據本發明一個實施例說明副本的一種實現。圖11根據本發明一個實施例說明副本的替換性表示。圖12說明代表本發明一個實施例的CSS的概念服務組件(圖4中的408)的操作。圖13根據本發明一個實施例說明被評分的副本的一個實施例。圖14提供代表本發明一個實施例的CSS系統的信息匯聚器和分類組件的高層框圖。圖15說明網絡抓取器(web crawler)的操作。圖16A-B說明本發明一個實施例中採用的文檔過濾和標準化方法。
6
圖17示出從圖16B示出的標準化文本文檔生成的詞語向量(term vector)。圖18示出一種倒排關鍵詞索引的邏輯結構。圖19根據本發明一個實施例說明累積詞語分布。圖20說明IAC組件的文檔分類器子組件的功能。圖21說明IAC組件的信息匯聚器子組件的操作。圖22說明IAC組件的分檔分類器構造器子組件的操作。圖23提供CSS系統的本體構建器組件的控制流程圖。
具體實施例方式在用於向客戶端提供內容檢索服務的內容檢索服務系統內採用本發明的實施例。圖1說明內容檢索服務系統向客戶端提供檢索服務。客戶端102 —般是用戶用來通過內容呈遞應用(例如網絡瀏覽器所調用的視頻呈遞程序)查看內容提供商系統106所提供的內容104的個人計算機或工作站。為了便於高效地查看內容，用戶向顯示於客戶端計算機上的文本鍵入特徵108鍵入包括檢索詞或檢索短語的檢索查詢，並且調用針對內容相關部分所呈遞的內容檢索。在本發明的某些實施例中，檢索查詢可以可替換地由用戶預定義或者針對用戶預定義以便利用戶檢索。檢索詞或者短語被傳輸110到內容檢索服務系統112並且被內容檢索服務系統處理，以便返回114內容116特定部分與檢索詞或檢索短語相關性的圖形呈遞。客戶端計算機的用戶可以通過額外的檢索事務118-119針對額外的檢索詞或者短語進行額外的檢索。一般來說，呈遞給用戶的內容是這樣一種內容，其不像文本文件，不能使用普遍可用的檢索工具(例如文本編輯器中提供的檢索設施)被容易地檢索以便於找到用戶尤其感興趣的內容部分。在下面的討論中，假設內容是具有伴音軌道的視頻文件，例如新聞服務或體育服務通過網際網路提供給訪問用戶的新聞廣播或體育廣播。然而，其中可以實現和採用本發明實施例的內容檢索服務系統可以為各種不同類型的內容(包括各種類型的音頻內容)提供檢索服務，服務範圍從多媒體呈現到各種類型的圖像、圖形和音樂選擇。一般來說，內容提供商106向內容檢索服務系統112提供內容項進行預處理，以便於對指向該內容項的後續客戶端檢索請求進行快速響應。然而，在可替換的實現中，內容檢索服務系統可以並發地接收內容項和從客戶端接收檢索短語或檢索詞，處理內容項以準備檢索內容，進行檢索請求，以及實時地向用戶呈遞結果。一般來說，客戶端系統不同於內容提供商系統和內容檢索服務系統二者，但是內容提供商、客戶端和內容檢索服務有可能可以全部並發或同時在單個計算機系統或分布式計算機系統內進行執行。圖2說明內容呈遞應用界面。視頻顯示在基於網頁的視頻剪輯查看界面或可攜式設備圖形用戶界面(「GUI」)212所提供的視頻屏幕210內。該設備界面或網頁提供文本鍵入窗214，該文本鍵入窗214允許用戶輸入充當檢索準則的文本，以找到期望的視頻來觀看、將每個檢索的結果顯示在結果窗216中，所述結果窗216可以通過向上滾動按鈕218和向下滾動按鈕220滾動，並且可以從該結果窗216選擇視頻進行顯示。此外，進度顯示222 在呈遞視頻剪輯期間向用戶顯示對正被顯示的視頻剪輯中當前位置的指示，其中視頻剪輯的整個長度由水平條2M表示而視頻剪輯內的當前位置由位置指示器2 相對於水平條的位置來指示。在圖2中，位置指示器2 指示當前顯示的視頻幀在整個該視頻剪輯的25%位置處。用戶界面提供用於開始和停止視頻剪輯顯示的開始/停止按鈕228，以及允許用戶查找視頻剪輯內不同位置而無需觀看中間幀的快退按鈕230和快進按鈕232。圖3根據本發明的實施例說明添加到圖2中所示內容呈遞應用界面的熱圖檢索結果顯示。該熱圖檢索結果顯示可以由從內容檢索服務系統下載的客戶端側檢索結果呈遞應用提供。圖3示出圖2所示視頻剪輯查看界面的導航按鈕和進度顯示，以及額外的檢索結果顯示特徵。快退按鈕130、快進按鈕132和開始/停止按鈕1 在該可視界面中具有與針對圖2所示視頻剪輯查看界面的這些界面特徵所描述功能等同的功能。進度顯示IM和 126也具有與圖2所示視頻剪輯查看界面的進度顯示等同的功能，只是其不是如圖2中那樣示出簡單的純色水平條來表示視頻剪輯的長度，而是在進度顯示的水平條124內疊加相關性功能的熱圖類表示。在該熱圖類表示中，較深的陰影表示較大量的相關性度量或者評分。該可視界面還包括兩個參數指明特徵302和304，它們允許用戶通過分別沿柱310和 312滑動指示器按鈕306和308來指明在相對於用戶在檢索準則鍵入窗316中指明的檢索準則314為信息編碼內的位置計算相關性度量或評分時要採用的閾值和平滑程度。在圖3 所示的實例中，進度顯示組件的水平條1 表示視頻剪輯的長度，並且人們可以通過對疊加於水平條124的熱圖的可視檢視容易地確定與當前指明檢索準則相關的內容最可能在位置320、322和324找到。更簡單的可視界面可以僅包括相關性功能的熱圖類表示，並且可以依賴於現有GUI的選擇特徵來輸入檢索準則。更複雜的可視界面可以包括額外的選擇特徵來允許用戶指明額外的參數，所述參數控制可視界面的顯示以及相關性功能的計算，包括例如主題域。當然，對於所有可視界面，存在可以用來提供對參數、檢索準則和其他輸入數據的用戶輸入的很多不同方式和類型的選擇與輸入特徵。另外，可視界面可以支持多種方法來輸入任何特定輸入數據。例如，在圖3所示的可視界面中，用戶能夠通過使用快退和快進按鈕、通過移動位置指示器或者通過在將指針移動到進度顯示組件水平條內一位置所表示的位置後輸入滑鼠點擊，來選擇開始或繼續信息編碼呈遞的位置。圖4提供代表本發明一個實施例的內容檢索服務系統的框圖表示。內容檢索服務系統(「CSS系統」)402包括檢索服務組件404，其從客戶端接收檢索請求，並且以運行於客戶端計算機上的檢索結果呈遞應用所呈遞的檢索結果進行響應。在本發明的一個實施例中，檢索請求和對檢索請求的響應是根據網絡服務協議通過網際網路在可擴展標記語言 (「XML」)消息中被接收406和發送407的。檢索請求包括內容標識符(「內容ID」)以及包括檢索詞或檢索短語的檢索查詢。這些項均被檢索服務組件404傳給概念服務組件 ("CS組件」)408進行處理。CS組件408向檢索服務組件404返回評分的副本412或副本的評分部分，該檢索服務組件404使用所述評分的副本以及可選地使用概念服務組件返回的詞彙表產生在客戶端計算機上呈遞給用戶的檢索結果信息。在所描述的本發明的實施例中，評分的副本或部分評分的副本是元組的時間排序列表，每個元組包含詞語或短語的指示、呈遞媒體內容項期間出現該詞語或短語所經過的時間，以及指示該詞語或短語與CS組件所接收的檢索查詢相關度的評分。CS組件訪問本體儲存器414、提取內容數據組件416 和媒體數據服務418，以便於獲得本體、副本，以及CS組件對返回給檢索服務組件404的副本進行評分所需的其他信息。在所描述的本發明的實施例中，本體是詞語和短語的全連通圖。該圖的每個節點代表詞語或短語，並且該圖的每條邊代表在收集的信息中觀察到的由該邊連接的節點所代表詞語或短語的同現(co-occurrence)關係，所述收集的信息被分析來產生所述本體。為每條邊指派一權重，該權重反映該邊所代表的同現關係的強度，並且權重是從被分析來產生本體的所述收集信息得出的。本體儲存器414包括例如本體422的多個本體，其描述各個主題種類的詞之間的同現關係。本體還是加有日期戳或者日期/時間戳的，因為本體隨著時間針對任何特定主題而改變，並且對於準備檢索結果來說，日期/時間戳指示自內容項數據被檢索起合理時間偏離量內日期的本體是最有用的。提取內容數據組件416為CSS系統已經預處理過的每個內容項儲存一個或多個副本426。媒體數據服務 418儲存與每個預處理的內容項相關的信息，包括該內容項所屬主題的種類，以及該內容創建或接收的日期或者日期和時間。CSS服務還包括內容服務組件430，該內容服務組件430從遠程內容提供商接收內容項，或者檢索、找到並且獲取內容提供商提供的內容項，並且將所述內容項供應給內容處理器組件432，該內容處理器組件432準備每個已處理內容項的一個或多個副本似6並在提取內容數據組件416中儲存每個已處理內容項的一個或多個副本426。內容處理器432 訪問儲存於語言模型儲存器436中的語言模型(例如語言模型434)，以便於處理給定內容項。內容處理器組件432還將關於內容項的另外的信息存放在媒體內容服務組件418中。在所描述的本發明的實施例中，副本是音軌或者音頻文件的基於文本的副本，這是由內容處理器組件的自動語音識別子組件進行的。在本發明的可替換實施例中，文本副本可以從其他類型的媒體內容來準備，包括內容處理器組件的計算機視覺子組件準備的靜止或運動圖像的描述性副本。信息匯聚器和分類器組件440連續或者間隔地抓取網際網路和文檔、文本文件的其他信息源上可獲得的信息，以及與內容項可以被指派的各種不同種類相關的其他信息項。信息匯聚器和分類器組件440將認為對CSS系統有用的那些信息項按種類分類，並且將每個種類和特定日期與時間範圍的信息項儲存到歸類信息儲存組件442中。這些信息項被信息匯聚器和分類器組件處理，以移除不必要信息，在語言上對詞語和短語進行標準化，並且計算與信息項相關聯的各個參數和值，所述各個參數和值既被信息匯聚器和分類器組件用來分類所述項又被語言模型構建器組件444和本體構建器組件446使用，所述語言模型構建器組件444和本體構建器組件446使用儲存於歸類信息儲存組件442中的信息項來分別建立語言模型和本體。圖5根據本發明一個實施例說明本體。圖5是僅包含很少項的簡化本體。實際針對有用信息種類準備的本體可以包含數百、數千或者數百萬個詞語和短語。在圖5中，六個項中的每一個由橢圓節點表示，例如橢圓節點502表示詞語「蛇」。每個可能的詞語對，例如詞語對「蛇」 502和「皮膚」 504,通過兩道弧線互連，例如弧線506和508將詞語502和504 互連。這兩道弧線形成雙向對，該對的一道弧線從第一詞語或短語(該道弧線的源詞語或源短語)指向第二詞語或短語(該道弧線的目標詞語或目標短語)，而該對的第二道弧線從第二詞語或短語指向第一詞語或短語。每道弧線被標以範圍W.0，1.0]內的數值。該數值是歸一化的同現度量，指示該弧線的目標詞語或短語與該弧線的源詞語或短語同現的頻率。因此，在圖5中，弧線506指示詞語「蛇」以相對低的頻率與詞語「皮膚」同現，而詞語「皮膚」以稍高的頻率與詞語「蛇」同現。互連兩個詞語或短語的雙向弧線對中兩道弧線的同現度量並不相等的事實，反映出所述詞語或短語的不同分布以及所述詞語或短語在從其準備本體的很多信息項中不同的出現次數，以及這兩個詞語或短語的不同標準化。回頭參照圖4，本體(例如圖5中所示的簡單本體)是由CSS系統的本體構建器組件446通過分析大量與特定種類相關並且在特定時間間隔上收集的信息項來準備的。因此，每個本體，例如圖 5說明的本體，是與特定信息種類相關聯的，並且帶有與被本體構建器組件用來建立本體的信息項被CSS系統402的信息匯聚器和分類器組件440收集時的日期或日期時間分別對應的日期戳和/或日期/時間戳。每個本體在物理或者概念上與一詞彙表相關聯。該詞彙表也是從CSS系統的信息匯聚器和分類器組件(圖4中的440)收集的信息項準備的。在某些實施例中，一個信息種類的詞彙表是由CSS系統的語言模型構建器組件(圖4中的444)準備的，並且被儲存在語言模型儲存器(圖4中的436)中。在本發明的其他實施例中，詞彙表可以由本體構建器組件(圖4中的446)構造並且儲存在本體儲存器(圖4中的414)中，而在可替換的實施例中，詞彙表可以由CSS另外的組件構造。在本發明的一個實施例中，詞彙表包括在與特定信息種類相關的信息項中常出現的名詞或名詞性短語的列表。例如，可以預期體育種類的內容項包括諸如「球棒」、「壘」、「投手」、「四分衛」「門柱」、「橄欖球」、「標槍」、「輪滑」的名詞以及其他這樣的名詞和名詞性短語。由於程序方式處理諸如字符串的符號串是效率低下的，因此在實現CSS系統的組件時，詞彙表中的每個詞語或短語以整數值來表示。圖6根據本發明一個實施例示出種類「動物」的示例性詞彙表的部分。如從圖6中可以看到的，每種動物名稱的字符串表示(例如字符串「食蟻獸」602)與構成信息種類「動物」的詞彙表的表606中一小整數值(例如值「96」604) 相關聯。使用該表，字符串「短吻鱷」608通過表查找操作被容易地翻譯為整數「462」610。對於任何計算處理並電子儲存的數據，可以以字母表順序和/或數字順序對詞彙表排序，並且可以額外地與索引或其他額外信息相關聯，以允許在表中快速地定位和訪問詞語和短語。儘管將本體表示為如圖5所示包括由弧線互連的詞語和短語節點的圖是方便的，但是當將本體表示為mXm的陣列時，可以更容易地計算處理本體，其中m是特定詞彙表中詞語和短語的數量。圖7根據本發明一個實施例說明本體的mXm表示。mXm陣列702包括m2個單元，每個單元(例如單元704)包含標示弧線的一個或多個同現度量，所述弧線例如圖5中從第一本體節點(例如圖5中的節點502)始發並指向第二本體節點(例如圖5 中的節點504)的弧線508。單元的行索引指示與弧線始發的第一節點對應的整數值，而單元的列索引指示該弧線指向的第二節點。單元704具有陣列索引(5，m-1)，指示該單元中包括的同現度量(例如圖7中的度量「0，20」 706)，標示從整數「5」指明的詞彙表詞或短語指向整數m-1指明的詞彙表詞或短語的弧線。圖7中所示本體的mXm表示是一種有用的抽象，但是一般來說還是計算上效率低下的。該表示效率低下的一個原因是，對於實際本體來說，低於閾值的同現度量被視為是無意義的，並且均被指派以諸如值「0. 0」的最小值。因此，圖7中所示mXm陣列一般是非常稀疏的。為此，並且為了便於快速訪問詞彙表特定詞和短語的特定同現度量，通常將本體表示為列表。圖8根據本發明一個實施例示出本體的列表表示。在圖8中，列表802的每個元素(例如元素804)被表示為包含三個單元的行。行804的第一單元806是本體圖形表示中弧線的目標的數字表示，而第二單元808是本體圖形表示中弧線的源，而第三單元810 包含對該弧線所標示的同現度量。列表802中僅包括具有非零度量的條目，解決了與本體mXm陣列表示相關聯的稀疏問題。列表中的每個條目表示本體的單個弧線。如通過圖8中條目第一單元中的值容易看出的，在圖8中，條目以相對於儲存於每個條目第一單元中值的升序而儲存。這種組織便利了對與本體圖形表示中弧線指向的特定詞語或短語相關聯條目的訪問。在某些實施例中，可以另外相對於儲存於每個條目第二單元中的值而儲存，並且在再另外的實施例中，本體的列表表示可以伴隨有一個或多個參考表或索引表，以便利對本體特定條目的快速訪問。在實踐中，即使是圖8中所示的本體列表表示也可能是稍抽象的。在本發明的一個實施例中，本體包括針對每個條目的用於計算同現度量的原始數據，而非計算出的同現度量。圖9示出在本發明一個實施例中使用的本體表示的部分。該本體被表示為列表902，類似於圖8中說明的列表表示。然而，取代於如圖8中包括單個計算出的同現度量，在本發明一個實施例中，圖9中列表的每個條目包括三個數值904-906，所述數值對儲存於條目第一元素908中值所表示的詞或短語在與該條目第二單元910中所儲存值表示的詞或短語所在大量收集並處理的信息項的相同信息項內或這些信息項的子單元或子段內出現的次數進行編碼，所述大量收集並處理的信息項對應於準備該本體所針對的信息種類。在當前的討論中，內容項是包括音軌的視頻文件。在本發明的一個實施例中，檢索是由CSS系統在視頻文件音軌上使用用戶輸入的詞語和短語排他地進行的，以找到在音軌的時間點上出現的這些詞語或短語或者相關的詞語或短語。因此，音軌的部分可以被識別為與檢索詞相關並且是用戶特別感興趣的。音軌的這些部分又可以與這樣的視頻圖像相關，在通過視頻文件呈遞應用向用戶呈現視頻文件時，所述視頻圖像在音軌的所述部分被呈遞的時間間隔內顯示。在這些實施例中，副本(圖4中的426)實質上是與詞語或詞語短語在向用戶呈遞音軌期間在所述音軌中出現的時間或時間間隔相關聯的詞語或短語出現的列表。圖10根據本發明一個實施例說明副本的一種實現。在圖10中，一維陣列1002 中的每個單元(例如單元1004)要麼是空白的，指示在該時間間隔期間未識別出詞或短語，要麼包含從與內容項種類相關聯的詞彙表選擇的詞或短語的數字表示，所述副本是根據所述內容項而準備的。在副本的該實施例中，每個單元代表固定的短時間間隔，從而一維陣列 1002代表呈遞視頻文件音軌的時間線(time line)。圖11根據本發明一個實施例說明副本的替換性表示。在圖11中，副本被表示為列表或二維陣列，其每個條目或者行包含指示來自詞彙表的詞或短語的數值(例如數值1102)，以及所述詞或短語在音軌中出現的相關聯時間(例如時間1104)，這兩者均在條目1106中。很多替換性的副本表示是可能的。圖12說明代表本發明一個實施例的CSS的CS組件(圖4中的408)的操作。CS 組件從代表本發明一個實施例的CSS的檢索服務組件(圖4中的404)接收內容ID 1202 和檢索查詢1203。該內容ID —般是數字標識符，或者字母數字串，其唯一地標識特定的內容項。在本發明的一個實施例中，特定的內容項是這樣的邏輯內容項，其可以封裝多個不同的分立內容編碼，包括例如特定視頻的多種不同MPEG編碼，每種編碼具有根據編碼信號的帶寬或每秒千比特數所指明的不同解析度。所有不同的編碼均是視頻的替換性表示，並且因此通過單個公共內容ID標識。CS組件使用內容ID 1202來訪問媒體數據服務組件(圖 4中的418)，以獲得該內容項的種類ID 1204以及該內容項的日期/時間1206。CS組件另外訪問本體儲存器(圖4中的414)，並且在某些實施例中，訪問語言模型儲存器(圖4中的436)，以便於獲得該內容項適當的本體1208和詞彙表1210。使用該本體和詞彙表1208和1210，並且使用各種語言處理規則和例程，CS組件隨後處理所接收的檢索查詢1203，以生成一個或多個詞語或短語列表1212和1214。首先，使用語言例程，針對拼寫錯誤糾正檢索查詢，並且標準化該檢索查詢來產生修改的檢索詞語或短語1216，所述語言例程也被本體構建器用來從收集的信息構造本體。隨後處理修改的檢索查詢1216，以提取在內容ID 1202所標識內容項所屬種類的詞彙表中出現的那些詞。該種類由從媒體數據服務組件獲得的種類ID 1204標識。每個列表1212和1214包括檢索詞語或短語，以及另外如從本體 1208獲得的相關檢索詞語或短語。該列表中的每個詞語或短語與從本體提取的同現度量值相關聯。在圖12所示的實例中，在本體中找到詞語「汽油」、「汽車」、「蛇」和「皮膚」與檢索詞語「石油」相關，並且因此把它們包括在針對檢索詞語「石油」的列表1212中。類似地，列表1214包含檢索詞語「汽車」，並且另外包含相關詞語「汽油」和「石油」。所述相關詞語或短語是從本體從其中檢索查詢詞語或短語作為本體條目中第一值出現的那些條目(參見圖8和9)獲得的。一旦已經準備了列表，CS組件隨後訪問提取內容數據組件(圖4中的 416)以獲得內容項的副本1218。CS組件隨後使用列表1212和1214向副本1218的在該內容項所屬種類的詞彙表中出現的那些詞語和短語指派同現度量，以產生評分的副本1220。在本發明一個實施例中，CS服務隨後將評分的副本和內容ID，以及可選地將修改的檢索短語1216和對詞彙表的參考返回給CSS系統的檢索服務組件(圖4中的404)。檢索服務組件隨後進一步處理該評分的副本，以將檢索結果呈遞給用戶。圖13根據本發明一個實施例說明評分的副本的一個實施例。該評分的副本為元組的列表，在圖13中其每個元組以行表示，例如行1304。每個元組，例如元組1304，包括詞或短語的數字表示、所述詞或短語在音頻副本中出現時所經過時間指示，以及針對所述詞或短語計算的評分。一般來說，所述評分是從用於對該副本進行評分的本體獲得的一個或多個同現度量的函數。在本發明一個實施例中，所述評分例如簡單地是從本體獲得的同現度量，除非針對其計算評分的詞語或短語在多個列表(例如在圖12的實例中的列表1212 和1214兩者)中出現，在這種情況下，評分可以被計算為與該詞語或短語出現在的任何列表中的該詞語相關聯的同現度量的均值或加權均值。圖14提供代表本發明一個實施例的CSS系統的信息匯聚器和分類組件的高層框圖。該信息匯聚器和分類器(圖4中的440)負責從各種信息源(包括網際網路)收集信息，所述信息隨後被語言模型構建器(圖4中的444)用來構造種類專用的語言模型(圖4中的434)，所述種類專用的語言模型被內容處理器(圖4中的432)用來準備副本(圖4中的似6)，並且所述信息被本體構建器(圖4中的446)用來構造種類專用的本體(圖4中的42 ，該種類專用的本體被CS組件(圖4中的408)用來如上面討論那樣準備評分的副本。IAC組件1402包括兩個主要的子組件(1)文檔分類器構造器子組件1404和信息匯聚器子組件1406。該文檔分類器構造器子組件構造或訓練文檔分類器1408，所述信息匯聚器子組件使用所述文檔分類器1408通過將每個文檔指派到一個種類來分類從信息源獲得的文檔，並且隨後逐種類地匯聚從文檔收集的信息。如圖4所示，IAC組件使用歸類信息儲存組件(圖4中的442) 1410來臨時儲存文檔並最終儲存本體構建器和語言模型構建器所使用的經處理文檔包。IAC組件從網際網路並且潛在地從其他信息源(包括在線資料庫、簡易信息聚合(「RSS」)種子和另外類型的電子編碼信息源)請求信息1412並且接收請求的信息 1414。在描述IAC組件的信息匯聚器子組件和文檔分類器構造器子組件之前，首先描述這些子組件所採用的各種模塊和功能。圖15說明網絡抓取器的操作。如熟知網際網路和網際網路瀏覽的人們所公知的，被編碼為超文本標記(「HTML」)文件的網頁(例如網頁1502)通過包括於網頁中引用其他網頁的超連結組織為複雜的圖。當前，通過普遍可獲得的網絡瀏覽器訪問網際網路的用戶可以潛在地訪問數億或數十億不同的網頁。正常地，用戶使用搜尋引擎檢索感興趣的話題，所述搜尋引擎返回該搜尋引擎確定與用戶感興趣話題相關的網頁通用資源定位符(「URL」)列表，並且隨後開始訪問初始URL列表所標識的網頁，通常是通過被包括在所顯示網頁中的超連結從初始查看的網頁導航到另外的網頁。圖15示出網際網路非常小的部分，其中連結網頁的超連結被示為箭頭(例如箭頭1504)，而網頁示為該圖的方形節點。第一網站1506可以包括網頁1502和1508-1510，其中網頁1508-1510連結自該網站的首頁1502。網站1506 的網頁1509可以包含去往第二網站1514首頁1512的超連結1504。該第二網站內的網頁 1516-1517又可以分別包含去往另外的網站1520和1522的超連結1518和1519。網際網路的圖太過複雜而不能表示任何一種可視顯示，其中很多網站包含數百個網頁以及成百上千個內部超連結和去往外部網站的超連結。網絡抓取器是一種自動軟體程序，其被設計來訪問網際網路，以多個種子URL指明的多個網頁開始，並且隨後從所述URL全面向外導航，以收集通過從初始的種子URL開始遍歷超連結直到某連結深度所能訪問的所有網頁。例如，在圖15中，網絡抓取器可以以地址分別為兩個種子URL1530和1532的兩個網頁1502和1534開始。在圖15中，各個超連結 (例如超連結1504)被標記有該超連結相對於從以兩個種子URL 1530和1532為地址的兩個網頁1502和1534開始的檢索的深度。因此，例如，在深度1找到網頁1508，其從抓取的初始網頁1502直接連結，而網頁1517出現在從初始種子URL 1530和1532起深度為5之處。由於該圖的複雜性，很多網頁(例如網頁1502)在抓取期間可能被多次訪問。由於因特網網頁結構的複雜性、密度和數量，包括在每個連續抓取深度中的網頁數量可能超指數地增加。可以將網絡抓取器設計為按照附加參數指明的那樣進行各種類型的定向檢索。一般來說，網絡抓取器將與所訪問網頁對應的HTML文件存放在大數據文件或資料庫中。可替換地，網絡抓取器可以在未提供種子URL時在網絡空間中以隨機選擇點開始檢索。本發明的實施例採用過濾和標準化方法來將從網際網路獲得的HTML文件和其他文檔處理成可以用來建立語言模型和本體的壓縮的、語言標準化的文檔。圖16A-B說明在本發明一個實施例中採用的文檔過濾和標準化方法。在圖16A中，示出對HTML編碼的網頁 1602的呈遞。該網頁包括文本1604、. jpg圖像1606，以及各種非文本的圖形和符號，例如項目符號1608和水平線1610。圖16A中示出的網頁1602是非常簡單的網頁。現今，很多網頁包含各種不同類型的特徵、控制、圖像和非本文項，並且可以另外包括可執行的腳本和例程。在初始的一系列步驟中，代表本發明一個實施例的過濾器將網頁的HTML編碼轉變1612為簡單得多的段句分界的文本文件1614。如圖16A中可以看到的，已經從初始HTML 文件移除了所有非文本項，以產生段句分界的文本文件1614，並且保留文本已經被分塊為段落1616-1618，其中每個段落又分塊為句子，例如段落1616的句子1620-1621。在圖16A
中，段落被標記為「P1」、「P2」和「P3」，而每個段落中的句子被標記為「S1」、「S2」.......接
下來，如圖16B所示，段句分界的文本文件隨後通過一系列語言例程被轉變1620，以識別所有詞的詞性(part of speech)，並且移除不是名詞的詞，以產生僅有名詞的文本文檔1630。在該僅有名詞的文本文檔中維持所述段句分界的文本文件(圖16A中的1614)的段落和句子結構。接下來，該僅有名詞的文本文檔1630通過一系列過濾和語言標準化步驟被轉變 1632為標準化文檔1634。使用被認為對語言模型構建器和本體構建器無用的詞的大列表來從該僅有名詞的文本文檔1630移除這些詞的出現。該應當移除的詞的列表可以根據各種統計和其他考慮來準備。例如，已知在多種內容中相對高頻出現的詞一般不能提供與用戶相關的媒體內容的這些部分的顯著區分。另外，可以針對用戶查詢收集統計數據，並且可以從被收集來建立一種類的本體的僅有名詞的文本文檔中移除在指向特定查詢媒體內容的檢索查詢中一般不會遇到的詞和短語。另外，採用語言例程通過例如將所有大寫字符變為小寫字符、將任何複數名詞變為其單數形式以及在某些情況下以衍生名詞的詞根替代衍生名詞來標準化每個名詞。如在圖16B中可以看到的，標準化文本文檔遠比圖16A中呈遞為網頁1602的初始HTML文件更結構化、更簡單。標準化文本文件1634包含的恰是對於在所描述的本發明實施例中的語言模型構建器和本體構建器有用的信息。可以向標準化文本文檔應用索引器來生成額外的有用信息。圖17示出從圖16B所示標準化文本文檔生成的詞語向量。在圖17中，標準化文本文檔1702被示出在詞語向量的二維陣列1704表示之上。該詞語向量針對在標準化文本文檔中出現的每個唯一詞語包括一個條目，例如針對詞語「chart(圖表)」的條目1706。如上面討論的，詞語向量中的每個條目包括詞語的符號表示(例如符號串「chart」)，或者從詞彙表選擇的詞語的整數值。每個條目還包括該詞語在文檔中出現的次數。通過某些索引器從標準化文本文檔編制並且提供的另一信息編制物是倒排關鍵詞索引。圖18示出一種倒排關鍵詞索引的邏輯結構。倒排關鍵詞索引可以包含一個標準化文本文檔或者標準化文本文檔集中詞語的出現頻率相關的信息。圖18示出文本文檔集的倒排關鍵詞索引。該倒排關鍵詞索引包括哈希表1802，該哈希表可以被用來快速識別針對在該文檔集中遇到的每個詞語編制的出現頻率信息。可以從詞「armadillo (犰狳)」計算哈希值1804，或者可以使用從詞彙表選擇的詞「armadillo」的數值來計算哈希表1806中的數值或對條目的引用。該條目包含指向哈希為特定哈希表條目或者容器(bin)的一個或多個詞語的一個出現頻率信息或出現頻率信息列表的指針。在圖18所示的實例中，哈希表條目1806對應於詞「armadillo」1808和詞「piano (鋼琴)」 1810。從哈希表引用的對應於詞語「armadillo」的第一詞語節點1808又引用包括詞語「armadillo」的文檔節點1812-1815 的列表。每個文檔節點又引用段落列表，例如與文檔1815相關聯的段落節點1818-1819，該段落列表代表給定文檔中出現該詞語的所有段落。所述段落節點然後又可以引用句子節點或連結的句子節點列表，所述句子節點指示段落中出現該詞語的那些句子。從詞語節點 1808起始並包括該詞語節點的分層節點樹中的每個節點可以包括表示該詞語在該分層結構的每一級中出現的總次數的整數值。例如，詞語節點1808可以包括詞語「armadillo」在整個文檔集中出現次數的整數值。文檔節點1812可以包含指示詞語「armadillo」在該文檔節點所代表文檔中出現次數的整數值。存在很多不同類型的倒排關鍵詞索引。圖18中的倒排關鍵詞索引意圖示出可以被包含在倒排關鍵詞索引中的信息類型。一般來說，儘管哈希表提供快速查找，但是圖19 的分層節點樹中儲存的數據通常被儲存為比特串或存儲器塊中的欄位，而不是儲存為節點樹，以便於比可以通過遍歷複雜的樹獲得信息更快速地獲取信息。應當注意，當索引器準備每個標準化文本文檔的倒排關鍵詞索引時，可以通過在概念上將文檔節點為頭部的樹附加到從詞語節點始發的文檔列表來相對直接地合併文本文檔集中所有文本文檔的倒排關鍵詞索引。在本發明某些實施例中可以使用倒排關鍵詞索引，但是在本發明的很多實施例中不使用倒排關鍵詞索引。如上面參照圖17討論的，索引器可以為每個標準化文本文檔準備詞語向量。可以通過將每個詞語在該集合所有標準化文本文檔中的出現次數進行合計來匯聚相關標準化文本文檔集的大量詞語向量，以產生每個詞語在詞語向量中的累積出現次數。所有詞語的累積出現次數構成該相關標準化文本文檔集的累積詞語分布。圖19根據本發明一個實施例說明累積詞語分布。該累積詞語分布實質上是直方圖，其中相對於縱軸1802繪製沿橫軸 1804繪製的詞語的出現次數。特定柱(例如柱1806)的高度表示該柱之下詞語1808的出現次數。累積詞語分布可以在計算上被表示為二維陣列，其具有與上面參照圖17討論的詞語向量中條目等同的條目。接下來描述IAC組件的文檔分類器子組件(圖14中的1408)。圖20說明IAC組件的文檔分類器子組件的功能。詞語向量2002輸入到文檔分類器子組件2004，並且該文檔分類器子組件應用各種規則、習得的概率或其他內部儲存的信息，以便於產生有可能代表與該詞語向量相關聯文檔種類的種類ID 2006。換言之，在如上面參照圖17討論的那樣構造標準化文本文檔的詞語向量之後，與標準化文本文檔相關聯的詞語向量可以被輸入到文檔分類器子組件，以確定該文檔所屬種類的種類ID。存在很多不同類型的文檔分類器。在本發明的一個實施例中，採用樸素貝葉斯文檔分類器。在貝葉斯方案中，根據種類Ci的文檔將生成各種可測量的量F1, F2, ...，Fn的概率來計算文檔是特定種類Ci的成員的似然性，所述可測量的量是從之前觀測的數據估計的。使用來自詞語向量T1, T2, . . . , Tn 的元素的出現值作為可測量的量，樸素貝葉斯分類器通過嘗試找到種類Ci來分類文檔，即，在一組種類C的所有種類中，考慮詞語向量分量T1, T2, ...，Tn的值，所述文檔屬於種類Ci 的概率最高。因此，樸素貝葉斯分類器尋找
權利要求
1.一種內容檢索服務系統的信息匯聚和分類組件，所述信息匯聚和分類組件包括文檔分類器；文檔分類器構造器子組件，所述文檔分類器構造器子組件使用經歸類和處理的文檔集來構造所述文檔分類器；以及信息匯聚器子組件，所述信息匯聚器子組件從電子信息源獲得未歸類文檔，過濾所述未歸類文檔以產生一組標準化文本文檔，向所述標準化文本文檔應用索引器以生成每個標準化文本文檔的詞語向量；輸入針對所述一組標準化文本文檔中每個標準化文本文檔計算的所述詞語向量，以向所述標準化文本文檔指派種類；以及將每個不同種類的標準化文本文檔匯聚在一起以產生每個種類的標準化文本文檔包。
2.如權利要求1所述的信息匯聚和分類組件，其中所述文檔分類器是樸素貝葉斯文檔分類器。
3.如權利要求1所述的信息匯聚和分類組件，其中所述文檔分類器構造器子組件從電子信息源獲得文檔，每個所述文檔被指派了種類，過濾所述文檔以產生一組標準化文本文檔，向所述標準化文本文檔應用索引器以生成每個標準化文本文檔的詞語向量；為每個種類的文檔計算累積詞語分布；以及將每個標準化文本文檔，與針對所述標準化文本文檔計算的詞語向量和被指派給所述文本文檔的種類，以及每個種類的文檔的所述累積詞語分布一起輸入到所述文檔分類器，以訓練所述文檔分類器識別要指派給輸入的標準化文本文檔/詞語向量對的種類。
4.如權利要求1所述的信息匯聚和分類組件，其中所述信息匯聚器子組件使用網絡抓取器來從電子信息源獲得未歸類文檔。
5.如權利要求1所述的信息匯聚和分類組件，其中，對於每個文檔，所述信息匯聚器子組件通過以下操作來過濾所述未歸類文檔以產生一組標準化文本文檔從所述文檔移除非文本項和符號以產生文本文檔；解析所述文本以將所述文本文檔的所述文本組織為段落和段落中的句子，從而產生段句分界的文本文檔；向所述段句分界的文本文檔應用語言解析例程，以從所述文本移除非名詞詞語，從而產生僅有名詞和名詞性短語的文本文檔；以及應用語言例程來標準化所述僅有名詞和名詞性短語的文本文檔中的詞語，並從經標準化的詞語中過濾無用詞語以產生標準化文本文檔。
6.如權利要求1所述的信息匯聚和分類組件，其中每個詞語向量包含每個詞語在標準化文本文檔中的出現計數。
7.如權利要求1所述的信息匯聚和分類組件，其中每個標準化文本文檔包是帶日期戳或日期/時間戳的，以指示所述標準化文本文檔包被準備的日期或日期和時間。
8.一種內容檢索服務系統的本體構建器組件，所述本體構建器組件接收日期或日期/時間以及對種類的指示；從歸類文本文檔儲存組件請求標準化文本文檔的包，所述標準化文本文檔的包具有的日期或日期/時間戳的值接近所接收的日期或日期時間，並且與所接收的種類相關聯；為所述種類的文本文檔的詞彙表內每個有向詞語對計算多個同現值；歸一化所述有向詞語對中每個第一詞語的同現值；計算每個詞語的權重；將所計算的每個詞語的權重應用到有向詞語對的經歸一化的同現值，在所述有向詞語對中，所述詞語作為所述有向詞語對中的第一詞語出現；以及將一組應用有權重、標準化的同現值作為本體儲存在本體儲存組件中。
9.如權利要求8所述的本體構建器組件，其中同現值是為每個有向詞語對、針對所述詞語一起出現在所述標準化文本文檔的句子中、在所述標準化文本文檔的段落中以及在整個標準化文本文檔中的頻率而計算的。
10.如權利要求8所述的本體構建器組件，其中詞語的所述權重與所述詞語在所述標準化文本文檔中的總出現成反比。
11.如權利要求8所述的本體構建器組件，其中歸一化所述有向詞語對中每個第一詞語的同現值還包括計算每個有向詞語對相對於所述有向詞語對的總同現次數的比例性同現。
12.—種準備標準化文本文檔包的方法，所述方法包括使用經歸類和處理的文檔集來構造文檔分類器；從電子信息源獲得未歸類文檔，過濾所述未歸類文檔以產生一組標準化文本文檔，向所述標準化文本文檔應用索引器以生成每個標準化文本文檔的詞語向量；輸入針對所述一組標準化文本文檔中每個標準化文本文檔計算的所述詞語向量，以向所述標準化文本文檔指派種類；以及將每個不同種類的標準化文本文檔匯聚在一起以產生每個種類的標準化文本文檔包。
13.如權利要求12所述的方法，其中所述文檔分類器是樸素貝葉斯文檔分類器。
14.如權利要求12所述的方法，其中構造所述文檔分類器還包括從電子信息源獲得文檔，每個所述文檔被指派了種類，過濾所述文檔以產生一組標準化文本文檔，向所述標準化文本文檔應用索引器以生成每個標準化文本文檔的詞語向量；為每個種類的文檔計算累積詞語分布；以及將每個標準化文本文檔，與針對所述標準化文本文檔計算的詞語向量和指派給所述文本文檔的種類，以及每個種類的文檔的所述累積詞語分布一起輸入到所述文檔分類器，以訓練所述文檔分類器識別要指派給輸入的標準化文本文檔/詞語向量對的種類。
15.如權利要求12所述的方法，其中從電子信息源獲得未歸類文檔還包括使用網絡抓取器。
16.如權利要求12所述的方法，其中過濾所述未歸類文檔以產生一組標準化文本文檔還包括對於每個文檔從所述文檔移除非文本項和符號以產生文本文檔；解析所述文本以將所述文本文檔的所述文本組織為段落和段落中的句子，從而產生段句分界的文本文檔；向所述段句分界的文本文檔應用語言解析例程，以從所述文本移除非名詞詞語，從而產生僅有名詞和名詞性短語的文本文檔；以及應用語言例程來標準化所述僅有名詞和名詞性短語的文本文檔中的詞語，並從經標準化的詞語中過濾無用詞語以產生標準化文本文檔。
17.如權利要求12所述的方法，其中每個詞語向量包含每個詞語在標準化文本文檔中的出現計數。
18.如權利要求21所述的方法，其中每個標準化文本文檔包是帶日期戳或日期/時間戳的，以指示所述標準化文本文檔包被準備的日期或日期和時間。
全文摘要
本發明的各個實施例包括內容檢索服務系統的信息匯聚和分類組件，該信息匯聚和分類組件從信息源得到信息，匯聚並標準化所得到的信息，並且分類所得到的信息，之後將經標準化和分類的信息進行儲存以供內容檢索服務系統的語言模型構建器組件和本體構建器組件使用。本發明另外的實施例包括本體構建器組件，該本體構建器組件針對特定日期、日期/時間、日期範圍或日期/時間範圍並且針對特定種類從經標準化和分類的信息來建立本體。
文檔編號G06F17/21GK102119383SQ200980118218
公開日2011年7月6日申請日期2009年3月19日優先權日2008年3月19日
發明者D·巴杰倫, J·湯普森, N·C·斯蒂洛, V·舍梅布爾卡爾申請人:德爾夫網絡有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

便利內容檢索服務系統內本體和語言模型生成的信息獲取和匯聚方法及子系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法