通過分析內容確定上下文並且基於該上下文提供相關內容的製作方法
2023-12-06 16:17:06 4
專利名稱:通過分析內容確定上下文並且基於該上下文提供相關內容的製作方法
技術領域:
別廣告或者其它相關的或有價值的內容,並且進一步,本發明還涉及一種用 於多域知識管理的語義內容路由器。
背景技術:
供廣告和其它內容的方法的多樣性,導致在基於網際網路用戶搜索的或者在 線閱讀的信息為用戶提供有關或者相關廣告和有關或者相關內容時,持續 存在根本性的困難。
0004分類法可以被用來對網際網路的電子內容進行分類或歸類來建 立上下文的相關性。典型地,用於對多個電子內容歸類的分類法通常針對 一個單一域。但是,表示多個不同域的電子內容可能需要歸類。可以開發 出一個包括針對所有域的分類規則的單一分類法。但是,對所有域有效的 分類法通常要求大量規則而基於大量規則來對內容進行分類可能會異常 緩慢。此外,用於一個域的單一分類法中的分類規則可能會與用於另一個 域的單一分類法的分類規則相衝突或者牴觸。可選擇地,可以開發出多個 專用域的分類法來避免分類規則的沖突。但是,使用多個分類法中的每一 個分類法來分類內容也可能會異常緩慢。
發明內容
0005上下文分析引擎對可能包括在所發布的電子內容中且根據上 下文有價值的有關和/或相關內容(以下稱為"相關內容")進行識別。典 型地,該相關內容由編輯者手工進行識別,編輯者使用單獨的軟體系統使 用的有意義的標誌對基本內容進行標識,或者手工地對嵌入在基本內容中 的相關內容進行選擇。上下文分析引擎自動對電子基本內容中的關鍵語義 概念進行識別,然後將之與相關的高價值的數據或者其它相關內容進行匹 配。當發布者認為適當時則將此數據嵌入到內容中。例如,上下文分析引 擎可能會識別語義上相關的內容作為每點擊成本(CPC)廣告、千人成本 (CPM)橫幅廣告、企業聯合內容或其它有價值的內容導航的形式。該內 容可能會包括網頁、由RSS文件(RSS feed)識別的文章、用於形成搜索查 詢的關鍵詞、搜索查詢的搜索結果,或者任何可以轉換為純文本的其它電 子內容。
0006詞彙語義分析(LSA)可以用於識別包含在一段電子內容中 的概念。基於文檔的屬性,例如包含在文檔中的詞彙,可以將一大組文檔 分離為多個集群。可以從集群中每一個文檔中提取出概念,在集群中出現 最頻繁的或者被認為對於所述集群重要的概念可以被識別為該集群的概 念。當從文檔中提取概念時,所述文檔對應的集群被識別。之前所識別的 集群概念可以被標識為所述文檔的概念。
0007執行語義衡量過程的語義內容路由器可以被更有效地用於對 文檔中提取的所述概念進行歸類。所述語義內容路由器(或簡稱"路由器") 可以從多個可以合適地歸類概念的可用分類法中識別出一個子集,並且隨 後由概念路由到合適的分類法。語義衡量過程分析所述概念以快速確定概 念或者一組詞彙可能屬於的域。從此分析產生的信息可以被多個分類法中 的一個或者多個分類法使用,來有效地歸類所述概念。使用一組概念訓練 所述路由器,所述概念是被多個分類法中的那些應該被用來歸類所述概念 的指示來標記。對多個分類法中的每一個分類法中概念的權重進行識別, 使用其識別出的權重超過閥值的分類法對概念進行分類。
0008此上下文分析引擎可以被用於在網站上實現有價值的貨幣化 和導航功能。這種類型的導航應用的一個例子是"贊助導航"。此過程的
工作方式如下。使用形成上下文分析引擎的各種軟體模塊來分析發布者的 整個網站,對所有頁面上的所有概念使用一個或多個分類法來進行提取和 索引。對網站的每個頁面上的概念和與所述概念相關聯的相關內容(基於 分類法)做超連結處理。這些"超連結"以能夠被廣告商贊助的廣告單元 的形式顯示(例如"贊助導航")。在廣告單元內點擊這些超連結中的任何 一個將能夠"觸發"多個廣告遞送選擇,例如關於主題的"轉換廣告"、"直 線"文本廣告或者圖形廣告。轉換之後,用戶可以瀏覽所述廣告或者被鏈 接到顯示所述概念附加"內容"的網站部分。
0009使用上下文分析引擎實現貨幣化應用的另一個例子是"網賺" (TM ) (ClickSense (TM))應用。此應用可以分析搜索查詢、URL (例如, 網頁)、RSS文件、博客或者任何文本塊,並且通過使用語義內容路由器 和可用的廣告清單,定位與所述搜索查詢、URL、 RSS文件、博客或者任 何文本塊高度相關並且具有較高價值的廣告,然後將這些廣告發布到互聯 網用戶所請求的頁面上。
0010根據本發明的一個總的方面, 一種向輸入內容中補充相關內容 的方法,包括接收將為其識別相關內容的輸入內容,提取與所述輸入內容相 關的文本,在所提取的文本中識別概念。所述方法還包括識別至少一個和所 述概念相關的分類法,以及使用所述至少 一個分類法來分析所述概念從而產 生和所述至少一個分類法的一個或者多個分類相關的一組已經分類的概念。 所述方法還包括向資料庫提交所述已分類的概念。所述資料庫存儲基於其類 別進行了索引的數據。所述方法也包括從資料庫請求與所述已分類概念關聯 的相關內容,響應所述請求從資料庫接收所述相關內容,補充所述相關內容 到輸入內容,以及使得用戶可以瀏覽所述相關內容。
0011以上本發明的總的方面的實施例可以包括一個或者多個以下特 徵。例如,所述輸入內容可以包括用於獲取搜索結果的搜索查詢,提取和輸 入內容相關的文本可以包括提取包含所述搜索查詢的關4建字。可替換地或者 附加地,提取和輸入內容相關的文本還可以包括獲取所述搜索結果並且從所 獲取的搜索結果中提取所述文本。
0012在本發明的另一個實施例中,接收輸入內容可以包括接收統一
資源定位符,提取和所述輸入內容相關的文本包括獲取位於所述統一資源定 位符的網頁以及^是取和所述網頁相關的文本。可替換地或者附加地,接收輸
入內容可以包括接收RSS文件,提取和所述輸入內容相關的文本可以包括提 取包含在所述RSS文件中的文本。可替換地或者附加地,接收輸入內容可以 包括接收博客內的入口 ,提取和輸入內容相關的文本可以包括提取所述博客 內的所述入口 。
0013相關內容可以包括廣告或贊助連結,所述廣告和贊助連結對應 於與輸入內容相關的一個或多個每點擊成本、每次印象費用或者每行動成 本。識別所提取文本中的概念可以包括識別包含在所述文本中的一個名詞 短語或者恰當的名詞。接收相關內容還可以包括識別已分類概念的種類, 以及將資料庫中顯示的並且與所識別類別相關的內容標識為相關內容。
0014根據本發明的另一個總的方面, 一種基於一個用戶接口來補充 文檔的方法,所述用戶接口包括與所述文檔中出現的一個或者多個概念關聯 的相關內容,所述方法包括提取存儲器中存儲的文檔中出現的概念,並且識 別和所提取的概念關聯的分類法。所述方法還包括使用所述分類法分析所提 取的概念來產生一組分類概念,並且使用所述分類法或者另 一個相關分類法 從存儲於相同或者不同存儲器中的多個其它文檔中識別和所述已分類概念 關聯的相關內容。所述方法還包括對所提取的概念和相關內容進行超連結處 理,在用戶接口中顯示經過超連結處理的概念和相關內容,其中所述用戶接 口由內容提供商提供贊助。
0015上述總的方面的實施例可以包括一個或者多個以下特徵。例如,
中的一個名詞短語或恰當的名詞。恰當的名詞可以包括人名、機構名稱、公 司名稱或者產品名稱。可替代地或者附加地,提取概念可以包括提取出現在 網站的網頁中的概念。
0016上述總的方面的實施例還可以包括接收一個選擇所顯示超連結 中的一個超連結的指示,對所述接收到的指示進行響應,顯示和所選擇的超 連結相關聯的網頁,其中,所述網頁包括和所提取概念相關的附加內容。贊 助的內容提供商可以和發布者為同一實體。可替代地或者附加地,贊助的內
容提供商可以為不同於發布者的實體。
0017使用所述分類法或者另 一相關分類法可以包括使用分類法在存 儲在同 一或者不同存儲器中的多個其它文檔中識別和所述已分類概念關聯 的相關內容,其中,所述相關內容和所述已分類概念屬於同一類別。附加地, 使用所述分類法或者另一相關分類法也可以包括確定所述分類法是否和另 一分類法相關,如果確定所述分類法和另一分類法相關,則使用其它相關分 類法在同 一或者不同存儲器中的多個其它文檔中識別和所述已分類概念關 聯的相關內容。所述相關內容可以屬於和所述已分類概念的類別不同但相關 的一個類別。
0018所述方法還可以包括,通過參照與另一分類法互相連結的分類 法的列表,對其它相關分類法進行識別,從而對與所提取概念的分類法相關 聯的其它相關分類法進行識別。所述相關內容可以與所述已分類概念屬於同 一類別。可替代地或者附加地,所述相關內容可以屬於和所述已分類概念的 類別不同但相關的類別。
0019根據本發明的另一個總的方面, 一種從多個用於分類輸入短語 的分類法中對分類法進行識別的方法,包括提供多個分類法,該多個分類法 的每一個分類法對應於知識的一特定域,接收將由所述多個分類法的至少一 個分類法進行分類的輸入短語,並且將所接收到的輸入短語表徵為 一個或者 多個單詞。所述方法還包括從所述多個分類法中選擇第一分類法;對於所 選擇的第一分類法,識別出所存儲的與所述一個或者多個單詞中的每一個單 詞相關聯的權重;對於所選擇的第一分類法,累計所存儲的與所述一個或者 多個單詞中的每一個單詞相關聯的權重,從而識別與所述輸入短語相關聯的
第一權重。所述方法還包括從所述多個分類法中選擇第二分類法;對於所選 擇的第二分類法,識別出所存儲的與所述一個或者多個單詞中的每一個單詞 相關聯的權重;對於所選擇的第二分類法,累計所存儲的與所述一個或者多 個單詞中的每一個單詞相關聯的權重,從而識別與所述輸入短語相關聯的第 二權重。所述方法還包括,將與所述輸入短語相關聯的第一權重和第二權重 與一閾值進行比較,並且基於比較結果,將所述輸入短語路由到所述第一分 類法或者第二分類法進行分類。0020上述總的方面的實施例可以包括一個或者多個以下特徵。例如, 接收所述輸入短語,可以包括接收包含在電子內容中的概念,所述電子內 容的補充的和相關的電子內容將被識別。表徵所述輸入短語,可以包括將 輸入短語劃分為單個的單詞。
0021對於所選擇的第一分類法和第二分類法,對所存儲的與每個所 述的一個或者多個單詞相關聯的權重進行識別,可以包括通過參照包含有與 所述一個或者多個單詞相關聯的權重的列表來識別所存儲的權重。所述列表 中可以包括對應於字典中的每個單詞的行、對應多個分類法中的每一個分類 法的列和位於每個行列交叉點處的分值。每個交叉點上的分值可以顯示出一 種可能性,即包括對應於每個交叉點的單詞的輸入短語可以通過對應於此交 叉點的列的特定分類法進行分類。對輸入短語進行路由可以包括將所述輸入 短語路由至所述- 一分類法和第二分類法進行分類。
0022所述技術的實現可以包括硬體、方法或者過程、或者存儲於計 算機可存取介質上的計算機軟體。
0023結合附圖和以下說明提出一個或者多個實施例的詳細說明。通 過以下說明和附圖,以及權利要求書,本發明的其它特徵將得到更清晰的說 明。
圖1為示例性網絡計算環境的框圖2為用於提供與發布的電子內容相關的、根據上下文有價值的相關內
容或者廣告的過程的流程圖3為用於識別和電子內容相關的高價值數據的過程的流程圖4為用於識別包括在相關電子文檔集群中的概念的過程的流程圖5為用於識別包括在電子文檔中的概念的過程的流程圖6為包括路由器的概念分類器的框圖7為表示特定概念對應於特定概念類別的可能性的表格;
圖8為用於識別 一個短語對應於一個或者多個分類法的可能性的過程的
流程圖9為用於訓練扭無念分類器的路由器以將概念路由至一個或多個相關分 類法進行分類的過程的流程圖10為用於路由短語到一個或者多個相關分類法以進行分類的過程的 流程圖11為贊助導航應用所使用的示例性過程的流程圖,所述過程用於分 析與發布者的網站相關聯的網頁以及使用 一個或者多個分類法提取和索引 出現在其中的概念;
圖12為一網頁的屏幕截圖,該網頁已經採用超連結至發布者網站中其 它頁面上的信息的概念短語進行了補充。
具體實施例
0024參見圖1,網絡計算環境100能夠識別包含在發布的電子內容 中的高價值數據。網絡計算環境包括上下文分析引擎105,所述上下文分析 引擎105識別內容提供商110提供的有關和/或相關高價值數據以將其包括 在內容發布者115發布的內容中。上下文分析引擎105包括文本提取器120、 概念提取器125、概念濾波器130、概念分類器135和相關性識別模塊140。 上下文分析引擎105、內容提供商110和內容發布者115使用網絡(例如, 網際網路)145通信。
0025上下文分析引擎105對將被包括在由內容發布者115提供的內 容中的適當高價值數據進行識別。上下文分析引擎105對所述內容進行處理 以此識別包括在所述內容中的概念,並且識別將被包括在所述內容中的補充 內容,諸如根據上下文有價值的有關和/或相關內容或者提議。上下文分析 引擎105可以間接從外部資源請求補充內容,所述外部資源諸如使用包括在 電子內容中的概念或概念的類別的內容提供商110。
供的內容中。內容提供商IIO可以直接將內容提供給內容發布者115,或者 提供給上下文分析引擎105,上下文分析引擎105將會提供補充內容給內容 發布者110。內容提供商IIO可以對來自上下文分析引擎105的請求做出響 應來提供補充內容。例如,所述請求可以包括一個或者多個每點擊成本
(CPC)、每次印象費用(CPM)或者每行動成本(CPA)條件和/或多段 內容。CPM內容可以是文本、圖形橫幅或者語義上相關的內容。每點擊成 本條件是一個已經拍賣給企業的條件,其使得與該企業相關的補充內容顯 示在與每點擊成本條件相關的電子內容中。每當瀏覽所顯示的補充內容的 最終用戶確實點擊所顯示的補充內容時,企業將向內容提供商110或者內 容發布者115支付費用。為響應一個包含每點擊成本條件的請求,內容提 供商110識別並且返回有價值的或者相關的內容給竟拍得每點擊成本條件 的企業。在每次印象費用模型中,企業在其補充內容被顯示給最終用戶每 一千次時進行支付。在每行動成本模型中,針對補充內容被顯示給最終用 戶的每一次動作,企業進行支付。上下文分析引擎105的特徵可以應用於 CPC、 CPM或者CPA以外的廣告模型。
0027內容發布者115為可以包括補充內容的電子內容的發布者。例 如,內容發布者115可以為提供包括可以顯示根據上下文有價值的有關和/ 或相關內容的空間的網頁的網絡伺服器。內容發布者115可以出售網頁上的 顯示空間,使得有關和/或相關的根據上下文有價值的內容可以被包括在空 間中。內容發布者115可以對將其根據上下文有價值的有關和/或相關內容 包括在網頁中的企業進行限制。內容發布者115可以接收來自內容提供商 110的有關和/或相關的根據上下文有價值的內容,並且可以是電子內容中根 據上下文有價值的。
0028在一個實施例中,上下文分析引擎105分析文本段(從內容中 提取出來的)並且將已感知為高"價值"的內容返回。所述價值可以基於多 種計價模型,包括但不限於CPC和CPM。文本提取器120從將要包括補充電 子內容的電子內容中提取文本。例如,文本提取器120可以接收一個可以獲 取電子內容的URL。該URL可以從RSS文件獲得。除了獲取位於RSS文件中 被識別的URL上的所有文本,文本提取器120還可以^是取包括在RSS文件中 的其它文本,諸如標題或者描述位於URL上的項目的其它文本。
0029概念提取器125從由文本提取器120提取的文本中提取概念。 在一個實施例中,文本中的才既念為出現在文本中的名詞短語。在此實施例中, 包含在文本中的每一個詞可以使用 一部分語音進行標記,語音部分可用於識
別包含在文本中的名詞短語。可替代地或者附加地,包含在文本中的適當名 詞可以被識別為概念。由適當名詞構成的列表可被用於從文本中識別出適當 的的名詞。適當的名詞可以包括人名(例如,名人、政治家、運動員和作家)、 地名(例如,城市、州、國家和地區)、企業名稱、<^司名稱和產品名稱。 用戶能夠修改適當名詞列表從而使其僅包括那些用戶所感興趣的企業對應
的適當名詞。在另一個實施例中,語彙語義分析(LSA)可被用於對包含在 提取文本中的概念進行識別。隨後將參照圖4和圖5對LSA進行更為詳細的 描述。
0030概念提取器125也可以加權從文本提取的概念,例如,使用 TF. IDF加權算法或者另 一合適的加權算法。概念的權重可以基於文本中概念 出現的頻率。具有低權重或者在文本中不像其它概念那樣頻繁出現的概念可 以被認為與上下文非相關而被排除。
0031概念濾波器130過濾由概念提取器125識別的概念。在一個實 施例中,扭無念濾波器130可以移除不會進一步處理的和克念,使得涉及不能採 用的或者不期望的主題的概念從這組提取的概念中被移除。例如,概念濾波 器130可以過濾涉及成人內容、賭博或者已註冊商標的內容的概念。概念濾 波器130也可以特別強調感興趣的或者重要的其它概念。
0032積克念分類器135對所提取的還沒有被概念濾波器130過濾掉的 概念進行分類。概念分類器135可以將每一個提取出的概念傳送到一個或者 多個分類法進行分類。將參照附圖6-10對概念分類器135做詳細描述。
0033相關性識別模塊140可以識別一個或多個根據上下文有價值的 有關和/或相關內容,以便根據概念提取器125和概念分類器135識別的概 念和分類將其包括在內容發布者110的電子內容中。在一個實施例中,通過 向內容提供商110提供與所識別的類別相關的每點擊成本條件,相關性識別 模塊140從內容提供商110請求根據上下文有價值的有關和/或相關內容。 由相關性識別模塊140識別的每點擊成本條件可能是能夠使得上下文分析引 擎105、內容提供商110或者內容發布者115獲得最大收益的每點擊成本條 件。
0034參見圖2,過程200用於識別一個或多個根據上下文有價值的 有關和/或相關內容,以將其包括在將要顯示給最終用戶的 一段發布的電子
內容中。過程200可以由上下文分析引擎執行,例如圖1中的上下文分析引 擎105。當發布內容時執行過程200 —次,從而使得根據上下文有價值的有 關和/或相關內容能夠在發布內容顯示之前被包括在發布內容中。可選擇地 或附加地,過程200可以在每次將發布的電子內容顯示給最終用戶時執行一 次,從而使得顯示時根據上下文有價值的有關和/或相關內容能夠被包括在內 容中。
0035上下文分析引擎105接收內容發布者,如圖1中的內容發布者 115,所發布的內容標識(步驟205 )。發布內容的標識可以從內容發布者或 者顯示發布內容的計算機系統上接收。該標識可以包括能夠獲得所述內容的 URL的標識。在 一 個實施例中,電子內容可以為從搜索查詢獲得的搜索結果, 電子內容的標識可以是構成搜索查詢的關鍵詞。可替代地或附加地,電子內
容的標識可以是電子內容自身。該標識還可以包括一個或多個描述可能包括 在內容中的有價值內容的參數,例如可能會包括在內容中的內容大小或內容 類型(例如,純文本,圖形,flash, ^L頻)。
0036上下文分析引擎105對將要包括在內容中的4艮據上下文有價值 的有關和/或相關內容進行識別(步驟210)。在一個實施例中,上下文分析 引擎105識別對應於與內容有關和/或相關的一個或多個每點擊成本條件的 廣告或贊助連結。所述上下文分析引擎識別根據上下文有價值的有關和/或 相關內容的方式將參照圖3進一步進行描述。
0037上下文分析引擎105從內容提供商,例如圖1中的內容提供商 110,請求所識別出的根據上下文有價值的有關和/或相關內容(步驟215)。 例如,上下文分析引擎105可以將CPC條件提供給內容提供商110,該內容 提供商可以提供與購買CPC條件的企業有關的根據上下文有價值的有關和/ 或相關內容。上下文分析引擎105從內容提供商IIO接收所請求的根據上下 文有價值的有關和/或相關內容,並且將所請求的根據上下文有價值的有關 和/或相關內容提供給發出內容標識的系統(步驟220 )。例如,如果內容標 識是從內容發布者115接收的,則上下文分析引擎105可以將根據上下文有 價值的有關和/或相關內容提供給內容發布者115。可替換地或附加地,內容
提供商110可以將根據上下文有價值的有關和/或相關內容直接提供給發出 內容標識的系統。
0038參照圖3,過程300用於識別將要包括在發布的電子內容中的 根據上下文有價值的有關和/或相關內容或其它補充內容。過程300可以由 上下文分析引擎執行,例如圖1中的上下文分析引擎105。過程300可以表 示圖2中的步驟210的一個實施例。過程300可以在發布內容的同時執行一 次,從而使得根據上下文有價值的有關和/或相關內容可以在發布的內容被 顯示之前被包括在發布內容中。可替換地或附加地,過程300可以在每次顯 示發布的電子內容時執行從而使得顯示時根據上下文有價值的有關和/或 相關內容被包括在內容中。
0039上下文分析引擎105接收到將要進行處理的內容標識(步驟 305 )。例如,上下文分析引擎105可以接收一個URL,該URL標識了可能包 括一個或多個根據上下文有價值的有關和/或相關內容的電子內容。該URL 可以被包括在一個RSS文件中。可替換地或附加地,內容標識可以是為獲得 搜索結果所使用的搜索查詢的標識(例如,實際使用的關鍵詞)。可替換地 或附加地,內容標識可以是用戶生成網站中的一個入口標識,例如博客。上 下文分析引擎105從電子內容提取文本(步驟310)。例如,上下文分析引擎 105可以使用文本提取器,例如圖1中的文本提取器120,來提取文本。提 取文本的步驟可以包括獲得URL處的文本以及其它描述所獲取文本的其它文 本,例如包括在RSS文件中的其它文本。如果內容標識是搜索查詢,則文本 提取器可以從所述搜索查詢產生的搜索結果中提取文本,或者簡單地,可以 將形成搜索查詢的關鍵詞標識為所提取文本。如果內容標識是用戶生成網站 中的一個入口標識(例如博客),則文本提取器可以提取博客中的該入口。
0040上下文分析引擎105對包括在所提取文本中的積無念進行識另'J(步 驟315)。更具體地,上下文分析引擎可以使用概念提取器,例如圖1中的概 念提取器125,來提取文本。概念提取器125可以將包括在所提取文本中的 名詞短語和適當名詞標識為所提取文本的概念,如前所述。可替換地或附加 地,概念提取器可以使用LSA來識別概念,以下將參照圖4和圖5對此進行 更加詳細地描述。如果所提取文本是一個或多個構成;l叟索查詢的關鍵詞,則
的多個概念)。
0041上下文分析引擎105對識別出的概念進行過濾(步驟320 )。更 具體地,上下文分析引擎可以使用概念過濾器,如圖1中的概念濾波器130, 來過濾概念。概念濾波器130可以濾除涉及不能採用的或者不期望的主題的 概念,例如,由所述根據上下文有價值的有關和/或相關內容將要插入的電 子內容的發布者定義的概念。概念濾波器130還可以特別強調對於內容特別 有關和/或相關或非常重要的一些概念。
0042上下文分析引擎105對過濾後的概念的類別進行識別(步驟 325 )。例如,上下文分析引擎可以使用概念分類器,例如圖l中的概念分類 器135,來對概念進行分類。概念分類器135包括用於將每個概念路由到一 個或多個知識域的語義內容路由器,所述一個或多個知識域由包括在概念分 類器中用於分類的分類法或其它表示方式表示。概念分類器的路由器中的語 義內容路由功能可以在多個知識域中識別出用於分類所述概念的知識域。語 義內容路由器還可以簡單地確定在分類過程中應當使用的分類法的順序。語 義內容路由器還可以用於快速猜測一具體文本屬於哪個域。
0043上下文分析引擎105對與所識別類別有關的高價值或高相關性 的數據進行識別(步驟330 )。更具體地,上下文分析引擎105可以使用相關 性識別模塊,例如圖1中的相關性識別模塊140,來對高價值或高相關性數 據進行識別。高價值數據可以包括用來請求對應的根據上下文有價值的有關 和/或有相關內容或贊助連結的一個或多個CPC條件,所述請求可以來自例 如圖1的內容提供商110。可替換地或附加地,高價值數據可以包括根據上 下文有價值的有關和/或相關內容或贊助連結自身。
0044例如,搜尋引擎用戶可以輸入一系列形成網際網路搜索查詢基礎 的關鍵詞,並且通過單擊"Enter"鍵將搜索查詢發送給搜尋引擎。搜索引 擎根據關鍵詞完成搜索,並以URL列表或網際網路頁連結列表的形式返回可能 與關鍵詞有關和/或相關的搜索結果網頁。搜尋引擎還可以將關鍵詞轉發給 上下文分析引擎105,上下文分析引擎105對關鍵詞進行分析並將其識別為 一個或多個概念。上下文分析引擎105隨後通過在此描述的一個或多個分類
法對概念進行處理,並返回或生成與所述一個或多個分類法相關聯的 一組分
類概念。然後由上下文分析引擎105將分類後的概念提交給資料庫。資料庫 可以位於上下文分析引擎105內或者遠離上下文分析引擎105,例如,位於 內容提供商110內。在任何一種情況下,資料庫存儲基於其類別進行了索引 的數據。
0045上下文分析引擎105從資料庫請求與所分類積無念相關聯的相關 內容,並且響應於所述請求,上下文分析引擎105從資料庫接收相關內容。 具體地,響應於所述請求,搜索模塊可以對已分類概念的類別進行識別,並 且可以將資料庫內與所識別類別相關聯的內容識別為相關內容。在一個例子 中,所述相關內容包括具有高相關性和/或高價值的數據。
0046相關內容可以在搜索結果網頁的指定區域顯示。具體地,相關 內容可以在網頁上顯示並且可以表示為連結,該連結可連結到一個將要列出 一系列與概念短語有關和/或相關的贊助URL或根據上下文有價值的有關和 /或相關內容的新的網頁。廣告商可以支付款項以便擁有他們特定的贊助連結 或者其它與所顯示的概念短語相關聯的適當的廣告。
0047在一個實施例中,上下文分析引擎105可以識別出多個相關內 容。每個相關內容可具有與其相關聯的價值。相關內容的價值可以位於數據 庫或另一個遠程存儲單元中,並且該價值可以基於內容提供商(例如,廣告 商)為每個相關內容支付的價格。可替換地或附加地,相關內容的價值可以 基於每個相關內容可能產生或在過去已經產生的收益。上下文分析引擎105 使用該信息來從多個相關內容中進行選擇或者對多個相關內容進行排序。在 一個具體例子中,上下文分析引擎105僅顯示具有最高價值的相關內容。在 另一個例子中,上下文分析引擎105僅顯示具有最高價值的兩個相關內容塊。 在又一個例子中,上下文分析引擎105顯示所有的多個相關內容,並且根據 它們的價值對它們進行排序,從而將具有最高價值的相關內容排在第 一位而 將最有最4氐fK直的相關內容排在最後。
0048參照圖4,過程400用於識別通常映射於相關文檔集中的概念 集。概念集是通過LSA分析大量的電子文檔來進行識別的,LSA是一種最小 二乘算法,該算法通過降低訓練集的維度來分析概念是如何相關的。該維度
的降低聚類了在高維度空間中相靠近的具有相近語義的文檔。當對與該文檔 集中的文檔相關的 一個文檔中所包括的概念進行識別時,可以使用識別出的
一個相關文檔集的概念。當要對文檔的概念進行識別時,過程400可以由概 念提取器執行,例如圖1中的概念提取器125。
0049概念提取器125通過所有文檔的文檔矩陣創建一個詞典(步驟 405 )。可以根據帶有標記的新聞稿的一個大的集合,例如路透社21578文本 分類測試集,生成該矩陣。當對應於元素行的單詞包括在對應於元素列的文 檔中時,該矩陣包括一個非零元素。在一個實施例中,非零元素可以表示相 應單詞出現在對應文檔中的頻率。
0050概念提取器125使用奇異值分解(SVD)生成LSA矩陣(步驟 410)。 SVD在原有矩陣上進行。SVD是可選擇的,就識別有關和/或相關程度 更高的概念而言,其提高了識別性能。SVD將通過文檔矩陣創建的詞典表示 的空間的維度減少到大約150。概念提取器將通過文檔矩陣創建的原詞典與 LSA矩陣相乘(步驟415 ),並且將文檔聚類在結果矩陣中(步驟420 )。在一 個實施例中,可以使用例如K-均值算法的標準聚類算法來聚類文檔。
0051概念^是取器125選擇一個結果聚類(步驟425 ),並且從該結果 聚類中的每個文檔中提取出概念(步驟430 )。在一個實施例中,從文檔中提 取出概念可以包括從文檔提取名詞短語和適當的名詞,如前所述。可以對從 文檔提取出的概念進行過濾從而產生一個簡化的提取概念集,如前所述。概 念提取器根據所提取出的概念對於聚類的重要性以及其在聚類中出現的頻 率,對所提取出的積克念進行加權,例如,使用TF. IDF加權算法(步驟435 )。 概念提取器將一個或多個具有最高權重的概念作為聚類的代表加以緩存(步 驟440 )。
0052概念提取器125對是否要對更多的文檔聚類提取概念進行判斷 (步驟445 )。如果是,則概念提取器選擇一個不同的聚類(步驟425 )並且 提取(步驟430 )、加權(步驟435 )以及緩存包括在不同聚類中的文檔的概 念(步驟440 )。在對每個聚類依次提取概念和緩存之後,過程400完成(步 驟450 )。
0053參照圖5,過程500用於對包括在電子文檔中的概念進行識別。
所識別概念是包括在與電子文檔相關的文檔中的概念。更具體地,LSA用於 識別與電子文檔最接近的文檔聚類。所識別的聚類可能具有可用於更好描述 文檔的相關聯的概念緩存。過程500由概念提取器執行,例如圖1中的概念 提取器125。過程500的執行需要事先執行圖4的過程400。
0054概念提取器125為要被提取概念的文檔計算出稀疏向量(步驟 505 )。稀疏向量中的每個元素對應於可能出現在文檔中的詞典中的一個單 詞。當文檔包括對應於所述元素的單詞時,稀疏向量中的一元素為非零。
0055概念提取器125將稀疏向量與LSA矩陣相乘,該LSA矩陣為例 如在之前執行圖4的過程400期間生成的LSA矩陣(步驟515 )。結果向量代 表位於由LSA矩陣代表的高維度空間中的一個位置。概念提取器識別出最接 近於結果向量的聚類(步驟515 ),並且對為所識別聚類緩存的;f既念進行識別 (步驟520 )。概念提取器針對所識別概念掃描文檔(步驟525 )並且判斷文 檔是否包括所識別概念(步驟530 )。如果是,則概念提取器將包括在文檔中 的緩存概念識別為文檔的概念(步驟535 )。否則,概念提取器從文檔提取概 念,例如,通過從文檔識別出名詞短語和適當的名詞來提取概念(步驟540 )。 概念提取器還根據所提取概念對聚類的重要性對其進行加權(步驟545 )。在 一些實施例中,所識別概念可以作為聚類的代表被緩存。在其它的實施例中, 可以執行上述兩個過程,即識別緩存概念和提取新概念。
0056在過程500的一些實施例中,可以進一步分析文檔來識別哪些 概念使得文檔與包括在所識別聚類中的其它文檔產生了最大不同。例如,來 自沒有包括在所識別聚類的文檔中的文檔的概念,可以使得該文檔與所識別 聚類中的文檔產生最大不同。這樣的概念可以被識別為與該文檔高度相關的 概念。
0057參照圖6,概念分類器600用於從多個分類法605a-605n中識 別出哪個分類法可以用於對短語進行分類。例如,概念分類器600可用於從 分類法605a-605n中識別出哪個分類法可以用於分類包含在其附加相關電子 內容正在被識別的電子內容中的一個概念。所識別的分類法可以是對應於與 將要進行分類的短語相關的域的分類法。扭無念分類器600包括一個語義內容 路由器610,該路由器用於識別出要分類的短語將被路由至分類法605a-605n
中的哪一個分類法。概念分類器600可以為圖1中的概念分類器135的一個 實施例。
0058分類法610a-610n中的每一個都用於對^是供至分類法的短語進 行分類。分類法610a-610n中的每一個都可以對應於一個具體的域,並且分 類法可以對輸入短語進行分類,將其作為與具體域相關的分類的代表。例如, 分類法610a可以對應於一個計算機域,在這種情況下分類法610a可以識別 出輸入短語是否標識了某種計算機類型、某種計算機部件類型或者某種計算 機軟體類型。然而,分類法610a可能不能夠識別出輸入短語是否標識了一 家酒店,因為酒店與計算機域沒有關聯。但是,另一個分類法,例如分類法 610b可能與旅遊領域相關,從而使得分類法610b可以確定輸入短語是否標 識了一家酒店。
0059分類法610a-610n中的每一個都包括與相應域相關的分類層次。 每個分類與 一個或多個鉤子規則有關。每個鉤子規則對代表相應分類的典型 短語中包含的一個或多個單詞進行識別。當輸入短語或其一部分與一個鉤子 規則相匹配時,該輸入短語便被識別為所匹配鉤子規則對應的分類代表。當 鉤子規則的所有單詞均包含在輸入短語中時,無論單詞出現在輸入短語中的 順序如何,該短語可能與該鉤子規則相匹配。例如, 一個對應於個人金融的 分類法可能會包括用於信託基金的分類。信託基金分類可以包括用於可以購 買的每個信託基金的鉤子規則。如果輸入短語包含一個信託基金的名稱,則 輸入短語可能被識別為對應於該信託基金分類的短語,這是因為該輸入短語 與信託基金分類的一個鉤子規則(例如,識別信託基金名稱的鉤子規則)相 匹配。
0060分類法中分類的分層結構是專用於域的知識表示,也是一個學 習數據集。另外,其用於對相關性判定中有幫助的分類進行加權。更特別地, 層次結構可以提供更多用於加權分類的信息。例如,如果具有相同親代分類 的幾個分類鎖定了一個文件,則該親代分類也應當作為更一般的分類被返 回。
0061在一些實施例中, 一個分類可以包括否定鉤子規則。 一個否定 鉤子規則對沒有包含在代表相應分類的典型短語中的一個或多個單詞進行識別。當輸入短語與一個分類的否定鉤子規則相匹配時,輸入短語不被分類 為屬於該相應的分類。這樣,否定鉤子規則也稱為排除規則,用於在某些情
況下代替鉤子失見則。例如,對"Barry Bonds"的排除可能會位於"證券和 債券"分類中,從而防止棒球運動員被鎖定向金融相關的分類。
0062在一些實施例中,可以在匹配鉤子規則之前對輸入短語進行處 理。例如,可以糾正輸入短語中存在拼寫錯誤的單詞。輸入短語的單詞可以 用其基本形式或詞幹形式代替。例如,名詞可以變為其單數形式,動詞可以 變為其不定式形式。另外,可以根據一個或多個替換規則來替換輸入短語的 單詞。 一種替換規則可以識別出一個第一單詞和一個第二單詞,當第一單詞 出現在輸入短語中時對該第一單詞進行替換。所述的第一單詞和第二單詞可 以是同義單詞,或者是可以相互替換的。根據替換規則替換輸入短語中的單 詞減少了分類法610a-610n需要的鉤子規則的數量。在一個實施例中,在修 改輸入短語之前可能會需要用戶確認。
0063語義內容路由器610根據圖10所示的過程識別出分類法 610a-610n中哪個分類法適合對輸入短語進行分類。在一個實施例中,語義 內容路由器610是一種簡單的線性結合子,其使用圖9所示的Widrow-Hoff 誤差修正算法來學習決定哪個分類法最可能對輸入短語進行適當的處理。語 義內容路由器610根據圖8所示的過程針對分類法610a-61 On中的每個分類 法給輸入短語賦值。如果根據一個具體的分類法,輸入短語的分值超過一個 閥值,則該具體的分類法被識別為適合用於該輸入短語。語義內容路由器610 根據分值表給輸入短語賦值,所述分值表表明了輸入短語的每個單詞代表分 類法610a-610n中的每個分類法所對應的域的可能性。
0064參照圖7,表700被概念分類器的語義內容路由器,例如圖6 的語義內容路由器610,用來給輸入短語賦值,從而使得該輸入短語能夠被 路由至適當的分類法進行分類。表700包括用於列出路由器詞典中每個單詞 的行,其中包含了可能出現在輸入短語中的單詞。例如,表700包括行 705a-705d,分別用於單詞"fund"、 "laptop"、 "asthma"和"text"。另夕卜, 所述表包括用於列出輸入短語為進行分類可能會路由至的每個分類法的列。 例如,所述表包括列710a-710d,分別用於對應於計算4幾、個人金融、健康
和旅遊領域的分類法。
0065在具體的行和列的交點處的分值表示,包含對應於一具體行的 單詞的輸入短語可能通過一相應於一具體列的分類法被分類的可能性。換句
高分值可能表示高的可能性,低分值可能表示低的可能性。例如,單詞"fund" 具有對應於個人金融領域的高可能性,以及對應於計算才幾、健康或旅遊領域 的相對低的可能性,如行705a所示。
0066參照圖8,語義加權過程800用於針對多個分類法中的每個分 類法,識別出輸入短語作為可能被該分類法分類的短語域的代表的可能性的 分值。針對輸入短語中的每個單詞以及多個分類法中的每個分類法,通過一
性的分值。例如,過程800可以使用圖7的表700來執行。例如,當要對短 語的分值進行識別時,當對短語應當被路由至的一個或多個分類法進行識別 時,或者當對路由器進行訓練從而正確地識別一個或多個分類法時,過程800 可以由概念分類器的路由器來執行,例如圖6的語義內容路由器610。
0067路由器首先接收到一個短語(步驟805 )。短語可能是一個將要 被分類的短語或者正在用來訓練路由器的短語。例如,短語可能是電子內容 的概念。路由器將接受到的短語表徵為單詞(步驟810)。在一個實施例中, 路由器可以簡單地將接收到的短語表徵為單個單詞。在另一個實施例中,路 由器可以對所接收到的短語進行處理從而識別出是否有任何組成單詞構成 一個不可分吝j的4豆i吾。侈寸^口, ^口果專t人^豆i吾為"buy personal computer", 則路由器可以表明輸入短語具有三個組成部分(例如,"buy"、 "personal" 和"computer")或兩個糹且成4卩分(侈'B口, "buy"和"personal computer").
0068路由器同時針對每個分類法給輸入短語計算單個權重。單個權
重的計算基於輸入短語中每個單詞的權重的加權之和。對於每個分類法(步 驟815)和短語中的單詞(步驟820 ),路由器確定所選擇的單詞是否包括在 路由器的一個詞典中(步驟825 )。換句話說,路由器確定表中的一個行是否 對應於所選擇的單詞。如果不是,則路由器丟棄所選擇的單詞(步驟830 ), 因為對於所選擇的分類法,所選擇的單詞不能對所接收到的短語的分值有所
貢獻。如果所選擇的單詞包括在表中,則路由器針對所選擇的分類法識別出
所選擇單詞的存儲分值(步驟835)。例如,路由器可以在表中根據所選擇的 單詞對應的行和所選擇的分類法對應的列識別出一個元素。對於所選擇的分 類法,路由器將識別出的權權重添加到短語的權重中(步驟840 )。
0069路由器判斷輸入短語是否包括更多的單詞(步驟845 )。如果是, 則路由器從短語中選擇一個不同的單詞(步驟820 )並且判斷該不同的單詞 是否在路由器的詞典中(步驟825 )。如果不是,則丟棄該單詞(步驟830 )。 如果是,則識別出該不同單詞的存儲權重(步驟835 )並且將該存儲權重添 加到針對所選擇分類法的短語權重中(步驟840 )。通過這種方式,針對所選 擇分類法的短語的總權重被識別。在針對每個分類法識別出短語的分值之 後,將該分值與所定義的閥值進行比較。然後文檔被發送給所有加權分值超 過閥值的分類法。如果沒有一個分類法的分值超過閥值,則將該文檔發送給 具有最高加權分值的分類法。這個步驟之後過程800結束(步驟855 )。
0070舉例而言,過程800使用圖7的表700來識別出短語"laptop text"的權重。這個短語包括兩個單詞("laptop"和"text")。對於計算 機分類法,單詞"laptop"具有權重O. 68,單詞"text"具有權重-0. 03, 從而整個短語的權重為0.65。對於個人金融分類法,單詞"laptop"具有權 重-O. 30,單詞"text"具有權重-0. 17,從而整個短語的權重為-O. 47。對 於健康分類法,單詞"laptop"具有權重-O. 32,單詞"text"具有權重-0. 19, 從而整個短語的權重為-0. 51。對於旅遊分類法,單詞"laptop"具有權重 -0.07,單詞"text"具有權重O. 39,從而整個短語的權重為0. 32。因此, 短語"laptop text"對於計算機分類法具有最高權重,而對於其它分類法 具有相對低的權重。
0071在過程800的一些實施例中,當針對每個分類法對輸入短語的 分值進行識別時,語義內容路由器可能不僅要考慮獨立出現在輸入短語中的 單詞,而且要考慮這些單詞如何分布在輸入短語中。為此,語義內容路由器 可能在其中神經網絡中包括一個非線性的附加層。例如,在對輸入短語的單 詞分別進行分析之後,可以使用S形函數。
0072參照圖9,過程900用於訓練與概念分類器相關聯的路由器,
例如圖6的語義內容路由器610,從而使得路由器可以正確地識別可以對輸 入短語進行分類的一個或多個分類法。在這個短語學習過程中,路由器被提 供了 一系列作為對應於分類法的短語代表的經標記的短語。對於每個短語, 路由器對對應於每個分類法的域的可能性的分值進行識別。然後路由器修改 所述分值以使得這些分值更清楚地表明電子短語與分類法的一個具體域的 相關性。當路由器610和概念分類法125被初始配置後,可以執行過程900。 可替換地或附加地,可以周期性重現的方式執行過程900,從而對路由器610 進行更新。路由器的短語學習通過提供專用於域的附加單詞的過程來增強。
0073針對每個可能的分類法,路由器610將路由器的詞典中的每個 單詞的權重初始化為零(步驟905 )。例如,路由器可以生成一個表,例如圖 7中的表700,其中所有的分值均為零。如果之前已經執行了過程900,則路 由器可以不將權重初始化為零。
0074路由器識別出一個將要用來訓練路由器的短語集(步驟910)。 例如,該短語集可以由正在訓練路由器的用戶提供。短語集可以列在文件中 或者從可以由路由器存取的資料庫獲取。短語集可以從電子內容段識別,所 述電子內容段對於與路由器相應的域是典型的。路由器選擇一個短語(步驟 915),並且將短語的稀疏向量與當前的權重矩陣相乘(步驟920 )。路由器可 以使用圖8的過程800針對每個分類法識別出所選擇短語的權重。
0075路由器針對每個分類法識別出所選擇短語的目標權重(步驟 925 )。目標權重可以識別應當與所選擇短語相對應的一個分類法。所選擇短 語的目標權重可以由所選擇短語自身提供。例如,從中選擇出短語的文件或 資料庫可以包括所選擇短語的目標權重的標識。在一個實施例中,短語集中 的所有短語的目標權重可以是相同的。
0076路由器調整當前的權重矩陣,從而使得它能夠生成更接近於期 望結果的結果(步驟930 )。換句話說,根據所存儲權重是否正確地表明了所 選擇短語應當被路由至的由目標權重所表明的分類法,路由器可以從每個存 儲的權重上增加或減去一個預定的數值。例如,針對目標權重所指示的分類 法,路由器可以向包括在所選擇短語中的一個或多個單詞的所存儲的權重上 增加一個預定的數值。另外,路由器可以針對其它每個分類法從所選擇短語
的一個或多個單詞的所存儲的權重上減去一個預定的勒:值。路由器可以調整 所存儲的權重,從而使得所識別的權重更加接近目標權重。
0077路由器判斷路由器是否將通過所述短語集中的更多的短語進行 訓練(步驟935 )。如果是,則路由器選擇一個不同的短語(步驟915),將 短語的稀疏向量與當前的權重矩陣相乘(步驟920 ),針對每個分類法識別出 不同短語的目標權重(步驟925 ),並且調整當前的權重矩陣使得它生成一個 更加接近於期望結果的結果(步驟930 )。通過這種方式,路由器通過短語集 中的每個短語進行訓練,直至路由器已經通過短語集中的所有短語進行了訓 練,這種情況下過程900結束(步驟940 )。
0078在每次重複步驟915-940的過程中,表的一個或多個元素得到 調整,從而使得表的至少一個元素具有非零值。在對足夠大量的充分代表了 對應於分類法的不同域的短語進行訓練之後,表中的權重將能夠正確地標識 出包括對應單詞的電子內容的各個域。
0079參照圖10,過程1000用於將短語路由至適當的分類法以便進 行分類。適當的分類法被識別為對應於可能代表短語的域的分類法。過程 1000由概念分類器的路由器執行,例如圖6的語義內容路由器610。
0080路由器接收到將要進行分類的短語(步驟1005 )。短語可以在 路由器正在被訓練時被接收,或者當與包括短語的電子內容相關的高價值數 據正在被識別時被接收,例如當語義加權過程800輸出時(例如,從步驟 855 )。路由器針對多個可用分類法中的每個分類法對短語的權重進行識別 (步驟1010 )。針對分類法的短語的權重可以使用圖8的過程800進行識別。
0081路由器將針對分類法的短語的權重與一個閥值進行比較(步驟 1015)。閥值可以由用戶進行配置。在將權重與閥值進行比較之前,可以將 權重標準化。例如,最高的權重可以被設為1. 0,而其它權重則進行相應的 依比例調整。
0082然後3各由器可以將針對分類法的短語權重返回到一個外部應用 (步驟1020 )。外部應用可以使用所返回的權重來識別出哪個分類法應當被 用於分類短語,或者用於與分類短語無關的其它目的。在一些實施例中,權 重可以被直接返回到外部應用,而不用先進行標準化或與閥值進行比較。
0083在另一個實施例中,路由器去除沒有超出閥值的短語權重(步 驟1030 )。因此,對應於被去除的權重的分類法將不被用於分類短語。路由 器可以對剩餘的權重進行排序,例如,使得最大的權重位於最前面(步驟 1035 )。然後路由器將對應於剩餘權重的分類法標識符列表返回到外部應用 (步驟1040 )。作為結果,外部應用並未被提供權重的標識,而是被提供了 應當用於分類短語的分類法的標識。外部應用可以將短語發送到被標識的分 類法進行分類。在權重被排序的實施例中,第一個被標識的分類法可以表示 短語具有最高分值的分類法,該分類法可能是具有正確分類所述短語的最大 可能性的分類法。
0084上下文分析引擎105可用於在網站上實現有伯、值的貨幣化和導 航應用。在一個例子中,貨幣化的應用可以包括一個網賺TM應用。在一個例 子中,網賺TM應用在網頁上顯示廣告,這些廣告與網頁的內容或者用於獲得 網頁的搜索查詢的內容具有很高的相關性。舉例來說,網賺""應用對搜索查 詢、URL(例如,網頁)、RSS文件、博客或任何文本塊進行分析,並且使用 語義內容路由器和可用的廣告目錄,網賺1"應用定位與搜索查詢、URL、 RSS 文件、博客或文本塊有關和/或相關的內容(例如,廣告),並且將這些內容 (例如,廣告)^C到互^:網用戶所請求的網頁上。
0085貨幣化和導航應用的另一個可以使用上下文分析引擎105實現
的例子是贊助導航應用。贊助導航應用使用上下文分析引擎105來分析或搜 索與發布者網站相關聯的文檔(例如,網頁),並且使用一個或多個分類法
來提取和分類出現在其中的概念。為此,贊助導力元應用識別出與所提取出的 概念相關聯的分類法,並且使用該分類法來分析所提取的概念以及生成一個 分類後的概念集。然後該分類後的概念集被用於與所述分類法或另一個相關
別所提取概念的相關內容時,贊助導航應用對所提取的概念和相關內容(使 用分類法被識別)進行超連結處理,並且在網頁中以廣告單元的形式顯示所 述超連結。該廣告單元可以由廣告商進行贊助,因此其名稱為"贊助導航"。
"內容"的網頁。上面描述的過程將在下面參照圖ll進行更加詳細的描述,
並且稍後會以圖12中所示的例子中進行說明。
0086圖11描述了一個贊助導航應用使用的示例性的過程1100,該 過程能夠分析與發布者的網站相關聯的網頁以及使用一個或多個分類法對 出現在其中的概念進行提取和分類。使用上下文分析引擎105中的各個軟體 模塊,過程1100首先在網頁中提取與發布者網站相關聯的概念(步驟1110 )。 在一個例子中,提取概念包括提取與網頁相關聯的文本並且提取出現在文本 中的名詞短語。可替換地或附加地,提取概念可以包括提取與網頁相關聯的 文本並且提取出現在文本中的適當名詞。適當名詞的列表可用於從文本中識 別出適當的名詞。適當名詞可以包括人名(例如,名人、政治家、運動員和 作家)、地名(例如,城市、州、國家和地區)、企業名稱、公司名稱以及產 品名稱。用戶可以修改適當名詞列表來僅包括那些與用戶感興趣的企業相關 的適當名詞。在另一個實施例中,LSA可用於識別包括在所提取文本中的概 念。這個實施例已經在前面參照圖4和圖5進行了詳細的描述,在此不再進 一步描述。
0087在從網頁提取概念之後,贊助導4元應用識別出至少一個分類法 來對提取出的概念進行分析並且生成一組分類後的概念集(步驟1120)。分 類法可以對應於與所提取出的概念相關的域。在一個實施例中,贊助導航應 用可以使用例如過程800、 900和1000之類的過程來對與所提取出的概念相 關的分類法進行識別,這些過程已經參照圖8-10進行了詳細地描述,所以 在此不再進一步進行描述。
0088贊助導航應用使用分類法來生成一組分類後的概念集。在一個 例子中,經分類的概念可以包括與一個或多個類別或信道特別地相關聯的提 取概念,所述類別或信道為例如體育、信託基金和/或計算機類別。生成一 組分類後的概念集之後,贊助導航應用使用分類法來識別與所提取出的概念 相關聯的出現在發布者網站上的其它網頁中的其它相關內容和/或有關數據 (步驟1130)。可替換地或附加地,贊助導航應用使用分類法來識別出現在 其它網站的網頁中的相關內容和/或有關數據。
0089為了識別相關內容,在一個實施例中,贊助導航應用引用一個 資料庫。該資料庫可以位於上下文分析引擎105中或可以遠離上下文分析引
擎105,例如,位於內容提供商110中。在任何一種情況下,該資料庫存儲 有基於類別進行索?I的數據。該數據可以包括出現在發布者網站或其它網站 的網頁中並與所提取出的概念相關聯的相關內容。該相關內容使用分類法進 行分類。
0090贊助導航應用訪問所述資料庫並對與所分類概念具有相同類別 的相關內容進行識別。可替換地或附加地,贊助導航應用可以對類別類似或 相關於與所分類概念相關聯的類別的內容進行識別。在一個例子中,贊助導 航應用可以參照一個將一個或多個類別與一個或多個其它類別相聯繫(例 如,將健康類別與體育類別相聯繫)的表,用於判斷屬於其它類別的其它內 容是否應當被識別為所分類內容的相關內容。如果是,則贊助導航應用在數 據庫中識別出該內容並且在網頁上顯示該內容。用 一個特定的例子進行說 明,當所分類概念屬於健康類別時,贊助導航應用訪問資料庫來識別屬於健 康類別的相關內容。可替換地或附加地,贊助導航應用可以參照上述表,從 而認識到健康類別是與體育類別(或其它不同於健康類別的類別)相關聯的。 在這種情況下,贊助導航應用在資料庫中識別出屬於體育類別的相關內容。
0091在另一個實施例中,不訪問事先存儲有與發布者網站或其它網 站的網頁相關聯的相關內容的資料庫,取而代之的是,贊助導航應用可以使 用分類法來直接搜索發布者網站或其它網站的網頁,以識別出與所分類內容 具有相同或近似類別的內容。在任一種情況下,贊助導航應用對所提取的概 念和相關內容進行超連結處理,並且在發布者網站的網頁中以廣告單元的形 式顯示這個信息(步驟1140)。所述廣告單元可以由廣告商贊助(例如,"贊 助導航")。在一個稍有不同的情況下,贊助導航應用可以在與發布者有合同 關係的其它內容提供商的網頁中顯示廣告單元。
0092在該廣告單元中選擇(例如,"點擊")任何超連結將會"觸發" 多個廣告遞送選擇,例如有關主題的"轉換廣告"、"直線"文本廣告或圖形 廣告。轉換之後,用戶可以瀏覽到廣告或者被連結到所述概念的附加"內容" 淨皮顯示的網站的相應部分。
0093圖12所示為補充有由HypraveTM提供贊助的廣告單元的網頁屏 幕截圖1200。該廣告單元包括超連結至出現在發布者網站的其它網頁上的相
關內容的概念短語。具體地,發布者的網站被分析,並且使用精確確定的分
類法對概念進行^是:取和分類。例如,如圖所示,使用過程iioo識別出現在 網頁1200上的例如"高血壓性心臟病,,之類的概念以及例如出現在同一網 頁或發布者網站的其它網頁上的諸如"缺血性心臟病"之類的其它相關內容,
將他們做超連結處理並在得到贊助的廣告單元1210中顯示。同樣地,網頁 1200的瀏覽者可以容易地瀏覽與"高血壓性心臟病,,相關聯的出現在發布者
網站的其它網頁中的其它相關內容。
0094其它實施例也落入本發明權利要求書的範圍中。例如,雖然前
有出現在其中的概念,但是贊助導航應用也可以容易地對出現在其它資料庫 中的其它文檔進行相同的操作。
權利要求
1、一種用相關內容補充輸入內容的方法,所述方法包括:接收將要為其識別相關內容的輸入內容;提取與所述輸入內容相關聯的文本;在所述所提取的文本中識別出概念;識別至少一個與所述概念相關聯的分類法;使用所述至少一個分類法來分析所述概念,從而生成一組與所述至少一個分類法的一個或多個類別相關聯的經過分類的概念集;將所述經過分類的概念遞交給一資料庫,其中,所述資料庫存儲有基於其類別進行索引的數據;請求所述資料庫找出與所述經過分類的概念相關聯的所述相關內容;從所述資料庫接收在響應於所述請求後找出的所述相關內容;將所述相關內容補充給所述輸入內容;以及使用戶能夠瀏覽所述相關內容。
2、 根據權利要求1所述的方法,其中,所述輸入內容包括用於獲得 搜索結果的搜索查詢。
3、 根據權利要求2所述的方法,其中,提取與所述輸入內容相關聯 的文本的步驟包括提取構成所述搜索查詢的關鍵詞。
4、 根據權利要求2所述的方法,其中,提取與所述輸入內容相關聯 的文本的步驟還包括獲取所述搜索結果;以及 從所述獲取的搜索結果中提取出所述文本。
5、 根據權利要求1所述的方法,其中 接收所述輸入內容的步驟包括接收URL;以及 提取與所述輸入內容相關的文本的步驟包括 獲取一位於所述URL的網頁;以及 提取與所述網頁相關的文本。
6、 根據權利要求1所述的方法,其中接收所述輸入內容的步驟包括接收RSS文件;以及文件中的文本。
7、 根據權利要求1所述的方法,其中 接收所述輸入內容的步驟包括接收一博客中的入口 ;以及提取與所述輸入內容相關聯的文本包括提取所述博客中的所述入口 。
8、 根據權利要求1所述的方法,其中,所述相關內容包括對應於一個或多個與所述輸入內容有關或相關的每點擊成本、每次印象費用或者每 行動成本條件的廣告或贊助連結。
9、 根據權利要求1所述的方法,其中,在所述提取文本中識別所述概 念包括識別包括在所述文本中的 一個名詞短語或適當名詞。
10、 根據權利要求1所述的方法,其中,接收所述相關內容還包括 識別所述經過分類的^l既念的類別;以及所述資料庫內出現的與所識別類別相關聯的內容識別為所述相關內容。
11、 一種用於向輸入內容補充相關內容的系統,所述系統包括 一上下文分析處理裝置;以及一存儲裝置,存儲用於使得所述上下文分析處理裝置進行以下操作的 指令接收將為其識別相關內容的輸入內容; 提取與所述輸入內容相關的文本; 在所述所提取的文本中識別概念; 識別出至少 一 個與所述概念相關聯的分類法;使用所述至少一個分類法對所述概念進行分析,從而生成一組與所述 至少一個分類法的一個或多個類別相關聯的經過分類的概念集;將所述經過分類的概念遞交至一資料庫,其中所述資料庫存儲基於其 類別進行索引的數據;請求所述資料庫找出與所述經過分類的概念相關聯的相關內容;從所述資料庫接收在響應於所述請求後找出的所述相關內容;將所述相關內容補充至所述輸入內容;以及使用戶能夠瀏覽所述相關內容。
12、 根據權利要求11所述的系統,其中,所述輸入內容包括用於獲 得搜索結果的搜索查詢。
13、 根據權利要求12所述的系統,其中,為了提取出與所述輸入內 容相關的文本,所述指令包括用於提取構成所述搜索查詢的關鍵詞的指 令。
14、 根據權利要求12所述的系統,其中,為了提取出與所述輸入內 容相關聯的文本,所述指令還包括用於進行以下操作的指令獲得所述搜索結果;以及從所述獲得的搜索結果中提取出所述文本。
15、 根據權利要求11所述的系統,其中為了接收所述輸入內容,所述指令包括用於接收URL的指令;以及 為了提取與所述輸入內容相關聯的文本,所述指令包括用於進行以下 操作的指令獲取位於所述URL上的網頁;以及 提取與所述網頁相關聯的文本。
16、 根據權利要求11所述的系統,其中為了接收所述輸入內容,所述指令包括用於接收RSS文件的指令;以及為了提取出與所述輸入內容相關聯的文本,所述指令包括用於提取包 括在所述RSS文件中的文本的指令。
17、 根據權利要求11所述的系統,其中為了接收所述輸入內容,所述指令包括用於接收博客中的入口的指 令;以及為了提取出與所述輸入內容相關聯的文本,所述指令包括用於提取包 括在所述博客中的所述入口的指令。
18、 根據權利要求11所述的系統,其中,所述相關內容包括對應於一個或多個與所述輸入內容有關或相關的每點擊成本、每次印象費用、每 行動成本條件的 一 廣告或贊助連結。
19、 根據權利要求11所述的系統,其中,為了識別出所述所提取文本 中的概念,所述指令包括用於識別包括在所述文本中的一個名詞短語或適當 名詞的指令。
20、 根據權利要求11所述的系統,其中,為了接收所述相關內容,所 述指令還包括用於進行以下操作的指令識別出所述經過分類的;f既念的類別;以及將所述資料庫中並且與所識別出的類別相關聯的內容識別為所述相關 內容。
21、 一種通過一個用戶界面補充文檔的方法,所述用戶界面包括與一個 或多個出現在所述文檔中的概念相關聯的相關內容,所述方法包括提取出現在被存儲於存儲器中的文檔中的概念; 識別出與所述提取出的概念相關聯的一個分類法; 使用所述分類法分析所述提取出的概念來生成一組經過分類的概念集; 使用所述分類法或另一個相關分類法,在存儲在相同或不同存儲器中的 多個其它文檔中,識別出與所述經過分類的概念相關聯的相關內容; 對所述提取的概念和相關內容進行超連結處理;以及述用戶界面由內容提供商提供贊助。
22、 根據權利要求21所述的方法,其中,所述提取概念包括 提取與所述文檔相關聯的文本;以及提取出包括在所述文本中的一個名詞短語或適當名詞。
23、 根據權利要求22所述的方法,其中,所述適當名詞包括人名、企 業名稱、公司名稱或產品名稱。
24、 根據權利要求21所述的方法,其中,所述提取概念包括提取出現 在網站的網頁中的概念。
25、 根據權利要求21所述的方法,所述方法還包括 從所顯示的超連結中接收超連結選擇標識;以及 響應於所述接收到的標識,顯示與所選擇的超連結相關聯的網頁,其中,所述網頁包括與所述提取的概念相關的附加內容。
26、 根據權利要求21所述的方法,其中,贊助的內容提供商與所述發 布者為同一實體。
27、 根據權利要求21所述的方法,其中,贊助的內容提供商與所述發 布者為不同實體。
28、 根據權利要求21所述的方法,其中,使用所述分類法或另一個相檔中識別出與經過分類的概念相關聯的相關內容,其中,所述相關內容與所 述經過分類的概念屬於相同的類別。
29、 根據權利要求28所述的方法,其中,使用所述分類法或另一個相 關分類法的步驟還包括判斷所述分類法是否與另一個分類法相關;以及如果判斷結果是所述分類法與另 一個分類法相關,則使用其它相關的分 類法在相同或不同存儲器中的多個其它文檔中識別出與所述經過分類的概 念相關聯的相關內容。
30、 根據權利要求29所述的方法,其中,所述相關內容屬於與所述經 過分類的概念的類別不同但相關的類別。
31、 根據權利要求21所述的方法,所迷方法還包括通過參照列出了相 互關聯的分類法的表來識別所述其它相關分類法,從而識別出與所述提取出 的概念的分類法相關聯的所述其它相關分類法。
32、 才艮據權利要求21所述的方法,其中,所述相關內容與所述經過分 類的概念屬於相同的類別。
33、 根據權利要求21所述的方法,其中,所述相關內容屬於與所述經 過分類的概念的類別不同但相關的類別。
34、 一種用於從多個對一輸入短語進行分類的分類法中識別出 一個分類 法的方法,所述方法包括提供多個分類法,其中每個所述分類法對應於一特定的知識域; 接收一輸入短語,所述輸入短語將由所述多個分類法中的至少 一個分類 法進行分類;將所述接收到的輸入短語表徵為 一個或多個單詞; 從所述多個分類法中選擇出一第一分類法; 對於選擇的所述第一分類法,識別出與所述一個或多個單詞中的每個單詞相關聯的存儲權重;對於選擇的所述第一分類法,對與所述一個或多個單詞中的每個單詞相 關聯的存儲權重進行累加,從而識別出與所述輸入短語相關聯的第一權重;從所迷多個分類法中選擇出一第二分類法;對於選擇的所述第二分類法,識別出與所述一個或多個單詞中的每個單 詞相關聯的存儲權重;對於選擇的所述第二分類法,對與所述一個或多個單詞中的每個單詞相 關聯的存儲權重進行累加,從而識別出與所述輸入短語相關聯的第二權重;將與所述輸入短語相關聯的所述第 一權重和第二權重與 一個閥值進行 比較;根據比較的結果,將所述輸入短語路由到所述第 一分類法或第二分類法 進行分類。
35、 根據權利要求34所述的方法,其中,接收所述輸入短語包括接收 概念,所述概念包括在正在為其識別補充的相關電子內容的電子內容中。
36、 根據權利要求34所述的方法,其中,表徵所述輸入短語包括將所 述輸入短語分割為個別的單詞。
37、 根據權利要求34所述的方法,其中,對於所述第一分類法和第二 分類法,識別出與所述一個或多個單詞中的每個單詞相關聯的存儲權重包括 通過參照一個表來對所存儲的權重進行識別,所述表包括與所述一個或多個 單詞相關^t的權重。
38、 根據權利要求37所述的方法,其中,所述表包括 一用於列出詞典中的每個單詞的行;一用於列出所述多個分類法中的每個分類法的列; 位於每個行和列交叉處的分值,其中,每個交叉處的所述分值表示包括定分類法進行分類的可能性。
39、 根據權利要求34所述的方法,其中,對所述輸入短語進行路由包 括將所述輸入短語路由至所述第 一分類法和第二分類法進行分類。
全文摘要
根據一個總的方面,本發明涉及一種用於向輸入內容補充相關內容的方法,所述方法包括接收所述輸入內容以及從所述輸入內容中識別出概念。所述方法還包括對與所述概念相關聯的分類法進行識別,並且使用該分類法對所述概念進行分析來生成一組經過分類的概念集。所述方法還包括將經過分類的概念發送至一資料庫來對所述相關內容進行識別,以及將所述相關內容補充至所述輸入內容。
文檔編號G06Q30/00GK101385025SQ200680053223
公開日2009年3月11日 申請日期2006年12月22日 優先權日2005年12月22日
發明者塞勒·迪旺德, 拉維·卡拉普塔普, 麥可·布朗·薩特勒, 阿傑·斯拉瓦納普蒂, 阿沙沃·布萊克威爾 申請人:清晰傳媒廣告有限公司