新四季網

用於確定文檔的含義以使文檔與內容匹配的方法和系統的製作方法

2023-08-09 14:46:01 2

專利名稱:用於確定文檔的含義以使文檔與內容匹配的方法和系統的製作方法
技術領域:
本發明一般地涉及文檔。更具體地,本發明涉及用於確定文檔 的含義以4吏文檔(document)與內容(content)相匹配的系糹克禾口方法。
背景技術:
例3口,文檔(例3o網頁)可以與網際網路上的其它內容相匹配。 文檔包4舌,例如,i者如HTML、 XML、 XHTML的各種格式的網頁; 可移植文檔才各式(PDF)文件;以及文字處理器和應用程式文檔文件。
使文檔與內容相匹配的一個實例是在網際網路廣告中。例如,網 站的發行人可以允許在其網頁上發布廣告以收費。當發4亍人希望在 網頁上向用戶顯示廣告時,服務商能夠向發行人衝是供在網頁上顯示 的廣告。月l務商可以依據諸如關於用戶的人口統計信息、網頁類別 (例如,體育或是娛樂)、或網頁內容的多種因素來選擇廣告。月良 務商也可以使網頁內容與諸如來自關鍵字列表的關鍵字的知識條 目(knowledge item)相匹配。之後可以在網頁上顯示與匹配的關4建字相關聯的廣告。用戶可以操作滑鼠或另外的輸入設備並"點擊,,廣
告,以^L看^是供^寺售商品或月良務的廣告商網站上的網頁。
在網際網路廣告的另 一 實例中,在發行人網頁上在相關連結或類 似部分(section)中顯示實際的匹配關鍵字。與上述實例類似,網 頁的內容與一個或多個關4建字相匹配,之後該關4建字淨皮顯示在例如 相關連結部分中。當用戶點擊特定的關鍵字時,可以將用戶引導至 可能包括廣告和常規搜索結果的混合的搜索結果頁面。廣告商投標 關鍵字,以使他們的廣告出現在這樣的該關鍵字搜索結果頁面上。 用戶可以才喿作滑鼠或另外的輸入設備並"點擊"廣告,以觀看才是供 ;降售商品和月良務的廣告商網站上的網頁。
廣告商希望網頁的內容與廣告密切相關,因為如果該廣告與用 戶在網頁上所閱讀的內容高度相關,則閱讀該網頁的用戶更有可能 點擊該廣告併購買所提供的商品或服務。網頁的發行人也希望廣告 的內容與網頁的內容相匹配,因為如果用戶點擊了廣告,發行人通 常會獲得才艮酬;而就每文感內容而言,不匹配是廣告商或是發行人都 不希望的。
文檔(例如網頁)可以包括多個區,諸如,就網頁而言的框架 (frame)。 一些區可以與文檔的主要內容不相關。因此,不相關區
的內容可能用不相關的主題淡化整個文檔的內容。因此,為了使文 檔與內容相匹配,在確定源文檔的含義時,需要分片斤最相關區的源
文檔。

發明內容
本發明的實施例包括確定文檔的含義以使文檔與內容相匹配 的系統和方法。本發明實施例的一個方面包括訪問源文章(source article,源物、源文件);識別源文章中的多個區;確定與每個區相
7關耳關的至少一個局部和X念(local concept);分析每個區的局部相無念, 以識別任何不相關區;刪除與不相關區相關聯的局部概念,以確定 相關概念;分析相關概念,以確定源文章的源含義;以及使源含義 和與來自一組條目的條目相關耳關的條目含義相匹配。該條目可以本 身是內容,或可以與內容相關聯。在一個實施例中,本發明進一步 包括在源文章上顯示匹配的條目。在另一實施例中,本發明進一步 包括在源文章上顯示與該條目相關聯的內容。本發明的其它方面是 指具有與前述的方面相關的特徵的計算才幾系統和計算才幾可讀介質。


參照附圖閱讀以下具體實施方式
,可以更好地理解本發明的這 些和其它特4正、方面、以及伊0點,附圖中
圖l示出了根據本發明的一個實施例的系統的框圖2示出了才艮據本發明的一個實施例的方法的流程圖;以及
圖3示出了圖2所示的方法的子程序的流程圖。
具體實施例方式
本發明包括用於確定文檔的含義以-使文檔與內容相匹配的方 法和系統。下面將詳細參照文中和附圖中所示的本發明的典型實施 例。將在所有附圖和以下i兌明中4吏用相同的附圖標號表示相同或類 似的部分。
可以根據本發明構建各種系統。圖l是示出了本發明的典型實 施例可以在其中操作的典型系統的示意圖。本發明還可以操作其它
系統並在其它系統中實^L。圖1中示出的系統100包括多客戶機裝置102a-n,伺服器裝置 104、 140和網絡106。示出的網絡106包括互耳關網。在其他的實施 例中,可以使用其他的網絡,例如內聯網。而且,根據本發明的方 法可在單個計算機上運行。示出的客戶機裝置102a-n每個均包括計 算機可讀介質,例如在示出的實施例中被耦合到處理器110的隨機 存儲器(RAM) 108。處理器IIO執行存儲在存儲器108中的計算 機可執行的程序指令集。這種處理器可包括樣i處理器、ASIC、和狀 態機。這種處理器包括或可以與介質(例如計算機可讀介質)進行 通信,該介質存儲指令,當指令被計算機執行時,使處理器執行本 文所描述的步驟。計算機可讀介質的實施例包括,但是不限於此, 電子的、光的、磁的、或其他存儲器或能夠將計算機可讀指令提供 給處理器(例如與觸摸敏感的輸入裝置聯繫的處理器)的傳輸裝置。 其他合適的介質包括,但是不限於此,軟盤,CD-ROM,》茲盤,存 儲器片,ROM, RAM, ASIC,配置的處理器(configured processor ), 所有光介質,所有^茲帶、或其他^茲介質,或計算一幾處理器能從其讀 耳又指令的任何其他的介質。並且,各種其他形式的計算才幾可讀介質 可傳輸或運送指令到計算機,包括路由器,專用或公共網絡,或其 他傳輸裝置或通道,既有有線的又有無線的。這些指令可包括由任 《可計算才幾編考呈i吾言(例如,包4舌C、 C++、 C#、 Visual Basic、 Java、 和JavaScript)編寫的4氣碼。
客戶才幾裝置102a-n也可以包括許多外部或內部裝置,例如鼠 標、CD-ROM、鍵盤、顯示器、或其他輸入或輸出裝置。客戶機裝 置102a-n的實例是個人計算機、數字助理、個人數字助理、可攜式 電話、行動電話、智慧型電話、尋呼機、數位化板、可攜式計算機、 基於處理器的裝置、和類似類型的系統和裝置。 一般而言,客戶機 裝置102a-n可以是任何類型的連接到網絡106的基於處理器的平 臺,並且其和一個或多個應用程式交互。示出的客戶機裝置102a-n 包括執行瀏覽器應用程式(例如,微軟公司6.0版本的InternetExplorerTM,網景通ifU^司的7.1版本的Netscape NavigatorTM,以及 蘋果公司1.0版本的Safari )的個人計算機。通過客戶機裝置 102a-n,用戶112a-n能夠通過網絡106 ;f皮此通信以及與耦合到網絡 106的其j也系統和裝置ii/f言。
如圖l所示,月良務器裝置104、 140也^皮耦合到網絡106。示出 的文檔伺服器裝置104包括執行文檔引擎應用程式的伺服器。示出 的內容伺服器裝置140包括執行內容引擎應用程式的伺服器。系統 100也可以包括多個其他的月良務器裝置。類似於客戶才幾裝置102a-n, 每個示出的伺服器裝置104、 140包括耦合到計算機可讀存儲器118、 144的處理器116、 142。每個月良務器裝置104、 140 ^皮描述為單一 的計算機系統,但是其可以被實現為計算機處理器的網絡。伺服器 裝置104、 140的實例是伺服器、大型計算機、網絡計算機、基於 處理器的裝置、和類似類型的系統和裝置。客戶機處理器110和服 務器處理器116、 142可以是許多公知的計算4幾處理器中的任意一 種,侈'H口來自Santa Clara, California的Intel公司禾口 Schaumbug, Illinois的Motorola 7>司的處J裡器。
文檔伺服器裝置104的存儲器118包含文檔引擎應用程式,也 即通常所-說的文檔引擎124。文檔引擎124確定源文章的含義,並 將源文章和條目匹配,例如,另一個文章或知識條目。條目可以是 內容本身或可以和內容相關Jf關。可以/人連4妄到網絡106的其他的裝 置才企索源文章。文章(article,文件、物)包括文檔,例如,各種 格式的網頁,例如HTML、 XML、 XHTML、可移才直文檔才各式(PDF ) 文件,以及文字處理器、資料庫、和應用程式文檔文件、或網絡(例 如網際網路)、個人電腦、或其他計算或存儲裝置上可提供的音頻、 -現頻、或任意類型的任意其他信息。此處描述的實施例通常與文檔 有關,但是實施例可以在任意類型的文章上操作。知識條目是能夠 通過符號表示的任^可物理的和非物理的東西,可以是,例如,關鍵: 字、節點、目錄、人、糹既念、產品、短i吾、文檔、和其他知識單位。知識條目可採取任何形式,例如,單字、術語、短語、文檔、或一 些其他結構化的和非結構化的信息。在此描述的實施例通常與關4建 字有關,^旦是實施例可以在任何類型的知識條目上才喿作。
示出的文檔引擎124包;^舌預處理器134、含義處理器136、和 匹配處理器137。在示出的實施例中,每個均包括駐留在存儲器118 中的計算機代碼。文檔引擎124接收放置於源文檔上的內容的請求。 此請求可以從連接到網絡106的裝置接收。內容可包括文檔,例如 網頁和廣告,以及知識條目,例如關鍵字。預處理器134接收源文 檔並分析源文檔,以確定文檔中包含的概念和文檔中的區。概念可 以用和其相關的簇,或字集或術語來定義,例如,其中字或術語可
以是同義詞。概念也可以用各種其他信息來定義,例如,相關概念 的關係、相關概念的關係強度、詞類、 一般用法、使用頻率、概念 寬度、和其他關於相無念在語言中的用法的統計。含義處理器136分 析積克念和區,以消除與源文檔的主4既念無關的區。然後含義處理器 136從剩下的區中確定源文檔的源含義。匹配處理器137將源文檔 的源含義和來自一組條目的條目的含義相匹配。
內容伺服器裝置140的存儲器144包括內容引擎應用程式,即 所說的內容引擎146。在示出的實施例中,內容引擎包括駐留於存 儲器144中的計算機代碼。內容引擎146接收來自文檔伺服器裝置 104的匹配條目,並將該條目或與該條目相關的內容放置在源文檔 中。在一個實施例中,內容引擎146接收來自匹配引擎137的匹配 關鍵字,並使文檔(例如廣告)和其相關聯。然後將廣告發送到請 求者的網站,並i文置在源文檔(例如網頁上的4匡架)中。
文檔伺服器裝置104也提供對在此實例中示出的含義資料庫 120中的其他存儲元件(例如含義存儲元件)的訪問。含義資料庫 可用於存儲與源文檔相關的含義。內容伺服器裝置140也提供對在 實施例中示出的內容資料庫148中的其他存儲元件(例如內容存儲元件)的訪問。內容資料庫可用於存儲條目以及與條目相關的內容, 例如關4建字和相關的廣告。^t據存儲元件可包括任何一種存儲數據 的方法或多種方法的組合,包括但不限於陣列,哈希表,列表以及
對(pair)。其他的類似類型的數據存儲裝置可被伺服器裝置104和 140訪問。
應該指出,本發明可包括具有與圖1中示出的結構不同的結構 的系統。例如,在才艮據本發明的一些系統中,預處理器134和含義 處理器136可以不是文檔引擎124的一部分,並可以脫4/l4丸4亍它們 的操作。在一個實施例中,當文檔引擎爬行文檔(例如網頁)時, 文檔的含義4皮周期性地確定。在另一個實施例中,當4妄收到對;故置 在文檔中的內容的請求時,文檔的含義被確定。圖l中示出的系統 IOO只是典型的,並用於解釋在圖2-3中示出的典型方法。
在圖1示出的典型實施例中,用戶112a能訪問連接到網絡106 的裝置上的文檔,例如網站上的網頁。例如,用戶112a可在新聞 網站上訪問包含關於在Washington飛蠅釣(fly fishing )鮭魚的故事 的網頁。在此實例中,網頁包含四個區標題部分,包含故事的標 題、作者、和故事的一句話概要;主要故事部分,包含故事的正文 和圖片;涉及賣汽車的橫幅廣告;以及連結部分,包含到該網站上 其他網頁(例如國家新聞、天氣、和體育)的鏈4妄。新聞網站的所 有者可能想要出售源網頁上的廣告空間,乂人而經由網糹各106向文檔 伺服器104發送^f吏一個條目(例如廣告)顯示在網頁上的請求。
為了將源網頁和條目相匹配,首先確定源網頁的含義。文檔引 擎124i^問源網頁,並可以4妄收該網頁。網頁的源含義可能先前已 經-敗確定了 ,並且可被存儲在含義資料庫120中。如果源含義先前 已經-故確定了,那麼文檔引擎124衝企索源含義。如果網頁的源含義還沒有淨皮確定,則予貞處理器134首先識別網 頁中包含的概念和網頁中包含的區。例如,預處理器可以確定網頁 具有四個區,對應於標題區、故事區、 一黃幅廣告區、和《連^接區,並 且網頁包含關於鮭魚、飛蟲€釣、Washington,汽車、新聞、天氣、 和體育的概念。這些區不必對應於網頁上的框架。含義引擎然後確 定每個區的局部扭克念,並4非列所有局部扭無念。可應用多種加4又系教: 排列這些概念,例如,區的重要性、概念的重要性、概念的頻率、 出現該概念的區的數量、以及概念的寬度。
含義引擎136然後識別與大部分相剋念無關的區,並刪除和它們 相關的局部概念。在此實例中,橫幅區和連結區不包含和故事特別 地相關的概念,從而,涉及這些區的概念被刪除。然後含義引擎基 於餘下的概念確定源。含義可以是加權的概念的向量。例如,含義 可以是鮭魚(40% ),飛蟲€釣(40% ),以及Washington (20% )。
通過匹配處理器137可以將該含義匹配到條目。條目可包括, 文檔,例如網頁和廣告,以及知識條目,例如關4定字,並且能夠,人 內容伺服器裝置140接收到。條目可以存儲在內容資料庫148中。 例如,如果條目是關鍵字,例如,飛蠅釣、背包、CD、和旅行,則 匹配引擎將源含義和與關鍵字相關的含義進行比較,以確定匹配。 可以l吏用偏離因子(biasing factor ),例如和每個關4建字相關的每次 點擊數據的成本。例如,如果關鍵字飛蠅釣的含義是一個比關鍵字 旅行的含義更接近的匹配,但是當前已經購買了關鍵字旅行的廣告 商具有較高的每次點擊率成本,含義引擎可以將源含義和關^t字旅 行匹配。內容過濾器也能用於過濾出成人內容或敏感內容。
匹配的關4建字可以由內容月良務器裝置14(U妻收。內容引擎146
將廣告和匹配的關4建字關耳關,並將廣告顯示在源網頁上。例如,如 果旅行這個關鍵字被匹配了 ,則內容引擎將在包含關於在 Washington飛蠅釣鮭魚故事的源網頁上顯示和關鍵字旅行相關的廣
13告。如果用戶112a將其輸入裝置指向廣告並點擊它,則用戶可被 引導到與該廣告相關的網頁。
才艮據本發明可以#1行各種方法。才艮據本發明 一個典型方法包括 it問源文章;在源文章中識別多個區;確定和每個區相關的至少一 個局部概念;分析每個區的局部概念以識別任何無關區;刪除和任 何無關區相關的局部概念以確定相關概念;分析相關概念以確定用 於該源文章的源含義;以及將源含義和條目含義匹配,該條目含義 與來自一組條目的條目相關。可以使用偏離因子以將源含義和條目 含義匹配。源含義可以是加權的概念的向量。
在一些實施例中,該方法還包括在源文章上顯示匹配的條目。 在這些實施例中,源文章可以是網頁,並且匹配的條目可以是關鍵 字。可選地,源文章可以是網頁,並且匹配的條目可以是廣告。
在一些實施例中,該方法還包括在源文章上顯示和匹配條目相 關的內容。在這些實施例中,源文章可以是網頁,匹配的條目可以 是關鍵字,並且相關的內容可以是廣告。此外,源文章可以是第一 網頁,匹配的條目可以是第二網頁,以及相關的內容可以是廣告。 可選地,源文章可以是第一網頁,匹配的條目可以是第二網頁,以 及相關的內容可以是到第二網頁的連結。
在一些實施例中,確定至少一個局部扭無念涉及為每個區中的每 個局部概念確定分數。在每個區中具有最高分數的局部概念是最相 關的局部扭X念。此外,識別無關區涉及首先確定每個局部扭X念的》f 正分數。接下來,基於修正分數,確定包含所有局部概念的經排列 的全局列表。刪除合併修正分數對全局列表的貢獻小於 總分數的預 定量的局部概念,以產生結果列表。然後,確定在結果列表中具有 最不相關局部概念的無關區。然後從結果列表中刪除和無關區相關的局部概念,以生成相關概念的列表。而且,通過歸一化用於相關 概念的修正分數來確定源含義。
才艮據本發明另一個典型方法,包括訪問源文章;在源文章中識 別至少第一內容區和第二內容區;確定與第一內容區相關的至少第 一局部概念,以及確定與第二內容區相關的至少第二局部概念;至 少部分地基於第一局部概念,將第一內容區和來自一組條目的第一 條目匹配;以及至少部分地基於第二局部概念,將第二內容區和來 自一《且條目的第二條目匹配。
圖2到圖3詳細地示出了根據本發明的典型方法200。因為有 多種執行根據本發明的方法的方式,這裡以實例的方式提供了典型 方法。圖2中示出的方法200可以由各種不同的系統執行,或者實 現。下面通過實例描述由圖1所示的系統100執行的方法200,並 在解釋圖2到圖3的實例方法時參考系統100的各元件。示出的方 法200提供了源文檔含義的確定,以將源文檔和條目匹配。
圖2和圖3中所示的每個塊表示在典型方法200中才丸4亍的一個 或多個步一驟。參照圖2,在塊202中,實例方法200開始。塊202 之後是塊204,在該塊中文檔被訪問。例如文檔可以被在網絡1〇6 或其^也源上的裝置訪問和4妄收。
塊204之後是塊206,在該塊中確定源文檔的含義。在示出的 實施例中,通過將文檔分區,刪除無用的區,和分析文檔剩餘區中 包含的概念,來確定源文檔的含義。例如,在示出的實施例中,預 處理器134最初確定源文檔中包含的概念,並且確定文檔中的區。 含義處理器136排列概念,並除去與大部分概念無關的區以及相關 的概念。從剩餘的概念中,含義處理器136確定文檔的源含義。圖3示出了用於4丸行圖2中所示的方法200的子程序206。子 程序206提供了接收的源文檔的含義。子程序的一個實例如下。
子禾呈序在塊300處開始。在塊300處,源文檔^皮預處理以確定 文檔中包含的概念。這可以通過自然語言和文本處理以將文檔解釋 成文字,然後將文字和概念對應(align)來實現。在一個實施例中, 例如,首先通過自然i吾言和文本處理確定^f應於文字的標H然後 將這些標記和互連含義的語義網絡中包含的標記匹配。乂人匹配的標 記,然後從語義網絡中確定術語。然後用於確定的術語的概念被指 定,並給出與術語相關的可能性。
塊300之後是塊302,在該塊中識別文檔的區。例如,基於特 定的搜索法(heuristics),包括4各式化信息,可以確定文檔的區。例 如,對於一個源文檔,其是一個包括HTML標籤的網頁,這些標籤 可用於幫助識別區。例如,在〈title、…々title〉標籤內的文本能夠一皮 標記為標題區的文本。在其中超過70 %的文本是在標籤〈a、.. .</a〉 內的,殳落內的文本可標記為在連結區。文本的結構也能夠用於幫助 識別區。例如,短,殳落中的文本或表中的欄,沒有句子結構,例如, 沒有動詞、才及少的字、或沒有標點結束句子,可標i己為處於列表區 中。具有動詞和才示點的長句子中的文本,可才示i己為部分文本區。當 區類型改變時,可/人標i己有新類型的文本開始創建新區。在一個實 施例中,如果文本區獲得超過20%的文檔,則可將其分成較小塊。
塊302之後是塊304,在該框中確定每個區的最相關概念。在 示出的實施例中,含義處理器136處理為每個區識別的概念,以為 每個區提出較小的一組局部概念。概念間的關係,區內概念出現的 頻率、和;f既念的寬度能夠用於局部概念的確定。
在一個實施例中,對於每個區,將每個概念放在列表中。通過 使用多種因子為每個概念確定分數,來將概念排列在列表中。例如,如果第一概念具有與其他概念的4艮強的:i關係,這可以用於^是高第一 概念及其相關的概念的分數。通過第 一概念出現的頻率和第 一概念 的焦點(或寬度)調節這種效果,以減小非常普遍的概念和含義較 廣的概念。可濾除頻率在一定閾值之上的概念。概念的可察覺重要 性也可以影響概念的分數。例如通過引起包含概念的字是否被用粗 體標記,可以在處理過程中較早地確定概念的重要性。在將每個區 的衝既念排列後,除去最不相關的糹既念。這可以通過選4奪一組最高級 別的概念或除去級別分數低於 一 定分數的概念來實現。
塊304之後是塊306,在該塊中,合併和分析每個區的所有局 部和無念。在示出的實施例中,含義處理器136^妄4欠每個區的所有局 部概念,並且,通過例如每個局部概念的分數創建所有局部概念的 經排列的全局列表。偏離因子(例如每個區的重要性)可用於確定 分數。每個區的重要性可以通過區的類型和區的大小來確定。例如, 標題區可被認為比連結區更重要,且出現在標題區的概念比出現在 連結區的概念能夠被給予更多的加權。可以對出現在多於一個區的 概念給予額外的加權。例如,概念的副本可合併,並且它們的分數 可加在一起。該全局列表然後糹皮分類,例如,可刪除貢獻少於總分 數的20 %的末位(trailing )概念,以生成局部概念的結果全局列表。
塊306之後是塊308,在該框中,其刪除主要概念與無關概念 無關的區。在示出的實施例中,含義處理器136確定無關區、包含 與大部分概念無關的概念的區,並將它們刪除。應該理解"相關的" 和"無關的"不需要用絕對的標準確定。"相關的"是相對較高的關 系度和/或預定的關係度的指示。"無關的"是相對較低的關係度和/ 或預定的關係度的指示。通過刪除無關區,相關的無關相剋念4皮刪除。 例如,如果源文檔是由各種框架做成的網頁, 一些框架涉及廣告或 到網站上其他網頁的連結,從而,將與網頁的主要含義無關。在一個實施例中,例如,塊306中確定的結果全局列表可以是 文檔含義的近似值,並且可以用於去除與文檔含義不相關的區。對 於每個區,含義處理器136能確定用於該區的最有^表性的局部扭克 念是否沒有存在於結果全局列表中。如果用於區的最有代表性的局 部才既念不在結果全局列表中,則該區可標記為不相關。例如,用於 區的最有代表性的局部概念可以是如塊304中所確定的該區的具有 最高分數的概念。
:夾308之後是塊310,在該塊中,確定源文檔的含義。在示出 的實施例中,含義處理器136重新計算沒有刪除的區的局部概念的 代表性,以創建概念的相關列表。在相關列表中的局部概念可以被 精選出固定數量的概念以提供含義列表,然後歸一化以提供源含 義。例如,可以只使用相關區中包含的概念來創建含義列表,並且 從新的列表中除去除了 25個最高得分以外的所有概念。最高得分 概念的分數可以被歸一化以提供源含義。在此實例中,源含義可以 是相關扭A念的加權向量。
再來參照圖2,塊206之後是塊208,在該塊中接收一組條目。 例如,可以通過匹配處理器137從內容伺服器裝置140接收條目。 條目可以包括知識條目,例如,關鍵字,和文檔,例如,廣告和網 頁。接收的每個條目可以具有一個和其相關的含義。對於關鍵字含 義,例如,可以通過使用和關鍵字相關的信息來確定,如在相關的 美國專利申請序列號為10/690,328 (律師巻號No. 53051/288072 ), 標題為 "Methods and Systems for Understanding a Meaning of a Knowledge Item Using Information Associated with the Knowledge Item,,中所描述的,其被結合於此以供參考。可以以與如圖3所描述 的方式相同的方式確定文檔的含義。
塊208之後是塊210,在該塊中將源文檔和條目匹配。在匹配 過程中可以^使用偏離因子。例如,在一個實施例中,將源含義和與來自 一組關4建字的關4建字相關聯的關4建字含義匹配。匹配引擎將源 含義和關鍵字含義相比較,並使用偏離因子,例如和這些關鍵字相 關的每次點擊數據成本,以確定匹配。然後可將匹配的關鍵字發送
到內容伺服器裝置140。內容引擎146可將匹配的關鍵字與其相關 的廣告匹配,並在源文檔上顯示廣告。可選地,內容引擎能在源文 檔上顯示關鍵字本身。在另一個實施例中,將廣告的含義和源含義 匹配。在該實施例中,內容引擎146可導致匹配的廣告顯示在源文 檔上。在另一個實施例中,將網頁的含義和源含義匹配。在該實施 例中,內容引擎146能引起和網頁相關的廣告的顯示。塊210之後 是塊212,在該塊中,該方法結束。
在一個實施例中,在源文檔祐 沐問後,預處理器134分衝斤源文 檔,以確定源文檔的內容區。內容區可以是包含大量文本的區,例 如,文本區或鏈d婁區,或可以是相對重要的區,例如,標題區。可 以通過^f吏用如上所述的4臾索法確定這些區。如上所述,預處理器134 也能識別位於每個內容區的概念。含義處理器136可以使用這些概 念,以確定每個內容區的含義。匹配處理器137能夠將每個內容區 的含義和關鍵字匹配。內容引擎146能將匹配的關鍵字和其相關的 廣告匹配,並在源文檔上顯示廣告。可選地,內容引擎能在源文檔 上顯示關鍵字本身。在另一個實施例中,將廣告的含義和區含義匹 配。在該實施例中,內容引擎146可導致匹配的廣告顯示在源文檔 上。在另一個實施例中,將網頁的含義和區的含義匹配。在該實施 例中,內容引擎146能引起和網頁相關的廣告的顯示。在一個實施
例中,廣告或關^:字^皮顯示在和其匹配的內容區中。
以上所述<又為本發明的優選實施例而已,並不用於限制本發 明,對於本領域的技術人員來說,本發明可以有各種更改和變化。 凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進 等,均應包含在本發明的保護範圍之內。
19
權利要求
1. 一種系統,包括客戶設備;以及一個或多個伺服器計算機,被編程用於與所述客戶設備相互作用並執行下列操作接收包含條目的源文檔;將所述源文檔中的所述條目分配給概念集合中的概念;確定所述源文檔的最典型的全局概念的集合;基於所述源文檔的格式化來識別所述源文檔的區;確定表示在每個所述區中的典型的局部概念;將表示在所述每個區中的所述典型的局部概念與所述源文檔的所述最典型的全局概念相比較,以識別第一區,在所述第一區中,所述典型的局部概念不在所述最典型的全局概念中;以及確定所述源文檔的源含義,其中,從所述的確定中去除所述第一區的典型的局部概念。
2. 根據權利要求1所述的系統,其中,確定所述最典型的全局概 念包括創建所述概念的全局列表,所述源文檔中的條目已經被 分配至所述概念的全局列表中。
3 才艮據;〖又利要求2所述的系統,其中,確定所述源文檔的源含義 包括挑選所述概念的全局列表;以及將保留在所述概念的全局列表上的概念規格化,以提供 源含義。
4. 根據權利要求1所述的系統,其中,所述源含義包括相關概念 的力o衝又向量。
5. 根據權利要求1所述的系統,其中,確定所述源文檔的最典型 的全局概念包括對不同區的概念進行不同地評分。
6. 根據權利要求5所述的系統,其中,為不同區的概念進行不同 地評分包括對在文檔標題區中表示的第二概念給以更高權重。
7. 根據權利要求5所述的系統,其中,為不同區的概念進4亍不同 地評分包括對出現在多於一個區中的第二概念給以更高權重。
8. 根據權利要求5所述的系統,其中,為不同區的概念進行不同 地評分包括根據表示有所述概念的區的大小來對第二概念進 行力口權。
9. 根據權利要求1所述的系統,其中,識別所述源文檔的區包括 才艮據所述源文檔的標記語言標籤來識別所述區。
10. 根據權利要求1所述的系統,其中,識別所述源文檔的區包括 才艮據所述區中的文本中標點的個悽t來識別所述區。
11. 根據權利要求1所述的系統,其中,識別所述源文檔的區包括 才艮據所述區中的文本中動詞的出現來識別所述區。
12. 根據權利要求1所述的系統,其中,識別所述源文檔的區包括 當文本佔用了所述源文檔的一定百分比時將所述文本分割成 較小的部分。
13. —種系糹充,包4舌客戶i殳備;以及一個或多個伺服器計算機,被編程用於與所述客戶設備 相互作用並執行下列操作4妄4欠網頁;識別在所述網頁中以及包含在所述網頁中的區域中 表示的局部相無念;將所述局部概念進行排序;識別第一區,所述第一區表示與所述概念的大多數 不相關的局部相無念;以及/人所述網頁的源含義的確定中去除所述第 一 區和在 所述第一區中表示的概念。
14. 根據權利要求13所述的系統,其中,識別所述第一區包括識 別所述網頁的4醫架區。
15. 根據權利要求13所述的系統,其中,識別所述第一區包括根 據所述第 一 區中的文本中標點的個悽t來識別所述第 一 區。
16. 根據權利要求13所述的系統,其中,識別所述第一區包括根 據所述第一區中的文本中動詞的出現來識別所述第一 區。
17. 根據權利要求13所述的系統,其中,識別所述第一區包括當 文本佔用了所述網頁的一定百分比時將所述文本分割成4交小 的部分。
18. 根據權利要求13所述的系統,其中,將所述局部概念進行排 序包括根據表示有第二局部概念的區的重要性來對所述第二 局部概念進行加權。
19. 根據權利要求13所述的系統,其中,將所述局部概念進行排 序包括根據表示有第二局部概念的多個區來對所述第二局部 概念進行加權。
20. 根據權利要求13所述的系統,其中,將所述局部概念進行排 序包括才艮據所述第二局部一既念的寬度來對所述第二局部扭無念 進行力口權。
21. 根據權利要求13所述的系統,其中,所述操作進一步包括將 所述網頁的源含義與關4建字相匹配。
22. 根據權利要求13所述的系統,其中,所述操作進一步包括將 所述網頁的源含義與廣告對目匹配。
全文摘要
本發明描述了用於確定文檔的含義,以使文檔與內容相匹配的系統和方法。在一個方面中,訪問源文章;識別源文章中的多個區;確定至少一個與每個區相關聯的局部概念;分析每個區的局部概念以識別任何不相關區;刪除與任何不相關區相關聯的局部概念,以確定相關概念;分析相關概念以確定源文章的源含義;以及使源含義和與來自一組條目的條目相關聯的條目含義相匹配。
文檔編號G06Q10/00GK101482881SQ20091000629
公開日2009年7月15日 申請日期2004年7月23日 優先權日2003年7月30日
發明者吉拉德·伊斯雷爾·埃勒巴茲, 阿達姆·J·韋斯曼 申請人:Google公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀