新四季網

標引關鍵詞提取/預測方法、在線廣告推薦方法和裝置的製作方法

2023-05-27 13:29:16

專利名稱:標引關鍵詞提取/預測方法、在線廣告推薦方法和裝置的製作方法
技術領域:
本發明涉及搜索技術,特別是指根據用戶的瀏覽行為捕捉用戶的搜索意 圖,預測目標網頁的標引關鍵詞的方法,以及推薦在線廣告的方法和裝置。
背景技術:
隨著網絡與通信技術的迅速發展,Web信息爆炸性的增長,已經成為一 個巨大的海量信息空間。如何快速、準確、方便的從如此龐大的信息庫中獲 取自己需要的信息,是網際網路用戶面臨的一個重要問題。網際網路的媒體特性 促使在線廣告(Online Advertisement)的誕生和發展,在線廣告的形式已祐: 許多企業接受和採納,而且取得較好的廣告效果。如何快速、準確、方便的 從在線廣告中獲取自己需要的在線廣告,同樣也是在線廣告所面臨的一個重 要問題。Web搜尋引擎能為用戶提供一種查找所需資源的服務,越來越多的搜索 引擎對人們獲取網絡資源提供了很大的方便。目前搜尋引擎是根據網頁的靜 態內容,按照用戶輸入的一個或多個搜索關鍵字進行搜索並返回搜索結果。 因此,按照目前的搜索技術,無法正確預測用戶的搜索意圖,更不能為用戶 推薦符合用戶搜索意圖的網頁和在線廣告。發明內容有鑑於此,本發明的主要目的在於提供一種提取網頁的標引關鍵詞的方 法,提取出指定網頁的標引關鍵詞。本發明的另一主要目的在於,提供一種預測目標網頁的標引關鍵詞的方 法,根據用戶的瀏覽行為預測用戶的搜索意圖。本發明的另 一主要目的在於提供一種推薦在線廣告的方法,根據用戶的瀏覽行為向用戶推薦符合用戶搜索意圖的在線廣告。本發明的另 一主要目的在於提供一種推薦在線廣告的裝置,根據用戶的 瀏覽行為向用戶推薦符合用戶搜索意圖的在線廣告。為了達到上述目的,本發明提供一種提取網頁的標引關鍵詞的方法,該方法包括獲取訓練數據集,所述訓練數據集包括多個樣本網頁以及相應樣本網頁 的標引關鍵詞;獲取所述樣本網頁的標引關鍵詞的網頁特徵向量,對該標引關4建詞的網 頁特徵向量進行分類得到所屬的類別,並根據所述訓練數據集中樣本網頁的 標引關鍵詞的網頁特徵向量和所屬的類別訓練決策樹;利用訓練得到的決策樹,生成標引關鍵詞的過濾器,所述過濾器包括標 引關鍵詞的網頁特徵向量的判定條件;獲取網頁的部分或所有字/詞,獲取所述部分或所有字/詞的網頁特徵向 量,並選擇網頁特徵向量符合所述過濾器中判定條件的字/詞,從所選擇的 字/詞中提取網頁的標引關鍵詞。為了達到上述另 一 目的,本發明提供一種預測目標網頁的標引關鍵詞的 方法,該方法包4舌獲取訓練數據集,所述訓練數據集包括多個瀏覽歷史樣本目標網頁以及 相應瀏覽歷史樣本目標網頁的標引關鍵詞;獲取所述瀏覽歷史樣本目標網頁的標引關鍵詞的瀏覽特徵向量,對該標 引關鍵詞的瀏覽特徵向量進行分類得到所屬的類別,並根據所述訓練數據集 中瀏覽歷史樣本目標網頁的標引關鍵詞的瀏覽特徵向量和所屬的類別訓練 決策樹;利用訓練得到的決策樹,生成標引關鍵詞的過濾器,所述過濾器包括標 引關鍵詞的瀏覽特徵向量的判定條件;獲取瀏覽歷史網頁,獲取所述瀏覽歷史網頁的部分或所有字/詞,獲取 所述部分或所有字/詞的瀏覽特徵向量,並選擇瀏覽特徵向量符合所述過濾器中判定條件的字/詞,從所選擇的字/詞中預測目標網頁的標引關鍵詞。為了達到上述另一目的,本發明提供一種推薦在線廣告的方法,該方法包括獲取訓練數據集,所述訓練數據集包括多個瀏覽歷史樣本目標在線廣告 以及相應瀏覽歷史樣本目標在線廣告的標引關4定詞;獲取所述瀏覽歷史樣本目標在線廣告的標引關鍵詞的瀏覽特徵向量,對 該標引關鍵詞的瀏覽特徵向量進行分類得到所屬的類別,並根據所述訓練數 據集中瀏覽歷史樣本目標在線廣告的標引關鍵詞的瀏覽特徵向量和所屬的 類別訓練決策樹;利用訓練得到的決策樹,生成標引關鍵詞的過濾器,所述過濾器包括標 引關鍵詞的瀏覽特徵向量的判定條件;獲取在線廣告的瀏覽歷史,獲取所述瀏覽歷史的部分或所有字/詞,獲 取所述部分或所有字/詞的瀏覽特徵向量,並選擇瀏覽特徵向量符合所述過 濾器中判定條件的字/詞,從所選擇的字/詞中預測目標在線廣告的標引關鍵 詞;將預測得到的目標在線廣告的標引關鍵詞作為搜索關鍵詞發送給在線 廣告搜尋引擎,並推薦該在線廣告搜尋引擎返回的在線廣告。其中,所述在線廣告包括顯示廣告和引用廣告。為了達到上述另一目的,本發明提供一種推薦在線廣告的裝置,該裝置 包括決策樹訓練單元,用於訓練決策樹;過濾器生成單元,用於利用所述決 策樹訓練單元所訓練得到的決策樹生成過濾器;瀏覽歷史獲取單元,用於獲 取在線廣告的瀏覽歷史,並傳給標引關鍵詞預測單元;標引關鍵詞預測單元, 用於利用所述決策樹訓練單元所訓練得到的決策樹和所述過濾器生成單元 所生成的過濾器,根據瀏覽歷史預測目標在線廣告的標引關鍵詞,並輸出給 在線廣告推薦單元;在線廣告推薦單元,用於將從所述標引關鍵詞預測單元 收到的目標在線廣告的標引關鍵詞發送給在線廣告搜尋引擎,接收該在線廣告搜尋引擎所返回的在線廣告並推薦。根據本發明提供的預測目標網頁的標引關鍵詞的方法,預先根據瀏覽歷 史樣本目標網頁訓練決策樹,利用訓練得到的決策樹生成標引關鍵詞的過濾器,之後,根據用戶瀏覽歷史記錄提取用戶瀏覽歷史網頁序列中所包含的字 /詞的瀏覽特徵向量,調用決策樹和過濾器來預測目標網頁的標引關鍵詞, 從而預測到了用戶的搜索意圖。其中,在訓練決策樹時可以根據本發明提供 的提取網頁的標引關鍵詞的方法提取出了瀏覽歷史樣本目標網頁的標引關 鍵詞。由此可以看出,本發明充分結合了靜態的網頁內容和動態的用戶的瀏 覽行為,根據被動觀察到的用戶瀏覽的歷史紀錄來預測用戶的搜索意圖,無 需用戶的其他輸入,對用戶的瀏覽不做任何的幹預,為用戶提供更精確的搜 索服務。上述預測用戶搜索意圖的方法可以應用於在線廣告的推薦,通過用 戶的廣告瀏覽歷史記錄來預測並推薦與用戶搜索意圖最相關的在線廣告。由 於在線廣告推薦中利用了用戶的瀏覽歷史記錄,因此,即便是採用引用方式 發布的在線廣告也對於在線廣告的推薦有貢獻,所以廣告發布商採用顯示廣 告或引用廣告的方式發布廣告都能獲得收益。


圖1所示為用戶網上瀏覽過程示意圖;圖2所示為本發明中為提取網頁的標引關鍵詞而訓練決策樹的流程圖; 圖3所示為本發明中訓練得到的決策樹的示意圖; 圖4所示為本發明中生成過濾器的流程圖; 圖5所示為本發明中從指定網頁中提取標31關鍵詞的流程圖; 圖6所示為本發明中為了預測目標網頁的標引關鍵詞而訓練決策樹的 過程;圖7所示為本發明中預測目標網頁的標引關鍵詞的流程圖;圖8所示為本發明中用於提取網頁的標引關鍵詞的裝置結構圖;圖9所示為本發明中用於推薦在線廣告的裝置結構圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚明白,下面舉具體實施例, 對本發明作進一步詳細的說明。設想這樣的一個用戶的網上瀏覽過程,如圖l所示。用戶在瀏覽器中打開網頁"P1",然後點擊網頁P1中的一個超級連結,該連結的題頭(anchor text)中包含"Dolphins"。但是這個連結將用戶引到另外一個網頁"P2", 網頁P2是關於NFL中的一個橄欖球隊的"Miami Dolphins"。當用戶發現 這個網頁P2並不是他想要的,就點擊"Back"按鈕返回到網頁P1。在跳過 網頁P1中的題頭是"free dolphin"第二個連接後,點擊第三個題頭中包含 "Whale"的超級連結。這個超級連結打開了網頁"P3",然後用戶點擊了 題頭包含"whale"和"Shamu,,的超級連結去繼續瀏覽其他網頁,直到打開 網頁"P5",其中包含了關於"whales"和"seaworld"信息。基於用戶截止到目前的瀏覽歷史,可以做出這樣的推斷,這個用戶希望 找到關於"whale"和"dolphin"的信息,而非"football"和"NFL",為 什麼呢?因為用戶點擊了關於"whale"或"dolphin"的超級連結,而從關 於"football"和"NFL"的網頁退回到前一網頁。我們做出的推斷所基於的 規則可以描述如下"whale"是用戶想找的信息,因為他點擊了包含"whale"的超級連結 "football"並非用戶需要的信息,因為他從和"football"相關的網頁 中退出更進一步歸納上述的一些規則,可以得到下面更具一般性的規則(說明 實際使用的規則比這些例子描述的更複雜,使用的屬性也更多),其中W可 以是任何字/詞如果用戶頻繁點擊包含了 W的超級連結,則W是用戶想找的信息 如果用戶從和W相關的網頁退回,則W不是用戶想找的信息 上述的規則具有普遍的適用性,也就是說這些規則可以應用於任何的信息資源環境中。因為這些MJ'J是完全基於用戶的瀏覽過程中的瀏覽行為,而 並不是基於用戶當前所瀏覽的內容。本發明獲取類似於上述一般性規則的用戶瀏覽行為模型,利用用戶瀏覽 行為模型預測用戶的搜索意圖,向用戶推薦符合用戶搜索意圖的搜索結果。首先,本發明提供一種提取網頁的標引關鍵詞的方法。本發明所述的網 頁的標引關鍵詞為,從網頁的正文中提取出的關鍵詞,以此標引關鍵詞為搜 索關鍵詞,則對於特定的搜尋引擎,該網頁是該搜尋引擎返回的第一個搜索 結果或者在前幾個搜索結果之中。其中,標引關鍵詞的長度為/ (/a),即 標引關鍵詞包含/個字/詞。本發明在提取網頁的標引關4走詞時,利用機器學習(Machine Learning )究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組 織已有的知識結構使之不斷改善自身的性能。機器學習 一般可以分為有指導 的學習和無指導的學習。本發明使用有指導的學習方法中的決策樹學習。本發明提供的提取一個指定網頁的標引關鍵詞的過程主要包括三大步 驟第一步,獲取訓練數據集,根據所獲取的訓練數據集訓練決策樹;第二 步,利用訓練得到的決策樹,生成標引關鍵詞的過濾器;第三步,利用訓練 得到的決策樹和所生成的過濾器,提取網頁的標引關鍵詞。下面詳細介紹決 策樹訓練過程以及過濾器生成過程,進而詳細介紹利用決策樹和過濾器提取 網頁標引關鍵詞的流程。圖2所示為訓練決策樹的流程圖,如圖2所示,訓練決策樹的過程包括 以下步驟步驟201:獲取用於訓練決策樹的訓練數據集,訓練數據集中包括多個數據項,每一個數據項包括一個樣本網頁以及該樣本網頁的標引關4定詞。例如,訓練數據集可以表示為如下形式formula see original document page 13其中A.為訓練數據中的 一個樣本網頁,『''為該樣本網頁的標引關鍵詞。其中,每一個標引關鍵詞的長度為/,標引關鍵詞r包含/個字/詞 ,.—。 訓練數據可以以手工方式獲取,也可以由系統自動生成。訓練數據集中 的數據項數目w可以根據決策樹訓練需求而定。步驟202:對於訓練數據集中的每一個樣本網頁,計算樣本網頁的標引 關鍵詞中的每一個字/詞的網頁特徵向量,然後將所得到的字/詞的網頁特徵 向量按照字/詞在標引關鍵詞中的順序排列成一個向量,作為整個標引關鍵 詞的網頁特^正向量。本發明所述的網頁特徵向量用於描述每一個字/詞在網頁中的特徵屬 性,可以包含多個屬性分量。在本實施例中,字/詞w在網頁p內的網頁特徵 向量包含19個分量(h,h,…,^),分別對應於字/詞w在網頁p內不同HTML 標籤上出現的次數,這些標籤分別為"alt" 、 "hi" 、 "h2" 、 "h3"、 "h4" 、 "h5" 、 "h6,, 、 "a" 、 "title" 、 "cite" 、 "strong"、 "big" 、 "em" 、 "i" 、 "b" 、 "u" 、 "blink" 、 "s",以及 在網頁P中的總的出現次數。如步驟201所述,訓練數據集中的樣本網頁A的標引關鍵詞fT'包括/個字/詞w;,w;,…v^,…w,其中字/詞<的網頁特徵向量為,上標_/表示該字/詞在標引關^t詞中的位置,下標1,2,…,19表示網頁特徵向量的分量。這 樣,本步驟得到的整個標引關鍵詞的網頁特徵向量可以表示為(V;,V;,…,V;9,V!V22,…,V!29,…,vX,…,V〖9)其中,標引關鍵詞的網頁特徵向量的長度為19x/。這裡,標引關鍵詞的網頁特徵向量中不包含標引關鍵詞中的字/詞,而 只包含這些字/詞的網頁特徵向量。步驟203:對每一個樣本網頁的標引關鍵詞的網頁特徵向量進行分類得 到所屬的類別。對標?I關鍵詞的網頁特徵向量進行分類時,可以根據樣本網頁在以該標引關鍵詞為搜索關鍵詞進行搜索而返回的搜索結果中的排名位置(rank)進行分類,例如,如果nm;^5,則分類為"6fl,類別,否則分類為類別。標引關鍵詞的網頁特徵向量的19x/個分量的變量命名與其所屬的字/詞在標引關鍵詞中的位置相對應,這樣,訓練數據集中的每一個樣本網頁及其標引關鍵詞可以表示為formula see original document page 15步驟204:利用訓練數據集中的樣本網頁的標引關鍵詞的網頁特徵向量 及其所屬的類別,訓練決策樹(Dr)。通過訓練,在根節點中設置標引關鍵詞的網頁特徵向量中屬性分量的判 定條件,根據屬性分量的不同取值建立分支節點,然後按照同樣方式在每個 分支節點中設置標引關鍵詞的網頁特徵向量中屬性分量的判定條件並根據 屬性分量的不同取值再建立下層分支節點,直到建立葉節點為止,葉節點對應"w,或>w的類別,以此訓練得到決策樹。圖3所示為按照上述步驟201 204所訓練得到的決策樹的示意圖,其 中,假設網頁的標引關鍵詞的長度為3,網頁特徵向量包括4個屬性分量, 那麼標引關鍵詞的網頁特徵向量可以表示為圖4所示為生成過濾器的流程圖。本發明通過對訓練得到的決策樹進行 分析,生成標引關鍵詞的過濾器。過濾器是由標引關鍵詞各位置上的析取範 式構成。其中,位置是指組成標引關鍵詞的字/詞在該標引關鍵詞中的排列 順序。通過該過濾器,可以找出組成標引關#:詞的字/詞,並且返回這些字/ 詞的正確排列順序。如圖4所示,生成過濾器的步驟包括步驟401:通過對決策樹進行分析,針對類別為"go^T的每一個葉節 點,建立從根節點到葉節點的規則,該規則是將從根節點到葉節點的判定條 件用"與"的關係連接在一起得到。在此,結合圖3說明規則建立方法。圖3中,有4個類別為"good"的 葉節點,因此需要建立4個規則,具體為,將從根節點到每一個類別為"gooJ"的葉節點的判定條件用"與"的關係連接在一起,得到如下所示的4個規則頭見則一巧1規則二 v; 頭見則三v; 夫見則四規則^ 2 0.5 AND v32 < 0.007 AND < 0.75 W 2 0.5 AND v32 < 0.007 AND 2 0.75 AND v23》0.005 、12 0.5 AND v32 2 0.007 AND 2 0.15 i;卜0.5 AND v23<0.25 AND v:2 0.15 AND v332 0.25 步驟402:對於每一條規則,將標引關鍵字的相同位置的判定條件用 "與"的關係連接在一起,得到標引關鍵詞的每一個位置的判定條件。在此,標引關鍵詞的相同位置的判定條件是指標$ 1關鍵詞中相同位置上 的字/詞的網頁特徵向量的屬性分量的判定條件。按照上述例子,本步驟得 到的結果如下所示AND v32 < 0.007 AND < 0.75 v〖2 0.5 AND < 0.75 v32 < 0.007 無AND v32 〈0.007 AND 20.75 AND v23 20.005 v; 2 0.5 AND ^ 0.75 v32 < 0.007 v23 2 0.005AND v32 2 0.007 AND v!2 2 0.15 v; 2 0.5v32 2 0.007 AND《20.15 無AND v23<0.25 AND v^O.15 AND v33》0.25 <0.5 AND v; 2 0.15無規則二:v〖2 0.5 位置一 位置二 位置三v; ^ o.5位置一 位置二 位置三v;》o.5位置一 位置二位置三 頭見則四Vl' < 0.5位置一 位置二:規則三:4立置三v23<0.25 AND v332 0.25步驟403:將不同規則中標引關鍵詞的相同位置的判定條件用"或"的 關係組合在一起,得到標引關鍵詞的每一個位置上的析取範式,由此得到標 引關鍵詞的過濾器。由於一個決策樹可能包括多個規則,而每個規則之間是"或"的關係, 因此,標引關鍵詞的某一位置上的析取範式為,將不同規則中的相同位置上的判定條件按照"或"的關係建立的判斷條件。按照上述例子,標引關鍵詞 的每一個位置上的析取範式如下所示位置一(v, 2 0.5 AND v3 <0.75 ) OR ( 、 2 0.5 AND v3》0.75 ) OR^》0.5 OR ( <0.5 AND v4 2 0.15 )^f立置二 v3 〈0.007 OR (v3 2 0.007 AND 1^2 0.15)4立置三v2 2 0.005 OR ( v2 <0.25 AND v3 2 0.25 )通過以上流程得到標引關鍵詞的過濾器,具體得到標引關鍵詞的每一個 位置上的過濾器。其中,標引關鍵詞的每一個位置上的過濾器由上述的析取範式表示o本發明利用訓練得到的決策樹和所生成的過濾器來提取指定網頁的標 引關鍵詞,首先得到指定網頁的字/詞並獲取各字/詞的網頁特徵向量,利用 標引關鍵詞的過濾器對所獲取的字/詞進行過濾得到滿足過濾器條件的字/詞,並從這些通過過濾器的字/詞中提取標引關鍵詞。圖5所示為從指定網 頁P中提取標引關鍵詞的流程圖,如圖5所示,提取網頁的標引關鍵詞的步 驟具體包括步驟501:獲取指定網頁^的所有字/詞,計算所有字/詞的網頁特徵向量。在此,也可以獲取指定網頁/7中部分字/詞,例如,可以獲取指定網頁/7 中有效的字/詞。有效的字/詞是從網頁p所包含的所有字/詞中去除沒有實際 意義的例如"是"、"的"等字/詞之後得到的字/詞。步驟502:對於步驟501中所獲取的指定網頁^的每一個字/詞,判斷該 字/詞的網頁特徵向量是否符合過濾器各位置上的析取範式,並記錄符合析 取範式的字/詞以及相應的位置,得到標引關鍵詞/個位置上可能包含的字/ 詞集(A,X2,...,X,.,..,A )。其中,每一個位置上所包含的字/詞數可能不同,包含的字/詞數用formula see original document page 18表示。其中,過濾器生成過程如圖4所示的步驟401 -403所述。 步驟503:從步驟502所得到的/個位置中各位置上所得到的字/詞集X,. 中分別提取一個字/詞組成一個長度為/的標引關鍵詞,作為候選標引關鍵詞。這種組合方式共有formula see original document page 18種,因此候選標引關鍵詞的總數目為formula see original document page 18步驟504:針對每一個候選標引關鍵詞,將組成該候選標引關鍵詞的各 字/詞的網頁特徵向量連在一起形成一個向量,作為該候選標引關4建詞的網 頁特徵向量。步驟505:調用訓練得到的決策樹Dr,根據候選標引關鍵詞的網頁特 徵向量來預測該候選標引關鍵詞的類別,如"good"或"bad",。其中,決策樹訓練過程如圖2所示的步驟201 204所述。預測候選標引關鍵詞的類別的方法具體為,從決策樹的根節點開始,根 據各節點上的判定條件來確定候選標引關鍵詞的網頁特徵向量中與該節點 的判定條件對應的網頁特徵向量的屬性分量來確定該節點的分支節點,直到 確定葉節點為止,根據所確定的葉節點即可得到該候選標引關鍵詞的類別。步驟506:對於類別為的候選標引關鍵詞,記錄該候選標引關 鍵詞的預測準確度。在此,所述的預測準確度是由決策樹給出的,簡單的實現方法為,將訓 練數據集中的所有數據項都用該決策樹預測一遍,這樣每一個葉節點上都會 對應一些訓練數據項,/人而可以統計各葉節點的預測準確度,即該葉節點所對應的訓練數據項中類別和葉節點的類別相同的訓練數據項的總數與該葉 節點所對應的訓練數據項的總數的比例。步驟507:將預測準確度最高的候選標引關鍵詞作為該指定網頁p的標 引關鍵詞。在本步驟中,也可以選擇多個標引關鍵詞,例如,將預測準確度達到規 定標準的候選標? 1關鍵詞作為該指定網頁的標引關鍵詞。以上給出了提取一指定網頁的標引關鍵詞的方法。其次,為了預測用戶的搜索意圖,本發明提供了一種預測目標網頁的標 引關鍵詞的方法,這裡所述的目標網頁是指含有用戶真正需要內容的網頁。 在此,假設在整個網際網路中存在著滿足用戶搜索意圖的目標網頁,如果預測 出這個目標網頁的標引關鍵詞,那麼就可以通過訪問相應的搜尋引擎得到該 目標網頁,從而為用戶提供精確的搜索服務。因此,目標網頁的標引關鍵詞 可以看作是用戶搜索意圖在相應的搜尋引擎上的表示,如果預測出目標網頁 的標引關鍵詞,則可以說預測到了用戶的搜索意圖。類似於提取指定網頁的標引關鍵詞的方法,本發明提供的預測目標網頁 的標引關鍵詞的過程也主要包括三大步驟第一步,獲取訓練數據集,根據 所獲取的訓練數據集訓練決策樹;第二步,利用訓練得到的決策樹,生成標 引關鍵詞的過濾器;第三步,利用訓練得到的決策樹和所生成的過濾器,預 測目標網頁的標引關4建詞。圖6所示為為了預測目標網頁的標引關鍵詞而訓練決策樹的過程,如圖 6所示,決策樹訓練過程包括以下步驟步驟601:獲取用於訓練決策樹的訓練數據集,訓練數據集中包括多個 數據項,每一個數據項包括一個瀏覽歷史樣本目標網頁以及該瀏覽歷史樣本 目標網頁的標引關考建詞。在此,瀏覽歷史樣本目標網頁是指在瀏覽過程中被訪問過的網頁中滿足 搜索要求的目標網頁,瀏覽歷史樣本目標網頁可以由用戶指定,也可以由瀏覽器自動生成。瀏覽歷史樣本目標網頁的標引關鍵詞可以是手工方式獲取。 較佳的,瀏覽歷史樣本目標網頁的標引關鍵詞可以採用實施例 一 中給出的基於網頁特徵向量的決策樹方式提取,如圖5所示的步驟501 步驟507。由 於按照圖5所示基於網頁特徵向量的決策樹方式能夠準確地提取出瀏覽歷 史樣本目標網頁的標引關鍵詞,能夠提高訓練數據的準確度,從而提高決策樹的準確度。步驟602:對於訓練數據集中的每一個瀏覽歷史樣本目標網頁i7,計算 出該瀏覽歷史樣本目標網頁p的標引關鍵詞中的每一個字/詞w的瀏覽特徵 向量,然後將所得到的瀏覽特徵向量按照字/詞在標引關鍵詞中順序排列成 一個向量,作為整個標引關鍵詞的瀏覽特徵向量。本發明所述的瀏覽特徵向量為字/詞在瀏覽歷史記錄中的一些表相的特 性和方式,例如,該字/詞有多少次出現在網頁的標題等。其中,瀏覽歷史 記錄是用戶瀏覽的網頁的序列以及相應的瀏覽動作,例如點擊某一超級連結 等。其中,瀏覽歷史包括網際網路的網頁瀏覽,還可以包括由Text Message 驅動的信息瀏覽以及各種信息系統之上的信息瀏覽。瀏覽特徵向量可以包含 多個屬性分量。在本實施例中,字/詞w在瀏覽歷史記錄中的瀏覽特徵向量包 含20個屬性分量(6;,《,…,Z4),分別對應於在整個瀏覽過程中字/詞w在18個 HTML標籤上出現的次數總和,這些標籤分別formula see original document page 20該字/詞w在所有被點擊的超級連結上出現的次數總和,以及在整個網頁序列中最後出現的位置。在此,所有的屬性值經過歸一化處理。如步驟601所述,訓練數據集中的瀏覽歷史樣本目標網頁p,的標引關鍵詞包括z個字/詞<w;,...w),...vv;,其中字/詞".的瀏覽特徵向量為(6/》/,…,《。),這樣,本步驟602得到的整個標引關鍵詞的瀏覽特徵向量可以表示為 (6;,^…,Z4A2,622,…A2。,…A',g,…,Z4)其中,標引關鍵詞的瀏覽特徵向量的長度為20x/。步驟603:對每一個瀏覽歷史樣本目標網頁的標引關鍵詞的瀏覽特徵向 量進行分類得到所屬的類別。對標引關鍵詞的瀏覽特徵向量進行分類時,可以根據瀏覽歷史樣本目標 網頁p在以該標引關鍵詞為搜索關鍵詞進行搜索而返回的搜索結果中的排 名位置(rank)進行分類,例如,如果rawA^5,則分類為"6fl,類別,否 則分類為類別。標引關鍵詞特徵向量的20x/個分量的變量命名與其 所屬的字/詞在標引關鍵詞中的位置相對應,這樣,訓練數據集中的每一個 瀏覽歷史樣本目標網頁p及其標引關^l建詞可以表示為步驟604:利用訓練數據集中的瀏覽歷史樣本目標網頁的標引關鍵詞的 瀏覽特徵向量及其類別,訓練決策樹("r )。通過訓練,在根節點中設置標引關鍵詞的瀏覽特徵向量中屬性分量的判 定條件,根據屬性分量的不同取值建立分支節點,然後按照同樣方式在每個 分支節點中設置標引關鍵詞的瀏覽特徵向量中屬性分量的判定條件並根據 屬性分量的不同取值再建立下層分支節點,直到建立葉節點為止,葉節點對 應"W,或"goo,的類別,以此訓練得到決策樹。預測目標網頁的標引關鍵詞的第二步中生成過濾器的步驟同圖4所示 流程,在此省略其描述。通過上述方法訓練得到決策樹和生成過濾器之後,為了預測目標網頁的徵向量,利用標引關鍵詞的過濾器對所獲取的字/詞進行過濾得到滿足過濾 器條件的字/詞,並從這些通過過濾器的字/詞中提取標引關鍵詞作為目標網 頁的標引關鍵詞。圖7所示為預測目標網頁的標引關鍵詞的流程圖,如圖7 所示,包括以下步驟步驟701:獲取瀏覽歷史網頁序列i^(A,/v.,A),對於每一個瀏覽歷史網頁A,提取瀏覽歷史網頁^內的所有或部分字/詞,並計算所有或部分字/詞的瀏覽特徵向量。在此,瀏覽歷史網頁序列可以在瀏覽器端得到,也可以在伺服器端得到。步驟702:對於瀏覽歷史網頁A的每一個字/詞,判斷該字/詞的瀏覽特徵向量是否符合過濾器各位置上的析取範式,並記錄符合析取範式的字/詞 以及相應的位置,得到標引關鍵詞/個位置上可能包含的字/詞集 (《,義2,..,《,...,義,)。其中,每一個位置上所包含的字/詞數可能不同,包含 的字/詞數用|《|,/ = (1,...,/)表示。其中,過濾器生成過程如圖4所示的步驟401~403所述。 步驟703:從步驟702所得到的/個位置中各位置上所得到的字/詞集《 中分別提取一個字/詞組成一個長度為/的標引關鍵詞,作為候選標引關鍵詞。這種組合方式共有K:]^lx」種,因此候選標引關鍵詞的總數目為K =' =1,'=1步驟704:針對每一個候選標引關鍵詞,將組成該候選標引關鍵詞的各 字/詞的瀏覽特徵向量連在一起形成一個向量,作為該候選標引關鍵詞的瀏 覽特徵向量。步驟705:調用訓練得到的決策樹Dr,根據候選標引關鍵詞的瀏覽特 徵向量來預測該候選標引關鍵詞的類別,如"good"或'W,。其中,決策樹訓練方法如圖6所示的步驟601 ~ 604所述。預測候選標引關鍵詞的類別的方法具體為,從決策樹的根節點開始,根 據各節點上的判定條件來確定候選標引關鍵詞的瀏覽特徵向量中與該節點 的判定條件對應的瀏覽特徵向量的屬性分量來確定該節點的分支節點,直到 確定葉節點為止,根據所確定的葉節點即可得到該候選標卩1關鍵詞的類別。步驟706:對於類別為的候選標引關鍵詞,記錄該候選標引關 鍵詞的預測準確度。在此,所述的預測準確度是由決策樹給出的。步驟707:將預測準確度最高的候選標引關鍵詞確定為目標網頁的標引 關鍵詞。在本步驟中,也可以選擇多個標引關4定詞,例如,將預測準確度達到頭見 定標準的候選標引關^T建詞確定為目標網頁的標引關4建詞。瀏覽特徵向量,調用決策樹和過濾器來預測目標網頁的標引關鍵詞。由於目 標網頁的標引關鍵詞可以看作是用戶搜索意圖在相應的搜尋引擎上的表示, 所以,通過本實施例預測出目標網頁的標引關鍵詞,則可以說預測到了用戶 的搜索意圖,因此可以向用戶推薦將所預測到的目標網頁的標引關鍵詞為搜 索關鍵詞搜索得到的結果。按照上述圖7所示流程預測得到目標網頁的標引關鍵詞之後,將該目標 網頁的標引關鍵詞作為搜索關鍵詞發送給搜尋引擎,並向用戶推薦由該搜索 引擎返回的搜索結果。這樣,用戶可以得到符合自身搜索意圖的目標網頁。 本發明所述的預測目標網頁的標引關鍵詞的方法可以作為瀏覽器的 一 個功 能模塊集成到瀏覽器內,或者也可以作為一個獨立的功能單元安裝到瀏覽器 內。另外,也可以將本發明所述的預測目標網頁的標引關^^泉詞的方法作為計 算機可執行的程序,安裝到瀏覽器上,使得該瀏覽器通過執行該程序來預測 用戶的搜索意圖,以便向用戶推薦網頁。本發明提供的預測目標網頁的標引關鍵詞的方法可以應用於在線廣告 推薦。在線廣告中可以包含文本、圖片、動畫、音頻等內容。在線廣告需要 返回與用戶需求最相關的廣告,這樣可以鼓勵用戶點擊廣告項。推薦在線廣 告的具體方法為,廣告發布網站獲取用戶在同一網站或不同網站上的瀏覽歷 史記錄並向廣告伺服器登記用戶的瀏覽歷史記錄,廣告伺服器提取瀏覽歷史 記錄中所包含的字/詞的瀏覽特徵向量,調用預先訓練得到的決策樹和預先 生成的過濾器來預測目標在線廣告的標引關鍵詞,將該目標在線廣告的標引 關鍵詞作為搜索關鍵詞發送給廣告伺服器上的搜尋引擎,並向用戶推薦由該 廣告伺服器上的搜尋引擎返回的在線廣告。這樣,用戶可以得到自身需要的在線廣告。其中,訓練決策樹的流程,除了訓練數據集不同之外,其他過程與圖6所示流程相同。為了推薦在線廣告而訓練決策樹時,訓練數據集包括引關鍵詞。其中,瀏覽歷史樣本目標在線廣告是指在瀏覽過程中被訪問過的 在線廣告,瀏覽歷史樣本目標在線廣告可以由用戶指定,也可以由廣告服務 器自動生成。生成過濾器的方法與圖4所示流程相同,在此省略其描述。在此,廣告發布網站可以採用"顯示廣告"或"引用廣告"的方式發布 廣告。"引用廣告"是指不顯示任何廣告內容,而只是作為其他網站的引用 者。假設在第一個網站中採用"引用廣告"的方式發布了廣告,在第二個網 站中採用"顯示廣告"的方式發布了廣告,第一個網站的"引用廣告"對於 用戶是不可見的,用戶從第一個網站轉到第二個網站點擊了 "顯示廣告", 這時,由於瀏覽特徵向量表示了用戶瀏覽歷史過程,所以,該第一個網站作 為瀏覽歷史對廣告的預測是有貢獻的。因此,採用"顯示廣告"的方式發布 廣告的網站在用戶點擊任一廣告而得到收益後,應當根據釆用"引用廣告" 的方式發布廣告的網站所記錄的用戶瀏覽歷史記錄對該廣告的貢獻,與採用 "引用廣告"的方式發布廣告的網站分享部分收益。當然,採用"顯示廣告" 的方式發布廣告的網站也可以作為一個引用者與其他網站分享廣告收益。充分結合了靜態的網頁內容和動態的用戶的瀏覽行為,根據被動觀察到的用 戶瀏覽的歷史紀錄來預測用戶的搜索意圖,無需用戶的其他輸入,對用戶的 瀏覽不做任何的幹預,為用戶提供更精確的搜索服務。 下面給出用於實現上述方法的裝置結構。圖8所示為用於提取網頁的標引關鍵詞的裝置結構圖,如圖8所示,該 裝置包括決策樹訓練單元810,用於訓練決策樹;過濾器生成單元820, 用於利用所述決策樹訓練單元所訓練得到的決策樹生成過濾器;標引關鍵詞 提取單元830,用於利用所述決策樹訓練單元所訓練得到的決策樹和所述過 濾器生成單元所生成的過濾器,提取輸入網頁的標引關鍵詞並輸出。所述決策樹訓練單元810包括訓練數據集獲取單元811,用於獲取多 個樣本網頁以及相應樣本網頁的標引關鍵詞;標引關鍵詞的網頁特徵向量計 算單元812,用於計算所述樣本網頁的標引關鍵詞的網頁特徵向量;分類單 元813,用於對所述樣本網頁的網頁特徵向量進行分類得到所屬的類別;訓 練單元814,用於根據所述樣本網頁的標引關鍵詞的網頁特徵向量和所屬的 類別訓練決策樹;決策樹保存單元815,用於保存所訓練得到的決策樹。所述過濾器生成單元820包括規則建立單元821,用於從所述決策樹 保存單元中所保存的決策樹中,確定具有規定類別的葉節點,並建立從根節 點到所述具有規定類別的葉節點的規則;判定條件提取單元822,用於從所 述規則建立單元所建立的每一個規則中,提取標引關鍵詞的相同位置的判定 條件,並得到標引關鍵詞的每一個位置的判定條件;析取範式獲取單元823, 用於提取所述判定條件提取單元所得到的不同規則中標引關鍵詞的相同位 置的判定條件,得到標引關鍵詞的每一個位置的析取範式;過濾器保存單元 824,用於將所述析取範式獲取單元所獲取的標引關鍵詞的每一個位置的析 取範式作為相應位置的過濾器保存。所述標引關鍵詞提取單元830包括字/詞提取單元831,用於獲取輸入 網頁的部分或所有字/詞;網頁特徵向量計算單元832,用於計算所述字/詞 提取單元所獲取的部分或所有字/詞的網頁特徵向量;標引關鍵詞各位置字/ 詞選擇單元833,用於按照所述過濾器保存單元所保存的標引關鍵詞的每一 個位置的過濾器,判斷所述網頁特徵向量計算單元所計算的字/詞的網頁特 徵向量是否滿足標引關鍵詞的每一個位置的過濾器條件,如果滿足,則在標 引關鍵詞的相應位置上選擇該字/詞;候選標引關鍵詞生成單元834,用於從 所述標引關鍵詞各位置字/詞選擇單元所選擇的標引關鍵詞的各位置上的字/ 詞中分別提取字/詞並按照位置順序排列成候選標引關鍵詞;類別預測單元 835,用於調用所述決策樹保存單元所保存的決策樹,根據所述候選標引關 鍵詞生成單元所得到的各候選標引關鍵詞所包含的字/詞的網頁特徵向量來 預測該候選標引關鍵詞的類別;預測準確度記錄單元836,用於對於規定類別的候選標引關鍵詞記錄預測準確度;標引關鍵詞確定單元837,用於將預 測準確度達到規定標準或最高的候選標引關鍵詞作為輸入網頁的標引關4建 詞並輸出。下面給出用於推薦在線廣告的裝置。如圖9所示,推薦在線廣告的裝置 包括決策樹訓練單元910,用於訓練決策樹;過濾器生成單元920,用於 利用所述決策樹訓練單元所訓練得到的決策樹生成過濾器;瀏覽歷史獲取單 元940,用於獲取在線廣告的瀏覽歷史,並傳給標引關鍵詞預測單元;標引 關鍵詞預測單元930,用於利用所述決策樹訓練單元所訓練得到的決策樹和 所述過濾器生成單元所生成的過濾器,根據瀏覽歷史預測目標在線廣告的標 引關鍵詞,並輸出給在線廣告推薦單元950;在線廣告推薦單元950將從所 述標引關鍵詞預測單元收到的目標在線廣告的標引關鍵詞發送給在線廣告 搜尋引擎,接收該在線廣告搜尋引擎所返回的在線廣告並推薦。所述決策樹訓練單元910包括訓練數據集獲取單元911,用於獲取多關4建詞;標引關鍵詞的瀏覽特徵向量計算單元912,用於計算所述瀏覽歷史 樣本目標在線廣告的標引關鍵詞的瀏覽特徵向量;分類單元913,用於對所 述瀏覽歷史樣本目標在線廣告的瀏覽特徵向量進行分類得到所屬的類別;訓 練單元914,用於根據所述瀏覽歷史樣本目標在線廣告的標引關鍵詞的瀏覽 特徵向量和所屬的類別訓練決策樹;決策樹保存單元915,用於保存所訓練 得到的決策樹。在此,訓練數據集獲取單元911在獲取瀏覽歷史樣本目標在 線廣告的標引關鍵詞時,可以將瀏覽歷史樣本目標在線廣告輸出給圖8所示 的用於提取網頁的標引關鍵詞的裝置,由該用於提取網頁的標引關鍵詞的裝 置提取出該瀏覽歷史樣本目標在線廣告的標引關鍵詞之後返回給所述訓練 數據集獲取單元911。所述過濾器生成單元920包括規則建立單元921,用於從所述決策樹 保存單元中所保存的決策樹中,確定具有規定類別的葉節點,並建立從根節 點到所述具有規定類別的葉節點的規則;判定條件提取單元922,用於從所述規則建立單元所建立的每一個規則中,提取標引關鍵詞的相同位置的判定條件,並得到標引關鍵詞的每一個位置的判定條件;析取範式獲取單元933, 用於提取所述判定條件提取單元所得到的不同規則中標引關鍵詞的相同位 置的判定條件,得到標引關鍵詞的每一個位置的析取範式;過濾器保存單元 944,用於將所述析取範式獲取單元所獲取的標引關鍵詞的每一個位置的析 取範式作為相應位置的過濾器保存。所述標引關鍵詞預測單元930包括字/詞提取單元931,用於提取所述 瀏覽歷史獲取單元940所獲取的瀏覽歷史中的部分或所有字/詞;瀏覽特徵 向量計算單元932,用於計算所述字/詞提取單元所提取的部分或所有字/詞 的瀏覽特徵向量;標引關鍵詞各位置字/詞選擇單元933,用於按照所述過濾 器保存單元所保存的標引關鍵詞的每一個位置的過濾器,判斷所述瀏覽特徵 向量計算單元所計算的字/詞的瀏覽特徵向量是否滿足標引關鍵詞的每一個 位置的過濾器條件,如果滿足,則在標引關鍵詞的相應位置上選擇該字/詞; 候選標引關鍵詞生成單元934,用於從所述標引關鍵詞各位置字/詞選擇單元 所選擇的標引關鍵詞的各位置上的字/詞中分別提取字/詞並按照位置順序排 列成候選標引關鍵詞;類別預測單元935,用於調用所述決策樹保存單元所 保存的決策樹,根據所述候選標引關鍵詞生成單元所得到的各候選標引關鍵 詞所包含的字/詞的瀏覽特徵向量來預測該候選標引關4定詞的類別;預測準 確度記錄單元936,用於對於規定類別的候選標引關鍵詞記錄預測準確度; 標引關鍵詞確定單元937,用於將預測準確度達到規定標準或最高的候選標 引關鍵詞作為目標在線廣告的標引關鍵詞並輸出給所述在線廣告推薦單元 950。本發明所述的用於推薦在線廣告的裝置可以作為廣告伺服器的一個功 能模塊集成到廣告伺服器內,或者也可以作為一個獨立的功能單元安裝到廣算機可執行的程序,安裝到廣告伺服器上,使得該廣告伺服器通過執行該程 序來進行在線廣告推薦。以上所述的提取網頁的標引關4建詞的方法和裝置、預測目標網頁的標引 關鍵詞的方法和裝置、以及推薦在線廣告的方法和裝置不僅可以應用於網際網路搜索、桌面搜索、企業信息搜索,還可以應用於即時通訊(IM)設備、 手機行動裝置以及手持設備上的搜索應用系統。以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本 發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在 本發明的保護範圍之內。
權利要求
1、一種提取網頁的標引關鍵詞的方法,其特徵在於,該方法包括獲取訓練數據集,所述訓練數據集包括多個樣本網頁以及相應樣本網頁的標引關鍵詞;獲取所述樣本網頁的標引關鍵詞的網頁特徵向量,對該標引關鍵詞的網頁特徵向量進行分類得到所屬的類別,並根據所述訓練數據集中樣本網頁的標引關鍵詞的網頁特徵向量和所屬的類別訓練決策樹;利用訓練得到的決策樹,生成標引關鍵詞的過濾器,所述過濾器包括標引關鍵詞的網頁特徵向量的判定條件;獲取網頁的部分或所有字/詞,獲取所述部分或所有字/詞的網頁特徵向量,並選擇網頁特徵向量符合所述過濾器中判定條件的字/詞,從所選擇的字/詞中提取網頁的標引關鍵詞。
2、 根據權利要求1所述的方法,其特徵在於, 所述標引關鍵詞包括/個字/詞,/為大於等於1的自然數; 所述獲取所述樣本網頁的標引關鍵詞的網頁特徵向量為獲取所述樣本網頁的標引關鍵詞中每一個字/詞的網頁特徵向量,將該標引關鍵詞中所有字/詞的 網頁特徵向量列在一起得到該樣本網頁的標引關鍵詞的網頁特徵向量;所述訓練決策樹為在根節點中設置標引關鍵詞的網頁特徵向量中分量的 判定條件,根據分量的不同取值建立分支節點,然後在每個分支節點中設置標 S1關4建詞的網頁特徵向量中分量的判定條件並才艮據分量的不同取值再建立下層 分支節點,直到建立葉節點為止,葉節點對應所述類別。
3、 根據權利要求2所述的方法,其特徵在於,所述生成標引關4建詞的過濾 器的步驟包括針對具有規定類別的每一個葉節點,將從根節點到所述葉節點的判定條件 用"與"的關係連接在一起得到從根節點到所述葉節點的規則;對於每一個規則,將標引關4建詞的相同位置的判定條件用"與"的關係連接在一起得到標引關鍵詞的每一個位置的判定條件;將不同規則中標引關鍵詞的相同位置的判定條件用"或"的關係組合在一 起,得到標引關鍵詞的每一個位置的析取範式,所述標引關鍵詞的各位置的析 取範式構成過濾器。
4、 根據權利要求3所述的方法,其特徵在於,所述選擇網頁特徵向量符合所述過濾器中判定條件的字/詞為對於所述網 頁的部分或所有字/詞,判斷字/詞的網頁特徵向量是否滿足標引關4定詞的每一個 位置的析取範式,如果滿足,則在標引關鍵詞的相應位置上選擇該字/詞;所ii/人所選擇的字/詞中提取網頁的標引關鍵詞為從標引關鍵詞的各位置上所選擇的字/詞中分別提取字/詞並按照位置順序 排列成候選標引關鍵詞;調用訓練得到的決策樹,根據^f矣選標引關鍵詞所包含的字/詞的網頁特徵 向量預測該候選標引關鍵詞的類別,對於規定類別的候選標引關鍵詞記錄預測 準確度,並將預測準確度達到規定標準或最高的候選標引關鍵詞作為該網頁的 標引關鍵詞。
5、 一種預測目標網頁的標引關鍵詞的方法,其特徵在於,該方法包括 獲取訓練數據集,所述訓練數據集包括多個瀏覽歷史樣本目標網頁以及相應瀏覽歷史樣本目標網頁的標引關鍵詞;獲取所述瀏覽歷史樣本目標網頁的標引關鍵詞的瀏覽特徵向量,對該標引 關鍵詞的瀏覽特徵向量進行分類得到所屬的類別,並根據所述訓練數據集中瀏 覽歷史樣本目標網頁的標引關4定詞的瀏覽特徵向量和所屬的類別訓練決策樹;利用訓練得到的決策樹,生成標引關4定詞的過濾器,所述過濾器包括標引 關#:詞的瀏覽特徵向量的判定條件;獲取瀏覽歷史網頁,獲取所述瀏覽歷史網頁的部分或所有字/詞,獲取所述 部分或所有字/詞的瀏覽特徵向量,並選擇瀏覽特徵向量符合所述過濾器中判定 條件的字/詞,從所選擇的字/詞中預測目標網頁的標引關鍵詞。
6、 根據權利要求5所述的方法,其特徵在於,所述瀏覽歷史樣本目標網頁的標引關鍵詞通過權利要求1所述的方法提取得到。
7、 根據權利要求5所述的方法,其特徵在於, 所述標引關鍵詞包括/個字/詞,/為大於等於1的自然數; 所述獲取所述瀏覽歷史樣本目標網頁的標引關鍵詞的瀏覽特徵向量為獲取所述瀏覽歷史樣本目標網頁的標引關鍵詞中每一個字/詞的瀏覽特徵向量,將 該標引關鍵詞中所有字/詞的瀏覽特徵向量列在一起得到該瀏覽歷史樣本目標 網頁的標引關4建詞的瀏覽特徵向量;所述訓練決策樹為在根節點中設置標? I關鍵詞的瀏覽特徵向量中分量的 判定條件,根據分量的不同取值建立分支節點,然後在每個分支節點中設置標 1關鍵詞的瀏覽特徵向量中分量的判定條件並根據分量的不同取值再建立下層 分支節點,直到建立葉節點為止,葉節點對應所述類別。
8、 根據權利要求7所述的方法,其特徵在於,所述生成標引關鍵詞的過濾 器的步驟包括針對具有規定類別的每一個葉節點,將從根節點到所述葉節點的判定條件 用"與"的關係連接在一起得到從根節點到所述葉節點的規則;對於每一個規則,將標引關鍵詞的相同位置的判定條件用"與"的關係連 接在一起得到標31關鍵詞的每一個位置的判定條件;將不同規則中標引關鍵詞的相同位置的判定條件用"或"的關係組合在一 起,得到標引關鍵詞的每一個位置的析取範式,所述標引關鍵詞的各位置的析 取範式構成過濾器。
9、 根據權利要求8所述的方法,其特徵在於,所述選擇瀏覽特徵向量符合所述過濾器中判定條件的字/詞為對於所述瀏 覽歷史網頁的部分或所有字/詞,判斷字/詞的瀏覽特徵向量是否滿足標引關鍵詞 的每一個位置的析取範式,如果滿足,則在標引關鍵詞的相應位置上選擇該字/詞;所述從所選擇的字/詞中預測目標網頁的標引關鍵詞為從標引關鍵詞的各位置上所選擇的字/詞中分別提取字/詞並按照位置順序排列成候選標引關鍵詞;調用訓練得到的決策樹,根據各候選標引關鍵詞所包含的字/詞的瀏覽特徵 向量預測該候選標引關鍵詞的類別,對於規定類別的候選標引關鍵詞記錄預測 準確度,並將預測準確度達到規定標準或最高的候選標引關鍵詞作為目標網頁 的標引關鍵詞。
10、 一種推薦在線廣告的方法,其特徵在於,該方法包括 獲取訓練數據集,所述訓練數據集包括多個瀏覽歷史樣本目標在線廣告以及相應瀏覽歷史樣本目標在線廣告的標引關4定詞;獲取所述瀏覽歷史樣本目標在線廣告的標引關鍵詞的瀏覽特徵向量,對該 標引關鍵詞的瀏覽特徵向量進行分類得到所屬的類別,並根據所述訓練數據集 中瀏覽歷史樣本目標在線廣告的標引關4建詞的瀏覽特徵向量和所屬的類別訓練 決策樹;利用訓練得到的決策樹,生成標引關鍵詞的過濾器,所述過濾器包括標引 關4建詞的瀏覽特徵向量的判定條件;獲取在線廣告的瀏覽歷史,獲取所述瀏覽歷史的部分或所有字/詞,獲取所 述部分或所有字/詞的瀏覽特徵向量,並選擇瀏覽特徵向量符合所述過濾器中判 定條件的字/詞,從所選擇的字/詞中預測目標在線廣告的標引關鍵詞;將預測得到的目標在線廣告的標引關鍵詞作為搜索關鍵詞發送給搜索引 擎,並推薦搜尋引擎返回的在線廣告。
11、 根據權利要求IO所述的方法,其特徵在於,所述在線廣告包括顯示 廣告和引用廣告。
12、 一種推薦在線廣告的裝置,其特徵在於,該裝置包括 決策樹訓練單元,用於訓練決策樹;過濾器生成單元,用於利用所述決策樹訓練單元所訓練得到的決策樹生成 過濾器;瀏覽歷史獲取單元,用於獲取在線廣告的瀏覽歷史,並傳給標引關鍵詞預 測單元;標51關鍵詞預測單元,用於利用所述決策樹訓練單元所訓練得到的決策樹 和所述過濾器生成單元所生成的過濾器,根據瀏覽歷史預測目標在線廣告的標引關鍵詞,並輸出給在線廣告推薦單元;在線廣告推薦單元,用於將從所述標引關鍵詞預測單元收到的目標在線廣 告的標引關鍵詞發送給搜尋引擎,接收該搜尋引擎所返回的在線廣告並推薦。
13、根據權利要求12所述的裝置,其特徵在於,所述決策樹訓練單元包括訓練數據集獲取單元,用於獲取多個瀏覽歷史樣本目標在線廣告以及相應 瀏覽歷史樣本目標在線廣告的標引關4A詞;標引關4建詞的瀏覽特徵向量計算單元,用於計算所述瀏覽歷史樣本目標在 線廣告的標引關4建詞的瀏覽特徵向量;分類單元,用於對所述瀏覽歷史樣本目標在線廣告的瀏覽特徵向量進行分 類得到所屬的類別;訓練單元,用於根據所述瀏覽歷史樣本目標在線廣告的標引關鍵詞的瀏覽 特徵向量和所屬的類別訓練決策樹;決策樹保存單元,用於保存所訓練得到的決策樹;所述過濾器生成單元包括規則建立單元,用於從所述決策樹保存單元中所保存的決策樹中,確定具 有規定類別的葉節點,並建立從根節點到所述具有規定類別的葉節點的規則;判定條件提取單元,用於從所述規則建立單元所建立的每一個規則中,提 取標引關鍵詞的相同位置的判定條件,並得到標引關鍵詞的每一個位置的判定 條件;析取範式獲取單元,用於提取所述判定條件提取單元所得到的不同規則中 標引關鍵詞的相同位置的判定條件,得到標引關鍵詞的每一個位置的析取範式;過濾器保存單元,用於將所述析取範式獲取單元所獲取的標引關鍵詞的每 一個位置的析取範式作為相應位置的過濾器保存;所述標引關鍵詞預測單元包括字/詞提取單元,用於提取所述瀏覽歷史獲取單元所獲取的瀏覽歷史中的部分或所有字/詞;瀏覽特徵向量計算單元,用於計算所述字/詞提取單元所提取的部分或所有 字/詞的瀏覽特徵向量;標引關鍵詞各位置字/詞選擇單元,用於按照所述過濾器保存單元所保存的 標引關鍵詞的每一個位置的過濾器,判斷所述瀏覽特徵向量計算單元所計算的 字/詞的瀏覽特徵向量是否滿足標引關鍵詞的每一個位置的過濾器條件,如果滿 足,則在標引關鍵詞的相應位置上選擇該字/詞;候選標引關鍵詞生成單元,用於從所述標引關鍵詞各位置字/詞選擇單元所 選捧的標引關鍵詞的各位置上的字/詞中分別提取字/詞並按照位置順序排列成候選標引關鍵詞;類別預測單元,用於調用所述決策樹保存單元所保存的決策樹,根據所述 候選標引關鍵詞生成單元所得到的各候選標引關鍵詞所包含的字/詞的瀏覽特 徵向量來預測該候選標引關^定詞的類別;預測準確度記錄單元,用於對於規定類別的候選標引關鍵詞記錄預測準確度;標引關鍵詞確定單元,用於將預測準確度達到規定標準或最高的候選標引 關4建詞作為目標在線廣告的標引關4定詞並輸出給所述在線廣告推薦單元。
全文摘要
本發明公開了一種預測目標網頁的標引關鍵詞的方法,該方法包括獲取訓練數據集,根據所獲取的訓練數據集訓練決策樹;利用訓練得到的決策樹生成標引關鍵詞的過濾器;利用訓練得到的決策樹和所生成的過濾器,預測目標網頁的標引關鍵詞。本發明還公開了一種推薦在線廣告的方法,根據用戶瀏覽歷史預測得到的目標在線廣告的標引關鍵詞發送給搜尋引擎,並推薦搜尋引擎返回的在線廣告。本發明還公開了一種提取網頁的標引關鍵詞的方法以及推薦在線廣告的裝置。根據本發明公開的方法和裝置,能夠預測用戶的搜索意圖,為用戶提供精確的搜索服務。
文檔編號G06F17/30GK101216825SQ200710160700
公開日2008年7月9日 申請日期2007年12月29日 優先權日2007年12月29日
發明者朱廷劭 申請人:朱廷劭

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀