一種關鍵詞的擴充方法及裝置製造方法
2023-05-29 07:16:56
一種關鍵詞的擴充方法及裝置製造方法
【專利摘要】本申請提供了一種關鍵詞的擴充方法及裝置,其中的方法具體包括:獲取網頁樣本及對應的關鍵詞;依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別;對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益;選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。本申請能夠針對某一特定範疇進行關鍵詞的擴充,得到具有確定性的擴充結果。
【專利說明】—種關鍵詞的擴充方法及裝置
【技術領域】
[0001]本申請涉及網際網路【技術領域】,特別是涉及一種關鍵詞的擴充方法及裝置。
【背景技術】
[0002]目前,隨著網際網路技術的發展,關鍵詞技術在網際網路領域的應用也變得愈加廣泛,例如其可以應用於網際網路營銷、搜尋引擎的優化排名等各種網際網路領域。
[0003]以應用於網際網路營銷領域為例,如果能找到某一範疇內的關鍵詞,就能在網際網路上鎖定對該範疇感興趣的用戶,從而可以針對鎖定的用戶進行精準營銷。而關鍵詞的擴充就是用於找到某一範疇內的關鍵詞。例如,廣告公司需要將某皮膚病的廣告投放給網際網路上特定的用戶,為了鎖定欲投放的特定用戶,需要針對「皮膚病」這一範疇進行關鍵詞的擴充,例如,擴充結果具體可以包括:「溢脂性皮炎、疥瘡、腳氣、手足癬」等關鍵詞,當有用戶在搜尋引擎上搜索這些關鍵詞時,可以認定該用戶對「皮膚病」感興趣,於是可以針對該用戶投放上述皮膚病的廣告。
[0004]現有關鍵詞的擴充方法主要包括主題模型算法、simrank算法等。其中,主題模型的本質是一種基於文本概率建立的模型,給該模型一堆文檔,並指定一個參數K,該模型會輸出K組詞,其中每組內的詞為相似的、用於描述相同事物的詞語,K越大,每一組詞的數量就越大;Simrank算法輸出的結果包括一個詞和一組跟該詞相關的詞。然而,主題模型算法、simrank算法均是無監督機器學習算法,其無法給出某組詞所屬的類別,因此不能針對某一特定範疇進行關鍵詞的擴充,也即其擴充結果具有不確定性。
【發明內容】
[0005]本申請所要解決的技術問題是提供一種關鍵詞的擴充方法及裝置,能夠針對某一特定範疇進行關鍵詞的擴充,得到具有確定性的擴充結果。
[0006]為了解決上述問題,本申請公開了一種關鍵詞的擴充方法,包括:
[0007]獲取網頁樣本及對應的關鍵詞;
[0008]依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別;
[0009]對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益;
[0010]選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
[0011]優選的,所述對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益的步驟,包括:
[0012]分別統計所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目;
[0013]依據所述所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目,分別計算每個關鍵詞在分類前後的信息熵;
[0014]以每個關鍵詞在分類前後的信息熵的差值作為所述每個關鍵詞的信息增益。[0015]優選的,所述選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞的步驟,包括:
[0016]依據信息增益對所有關鍵詞進行排序,並依據排序結果選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
[0017]優選的,所述依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別的步驟,包括:
[0018]針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數是否達到預設次數,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別;或者
[0019]針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數相對於該網頁樣本所有關鍵詞的數目的比例是否達到預設比例,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別。
[0020]優選的,所述獲取網頁樣本及對應的關鍵詞的步驟,包括:
[0021]通過網頁爬蟲在網際網路上抓取網頁和網頁內容,對網頁內容進行分析並依據分析結果提取相應的關鍵詞;和/或
[0022]從運營商的流量中提取搜索結果跳轉網頁及對應的關鍵詞;和/或
[0023]從搜尋引擎伺服器記錄的搜索行為數據中提取搜索結果跳轉網頁及對應的關鍵 詞。
[0024]優選的,所述方法還包括:返回執行所述依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別的步驟;
[0025]所述依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別的步驟為,依據本次擴充前的範疇內已知關鍵詞和本次擴充得到的範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別。
[0026]另一方面,本申請還公開了一種關鍵詞的擴充裝置,包括:
[0027]獲取模塊,用於獲取網頁樣本及對應的關鍵詞;
[0028]分類模塊,用於依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別;
[0029]統計模塊,用於對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益 '及
[0030]選取模塊,用於選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
[0031]優選的,所述統計模塊包括:
[0032]數目統計子模塊,用於分別統計所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目;
[0033]信息熵計算子模塊,用於依據所述所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目,分別計算每個關鍵詞在分類前後的信息熵;及
[0034]差值計算子模塊,用於以每個關鍵詞在分類前後的信息熵的差值作為所述每個關鍵詞的信息增益。[0035]優選的,所述選取模塊,具體用於依據信息增益對所有關鍵詞進行排序,並依據排序結果選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
[0036]優選的,所述分類模塊包括:
[0037]第一分類子模塊,用於針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數是否達到預設次數,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別;或者
[0038]第二分類子模塊,用於針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數相對於該網頁樣本所有關鍵詞的數目的比例是否達到預設比例,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別。
[0039]與現有技術相比,本申請具有以下優點:
[0040]本申請依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別,對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益,並選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞;
[0041]一方面,由於依據範疇內已知關鍵詞進行關鍵詞的擴充,相當於引導計算機針對該範疇進行擴詞,故能夠得到具有確定性的擴充結果;
[0042]另一方面,關鍵詞的信息增益可用于衡量關鍵詞分類能力的強弱,本申請選取的信息增益最大的若干關鍵詞為網頁中分類能力最強的關鍵詞,而本申請實施例中,網頁分類的目的是將網頁分類為範疇類別或非範疇類別,因此,網頁中分類能力最強的關鍵詞也即為與範疇相關度最聞的關鍵詞;
[0043]總之,本申請能夠針對特定範疇,從眾多網頁樣本中選取出與該特定範疇相關度最高的關鍵詞,相對於現有技術,能夠針對某一特定範疇進行關鍵詞的擴充,得到更具有確定性的擴充結果。
【專利附圖】
【附圖說明】
[0044]圖1是本申請一種關鍵詞的擴充方法實施例1的流程圖;
[0045]圖2是本申請實施例一種對分類前後的網頁樣本進行統計的流程示例;
[0046]圖3是本申請一種關鍵詞的擴充方法實施例2的流程圖;
[0047]圖4是本申請一種關鍵詞的擴充裝置實施例的結構圖。
【具體實施方式】
[0048]為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0049]參照圖1,示出了本申請一種關鍵詞的擴充方法實施例1的流程圖,具體可以包括:
[0050]步驟101、獲取網頁樣本及對應的關鍵詞;
[0051]本申請實施例可以針對各種特定範疇進行關鍵詞的擴充,以將擴充得到關鍵詞應用於網際網路營銷、搜尋引擎的優化排名等各種網際網路領域。
[0052]以應用於網際網路營銷領域為例,如果廣告公司需要將某皮膚病的廣告投放給網際網路上特定的用戶,為了鎖定欲投放的特定用戶,那麼需要針對「皮膚病」這一範疇進行關鍵詞的擴充;如果廣告公司需要將銀行理財廣告投放給網際網路上特定的用戶,那麼需要針對「金融理財」這一範疇進行關鍵詞的擴充。
[0053]本申請可以提供如下獲取網頁樣本及對應的關鍵詞的技術方案:
[0054]技術方案Al
[0055]技術方案Al可以通過網頁爬蟲在網際網路上抓取網頁和網頁內容,對網頁內容進行分析並依據分析結果提取相應的關鍵詞。
[0056]在實際應用中,可以選擇與特定範疇相關的網站進行抓取,並且,可以首先對所抓取網頁對應的網頁正文進行分析,這裡的網頁正文具體可以包括去掉廣告等多餘信息的網頁內容;然後依據網頁正文對應的分析結果,提取所述網頁正文中的特徵內容;所述特徵內容具體可以包括:標題、子標題、表格、摘要和加粗文字中的一項或多項;最後從所提取的特徵內容中提取相應的關鍵詞。
[0057]技術方案A2
[0058]技術方案A2可以從運營商的流量中提取搜索結果跳轉網頁及對應的關鍵詞。
[0059]通常情況下用戶在搜尋引擎下搜索某個關鍵詞並點擊相應搜索結果以訪問對應跳轉網頁的時候,會產生相關的網絡報文,而這些網絡報文會被攜帶在電信、聯通等運營商的流量中;故技術方案A2可以通過分析這些網絡報文以提取搜索結果跳轉網頁及對應的關鍵詞。
[0060]技術方案A3
[0061]技術方案A3可以從搜尋引擎伺服器記錄的搜索行為數據中提取搜索結果跳轉網頁及對應的關鍵詞。
[0062]搜尋引擎伺服器記錄的搜索行為數據中通常會包括用戶在搜尋引擎下搜索某個關鍵詞並點擊相應搜索結果以訪問對應跳轉網頁的相應數據,故技術方案A3可以通過分析這些搜索行為數據以提取搜索結果跳轉網頁及對應的關鍵詞。
[0063]在具體實施中,本領域技術人員可以根據實際需要,採用所述技術方案A1-A3中的一種或多種,或者,可以根據實際需求採用其它技術方案以獲取網頁樣本及對應的關鍵詞,如人工收集等等,本申請實施例對具體的獲取網頁樣本及對應的關鍵詞的方案不加以限制。
[0064]在實際應用中,可以方便維護和運算,可以依據所獲取的網頁樣本及對應的關鍵詞建立語料庫,該語料庫可以理解為所獲取的網頁樣本及對應的關鍵詞的集合。
[0065]在此提供一種語料庫中每個網頁樣本及對應的關鍵詞的存儲格式示例:url (大分隔符)queryl (小分隔符)frequentl (中分隔符)query2 (小分隔符)frequent2 (中分隔
符)query3 (小分隔符)frequent3 (中分隔符)......,其中,url用於表示網頁樣本的統一
資源定位符(Uniform Resource Locator), query I > query 2 > query 3分別表不該網頁樣本對應的關鍵詞,frequently frequent2、frequent3 分別表不 queryl、query2、query3 在該網頁樣本中出現的次數。
[0066]在此提供一種採用上述存儲格式存儲的某網頁樣本的信息的示例:http://www.haodf.com/jibing/pifubing/daifu.htm (\x01)溼疫(\x03) 23 (\x02)銀屑病(\x03) 32(\x02)痤瘡(\x03) 11 ;在實際中,可以在語料庫對應的數據倉庫中存放上千萬行這樣的信肩、O
[0067]步驟102、依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別;
[0068]本申請實施例針對特定範疇進行關鍵詞的擴充,故需要給出一些範疇內已知關鍵詞,在實際中可以通過各種方式獲取所述範疇內已知關鍵詞,在此給出一些獲取所述範疇內已知關鍵詞的示例:
[0069]方式一:人工獲取;
[0070]方式二:首先採用現有的主題模型、simrank等算法收集一些相似的關鍵詞,然後通過人工方式從所收集的關鍵詞中篩選出所述範疇內已知關鍵詞。
[0071]在具體實現中,所述依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別的步驟,具體可以包括:
[0072]子步驟B1、針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數是否達到預設次數,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別;或者
[0073]子步驟B2、針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數相對於該網頁樣本所有關鍵詞的數目的比例是否達到預設比例,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別。
[0074]其中,本領域技術人員可以根據實際需求採用所述子步驟BI和子步驟B2中的任一;所述子步驟BI中的預設次數可以為一次、兩次、三次、四次等;所述子步驟B2中的預設比例可以為1/4等數值,例如,某個url後面有8個關鍵詞,那麼所述範疇內已知關鍵詞在該url對應網頁中出現兩次及兩次以上就可以將該網頁分類為範疇類別。總之,本領域技術人員可以靈活地利用範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率對所述網頁樣本進行分類。
[0075]在本申請的一種應用示例中,可以對分類結果進行機器標註,例如,可以將範疇類別的網頁樣本標註為Y,同時將非範疇類別的網頁樣本標註為N等等。
[0076]由於較長的關鍵詞在語料庫中出現的頻率過低,而且包含的語義過於豐富,不利於語料庫中網頁樣本的分類,故在本申請的一種優選實施例中,在依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別的步驟之前,還可以首先對所有網頁樣本的關鍵詞進行分詞的步驟。
[0077]步驟103、對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益;
[0078]步驟104、選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
[0079]本申請實施例在基於資訊理論知識進行關鍵詞的擴充的過程中,可以將每個網頁樣本看作一個對象,將每個網頁樣本對應的每個關鍵詞看作對象的屬性。
[0080]由於步驟101獲取了眾多網頁樣本對象的集合,有的網頁樣本對象屬於範疇類別,有的網頁樣本對象不屬於範疇類別,也即,網頁樣本對象的集合在分類前是混亂的故需要較多的信息熵去描述,故需要依據網頁樣本的關鍵詞屬性進行分類。
[0081]而每個網頁樣本具有對應的至少一個關鍵詞,這導致網頁樣本對象的集合中包括多個關鍵詞,依據其中哪個關鍵詞分類後導致對象的混亂度變得最小需要最少的信息熵去描述,則說明該關鍵詞的分類能力最強。
[0082]在信息增益中,衡量標準是看屬性能夠為分類系統帶來多少信息,帶來的信息越多,該屬性越重要,則該屬性的分類能力越強;因此,本申請選取的信息增益最大的若干關鍵詞為網頁中分類能力最強的關鍵詞。而本申請實施例中,網頁分類的目的是將網頁分類為範疇類別或非範疇類別,因此,網頁中分類能力最強的關鍵詞也即為與範疇相關度最高的關鍵詞。總之,本申請能夠針對特定範疇,從眾多網頁樣本中選取出與該特定範疇相關度最高的關鍵詞,相對於現有技術,能夠針對某一特定範疇進行關鍵詞的擴充,得到更具有確定性的擴充結果。
[0083]需要說明的是,已有技術中也存在計算信息增益的方案,然而已有技術中計算信息增益需要對對象集合進行人工分類,而本申請實施例中創造性地依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本自動分類為範疇類別或者非範疇類別,而所述網頁樣本和對應的關鍵詞可以反映廣大網民的上網行為,例如,用戶在存在「如何治療感冒」的信息需求時,會在搜尋引擎的搜索框中輸入「感冒」關鍵詞進行搜索,搜尋引擎會提供眾多網頁對應的搜索結果,如果用戶點擊了其中某網頁,那麼該網頁及對應的關鍵詞都會被收集到步驟101中,例如可以形成一條「url+query (query是關鍵詞「感冒」,url是點擊的網頁,中間是分隔符)」的數據記錄,該數據記錄可以相當於搜尋引擎和網民共同標記了該網頁就是「感冒」有關的網頁,本申請實施例正是利用眾多的上述數據記錄中的範疇內已知關鍵詞對網頁樣本集合進行自動分類的。
[0084]在本申請的一種優選實施例中,所述對分類前後的網頁樣本進行統計,得到每個關鍵詞的信息增益的步驟,具體可以包括:
[0085]子步驟Cl、分別統計所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目;
[0086]參照圖2,給出了本申請實施例一種對分類前後的網頁樣本進行統計的流程示例,該示例涉及語料庫中存放有T個網頁樣本,其中每個網頁樣本的信息具體可以包括:url+query,其中,query可用於表示該url對應的至少一個關鍵詞,其中,不同網頁樣本對應關鍵詞的數目可以相同可以不同,且不同網頁樣本對應關鍵詞可以相同可以不同,在實際中可針對所有網頁樣本中關鍵詞進行統計,為方便起見,本文採用queryi表示所有網頁樣本中的第i個關鍵詞;
[0087]圖2所述示例中還依據分類結果對語料庫中的T個網頁樣本進行了機器標註,其中,將範疇類別的網頁樣本標註為Y,將非範疇類別的網頁樣本標註為N,經統計可知,標註為Y的網頁樣本的數目為M,標註為N的網頁樣本的數目為T-M ;
[0088]進一步,圖2所述示例中還統計了 queryi對應所有網頁樣本的數目Ni,也即T個網頁樣本中有Ni個網頁樣本包括有queryi;圖2所述示例中還統計了 Queryi對應範疇類別網頁樣本的數目叫,也即,M個網頁樣本中有Iii個網頁樣本包括有query1.。
[0089]子步驟C2、依據所述所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目,分別計算每個關鍵詞在分類前後的信息熵;
[0090]子步驟C3、以每個關鍵詞在分類前後的信息熵的差值作為所述每個關鍵詞的信息增益。[0091]在具體實現中,本領域技術人員可以採用信息熵、基尼係數或者卡方檢驗等信息度量方法計算得到上述信息增益。
[0092]其中,信息熵是資訊理論中量度信息多少的一個物理量,它從量上反映具有確定概率的事件發生時所傳遞的信息,具體到本申請實施例,每個關鍵詞的信息熵則用於表示屬性能夠為網頁樣本這個對象帶來的信息。
[0093]換個說法,信息熵可用於表示對象集合所攜帶的信息量,也可以認為是對象集合的混亂度。網頁樣本對象的集合中包括多個關鍵詞,依據其中哪個關鍵詞分類後導致對象的混亂度變得最小則說明該關鍵詞具有最強的分類能力,故在實際應用中,可以每個關鍵詞在分類前後的信息熵的差值作為所述每個關鍵詞的信息增益。
[0094]由於本申請涉及網頁樣本對象的兩類分類,兩類分類的信息熵公式可以為:
[0095]InfoQ (p)=_plog2 (P)-(1-p) log2(l-p) (I)
[0096]其中,p表示網頁樣本對象屬於範疇類別的概率;
[0097]在使用公式(I)計算關鍵詞query在分類前的信息熵時,P可以表示為M/T,故公式(I)可以表示為:
【權利要求】
1.一種關鍵詞的擴充方法,其特徵在於,包括: 獲取網頁樣本及對應的關鍵詞; 依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別; 對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益; 選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
2.如權利要求1所述的方法,其特徵在於,所述對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益的步驟,包括: 分別統計所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目; 依據所述所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目,分別計算每個關鍵詞在分類前後的信息熵; 以每個關鍵詞在分類前後的信息熵的差值作為所述每個關鍵詞的信息增益。
3.如權利要求1所述的方法,其特徵在於,所述選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞的步驟,包括: 依據信息增益對所有關鍵詞進行排序,並依據排序結果選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
4.如權利要求1或2或3所述的方法,其特徵在於,所述依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將`所述網頁樣本分類為範疇類別或者非範疇類別的步驟,包括: 針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數是否達到預設次數,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別;或者 針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數相對於該網頁樣本所有關鍵詞的數目的比例是否達到預設比例,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別。
5.如權利要求1或2或3所述的方法,其特徵在於,所述獲取網頁樣本及對應的關鍵詞的步驟,包括: 通過網頁爬蟲在網際網路上抓取網頁和網頁內容,對網頁內容進行分析並依據分析結果提取相應的關鍵詞;和/或 從運營商的流量中提取搜索結果跳轉網頁及對應的關鍵詞;和/或 從搜尋引擎伺服器記錄的搜索行為數據中提取搜索結果跳轉網頁及對應的關鍵詞。
6.如權利要求1或2或3所述的方法,其特徵在於,還包括:返回執行所述依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別的步驟; 所述依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別的步驟為,依據本次擴充前的範疇內已知關鍵詞和本次擴充得到的範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別。
7.—種關鍵詞的擴充裝置,其特徵在於,包括: 獲取模塊,用於獲取網頁樣本及對應的關鍵詞; 分類模塊,用於依據範疇內已知關鍵詞在所述網頁樣本的關鍵詞中的出現頻率,將所述網頁樣本分類為範疇類別或者非範疇類別; 統計模塊,用於對分類前後的網頁樣本進行統計,得到所有網頁樣本中每個關鍵詞的信息增益 '及 選取模塊,用於選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
8.如權利要求7所述的裝置,其特徵在於,所述統計模塊包括: 數目統計子模塊,用於分別統計所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目; 信息熵計算子模塊,用於依據所述所有網頁樣本、範疇類別網頁樣本、每個關鍵詞對應所有網頁樣本和每個關鍵詞對應範疇類別網頁樣本的數目,分別計算每個關鍵詞在分類前後的信息熵;及 差值計算子模塊,用於以每個關鍵詞在分類前後的信息熵的差值作為所述每個關鍵詞的信息增益。
9.如權利要求8所述的裝置,其特徵在於,所述選取模塊,具體用於依據信息增益對所有關鍵詞進行排序,並依據排序結果選取信息增益最大的若干關鍵詞作為擴充得到的範疇內關鍵詞。
10.如權利要求·7或8或9所述的裝置,其特徵在於,所述分類模塊包括: 第一分類子模塊,用於針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數是否達到預設次數,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別;或者 第二分類子模塊,用於針對某網頁樣本,判斷所述範疇內已知關鍵詞在該網頁樣本的關鍵詞中的出現次數相對於該網頁樣本所有關鍵詞的數目的比例是否達到預設比例,若是則將該網頁樣本分類為範疇類別,否則將該網頁樣本分類為非範疇類別。
【文檔編號】G06F17/30GK103823847SQ201410042385
【公開日】2014年5月28日 申請日期:2014年1月28日 優先權日:2014年1月28日
【發明者】李鵬, 羅峰, 黃蘇支, 李娜 申請人:億贊普(北京)科技有限公司