網絡信息的挖掘方法和裝置製造方法
2023-04-26 09:33:41
網絡信息的挖掘方法和裝置製造方法
【專利摘要】採用本發明提供了一種網絡信息的挖掘方法和裝置。所述方法包括:獲取通過瀏覽器上傳得到的瀏覽器數據;通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別;獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。所述裝置包括:數據獲取模塊,用於獲取通過瀏覽器上傳得到的瀏覽器數據;分類模塊,用於通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別;推送模塊,用於獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。採用本發明提高了針對性。
【專利說明】網絡信息的挖掘方法和裝置
【技術領域】
[0001]本發明涉及數據處理技術,特別是涉及一種網絡信息的挖掘方法和裝置。
【背景技術】
[0002]隨著網際網路的發展,通過網際網路傳播的網絡信息呈爆炸性增長,用戶從海量的網絡信息中獲取到期望的網絡信息的難度越來越大,無法準確地提供需要的網絡信息,因此,網絡伺服器常常會對當前熱門的網絡信息進行推送,以方便用戶獲取當前熱門的網絡信
肩、O
[0003]例如,通常以導航頁面的形式提供多種多樣的網絡信息,該網絡信息可為熱門網站。具體的,一些熱門網站被羅列於導航頁面中,用戶可在導航頁面對羅列的熱門網站進行選擇,進而實現熱門網站的訪問。
[0004]然而,在通過導航頁面實現的網絡信息推送形式中,每一次推送的網絡信息都是相同的,不具備針對性,無法貼近每一用戶所對應的網絡信息獲取意圖。
【發明內容】
[0005]基於此,有必要針對無法貼近每一用戶所對應的網絡信息獲取意圖的問題,提供一種能提高針對性的網絡信息的挖掘方法。
[0006]此外,還有必要提供一種能提高針對性的網絡信息的挖掘裝置。
[0007]一種網絡信息的挖掘方法,包括如下步驟:
[0008]獲取通過瀏覽器上傳得到的瀏覽器數據;
[0009]通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別;
[0010]獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。
[0011]一種網絡信息的挖掘裝置,包括:
[0012]數據獲取模塊,用於獲取通過瀏覽器上傳得到的瀏覽器數據;
[0013]分類模塊,用於通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別;
[0014]推送模塊,用於獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。
[0015]上述網絡信息的挖掘方法和裝置,獲取瀏覽器上傳得到的瀏覽器數據,通過分類模型對上傳的瀏覽器數據進行分類得到相應的類別,進而根據得到的類別獲取相關的網絡信息,進而將網絡信息的推送至瀏覽器,由於瀏覽器數據是用戶在運行瀏覽器和觸發各種操作時產生的,因此,瀏覽器數據能夠反應出用戶意圖,進而使得基於瀏覽器數據為相應的用戶提供符合該用戶的網絡信息獲取意圖的網絡信息,從而提高了針對性。
【專利附圖】
【附圖說明】
[0016]圖1為一個實施例中網絡信息的挖掘方法的流程圖;[0017]圖2為另一個實施例中網絡信息的挖掘方法的流程圖;
[0018]圖3為一個實施例中對存儲的瀏覽器數據和類別進行開方檢驗得到該類別對應的特徵,並通過特徵得到該類別的特徵集合以及相應的特徵向量的方法流程圖;
[0019]圖4為一個實施例中在與類別相對應的瀏覽器數據中查找與類別的特徵相匹配的詞,並根據查找結果生成特徵集合的特徵向量的方法流程圖;
[0020]圖5為一個實施例中通過分類模型對上傳的瀏覽器數據進行分類,得到瀏覽器數據所屬的類別的方法流程圖;
[0021]圖6為另一個實施例中通過分類模型對上傳的瀏覽器數據進行分類,得到瀏覽器數據所屬的類別的方法流程圖;
[0022]圖7為一個實施例中網絡信息的挖掘方法的應用示意圖;
[0023]圖8為一個實施例中網絡信息的挖掘裝置的結構示意圖;
[0024]圖9為另一個實施例中網絡信息的挖掘裝置的結構示意圖;
[0025]圖10為一個實施例中處理模塊的結構示意圖;
[0026]圖11為一個實施例中向量生成單元的結構示意圖;
[0027]圖12為一個實施例中分類模塊的結構示意圖;
[0028]圖13為另一個實施例中分類模塊的結構示意圖;
[0029]圖14為另一個實施例中分類模塊的結構示意圖。
【具體實施方式】
[0030]如圖1所示,在一個實施例中,一種網絡信息的挖掘方法,包括如下步驟:
[0031]步驟S110,獲取通過瀏覽器上傳得到的瀏覽器數據。
[0032]本實施例中,瀏覽器數據是瀏覽器運行過程中產生的數據,記錄了瀏覽歷史記錄、下載歷史記錄、緩存等信息,例如,瀏覽器數據可以是用戶通過瀏覽器訪問的網頁以及該網頁的網絡地址。
[0033]瀏覽器在運行過程中將收集產生的瀏覽器數據,並通過網際網路將收集到的瀏覽器數據上傳到後臺的網絡伺服器中,並存儲。
[0034]步驟S130,通過分類模型對上傳的瀏覽器數據進行分類,得到瀏覽器數據所屬的類別。
[0035]本實施例中,分類模型用於對上傳的各種瀏覽器數據進行分類,以提到瀏覽器數據所屬的類別。例如,上傳的瀏覽器數據為用戶訪問的籃球網頁以及該網頁的網絡地址,則通過分類模型可以獲知這一瀏覽器數據是屬於體育這一類別的。在優選的實施例中,分類模型為樸素貝葉斯分類模型。
[0036]步驟S150,獲取與該類別相關的網絡信息,將獲取的網絡信息推送到瀏覽器。
[0037]本實施例中,在後臺的網絡伺服器得到上傳的瀏覽器數據所屬的類別之後,將獲取與該類別相關的網絡信息,進而將獲取的網絡信息推送到瀏覽器中,以供用戶通過瀏覽器進行瀏覽。由於網絡信息是根據用戶使用瀏覽器時產生的瀏覽器信息得到的,因此,瀏覽器數據將反映了用戶意圖,進而根據瀏覽器數據所挖掘得到的網絡信息將更為貼近用戶意圖,進而為每一用戶提供符合網絡信息獲取意圖的網絡信息,提高了網絡信息挖掘的針對性。[0038]如圖2所示,在另一個實施例中,上述步驟S130之前還包括如下步驟:
[0039]步驟S210,根據預設的類別信息對存儲的瀏覽器數據進行掃描得到存儲的瀏覽器數據對應的類別。
[0040]本實施例中,類別信息用於對瀏覽器上傳並存儲於網絡伺服器中的大量瀏覽器數據進行類別標記。具體的,類別信息包括關鍵詞和該關鍵詞所屬的類別,對存儲的瀏覽器數據進行掃描,判斷存儲的瀏覽器數據中是否存在類別信息中記錄的關鍵詞,若是,則根據這一關鍵詞得到所屬的類別,該類別即為掃描的瀏覽器數據所對應的類別。
[0041]對網絡伺服器中存儲的大量瀏覽器數據均進行類別的標記,以得到瀏覽器數據和類別之間的映射和關係。
[0042]進一步的,在優選的實施例中,存儲的瀏覽器數據中記錄了訪問的網絡地址,上述步驟S210的具體過程為:獲取瀏覽器數據中記錄的網絡地址,對獲取的網絡地址進行掃描,判斷網絡地址中是否存在類別信息中記錄的關鍵詞,若是,則根據這一關鍵詞得到所屬的類別,進而為瀏覽器數據標記該類別。
[0043]本實施例中,在網絡地址中記錄的信息已經能夠實現瀏覽器數據的分類,例如,對於「game.qq.com」這一網絡地址而言,其中的「game」欄位即可說明相應的網頁為遊戲類的頁面,因此,可通過包含了關鍵詞「game」和類別「遊戲」的類別信息得到「game.qq.com」這一網絡地址所屬的類別,進而通過這網絡地址和類別信息快速、準確地完成網絡伺服器中海量瀏覽器數據的類別標記。
[0044]步驟S230,對存儲的瀏覽器數據和類別進行開方檢驗得到該類別對應的特徵,並通過特徵得到該類別的特徵集合以及相應的特徵向量。
[0045]本實施例中,開方檢驗,即X2校驗,用於考察類別與某一詞的相關性,進而選取與該類別相關性大的詞作為該類別所對應的特徵,其中,特徵為最能代表所屬類別的詞,例如,在「體育」這一類別中,特徵可以是「籃球」。通過開方檢驗所得到的若干個特徵組成了該類別的特徵集合,並根據特徵和屬於該類別的瀏覽器數據得到該類別的特徵集合所對應的特徵向量。
[0046]在另一個實施例中,海量瀏覽器與網絡伺服器進行數據交互的過程中上傳並存儲於網絡伺服器中的瀏覽器數據是海量的,因此,在上述步驟S230之前還包括了對存儲的瀏覽器數據進行分詞處理得到若干個詞,並去除得到的詞中的停用詞。
[0047]本實施例中,首先對瀏覽器數據進行分詞處理,將瀏覽器數據表示為詞的集合,進而去除特徵集合中的停用詞。具體的,停用詞的去除可以通過預先設置的停用詞表實現,即去除詞的集合中與停用詞表的詞相一致的詞。停用詞包括英文字符、數字、數學字符、標點符號及單漢字等,例如,單漢字「的」和「 了 」這些沒有實際意義的字。
[0048]如圖3所示,在一個實施例中,上述步驟S230的具體過程為:
[0049]步驟S231,將每一類別和存儲的瀏覽器數據中的詞進行開方檢驗得到詞和類別之間的開方值。
[0050]本實施例中,對每一類別,逐一計算該類別和存儲的瀏覽器數據中的詞之間的開方值。例如,存儲的瀏覽器數據中包含了 N個瀏覽器數據條目,其中,M個瀏覽器數據條目是與體育相關的,「籃球」這一詞存在於某些瀏覽器數據條目中,類別「體育」和「籃球」之間開方檢驗具體過程為:在存儲的瀏覽器數據中統計包含「籃球」且屬於「體育」類別的瀏覽器數據條目的數量,記為A ;統計包含「籃球」但不屬性「體育」類別的瀏覽器數據條目的數量,記為B ;統計不包含「籃球」但卻屬於「體育」類別的瀏覽器數據條目的數量,記為C ;統計既不包含「籃球」也不屬於「體育」類別的瀏覽器數據條目的數量,記為D,進而計算得到
的類別「體育」和「籃球」之間開方值為
[0051]
【權利要求】
1.一種網絡信息的挖掘方法,包括如下步驟: 獲取通過瀏覽器上傳得到的瀏覽器數據; 通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別; 獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。
2.根據權利要求1所述的網絡信息的挖掘方法,其特徵在於,所述通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別的步驟之前還包括: 根據預設的類別信息對存儲的瀏覽器數據進行掃描得到所述存儲的瀏覽器數據對應的類別; 對存儲的瀏覽器數據和類別進行開方檢驗得到所述類別對應的特徵,並通過所述特徵得到所述類別的特徵集合以及相應的特徵向量; 對所述類別的特徵集合進行概率計算得到所述特徵集合中特徵對應的後驗概率; 通過所述類別、所述類別的特徵集合、相應的特徵向量以及所述特徵集合中特徵對應的後驗概率構建分類模型。
3.根據權利要求2所述的網絡信息的挖掘方法,其特徵在於,所述對存儲的瀏覽器數據和類別進行開方檢驗得到所述類別對應的特徵,並通過所述特徵得到所述類別的特徵集合以及相應的特徵向量的步驟為: 將每一類別和所述存儲的瀏覽器數據中的詞進行開方檢驗得到所述詞和所述類別之間的開方值; 判斷所述開方值是否大於閾值,若是`,則將所述詞作為所述類別的特徵,並形成所述類別的特徵集合; 在與所述類別相對應的瀏覽器數據中查找與所述類別的特徵相匹配的詞,並根據查找結果生成所述特徵集合的特徵向量。
4.根據權利要求3所述的網絡信息的挖掘方法,其特徵在於,所述在與所述類別相對應的瀏覽器數據中查找與所述類別的特徵相同的詞,並根據查找結果生成所述特徵集合的特徵向量的具體過程為: 根據所述類別的特徵在所述類別對應的瀏覽器數據中進行查找,判斷所述特徵是否存在於所述類別對應的瀏覽器數據中,若是,則 將所述特徵在特徵向量中對應的元素設置為預設值; 若否,則將所述特徵在特徵向量中對應的元素設置為零。
5.根據權利要求4所述的網絡信息的挖掘方法,其特徵在於,所述將所述特徵向量中對應的元素設置為預設值的步驟之後還包括: 計算所述類別對應的特徵集合中每一特徵所對應的權值,並將所述特徵集合的特徵向量中的預設值變換為特徵對應的權值。
6.根據權利要求2所述的網絡信息的挖掘方法,其特徵在於,所述通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別的步驟為: 計算所述上傳的瀏覽器數據和特徵集合之間的匹配度,並選取所述計算得到的匹配度中的最高匹配度; 獲取所述最高匹配度對應的特徵集合,並根據所述特徵集合得到相應的類別,所述類別即為所述上傳的瀏覽器數據所屬的類別。
7.根據權利要求6所述的網絡信息的挖掘方法,其特徵在於,所述獲取所述最高匹配度對應的特徵集合,並根據所述特徵集合得到相應的類別,所述類別即為所述上傳的瀏覽器數據所屬的類別的步驟之前還包括: 判斷所述最高匹配度是否大於匹配閾值,若是則進入所述獲取所述最高匹配度對應的特徵集合,並根據所述特徵集合得到相應的類別,所述類別即為所述上傳的瀏覽器數據所屬的類別的步驟。
8.根據權利要求7所述的網絡信息的挖掘方法,其特徵在於,所述判斷所述最高匹配度是大於匹配閾值的步驟之前還包括: 判斷所述上傳的瀏覽器數據中記錄的網絡地址是否存在於存儲的瀏覽器數據中,若是,則降低預設的匹配閾值; 統計所述瀏覽器數據中包含的特徵個數,根據所述統計的個數調整匹配閾值。
9.一種網絡信息的挖掘裝置,其特徵在於,包括: 數據獲取模塊,用於獲取通過瀏覽器上傳得到的瀏覽器數據; 分類模塊,用於通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別; 推送模塊,用於獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。
10.根據權利要求9所述的網絡信息的挖掘裝置,其特徵在於,還包括: 掃描模塊,用於根據預設的類別信息對存儲的瀏覽器進行掃描得到所述存儲的瀏覽器數據對應的類別; 處理模塊,用於對存儲的瀏覽器數據和類別進行開方檢驗得到所述類別對應的特徵,並通過所述特徵得到所述類別的特徵集合和相應的特徵向量; 概率計算模塊,用於對所述類別的特徵集合進行概率計算得到所述特徵集合中特徵對應的後驗概率; 模型構建模塊,用於通過所述類別、所述類別的特徵集合、相應的特徵向量以及所述特徵集合中特徵對應的後驗概率構建分類模型。
11.根據權利要求10所述的網絡信息的挖掘裝置,其特徵在於,所述處理模塊包括: 開方檢驗單元,用於將每一類別和所述存儲的瀏覽器數據中的詞進行開方檢驗得到所述詞和所述類別之間的開方值; 特徵選取單元,用於判斷所述開方值是否大於閾值,若是,則將所述詞作為所述類別的特徵,並形成所述類別的特徵集合; 向量生成單元,用於在與所述類別相對應的瀏覽器數據中查找與所述類別的特徵相匹配的詞,並根據查找結果生成所述特徵集合的特徵向量。
12.根據權利要求11所述的網絡信息的挖掘裝置,其特徵在於,所述向量生成單元包括: 查找單元,用於根據所述類別的特徵在所述類別對應的瀏覽器數據中進行查找,判斷所述特徵是否存在於所述類別對應的瀏覽器數據中,若是,則通知元素設置單元將所述特徵在特徵向量中對應的元素設置為預設值,若否,則通知所述元素設置單元將所述特徵在特徵向量中對應的元素設置為零。
13.根據權利要求12所述的網絡信息的挖掘裝置,其特徵在於,所述向量生成單元還包括: 權值計算單元,用於計算所述類別對應的特徵集合中每一特徵所對應的權值,並將所述特徵集合的特徵向量中的預設值變換為特徵對應的權值。
14.根據權利要求10所述的網絡信息的挖掘裝置,其特徵在於,所述分類模塊包括: 匹配單元,用於計算所述上傳的瀏覽器數據和特徵集合之間的匹配度,並選取所述計算得到的匹配度中的最高匹配度; 類別獲取單元,用於獲取所述最高匹配度對應的特徵集合,並根據所述特徵集合得到相應的類別,所述類別即為所述上傳的瀏覽器數據所屬的類別。
15.根據權利要求14所述的網絡信息的挖掘裝置,其特徵在於,所述分類模塊還包括: 閾值判斷單元,用於判斷所述最高匹配度是否大於匹配閾值,若是,則通知所述類別獲取單元。
16.根據權利要求15所述的網絡信息的挖掘裝置,其特徵在於,所述分類模塊還包括: 數據判斷單元,用於判斷所述上傳的瀏覽器數據中記錄的網絡地址是否存在於存儲的瀏覽器數據中,若是,則通知閾值調整單元降低預設的匹配閾值; 所述閾值調整單元還用於統計所述瀏覽器數據中包含的特徵個數,根據所述統計的個數調整匹配閾值。
【文檔編號】G06F17/30GK103678320SQ201210321780
【公開日】2014年3月26日 申請日期:2012年9月3日 優先權日:2012年9月3日
【發明者】楊小銳, 肖鏡輝, 周曉波, 司天歌, 劉玉國 申請人:騰訊科技(深圳)有限公司