新四季網

網絡信息的挖掘方法和裝置製造方法

2023-04-26 09:33:41

網絡信息的挖掘方法和裝置製造方法
【專利摘要】採用本發明提供了一種網絡信息的挖掘方法和裝置。所述方法包括:獲取通過瀏覽器上傳得到的瀏覽器數據;通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別;獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。所述裝置包括:數據獲取模塊,用於獲取通過瀏覽器上傳得到的瀏覽器數據;分類模塊,用於通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別;推送模塊,用於獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。採用本發明提高了針對性。
【專利說明】網絡信息的挖掘方法和裝置
【技術領域】
[0001]本發明涉及數據處理技術,特別是涉及一種網絡信息的挖掘方法和裝置。
【背景技術】
[0002]隨著網際網路的發展,通過網際網路傳播的網絡信息呈爆炸性增長,用戶從海量的網絡信息中獲取到期望的網絡信息的難度越來越大,無法準確地提供需要的網絡信息,因此,網絡伺服器常常會對當前熱門的網絡信息進行推送,以方便用戶獲取當前熱門的網絡信
肩、O
[0003]例如,通常以導航頁面的形式提供多種多樣的網絡信息,該網絡信息可為熱門網站。具體的,一些熱門網站被羅列於導航頁面中,用戶可在導航頁面對羅列的熱門網站進行選擇,進而實現熱門網站的訪問。
[0004]然而,在通過導航頁面實現的網絡信息推送形式中,每一次推送的網絡信息都是相同的,不具備針對性,無法貼近每一用戶所對應的網絡信息獲取意圖。

【發明內容】

[0005]基於此,有必要針對無法貼近每一用戶所對應的網絡信息獲取意圖的問題,提供一種能提高針對性的網絡信息的挖掘方法。
[0006]此外,還有必要提供一種能提高針對性的網絡信息的挖掘裝置。
[0007]一種網絡信息的挖掘方法,包括如下步驟:
[0008]獲取通過瀏覽器上傳得到的瀏覽器數據;
[0009]通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別;
[0010]獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。
[0011]一種網絡信息的挖掘裝置,包括:
[0012]數據獲取模塊,用於獲取通過瀏覽器上傳得到的瀏覽器數據;
[0013]分類模塊,用於通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別;
[0014]推送模塊,用於獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。
[0015]上述網絡信息的挖掘方法和裝置,獲取瀏覽器上傳得到的瀏覽器數據,通過分類模型對上傳的瀏覽器數據進行分類得到相應的類別,進而根據得到的類別獲取相關的網絡信息,進而將網絡信息的推送至瀏覽器,由於瀏覽器數據是用戶在運行瀏覽器和觸發各種操作時產生的,因此,瀏覽器數據能夠反應出用戶意圖,進而使得基於瀏覽器數據為相應的用戶提供符合該用戶的網絡信息獲取意圖的網絡信息,從而提高了針對性。
【專利附圖】

【附圖說明】
[0016]圖1為一個實施例中網絡信息的挖掘方法的流程圖;[0017]圖2為另一個實施例中網絡信息的挖掘方法的流程圖;
[0018]圖3為一個實施例中對存儲的瀏覽器數據和類別進行開方檢驗得到該類別對應的特徵,並通過特徵得到該類別的特徵集合以及相應的特徵向量的方法流程圖;
[0019]圖4為一個實施例中在與類別相對應的瀏覽器數據中查找與類別的特徵相匹配的詞,並根據查找結果生成特徵集合的特徵向量的方法流程圖;
[0020]圖5為一個實施例中通過分類模型對上傳的瀏覽器數據進行分類,得到瀏覽器數據所屬的類別的方法流程圖;
[0021]圖6為另一個實施例中通過分類模型對上傳的瀏覽器數據進行分類,得到瀏覽器數據所屬的類別的方法流程圖;
[0022]圖7為一個實施例中網絡信息的挖掘方法的應用示意圖;
[0023]圖8為一個實施例中網絡信息的挖掘裝置的結構示意圖;
[0024]圖9為另一個實施例中網絡信息的挖掘裝置的結構示意圖;
[0025]圖10為一個實施例中處理模塊的結構示意圖;
[0026]圖11為一個實施例中向量生成單元的結構示意圖;
[0027]圖12為一個實施例中分類模塊的結構示意圖;
[0028]圖13為另一個實施例中分類模塊的結構示意圖;
[0029]圖14為另一個實施例中分類模塊的結構示意圖。
【具體實施方式】
[0030]如圖1所示,在一個實施例中,一種網絡信息的挖掘方法,包括如下步驟:
[0031]步驟S110,獲取通過瀏覽器上傳得到的瀏覽器數據。
[0032]本實施例中,瀏覽器數據是瀏覽器運行過程中產生的數據,記錄了瀏覽歷史記錄、下載歷史記錄、緩存等信息,例如,瀏覽器數據可以是用戶通過瀏覽器訪問的網頁以及該網頁的網絡地址。
[0033]瀏覽器在運行過程中將收集產生的瀏覽器數據,並通過網際網路將收集到的瀏覽器數據上傳到後臺的網絡伺服器中,並存儲。
[0034]步驟S130,通過分類模型對上傳的瀏覽器數據進行分類,得到瀏覽器數據所屬的類別。
[0035]本實施例中,分類模型用於對上傳的各種瀏覽器數據進行分類,以提到瀏覽器數據所屬的類別。例如,上傳的瀏覽器數據為用戶訪問的籃球網頁以及該網頁的網絡地址,則通過分類模型可以獲知這一瀏覽器數據是屬於體育這一類別的。在優選的實施例中,分類模型為樸素貝葉斯分類模型。
[0036]步驟S150,獲取與該類別相關的網絡信息,將獲取的網絡信息推送到瀏覽器。
[0037]本實施例中,在後臺的網絡伺服器得到上傳的瀏覽器數據所屬的類別之後,將獲取與該類別相關的網絡信息,進而將獲取的網絡信息推送到瀏覽器中,以供用戶通過瀏覽器進行瀏覽。由於網絡信息是根據用戶使用瀏覽器時產生的瀏覽器信息得到的,因此,瀏覽器數據將反映了用戶意圖,進而根據瀏覽器數據所挖掘得到的網絡信息將更為貼近用戶意圖,進而為每一用戶提供符合網絡信息獲取意圖的網絡信息,提高了網絡信息挖掘的針對性。[0038]如圖2所示,在另一個實施例中,上述步驟S130之前還包括如下步驟:
[0039]步驟S210,根據預設的類別信息對存儲的瀏覽器數據進行掃描得到存儲的瀏覽器數據對應的類別。
[0040]本實施例中,類別信息用於對瀏覽器上傳並存儲於網絡伺服器中的大量瀏覽器數據進行類別標記。具體的,類別信息包括關鍵詞和該關鍵詞所屬的類別,對存儲的瀏覽器數據進行掃描,判斷存儲的瀏覽器數據中是否存在類別信息中記錄的關鍵詞,若是,則根據這一關鍵詞得到所屬的類別,該類別即為掃描的瀏覽器數據所對應的類別。
[0041]對網絡伺服器中存儲的大量瀏覽器數據均進行類別的標記,以得到瀏覽器數據和類別之間的映射和關係。
[0042]進一步的,在優選的實施例中,存儲的瀏覽器數據中記錄了訪問的網絡地址,上述步驟S210的具體過程為:獲取瀏覽器數據中記錄的網絡地址,對獲取的網絡地址進行掃描,判斷網絡地址中是否存在類別信息中記錄的關鍵詞,若是,則根據這一關鍵詞得到所屬的類別,進而為瀏覽器數據標記該類別。
[0043]本實施例中,在網絡地址中記錄的信息已經能夠實現瀏覽器數據的分類,例如,對於「game.qq.com」這一網絡地址而言,其中的「game」欄位即可說明相應的網頁為遊戲類的頁面,因此,可通過包含了關鍵詞「game」和類別「遊戲」的類別信息得到「game.qq.com」這一網絡地址所屬的類別,進而通過這網絡地址和類別信息快速、準確地完成網絡伺服器中海量瀏覽器數據的類別標記。
[0044]步驟S230,對存儲的瀏覽器數據和類別進行開方檢驗得到該類別對應的特徵,並通過特徵得到該類別的特徵集合以及相應的特徵向量。
[0045]本實施例中,開方檢驗,即X2校驗,用於考察類別與某一詞的相關性,進而選取與該類別相關性大的詞作為該類別所對應的特徵,其中,特徵為最能代表所屬類別的詞,例如,在「體育」這一類別中,特徵可以是「籃球」。通過開方檢驗所得到的若干個特徵組成了該類別的特徵集合,並根據特徵和屬於該類別的瀏覽器數據得到該類別的特徵集合所對應的特徵向量。
[0046]在另一個實施例中,海量瀏覽器與網絡伺服器進行數據交互的過程中上傳並存儲於網絡伺服器中的瀏覽器數據是海量的,因此,在上述步驟S230之前還包括了對存儲的瀏覽器數據進行分詞處理得到若干個詞,並去除得到的詞中的停用詞。
[0047]本實施例中,首先對瀏覽器數據進行分詞處理,將瀏覽器數據表示為詞的集合,進而去除特徵集合中的停用詞。具體的,停用詞的去除可以通過預先設置的停用詞表實現,即去除詞的集合中與停用詞表的詞相一致的詞。停用詞包括英文字符、數字、數學字符、標點符號及單漢字等,例如,單漢字「的」和「 了 」這些沒有實際意義的字。
[0048]如圖3所示,在一個實施例中,上述步驟S230的具體過程為:
[0049]步驟S231,將每一類別和存儲的瀏覽器數據中的詞進行開方檢驗得到詞和類別之間的開方值。
[0050]本實施例中,對每一類別,逐一計算該類別和存儲的瀏覽器數據中的詞之間的開方值。例如,存儲的瀏覽器數據中包含了 N個瀏覽器數據條目,其中,M個瀏覽器數據條目是與體育相關的,「籃球」這一詞存在於某些瀏覽器數據條目中,類別「體育」和「籃球」之間開方檢驗具體過程為:在存儲的瀏覽器數據中統計包含「籃球」且屬於「體育」類別的瀏覽器數據條目的數量,記為A ;統計包含「籃球」但不屬性「體育」類別的瀏覽器數據條目的數量,記為B ;統計不包含「籃球」但卻屬於「體育」類別的瀏覽器數據條目的數量,記為C ;統計既不包含「籃球」也不屬於「體育」類別的瀏覽器數據條目的數量,記為D,進而計算得到
的類別「體育」和「籃球」之間開方值為
[0051]
【權利要求】
1.一種網絡信息的挖掘方法,包括如下步驟: 獲取通過瀏覽器上傳得到的瀏覽器數據; 通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別; 獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。
2.根據權利要求1所述的網絡信息的挖掘方法,其特徵在於,所述通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別的步驟之前還包括: 根據預設的類別信息對存儲的瀏覽器數據進行掃描得到所述存儲的瀏覽器數據對應的類別; 對存儲的瀏覽器數據和類別進行開方檢驗得到所述類別對應的特徵,並通過所述特徵得到所述類別的特徵集合以及相應的特徵向量; 對所述類別的特徵集合進行概率計算得到所述特徵集合中特徵對應的後驗概率; 通過所述類別、所述類別的特徵集合、相應的特徵向量以及所述特徵集合中特徵對應的後驗概率構建分類模型。
3.根據權利要求2所述的網絡信息的挖掘方法,其特徵在於,所述對存儲的瀏覽器數據和類別進行開方檢驗得到所述類別對應的特徵,並通過所述特徵得到所述類別的特徵集合以及相應的特徵向量的步驟為: 將每一類別和所述存儲的瀏覽器數據中的詞進行開方檢驗得到所述詞和所述類別之間的開方值; 判斷所述開方值是否大於閾值,若是`,則將所述詞作為所述類別的特徵,並形成所述類別的特徵集合; 在與所述類別相對應的瀏覽器數據中查找與所述類別的特徵相匹配的詞,並根據查找結果生成所述特徵集合的特徵向量。
4.根據權利要求3所述的網絡信息的挖掘方法,其特徵在於,所述在與所述類別相對應的瀏覽器數據中查找與所述類別的特徵相同的詞,並根據查找結果生成所述特徵集合的特徵向量的具體過程為: 根據所述類別的特徵在所述類別對應的瀏覽器數據中進行查找,判斷所述特徵是否存在於所述類別對應的瀏覽器數據中,若是,則 將所述特徵在特徵向量中對應的元素設置為預設值; 若否,則將所述特徵在特徵向量中對應的元素設置為零。
5.根據權利要求4所述的網絡信息的挖掘方法,其特徵在於,所述將所述特徵向量中對應的元素設置為預設值的步驟之後還包括: 計算所述類別對應的特徵集合中每一特徵所對應的權值,並將所述特徵集合的特徵向量中的預設值變換為特徵對應的權值。
6.根據權利要求2所述的網絡信息的挖掘方法,其特徵在於,所述通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別的步驟為: 計算所述上傳的瀏覽器數據和特徵集合之間的匹配度,並選取所述計算得到的匹配度中的最高匹配度; 獲取所述最高匹配度對應的特徵集合,並根據所述特徵集合得到相應的類別,所述類別即為所述上傳的瀏覽器數據所屬的類別。
7.根據權利要求6所述的網絡信息的挖掘方法,其特徵在於,所述獲取所述最高匹配度對應的特徵集合,並根據所述特徵集合得到相應的類別,所述類別即為所述上傳的瀏覽器數據所屬的類別的步驟之前還包括: 判斷所述最高匹配度是否大於匹配閾值,若是則進入所述獲取所述最高匹配度對應的特徵集合,並根據所述特徵集合得到相應的類別,所述類別即為所述上傳的瀏覽器數據所屬的類別的步驟。
8.根據權利要求7所述的網絡信息的挖掘方法,其特徵在於,所述判斷所述最高匹配度是大於匹配閾值的步驟之前還包括: 判斷所述上傳的瀏覽器數據中記錄的網絡地址是否存在於存儲的瀏覽器數據中,若是,則降低預設的匹配閾值; 統計所述瀏覽器數據中包含的特徵個數,根據所述統計的個數調整匹配閾值。
9.一種網絡信息的挖掘裝置,其特徵在於,包括: 數據獲取模塊,用於獲取通過瀏覽器上傳得到的瀏覽器數據; 分類模塊,用於通過分類模型對上傳的瀏覽器數據進行分類,得到所述瀏覽器數據所屬的類別; 推送模塊,用於獲取與所述類別相關的網絡信息,將所述獲取的網絡信息推送到所述瀏覽器。
10.根據權利要求9所述的網絡信息的挖掘裝置,其特徵在於,還包括: 掃描模塊,用於根據預設的類別信息對存儲的瀏覽器進行掃描得到所述存儲的瀏覽器數據對應的類別; 處理模塊,用於對存儲的瀏覽器數據和類別進行開方檢驗得到所述類別對應的特徵,並通過所述特徵得到所述類別的特徵集合和相應的特徵向量; 概率計算模塊,用於對所述類別的特徵集合進行概率計算得到所述特徵集合中特徵對應的後驗概率; 模型構建模塊,用於通過所述類別、所述類別的特徵集合、相應的特徵向量以及所述特徵集合中特徵對應的後驗概率構建分類模型。
11.根據權利要求10所述的網絡信息的挖掘裝置,其特徵在於,所述處理模塊包括: 開方檢驗單元,用於將每一類別和所述存儲的瀏覽器數據中的詞進行開方檢驗得到所述詞和所述類別之間的開方值; 特徵選取單元,用於判斷所述開方值是否大於閾值,若是,則將所述詞作為所述類別的特徵,並形成所述類別的特徵集合; 向量生成單元,用於在與所述類別相對應的瀏覽器數據中查找與所述類別的特徵相匹配的詞,並根據查找結果生成所述特徵集合的特徵向量。
12.根據權利要求11所述的網絡信息的挖掘裝置,其特徵在於,所述向量生成單元包括: 查找單元,用於根據所述類別的特徵在所述類別對應的瀏覽器數據中進行查找,判斷所述特徵是否存在於所述類別對應的瀏覽器數據中,若是,則通知元素設置單元將所述特徵在特徵向量中對應的元素設置為預設值,若否,則通知所述元素設置單元將所述特徵在特徵向量中對應的元素設置為零。
13.根據權利要求12所述的網絡信息的挖掘裝置,其特徵在於,所述向量生成單元還包括: 權值計算單元,用於計算所述類別對應的特徵集合中每一特徵所對應的權值,並將所述特徵集合的特徵向量中的預設值變換為特徵對應的權值。
14.根據權利要求10所述的網絡信息的挖掘裝置,其特徵在於,所述分類模塊包括: 匹配單元,用於計算所述上傳的瀏覽器數據和特徵集合之間的匹配度,並選取所述計算得到的匹配度中的最高匹配度; 類別獲取單元,用於獲取所述最高匹配度對應的特徵集合,並根據所述特徵集合得到相應的類別,所述類別即為所述上傳的瀏覽器數據所屬的類別。
15.根據權利要求14所述的網絡信息的挖掘裝置,其特徵在於,所述分類模塊還包括: 閾值判斷單元,用於判斷所述最高匹配度是否大於匹配閾值,若是,則通知所述類別獲取單元。
16.根據權利要求15所述的網絡信息的挖掘裝置,其特徵在於,所述分類模塊還包括: 數據判斷單元,用於判斷所述上傳的瀏覽器數據中記錄的網絡地址是否存在於存儲的瀏覽器數據中,若是,則通知閾值調整單元降低預設的匹配閾值; 所述閾值調整單元還用於統計所述瀏覽器數據中包含的特徵個數,根據所述統計的個數調整匹配閾值。
【文檔編號】G06F17/30GK103678320SQ201210321780
【公開日】2014年3月26日 申請日期:2012年9月3日 優先權日:2012年9月3日
【發明者】楊小銳, 肖鏡輝, 周曉波, 司天歌, 劉玉國 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀