新四季網

一種用戶網絡行為分析方法、裝置和系統的製作方法

2023-05-16 13:59:01

專利名稱:一種用戶網絡行為分析方法、裝置和系統的製作方法
技術領域:
本發明涉及網絡用戶行為分析,尤其涉及網絡用戶行為的還原,具體地說,涉及一種用戶網絡行為分析方法和系統。
背景技術:
隨著網際網路的廣泛應用和日益普及,網絡用戶(以下簡稱用戶)已經數以億計。通常用戶在瀏覽網站時,會與網站伺服器之間發送和接收經由網際網路的報文。圖1為現有技術中用戶與網站伺服器進行交互的示意圖,用戶利用不同類型的用戶終端,通過網際網路與不同網站伺服器進行連接,進行報文交互。對用戶瀏覽網站的行為進行分析越來越受到關注,用戶行為分析可定義為根據用戶的歷史行為,對有關數據進行統計、分析,從而分析出用戶的需求或用戶可能即將要做的事情。相對應地,可將利用網絡報文還原用戶行為理解為利用用戶的網絡報文記錄,分析用戶行為,並試圖還原用戶的上網意圖。通過用戶行為分析,可發現目前網絡營銷活動中可能存在的問題,並為進一步修正或重新制定網絡營銷策略提供依據,也可以更有針對性地提供各種網絡服務,例如,可以根據用戶行為分析得出用戶喜好,在用戶瀏覽網站時彈出針對用戶喜好的廣告。用戶行為分析應該包含以下重點分析數據用戶在網站的停留時間、跳出率、回訪者、新訪問者、回訪次數、回訪相隔天數;註冊用戶和非註冊用戶,分析兩者之間的瀏覽習慣;用戶所使用的搜尋引擎、關鍵詞、關聯關鍵詞和站內關鍵字;用戶選擇什麼樣的入口形式(廣告或者網站入口連結)更為有效;用戶訪問網站流程,用來分析頁面結構設計是否合理;用戶在頁面上的網頁熱點圖分布數據和網頁覆蓋圖數據;用戶在不同時段的訪問量情況等。一般而言,網站伺服器會對訪問該網站的用戶與該網站伺服器之間的網絡報文進行日誌數據記錄,並可以基於所記錄的日誌數據進行相應的用戶行為分析。例如,某搜尋引擎網站A會記錄用戶的查詢記錄,基於這些記錄,網站A可以分析用戶的興趣並建立用戶輪廓,當用戶在網站A進行進一步的關鍵字查詢時,網站A可以基於用戶輪廓,進行結果篩選, 將篩選的結果作為用戶最想要的結果返回給用戶。網站伺服器會記錄用戶對本伺服器的網絡報文,從而形成用戶在本網站伺服器的訪問記錄,稱為用戶的局部視圖。基於局部視圖,網站伺服器可以進行相應的用戶行為分析。這種用戶行為分析是基於某個網站伺服器,但顯然用戶實際並不限於訪問這一個網站伺服器,因此這種用戶行為分析僅為用戶的局部行為分析。例如前文所述的,搜尋引擎網站可以基於局部視圖建立用戶輪廓,優化其查詢結果。傳統的用戶行為分析主要基於單個網站伺服器的網絡報文信息,而在當前情況下,網站數量數以百萬計,通常不同的用戶因為各自不同的喜好,瀏覽各種各樣的網站,不同用戶會訪問不同的網站,單個用戶的很多行為通過跨網訪問多個網站伺服器實現,從而導致傳統的用戶行為分析方式無法有效地適用於現今的複雜狀況。因此,現有技術中存在無法有效地解決資源與需求矛盾的缺點。例如1)若各個網站以自身的局部視圖進行用戶行為分析,將導致用於進行數據分析的大量軟硬體資源的重複配置和巨大的人力資源浪費;2)若網站為節省支出,不進行相應的用戶行為分析,則可能導致漏掉大多數用戶行為分析,進而導致用戶友好性降低。此外,用戶通常會在一段時間內訪問多個網站,而在現有技術中無法獲取用戶的跨網訪問信息,因此無法獲取用戶訪問各個網站伺服器的全部網絡報文,稱為用戶的全局視圖,進而無法基於全局跨網網絡報文信息還原用戶行為。

發明內容
本發明通過布置於各個網絡位置的多個網關,可獲取通過各個網關的所有用戶的通信網絡報文,從而能夠基於全局用戶信息來用戶網絡訪問行為進行分析。為了解決上述技術問題,本發明提供了一種用戶網絡行為分析方法,其特徵在於, 包括以下步驟步驟A 獲取來自不同網絡位置的一個以上網關的用戶的網絡訪問信息;步驟B 對來自各所述網關的網絡訪問信息進行預處理,以獲得各個用戶各自的預處理後的網絡訪問信息;步驟C 分別基於步驟B所得到各個用戶各自的預處理後的網絡訪問信息, 分析得到各用戶的用戶行為信息。進一步,該方法還包括,由與所述一個以上網關中的一個或多個相連接的收集器或者所述一個以上網關對所述網絡訪問信息進行過濾,以獲得以數據元組為基本信息單位表示的網絡訪問信息。進一步,該方法還包括,所述數據元組的元素至少包括用戶標識,時間點和網絡報文。進一步,該方法還包括,所述步驟B和步驟C均通過分布式計算集群實現。進一步,該方法還包括,利用收集器從各所述網關獲取所述網絡訪問信息;以及利用所述分布式計算集群從所述收集器獲取來自各所述網關的網絡訪問信息。進一步,該方法還包括,所述網關和/或所述收集器按照設定規則存儲所述網絡訪問信息,以及所述分布式計算集群根據所述設定規則生成用於下載所述網絡訪問信息的網絡地址。
進一步,該方法還包括,在所述步驟C中,將用戶在第一預設時段內連續訪問一個或多個網站的網絡訪問信息,作為與該用戶的一個網絡行為事件所對應的用戶行為信息。進一步,該方法還包括,在所述步驟C中,統計用戶在第二預設時段內針對各種類型網站的訪問頻率,作為表徵該用戶訪問各類網站的偏好的用戶行為信息。本發明還提供一種用戶網絡行為分析裝置,其特徵在於,包括以下各單元信息獲取單元用於獲取來自不同網絡位置的一個以上網關的用戶的網絡訪問信息;信息匯總單元用於對來自各所述網關的網絡訪問信息進行預處理,以獲得各個用戶各自的預處理後的網絡訪問信息;行為分析單元用於分別基於信息匯總單元所得到各個用戶各自的預處理後的網絡訪問信息,分析得到各用戶的用戶行為信息。進一步,該裝置還包括,所述用戶網絡行為分析裝置為分布式計算集群,從所述網關或從與所述網關相連接的收集器獲取壓縮後的來自各所述網關的網絡訪問信息。進一步,該裝置還包括,所述用戶網絡行為分析裝置將用戶在第一預設時段內連續訪問一個或多個網站的網絡訪問信息作為與該用戶的一個網絡行為事件所對應的用戶行為信息。本發明還提供一種用戶網絡行為分析系統,其特徵在於,包括處於不同網絡位置的一個以上的網關;一個以上的收集器,各所述收集器與所述網關中的一個或多個連接, 用於從各所述網關收集用戶的網絡訪問信息,以及根據如前文所述的用戶網絡行為分析裝置,所述用戶網絡行為分析裝置與所述一個以上的收集器連接,基於所得到各個用戶各自的網絡訪問信息,分析得到各用戶的用戶行為信息。進一步,該系統還包括,所述一個以上的網關根據用戶身份標識信息或者用戶主機標識信息為每個用戶分配一個唯一標識符。與現有技術相比,本發明至少具有以下優點現有技術從各自網站出發,只能獲取本網站的用戶訪問信息。本發明引入配置在不同網絡位置的多個網關設備,可以獲取用戶的通過多個網關的所有通信網絡報文,從而解決了現有技術中無法基於跨網通信的網絡報文來分析用戶網絡行為的難題;本發明提出了基於通信網絡報文信息來還原用戶行為的方法,相比傳統基於訪問日誌來還原用戶行為的方法,本發明解決了傳統的用戶行為分析方法中無法對用戶訪問除本網站外的其他網站的行為進行分析和/或無法對單個用戶跨網訪問不同的網站的行為進行分析的難題。


附圖用來提供對本發明的進一步理解,並且構成說明書的一部分,與本發明的各實施例一起用於解釋本發明,並不構成對本發明的限制。在附圖中圖1為現有技術中用戶與網站伺服器進行交互的示意圖;圖2為根據本發明實施例一的用戶網絡行為分析的流程圖;圖3為本發明實施例一中用戶與網站伺服器進行數據交互的示意圖;圖4為本發明實施例一中根據圖3的數據交互方式的數據還原流程圖;圖5為根據本發明實施例一的用戶網絡行為分析實例的流程圖;圖6為根據本發明實施例二的用戶網絡行為分析系統的結構示意圖;圖7為根據本發明實施例三的用戶網絡行為分析系統的結構框圖。
具體實施例方式以下將結合附圖及實施例來詳細說明本發明的實施方式,藉此對本發明如何應用技術手段來解決技術問題,並達成技術效果的實現過程能充分理解並據以實施。需要說明的是,只要不構成衝突,本發明中的各個實施例以及各實施例中的各個特徵可以相互結合, 所形成的技術方案均在本發明的保護範圍之內。另外,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。實施例一圖2為根據本發明實施例一的用戶網絡行為分析方法的流程圖,下面參照圖2詳細說明該方法的各步驟。步驟S110,獲取來自不同網絡位置的一個以上網關的用戶的網絡訪問信息。
圖3為本發明實施例一中用戶與網站伺服器進行數據交互的示意圖,圖4為根據圖3的數據交互方式的數據還原流程圖。在本實施例中,在各伺服器端與各用戶之間進行信息交互的網際網路中部署有多個(兩個以上)網關。這些網關可位於不同的網絡位置,服務於各自的網絡,用於提供協議轉換、路由選擇、數據交換等,在本發明中主要用於獲取用戶的網絡訪問信息。更具體地,不同網絡位置可以指不同的地理位置,也可以指處於同一地理位置但處於不同網絡/子網絡位置。此處的不同網絡可以是不同的乙太網子網、不同的城域網或甚至可以是不同的網絡類型,例如3g網絡或LTE網絡等無線網絡。此外,這些網關可以部署在與用戶端或伺服器端相同或不同的網絡(子網)中,以及,網關也可以部署在與用戶端或伺服器端相同或不同的物理位置。根據部署在不同網絡位置的各網關,能夠在用戶進行跨網絡訪問時(對多個網站訪問,涉及多個網站伺服器時),獲取相應的跨網絡的網絡訪問信息。各網關獲取網絡用戶的網絡訪問信息,在本實施例中,網絡訪問信息可優選地包括用戶端發送給伺服器端的請求信息,以及伺服器端針對該請求信息作出響應的數據通信報文信息(也稱網絡報文信息)。此外,網絡訪問信息也可包括來自各網站伺服器的用戶訪問記錄等。優選的,在每一個網關中,除了可以獲取網絡用戶的網絡訪問信息外,還能夠用於對用戶身份進行唯一標識。具體的,在網關中可以利用cookie相關信息等用戶身份標識信息或者計算機MAC地址等用戶主機標識信息,在用戶訪問時給每個用戶分配一個唯一標識符UID,進而在每個用戶每次訪問網關時可以標識每個用戶的唯一性。在此處對用戶進行身份識別和標識,可以使後續處理中減輕負擔,在後續處理中,僅將此處對用戶進行的身份識別進行匯總和排序即可,無需增加額外的身份識別處理。這些網關可對用戶在某個時刻產生的網絡訪問信息進行過濾後存儲為以數據元組表示的網絡訪問信息,例如,數據元組可表示為{用戶標識,時間點,網址,網絡報文},也可以在未進行過濾的情況下,將未過濾的網絡訪問信息直接傳送至收集器(下文將詳細說明)。如圖4所示,其中,將從一個網關所獲取的一個用戶訪問一個網頁的網絡訪問信息稱為單點信息,通過特定網頁或網站的選擇確定單點信息。將從一個以上網關所獲取的一個用戶的所有網絡訪問信息稱為多點信息。其中,單點信息與多點信息均可以通過數據元組來表示,為用戶在一個或多個時間點上產生的數據信息的集合。需要強調的是,在本發明中,多點信息是用戶訪問多個網站伺服器時產生的網絡訪問信息,既可以是從單一網絡的兩個網關獲取的網絡訪問信息,也可以是從跨網的兩個以上網關獲取的網絡訪問信息。各網關記錄用戶和網站伺服器之間的通信細節,數據元組是各網關收集網絡訪問信息數據的基本信息單位。可以從網關數據中過濾相關欄位後獲取以一個數據元組表示的基本信息單位{用戶標識,時間點,網址,網絡報文},其中時間點表示用戶發送/接收該網絡報文的時間點。需要說明的是,數據元組的格式不限於上述表示方式,數據元組中的元素也可以僅包括用戶、時間點、網址這三個元素,以及也可以包括除上述三個元素之外的例如網絡連接類型、訪問內容類型、以及相關訪問日誌信息等元素。根據本步驟,從各個網關獲取用戶的單點信息和/或多點信息。S120,對來自各網關的網絡訪問信息進行預處理,以獲得各個用戶各自的預處理後的網絡訪問信息。更具體地,分布式計算集群獲取來自各網關的網絡訪問信息,亦即可以在分布式計算集群中對來自各個網關中的網絡訪問信息進行匯總,然後並按照用戶標識(用戶ID) 對所匯總的網絡訪問信息進行預處理,以獲得各個用戶各自的預處理後的網絡訪問信息。 其中,優選的,對先前步驟中對用戶所分配的用戶UID進行匯總和排序,以用於匯總用戶對應的網絡訪問信息。換而言之,經過預處理後,可得到與每個用戶在各個時間點訪問各個網站相關的網絡訪問信息的集合。其中,所進行的預處理可包括依據用戶ID進行重組以獲得針對各個用戶標識的網絡訪問信息,還可包括對同一用戶標識的網絡訪問信息按照時間排序以獲得針對各用戶標識的按時間順序排列的網絡訪問信息,還可包括合併處理,例如,可以得到某一時間段內,訪問某個網站的用戶的集合,並且,可以進一步根據用戶所在地域、 訪問網站頻道的不同,可以對這些用戶進行細分,從而完成對於用戶群的行為探索。例如, 可以採用適用於大規模數據集的並行運算的編程模型例如MapReduce編程模型等來進行依據用戶ID進行重組、合併和按照時間排序。具體的,在MapReduce編程模型中,指定一個 Map (映射)函數,用來把一組鍵值對映射成一組新的鍵值對,以及指定並發的Reduce (化簡)函數,用來保證所有映射的鍵值對中的每一個鍵值共享相同的鍵組。以上方式僅作為優選,本實施例並不局限於此方式。由此可得到,每一個用戶在一個時間序列內與各個網站的各個伺服器之間交互的詳細網絡訪問信息。優選地,考慮到存在多個網關,各個網關分別存儲各自的網絡訪問信息數據可能導致一定的負載不平衡及資源浪費。為了整合(匯總)各個網關所存儲的網絡訪問信息數據或者包含這些數據的日誌數據,並將他們布置到分布式計算集群中,還可以設置一組收集器,將各個收集器與一個或多個網關設備連接。這樣,各網關可以不將網絡訪問信息存儲在本地存儲器中或者不將數據直接傳送至分布式計算集群,而是將網絡訪問信息傳送至與網關連接的收集器之一中,而分布式計算集群從收集器中獲取網絡訪問信息,更具體地,由分布式計算集群中負責數據網絡訪問信息下載及存取、匯總後數據寫入等數據存取功能的節點從收集器中獲取網絡訪問信息。增加設置一組收集器能夠起到負載節點均衡的作用, 並且減小了網關的負荷。圖4示意性地示出了網關與收集器的數據傳輸關係,其中,收集器與網關不限於一對一的關係。為了減小傳輸網絡訪問信息的帶寬消耗,可以在將網絡訪問信息發送至分布式計算集群之前對其進行壓縮,該壓縮處理可由收集器或網關執行。換而言之,優選地,分布式計算集群獲取壓縮後的來自各網關的網絡訪問信息。優選地,處於網絡中各個節點的收集器中提供基於http、ftp和/或其它網絡協議的數據下載服務,分布式計算集群中的數據管理裝置通過收集器提供的數據下載服務獲取壓縮或未壓縮的網絡訪問信息數據。優選地,可在收集器或網關中將網絡訪問信息按照設定的規則進行存儲,這樣,分布式計算集群可以通過程序根據所述預設的規則來生成用於下載各收集器或網關中的網絡訪問信息數據的網絡地址,分布式計算集群根據所生成的網絡地址來獲取來自網關的網絡訪問信息。更具體地,分布式計算機集群可包括一任務分發設備,該任務分發設備可以是一個物理實體或邏輯體,負責任務的分發。任務分發設備運行一個任務,這個任務的輸入源為所生成的網絡地址。在計算的分發階段,任務分發設備可通過將網絡地址分配給相應的計算機集群的各節點,由各節點根據由任務分發設備分發的網絡地址將網絡訪問信息下載至節點各自的本地存儲器。從而實現對來自各網關的用戶網絡訪問信息(單點信息和/或多點信息)進行預處理,以獲得預處理後的各個用戶的網絡訪問信息。例如,上述設定的規則可以為一定的時間規律。此時,一方面,收集器可對所收集的網絡訪問信息按時間進行排序,並以時間點來對一定時間段(例如10分鐘或者20分鐘等)內收集的數據以時間為文件名進行命名。另一方面,分布式計算集群按照同樣的規則來生成文件名,並基於該文件名及各收集器的網絡地址來生成用於下載以該文件名存儲的網絡訪問信息數據文件的網絡地址。再如,上述設定的規則還可以為一定的文件大小規則。此時,一方面,收集器將網絡訪問信息存儲為固定大小文件,並對文件順序編號,另一方面,分布式計算集群按照同樣的規則(即順序編號)來生成文件名。此外,在另一個實施例中,也可以將網關數據過濾相關欄位後獲取以一個數據元組表示的基本信息單位的操作設置在相應的收集器中。也就是說,此時收集器所收集的數據為未經過濾的網關數據。步驟S130,分別基於步驟S120所得到的各個用戶各自的預處理後網絡訪問信息, 分析各用戶的用戶行為信息。本步驟所獲得的用戶行為信息是指用戶在通過網絡所進行的例如搜索、廣告點擊、購物和/或其它網絡行為的信息。其中,用戶行為信息不限於一段時間內,也可以是用戶長期的一些喜好。通常情況下,單個用戶的上網行為是在一個時間段內產生的,其所產生的通信網絡報文通常對應於多點信息。因此,本發明的預處理後網絡訪問信息所體現的是用戶的多點信息,亦即用戶的多網站伺服器甚至跨網絡訪問信息。相對於傳統的基於單點信息的用戶網絡行為分析方法,本發明基於多點信息來分析用戶的用戶網絡行為,更能夠全面地體現用戶真實的網絡訪問行為,能夠為服務提供商提供更有價值的用戶行為信息。作為一個優選實施例,在本發明中,可將某一用戶在第一預設時段(即第一預設時間)內(例如,10分鐘至30分鐘等)連續訪問一個或多個網站的多點信息作為與該用戶的一個事件流(網絡行為事件)所對應的用戶行為信息,並將所述一個或多個網站視為該用戶行為的關聯網站。例如,用戶進行網上購物時,首先會在網上調研欲購買物品的價格、 性能等,然後選擇某購物平臺(比如淘寶網或京東商城)進行相應的物品瀏覽與購買,這個過程構成用戶的一個網絡行為事件。本實施例中利用用戶的事件流特徵,基於體現多點信息的匯總數據還原用戶行為,得到用戶行為信息。再如,作為一個例子,還可以將一用戶在一個第二預設時段內(即第二預設時間, 例如,數天或數十天等)內針對各種類型網站的訪問頻率,作為表徵用戶訪問各類網站的偏好等用戶行為信息。用戶行為與很多因素相關聯,比如用戶需求、網站伺服器提供的服務、網站伺服器之間的關聯度等,這導致了用戶行為的多樣性與複雜性。在本實施例中,通過以下描述,以搜尋引擎查詢行為、廣告點擊行為、購物行為為例,來分析出用戶行為信息。1)搜尋引擎查詢行為部署的網關可獲取用戶在搜尋引擎的查詢記錄示例如下(用戶A,時間點1,搜尋引擎網址B,查詢的關鍵詞C)(用戶A,時間點2,點到的網址D)基於如上信息,可以還原用戶A的搜尋引擎查詢行為,即可以知曉用戶A在時間點 1到時間點2之間使用搜尋引擎B,進行了關鍵詞C的查詢,並基於查詢結果,點到相應的網址D。2)廣告點擊行為與上例相似,部署的網關可獲取用戶的廣告點擊記錄示例如下(用戶A,時間點1,廣告所在的網址B,廣告C的網址)(用戶A,時間點2,點到的廣告C網址)基於如上信息,可以還原用戶A的廣告點擊行為,即可以知曉用戶A在時間點1到時間點2之間在廣告所在的網址B,進行了廣告C的點擊。3)購物行為與以上各例相似,部署的網關可獲取用戶的購物記錄示例如下(用戶A,時間點1,購物網址B)(用戶A,時間點2,商品名C,購物車網址)(用戶A,時間點3,支付頁面網址)基於如上信息,可以還原用戶A的購物行為,即可以知曉用戶A在時間點1到時間點3之間在購物網址B購買了商品C。此外,如果匯總數據中,僅包含單個用戶的單點信息,則基於該單點信息對用戶行為進行還原以得到用戶行為信息,還原方法可類似於現有技術中的用戶行為還原方法,但在本實施例中,由於獲取了通過部署在不同地理位置的網關的所有用戶的通信網絡報文, 具有可對絕大多數用戶進行用戶行為分析的優點,因此,即便僅對單點信息進行用戶行為的還原,也可解決現有技術中資源與需求的矛盾。下面將以搜尋引擎查詢行為為例,說明用戶行為還原的一個實例。部署的網關可獲取用戶在搜尋引擎的查詢記錄,並且會為該用戶分配一個唯一的可以標識的用戶ID。例如,記錄的形式為visit_time|user_id|user_ip|area|host|uri|refer_engine_id|refer_ host Irefer_uri|refer_keyword各個欄位的含義如下visit_time 訪問時間user_id 用戶 iduser_ip 用戶 iparea:用戶地域 idhost:用戶訪問網站uri 用戶訪問路徑
refer_engine_id :refer 搜尋引擎 id (00000000 表示 refer 不是搜尋引擎)refer_host :refer hostrefer_uri :refer 全路徑refer_keyword :refer 中的搜索明文在某兩個時刻,用戶請求搜尋引擎的日誌如下2011-03-1011:00:01 | 600487742 | 115. 196. 255. 224 21020000 | video.
A.com|/I 00000000 I |2011-03-1011:00:05116004877421115. 196. 255. 224 21020000|video. A. com|/ d ? m = uss&word =鮮花 | 00000000 | |在某個時刻,用戶訪問其他網站行為的日誌如下所示2011-03-1011:00:03 11600487742 1115. 196. 255. 224|21020000|video. B. com|/ wiki/blog/aaa. html | 000000011 video. A. com | /d ? m = uss&word =鮮花 | 鮮花在分布式計算集群中運行程序完成一個Join操作,可以將即將用戶的搜索行為和訪問行為進行一個連接,得到 1600487742 I video. A. com 走西口 video. B. com|/wiki/ blog/aaa. html。至此,可以還原用戶的上網行為uid為1600487742的網民,在A搜尋引擎的首頁上搜索「鮮花」,之後在A的搜索結果中點擊了 B網站的一條地址為http://vide0.
B.com/wiki/blog/aaa. html 的 URL。實施例二圖6為根據本發明實施例二的用戶網絡行為分析裝置的結構框圖。下面參照圖6 詳細說明該裝置的組成。該裝置包括信息獲取單元用於獲取來自不同網絡位置的一個以上網關的用戶的網絡訪問信肩、ο信息匯總單元用於對來自各網關的網絡訪問信息進行預處理,以獲得各個用戶各自的預處理後的網絡訪問信息。行為分析單元用於分別基於信息匯總單元所得到各個用戶各自的預處理後的網絡訪問信息,分析得到各用戶的用戶行為信息。優選的,該用戶網絡行為分析裝置為一分布式計算集群,從網關或從與網關相連接的收集器獲取壓縮後的來自各網關的網絡訪問信息。該用戶網絡行為分析裝置將一用戶在第一預設時段內連續訪問一個或多個網站的網絡訪問信息作為與該用戶的一個網絡行為事件所對應的用戶行為信息。實施例三圖7為根據本發明實施例三的用戶網絡行為分析系統的結構框圖。下面參照圖7 詳細說明該系統的組成。該系統包括處於不同網絡位置的一個以上的網關。一個以上的收集器,各收集器與網關中的一個或多個連接,用於從網關收集網絡用戶的網絡訪問信息。以及根據實施例二中描述的用戶網絡行為分析裝置,所述用戶網絡分析裝置與所述一個以上的收集器連接。基於所得到各個用戶的網絡訪問信息,分析得到各用戶的用戶行為信息。優選的,在每一個網關中,除了可以獲取網絡用戶的網絡訪問信息外,還能夠用於對用戶身份進行唯一標識。具體的,在網關中可以利用cookie相關信息等用戶身份標識信息或者計算機MAC地址等用戶主機標識信息,在用戶訪問時給每個用戶分配一個唯一標識符 UID,進而在每個用戶每次訪問網關時可以標識每個用戶的唯一性。本領域的技術人員應該明白,上述的本發明的各模塊(裝置)或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別製作成各個集成電路模塊,或者將它們中的多個模塊或步驟製作成單個集成電路模塊來實現。這樣,本發明不限制於任何特定的硬體和軟體結合。雖然本發明所揭露的實施方式如上,但所述的內容只是為了便於理解本發明而採用的實施方式,並非用以限定本發明。任何本發明所屬技術領域內的技術人員,在不脫離本發明所揭露的精神和範圍的前提下,可以在實施的形式上及細節上作任何的修改與變化, 但本發明的專利保護範圍,仍須以所附的權利要求書所界定的範圍為準。
權利要求
1.一種用戶網絡行為分析方法,其特徵在於,包括以下步驟步驟A 獲取來自不同網絡位置的一個以上網關的用戶的網絡訪問信息; 步驟B:對來自各所述網關的網絡訪問信息進行預處理,以獲得各個用戶各自的預處理後的網絡訪問信息;步驟C 分別基於步驟B所得到各個用戶各自的預處理後的網絡訪問信息,分析得到各用戶的用戶行為信息。
2.根據權利要求1所述的方法,其特徵在於,還包括由與所述一個以上網關中的一個或多個相連接的收集器或者所述一個以上網關對所述網絡訪問信息進行過濾,以獲得以數據元組為基本信息單位表示的網絡訪問信息。
3.根據權利要求2所述的方法,其特徵在於,所述數據元組的元素至少包括用戶標識,時間點和網絡報文。
4.根據權利要求1至3任一項所述的方法,其特徵在於,所述步驟B和步驟C均通過分布式計算集群實現。
5.根據權利要求4所述的方法,其特徵在於,利用收集器從各所述網關獲取所述網絡訪問信息;以及利用所述分布式計算集群從所述收集器獲取來自各所述網關的網絡訪問信息。
6.根據權利要求5所述的方法,其特徵在於,所述網關和/或所述收集器按照設定規則存儲所述網絡訪問信息,以及所述分布式計算集群根據所述設定規則生成用於下載所述網絡訪問信息的網絡地址。
7.根據權利要求5或6所述的方法,其特徵在於,在所述步驟C中,將用戶在第一預設時段內連續訪問一個或多個網站的網絡訪問信息,作為與該用戶的一個網絡行為事件所對應的用戶行為信息。
8.根據權利要求5或6任一項所述的方法,其特徵在於,在所述步驟C中,統計用戶在第二預設時段內針對各種類型網站的訪問頻率,作為表徵該用戶訪問各類網站的偏好的用戶行為信息。
9.一種用戶網絡行為分析裝置,其特徵在於,包括以下各單元信息獲取單元用於獲取來自不同網絡位置的一個以上網關的用戶的網絡訪問信息; 信息匯總單元用於對來自各所述網關的網絡訪問信息進行預處理,以獲得各個用戶各自的預處理後的網絡訪問信息;行為分析單元用於分別基於信息匯總單元所得到各個用戶各自的預處理後的網絡訪問信息,分析得到各用戶的用戶行為信息。
10.根據權利要求9所述的用戶網絡行為分析裝置,其特徵在於,所述用戶網絡行為分析裝置為分布式計算集群,從所述網關或從與所述網關相連接的收集器獲取壓縮後的來自各所述網關的網絡訪問信息。
11.根據權利要求9所述的用戶網絡行為分析裝置,其特徵在於,所述用戶網絡行為分析裝置將用戶在第一預設時段內連續訪問一個或多個網站的網絡訪問信息作為與該用戶的一個網絡行為事件所對應的用戶行為信息。
12.—種用戶網絡行為分析系統,其特徵在於,包括 處於不同網絡位置的一個以上的網關;一個以上的收集器,各所述收集器與所述網關中的一個或多個連接,用於從各所述網關收集用戶的網絡訪問信息,以及根據權利要求9至11中任一項所述的用戶網絡行為分析裝置,所述用戶網絡行為分析裝置與所述一個以上的收集器連接,基於所得到各個用戶各自的網絡訪問信息,分析得到各用戶的用戶行為信息。
13.根據權利要求12所述的系統,其特徵在於,所述一個以上的網關根據用戶身份標識信息或者用戶主機標識信息為每個用戶分配一個唯一標識符。
全文摘要
本發明公開了一種用戶網絡行為分析方法和系統,該方法包括以下步驟獲取來自不同網絡位置的一個以上網關的用戶的網絡訪問信息;對來自各所述網關的網絡訪問信息進行預處理,以獲得各個用戶各自的預處理後的網絡訪問信息;分別基於所得到各個用戶各自的預處理後的網絡訪問信息,分析得到各用戶的用戶行為信息。本發明解決了現有技術中無法基於跨網通信的網絡報文來分析用戶網絡行為的難題以及無法對用戶訪問除本網站外的其他網站的行為進行分析和/或無法對單個用戶跨網訪問不同的網站的行為進行分析的難題。
文檔編號G06F17/30GK102364468SQ20111030052
公開日2012年2月29日 申請日期2011年9月29日 優先權日2011年9月29日
發明者李娜, 羅峰, 黃蘇支 申請人:北京億贊普網絡技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀