一種基於社交網絡的人員地理信息挖掘模型的製作方法
2023-12-08 23:07:51 2
一種基於社交網絡的人員地理信息挖掘模型的製作方法
【專利摘要】本發明涉及大數據並行數據挖掘,尤其是一種基於社交網絡海量的數據信息挖掘興趣人員的地理信息的模型。該模型包括海量數據存儲與挖掘模塊和軟體功能模塊,所述的數據存儲與挖掘模塊由前端伺服器、地理信息位置配置庫、數據預處理、大數據處理平臺構成,軟體功能模塊加載在地理信息挖掘模型上。前端伺服器用於抓取網絡信息,數據預處理包含日誌搜集和格式清洗兩步,用於去掉一些記錄不完全的壞數據,保證數據的格式統一,信息完整。大數據處理平臺包含有1個名稱節點處理單元和2個數據流多重處理器,進行快速、並行的數據挖掘,使數據信息在極短的時間內展現在用戶面前。本發明將社交網絡與大數據處理相結合,有效提高了地理信息提取的可靠性和速度。
【專利說明】一種基於社交網絡的人員地理信息挖掘模型
所屬【技術領域】
[0001]本發明涉及數據挖掘模型,尤其是一種基於社交網絡海量的數據信息挖掘興趣人員的地理信息的模型。
【背景技術】
[0002]隨著網絡技術的迅速發展,網絡用戶和產生的數據量呈現爆炸增長的態勢,同時用戶的網絡行為與現實社會中行為的複雜性和多樣性相映射,形成一個龐大的數據資源池。為挖掘社交網絡中積累的海量數據信息,恰當的對網絡和現實行為進行分析、管理和預警,建立海量信息的分布式網絡存儲以及數據發掘平臺就顯得尤為重要。
[0003]當前,全球的各種分布式計算平臺已有約百種,這些計算大多互無關聯、獨立管理、獨立使用自己的一套軟體。目前的這種分布式計算互相割據的格局很不利於發展的需要。並且這些計算平臺運用範圍較窄,並沒有涉及通過挖掘社交網絡海量數據對人員的行為軌跡的分析。
【發明內容】
[0004]為了克服現有的數據挖掘平臺應用上的不足,本發明提供一種基於社交網絡的人員行為軌跡分析系統,它通過挖掘人員主動在社交平臺上標定自己的位置信息,獲取當前人員的行為軌跡。
[0005]本系統著重體現在基於地理信息的數據挖掘系統,如對於一個用戶,查詢其地理位置等。此類查詢可以滿足一些日常生活場景中用戶的需求。比如,用戶在戶外時需要尋求一些幫助,即可通過該系統找到離自己最近的好友,解決問題。同時,在公安和交通系統在查詢人員信息時,個人發表的位置信息同樣為偵查提供幫助。
[0006]為解決上述技術問題,本發明採用如下的技術方案:一種基於社交網絡的人員軌跡分析系統,包括:海量數據存儲與挖掘模塊和軟體功能模塊。
[0007]海量數據存儲與挖掘模塊用於存儲和挖掘海量的社交網絡信息,這些信息是整個系統的構成基礎,系統平臺包含日誌搜集、格式清洗、導入DFS、規則計算、導出DFS、清理歷史數據六步信息處理過程。
[0008]軟體功能模塊包含數據採集模塊,數據挖掘模塊和數據索引模塊。
[0009]前述的一種海量數據存儲與挖掘模塊日誌搜集過程中,主要負責從各產品的前端機上收集獲取原始的Web訪問日誌。為保證及時進行信息處理,需要建立輪轉機制。所謂輪轉機制,即每天I點、7點和19點會自動啟動遠程SCP程序,以期避開不同產品一天日誌同一時間收集造成網路堵塞。所謂SCP,即決定呼叫如何處理的智能網絡程序。
[0010]前述的一種海量數據存儲與挖掘技術格式清洗過程中即對原始日誌中多種產品不同的配置格式進行統一,包括定義每個欄位的含義和位置以及統一分隔符,同時還去掉一些記錄不完全的壞數據。保證數據的格式統一,信息完整。
[0011]前述的一種海量數據存儲與挖掘模塊導入DFS過程,是啟動Hadoop分布式文件系統規則計算的前提必要工作。Hadoop的分布式文件系統被設計為將海量文件遍布存儲在一個大集群的多臺計算機上,每一個文件以分塊序列的形式進行存儲,一個文件的所有分塊除去最後一個分塊外都是等大小的。為了實現容錯將文件分塊進行自動複製。文件分塊的塊大小和複製比例都是可以按照單個文件進行配置的。
[0012]前述的一種海量數據存儲與挖掘模塊規則計算過程,是MapReduce計算模型的核心,主要完成事務邏輯的規則設計和計算功能。MapReduce並行計算模型,即包含映射、混合和規約三個步驟。通過映射輸入文件集合會先被劃分為幾個「文件片斷」,每個「文件片段」將會對應的創建一個新的映射任務。當映射操作輸出了它的鍵值對後它們就會在內存中駐留,通過混合,提供一個執行規約類型功能類,映射過程產生的鍵值對就不會立刻寫到輸出。當一個規約任務開始時,它的輸入來源於分散在多個節點上的映射任務所產生的許多文件。
[0013]前述的一種海量數據存儲與挖掘模塊導出DFS過程,即將計算結果從DFS中導出,存放到指定的NFS或者大型資料庫中。
[0014]前述的一種海量數據存儲與挖掘模塊清理歷史數據過程,即垃圾數據或文件的清理工作,及時的清理出空閒磁碟,有利於下一次操作。
[0015]前述的軟體功能模塊的採集模塊過程中,就是從微博網站中獲取所有有用信息的頁面,並對獲取頁面進行解析,將頁面半結構化的信息轉換成系統所識別的格式化的信息(用戶、博文、發表時間、發布網站、發布地點等),並去除所有無關信息,作為模塊的輸入。
[0016]前述的軟體功能模塊的數據索引模塊過程中,其中包含內容信息實體的定位,海量數據的各類統計分析,以及即時查詢等。
[0017]前述的軟體功能模塊的數據挖掘模塊過程中,主要是針對基於微博垂直搜索的網際網路定位系統的關鍵詞挖掘。
[0018]本發明的有益效果是,針對複雜異構的數據環境,提供社交網絡海量數據的地理位置挖掘技術,有效解決當前網際網路網絡監測和分析領域的技術瓶頸。通過對海量數據的數據清理,保留有效數據,通過對資料庫進行關聯規則挖掘,發現有效關聯並提供決策支持。
【專利附圖】
【附圖說明】
[0019]下面結合附圖和實施例對本發明進一步說明。
[0020]圖1是本發明所述基於社交網絡的人員地理信息數據挖掘模型結構示意方框圖;
[0021]圖2是本發明的一種實施例的體系架構及其功能模塊。
【具體實施方式】
[0022]下面結合附圖和【具體實施方式】對本發明作進一步說明:
[0023]在圖1中,本發明所述的一種基於社交網絡的人員地理信息數據挖掘模型包括前段伺服器、地理信息位置配置庫、大數據平臺名稱節點伺服器、大數據平臺數據節點伺服器、大型資料庫等構成。所述的前段伺服器即為爬蟲伺服器,根據設定的抓取範圍自動在社交網絡上搜尋相關信息。這些信息通過所述的地理信息位置配置庫進行地理位置的匹配,將匹配後的信息錄入日誌,進行日誌搜集工作。所搜集的日誌格式具備異構性,所以需要進行格式清洗。所述的大數據平臺名稱節點伺服器、大數據平臺數據節點伺服器、大型資料庫構成Hadoop數據存儲平臺。
[0024]海量數據在抓取後需要進行數據預處理,數據預處理包括日誌搜集和格式清洗。
[0025]海量數據存儲與挖掘技術日誌搜集,主要從各產品的前端伺服器上收集獲取原始的Web訪問日誌。為保證及時進行信息處理,需要建立輪轉機制。所謂輪轉機制,即每天I點、7點和19點(或者自由設定)會自動啟動遠程SCP程序,以期避開不同產品一天日誌同一時間收集造成網路堵塞。所謂SCP,即決定呼叫如何處理的智能網絡程序,這裡就是啟動搜集程序。
[0026]格式清洗即對原始日誌中多種產品不同的配置格式進行統一,包括定義每個欄位的含義和位置以及統一分隔符,同時還會去掉一些記錄不完全的壞數據,保證數據的格式統一,信息完整。
[0027]預處理後的數據導入Hadoop數據處理平臺。Hadoop數據處理平臺包括大數據平臺名稱節點伺服器、大數據平臺數據節點伺服器和大型資料庫。
[0028]導入DFS過程即將數據導入到大數據平臺名稱節點伺服器,名稱節點伺服器一般運行著一個GNU/Linux作業系統。在一個集群中一個專門的機器僅僅用於運行名稱節點軟體。集群中的其他機器則被當做數據節點伺服器。數據節點伺服器可以互相共享數據。導入DFS過程,是啟動Hadoop分布式文件系統規則計算的前提必要工作。Hadoop的分布式文件系統被設計為將海量文件遍布存儲在一個大集群的多臺計算機上,每一個文件以分塊序列的形式存儲到大數據平臺數據節點伺服器上,一個文件的所有分塊除去最後一個分塊外都是等大小的。為了實現容錯將文件分塊進行自動複製。
[0029]規則計算過程,是MapReduce計算模型的核心,運行在名稱節點伺服器上。主要完成事務邏輯的規則設計和計算功能。MapReduce並行計算模型,即包含映射、混合和規約三個步驟。通過映射輸入文件集合會先被劃分為幾個「文件片斷」,每個「文件片段」將會對應的創建一個新的映射任務。當映射操作輸出了它的鍵值對後它們就會在內存中駐留,通過混合,提供一個執行規約類型功能類,映射過程產生的鍵值對就不會立刻寫到輸出。當一個規約任務開始時,它的輸入來源於分散在多個節點上的映射任務所產生的許多文件。
[0030]前述的一種海量數據存儲與挖掘模型導出DFS過程,即將計算結果從DFS中導出,存放到指定的大型資料庫中。
[0031]在圖2所示實施例的體系架構及其功能模塊包含數據採集模塊、數據索引模塊和數據挖掘模塊。
[0032]數據採集模塊包括從各類社交網絡、微博和論壇上搜集到信息進行個人狀態文字分析、地理位置挖掘和基礎數據採集。即從微博、社交網站中獲取所有有用信息的頁面,並對獲取頁面進行解析,將頁面半結構化的信息轉換成系統所識別的格式化的信息(用戶、博文、發表時間、發布網站、發布地點等),並去除所有無關信息,作為模塊的輸入。
[0033]數據索引模塊主要用於信息篩選,其中包含內容信息實體的定位,海量數據的各類統計分析,以及即時查詢等。
[0034]數據挖掘模塊主要是針對基於微博垂直搜索的網際網路定位系統的關鍵詞挖掘。
【權利要求】
1.一種基於社交網絡的人員地理信息數據挖掘模型,其特徵在於,包括: 海量數據存儲與挖掘模塊; 地理信息位置配置庫,其設置在海量數據存儲與挖掘模塊內,查找對應地理信息,與前端伺服器相連; 日誌搜集裝置,其設置在海量數據存儲與挖掘模塊內,根據對應地理位置搜集在社交網絡上人員的地理信息,與所述的地理信息配置庫相連; 格式清洗裝置,其設置在海量數據存儲與挖掘模塊內,統一原始日誌中不同的配置格式,包括定義欄位的含義和位置以及統一分隔符,刪除記錄不完全的壞數據,保證信息的完整性。 大數據存儲挖掘平臺,其設置在海量數據存儲與挖掘模塊內,與格式清洗裝置相連。 軟體功能模塊; 數據採集模塊,其設置在軟體功能模塊內,從各類社交網絡、微博和論壇上搜集信息進行處理。 數據索引模塊,其設置在軟體功能模塊內,採用並行處理方式從大量數據中提取可用數據。 數據挖掘模塊,其設置在軟體功能模塊內,根據用戶需求施行發掘任務。
2.根據權利要求1所述的一種基於社交網絡的人員地理信息數據挖掘模型,其特徵在於:大數據存儲挖掘平臺上包含導入DFS和導出DFS模塊。
3.根據權利要求1所述的一種基於社交網絡的人員地理信息數據挖掘模型,其特徵在於:大數據存儲挖掘平臺上包含設置有I個名稱節點處理單元和2個數據流多重處理器。
4.根據權利要求3所述的I個名稱節點處理單元和2個數據流多重處理器,其特徵在於:數據在名稱節點處理單元進行分割,利用規則計算過程進行並行數據的處理。
5.根據權利要求1所述的一種基於社交網絡的人員地理信息數據挖掘模型,其特徵在於:所述的數據採集模塊包含個人狀態文字、地理信息和基礎數據採集三個部分。
6.根據權利要求1所述的一種基於社交網絡的人員地理信息數據挖掘模型,其特徵在於:所述的數據索引模塊包含信息篩選部分。
7.根據權利要求1所述的一種基於社交網絡的人員地理信息數據挖掘模型,其特徵在於:數據挖掘模塊包含地理信息位置資料庫和用戶關係資料庫。
8.根據權利要求7所述的地理信息位置資料庫和用戶關係資料庫,其特徵在於:利用敏感區域、熱點聚合和用戶關係進行數據挖掘。
【文檔編號】G06F17/30GK104298669SQ201310295894
【公開日】2015年1月21日 申請日期:2013年7月16日 優先權日:2013年7月16日
【發明者】汪思敏 申請人:江蘇宏聯物聯網信息技術有限公司