基於網絡結構用戶行為模式的信息跟蹤與檢測方法及系統的製作方法

2023-05-23 19:53:21 5

專利名稱：：基於網絡結構用戶行為模式的信息跟蹤與檢測方法及系統的製作方法
技術領域：
：本發明涉及網絡信息分析技術，更具體地，涉及一種基於網絡結構用戶行為模式的信息跟蹤與檢測方法及系統。
背景技術：
：信息技術日新月異的發展使得海量數據存儲成為可能，信息爆炸已經成為當今IT領域面臨的重要問題之一。如何從海量的網絡數據中快速、有效地獲得有價值的信息是一個亟需解決的問題。寬帶、光纖以及3G技術使得用戶獲得數據的渠道越來越寬暢，由於帶寬造成的信息瓶頸已經逐漸遠離於當今的社會。隨著網絡應用的豐富，在各類靜態應用之後，出現了越來越多的動態網絡應用，比如電子公告板(BBS,Bulletinboardsystem)、網絡日誌(Blog)、維基百科(Wikipedia)等應用程式。傳統的門戶網站也對自身的系統進行了改進，使原有的以靜態內容為主的網站得到了很大的擴展，吸引的用戶數量也迅速增長。這些用戶每日發表的帖子、話題以及回復的評論、看法等分散在網絡的各個應用中，信息量與日俱增。從目前人類的角度來看，人本身根本無法處理如此海量的網絡信息，因此如何從網絡的海量信息中得出有用、有效的話題則成為一個重要需求。話題檢測作為話題跟蹤與檢測(TopicDetectionandTracking,TDT)的一個子研究領域，其目的就是為了通過組織和探索海量的文本信息，並從此類信息中識別出特定的話題。話題檢測可以自動的將一些分離的信息聚合成不同的簇，相同的簇中保存著同類話題的不同信息。來自美國國防先進研究項目局(DARPA，USDefenseAdvancedResearchProjectsAgency)、麻薩諸塞大學、卡耐基-梅隆大學和DragonSystem的研究人員於1998年完成了一個前瞻性的研究。話題被定義為一個種子事件或者活動以及其伴隨的與之直接相關的事件或者活動。因此，可以認為話題是由一系列的事件或者活動構成的。TDT2004的文檔中對事件和活動作出了更為詳細的描述，指出事件即是在特定時間和特定地點發生的一些事，並帶有必要的先決條件和必然的後果。而活動指的是在某段特定時間、特定地點發生的一系列的有聯繫的、具有相同關注點的事件。現有技術中關於話題跟蹤和檢測方面的研究與本發明略有不同，本發明中的信息跟蹤和檢測主要是指發現網際網路論壇中的熱點話題。網際網路論壇從本質上講是一個Web應用，該Web應用程式主要用於容納話題討論和張貼用戶所產生的內容。網際網路論壇往往也被稱為Web論壇、電子公告板、討論區或者直接簡稱為版塊、論壇。一般而言，論壇往往指整個進行討論的社區，而版塊往往指組成整個社區的一個子論壇，這些版塊往往只針對某一特定方面的話題進行討論。版塊中的主題往往是通過一些固定的形式進行組織，不同的論壇則有所不同，常見的有按時間順序模式和按話題組織模式。根據中國網際網路信息中心(ChinaInternetNetworkInformationCenter,CNNIC)的統計，2008年底，中國已經有近2.53億網際網路用戶，其巾還包括2.14億寬帶用戶，佔總用戶人數的84.7%。隨著層出不窮的網絡應用逐漸在中國境內流行，越來越多的年輕人投入到這些帶有互動、娛樂等特點的應用中，儘管Myspace、Facebook等應用在國際上十分流行，國內也有類似的以及其它各種類型的社會化網絡應用程式，但國內網民使用最多，最廣泛的一類網絡應用還是傳統的電子公告板以及新形式的網際網路論壇。在國內，各個網際網路論壇的註冊用戶已經達到了30億之多(每個W絡用戶可以在多個網際網路論壇中進行註冊)，80%的國內網站都經營著自己的網際網路論壇，這些網際網路論壇的每日頁面瀏覽量(PageView,PV)已經達到了16億之多。同時，每天在這些論壇中發表的帖子則超過了1千萬。儘管這些論壇的帖子中夾雜了大量的垃圾信息和不良信息，其整體上表現出來的數量還是相當驚人的。根據參考文獻1(KumaranQAllan丄Textclassificationandnamedentitiesforneweventdetection.Proceedingsofthe27thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.2004.297304)，熱點話題可以被定義為在某一個時間段內頻繁出現的話題。Kumamn等人同樣給出了關於某個話題熱門程度的描述，將話題的熱門程度分為兩個主要因素，其一為熱門關鍵詞在文檔中出現的頻率，其二為文檔中所包含該關鍵詞的數量。這類利用權重機制來進行熱點話題發現的方法對於捕捉文檔中重要的、具有代表性的關鍵詞非常有效。在評價關鍵詞的重要性的諸多方法中，TF-IDF(TermFrequency-InverseDocumentFrequency,關鍵詞頻率-逆序文檔步頁率)是一禾中非常常見的評價方法。在其之後，又出現了TFnDF方法。這兩種方法都需要大量的計算。由於目前的話題跟蹤與檢測算法沒有對網際網路論壇的實際特性進行針對性的設計，且計算量大，因而無法對網絡信息中敏感性和爭議性話題做出迅速判斷。
發明內容針對上述問題，本發明提出了針對網際網路論壇的基於網絡結構和用戶行為模式的熱點話題發現方法，可以迅速地檢測網際網路論壇中的熱點話題，減小計算量。本發明的內容主要針對如何從給定的網際網路論壇中檢測或抽取所感興趣的熱點話題。本發明提出了一種用於在給定網際網路論壇中檢測熱點話題的方法及系統。該方法及系統利用了複雜網絡(ComplexNetworks)的知識以便於分析網際網路論壇中的用戶之間的關係，並對用戶的行為模式進行分析，這些方面都於現有技術有所不同。在網際網路論壇的環境下，本發明具有很高的效率和準確性。為了克服現有技術的不足，本發明提供一種基於網絡結構用戶行為模式的信息跟蹤與檢測方法，該方法包括以下步驟A、提取網絡數據；B、構建網絡結構；C、根據所述網絡數據和網絡結構，計算第一用戶模式數據；D、根據所述網絡數據和網絡結構，計算第二用戶模式數據；E、根據上述網絡數據、網絡結構、第一用戶模式數據和第二用戶模式數據，獲得檢測結果。根據本發明的另一個方面，在上述歩驟A中，通過網絡爬蟲單元抓取並存儲網頁；通過信息提取單元分析並提取出網絡數據。根據本發明的另一個方面，在上述步驟B中以圖的形式構建網絡結構，所述圖是無向圖，所述網絡結構中每個用戶對應於所述圖中的一個節點。根據本發明的另一個方面，所述第一用戶模式數據是通過適應度估計算法得出的適應度估計值，所述第二用戶模式數據是通過活躍度估計算法得出的活躍度估計值，所述檢測結果是通過熱度估計算法得出的熱度估計值。本發明還提供一種基於網絡結構用戶行為模式的信息跟蹤與檢測系統，其特徵在於，該系統包括網絡爬蟲單元，用於抓取並存儲目標網站的網頁；信息抽取單元，用於提取出所需的網絡數據；通用數據存取單元，用於將所述信息抽取單元提取出的所述網絡數據存儲到資料庫中，並讀取所述資料庫中已存儲的數據；網絡構造單元，利用提取出的所述網絡數據構建網絡結構；第一用戶模式數據估計單元，用於估計網絡中節點的第一用戶模式數據；第二用戶模式數據估計單元，用於估計網絡中節點的第二用戶模式數據；檢測結果獲取單元，用於根據所述網絡數據、網絡結構、第一用戶模式數據和第二用戶模式數據，獲得檢測結果。根據本發明的另一個方面，所述系統還包括模板管理單元，用於創建、修改和刪除所述預定義的模板；所述網絡爬蟲單元根據URL地址對目標網站進行訪問，獲取目標網站的網頁，並將抓取到的網頁數據存儲於本地文件系統中；所述信息抽取單元可與所述網絡爬蟲單元順序工作或並行工作，所述信息抽取單元將已存儲的網頁與所述模板管理單元中預定義的模板進行匹配，然後根據匹配的模板中已定義的信息抽取所需的數據和數據模式，獲得所需的網絡數據。根據本發明的另一個方面，所述網絡構造單元以圖的形式構建所述網絡結構，所述圖是無向圖，所述網絡結構中每個用戶對應於所述圖中的一個節點。根據本發明的另一個方面，所述第一用戶模式數據是通過適應度估計算法得出的適應度估計值，所述第二用戶模式數據是通過活躍度估計算法得出的活躍度估計值，所述檢測結果是通過熱度估計算法得出的熱度估計值。圖1是按照本發明一個實施方式的網際網路論壇帖子的構成形式示意圖。圖2是按照本發明的一個實施方式的網絡的度分布曲線。圖3是按照本發明的一個實施方式使用公式(4)產生的網絡的度分布曲線示意圖。圖4是按照本發明一個實施方式的每日節點增加數的統計圖。圖5是按照本發明一個實施方式的每日邊增加數的統計圖。圖6是按照本發明一個實施方式的每日每節點增加邊數的統計圖。圖7是用戶創建帖子數分布圖。圖8是按照本發明的一個實施方式的工作流程圖。圖9是按照本發明的一個實施方式的系統結構示意圖。具體實施例方式為了進一步說明本發明的原理及特性，以下結合附圖和具體實施方式對本發明進行詳細說明。下面結合附圖詳細描述本發明的具體實施方式。按照本發明一個實施例的基於網絡結構和用戶行為模式的信息跟蹤與檢測方法，包括首先，提取網際網路論壇的網絡數據並建立起網絡結構。一個網際網路論壇一般由幾個版塊構成，其中每個版塊可能又包含有其他子版塊或者許多帖子，子版塊下一般直接包含有相關帖子。按照本發明的一個實施方式，將網絡中出現的關於某個主題的新聞、論壇帖子、博客等統稱為"帖子"。圖l是按照本發明一個實施方式的網際網路論壇帖子的構成形式示意圖。如圖l中所示，一個常見的帖子包括了版塊名稱(BoardName)、標題(Title)、發帖人(UserName)、內容(Content)、引用內容(R印liedTo)以及發表時間或編輯時間(TimeofPostorEdit)。版塊名稱表示帖子發表的位置。帖子當中的標題和內容是一個帖子中最重要的部分，也是在大多數話題檢測方法中進行重點研究的部分。帖子當中的用戶名則顯示了發帖人在網際網路論壇中用於識別用戶身份的標識符，可以是字符串或者數字等。一般情況下，網際網路論壇中用戶名不允許重複。時間和日期則表示發表該帖子的時間。在一些網際網路論壇中提供了對所發表帖子的編輯功能，此類論壇一般可以顯示該帖子在後期被編輯的時間。如果帖子之間有回覆關係或引用關係，則一般在帖子的主體內容中有所體現，此時帖子中會將回復或者引用的全部內容或部分內容在主要內容的上方或下方進行顯示。由於網際網路論壇中的用戶名不允許重複，因此可以通過用戶所發表的帖子信息將用戶聯繫成一個網絡。圖或網絡的度分布是有關這個圖或網絡的重要特徵和屬性之一，因此對網絡的研究都是從研究度分布的角度進行的。在本發明中，用G表示一個圖。圖G是一個有序二元組(V，E)，其中V稱為頂集，E稱為邊集。它們也可以寫成V(G)和E(G)。E的元素是一個二元組數對，用(x，y)表示，其中x，yGV。若一條邊的兩個頂點為同一頂點，則此邊稱作環。如果給圖的每條邊規定一個方向，那麼得到的圖稱為有向圖。在有向圖中，與一個節點相關聯的邊有出邊和入邊之分。相反，邊沒有方向的圖稱為無向圖。優選地，按照本發明的一個實施方式，使用無向圖表示一個網絡，從而建立起網際網路論壇的網絡結構。度(Degree),即一個頂點的度，是指與該邊相關聯的邊的條數，頂點v的度記作d(v)。顯然有有向圖的頂點的度可分入度(InDegree)和出度(OutDegree)。一個頂點的入度是指與該邊相關聯的入邊的條數，出度則指與該邊相關聯的出邊的條數。在按照本發明的一個實施方式所涉及的網際網路論壇中，網絡中的每個用戶對應於無向圖中的一個節點存在。假設圖中沒有環，且任意兩個頂點之間最多只有一條邊，那麼，如果邊集E中存在一個二元組(i，j)，則節點i和節點j之間存在至少一次的帖子回復關係。按照本發明的一個實施方式，從網際網路上某個中等規模的論壇上獲取其所有數據，其中共有註冊用戶約20,000名，帖子信息有近700，000條。另外，利用下文中將描述的按照本發明的一個實施方式的基於網絡結構和用戶行為模式的信息跟蹤和檢測系統，從網際網路論壇獲得的相關數據，這些數據主要包括用戶名、用戶標識、發帖數量、話題標識、發帖內容、發帖時間等。通過該系統使用這些數據構建一個完整的網絡，並計算出該網絡的度分布。定義網絡的形成模型如下*節點在每個討論區中發言的每個不同用戶ID計為一個節點，重複出現的相同用戶ID不予考慮；*邊若兩個用戶ID之間存在回復關係，則認為節點之間存在一條邊；*自環假設網絡中沒有自環，忽略用戶回復自己所發表的原始帖子時形成的自環；*重邊不考慮由於用戶之間存在多次的回覆關係形成的重邊，認為任意兩個用戶之間最多只存在一條邊。網絡的度採用統計的方法可以直接獲得，度分布需要在獲得整個網絡中所有節點的度以後計算獲得。度分布實際上是指度為k的節點在整個網絡中出現的概率P(k)。圖2是按照本發明的一個實施方式的網絡的度分布曲線。其中橫軸表示節點的度，用k表示；縱軸表示度為k的節點在整個網絡中出現的概率，用p(k)表示。圖2中的子圖橫縱軸含義與大圖相同，但其坐標為雙對數坐標，雙對數坐標是考察網絡是否具有無標度特性的一個重要衡量因素之一。從圖2中可以看出，回復關係網絡的度分布與原始的BA無標度網絡基本相同。回復關係網絡即由網際網路論壇中用戶之間的回覆關係構成的網絡，原始的BA無標度網絡艮卩Barab&si(Barabdsi，Albert-L4sz16andR6kaAlbert,"Emergenceofscalinginrandomnetworks"，Science,286:509-512，October15，1999)等人最初創建的無標度網絡。圖2中無論主圖還是子圖都具有和原始BA無標度網絡共同的圖形特性。BA無標度網絡的度分布服從冪律分布，冪律分布可以由公式(2)來表示屍(A)oc^"(2)在BA無標度網絡中，公式(2)中的r為3，而由圖2計算得出網際網路論壇回復關係網絡的r二2.28937±0.01321。此處兩種網絡度分布的r值產生差異的原因是由於在網絡構造過程中存在的優先連接概率n的不同所造成的。在BA無標度網絡中，優先連接概率n的定義如公式(3)所示formulaseeoriginaldocumentpage12n.=J.(3)而按照本發明的一個實施方式所構造的網絡中優先連接概率n如公式(4)所示formulaseeoriginaldocumentpage127.(4)公式(4)中t表示演進的步數，^則表示為節點的適應度，其詳細定義可以參見參考文獻2(LuG.OldSchoolBBS:TheChineseSocialNetworkingPhenomenon:http://www.readwriteweb.com/archives/bbs—china_social—networking.php)。A表示節點i的度，而a表示衰減因子。公式(4)用於在給定少數初始節點的情況下產生一個網絡或者在給定一個網絡的情況下用於估計網絡中給定節點的適應度。圖3是按照本發明的一個實施方式使用公式(4)產生的網絡的度分布曲線示意圖。圖3中的橫軸表示節點的度，用k表示；縱軸表示度為k的節點在整個網絡中出現的概率，用P(k)表示。圖3中的子圖橫縱軸含義與大圖相同，但其坐標為雙對數坐標。對於一個給定的網絡，可以使用公式(4)來估計節點的適應度，本發明的網絡中節點所對應的即是網際網路論壇中的一個用戶。得到用戶的適應度(即獲得某個節點的適應度)之後，可以用其估計由該用戶產生的話題的熱度。因此，適應度除了可以用於檢測熱點話題之外，還可以用於進行部分預測工作。接下來，對網際網路論壇的用戶行為模式進行分析。網際網路論壇中的用戶可以被大致的分為兩類，即活躍用戶和非活躍用戶。活躍用戶會經常的、有規律的登錄論壇並瀏覽、査看論壇中的相關信息，而非活躍用戶則是不定期的進行上述活動，且頻率較小。從發表和創建帖子方面看，活躍用戶會經常的發表帖子用於討論各類問題，而非活躍用戶則很少進行該方面的活動。為了更好地了解網際網路論壇中用戶的屬性，本發明對由論壇數據產生的回覆關係網絡進行了統計。圖4是按照本發明一個實施方式的每日節點增加數的統計圖。圖5是按照本發明一個實施方式的每日邊增加數的統計圖。圖6是按照本發明一個實施方式的每日每節點增加邊數的統計圖。圖4展示了每日的節點增加數，其中橫軸表示天數，縱軸表示節點的增加數量。圖5則展示了邊的每日增加數，其中橫軸表示天數，縱軸表示邊的增加數量。如圖4和圖5所示，每日節點的增加數目和邊的增加數目沒有明顯的規律，基本處於隨機狀態。通過圖4和圖5很難對網際網路論壇中用戶和帖子的演化過程進行精確的描述。圖6則展示了每日每節點平均增加的邊數，其中橫軸表示天數，縱軸表示節每個節點平均連結數量。類似於圖4和圖5得到的結果，該特徵的變化也沒有明顯的規律，也難以用精確的表達式進行描述。圖7是用戶創建帖子數分布圖，其中橫軸表示帖子數量，縱軸表示相對頻率。從圖7中可以看出，在網際網路論壇中存在著一些超級用戶，這些超級用戶創建了大量的帖子，與此同時，有大量的用戶則僅僅是創建了少量帖子。按照本發明的一個實施方式中，論壇中最活躍的用戶創建了7，000多個帖子，而有40%的用戶僅僅只創建了一個帖子。最後，確定網際網路論壇中熱點話題。熱點話題是指網際網路論壇中在某段時間內出現頻率較高且影響了較多活躍用戶的的話題。用h表示話題的熱門程度，其中下標t代表話題，則^'由如下公式定義公式(5)中^表示話題在網際網路論壇中的持續時間，",表示對該話題進行討論的所有用戶集，,表示用戶i的適應度，《表示用戶i的活躍程度。為了計算簡便，可以使用用戶在論壇活躍期內發表的帖子數量來表示用戶的活躍程度，同時使用優先連接概率n來表示用戶的適應度。這樣，一個給定話題的熱門程度主要由該話題在其生命周期內吸引的不同用戶的重要程度來決定。下面分別給出上述各個步驟中所涉及的算法偽代碼。1、網絡構造算法下面的偽代碼為網絡構造算法/mYwe/-//MF/wfa〃/wtoWFz/Mser//os<3co朋ec/z'oww油y7=//"Faw/(7，》&wof/"五五2、適應度估計算法下面的偽代碼為適應度估計算法,"&ss=0ybmac/z"m&s啤/w化r/'s騰3、活躍度估計算法下面的偽代碼為活躍度估計算法cow欣wcfAewe/wwA:化￡」4、熱度估計算法下面的偽代碼為熱度估計算法為了進行算法的有效性實驗，進行了相關的實驗。按照本發明的一個實施方式，利用一種基於網絡結構用戶行為模式的信息跟蹤與檢測系統進行實現，該系統包括網絡爬蟲單元，用於抓取並存儲目標網站的網頁；信息抽取單元，用於將抓取到的網頁根據預定義的模板進行匹配，得到進行話題熱度分析所需的具體數據；通用數據存取單元，用於對資料庫進行數據存儲和讀取；模板管理單元，用於創建、修改和刪除模板；網絡構造單元，用於構建網絡結構；適應度估計單元，用於估計網絡中節點的適應度；活躍度估計單元，用於估計網絡中節點的活躍度；熱度估計單元，用於估計網際網路論壇中話題的熱度。網絡爬蟲單元根據給定的初始URL地址對目標網站進行訪問，獲取目標網站的網頁。訪問過程的同時對網頁進行URL解析，將網頁中的URL地址存入URL隊列中。當網絡爬蟲單元完成當前URL地址的網頁抓取時，將繼續URL隊列中下一個URL地址的抓取，抓取到的網頁數據存儲於本地文件系統中。現有技術中存在與網絡爬蟲單元功能類似的軟體，主要包括有各大商業搜尋引擎的網絡爬蟲以及開源軟體領域的一些具有類似功能的軟體(比如Nutch)等。信息抽取單元可與網絡爬蟲單元順序工作或並行工作。信息抽取單元進行工作時，將直接處理通過網絡爬蟲單元抓取並存儲到本地的網頁。首先，信息抽取單元對這些存儲到本地的網頁進行識別，判斷其適合何種模板。然後，信息抽取單元根據判定的結果選用合適的模板，由於模板中定義了信息抽取所需的數據和該數據的模式，因此可將模板套用到網頁中後可獲得所需的數據。在本發明的一個實施例中，從該網際網路論壇中抽取的數據包括但不限於用戶名、用戶標識、發帖數量、話題標識、發帖內容、發帖時間等。數據結構包括但不限於字符串、整數、時間日期等。通用數據存儲單元用於將信息抽取後獲得的數據存儲到資料庫中，也可以用於數據的讀取，數據讀取主要用於後期的計算。模板管理單元主要用於建立、修改、刪除系統中的模板。網絡構造單元根據信息抽取單元提取的網絡數據以及上述網絡構造算法，構造網絡。然後將處理後的數據傳遞給適應度估計單元以及活躍度估計單元，熱度估計單元將適應度估計單元以及活躍度估計單元所得的結果進一步計算已獲得話題的熱度。該系統利用了DotNet的技術，只需在一臺有公共語言運行時(CLR，CommonLanguageRuntime)支持的平臺上即可運行。該系統的主要功能是在作為數據源的網際網路論壇中收集用戶和帖子的信息。實驗結果證明，按照本發明的一個實施方式的熱點話題檢測方法所包括的用戶適應度算法、用戶活躍度算法以及網絡構造算法均有效。當然，本領域的技術人員知道，可以採用任何適當的計算機編程軟體來實現該系統，並且網際網路論壇的選擇包括但不限於國內論壇。按照本發明的一個實施方式，實驗所用的數據均採集於國內的某個論壇，帖子數目近700，000，用戶數目近20，000。每個帖子的數據結構基本相同，如前文中的圖l所示。優選地，按照前述方法獲取論壇帖子的數據後，將其存入到一個標準的關係型資料庫中。該資料庫中需要根據網際網路論壇的帖子內容建立相應的數據表，該表應具有用戶名、帖子主題、帖子內容、發表與編輯時間等數據列。這些數據的獲取是由前文所述系統實現的。當然，本領域的技術人員知道，可以採用任何適當的資料庫，包括但不限於關係型資料庫。表1表示按照本發明的一個實施方式的方法獲得的適應度結果。表1中展示了IO個適應度最高的用戶，表中的用戶標識代表了一個唯一的用戶，為了不涉及該網際網路論壇的用戶隱私，表l中沒有顯示用戶名，而使用用戶標識進行描述。適應度計算結果是根據前文中介紹的適應度估計算法得出的，表l中的用戶標識是一個不斷遞增的大整數，也就是說用戶標識小的用戶在該網際網路論壇中的註冊時間早，而用戶標識大的用戶在該論壇中註冊的時間晚。從表l巾可以看出，用戶註冊的早晚與該用戶的適應度大小並無直接的必然聯繫。表1十大高適應度用戶tableseeoriginaldocumentpage18tableseeoriginaldocumentpage19表2表示按照本發明的一個實施方式的方法獲得的活躍度結果。表2展示了十個具有最高活躍度值的用戶，表2中使用的用戶標識與表1中相同，此處不再贅述。從表2中可以看到，表中僅有一個排名第5的用戶在表1中出現，而其在表l中的排名位置為第8。由此可見，活躍度和適應度有很大的差別，兩者都是反映用戶在網際網路論壇中重要程度的重要參數。表2十大高活躍度用戶tableseeoriginaldocumentpage19表3表示按照本發明的一個實施方式的方法獲得的熱度值結果。表3展示了數據源中十個最熱門的話題，話題標識同用戶標識一樣，都是一個唯一標識符，用於標識一個話題。表3展示的熱度值是根據前文中介紹的熱度估計算法計算而得的。表3十大熱門話題tableseeoriginaldocumentpage19tableseeoriginaldocumentpage20下面將十大熱門話題所討論的主要內容簡略列出，同時給出該話題的相關數據信息。出於保護個人隱私的考慮，在列出話題的主要內容時隱去了部分內容，隱去的內容主要是一些人物姓名。1.該話題主要是一些非常活躍的用戶在網際網路論壇中進行爭吵的內容，數據源中共包含該話題相關帖子97份，共有29個不同用戶參與其中。2.該話題主要是對某位過去的政治家的相關討論，數據源中共包含該話題相關帖子50份，共有26個用戶參與其中。3.該話題主要是對另外某一位過去的政治家進行的相關討論，數據源中共包含該話題相關帖子45份，共有30個用戶參與其中。4.該話題主要是對60年代到70年代發生的一個政治事件進行討論，數據源中共包括相關帖子45份，共有29個用戶參與其中。5.該話題主要是對該網際網路論壇中某位用戶發表的一篇政治性文章進行討論，數據源中共包括相關帖子117份，共有69個用戶參與其中。6.該話題主要是對該網際網路論壇如何進行發展進行討論，數據源中共包括相關帖子29份，共有19個用戶參與其中。7.該話題主要是該網際網路論壇中兩大用戶團體進行爭吵的內容，數據源中共包含該話題相關帖子86份，共有35個不同用戶參與其中。8.該話題主要是該網際網路論壇中另外一次的兩大類用戶進行爭吵的內容，數據源中共包含該話題相關帖子20，共有16不同用戶參與其中。9.該話題主要是對一位前政治家的妻子進行討論，數據源中共包括相關帖子86份，共有37個用戶參與其中。10.該話題主要是對中國的經濟模式進行討論，數據源中共包括相關帖子36份，共有24個用戶參與其中。從上述的內容總結中可以看到，針對某個話題進行討論的帖子數和參與的用戶數對該話題的熱門程度給出了一個直觀而簡單的描述，但按照本發明的一個實施方式的實驗結果中得到的熱點話題是完全按照本發明的話題熱度估計算法得到的。從上述的話題內容總結中就可以推測出這些內容必將是在網際網路論壇中得到眾多響應和關注的話題，這些話題往往是有爭議和在政治上敏感的。綜上所述，按照本發明的一個實施方式，發現熱點話題的整個工作流程如圖8所示。S01:提取網絡數據。利用上述方法從網絡論壇中提取用於構建網絡的數據。S03:構建網絡結構。利用S01中獲得的數據，按照本發明的一個實施方式的上述網絡構造算法，創建網際網路論壇的網絡結構。S05:適應度估計。利用SOl、S03獲得的數據和網絡結構，按照本發明的一個實施方式的上述適應度估計算法，計算網絡中各用戶的適應度，判斷用戶的重要性。S07:活躍度估計。利用S01、S03獲得的數據和網絡結構，按照本發明的一個實施方式的上述活躍度估計算法，計算網絡中各用戶的活躍度，判斷用戶的重要性。S09:熱度估計。利用S01-S07獲得的數據、網絡結構、適應度和活躍度，按照本發明的一個實施方式的上述熱度估計算法，判斷熱點話題。雖然以上描述了本發明的多個具體實施方式，但是本領域的技術人員應當理解，這些具體實施方式僅是舉例說明，本領域的技術人員在不脫離本發明的原理和實質的情況下，可以對上述方法及系統的細節進行各種省略、替換和改變。例如，合併上述單元和/或方法步驟，從而按照實質相同的方法執行實質相同的功能以實現實質相同的結果則屬於本發明的範圍。因此，本發明的範圍僅由所附權利要求書限定。權利要求1.一種基於網絡結構用戶行為模式的信息跟蹤與檢測方法，其特徵在於，該方法包括以下步驟A、提取網絡數據；B、構建網絡結構；C、根據所述網絡數據和網絡結構，計算第一用戶模式數據；D、根據所述網絡數據和網絡結構，計算第二用戶模式數據；E、根據上述網絡數據、網絡結構、第一用戶模式數據和第二用戶模式數據，獲得檢測結果。2.根據權利要求1所述的方法，其特徵在於在上述步驟A中，通過網絡爬蟲單元抓取並存儲網頁；通過信息提取單元分析並提取出網絡數據。3.根據權利要求l所述的方法，其特徵在於在上述歩驟B中以圖的形式構建網絡結構，所述圖是無向圖，所述網絡結構中每個用戶對應於所述圖中的一個節點。4.根據權利要求1所述的方法，其特徵在於所述第一用戶模式數據是通過適應度估計算法得出的適應度估計值，所述第二用戶模式數據是通過活躍度估計算法得出的活躍度估計值，所述檢測結果是通過熱度估計算法得出的熱度估計值。5.—種基於網絡結構用戶行為模式的信息跟蹤與檢測系統，其特徵在於，該系統包括網絡爬蟲單元，用於抓取並存儲目標網站的網頁；信息抽取單元，用於提取出所需的網絡數據；通用數據存取單元，用於將所述信息抽取單元提取出的所述網絡數據存儲到資料庫中，並讀取所述資料庫中已存儲的數據；網絡構造單元，利用提取出的所述網絡數據構建網絡結構；第一用戶模式數據估計單元，用於估計網絡中節點的第一用戶模式數據；第二用戶模式數據估計單元，用於估計網絡中節點的第二用戶模式數據；檢測結果獲取單元，用於根據所述網絡數據、網絡結構、第一用戶模式數據和第二用戶模式數據，獲得檢測結果。6.根據權利要求5所述的系統，其特徵在於所述系統還包括模板管理單元，用於創建、修改和刪除所述預定義的模板;所述網絡爬蟲單元根據URL地址對目標網站進行訪問，獲取目標網站的網頁，並將抓取到的網頁數據存儲於本地文件系統中；所述信息抽取單元可與所述網絡爬蟲單元順序工作或並行工作，所述信息抽取單元將已存儲的網頁與所述模板管理單元中預定義的模板進行匹配，然後根據匹配的模板中已定義的信息抽取所需的數據和數據模式，獲得所需的網絡數據。7.根據權利要求5所述的系統，其特徵在於所述網絡構造單元以圖的形式構建所述網絡結構，所述圖是無向圖，所述網絡結構中每個用戶對應於所述圖中的一個節點。8.根據權利要求5所述的系統，其特徵在於所述第一用戶模式數據是通過適應度估計算法得出的適應度估計值，所述第二用戶模式數據是通過活躍度估計算法得出的活躍度估計值，所述檢測結果是通過熱度估計算法得出的熱度估計值。全文摘要本發明提供一種基於網絡結構用戶行為模式的信息跟蹤與檢測方法及系統。首先獲取網際網路論壇中所有的目標信息，將信息進一步進行抽取工作，獲得有關帖子的標題、內容、用戶名、發表時間等信息。然後用網絡構建算法將抽取到的信息進行網際網路論壇網絡結構的重建，建立一個完整的圖，並計算該圖的相關性質。隨後，使用適應度估計算法、活躍度估計算法以及熱度估計算法進行相關的計算，得到網際網路論壇中的熱點話題。本發明考慮了網際網路論壇的網絡結構，考慮了網際網路論壇中用戶的重要性，能夠迅速的判斷網際網路論壇中的敏感性和爭議性熱點話題，減小了計算量。文檔編號G06F17/30GK101393566SQ20081022680公開日2009年3月25日申請日期2008年11月17日優先權日2008年11月17日發明者飛丁,雲劉,司夏萌,立張,張振江,張海峰,朱國東,勇李,波沈,輝程,凡賈申請人:北京交通大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於網絡結構用戶行為模式的信息跟蹤與檢測方法及系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法