一種恐怖組織網絡挖掘算法的製作方法
2023-05-31 09:39:46 1

本發明涉及計算機網絡技術領域,具體涉及一種基於隨機集證據推理改進拓撲勢的恐怖組織網絡挖掘算法。
背景技術:
「9.11」事件後,恐怖主義成為全球關注的一個熱點問題。而隨著網際網路和web2.0技術的深入應用,使得即使分散在全球各地素未謀面的恐怖分子也可藉此聯繫起來,組建成隱蔽於網絡空間的「黑暗網絡」——恐怖組織網絡。
對於恐怖組織網絡已有部分研究成果。李本先等基於已知的恐怖分子個體及組織,分析其從個體到群體、群體到網絡的發展過程,構建了恐怖組織群體網絡模型;許晴等利用複雜網絡分析方法及1998-2004年間世界範圍內發生的3411起恐怖事件,構建了恐怖組織網絡,得出其符合小世界網絡特徵的結論;孫海等總結了社會網絡分析在描述恐怖分子靜態網絡特徵、定位關鍵人物方面的基本方法,運用等價性分析從整體結構上評估恐怖組織隱蔽網絡,對網絡作基於人際交互流向的指揮控制結構脆弱性分析,利用網絡中心度量化及派系參與分析方法找出網絡中的核心人物。付舉磊等利用網絡爬蟲從全球資訊網中獲取相關文本數據,採用文本分析方法從這些數據中抽取某組織分裂活動中涉及的人員、組織、時間和地點四要素,依據概念之間的關聯關係構建恐怖組織多模元網絡。宋楠等基於ba無標度網絡模型,考慮隨機和擇優兩種策略,模擬恐怖信息在網絡中的傳播和政府的幹預措施,以研究恐怖信息傳播的影響因素和政府的最優應對策略。
但上述研究成果均未從預警的角度挖掘藏匿於網際網路中的恐怖組織網絡。有鑑於恐怖分子在網際網路上的一切活動都會留下蛛絲馬跡,因而,從網際網路中挖掘出恐怖分子的隨機動態信息,進而挖掘出恐怖組織網絡,已成為反恐預警領域全新的研究方向。
技術實現要素:
針對現有技術存在的上述問題,本發明的目的是提供一種恐怖組織網絡挖掘算法。
為實現上述目的,本發明採用如下技術方案:一種恐怖組織網絡挖掘算法,
包括如下步驟:
s1:構建嫌疑節點聯繫網絡,並記為g=(v,e),其中v={v1,v2,...,vi,...,vn}代表與嫌疑節點有聯繫的節點集,e代表節點之間有聯繫的邊集,|e|=k;
n表示與嫌疑節點有聯繫的節點的數量,k表示邊的數目;
s2:計算嫌疑節點聯繫網絡g=(v,e)中各點的威脅度度量值;
1)設嫌疑節點vi的威脅度屬性集為xi,i=1,2,...n,其中,q表示嫌疑節點威脅度屬性的個數;
2)令i=1;
3)按照公式(3)構造嫌疑節點vi各威脅度屬性質量函數;
其中,α為經驗值;
4)按公式(2)計算嫌疑節點vi各威脅度屬性權值;
其中m∈[0,1](2);
其中,uij為各威脅度屬性的信息熵歸一化處理得到的權,為威脅度屬性集xi,i=1,2,...n的信息熵,為嫌疑節點vi的屬性j的質量函數;
5)按公式(4)合成嫌疑節點vi的威脅度度量值,並輸出;
6)令i=i+1;
7)如果i>q,在執行下一步,否則返回3);
s3:用公式(6)計算嫌疑節點聯繫網絡g=(v,e)中各節點的拓撲勢;
其中h∈[1,h](6);
其中是相對節點vi與其網絡距離值小於h的全部節點所構成的網絡子圖所形成的節點vi的拓撲勢值,h是嫌疑節點聯繫網絡中任意兩節點間距離的最大值,取mi是節點vi的威脅度度量值,d表示與節點vi網絡距離為d的節點距離vi的位置;
s4:採用快速排序法對步驟s3計算得到的各節點的拓撲勢進行排序,找出局部極大勢值節點;
s5:以各拓撲勢較高者為中心節點,輸出恐怖組織網絡n1,n2,…,nt。
作為優化,所述q=5。
作為優化,所述表示節點vi往來電子郵件內容數據,表示節點vi發布的社交媒體數據,表示節點vi發布的文檔內容數據,表示節點vi的點擊流數據,表示節點vi的網絡流量數據。
作為優化,所述步驟s2公式(3)的中α取2.34。
相對於現有技術,本發明至少具有如下優點:
本發明方法引入隨機集來描述恐怖分子嫌疑人散落於網際網路的多源動態信息,並計算其威脅度,構建聯繫網絡,以此為基礎改進拓撲勢,計算各嫌疑人的拓撲勢值,將恐怖組織重要成員視為拓撲勢場的局部高勢區,進而得到恐怖組織網絡中的重要成員及網絡結構。採用真實數據測試本文方法的有效性,實驗結果顯示,該方法較之以往以節點度數為指標判斷恐怖組織網絡節點重要性的方法,更能有效地挖掘恐怖組織網絡及其中的重要節點(組織、人物),揭示各恐怖組織間內在的網絡結構。
附圖說明
圖1為嫌疑節點聯繫網絡圖。
圖2為驗證實驗中嫌疑恐怖組織網絡結構圖。
圖3為usa某次爆炸案恐怖組織網絡結構圖。
圖4為gtd恐怖組織網絡結構全貌圖。
具體實施方式
下面對本發明作進一步詳細說明。
隨機集證據推理具有較強的處理動態不確定信息的能力。其處理問題方法的最大特點是:保留所有已知信息,直接參與定量運算,可使積累誤差減到最小。而且,除了原始數據以外,沒有任何人為假定,可最大程度地忠實於所給出的信息。因而成為分析恐怖組織網絡隨機動態信息的有力工具。拓撲勢的概念是基於認知物理學中數據場理論提出的。拓撲勢的大小描述了網絡拓撲中的某個節點受自身和近鄰節點共同影響所具有的勢值,並可刻畫其對其他節點的影響能力。拓撲勢作為網絡信息挖掘的有力工具,在複雜網絡分析、網絡社區發現、網絡骨幹節點挖掘、網絡節點重要性排序等方面已有不凡的建樹。拓撲勢為我們提供了一種客觀的度量恐怖分子及其網絡的方法。
本發明從恐怖分子藉助網絡傳播信息、編織網絡的動態特性出發,基於隨機集證據推理建立嫌疑人威脅度分析模型並改進拓撲勢,研究其與之聯繫的人員特性,提出基於網際網路的恐怖組織網絡挖掘算法,以達到挖掘隱匿於網際網路的恐怖組織網絡,對可能發生的暴恐事件進行預警的目的。
為描述恐怖組織網絡中節點的威脅度,基於網絡開源數據挖掘嫌疑目標節點的多種動態多源數據進行融合,作為描述節點威脅度的度量。
由於嫌疑目標發布多種動態多源數據具有很大的動態性和不確定性,並可能採用暗語進行消息傳遞,因而單憑少數幾次監測很難判斷出其威脅度。隨機集證據推理具有較強的處理動態不確定性的能力。故本發明採用隨機集證據推理理論建立嫌疑節點威脅度分析模型。
在研究嫌疑節點某一屬性某一觀測集中的觀測值分布區間上插入n個分點a1,a2,…an,當屬性值從al增大到al+1時,屬性的l狀態程度逐漸減弱,到al+1時l狀態程度減為0;與此同時,當al增至al+1時屬性值的l+1狀態程度由0增至1。針對人類行為的統計特徵,本發明採用冪律分布構造質量函數,參見公式(3)。
一種恐怖組織網絡挖掘算法,包括如下步驟:
s1:構建嫌疑節點聯繫網絡,並記為g=(v,e),其中v={v1,v2,...,vi,...,vn}代表與嫌疑節點有聯繫的節點集,e代表節點之間有聯繫的邊集,|e|=k;
n表示與嫌疑節點有聯繫的節點的數量,k表示邊的數目;
例如:如嫌疑節點v1與v2、v4、v3有聯繫則連邊,而v3又與v5、v6有聯繫,連邊。構造聯繫網絡如圖1所示。且節點v2、v3、v4、v5、v6亦被視為嫌疑節點,參見圖1。對於圖1中各節點間的網絡距離,我們規定為節點間的跳數。如:v2、v4與v1的距離均為1,而v5與v4間的距離為3。
s2:計算嫌疑節點聯繫網絡g=(v,e)中各點的威脅度度量值;
1)設嫌疑節點vi的威脅度屬性集為xi,i=1,2,...n,其中,q表示嫌疑節點威脅度屬性的個數;
2)令i=1;
3)按照公式(3)構造嫌疑節點vi各威脅度屬性質量函數;
其中,α為經驗值,實施時可以取2.34;
4)按公式(2)計算嫌疑節點vi各威脅度屬性權值;
其中m∈[0,1](2);
其中,uij為各威脅度屬性的信息熵歸一化處理得到的權,為威脅度屬性集xi,i=1,2,...n的信息熵,為嫌疑節點vi的屬性j的質量函數;
5)按公式(4)合成嫌疑節點vi的威脅度度量值,並輸出;
6)令i=i+1;
7)如果i>q,在執行下一步,否則返回3);
s3:用公式(6)計算嫌疑節點聯繫網絡g=(v,e)中各節點的拓撲勢;
其中h∈[1,h](6);
其中是相對節點vi與其網絡距離值小於h的全部節點所構成的網絡子圖所形成的節點vi的拓撲勢值,h是嫌疑節點聯繫網絡中任意兩節點間距離的最大值,其中是聯繫網絡中節點va與節點vb之間的距離。根據高斯函數的數學性質,取mi是節點vi的威脅度度量值,d表示與節點vi網絡距離為d的節點距離vi的位置;
s4:採用快速排序法對步驟s3計算得到的各節點的拓撲勢進行排序,找出局部極大勢值節點;
s5:以各拓撲勢較高者為中心節點,輸出恐怖組織網絡n1,n2,…,nt。
作為優選,q=5,所述表示節點vi往來電子郵件內容數據,表示節點vi發布的社交媒體數據,表示節點vi發布的文檔內容數據,表示節點vi的點擊流數據,表示節點vi的網絡流量數據。
驗證實驗
為驗證本算法的有效性,本發明首先採用爬蟲軟體獲取的某恐怖分子嫌疑人員(標記為節點1)的電子郵件、社交媒體數據、發布文檔、音頻、點擊流及網絡流量數據,於3天內進行了30次觀測,得到其威脅度觀測隨機集,運用算法a得到其威脅度。同時,在觀測過程中發現與其聯繫的其餘人員(共16人),以相同方法得到其餘人員威脅度,如表1所示。
然後,建立16個節點的聯繫網絡圖,並運用算法b挖掘其聯繫網絡的重要節點及次重要節點,並得到該網絡構造全圖。實驗結果如下:
表1:嫌疑節點威脅度度量值
表2:嫌疑節點拓撲勢值
繪製嫌疑恐怖組織網絡結構圖。繪圖時,嫌疑節點用小圓圈表示,其半徑由拓撲勢值決定。圓圈的半徑計算方法如下:
其中,取base=0.01,α=0.5
由圖2可見,節點10的拓撲勢最大,且度數為9,顯然標記為節點10的嫌疑人在本聯繫網絡中佔有舉足輕重的位置,應重點關注;而節點3、4拓撲勢也較大,度數分別為5和4,可見其也成為了2個相對獨立的聯繫子網,故也應重點關注其動向;節點1,2雖然度數較小,但拓撲勢相對較大,在後續監視中也不應忽視。
實證分析
(1)usa某次爆炸案
以usa某次恐怖爆炸事件的資料為原始數據,分析該恐怖組織中各個成員及其相互關係。該恐怖組織中有16個成員,分別將其編號為1~16。
表3:usa某次爆炸案各節點威脅度及拓撲勢值
繪圖時方法如前所述。
由圖3可見,節點11雖然度數較小,但拓撲勢值最高,顯示其為整個恐怖事件的策劃者和指揮者。現實世界中,成員11正是整個恐怖活動的策劃者和總指揮,這與實際情況下恐怖組織領導人物與其餘人員儘量單線聯繫情況吻合;同樣,成員14的拓撲勢值排第二,事實上,他也是最後恐怖行動的直接實施者,在原始數據裡,同樣可以看到,他所擁有的資源和任務是最多的,所以在對恐怖活動的預防和打擊中,他應該是重中之重。拓撲勢值排第三的成員15,在現實世界中負責為整個活動提供情報來源,為行動人員提供各種輔助服務等,所以在整個組織中應該屬於較為重要的成員。
值得重視的是,度數最高的成員8其拓撲勢值僅排在第12位,這與其在現實中,他既非恐怖活動的指揮者,也非恐怖活動的直接操作者,僅僅是一個普通的行動者相吻合。故按節點度數來判斷恐怖組織網絡中成員的威脅度是片面的,進一步證明了採用改進拓撲勢挖掘恐怖組織網絡中的重要人物的科學性、客觀性。
(2)globalterrorismdatabase實證研究
本文從gtd資料庫中,抽取2006年到2016年十年間的恐怖事件。全球恐怖襲擊事件記錄共77522條,其中,恐怖襲擊事件兇手為unknown的有43623條,恐怖襲擊事件兇手為某恐怖組織的有254條,恐怖襲擊事件兇手為other的有181條,其餘33464條記錄的兇手為團夥組織。這33464條恐怖襲擊事件記錄涉及到的恐怖組織共有969個。將969個恐怖組織編為1-969號節點。
聯繫網絡構建方法:
(1)節點集:對於969個恐怖組織,每個恐怖組織用一個節點來表示,全球共969個節點。
(2)邊集:
如果節點a與節點b都參與了同一個恐怖襲擊事件,則a與b之間連邊,網絡距離為1;
如果節點a與節點b沒有參與過同一個恐怖襲擊事件,但是都襲擊過的相同國家,則a與b之間連邊,網絡距離為2。
表4:969個節點中拓撲勢值排名前50位的節點
969個節點中,度數為0的節點(即孤立節點)有640個。圖4中的下半部分即為孤立節點,中間部分是最大連通子圖,左側和上側部分是一些較小的連通子圖。
從圖4可以看出:全球恐怖襲擊事件的恐怖組織(969個)中,除去(640)個孤立組織,其餘的組織之間已形成了一個互相連通的網絡。如拓撲勢值位於第16位的節點837位於第22位的節點753,位於第23位的節點136,位於第39位的節點717,等等對於聯通整個恐怖組織網絡具有重要作用。
同時,網絡中具有多個重要節點的特徵。如拓撲勢值排前4位的節點的恐怖組織已成為全球恐怖組織網絡的中心,即全球恐怖活動的幕後黑手,這與全球恐怖組織的實際情況高度吻合。更為重要的是,上述組織的節點度數排位並不靠前,進一步驗證了按節點度數判斷節點重要性的方法有失片面,而採用本發明提供的方法更具客觀性與科學性。
最後說明的是,以上實施例僅用以說明本發明的技術方案而非限制,儘管參照較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或者等同替換,而不脫離本發明技術方案的宗旨和範圍,其均應涵蓋在本發明的權利要求範圍當中。