新四季網

一種基於非負矩陣分解的事件分析方法與系統的製作方法

2023-07-13 08:22:31

一種基於非負矩陣分解的事件分析方法與系統的製作方法
【專利摘要】本發明提供一種基於非負矩陣分解的事件分析方法與系統,該方法包括:獲取包括至少一個數據文本的待處理數據;分別對每個數據文本進行分詞處理,得到與待處理數據對應的文本空間矩陣;對文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定待處理數據中包含的各個事件以及分別用於描述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與各個事件對應的數據文本。通過構造待處理數據的文本空間矩陣,並對該文本空間矩陣進行非負矩陣分解,從而將一個規模龐大的矩陣分解成為兩個規模較小的矩陣,並且保證分解前後矩陣元素的非負性,在保證事件挖掘結果的準確性的同時,通過降維找到待處理數據中包含的事件,計算簡便,可擴展性較好。
【專利說明】—種基於非負矩陣分解的事件分析方法與系統

【技術領域】
[0001]本發明屬於數據挖掘【技術領域】,尤其是涉及一種基於非負矩陣分解的事件分析方法與系統。

【背景技術】
[0002]隨著網際網路技術的蓬勃發展,越來越多的用戶通過比如論壇、微博等社交網絡平臺來發布各種新聞或者發表個人對一些社會現象的意見,從而導致網際網路上的各種數據信息也呈現出爆炸式增長,如何對海量的數據信息進行有效的事件挖掘是各搜尋引擎一個主要研究的問題。
[0003]現有的一種數據挖掘的方式是採用層次式的聚類方式,對給定數據對象集合進行層次的分解,直到某種截止條件滿足為止。具體又可分為:凝聚的層次聚類:一種自底向上的策略,首先將每個數據對象作為一個原子簇,然後以數據對象間的相似性為依據合併這些原子簇為越來越大的簇,直到某個截止條件被滿足。分裂的層次聚類:採用自頂向下的策略,它首先將所有數據對象置於一個簇中,然後逐漸細分為越來越小的簇,直到達到了某個截止條件。
[0004]但是,由於層次聚類的方式本身的特性決定了其具有較高的計算複雜度,使得可擴展性受限,不適於應用在海量數據的事件挖掘中。


【發明內容】

[0005]針對上述存在的問題,本發明提供一種基於非負矩陣分解的事件分析方法與系統,用以克服現有技術中的層次聚類方式導致較高的計算複雜度和較差的可擴展性的缺陷。
[0006]本發明提供了一種基於非負矩陣分解的事件分析方法,包括:
[0007]獲取待處理數據,所述待處理數據中包括至少一個數據文本;
[0008]分別對所述至少一個數據文本中的每個數據文本進行分詞處理,得到與所述待處理數據對應的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數據文本中所包含的詞語信息;
[0009]對所述文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本。
[0010]本發明提供了一種基於非負矩陣分解的事件分析系統,包括:
[0011]獲取模塊,用於獲取待處理數據,所述待處理數據中包括至少一個數據文本;
[0012]處理模塊,用於分別對所述至少一個數據文本中的每個數據文本進行分詞處理,得到與所述待處理數據對應的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數據文本中所包含的詞語信息;
[0013]計算模塊,用於對所述文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本。
[0014]本發明提供的基於非負矩陣分解的事件分析方法與系統,在獲取到包含多個數據文本的待處理數據後,以詞語為單位,對該多個數據文本分別進行分詞處理,從而得到用於描述該待處理數據中包含的多個數據文件信息以及該多個數據文件信息中包含的所有詞語的文本空間矩陣。進而,在該文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣得到待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與每個事件對應的數據文本,即包含該事件的數據文本。通過構造待處理數據的文本空間矩陣,並對該文本空間矩陣進行非負矩陣分解,從而將一個規模龐大的矩陣分解成為兩個規模較小的矩陣,並且保證分解前後矩陣元素的非負性,即在分解前後同一位置上的元素為正數,在保證事件挖掘結果的準確性的同時,通過降維找到待處理數據中包含的事件,計算簡便,可擴展性較好。

【專利附圖】

【附圖說明】
[0015]圖1為本發明基於非負矩陣分解的事件分析方法實施例一的流程圖;
[0016]圖2為本發明基於非負矩陣分解的事件分析方法實施例二的流程圖;
[0017]圖3為本發明基於非負矩陣分解的事件分析系統實施例一的結構示意圖;
[0018]圖4為本發明基於非負矩陣分解的事件分析系統實施例二的結構示意圖。

【具體實施方式】
[0019]圖1為本發明基於非負矩陣分解的事件分析方法實施例一的流程圖,如圖1所示,該方法包括:
[0020]步驟101、獲取待處理數據,所述待處理數據中包括至少一個數據文本;
[0021]步驟102、分別對所述至少一個數據文本中的每個數據文本進行分詞處理,得到與所述待處理數據對應的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數據文本中所包含的詞語信息;
[0022]步驟103、對所述文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本。
[0023]本實施例提供的所述方法可以適用於對網際網路上的各種應用所產生的海量數據進行事件挖掘處理,尤其適用於諸如微博、論壇等社交網絡,該方法可以由一處理設備來執行,該處理設備例如可以為某中應用的管理平臺。
[0024]以微博為例,每天都會有大量的各種各樣的數據信息在微博上進行傳播,為了便於廣大普遍用戶能夠在海量的微博數據中快速有效地搜索到自身需要的信息,或者為了使普通用戶、政府機構等用戶能夠及時獲知社會熱點,都需要對海量的微博數據進行事件挖掘。值得說明的是,本實施例中主要是針對文本類型的數據信息進行處理,稱之為數據文本。而且,本實施例中所述的事件,並非一般意義上的某件完整的事情或新聞,而是指用一些關鍵詞表徵的詞語集合,一個事件中包含的關鍵詞往往具有一定的關聯,比如這些關鍵詞同時在很多條數據文本中都同時出現過,因此,這些關鍵詞也一定程度上反映了當前微博中的關注熱點。
[0025]具體來說,當處理設備獲得了比如某一天的微博數據即待處理數據後,對該待處理數據中包含的每個數據文本進行分詞處理,比如採用現有的NLPIR漢語分詞系統對每個數據文件進行分詞處理,從而將每個數據文本按照詞語為單位進行劃分,得到每個數據文本中包含的各個詞語。通過對待處理數據中的每個數據文本都進行分詞處理,從而能夠得到待處理數據中包含的所有詞語,從而構造由待處理數據中的所有數據文本和所有詞語組成的文本空間矩陣,該矩陣中的每個列向量表示的是該列向量對應的數據文本中所包含的各個詞語。
[0026]進而,對該文本空間矩陣進行非負矩陣分解,其中,非負矩陣分解是現有技術中的現有矩陣分解方法,不做贅述。非負矩陣分解的結果是得到兩個矩陣,分別為基矩陣和係數矩陣。值得說明的是,由於文本空間矩陣是一個規模龐大的矩陣,直接對該矩陣進行處理將會導致非常大的運算量,而將其分解為兩個較小的矩陣,使得基於該兩個較小的矩陣進行的處理的運算量大大降低。而且,非負矩陣分解得到的基矩陣和係數矩陣的乘積是該文本空間矩陣的近似表達,分解的結果保證了在同一位置上的元素,在分解前後的誤差值為正數,從而使分解後的元素具有與分解前該元素基本等同的表達。從而,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本。也就是說,分解得到的基矩陣中列向量的個數為該待處理數據中包含的事件的個數,而每個列向量中包含的各個詞語即構成該事件的關鍵詞;係數矩陣中的每個行向量表徵了一個事件,該行向量中的各個數據文本表示了包含對應的該事件即該事件中各關鍵詞的數據文本集合。因此,通過基矩陣和係數矩陣可以獲知待處理數據中包含了多少事件,每個事件中包含的關鍵詞是什麼,以及分別包含每個事件的關鍵詞的數據文本有哪些。
[0027]本實施例中,在獲取到包含多個數據文本的待處理數據後,以詞語為單位,對該多個數據文本分別進行分詞處理,從而得到用於描述該待處理數據中包含的多個數據文件信息以及該多個數據文件信息中包含的所有詞語的文本空間矩陣。進而,在該文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣得到待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與每個事件對應的數據文本,即包含該事件的數據文本。通過構造待處理數據的文本空間矩陣,並對該文本空間矩陣進行非負矩陣分解,從而將一個規模龐大的矩陣分解成為兩個規模較小的矩陣,並且保證分解前後矩陣元素的非負性,即分解得到的兩個矩陣中每一個元素都是非負值,在保證事件挖掘結果的準確性的同時,將大矩陣轉變為兩個小矩陣,通過降維找到待處理數據中包含的事件,計算簡便,可擴展性較好。
[0028]圖2為本發明基於非負矩陣分解的事件分析方法實施例二的流程圖,如圖2所示,本實施例提供的所述方法包括如下步驟:
[0029]步驟201、獲取待處理數據,所述待處理數據中包括至少一個數據文本;
[0030]步驟202、對所述每個數據文本進行語義解析,確定所述每個數據文本中包含的名詞和動詞;
[0031]步驟203、對確定出的所述名詞和動詞進行標註,並根據如下公式確定每個所述名詞和動詞的權重值,得到與所述待處理數據對應的文本空間矩陣Amxn:
[0032]R(w) = (w在所述M個詞語中的出現次數)Xlog(數據文本總數N/包含w的數據文本數量)。
[0033]其中,w為任一個所述名詞或動詞,R(W)為w的權重值
[0034]本實施例中,對待處理數據中的每個數據文件進行語義解析,以確定每個數據文本中包含了哪些詞語,由於每個數據文本中包含的詞語種類眾多,其中比如會有些諸如「了」、「的」等沒有實際意義的詞語,統稱為虛詞,也會存在比如「城管」、「襲擊」等具有實際意義的名詞或者動詞,因此,為了區別不同詞語在每個數據文本中的重要性,在對每個數據文本進行語義解析之後,選擇出該數據文本中包含的名詞和動詞,並為這些名詞和動詞賦值較高的權重值,而為虛詞賦值較低的權重值。其中,可以根據每個名詞和動詞的在待處理數據中的出現次數分別確定每個名詞和動詞的權重值
[0035]步驟204、對所述文本空間矩陣Amxn進行非負矩陣分解,得到基矩陣WMXK,和係數矩陣Hkxn,所述K為所述待處理數據中包含的事件總數;
[0036]步驟205、確定所述基矩陣Wmxk中的每個列向量表徵一個第一事件,每個列向量中包含的目標詞語為描述對應的第一事件的關鍵詞,所述目標詞語為所述列向量包含的詞語中權重值由大到小排列排在前面的第一預設數量的名詞和動詞;
[0037]步驟206、確定所述係數矩陣Hkxn中的每個行向量表徵一個第二事件,每個行向量中所包含的數據文本為與所述行向量表徵的第二事件對應的數據文本。
[0038]在對每個數據文本中包含的名詞和動詞賦值較高權重值的情況下,在對文本空間矩陣進行非負矩陣分解後,基矩陣中每個列向量中包含的詞語便是具有不同權重值的詞語,這些詞語中既有較高權重值的名詞和動詞,也有較低權重值的虛詞,可選的,可以確定這些較高權重值即權重值大於一定閾值的名詞和動詞作為該列向量對應的事件的關鍵詞。但是,很有可能這些名詞和動詞的數量仍舊比較大,如果需要將事件挖掘的結果進行呈現,將如此數量的關鍵詞進行呈現將導致較低的用戶體驗。因此,本實施例中,對基矩陣中每個列向量中包含的詞語按照權重值由大到小的順序進行排列,選取排在前面的預設數量的詞語作為其對應的事件的關鍵詞。值得說明的是,從大到小的排列順序僅是一種舉例,還可以從小到大排序,相應的,選擇排在後面的預設數據的詞語。
[0039]步驟207、分別以所述各個事件中的每個事件作為待處理事件,從所述待處理事件對應的關鍵詞中選取第二預設數量的關鍵詞作為所述待處理事件的標識,確定所述待處理事件對應的數據文本的數量佔所述待處理數據的數據文本總數的比例;
[0040]步驟208、根據所述標識和所述比例,採用如下呈現方式中的任一種方式呈現所述待處理事件:表格、餅狀圖、柱狀圖、折線圖、詞雲。
[0041]本實施例中,為了方便不同用戶能夠直觀地了解事件挖掘的結果,S卩比較直觀地了解到當前微博中的關注熱點,可以將事件挖掘的結果進行可視化呈現。為此,需要對事件挖掘結果進行簡單的分析或處理,比如:為了保證可視化效果,可以針對每個事件,從該事件包含的關鍵詞中進一步再選取一定數量的關鍵詞作為該事件的標識。作為事件標識的關鍵詞既可以在該事件的關鍵詞中隨機選取,也可以按照各關鍵詞的權重值來選取權重值較大的。再比如:為了更直觀地了解每個事件在待處理數據中的重要程度或者關注熱度,可以統計確定每個事件對應的數據文本佔待處理數據的數據文本總數的比例。
[0042]進而,根據上述標識和所述比例,採用如下呈現方式中的任一種方式呈現所述待處理事件:表格、餅狀圖、柱狀圖、折線圖、詞雲。比如:表格中可以顯示每個事件的標識,對應的數據文本數量,以及對應的數據文本所佔比例;詞雲中可以根據不同事件的數據文本所佔比例的大小來確定每個事件的標識將被顯示的字體大小,等等。
[0043]圖3為本發明基於非負矩陣分解的事件分析系統實施例一的結構示意圖,如圖3所示,該系統包括:
[0044]獲取模塊11,用於獲取待處理數據,所述待處理數據中包括至少一個數據文本;
[0045]處理模塊12,用於分別對所述至少一個數據文本中的每個數據文本進行分詞處理,得到與所述待處理數據對應的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數據文本中所包含的詞語信息;
[0046]計算模塊13,用於對所述文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本。
[0047]本實施例的系統可以用於執行圖1所示方法實施例的技術方案,其實現原理和技術效果類似,此處不再贅述。
[0048]圖4為本發明基於非負矩陣分解的事件分析系統實施例二的結構示意圖,如圖4所示,本實施例提供的所述系統在圖3所示實施例的基礎上,所述待處理數據中包括N個數據文本,所述N個數據文本中包含的詞語總數為M,所述文本空間矩陣Amxn為MXN維矩陣,所述N的取值為大於或等於I的整數;
[0049]所述計算模塊13,包括:
[0050]計算單元131,用於對所述文本空間矩陣Amxn進行非負矩陣分解,得到基矩陣Wmxk,和係數矩陣Hkxn,所述K為所述待處理數據中包含的事件總數;
[0051]確定單元132,用於確定所述基矩陣Wmxk中的每個列向量表徵一個第一事件,每個列向量中包含的詞語為描述對應的第一事件的關鍵詞;
[0052]所述確定單元132,還用於確定所述係數矩陣Hkxn中的每個行向量表徵一個第二事件,每個行向量中所包含的數據文本為與所述行向量表徵的第二事件對應的數據文本。
[0053]進一步地,所述處理模塊12,包括:
[0054]解析單元121,用於對所述每個數據文本進行語義解析,確定所述每個數據文本中包含的名詞和動詞;
[0055]標記單元122,用於對確定出的所述名詞和動詞進行標註,並根據如下公式確定每個所述名詞和動詞的權重值:
[0056]R(w) = (w在所述M個詞語中的出現次數)Xlog(數據文本總數N/包含w的數據文本數量);
[0057]其中,w為任一個所述名詞或動詞,R(W)為w的權重值。
[0058]具體地,所述確定單元132,具體用於:
[0059]確定所述基矩陣Wmxk中的每個列向量表徵一個第一事件,每個列向量中包含的目標詞語為描述對應的第一事件的關鍵詞,所述目標詞語為所述列向量包含的詞語中權重值由大到小排列排在前面的第一預設數量的名詞和動詞。
[0060]進一步地,所述系統還包括:
[0061]分析模塊21,用於分別以所述各個事件中的每個事件作為待處理事件,從所述待處理事件對應的關鍵詞中選取第二預設數量的關鍵詞作為所述待處理事件的標識;
[0062]所述分析模塊21,還用於確定所述待處理事件對應的數據文本的數量佔所述待處理數據的數據文本總數的比例;
[0063]呈現模塊22,用於根據所述標識和所述比例,採用如下呈現方式中的任一種方式呈現所述待處理事件:
[0064]表格、餅狀圖、柱狀圖、折線圖、詞雲。
[0065]本實施例的系統可以用於執行圖2所不方法實施例的技術方案,其實現原理和技術效果類似,此處不再贅述。
[0066]本領域普通技術人員可以理解:實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬體來完成,前述的程序可以存儲於一計算機可讀取存儲介質中,該程序在執行時,執行包括上述方法實施例的步驟;而前述的存儲介質包括:R0M、RAM、磁碟或者光碟等各種可以存儲程序代碼的介質。
[0067]最後應說明的是:以上各實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述各實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的範圍。
【權利要求】
1.一種基於非負矩陣分解的事件分析方法,其特徵在於,包括: 獲取待處理數據,所述待處理數據中包括至少一個數據文本; 分別對所述至少一個數據文本中的每個數據文本進行分詞處理,得到與所述待處理數據對應的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數據文本中所包含的詞語信息; 對所述文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本。
2.根據權利要求1所述的方法,其特徵在於,所述待處理數據中包括N個數據文本,所述N個數據文本中包含的詞語總數為M,所述文本空間矩陣Amxn為MXN維矩陣,所述N的取值為大於或等於I的整數; 所述對所述文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本,包括: 對所述文本空間矩陣Amxn進行非負矩陣分解,得到基矩陣WMXK,和係數矩陣Hkxn,所述K為所述待處理數據中包含的事件總數; 確定所述基矩陣Wmxk中的每個列向量表徵一個第一事件,每個列向量中包含的詞語為描述對應的第一事件的關鍵詞; 確定所述係數矩陣Hkxn中的每個行向量表徵一個第二事件,每個行向量中所包含的數據文本為與所述行向量表徵的第二事件對應的數據文本。
3.根據權利要求2所述的方法,其特徵在於,所述分別對所述至少一個數據文本中的每個數據文本進行分詞處理,包括: 對所述每個數據文本進行語義解析,確定所述每個數據文本中包含的名詞和動詞; 對確定出的所述名詞和動詞進行標註,並根據如下公式確定每個所述名詞和動詞的權重值: R(w) = (w在所述M個詞語中的出現次數)Xlog(數據文本總數N/包含w的數據文本數量); 其中,w為任一個所述名詞或動詞,R(W)為w的權重值。
4.根據權利要求3所述的方法,其特徵在於,所述確定所述基矩陣Wmxk中的每個列向量表徵一個第一事件,每個列向量中包含的詞語為描述對應的第一事件的關鍵詞,包括: 確定所述基矩陣Wmxk中的每個列向量表徵一個第一事件,每個列向量中包含的目標詞語為描述對應的第一事件的關鍵詞,所述目標詞語為所述列向量包含的詞語中權重值由大到小排列排在前面的第一預設數量的名詞和動詞。
5.根據權利要求1至4中任一項所述的方法,其特徵在於,所述對所述文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本之後,還包括: 分別以所述各個事件中的每個事件作為待處理事件,從所述待處理事件對應的關鍵詞中選取第二預設數量的關鍵詞作為所述待處理事件的標識; 確定所述待處理事件對應的數據文本的數量佔所述待處理數據的數據文本總數的比例; 根據所述標識和所述比例,採用如下呈現方式中的任一種方式呈現所述待處理事件: 表格、餅狀圖、柱狀圖、折線圖、詞雲。
6.一種基於非負矩陣分解的事件分析系統,其特徵在於,包括: 獲取模塊,用於獲取待處理數據,所述待處理數據中包括至少一個數據文本; 處理模塊,用於分別對所述至少一個數據文本中的每個數據文本進行分詞處理,得到與所述待處理數據對應的文本空間矩陣,所述文本空間矩陣描述了所述至少一個數據文本中所包含的詞語信息; 計算模塊,用於對所述文本空間矩陣進行非負矩陣分解,根據分解得到的基矩陣確定所述待處理數據中包含的各個事件以及分別用於描述所述各個事件的關鍵詞,並根據分解得到的係數矩陣確定分別與所述各個事件對應的數據文本。
7.根據權利要求6所述的系統,其特徵在於,所述待處理數據中包括N個數據文本,所述N個數據文本中包含的詞語總數為M,所述文本空間矩陣Amxn為MXN維矩陣,所述N的取值為大於或等於I的整數; 所述計算模塊,包括: 計算單元,用於對所述文本空間矩陣Amxn進行非負矩陣分解,得到基矩陣WMXK,和係數矩陣Hkxn,所述K為所述待處理數據中包含的事件總數; 確定單元,用於確定所述基矩陣Wmxk中的每個列向量表徵一個第一事件,每個列向量中包含的詞語為描述對應的第一事件的關鍵詞; 所述確定單元,還用於確定所述係數矩陣Hkxn中的每個行向量表徵一個第二事件,每個行向量中所包含的數據文本為與所述行向量表徵的第二事件對應的數據文本。
8.根據權利要求7所述的系統,其特徵在於,所述處理模塊,包括: 解析單元,用於對所述每個數據文本進行語義解析,確定所述每個數據文本中包含的名詞和動詞; 標記單元,用於對確定出的所述名詞和動詞進行標註,並根據如下公式確定每個所述名詞和動詞的權重值: R(w) = (w在所述M個詞語中的出現次數)Xlog(數據文本總數N/包含w的數據文本數量); 其中,w為任一個所述名詞或動詞,R(W)為w的權重值。
9.根據權利要求8所述的系統,其特徵在於,所述確定單元,具體用於: 確定所述基矩陣Wmxk中的每個列向量表徵一個第一事件,每個列向量中包含的目標詞語為描述對應的第一事件的關鍵詞,所述目標詞語為所述列向量包含的詞語中權重值由大到小排列排在前面的第一預設數量的名詞和動詞。
10.根據權利要求6至9中任一項所述的系統,其特徵在於,還包括: 分析模塊,用於分別以所述各個事件中的每個事件作為待處理事件,從所述待處理事件對應的關鍵詞中選取第二預設數量的關鍵詞作為所述待處理事件的標識; 所述分析模塊,還用於確定所述待處理事件對應的數據文本的數量佔所述待處理數據的數據文本總數的比例; 呈現模塊,用於根據所述標識和所述比例,採用如下呈現方式中的任一種方式呈現所述待處理事件: 表格、餅狀圖、柱狀圖、折線圖、詞雲。
【文檔編號】G06F17/30GK104281663SQ201410495959
【公開日】2015年1月14日 申請日期:2014年9月24日 優先權日:2014年9月24日
【發明者】張日崇, 邰振贏, 於偉仁, 劉俊偉, 李建欣 申請人:北京航空航天大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀