新四季網

一種網絡日誌壓縮方法和裝置與流程

2024-02-18 19:06:15


本發明涉及網絡技術領域,特別涉及一種網絡日誌壓縮方法和裝置。



背景技術:

在當前網際網路極度發達的時代,網絡日誌採集與查詢系統具有廣泛的用途。各種IT系統、網絡設備、安全設備都會產生大量的網絡日誌,這些網絡日誌數據的格式往往存在較大差異,網絡日誌採集與查詢系統需要適配大量的非結構化數據,以便進行業務分析。面對海量的非結構化數據,一般會將採集到的網絡日誌進行壓縮存儲,這樣可以有效的節省存儲資源,減少用戶購買存儲設備的成本。

一種常用的網絡日誌壓縮方法為:先將所有採集到的網絡日誌統一進行存儲,然後對存儲後的網絡日誌進行二次壓縮存儲。由於將網絡日誌進行統一存儲後,再進行壓縮處理,最後將得到的壓縮包寫入磁碟進行存儲,即該過程依次包括一次寫、一次讀和一次寫,導致了輸入輸出(Input and Output,簡稱IO)上的浪費;一般情況下,不同的網絡日誌具有的特徵之間存在差異,這些不同的特徵被稱為混雜特徵。在對網絡日誌進行壓縮時,由於存在大量的混雜特徵,網絡日誌之間的相似度較低,導致了壓縮率低。

另一種常用的網絡日誌壓縮方法為:將採集到的所有網絡日誌先統一進行壓縮處理,然後將得到的壓縮包寫入磁碟進行存儲,即該過程包括一次讀和一次寫,雖然減少一次寫,但是由於在壓縮時,仍然存在大量的混雜特徵的欄位數據,導致了壓縮率的低。

再一種常用的網絡日誌壓縮方法為:將採集到的網絡日誌先按照網絡日誌的業務類型進行分類,然後針對每種不同業務類型的網絡日誌分別進行壓縮並 存儲。雖然相比於前兩種壓縮方法提高了壓縮比率,但由於網絡日誌的業務類型較多,對每種業務類型的網絡日誌進行壓縮後存儲,仍需要較大的存儲空間,並且壓縮比率仍然較低。

綜上所述,隨著網絡日誌的數量越來越龐大,採用現有網絡日誌壓縮方法由於壓縮率較低,壓縮後的日誌需要佔用較大的存儲空間。



技術實現要素:

本發明實施例提供了一種網絡日誌壓縮方法和裝置,用於改善現有網絡日誌壓縮方法壓縮率低的問題。

第一方面,一種網絡日誌壓縮方法,所述方法包括:

對採集到的網絡日誌進行解析,確定出所述網絡日誌包含的至少一個特徵;

若已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,其中,所述第一特徵為所述至少一個特徵中用於表示所述網絡日誌的業務類型的特徵,所述第一數據集的業務類型併集為所述第一數據集中的網絡日誌的業務類型的併集,所述網絡日誌的特徵集合為所述網絡日誌的特徵組成的集合,所述第一數據集的特徵集合為所述第一數據集中的所有網絡日誌的特徵的併集;

如果確定出所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度大於設定閾值,將所述網絡日誌歸併至所述第一數據集;如果確定出所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度不大於設定閾值,創建第二數據集,並將所述網絡日誌歸併至所述第二數據集中;

對每個數據集進行壓縮和存儲處理,其中,若所述數據集包括所述第一數據集,則對所述第一數據集進行壓縮和存儲處理;若所述數據集包括所述第一數據集和所述第二數據集,則分別對所述第一數據集和所述第二數據集進行壓縮和存儲處理。

本發明實施例的方法中,在已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵時,根據所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,對所述網絡日誌進行歸類。由於本發明提供的歸併方案中能夠將不同業務類型且相似度高的網絡日誌歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。

可能的實現方式中,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,包括:

確定出第一數值和第二數值,其中,所述第一數值為所述網絡日誌的特徵集合與所述第一數據集的特徵集合的交集中的特徵個數,所述第二數值為所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集中的特徵個數;

根據所述第一數值與所述第二數值,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,其中,所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度為所述第一數值與所述第二數值之比。

可能的實現方式中,將所述網絡日誌歸併至所述第一數據集之後,還包括:

將所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集確定為所述第一數據集的特徵集合。

可能的實現方式中,對每個數據集進行壓縮和存儲處理,包括:

在已存儲的所述網絡日誌的數目達到設定的第一門限值後,對每個所述數據集進行壓縮和存儲處理;或者

在已存儲的所述網絡日誌的數據量之和達到設定的第二門限值後,對每個所述數據集進行壓縮和存儲處理;或者

在設定的壓縮周期到來時,對每個所述數據集進行壓縮和存儲處理。

可能的實現方式中,對每個數據集進行壓縮和存儲處理,包括:

採用列式存儲的方式,對每個所述數據集進行壓縮和存儲處理。由於採用列式存儲的方式進行壓縮和存儲,能夠獲得更高的壓縮比率。

可能的實現方式中,確定出所述網絡日誌包含的至少一個特徵之後,還包括:

根據所述網絡日誌的第一特徵,在確定出所述第一數據集的業務類型併集中包含所述第一特徵時,將所述網絡日誌歸併至包含所述第一數據集。

可能的實現方式中,對每個數據集進行壓縮和存儲處理之後,還包括:

根據設定時間段內採集到的網絡日誌包含的至少一個特徵,形成第三數據集;

若所述第三數據集的業務類型併集為所述第一數據集的業務類型併集的子集,採用所述第三數據集替換所述第一數據集,其中,所述第三數據集的業務類型併集為所述第三數據集中的網絡日誌的業務類型的併集;

若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型併集為所述第二數據集的業務類型併集的子集,採用所述第三數據集替換所述第二數據集。

第二方面,一種網絡日誌壓縮裝置,所述裝置包括:

特徵解析模塊,用於對採集到的網絡日誌進行解析,確定出所述網絡日誌包含的至少一個特徵;

第一處理模塊,用於若已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,其中,所述第一特徵為所述至少一個特徵中用於表示所述網絡日誌的業務類型的特徵,所述第一數據集的業務類型併集為所述第一數據集中的網絡日誌的業務類型的併集,所述網絡日誌的特徵集合為所述網絡日誌的特徵組成的集合,所述第一數據集的特徵集合為所述第一數據集中的所有網絡日誌的特徵的併集;

第二處理模塊,用於如果確定出所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度大於設定閾值,將所述網絡日誌歸併至所述第一數據集;如果確定出所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似 度不大於設定閾值,創建第二數據集,並將所述網絡日誌歸併至所述第二數據集中;

壓縮模塊,用於對每個數據集進行壓縮和存儲處理,其中,若所述數據集包括所述第一數據集,則對所述第一數據集進行壓縮和存儲處理;若所述數據集包括所述第一數據集和所述第二數據集,則分別對所述第一數據集和所述第二數據集進行壓縮和存儲處理。

本發明實施例的裝置中,在已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵時,根據所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,對所述網絡日誌進行歸類。由於本發明提供的歸併方案中能夠將不同業務類型且相似度高的網絡日誌歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。

可能的實現方式中,所述第一處理模塊確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度時,具體用於:

確定出第一數值和第二數值,其中,所述第一數值為所述網絡日誌的特徵集合與所述第一數據集的特徵集合的交集中的特徵個數,所述第二數值為所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集中的特徵個數;

根據所述第一數值與所述第二數值,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,其中,所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度為所述第一數值與所述第二數值之比。

可能的實現方式中,所述第二處理模塊將所述網絡日誌歸併至所述第一數據集之後,還用於:

將所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集確定為所述第一數據集的特徵集合。

可能的實現方式中,所述壓縮模塊對每個所述數據集進行壓縮和存儲處理時,具體用於:

在已存儲的所述網絡日誌的數目達到設定的第一門限值後,對每個所述數 據集進行壓縮和存儲處理;或者

在已存儲的所述網絡日誌的數據量之和達到設定的第二門限值後,對每個所述數據集進行壓縮和存儲處理;或者

在設定的壓縮周期到來時,對每個所述數據集進行壓縮和存儲處理。

可能的實現方式中,所述第一處理模塊還用於:

根據所述網絡日誌的第一特徵,在確定出所述第一數據集的業務類型併集中包含所述第一特徵時,將所述網絡日誌歸併至包含所述第一數據集。

可能的實現方式中,所述裝置還包括:

優化模塊,用於根據設定時間段內採集到的網絡日誌包含的至少一個特徵,形成第三數據集;若所述第三數據集的業務類型併集為所述第一數據集的業務類型併集的子集,採用所述第三數據集替換所述第一數據集,其中,所述第三數據集的業務類型併集為所述第三數據集中的網絡日誌的業務類型的併集;若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型併集為所述第二數據集的業務類型併集的子集,採用所述第三數據集替換所述第二數據集。

第三方面,一種伺服器,包括:處理器、輸入接口、輸出接口、存儲器和系統總線;其中:

在伺服器運行時,處理器讀取存儲器中的程序,並執行上述方法實施例。

存儲器用於存儲所述處理器在執行操作時所使用的數據;

輸入接口用於在所述處理器的控制下讀入數據;

輸出接口在所述處理器的控制下輸出數據。

本發明實施例的伺服器中,在已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵時,根據所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,對所述網絡日誌進行歸類。由於本發明提供的歸併方案中能夠將不同業務類型且相似度高的網絡日誌歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。

附圖說明

圖1為本發明實施例提供的一種網絡日誌壓縮方法的示意圖;

圖2為本發明實施例提供的另一種網絡日誌壓縮方法的示意圖;

圖3為本發明實施例形成的分類樹的示意圖;

圖4為本發明實施例提供的一種網絡日誌壓縮裝置的示意圖;

圖5為本發明實施例提供的另一種網絡日誌壓縮裝置的示意圖;

圖6為本發明實施例提供的伺服器的示意圖。

具體實施方式

下面結合說明書附圖對本發明實施例作進一步詳細描述。應當理解,此處所描述的實施例僅用於說明和解釋本發明,並不用於限定本發明。

本發明實施例提供的一種網絡日誌壓縮方法,如圖1所示,該方法包括:

S11、對採集到的網絡日誌進行解析,確定出所述網絡日誌包含的特徵;

其中,網絡日誌的特徵為網絡日誌中用於存儲不同內容的欄位,例如srcip(源IP),dstip(目的IP),srcport(源埠),dspport(目的埠)等等。

S12、若已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度。

本發明實施例中,所述第一特徵為所述至少一個特徵中用於表示所述網絡日誌的業務類型的特徵。

舉例說明,網絡日誌的第一特徵即為該網絡日誌中的eventType欄位,用於存儲該網絡日誌的業務類型,如入侵防禦系統(Intrusion Prevention System,IPS)業務類型、LOGIN(登錄)業務類型、分布式拒絕服務(Distributed Denial of Service,DDoS)業務類型等。

本發明實施例中,所述第一數據集的業務類型併集為所述第一數據集中的網絡日誌的業務類型的併集。

舉例說明,假設數據集中的網絡日誌1屬於IPS業務類型,網絡日誌2也屬於IPS業務類型,網絡日誌3屬於LOGIN業務類型,網絡日誌4屬於DDoS業務類型,則該數據集對應的業務類型併集為{IPS業務類型,LOGIN業務類型,DDoS業務類型。

本發明實施例中,所述網絡日誌的特徵集合為所述網絡日誌的特徵組成的集合。

本發明實施例中,所述第一數據集的特徵集合為所述第一數據集中的所有網絡日誌的特徵的併集。

舉例說明,假設所述第一數據集中包含兩個網絡日誌,第一個網絡日誌的特徵包括srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe;第二個網絡日誌的特徵包括srcip,dstip,srcport,dspport,username,appname,domain;則所述第一數據集的特徵集合為:

{srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe,appname,domain}。

S13A、如果確定出所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度大於設定閾值,將所述網絡日誌歸併至所述第一數據集。

S13B、如果確定出所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度不大於設定閾值,創建第二數據集,並將所述網絡日誌歸併至所述第二數據集中。

S14、對每個數據集進行壓縮和存儲處理;其中:若所述數據集包括所述第一數據集,則對所述第一數據集進行壓縮和存儲處理;若所述數據集包括所述第一數據集和所述第二數據集,則分別對所述第一數據集和所述第二數據集進行壓縮和存儲處理。

本發明實施例中,以數據集為單位,對每個數據集進行壓縮和存儲處理。

舉例說明,若所述數據集包括第一數據集,則對每個第一數據集分別進行壓縮和存儲處理;若所述數據集包括第一數據集和第二數據集,則對第一數據 集和第二數據集分別進行壓縮和存儲處理。

本發明實施例中,在已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵時,根據所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,對所述網絡日誌進行歸類,具體為:若所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度大於設定閾值,將所述網絡日誌歸併至所述第一數據集;若所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度不大於設定閾值,創建第二數據集,並將所述網絡日誌歸併至所述第二數據集中。由於本發明提供的歸併方案中能夠將不同業務類型且相似度高的網絡日誌歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。

本發明實施例中,作為另一種可選的實現方式,如圖2所示,S11之後,所述方法還包括:

S15、根據所述網絡日誌的第一特徵,在確定出已有的第一數據集對應的業務類型併集中包含所述第一特徵時,將所述網絡日誌歸併至所述第一數據集中。

本發明實施例中,S12中確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,包括:

確定出第一數值和第二數值,其中,所述第一數值為所述網絡日誌的特徵集合與所述第一數據集的特徵集合的交集中的特徵個數,所述第二數值為所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集中的特徵個數;

根據所述第一數值與所述第二數值,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,其中,所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度為所述第一數值與所述第二數值之比。

在具體實現中,可預先設置知識庫,該知識庫為所有網絡日誌的特徵集合中的特徵按照設定的排序規則形成的特徵序列。在確定第一數值和第二數值時,先將所述網絡日誌的特徵集合中的特徵也按照設定的排序規則形成第一特徵序列,以及將所述第一數據集的特徵集合中的特徵也按照設定的排序規則形 成第二特徵序列;再將所述第一特徵序列和所述第二特徵序列分別與所設置的知識庫進行比對,以形成第一標記序列和第二標記序列,其中,第一標記序列和第二標記序列的長度均與所設置的知識庫的長度相同,且所述第一標記序列和所述第二標記序列均為僅包括0和1的比特序列,其中,所述第一標記序列中比特值為1的比特位對應的特徵為所述網絡日誌包含的特徵,比特值為0的比特位對應的特徵為所述網絡日誌中沒有的特徵;所述第二標記序列中比特值為1的比特位對應的特徵為所述第一數據集的特徵集合中包含的特徵,比特值為0的比特位對應的特徵為所述第一數據集的特徵集合中沒有的特徵。

舉例說明,假設將網絡日誌的特徵集合按照設定的排序規則形成的第一特徵序列為:srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe;

所述第一數據集的特徵集合按照設定的排序規則形成的第二特徵序列為:srcip,dstip,srcport,dspport,username,appname,domain;

所設置的知識庫為:srcip,dstip,srcport,dspport,natsrcip,natdspip,username,describe,appname,domain,netid,localinfo;

則:所述第一特徵序列與所設置的知識庫進行比對形成的第一標記序列為:1,1,1,1,1,1,1,1,0,0,0,0;所述第二特徵序列與所設置的知識庫進行比對形成的第二標記序列為:1,1,1,1,0,0,1,0,1,1,0,0。計算上述第一標記序列和第二標記序列中同一位置均為1的比特數為5(即第一數值);計算上述第一標記序列和第二標記序列中同一位置只要有一個為1的比特數為10(即第二數值)。計算所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度為5/10=0.5。

可選的,S13A中將所述網絡日誌歸併至所述第一數據集之後,還包括:

將所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集確定為所述第一數據集的特徵集合。

具體的,在將所述網絡日誌歸併至所述第一數據集之後,還需要對所述第一數據集的特徵集合進行更新,即將所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集確定為所述第一數據集的特徵集合。

本發明實施例中,採用上述方式進行分類後所形成的分類樹如圖3所示,分類一、分類二等為父節點,父節點表示形成的數據集,業務類1、業務類2等為子節點,子節點表示數據集中包含的網絡日誌。

本發明實施例中,S14中對每個數據集進行壓縮和存儲處理,包括以下三種觸發:

方式1、事件A觸發,即在滿足已存儲的所述網絡日誌的數目,即網絡日誌的條數,達到設定的第一門限值後,觸發壓縮和存儲處理,具體為:

在已存儲的所述網絡日誌的數目達到設定的第一門限值後,例如,第二門限值可以是1000條,對每個所述數據集進行壓縮和存儲處理。

方式2、事件B觸發,即在滿足已存儲的所述網絡日誌的數據量之和達到設定的第二門限值後,觸發壓縮和存儲處理,具體為:

在已存儲的所述網絡日誌的數據量之和達到設定的第二門限值後,例如,第二門限值可以是100M字節,對每個所述數據集進行壓縮和存儲處理。

方式3、周期觸發,即在每個設定的壓縮周期到來後,觸發壓縮和存儲處理,具體為:

在設定的壓縮周期到來時,對每個所述數據集進行壓縮和存儲處理。

基於上述任一實施例,可選的,S14中對每個數據集進行壓縮和存儲處理,包括:

採用列式存儲的方式,對每個所述數據集進行壓縮和存儲處理。由於採用列式存儲的方式進行壓縮和存儲,能夠獲得更高的壓縮比率。

當然,本發明實施例不限於採用列式存儲的方式進行壓縮和存儲處理,也可以採用本領域公知的其他方式對每個數據集進行壓縮和存儲處理,如行式存儲方式等。

基於上述任一實施例,可選的,S14中對每個所述數據集進行壓縮和存儲處理後,得到每個數據集對應的壓縮包,每個壓縮包均採用TLV格式存儲,其中,T表示特徵標識(如srcip,dstip,srcport等),L表示壓縮包的長度,V 表示壓縮包本身。

舉例說明,TLV為三元組,其全稱為Type(類型)、Length(長度)和Value(值)。其中,T、L欄位的長度往往固定(通常為1~4bytes),V欄位長度可變。T、L和V的表示方式均可自定義,本發明實施例中,T表示特徵標識(即網絡日誌的特徵中的一個特徵,表示存儲的是哪個特徵),L表示所存儲的壓縮包的長度,V表示所存儲的壓縮包。

基於上述任一實施例,S14中對每個所述數據集進行壓縮和存儲處理之後,還包括對每個所述數據集的業務類型進行優化,具體為:

根據設定時間段內採集到的網絡日誌包含的至少一個特徵,形成第三數據集;

若所述第三數據集的業務類型併集為所述第一數據集的業務類型併集的子集,採用所述第三數據集替換所述第一數據集,其中,所述第三數據集的業務類型併集為所述第三數據集中的網絡日誌的業務類型的併集;

若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型併集為所述第二數據集的業務類型併集的子集,採用所述第三數據集替換所述第二數據集。

舉例說明,在完成網絡日誌的壓縮和存儲處理之後,可以對當前已形成的分類樹進行優化,具體為:在完成網絡日誌的壓縮和存儲處理之後,根據設定時間段內已採集到的網絡日誌包含的特徵,例如,根據當前時間之前的1天內採集到的網絡日誌包含的特徵形成新的數據集(即第三數據集),以形成優化的分類樹;對於所述第三數據集,若所述第三數據集的業務類型併集為所述第一數據集的業務類型併集的子集,採用所述第三數據集替換所述第一數據集;若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型併集為所述第二數據集的業務類型併集的子集,採用所述第三數據集替換所述第二數據集,從而使用優化的分類樹替換掉原有的分類樹。

上述方法處理流程可以用軟體程序實現,該軟體程序可以存儲在存儲介質 中,當存儲的軟體程序被調用時,執行上述方法步驟。

基於同一發明構思,本發明實施例中還提供了一種網絡日誌壓縮裝置,該裝置解決問題的原理與上述一種網絡日誌壓縮方法相似,該裝置中與上述方法相同的部分,具體參見圖1和圖2所示實施例中的相關描述,此處不再贅述。

本發明實施例提供的一種網絡日誌壓縮裝置,如圖4所示,包括:

特徵解析模塊41,用於對採集到的網絡日誌進行解析,確定出所述網絡日誌包含的至少一個特徵;

第一處理模塊42,用於若已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,其中,所述第一特徵為所述至少一個特徵中用於表示所述網絡日誌的業務類型的特徵,所述第一數據集的業務類型併集為所述第一數據集中的網絡日誌的業務類型的併集,所述網絡日誌的特徵集合為所述網絡日誌的特徵組成的集合,所述第一數據集的特徵集合為所述第一數據集中的所有網絡日誌的特徵的併集;

第二處理模塊43,用於如果確定出所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度大於設定閾值,將所述網絡日誌歸併至所述第一數據集;如果確定出所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度不大於設定閾值,創建第二數據集,並將所述網絡日誌歸併至所述第二數據集中;

壓縮模塊44,用於對每個數據集進行壓縮和存儲處理,其中,若所述數據集包括所述第一數據集,則對所述第一數據集進行壓縮和存儲處理;若所述數據集包括所述第一數據集和所述第二數據集,則分別對所述第一數據集和所述第二數據集進行壓縮和存儲處理。

本發明實施例中,在已有的第一數據集的業務類型併集中不包含所述網絡日誌的第一特徵時,根據所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,對所述網絡日誌進行歸類。由於本發明提供的歸併方案中能夠將 不同業務類型且相似度高的網絡日誌歸為同一類,從而有效減少了壓縮包的數量,進而減少了存儲空間。

可選的,第一處理模塊42確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度時,具體用於:

確定出第一數值和第二數值,其中,所述第一數值為所述網絡日誌的特徵集合與所述第一數據集的特徵集合的交集中的特徵個數,所述第二數值為所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集中的特徵個數;

根據所述第一數值與所述第二數值,確定所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度,其中,所述網絡日誌的特徵集合與所述第一數據集的特徵集合的相似度為所述第一數值與所述第二數值之比。

基於上述任一實施例,可選的,第二處理模塊43將所述網絡日誌歸併至所述第一數據集之後,還用於:

將所述網絡日誌的特徵集合與所述第一數據集的特徵集合的併集確定為所述第一數據集的特徵集合。

可選的,壓縮模塊44具體用於:

在已存儲的所述網絡日誌的數目達到設定的第一門限值後,對每個所述數據集進行壓縮和存儲處理;或者

在已存儲的所述網絡日誌的數據量之和達到設定的第二門限值後,對每個所述數據集進行壓縮和存儲處理;或者

在設定的壓縮周期到來時,對每個所述數據集進行壓縮和存儲處理。

作為另一種可選的實現方式,第一處理模塊42還用於:

根據所述網絡日誌的第一特徵,在確定出所述第一數據集的業務類型併集中包含所述第一特徵時,將所述網絡日誌歸併至包含所述第一數據集。

基於上述任一實施例,可選的,如圖5所示,所述裝置還包括:

優化模塊45,用於根據設定時間段內採集到的網絡日誌包含的至少一個特徵,形成第三數據集;若所述第三數據集的業務類型併集為所述第一數據集的 業務類型併集的子集,採用所述第三數據集替換所述第一數據集,其中,所述第三數據集的業務類型併集為所述第三數據集中的網絡日誌的業務類型的併集;若所述數據集包括所述第一數據集和所述第二數據集,且所述第三數據集的業務類型併集為所述第二數據集的業務類型併集的子集,採用所述第三數據集替換所述第二數據集。

本發明實施例中,可以通過伺服器實現上述圖1和圖2所示實施例的方法,如圖6所示,該伺服器包括:處理器61、輸入接口62、輸出接口63、存儲器64和系統總線65;其中:

處理器61負責邏輯運算和處理。在伺服器運行時,處理器61讀取存儲器64中的程序,並執行上述方法實施例,具體為:處理器61執行上述步驟S11、S12、S13A、S13B和S14。可選的,該處理器61還可執行上述步驟S15。

存儲器64包括內存和硬碟,可以存儲處理器61在執行操作時所使用的數據(如第一數據集、第二數據集,對數據集進行壓縮得到的壓縮包等)。輸入接口62用於在處理器61的控制下讀入數據(如網絡日誌等),輸出接口63在處理器61的控制下輸出數據(如壓縮包等)。

總線架構可以包括任意數量的互聯的總線和橋,具體由處理器61代表的一個或多個處理器和存儲器64代表的內存和硬碟的各種電路連結在一起。總線架構還可以將諸如外圍設備、穩壓器和功率管理電路等之類的各種其他電路連結在一起,這些都是本領域所公知的,因此,本文不再對其進行進一步描述。

本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或電腦程式產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限於磁碟存儲器、CD-ROM、光學存儲器等)上實施的電腦程式產品的形式。

本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和 /或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些電腦程式指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些電腦程式指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

儘管已描述了本發明的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本發明範圍的所有變更和修改。

顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀