新四季網

一種利用郵件伺服器日誌進行郵件用戶標記的方法與系統的製作方法

2023-05-07 12:12:26

一種利用郵件伺服器日誌進行郵件用戶標記的方法與系統的製作方法
【專利摘要】本發明屬於郵件系統分析【技術領域】,具體為一種利用郵件伺服器日誌進行郵件用戶標記的方法與系統。系統包括依次相連的四個模塊:基本信息識別處理模塊、action提取模塊、用戶屬性生成模塊和社會網絡結構模塊;本發明方法不僅對於用戶發送郵件這一單一維度數據進行記錄統計,同時也考慮了用戶在管理郵箱時所產生日誌數據的記錄方法。同時,在記錄日誌信息的過程中,本發明也不是簡單的將日誌按照日誌原格式的方法進行存放,而是引入了用戶行為的新實體定義,從而讓用戶在整個郵件過程當中的行為過程更加明晰,也更便於提取屬性、進行社會網絡組織。
【專利說明】—種利用郵件伺服器日誌進行郵件用戶標記的方法與系統
【技術領域】
[0001]本發明屬於郵件信息挖掘【技術領域】,具體涉及一種利用郵件伺服器日誌進行郵件用戶標記的方法與系統。
【背景技術】
[0002]電子郵件是目前人們最常用的一種通訊工具之一,雖然已經有許多其它網絡通訊工具產生,但郵件在人們日常生活中所扮演的地位依然非常重要。然而,郵件用戶所自有的屬性信息非常匱乏,除了郵箱地址以為,沒有別的相關信息可以用以對郵件用戶進行相應的標識。而對於郵件用戶進行相應的屬性標識工作,對於信息安全以及提升郵件服務的服務質量都有非常重要的意義。
[0003]目前已經有很多標識用戶信息的方法,並且伴隨著社交網絡的興起,利用郵件用戶信息構成郵件社會網絡也變成無論研究界還是產業界都非常重視的話題。目前,標識郵件用戶的主要屬性都集中在藉助郵件用戶的社會關係進行用戶特異性標識的階段,主要是通過用戶不同的接受者地址,以及所發送郵件的基本特徵對於用戶進行標註,然而這樣的標註方法往往只能針對某種郵件應用比較有效。
[0004]從信息完整度的角度看,以往方法過於注重郵件交互信息對於用戶標註的權重,即大部分的方法都緊緊圍繞了與郵件發送相關的協議,即SMTP相關信息進行。而一般情況下,從郵件伺服器(mail server)中所能得到的信息並不僅僅包含SMTP先關信息,還包括如POP3、IMAP等用戶郵箱操作相關協議的相應信息,而這些並沒有在現有方法中得到很好體現。也就是說,目前相關研究除了用戶發送郵件情況之外,沒有考慮到用戶對於mail box管理行為的差異性對於用戶特性的影響。
[0005]在郵件伺服器(mail server)當中所存儲的日誌信息除了與SMTP協議,即用戶郵件發送相關的日誌信息之外,還包括IMAP、POP3等用戶管理郵箱的行為日誌。利用這些日誌信息作為基礎建立用戶的行為事件序列向量可以有效地對於用戶進行標識區分,達到用戶標識的目的。

【發明內容】

[0006]本發明的目的在於提供一種利用郵件伺服器日誌進行郵件用戶標記的方法與系統。
[0007]本發明通過對mail server日誌進行分析,從而對於郵件用戶進行標記。本發明主要從mail server對於郵件操作所涉及的SMTP、IMAP、POP3三個主要協議的伺服器日誌出發,利用文本挖掘的方法還原出郵件用戶行為過程與行為相關信息,利用行為的時間序列對於用戶進行標記;同時,進一步提出利用所挖掘行為信息構建郵件網絡中社會關係矩陣。
[0008]本發明涉及的mail server中的日誌,主要包括MTA日誌、POP3日誌和IMAP日誌。MTA日誌:記錄所有mail server用戶的SMTP行為,即發送郵件的相關情況;P0P3日誌:用戶利用POP3協議進行郵件管理操作的日誌;IMAP日誌:用戶利用IMAP協議進行郵件管理操作的日誌。各種日誌中所包含日誌條目的特徵以及具體的信息提取方法將在後文中做詳細的介紹,根據日誌種類的不同,本發明將提供不同的算法進行處理。
[0009]為了通過利用上文中所提及的三種不同類型日誌所包含信息進行用戶行為標識,整個系統分為依次相連的四個大的模塊:基本信息識別處理模塊、action提取模塊、用戶屬性生成模塊和社會網絡結構模塊。其中,基本信息識別處理模塊,主要用以對原始的郵件數據進行處理入庫操作;action提取模塊,針對三種不同的日誌,可以提取出針對於SMTP、IMAP以及POP3協議用戶不同的action實體,每一個實體即為用戶的一次利用SMTP協議進行郵件發送操作或者IMAP、POP3進行郵件管理操作的操作過程以及該操作過程相應的信息;用戶屬性生成模塊:即生成用以區分用戶的用戶屬性實體;社會網絡結構模塊:即主要利用SMTP當中用戶交互郵件的相關信息,將所有標識出的郵件用戶組成一張社會關係網絡,並用社會關係矩陣進行存儲。如圖1所示。
[0010]所述基本信息識別處理模塊,包括兩個處理步驟,第一步,對於文本的mailserver原始日誌進行文本分析,第二步,將挖掘到的所有信息存儲進資料庫。
[0011]第一步原始日誌的文本分析中,mail server信息的識別是非常重要的工作。即需要識別出每種針對不同協議日誌中,有多少不同種類的日誌條目。而由於一般的mailserver在記錄日誌時都會對不同域在文本中有明顯的分隔,因此可以將原始日誌文件作為結構化數據進行處理,因此在識別條目種類之後進一步需要處理的便是對於每條日誌中的域進行識別。由於本發明所處理的mail server日誌都是記錄與公有的應用層網際協議相關的日誌,因此,利用公開RFC進行日誌分析規則設定便是本發明所利用的主要方法。
[0012]所述的action提取模塊,其主要作用是從基本信息識別處理模塊中得到的原始日誌數據裡提取出標識用戶行為最小的單位action。
[0013]Action的概念是在本發明中所提出,對於不同的日誌類型,action的具體定義會有所區別,但總的來說,可以將action歸納為用戶所進行的一次郵件操作。而所謂的action提取,即從原始日誌當中提取出與用戶的郵件操作相關聯產生的mail server的一些信息記錄。
[0014]郵件行為可以大致的分為兩種類型,第一種為郵件發送行為,這一類行為主要與SMTP協議強相關,第二種為郵件處理行為,這一類行為主要與IMAP協議或者POP3協議有較強的相關性。每一種行為都有對應的action,而每類action具體結構描述如圖2,從中我們可以看到SMTP的action相較於POP3與IMAP的action而言要更加複雜,下面我們將對於action中一些關鍵的屬性做介紹。
[0015]Username:用戶名,即行為發起的用戶註冊名,在SMTP中則是sender欄位內容,或者發起mail命令的用戶名。
[0016]Ip:日誌記錄中ip欄位內容,標示用戶是在ip為該值的主機上進行的相應郵件操作。
[0017]Rcpt =SMTP日誌中記錄的收件人用戶名。
[0018]Respond:由於SMTP是一個有會話協議,因此在SMTP會話的每一步過程中,接收到會話命令的一方都會給發起會話一方返回一個值作為會話的應答,該欄位既記錄了會話過程中相應的respond值情況。不同的respond值,標識了伺服器對於用戶發起這次命令的應答情況。[0019]Result:也是SMTP當中所獨有的欄位,主要記錄了 mail server對於用戶所發起的每一個命令具體的處理情況。
[0020]Del/readmail:在POP3中,mail server會記錄用戶每次處理的mail編號以及mail box編號,這樣可以更加精確地了解到用戶對於郵箱管理的具體細節。
[0021]依據上述對於action的詳細定義,本發明提出了基於狀態轉移的action提取方法,這種狀態轉移方法主要應用於SMTP action的提取以及POP3 action的提取。對於IMAP而言,由於日誌記錄的非常簡單,每一條原始的日誌都包含了一個完整的action信息,因此沒有利用狀態轉移方法對於該類型action進行提取。
[0022]對於POP3的狀態轉移action提取過程,如圖3所示,系統從日誌最開始往下順序讀取,根據所處理日誌cmd的不同,開啟針對不同username的狀態基,並依據狀態基對於不同username的POP3 action進行提取,提取過程如下:
logout:當順序掃描日誌發現cmd欄位等於login時,系統建立username為該日誌所記錄的狀態基,並使該狀態基進入log in狀態,系統進入讀取del raed階段,此時建立初始的POP3 action實體,並填入ip、username等基本信息。
[0023]Del/read:當順序掃描日誌發現cmd欄位等於del/read時,系統掃描已經建立的狀態基,將username與正處理的日誌該欄位進行比較,如果相等會將其狀態基調入read/del狀態,同時計入日誌中所記錄的mail id等,read或者del情況等相應信息。
[0024]Logout:當順序掃描日誌發現cmd為logout欄位時,系統將username與該日誌相等的向量集調入log out狀態,並錄入POP3 action實體所需要的剩餘信息並將該實體返回。
[0025]相較於POP3比較簡單的狀態轉換而言,SMTP的狀態形成過程就要複雜很多,其簡要過程如下圖4所示。SMTP action提取的基本處理思路與POP3過程非常類似,依舊是順序讀取原始日誌,當遇到不同cmd域值信息時對於相應username或者ip的狀態基進行相應操作,具體情況如下:
正向讀取:該階段下,處理過程與POP3的正向讀取類似,只是此時只處理Acc印t與Disconnect信息,建立相應的ip action實體。
[0026]Accept:當掃描日誌cmd等於accept時,系統將把accept日誌存入隊列,繼續進行掃描。
[0027]Disconnect:當掃描日誌cmd等於disconnect時,系統建立相應的ip action實體與相應狀態基,並把disconnect日誌中所包含實體所需信息存入該實體當中,其中便包括mail count信息。同時,用戶會從先前存好的accept日誌隊列中讀出相應ip的accept日誌,並存入實體所需accept信息,並將該狀態基調入user action實體建立過程。
[0028]反向讀取:當經歷過disconnect過程之後,系統進入反向讀取階段,即從之前按日誌記錄順序讀取變為從disconnect記錄開始反向回退讀取日誌,處理在之前讀入Accept位置之後的所有cmd為data、mail以及rcpt日誌,並領用這些日誌之間的狀態轉換建立相應的user action。
[0029]Data:此時建立data中相應username的user action,並填入data日誌中記錄的相關信息。並將data所建立狀態基調入rcpt/mail狀態,系統進入rcpt/mail階段。
[0030]Rcpt:將日誌中包含user action實體所需要的信息錄入實體,同時檢查實體中所記錄的rcpt列表是否已經全部包含,如果全部包含,則將狀態基調入mail狀態,系統進入mail階段。
[0031]Mail:將日誌中包含user action實體所需要的信息錄入實體,並完成該useraction的建立工作。同時,檢測此時所建立的user action實體數目是否與實體中mailcount相同,如果相同則SMTP action建立過程結束,如果不同則繼續反向讀取過程。
[0032]所述用戶屬性生成模塊,其中,最重要的是對於用戶屬性的定義,詳細定義如圖5所示。從總的來看,可以分為ip實體與用戶實體,其中ip實體主要記錄SMTP中的主機行為序列,即ip action,這一類action主要描述了主機在完成郵件發送過程中,所需要進行的相關操作。而用戶實體則主要由用戶基本信息與用戶行為序列進行標識,用戶基本屬性主要記錄用戶相應的基本靜態信息,主要是域名、用戶名等等無法隨意變更的部分。而用戶行為屬性則主要記錄用戶在完成各種不同的行為時,所產生的特異性特徵信息,如前文所述,用戶行為主要可以分為郵件發送行為和郵件管理行為兩類,郵件發送行為主要記錄用戶操作SMTP協議的過程,而郵件管理行為則由POP3操作過程和IMAP操作過程兩部分構成。
[0033]該模塊中最大的難點就在於時間序列的定義,時間區間的選取決定了所得到時間序列數據的聚集性與數據維度的複雜度,簡單的來說,當時間單位過小時,會造成大量的數據維度,而數據的離散型會非常的高,但是如果時間單位選取過大,則可能出現一個時間區間包含過多數據,從而向量之間的區分度會變得很小。
[0034]本發明提出了利用類似於夏普率定義的,利用均值方差比率對於不同時間單位的適應程度進行量化方法,如下面公式:
【權利要求】
1.一種利用郵件伺服器日誌進行郵件用戶標記的系統,郵件伺服器日誌包括MTA日誌、POP3日誌和IMAP日誌;MTA日誌:記錄所有郵件伺服器用戶的SMTP行為,即發送郵件的相關情況;P0P3日誌:用戶利用POP3協議進行郵件管理操作的日誌;IMAP日誌:用戶利用IMAP協議進行郵件管理操作的日誌;其特徵在於:系統包括依次相連的四個模塊:基本信息識別處理模塊、action提取模塊、用戶屬性生成模塊和社會網絡結構模塊;其中,基本信息識別處理模塊,主要用以對原始的郵件數據進行處理入庫操作;action提取模塊,針對三種不同的日誌,提取出針對於SMTP、IMAP以及POP3協議用戶不同的action實體,每一個實體即為用戶的一次利用SMTP協議進行郵件發送操作或者IMAP、POP3進行郵件管理操作的操作過程以及該操作過程相應的信息;用戶屬性生成模塊:生成用以區分用戶的用戶屬性實體;社會網絡結構模塊:主要利用SMTP當中用戶交互郵件的相關信息,將所有標識出的郵件用戶組成一張社會關係網絡,並用社會關係矩陣進行存儲。
2.根據權利要求1所述的系統,其特徵在於所述基本信息識別處理模塊,包括兩個部分:第一,對於文本的mail server原始日誌,利用RFC進行文本分析,第二,將挖掘到的所有信息存儲進資料庫。
3.根據權利要求1所述的系統,其特徵在於所述action提取模塊,是從基本信息識別處理模塊中得到的原始日誌數據裡提取出標識用戶行為最小的單位action ; 所述action即為用戶所進行的一次郵件操作;所述的action提取,是從原始日誌當中提取出與用戶的郵件操作相關聯產生的郵件伺服器的一些信息記錄; 郵件操作行為分為兩種類型:第一種為郵件發送行為,第二種為郵件處理行為,每一種行為都有對應的action,對於action中的屬性說明如下: Username:用戶名,即行為發起的用戶註冊名,在SMTP中則是sender欄位內容,或者發起mail命令的用戶名; Ip:日誌記錄中ip欄位內容,標示用戶是在ip為該值的主機上進行的相應郵件操作; Rcpt =SMTP日誌中記錄的收件人用戶名;Respond:由於SMTP是一個有會話協議,在SMTP會話的每一步過程中,接收到會話命令的一方都會給發起會話一方返回一個值作為會話的應答,該欄位既記錄了會話過程中相應的respond值情況;不同的respond值,標識了伺服器對於用戶發起這次命令的應答情況;Result:主要記錄mail server對於用戶所發起的每一個命令具體的處理情況;Del/readmail:在POP3中,mail server記錄用戶每次處理的mail編號以及mail box編號; 依據上述對於action的定義,對於SMTP action的提取以及POP3 action的提取,採用基於狀態轉移的action提取方法: 對於POP3 action提取過程如下: logout:當順序掃描日誌發現cmd欄位等於login時,系統建立username為該日誌所記錄的狀態基,並使該狀態基進入log in狀態,系統進入讀取del raed階段,此時建立初始的POP3 action實體,並填入ip、username基本信息; Del/read:當順序掃描日誌發現cmd欄位等於del/read時,系統掃描已經建立的狀態基,將username與正處理的日誌該欄位進行比較,如果相等,將其狀態基調入read/del狀態,同時計入日誌中所記錄的mail id, read或者del情況等相應信息;Logout:當順序掃描日誌發現cmd為logout欄位時,系統將username與該日誌相等的向量集調入log out狀態,並錄入POP3 action實體所需要的剩餘信息並將該實體返回;對於SMTP action提取過程如下: 正向讀取:該階段下,處理過程與POP3的正向讀取類似,只是此時只處理Acc印t與Disconnect信息,建立相應的ip action實體; Accept:當掃描日誌cmd等於accept時,系統將把accept日誌存入隊列,繼續進行掃描; Disconnect:當掃描日誌cmd等於disconnect時,系統建立相應的ip action實體與相應狀態基,並把disconnect日誌中所包含實體所需信息存入該實體當中,其中包括mailcount信息;同時,用戶從先前存好的accept日誌隊列中讀出相應ip的accept日誌,並存入實體所需accept信息,並將該狀態基調入user action實體建立過程; 反向讀取:當經歷過disconnect過程之後,系統進入反向讀取階段,即從之前按日誌記錄順序讀取變為從disconnect記錄開始反向回退讀取日誌,處理在之前讀入Accept位置之後的所有cmd為data、mail以及rcpt日誌,並領用這些日誌之間的狀態轉換建立相應的 user action ; Data:此時建立data中相應username的user action,並填入data日誌中記錄的相關信息;並將data所建立狀態基調入rcpt/mail狀態,系統進入rcpt/mail階段; Rcpt:將日誌中包含user action實體所需要的信息錄入實體,同時檢查實體中所記錄的rcpt列表是否已經全部包含,如果全部包含,則將狀態基調入mail狀態,系統進入mail階段; Mail:將日誌中包含user actio`n實體所需要的信息錄入實體,並完成該user action的建立工作;同時,檢測此時所建`立的user action實體數目是否與實體中mail count相同,如果相同則SMTP action建立過程結束,如果不同則繼續反向讀取過程。
4.根據權利要求1所述的系統,其特徵在於所述用戶屬性生成模塊中,用戶屬性的定義,分為ip實體與用戶實體,其中ip實體記錄SMTP中的主機行為序列,即ip action,這一類action主要描述主機在完成郵件發送過程中,所需要進行的相關操作;用戶實體由用戶基本信息與用戶行為序列進行標識;用戶基本屬性主要記錄用戶相應的基本靜態信息,包括域名、用戶名等無法隨意變更的部分;用戶行為屬性主要記錄用戶在完成各種不同的行為時,所產生的特異性特徵信息; 該模塊中關於時間序列的定義,時間區間的選取採用均值方差比率對於不同時間單位的適應程度進行量化方法,公式為:
5.根據權利要求1所述的系統,其特徵在於所述社會網絡結構模塊中,採用如下邊權值定義方法,即除了郵件內容特性作為邊權值標識之外,利用收件人多少作為一個新的權值加權,利用這樣的權值定義方法,在對關係網絡節點相關度進行計算時有了新的維度加入。
6.一種基於權利要求1-5之一所述系統的利用郵件伺服器日誌進行郵件用戶標記的方法,其特徵在於具體步驟為: 第一步,獲取進行用戶標示所需要的原始日誌數據,mail server日誌以文本形式存儲在Iinux系統下指定的文件夾當中,以方便的導出作為數據源; 第二步,讀取出文本日誌的每一個條目,將讀取到的日誌條目進行結構化,然後存入資料庫; 第三步,將對每個日誌所存儲的表進行順序讀取,利用所述的狀態轉移方法生成相應的action並存入資料庫; 第四步,將利用得到的三種action的數據表,構建用戶與主機實體,對於時間序列數據的最小時間單位而言,用戶需要利用所述的計算區間選擇適宜度的方法進行預測,具體步驟如下: (1)確定預取範圍,即以所得到數據的總時間長短作為參考,對於相應的時間單位取值範圍與粒度進行限定; (2)更具粒度和範圍,對於不同的設定方法更具公式為:

【文檔編號】H04L12/24GK103580919SQ201310533094
【公開日】2014年2月12日 申請日期:2013年11月4日 優先權日:2013年11月4日
【發明者】趙進, 餘浩淼, 孫毅, 王新 申請人:復旦大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀