一種日誌信息管理方法及系統的製作方法
2023-09-16 00:19:10 3
專利名稱:一種日誌信息管理方法及系統的製作方法
技術領域:
本發明涉及網站管理技術領域,尤其涉及一種日誌信息管理方法及系統。
背景技術:
網際網路的快速發展使人們對網站設計和功能提出了更高的要求,這些要求包括 具有智能性、快速、準確地找到用戶所需信息;能為不同用戶提供不同的服務;能為管理者 提供產品營銷策略信息等等。利用對網站日誌的挖掘分析,可以掌握訪問者歷史信息,有目的優化站點內容和 設計、使網站能夠適應訪問者的口味和習慣,從而提高用戶的體驗、忠誠度回訪率;通過多 角度的分析,多種格式的報告,得知網站的運營是否健康,從而為管理者提供營銷參考信 息。網站伺服器日誌是運營商對網站運營狀態分析的有效依據,網站日誌記錄著所有用戶 操作的記錄。當網站運營商需要了解訪問者的訪問狀況或者在受到攻擊時,都需查看日誌信息 以進行相應的分析,其查看的操作是隨機進行的,而由於日誌信息的初始格式並不相同,操 作者在獲取日誌信息後,都需要從獲取的日誌信息中選出網站日誌信息,然後將所述網站 日誌信息進行格式轉換,最後才能進行網站日誌信息的分析,從而產生分析操作延時,進而 導致運營商無法及時了解網站的運營狀況。
發明內容
有鑑於此,本發明目的在於提供一種日誌信息管理方法及系統,有效的解決服務 器在對日誌的分析操作時的延時問題,使運營商在第一時間了解網站的運營狀況。為了實現上述目的,本發明提供了如下技術方案一種網站日誌信息管理系統,包括日誌信息管理單元、日誌信息抽取格式化單 元、數據統一集中單元和網站日誌信息提供單元,其中所述日誌信息管理單元用於配置同一伺服器端的日誌信息的格式為預設格式, 以及,定時截取日誌信息並保存,從中選出網站日誌信息並存儲於預先建立的日誌回收服 務器中;所述日誌信息抽取格式化單元用于格式化日誌回收伺服器中存儲的網站日誌信 息;所述數據統一集中單元用於將經過格式化的網站日誌信息進行分類,形成多個 數據集市並存儲;所述網站日誌信息提供單元,用於在接收到查看網站日誌信息請求時,提供相應 的網站日誌信息。優選的,所述日誌回收伺服器包括一級日誌回收點和二級日誌回收點;所述一級日誌回收點用於存儲所有網絡日誌信息中選出的帶寬情況良好的網站 日誌fn息;
所述二級日誌回收點用於存儲除所述一級日誌回收點存儲的網站日誌信息之外 的網站日誌信息。優選的,所述一級日誌回收點和/或二級日誌回收點的存儲方式為RAID6並劃分 虛擬卷方式。優選的,所述日誌信息抽取格式化單元包括抽取單元,用於抽取網絡日誌信息;轉換單元,用於將所述抽取單元抽取的網絡日誌信息轉換成預定格式的網絡日誌 fn息;裝載單元,用於將所述預定格式的網絡日誌信息進行存儲。優選的,所述日誌信息抽取格式化單元還包括觸發器,用於產生控制所述抽取單 元、轉換單元和裝載單元工作的觸發信號。優選的,所述觸發器包括行觸發器和表觸發器。優選的,所述日誌信息抽取格式化單元進行處理的網絡日誌信息包括基礎數據層 數據,粒度放大層數據和數據集市層數據。一種網站日誌信息管理方法,包括配置同一伺服器日誌信息格式;定時截取日誌信息並保存;從所述截獲的日誌信息中選取網站日誌信息並存儲於預先建立的日誌回收服務 器中;將所述日誌回收伺服器中存儲的網站日誌信息格式化處理,轉換成符合預定格式 的網絡日誌信息;將經過所述預定格式的網站日誌信息進行分類形成多個數據集市,並存儲,便於 在接收到查看網站日誌信息請求時,提供相應的網站日誌信息給操作者。優選的,將網絡日誌信息存儲於預先建立的日誌回收伺服器包括預設一級回收點和二級回收點,用以對日誌信息進行分類回收; 所述一級日誌回收點選取存儲所有數據中的帶寬情況良好的網站日誌信息;所述二級日誌回收點存儲除所述一級日誌回收點存儲的數據之外的數據。優選的,在將所述網站日誌信息進行格式化處理前還包括將網絡日誌信息分為基礎數據層數據、粒度放大層數據和數據集市層數據;將上 述每層數據再進行分層,在每層中把所有數據用數列連接,便於對數據的處理。從上述技術方案可以看出,本發明通過對伺服器中的日誌進行統一配置,並預設 日誌回收伺服器,通過日誌回收伺服器定時存儲網站日誌信息,將回收伺服器中的日誌信 息進行格式化處理,並將處理過的日誌信息統一集中存儲,以供網站維護者(或稱為網站 操作者)隨機獲取、分析。也就是說,在網站維護者需要了解網站當前運營情況時,可以直 接獲取經過格式化處理後的網站日誌信息並進行分析,從而減小了處理時延,進而使網站 維護者能夠及時了解網站當前的運營情況。
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現
5有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以 根據這些附圖獲得其他的附圖。圖1為本發明系統的結構圖;圖2為本發明方法的流程圖。
具體實施例方式下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於 本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他 實施例,都屬於本發明保護的範圍。如圖1所示本發明公開了一種日誌信息管理系統,包括日誌信息管理單元1、日 志信息抽取格式化單元2、數據統一集中單元3和網站日誌信息提供單元4。所述日誌信息管理單元1根據網際網路伺服器的分類,針對伺服器類型的不同 (apache的web伺服器\squid的緩存伺服器\ftp的文件管理伺服器\流媒體的源伺服器 \流媒體的廣播伺服器)配置各自的統一的日誌格式,這樣能確保日誌的產生時的格式在 同類伺服器中是完全統一的。日誌的配置儘可能採用網際網路的標準W3C格式,確保日誌的 二次處理能最大可能的降低抽取和轉換的比例,並且日誌的存放要放置在空間較大的存儲 空間。因網站的運營使日誌處於不斷地更新中,對網站日誌進行定時截取,從而保證為運營 商提供網站各個時段的運營情況。伺服器在被訪問時,日誌的產生無可避免要有固定的位置,而且是唯一的位置,這 就給日誌的回收造成了 一定的麻煩,因為需要在不間斷的日誌回收系統和不間斷對外提供 服務的伺服器找一個互不影響的機制,因此我們會在保證不影響伺服器的前提下,創建一 個獨立的日誌回收體系和通道,在伺服器的物理分布和網路質量兩個維度找一個平衡的地 點,放置日誌回收的伺服器,而全網多個這樣的日誌回收伺服器組成了完整的日誌回收服 務器組,再加上我們希望日誌的保存要做到冗餘,因此我們會將整個網絡分成幾個大的區 域,在各區域之間和之中都放置主從關係的日誌伺服器,即建立一級日誌回收點,選取所有 數據中心中的骨幹節點(帶寬足,到各數據中心延時相對最小),創建二級日誌回收點,每 一個日誌回收點的存儲空間確保能夠保證收集日誌日最大產出量的50倍的空間,並且要 做到每一個日誌回收點的存儲採用RAID6並劃分虛擬卷的技術來確保存儲的安全性,每一 個日誌回收點需要一個異地熱備份,採用rsync技術實時同步,確保日誌回收點的單點不 可訪問的故障對日誌的保存不會造成任何影響。數據的抽取格式化單元2進一步包括抽取單元,轉換單元和裝載單元,對收集上 來的各種日誌進行抽取,轉換和裝載即ETL技術。抽取單元,用於抽取網絡日誌信息;轉換 單元,用於將所述抽取單元抽取的網絡日誌信息轉換成預定格式的網絡日誌信息;裝載單 元,用於將所述預定格式的網絡日誌信息進行存儲。我們將整個導出的過程分成若干的層次,根據順序性,跨越性和不可逆性,可 以規定所有Job只能向下調用,絕對不允許向上調用,不過允許向下跨層調用。這樣在 DataStage這個ETL工具中,各個Job根據其在ETL過程中所處的階段,可分別放入各個層次,利用層次間的關係來約束Job的關係,從而確保各個Job的調用關係得以明確。因此可將ETL對數據處理分為三個層次基礎數據層,粒度放大層,數據集市層 (即在基礎數據層中的Job都完成後才能做粒度放大的Job,在粒度放大後才能做數據集市 的Job)每層中又細分了若干個小的層次。在每一層中把所有的Job全部都用一個序列連 接起來,這樣當每天運行分布在各層的所有Job的時候,只需要按照從低到高的順序,運行 每層中的序列,就可以保證每個Job運行出的數據都是一致的,從而避免了因為Job調用順 序混亂導致數據不一致的情況出現。ETL實現過程中由於處理的是海量的日誌信息,而且涉及到多個系統,這些系統 往往都是核心系統,在技術的使用上需要考慮到把對源系統的性能和可靠性的影響降到最 低,因此在實現過程中會具體採用了以下幾個方面的技術觸發器是一種特殊類型的存儲過程,主要是通過事件進行觸發而被執行的。在日 志的抽取過程中,根據不同種類的日誌格式創建不同的觸發機制,而實現轉換為統一格式 化的日誌信息。觸發器可以有行觸發器和表觸發器兩種行觸發器這類觸發器在觸發時僅僅鎖住觸發的行,而表中其他的行還是可以操 作的,但此類的觸發器無法在觸發時更改表本身。表觸發器這類觸發器在觸發時會鎖住表,從而此時對表除檢索外的所有的操作 將被鎖定,但此類觸發器無法獲取更新前或更新後的數據。因此我們會在日誌的產生的初期就將日誌分割截取,確保後面的ETL實現過程 中,不會遇到日誌信息的更新,而只需要保證日誌文件能夠被及時送達ETL處就可以了。同時為了確保ETL的並發處理,我們選擇了行觸發器,這樣就讓多個ETL處理一各 文件變的可能,從而對系統的效率提高的最高。也降低了單臺ETL的故障對整體ETL實現 過程的影響可能。為了提高導出的效率,在實現過程中採用了增量導出方案,為了進行增量導出就 要建立增量的起點時間,有了這個起點時間,系統就有了尋找新更改記錄的起點,以後每次 只要導出這個時間點之後變更的記錄,並在確認成功導出後更新這個時間點就可以了。為了保證數據的質量,需要自動處理,自動處理的原則是在增量成功的時間點 後,刪除本條記錄,再重新增量導出新的記錄。所述數據統一集中單元3將經過格式化的網站日誌信息進行分類,形成多個數據 集市並存儲。ETL為數據集市的建立創建了一個完整的,能反映歷史變化的和結構一致的平臺, 這樣一個數據倉庫平臺的建立為根據用戶的需求開發面向主題的數據集市奠定了基礎。所有日誌的分析報表的價值是通過使用者的設計而體現的,使用者是業務的專 家,而專家應該主動站在系統實現的角度,幫助每一個查詢報表的用戶分析出各個數據在 報表中的角色,然後設計出合適的數據結構,這樣就形成了數據集市。通常日誌的分析報表的需求來源主要來自兩個方面,一個是行業專家,一個是使 用和查詢分析報表的用戶,不論需求來自哪裡,都是對不同數據的在不同維度的角色上的 定義,而這些角色的定義就組成了一套數據的組合,而根據對這些數據的合理組合,就形成 了一套完整的數據集市,只要確保任何一種數據在原始日誌中可以獲取到,那麼就可以將其通過ETL的實現過程集中到數據集市,而ETL的實現過程是相對獨立的,這就確保了整體 分析系統的快速擴展性。網站日誌信息提供單元4,用於在接收到查看網站日誌信息請求時,提供相應的網 站曰志信息。當運營商需要對網站進行維護或管理時,需要調看網站的日誌信息,通過對日誌 信息的分析對網站作出調整。運營商通過提交查看日誌的命令,網站日誌信息提供單元接 到命令後,調取數據統一集中單元中存儲的日誌信息提供給運營商。另外本發明還公開了一種與上述系統相對應的方法,包括以下步驟步驟21,配置同一伺服器日誌信息格式。運營商分析網站運營狀況的數據源來自於網際網路的各種伺服器的訪問日誌,因此 日誌的設計和配置對於日後集中抽取和轉換很關鍵,網際網路的各種伺服器在設計時,就考 慮了業內的日誌標準,因此讓分析系統的日誌源配置的統一工作變的可能。根據網際網路伺服器的分類,針對伺服器類型的不同配置各自的統一的日誌格式, 這樣能確保日誌的產生時的格式在同類伺服器中是完全統一的。步驟22,定時截取日誌信息,並將截取的日誌信息存放在存儲空間裡。由於日誌不斷地更新,對日誌的截取工作非常重要,通過對日誌的實時截取來獲 取網站當時的運營狀況。步驟23,從所述截獲的日誌信息選取網站日誌信息並存儲於日誌回收伺服器中。伺服器在被訪問時,日誌的產生無可避免要有固定的位置,而且是唯一的位置,這 就給日誌的回收造成了 一定的麻煩,因為需要在不間斷的日誌回收系統和不間斷對外提供 服務的伺服器找一個互不影響的機制,因此我們會在保證不影響伺服器的前提下,創建一 個獨立的日誌回收體系和通道,在伺服器的物理分布和網路質量兩個維度找一個平衡的地 點,放置日誌回收的伺服器,而全網多個這樣的日誌回收伺服器組成了完整的日誌回收服 務器組,再加上我們希望日誌的保存要做到冗餘,因此我們會將整個網絡分成幾個大的區 域,在各區域之間和之中都放置主從關係的日誌伺服器,避免單點故障引發的日誌回收中 斷,同時為了確保單點日誌回收伺服器的存儲安全性,我們採用最新一代的sata硬碟及 raid6上劃分虛擬卷的方式組建存儲架構。日誌回收體系主要由分布的各區域的日誌回收伺服器和中心日誌存儲伺服器組 成,為了保證原始日誌的可重複計算,我們在各區域的日誌都保存7天,而中心日誌存儲服 務器則是永久存儲。步驟M,將所述日誌回收伺服器中存儲的網站日誌信息轉換成符合預定格式的網
絡曰志fe息。日誌一旦被送到日誌回收伺服器,就要面臨如何拆分、抽取、和轉換及裝載入數據 倉庫的問題,因為日誌分析系統要求部分分析內容,如流量帶寬、訪問者等具有時效性,因 此這一步的效率尤為重要,因此我們在這個環節,會採用技術進行多級拆分,將所有的日誌 先進行去重、去錯、格式化,這個環節每5分鐘執行一次,將中心收集上來的日誌打上時間 戳,然後處理,同時面對不同類型的日誌,我們採用不同的抽取和格式化的標準,經過一級 的拆分,抽取,我們將不同的類型、不同的區域、不同的服務域名分類,然後再針對分類的日 志進行二次抽取,將日誌的信息按照不同的粒度分類,並進行格式化操作,為數據集市的運算提供儘可能準確和格式化的數據。步驟25,將經過所述預定格式的網站日誌信息進行分類形成多個數據集市,並存 儲,便於在接收到查看網站日誌信息請求時,提供相應的網站日誌信息給操作者。值得注意的是,本領域技術人員應該很容易了解,上述提及的網站維護者、網站操 作者、網站運營商、管理者等皆為同一概念,其都需要對網站日誌進行處理,具體本文不再 贅述。從上述內容可以看出,本發明實施例定時獲取網站日誌信息並在進行格式化後集 中存儲,使得網站維護者在需要了解網站當前運營情況時,可以直接獲取經過格式化的網 站日誌信息並進行分析,而無需進行格式化操作,從而減小了處理時延。從而使得網站維護 者可及時了解網站當前運營情況,制定出更有效的運營策略。對所公開的實施例的上述說明,使本領域專業技術使用者員能夠實現或使用本發 明。對這些實施例的多種修改對本領域的專業技術使用者員來說將是顯而易見的,本文中 所定義的一般原理可以在不脫離本發明的精神或範圍的情況下,在其它實施例中實現。因 此,本發明將不會被限制於本文所示的這些實施例,而是要符合與本文所公開的原理和新 穎特點相一致的最寬的範圍。
權利要求
1.一種日誌信息管理系統,其特徵在於,包括日誌信息管理單元、日誌信息抽取格式 化單元、數據統一集中單元和網站日誌信息提供單元,其中所述日誌信息管理單元用於配置同一伺服器端的日誌信息的格式為預設格式,以及, 定時截取日誌信息並保存,從中選出網站日誌信息並存儲於預先建立的日誌回收伺服器 中;所述日誌信息抽取格式化單元用于格式化日誌回收伺服器中存儲的網站日誌信息; 所述數據統一集中單元用於將經過格式化的網站日誌信息進行分類,形成多個數據 集市並存儲;所述網站日誌信息提供單元,用於在接收到查看網站日誌信息請求時,提供相應的網 站曰志信息。
2.根據權利要求1所述系統,其特徵在於,所述日誌回收伺服器包括一級日誌回收點 和二級日誌回收點;所述一級日誌回收點用於存儲所有網絡日誌信息中選出的帶寬情況良好的網站日誌 fn息;所述二級日誌回收點用於存儲除所述一級日誌回收點存儲的網站日誌信息之外的網站曰志信息。
3.根據權利要求2所述系統,其特徵在於,所述一級日誌回收點和/或二級日誌回收點 的存儲方式為RAID6並劃分虛擬卷方式。
4.根據權利要求1所述系統,其特徵在於,所述日誌信息抽取格式化單元包括 抽取單元,用於抽取網絡日誌信息;轉換單元,用於將所述抽取單元抽取的網絡日誌信息轉換成預定格式的網絡日誌信息;裝載單元,用於將所述預定格式的網絡日誌信息進行存儲。
5.根據權利要求4所述系統,其特徵在於,所述日誌信息抽取格式化單元還包括觸發 器,用於產生控制所述抽取單元、轉換單元和裝載單元工作的觸發信號。
6.根據權利要求5所述系統,其特徵在於,所述觸發器包括行觸發器和表觸發器。
7.根據權利要求1所述系統,其特徵在於,所述日誌信息抽取格式化單元進行處理的 網絡日誌信息包括基礎數據層數據,粒度放大層數據和數據集市層數據。
8.—種日誌信息管理方法,其特徵在於,包括 配置同一伺服器日誌信息格式;定時截取日誌信息並保存;從所述截獲的日誌信息中選取網站日誌信息並存儲於預先建立的日誌回收伺服器中;將所述日誌回收伺服器中存儲的網站日誌信息格式化處理,轉換成符合預定格式的網 絡日誌信息;將經過所述預定格式的網站日誌信息進行分類形成多個數據集市,並存儲,便於在接 收到查看網站日誌信息請求時,提供相應的網站日誌信息給操作者。
9.根據權利要求8所述方法,其特徵在於,將網絡日誌信息存儲於預先建立的日誌回 收伺服器包括預設一級回收點和二級回收點,用以對日誌信息進行分類回收; 所述一級日誌回收點選取存儲所有數據中的帶寬情況良好的網站日誌信息; 所述二級日誌回收點存儲除所述一級日誌回收點存儲的數據之外的數據。
10.根據權利要求8所述方法,其特徵在於,在將所述網站日誌信息進行格式化處理前 還包括將網絡日誌信息分為基礎數據層數據、粒度放大層數據和數據集市層數據;將上述每 層數據再進行分層,在每層中把所有數據用數列連接,便於對數據的處理。
全文摘要
本發明涉及一種日誌信息管理方法及系統;其中,該系統包括日誌信息管理單元、日誌信息抽取格式化單元和數據統一集中單元;所述日誌信息管理單元用於配置同一伺服器端的日誌格式,截取日誌信息並保存,在伺服器數據中心建立日誌回收伺服器;所述日誌信息抽取格式化單元對日誌回收伺服器收集來的各種日誌進行抽取,轉換和裝載;所述數據統一集中單元用於將經過抽取、轉換處理的日誌信息集中並創建數據集市。通過將相同伺服器上的日誌格式統一,從而能夠最大的降低日誌信息抽取格式化過程中抽取和轉換的比例,將通過上述處理的數據進行集中統一的存儲,從而使伺服器對日誌的分析操作效率提高。
文檔編號H04L12/24GK102111285SQ200910244009
公開日2011年6月29日 申請日期2009年12月24日 優先權日2009年12月24日
發明者劉萬年, 郜時紅, 陳濤, 雷紫東 申請人:北京雲快線軟體服務有限公司