基於分布式文件存儲的網站頁面內容統計的方法和系統的製作方法
2023-08-11 05:20:16
基於分布式文件存儲的網站頁面內容統計的方法和系統的製作方法
【專利摘要】本申請公開基於分布式文件存儲的網站頁面內容統計的方法和系統,方法:採集訪問日誌將訪問日誌存入分布式文件存儲資料庫中,以小時為單位存儲到分布式文件存儲資料庫中的相應的集合文檔中;對存儲到分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的有效日誌信息,將有效日誌信息與該訪問日誌建立映射關係;對訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據化簡後的有效日誌信息,輸出訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。本發明解決了根據業務類型方便的組合查詢條件進行網站的PV、UV統計。
【專利說明】基於分布式文件存儲的網站頁面內容統計的方法和系統
【技術領域】
[0001]本申請涉及網站數據統計領域,具體地說,是涉及一種基於分布式文件存儲的網站頁面內容統計的方法和系統。
【背景技術】
[0002]現有技術中,MongoDB (分布式文件存儲資料庫,介於關係資料庫和非關係資料庫之間的產品)支持的數據結構非常鬆散,是類似json的bson格式,因此可以存儲比較複雜的數據類型。Mongo最大的特點是支持的查詢語言非常強大,其語法類似於面向對象的查詢語言,幾乎可以實現類似關係資料庫單表查詢的絕大部分功能,而且還支持對數據建立索弓丨。MongoDB旨在為WEB應用提供可擴展的高性能數據存儲解決方案。
[0003]目前,基於文件和資料庫的網站需要進行UV(獨立訪客,Unique Vistor,訪問您網站的一臺電腦客戶端為一個訪客)、PV (訪問量,Page View,頁面瀏覽量或點擊量,用戶每次刷新即被計算一次)的統計,這兩種方式的統計都比較粗線條,不能靈活的根據業務類型方便的組合查詢條件。
[0004]例如:網站上廣告的PV、UV的統計。網站的頁面上有各種各樣的廣告連結,每個廣告連結都對應一個id主鍵標識。用戶點擊廣告連結便生成一個在網站日誌中產生一條包含該訪客特徵及廣告id主鍵的url (Uniform Resource Locator,統一資源定位符)訪問信息,通過對所有包含廣告id主鍵標識的url訪問信息進行聚合計算,可以輸出一段時間內某一個廣告總共被點擊了幾次(這裡被點擊的次數即為該段時間內該廣告的PV),還可以得到一段時間內有多少個訪客訪問了某一個廣告(這裡計算輸出的訪客數量即為該段時間內該廣告的UV)。然而,如之前所述這兩種方式的統計都比較粗線條,不能靈活的根據業務類型方便的組合查詢條件。
[0005]因此,如何解決根據業務類型方便的組合查詢條件進行網站的PV、UV統計,便成為亟待解決的技術問題。
【發明內容】
[0006]本申請所要解決的技術問題是提供一種基於分布式文件存儲的網站頁面內容統計的方法和系統,以解決根據業務類型方便的組合查詢條件進行網站的PV、UV統計的問題。
[0007]為解決上述技術問題,本申請提供了一種基於分布式文件存儲的網站頁面內容統計的方法,其特徵在於,包括:
[0008]採集訪問日誌,並將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位存儲到所述分布式文件存儲資料庫中的相應的集合文檔中;
[0009]對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的有效日誌信息,將有效日誌信息與該訪問日誌建立映射關係;
[0010]對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
[0011]優選地,所述有效日誌信息,包括:mobile欄位、url欄位、query欄位和/或op欄位。
[0012]優選地,將有效日誌信息與該訪問日誌建立映射關係,進一步為:將所述mobile欄位、url欄位、query欄位和/或op欄位的對應值通過所述分布式文件存儲資料庫中的分布式計算中設定的該訪問日誌的特徵值建立映射關係。
[0013]優選地,以小時為單位存儲到所述分布式文件存儲資料庫中的相應的集合文檔中,進一步為:以小時為單位,按照格式為日誌通量yyyyMMddHH的方式存儲到所述分布式文件存儲資料庫中的相應的集合文檔中。
[0014]優選地,對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值,進一步為:
[0015]對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息以小時、天、周、月或年為單位,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
[0016]為解決上述技術問題,本申請還提供了一種基於分布式文件存儲的網站頁面內容統計的系統,其特徵在於,包括:採集訪問日誌模塊、查找分析模塊和化簡統計模塊;其中,
[0017]所述採集訪問日誌模塊,將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位存儲到所述分布式文件存儲資料庫中的相應的集合文檔中;
[0018]所述查找分析模塊,對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的有效日誌信息,將有效日誌信息與該訪問日誌建立映射關係發送給所述化簡統計模塊;
[0019]所述化簡統計模塊,對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
[0020]優選地,所述有效日誌信息,包括:m0bile欄位、url欄位、query欄位和/或op欄位。
[0021]優選地,所述查找分析模塊,進一步為:對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的mobile欄位、url欄位、query欄位和/或op欄位,將所述mobile欄位、url欄位、query欄位和/或op欄位的對應值通過所述分布式文件存儲資料庫中的分布式計算中設定的該訪問日誌的特徵值建立映射關係發送給所述化簡統計模塊。
[0022]優選地,所述採集訪問日誌模塊,進一步為:將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位,按照格式為日誌通量yyyyMMddHH的方式存儲到所述分布式文件存儲資料庫中的相應的集合文檔中。
[0023]優選地,所述化簡統計模塊,進一步為對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息以小時、天、周、月或年為單位,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
[0024]與現有技術相比,本申請所述的一種基於分布式文件存儲的網站頁面內容統計的方法和系統,達到了如下效果:
[0025]I)本申請所述的技術方案解決了根據業務類型方便的組合查詢條件進行網站的PV、UV統計的問題,可以實現按天、按周、按月或者按年生成統計報表;
[0026]2)本申請所述的技術方案更主要是通過將分散的文本日誌統一到分布式文件存儲資料庫進行日誌等分析,在進行化簡最後合併生成可以實現按天、按周、按月或者按年生成統計報表。
【專利附圖】
【附圖說明】
[0027]此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用於解釋本申請,並不構成對本申請的不當限定。在附圖中:
[0028]圖1為本申請實施例一所述的基於分布式文件存儲的網站頁面內容統計的方法的流程示意框圖;
[0029]圖2為本申請實施例二所述的基於分布式文件存儲的網站頁面內容統計的系統的結構框圖。
[0030]圖3為本申請實施例一中所述分布式文件存儲資料庫中的相應的集合文檔的存儲格式圖。
【具體實施方式】
[0031]如在說明書及權利要求當中使用了某些詞彙來指稱特定組件。本領域技術人員應可理解,硬體製造商可能會用不同名詞來稱呼同一個組件。本說明書及權利要求並不以名稱的差異來作為區分組件的方式,而是以組件在功能上的差異來作為區分的準則。如在通篇說明書及權利要求當中所提及的「包含」為一開放式用語,故應解釋成「包含但不限定於」。「大致」是指在可接受的誤差範圍內,本領域技術人員能夠在一定誤差範圍內解決所述技術問題,基本達到所述技術效果。此外,「耦接」一詞在此包含任何直接及間接的電性耦接手段。因此,若文中描述一第一裝置耦接於一第二裝置,則代表所述第一裝置可直接電性耦接於所述第二裝置,或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書後續描述為實施本申請的較佳實施方式,然所述描述乃以說明本申請的一般原則為目的,並非用以限定本申請的範圍。本申請的保護範圍當視所附權利要求所界定者為準。
[0032]以下結合附圖對本申請作進一步詳細說明,但不作為對本申請的限定。
[0033]實施例一
[0034]如圖1所示,是本申請實施例一所述的一種基於分布式文件存儲的網站頁面內容統計的方法流程,該方法包括:[0035]步驟101,採集訪問日誌,並將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位存儲到所述分布式文件存儲資料庫中的相應的集合文檔中;
[0036]步驟102,對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的有效日誌信息,將有效日誌信息與該訪問日誌建立映射關係;
[0037]步驟103,對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
[0038]實際上,在步驟101中所述的分布式文件存儲資料庫採用Mongodb資料庫,以小時為單位,按照格式為日誌通量(log_flux) yyyyMMddHH的方式存儲到所述分布式文件存儲資料庫中的相應的集合文檔中。
[0039]步驟101中所採集的訪問日誌的格式包括:訪問時間、遠程訪問的主機地址(IP)、請求的方法、請求的URI路徑、響應的狀態碼、發送的字節數、處理請求的時間、參照頁(Referer) URI路徑、用戶代理(User-Agent)、用戶唯一標記和用戶的會話令牌(SessionID)。另外如圖3所示,為所述分布式文件存儲資料庫中的相應的集合文檔的存儲格式。其中包括的參數的說明為:
[0040]_id:採用日誌文件絕對路徑+日誌行號最為唯一標記。
[0041]head
[0042]1gFile:日誌文件絕對路徑
[0043]row:日誌行號
[0044]body
[0045]dateTime:方法時間
[0046]remoteIp ;遠程訪問的主機IP
[0047]visit:請求路徑信息
[0048]url:請求的URI路徑
[0049]type:URI 類型(js、css、jsp 等)
[0050]query:請求參數列表
[0051]method:請求的方法
[0052]status:響應的狀態碼
[0053]sentBytes:發送的字節數
[0054]responseTime:處理請求的時間
[0055]referrer:來源路徑信息
[0056]url:請求的URI路徑
[0057]type:URI 類型(js、css、jsp 等)
[0058]query:請求參數列表
[0059]userAgent:User-Agent 頭信息
[0060]userid:用戶唯一標記
[0061]jsessionid:用戶的 Session ID
[0062]對於步驟102中所述有效日誌信息,主要包括:m0bile欄位、url欄位、query欄位和/或op欄位。
[0063]將有效日誌信息與該訪問日誌建立映射關係,進一步為:將所述mobile欄位、url欄位、query欄位和/或op欄位的對應值通過所述分布式文件存儲資料庫中的分布式計算中設定的該訪問日誌的特徵值建立映射關係。
[0064]本發明中在步驟102和103中主要是通過MongoDB支持MapReduce來完成分解和化簡等的操作。
[0065]MapReduce是一種計算模型,將大批量的工作(數據)分解(MAP)執行,然後再將結果合併成最終結果(REDUCE)。這樣做的好處是可以在任務被分解後,可以通過大量機器進行並行計算,減少整個操作的時間。本發明中使用MapReduce對原始網站的訪問日誌信息進行分解;然後,在採用MongoDB提供的api接口使用MapReduce功能對該MongoDB中存儲的對象(集合文檔)進行分析(分析日誌中的有效日誌信息,如「mobile」、「Url」、「qUery」、「op 「等對應值,找到有效值與其建立映射既是MapReduce中Map的功能設定特徵值建立必要信息映射)、化簡(針對獲取到的所有有效信息欄位對應的有效值進行計算。既是MapReduce中的Reduce的功能),得到最後統計使用的必要數據,同時刪除多餘數據信息。
[0066]對於步驟103中的輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值;在實施例一中,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,為以visit為主鍵的PV、流量中間數據其中主要包括:url欄位、query欄位、type欄位和value欄位等內容。
[0067]輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值,為以visit、jsessionid為主鍵的UV、流量中間數據其中主要包括:url欄位、type欄位、query欄位、mobil·e欄位和value欄位等內容。
[0068]另外,還需要說明的是:如以廣告為例:那麼廣告pv、UV統計,在所有廣告連結點擊產生的日誌信息中都包含adid=?這個特徵值,那麼所有日誌信息中包含adid= ?這個特徵值的即為廣告日誌信息類別,該特徵定義為「adid是否在日誌中存在」。其他特徵值還有渠道平臺特徵,如:訪問渠道是網頁訪問wep、還是手機訪問wap在日誌信息中都與其具體特徵「web」或者「wap」相關聯;分類條件是通過MongoDB的MapReduce和Group(聚合),對相同特徵的單元進行分組計算得到聚合結果集。每個針對具體類別的業務需求,對該類特徵的值進行分組聚合計算。例如:廣告Uv統計,包含adid=4的廣告url訪問信息按訪問手機號group之後被聚合成一個mongodb數據對象,訪問信息條數被寫在聚合結果數據的value值中。廣告pv統計,Goupe之後的mongodb數據對象。進一步設置條件進行mapReduce計算獲取到廣告Uv統計結果為adid=4的mongodb數據對象的個數,記為count值,本例中為2個mongodb數據對象,記為2。Pv統計的group過程是,根據adid=4的值進行group,最後mapreduce計算獲取到廣告pv統計結果為adid=4的mongo數據對象中count欄位值的和。上述內容中的參數只是一個實施例的應用,並不作為具體限定內容。
[0069]實施例二
[0070]本發明實施例二為一種基於分布式文件存儲的網站頁面內容統計的系統,其特徵在於,包括:採集訪問日誌模塊201、查找分析模塊202和化簡統計模塊203 ;其中,
[0071]所述採集訪問日誌模塊201,與分布式文件存儲資料庫相耦接,用於採集訪問日誌,並將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位存儲到所述分布式文件存儲資料庫中的相應的集合文檔中;
[0072]所述查找分析模塊202,與所述分布式文件存儲資料庫和化簡統計模塊203相耦接,用於對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的有效日誌信息,將有效日誌信息與該訪問日誌建立映射關係發送給所述化簡統計模塊;
[0073]所述化簡統計模塊203,與所述查找分析模塊202相耦接,用於對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
[0074]其中,實施例二中所述的有效日誌信息,包括:mobile欄位、url欄位、query欄位和/或op欄位等內容,這裡不作具體限定,具體內容與前述方法限定的相一致。
[0075]具體地,在實施例二中所述查找分析模塊,進一步為:對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的mobile欄位、url欄位、query欄位和/或op欄位,將所述mobile欄位、url欄位、query欄位和/或op欄位的對應值通過所述分布式文件存儲資料庫中的分布式計算中設定的該訪問日誌的特徵值建立映射關係發送給所述化簡統計模塊。
[0076]具體地,在實施例二中所述採集訪問日誌模塊,進一步為:將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位,按照格式為日誌通量yyyyMMddHH的方式存儲到所述分布式文件存儲資料庫中的相應的集合文檔中。
[0077]具體地,在實施例二中所述化簡統計模塊,進一步為對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息以小時、天、周、月或年為單位,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
[0078]由於方法部分已經對本申請實施例一進行了詳細描述,這裡對實施例二中涉及的系統與方法對應部分的展開描述省略,不再贅述。對於系統中具體內容的描述可參考實施例一所述方法的內容,這裡不再具體限定。
[0079]與現有技術相比,本申請所述的一種基於分布式文件存儲的網站頁面內容統計的方法和系統,達到了如下效果:
[0080]I)本申請所述的技術方案解決了根據業務類型方便的組合查詢條件進行網站的PV、UV統計的問題,可以實現按天、按周、按月或者按年生成統計報表;
[0081]2)本申請所述的技術方案更主要是通過將分散的文本日誌統一到分布式文件存儲資料庫進行日誌等分析,在進行化簡最後合併生成可以實現按天、按周、按月或者按年生成統計報表。
[0082]上述說明示出並描述了本申請的若干優選實施例,但如前所述,應當理解本申請並非局限於本文所披露的形式,不應看作是對其他實施例的排除,而可用於各種其他組合、修改和環境,並能夠在本文所述申請構想範圍內,通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本申請的精神和範圍,則都應在本申請所附權利要求的保護範圍內。
【權利要求】
1.一種基於分布式文件存儲的網站頁面內容統計的方法,其特徵在於,包括: 採集訪問日誌,並將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位存儲到所述分布式文件存儲資料庫中的相應的集合文檔中; 對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的有效日誌信息,將有效日誌信息與該訪問日誌建立映射關係; 對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
2.如權利要求1所述的基於分布式文件存儲的網站頁面內容統計的方法,其特徵在於,所述有效日誌信息,包括mobile欄位、url欄位、query欄位和/或op欄位。
3.如權利要求2所述的基於分布式文件存儲的網站頁面內容統計的方法,其特徵在於,將有效日誌信息與該訪問日誌建立映射關係,進一步為:將所述mobile欄位、url欄位、query欄位和/或op欄位的對應值通過所述分布式文件存儲資料庫中的分布式計算中設定的該訪問日誌的特徵值建立映射關係。
4.如權利要求1所述的基於分布式文件存儲的網站頁面內容統計的方法,其特徵在於,以小時為單位存儲到所述分布式文件存儲資料庫中的相應的集合文檔中,進一步為:以小時為單位,按照格式為日誌通量yyyyMMddHH的方式存儲到所述分布式文件存儲資料庫中的相應的集合文檔中。
5.如權利要求1所述的基於分布式文件存儲的網站頁面內容統計的方法,其特徵在於,對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日`志下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值,進一步為: 對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息以小時、天、周、月或年為單位,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
6.一種基於分布式文件存儲的網站頁面內容統計的系統,其特徵在於,包括:採集訪問日誌模塊、查找分析模塊和化簡統計模塊;其中, 所述採集訪問日誌模塊,將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位存儲到所述分布式文件存儲資料庫中的相應的集合文檔中; 所述查找分析模塊,對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的有效日誌信息,將有效日誌信息與該訪問日誌建立映射關係發送給所述化簡統計模塊; 所述化簡統計模塊,對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
7.如權利要求6所述的基於分布式文件存儲的網站頁面內容統計的系統,其特徵在於,所述有效日誌信息,包括mobile欄位、url欄位、query欄位和/或op欄位。
8.如權利要求7所述的基於分布式文件存儲的網站頁面內容統計的系統,其特徵在於,所述查找分析模塊,進一步為:對存儲到所述分布式文件存儲資料庫中的訪問日誌進行分解並找出該訪問日誌中的mobile欄位、url欄位、query欄位和/或op欄位,將所述mobile欄位、url欄位、query欄位和/或op欄位的對應值通過所述分布式文件存儲資料庫中的分布式計算中設定的該訪問日誌的特徵值建立映射關係發送給所述化簡統計模塊。
9.如權利要求6所述的基於分布式文件存儲的網站頁面內容統計的系統,其特徵在於,所述採集訪問日誌模塊,進一步為:將所述訪問日誌存入分布式文件存儲資料庫中,以小時為單位,按照格式為日誌通量yyyyMMddHH的方式存儲到所述分布式文件存儲資料庫中的相應的集合文檔中。
10.如權利要求6所述的基於分布式文件存儲的網站頁面內容統計的系統,其特徵在於,所述化簡統計模塊,進一步為對該訪問日誌下的所有有效日誌信息進行化簡操作,輸出化簡後的有效日誌信息,根據所述化簡後的有效日誌信息以小時、天、周、月或年為單位,輸出該訪問日誌下的以訪問為主鍵的點擊量和對應的流量中間數據的值,或輸出該訪問日誌下的以訪問和會話身份為主鍵的獨立訪客數量和對應的流量中間數據的值。
【文檔編號】G06F17/30GK103729479SQ201410038246
【公開日】2014年4月16日 申請日期:2014年1月26日 優先權日:2014年1月26日
【發明者】瞿繼合, 趙哲, 曹東, 李建濤 申請人:北京北緯通信科技股份有限公司