一種數據處理方法、分布式文件系統及數據伺服器與流程
2023-12-01 06:21:56

本發明涉及大數據分析領域,尤其涉及一種數據處理方法、分布式文件系統及數據伺服器。
背景技術:
大數據分析,是指企業採用各種方式捕獲到海量、多樣、真實的數據,然後對這些數據進行分析處理。分布式文件系統是大數據分析的基礎,其中包含多個數據伺服器,為大數據分析提供所需的數據。分布式文件系統對應有多個客戶端,各個客戶端採用頁面埋點技術收集用戶行為數據,然後將採集的數據上報至分布式文件系統,由分布式文件系統過濾不合格的數據,保留合格的數據。
在現有技術中,分布式文件系統不能提供其內部的數據處理情況,從而無法為技術人員判斷分布式文件系統的運行情況提供依據。
技術實現要素:
有鑑於此,本發明提供一種數據處理方法、分布式文件系統及數據伺服器,以解決現有技術中分布式文件系統不能提供其內部的數據處理情況的問題。技術方案如下:
一種數據處理方法,所述方法應用於分布式文件系統,所述方法包括:
接收客戶端上傳的數據;
統計接收到所述客戶端上傳的所有數據的接收數據總條數;
過濾所述客戶端上傳的數據中的不合格數據;
統計過濾掉的所有不合格數據的過濾數據總條數。
上述的方法,優選的,所述分布式文件系統包括多個數據伺服器;所述統計接收到所述客戶端上傳的所有數據的接收數據總條數,包括:
獲取每個所述數據伺服器接收到數據的接收數據條數;其中,所述接收數據條數由所述數據伺服器統計該數據伺服器所接收到的、所述客戶端上傳的數據的條數得到;
對獲取的各個所述接收數據條數求和,得到所述接收數據總條數。
上述的方法,優選的,所述分布式文件系統包括多個數據伺服器;所述統計過濾掉的所有不合格數據的過濾數據總條數,包括:
獲取每個所述數據伺服器過濾掉的不合格數據的過濾數據條數;其中,所述過濾數據條數由所述數據伺服器統計該數據伺服器過濾掉的不合格數據的條數得到;
對獲取的各個所述過濾數據條數求和,得到所述過濾數據總條數。
上述的方法,優選的,還包括:
實時顯示所述接收數據總條數和所述過濾數據總條數。
上述的方法,優選的,還包括:
按照預設周期,保存所述接收數據總條數和所述過濾數據總條數。
上述的方法,優選的,還包括:
當接收到包含目標時間範圍的查詢請求時,確定與所述目標時間範圍相對應的單位時間;
按所述單位時間將所述目標時間範圍劃分成多個時間區間;
對於每一個所述時間區間,當所述時間區間內存在已保存的所述接收數據總條數和所述過濾數據總條數時,確定所述時間區間為目標時間區間;
依據已保存的所述接收數據總條數和所述過濾數據總條數,計算所述目標時間區間內的目標接收數據條數和目標過濾數據條數;
顯示與每個所述目標時間區間相對應的目標接收數據條數和目標過濾數據條數。
上述的方法,優選的,所述依據已保存的所述接收數據總條數和所述過濾數據總條數,計算所述目標時間區間內的目標接收數據條數和目標過濾數據條數,包括:
在所述目標時間區間內,確定所述接收數據總條數的最大值和最小值,以及,確定所述過濾數據總條數的最大值和最小值;
對所述接收數據總條數的最大值和最小值做差,得到目標接收數據條數,以及,對所述過濾數據總條數的最大值和最小值做差,得到目標過濾數據條數。
一種數據處理方法,應用於數據伺服器,包括:
接收客戶端上傳的數據;
統計所述數據伺服器接收到的所述客戶端上傳的數據的接收數據條數;
過濾所述客戶端上傳的數據中的不合格數據;
統計所述數據伺服器過濾掉的不合格數據的過濾數據條數。
一種分布式文件系統,包括統計裝置和多個數據伺服器,其中,所述統計裝置包括第一統計單元和第二統計單元;其中:
所述數據伺服器用於,接收客戶端上傳的數據;
所述第一統計單元用於,統計每個所述數據伺服器接收到所述客戶端上傳的數據的接收數據總條數;
所述數據伺服器還用於,過濾所述客戶端上傳的數據中的不合格數據;
所述第二統計單元用於,統計每個所述數據伺服器過濾掉的不合格數據的過濾數據總條數。
一種數據伺服器,包括:
接收單元,用於接收客戶端上傳的數據;
第一統計單元,用於統計所述數據伺服器接收到的所述客戶端上傳的數據的接收數據條數;
過濾單元,用於過濾所述客戶端上傳的數據中的不合格數據;
第二統計單元,用於統計所述數據伺服器過濾掉的不合格數據的過濾數據條數。
本發明提供了一種數據處理方法,應用於分布式文件系統,該方法包括:接收客戶端上傳的數據;統計接收到所述客戶端上傳的所有數據的接收數據總條數;過濾所述客戶端上傳的數據中的不合格數據;統計過濾掉的所有不合格數據的過濾數據總條數。從而使得,分布式文件系統對接收到客戶端上傳的所有數據的條數,以及,對過濾掉的所有不合格數據的條數,分別進行了統計,從而可使技術人員以統計的數據處理情況為依據,判斷分布式文件系統的運行情況。
當然,實施本發明的任一產品並不一定需要同時達到以上所述的所有優點。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。
圖1為本發明提供的一種數據處理方法的流程圖;
圖2為本發明提供的一種數據處理方法的又一流程圖;
圖3為本發明提供的一種數據處理方法的又一流程圖;
圖4為本發明提供的一種數據處理方法的又一流程圖;
圖5為本發明提供的一種數據處理方法的又一流程圖;
圖6為本發明提供的一種數據處理方法的又一流程圖;
圖7為本發明提供的一種數據處理方法的又一流程圖;
圖8為本發明提供的一種分布式文件系統的結構示意圖;
圖9為本發明提供的一種數據伺服器的結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
在本發明中,客戶端指的是智能電視、網際網路電視機頂盒、有線電視機頂盒、智慧型手機、平板電腦和計算機等終端設備。
實施例一
本發明提供的一種數據處理方法的流程圖如圖1所示,該方法應用於分布式文件系統,包括:
步驟s11:接收客戶端上傳的數據;
本實施例中,分布式文件系統對應有多個客戶端,各客戶端採用「埋點」的方式採集用戶的行為數據。客戶端埋點採集的數據,當滿足以下兩個條件中的任意一個時,即進行上傳。兩個條件為:①用戶行為數據滿足預設條數,如20條,預設條數可以根據實際情況進行設置;②滿足預設時間間隔,如1分鐘,同樣的,預設時間間隔也可以根據實際情況進行設置。
分布式文件系統接收客戶端上傳的數據。
步驟s12:統計接收到所述客戶端上傳的所有數據的接收數據總條數;
本實施例中,在所有客戶端上傳的數據中,對於接收到的所有數據,分布式文件系統統計它們的條數,作為接收數據總條數。接收數據總條數是一個累計值。
步驟s13:過濾所述客戶端上傳的數據中的不合格數據;
本實施例中,步驟s13即為,分布式文件系統對接收到的所有數據中的不合格數據進行過濾。不合格數據即不符合上報規範的數據。不合格數據如果不被篩除,將會佔據真實數據的比例,最後導致大數據分析時結果失真。
步驟s14:統計過濾掉的所有不合格數據的過濾數據總條數。
本實施例中,對於在分布式文件系統中被過濾掉的所有不合格數據,分布式文件系統統計它們的條數,作為過濾數據總條數。過濾數據總條數是一個累計值。
本實施例提供的數據處理方法,接收客戶端上傳的數據;統計接收到所述客戶端上傳的所有數據的接收數據總條數;過濾所述客戶端上傳的數據中的不合格數據;統計過濾掉的所有不合格數據的過濾數據總條數。從而使得,分布式文件系統對接收到客戶端上傳的所有數據的條數,以及,對過濾掉的所有不合格數據的條數,分別進行了統計,從而可使技術人員以統計的數據處理情況為依據,判斷分布式文件系統的運行情況。
在前述的基礎上,進一步的,本實施例提供的數據處理方法,可以應對客戶端數據採集機制、生成機制、上報機制等問題。數據採集機制存在問題使客戶端無法正常採集數據,數據上報機制存在問題使客戶端無法上報數據,數據生成機制存在問題使客戶端上報的數據不符合規範而被過濾。這些問題,會使整個大數據系統出現異常。例如,廣東省網數據採集機制出現程序異常導致沒有採集到數據,進而會使分布式文件系統無法從廣東省接收到數據,整個大數據系統也會因此出現異常。
如前述所說,本實施例提供的方法可使技術人員以統計的數據處理情況為依據,判斷分布式文件系統的運行情況,也就可以及時發現數據採集機制、生成機制、上報機制等存在問題,避免數月過後發現無合格數據上報才給出補救措施的情況出現。
實施例二
在實施例一的基礎上,本實施例具體介紹實施例一中步驟s12和步驟s14的具體過程。在本實施例中,首先需要說明的是,在分布式文件系統中,包括多個數據伺服器。
在分布式文件系統中,接收客戶端上傳的數據,以及,過濾客戶端上傳的數據中的不合格數據,均由系統內的各個數據伺服器完成。同樣的,與分布式文件系統對應的多個客戶端,則是分別與各個數據伺服器相對應。
對於步驟s12,本發明提供的一種數據處理方法的又一流程圖如圖2所示,示出了統計接收到所述客戶端上傳的所有數據的接收數據總條數的具體步驟,包括:
步驟s21:獲取每個所述數據伺服器接收到數據的接收數據條數;其中,所述接收數據條數由所述數據伺服器統計該數據伺服器所接收到的、所述客戶端上傳的數據的條數得到;
本實施例中,對於任意一個數據伺服器,該數據伺服器對其所接收到的、客戶端上傳的數據的條數進行統計,得到該數據伺服器的接收數據條數。分布式文件系統獲取每個數據伺服器的接收數據條數。
數據伺服器本身在統計接收數據條數時,可採用以下方法:只要成功接收到一條客戶端上傳的數據,及可認定為一條數據的成功上傳,將接收數據條數作加1處理,依此方法累計接收數據條數。更具體的,這個過程是由數據伺服器內置的函數完成的,每成功接收到一條數據,函數累計值加1。
步驟s22:對獲取的各個所述接收數據條數求和,得到所述接收數據總條數。
本實施例中,對獲取的各個數據伺服器的接收數據條數求和,即為分布式文件系統的接收數據總條數。
對於步驟s14,本發明提供的一種數據處理方法的又一流程圖如圖3所示,示出了統計過濾掉的所有不合格數據的過濾數據總條數的具體步驟,包括:
步驟s31:獲取每個所述數據伺服器過濾掉的不合格數據的過濾數據條數;其中,所述過濾數據條數由所述數據伺服器統計該數據伺服器過濾掉的不合格數據的條數得到;
本實施例中,對於任意一個數據伺服器,該數據伺服器對其接收到的、客戶端上傳的數據進行過濾,並對所過濾掉的不合格數據的條數進行統計,得到該數據伺服器的過濾數據條數。分布式文件系統獲取每個數據伺服器的過濾數據條數。
數據伺服器本身在統計過濾數據條數時,可採用以下方法:只要過濾掉一條數據,就將過濾數據條數作加1處理,依此方法累計過濾數據條數。更具體的,這個過程同樣是由數據伺服器內置的函數完成的,每過濾掉一條數據,函數累計值加1。
步驟s32:對獲取的各個所述過濾數據條數求和,得到所述過濾數據總條數。
本實施例中,對獲取的各個數據伺服器的過濾數據條數求和,即為分布式文件系統的過濾數據總條數。
在本實施例中,還需要說明的是,對於圖2和圖3所示的數據處理方法,優選的,可以基於zabbix(一個基於web界面的提供分布式系統監視以及網絡監視功能的企業級的開源解決方案)來實現其中的獲取過程和求和過程。zabbix可以實時監視並獲取各個數據伺服器的接收數據條數和過濾數據條數,並可以對這兩者各自求和,得到接收數據總條數和過濾數據總條數。
實施例三
在實施例一的基礎上,本發明提供的一種數據處理方法的又一流程圖如圖4所示,在步驟s14之後,還可以包括:
步驟s15:實時顯示所述接收數據總條數和所述過濾數據總條數。
本實施例提供的數據處理方法,將接收數據總條數和過濾數據總條數實時顯示,便於直觀查看。顯示時可以採用單一的數字顯示方式,也可以採用數字、曲線圖相結合的方式,曲線圖內保留一個歷史時間段(如1小時等)的歷史曲線。
實施例四
在實施例一的基礎上,本發明提供的一種數據處理方法的又一流程圖如圖5所示,包括:
步驟s41:接收客戶端上傳的數據;
步驟s42:統計接收到所述客戶端上傳的所有數據的接收數據總條數;
步驟s43:過濾所述客戶端上傳的數據中的不合格數據;
步驟s44:統計過濾掉的所有不合格數據的過濾數據總條數。
步驟s45:按照預設周期,保存所述接收數據總條數和所述過濾數據總條數;
本實施例中,預設周期可以根據實際需求進行設置,通常可以為1分鐘。在保存時,同時記錄保存時間,以便於後期的歷史查詢,或者作為基礎數據被使用。
步驟s46:當接收到包含目標時間範圍的查詢請求時,確定與所述目標時間範圍相對應的單位時間;
本實施例中,目標時間範圍通常是某一天、某一月或者某一年。對於某一天,其相對應的單位時間是小時;對於某一月,其相對應的單位時間是天;對於某一年,其相對應的單位時間是月。根據目標時間範圍確定相對應的單位時間。
考慮到本實施例中,最小的單位時間為1小時,同時,各個單位時間的起點都是某小時的起點,各個單位時間的終點都是某小時的終點。因此,步驟s45中的預設周期在設置時應相匹配,在時間覆蓋和節約系統資源綜合考慮,1分鐘為佳。
步驟s47:按所述單位時間將所述目標時間範圍劃分成多個時間區間;
本實施例中,將目標時間範圍按對應的單位時間劃分為多個時間區間,如,對於某一天,將其劃分為24小時,即24個時間區間。
步驟s48:對於每一個所述時間區間,當所述時間區間內存在已保存的所述接收數據總條數和所述過濾數據總條數時,確定所述時間區間為目標時間區間;
本實施例中,對於目標時間範圍,可能存在以下情況:該目標時間範圍內不存在已保存的接收數據總條數和過濾數據總條數;該目標時間範圍內包含有不存在已保存的接收數據總條數和過濾數據總條數的時間段。由於這些情況的存在,因此,對於步驟s47中劃分出的多個時間區間,首先確定存在已保存的接收數據總條數和過濾數據總條數的時間區間為目標時間區間。
步驟s49:依據已保存的所述接收數據總條數和所述過濾數據總條數,計算所述目標時間區間內的目標接收數據條數和目標過濾數據條數;
本實施例中,分布式文件系統對於每一個目標時間區間,依據該目標時間區間內的、已保存的接收數據總條數,計算目標接收數據條數;依據該目標時間區間內的、已保存的過濾數據總條數,計算目標過濾數據條數
步驟s410:顯示與每個所述目標時間區間相對應的目標接收數據條數和目標過濾數據條數。
本實施例中,分布式文件系統在計算得到各個目標時間區間的目標接收數據條數和目標過濾數據條數後,可以按表格的形式,或者折線圖的形式,將它們顯示出來。
本實施例提供的數據處理方法,分布式文件系統提供了歷史數據追溯的功能,可以直觀的反應所要查詢的一個歷史時期內各目標時間區間的目標接收數據條數和目標過濾數據條數。從而,使技術人員可以以此為依據,分析數據走向,進而從中判斷分布式文件系統的運行情況。
本實施例中,優選的,提供一種數據處理方法的又一流程圖如圖6所示,示出了依據已保存的所述接收數據總條數和所述過濾數據總條數,計算所述目標時間區間內的目標接收數據條數和目標過濾數據條數的具體步驟,包括:
步驟s51:在所述目標時間區間內,確定所述接收數據總條數的最大值和最小值,以及,確定所述過濾數據總條數的最大值和最小值;
本實施例中,之所以採用確定接收數據總條數的最大值和最小值、確定過濾數據總條數的最大值和最小值,是因為,接收數據總條數和過濾數據總條數均為累計值,也就是說,在一個目標時間區間內,存在已保存的接收數據總條數和過濾數據總條數的最初時刻必然對應接收數據總條數和過濾數據總條數兩者的最小值,最末時刻必然對應兩者的最大值。還需要說明的是,在本實施例中,對於接收數據總條數和過濾數據總條數,在目標時間區間內,任意一者的最大值和最小值可以相等。
步驟s52:對所述接收數據總條數的最大值和最小值做差,得到目標接收數據條數,以及,對所述過濾數據總條數的最大值和最小值做差,得到目標過濾數據條數。
實施例五
本發明提供的一種數據處理方法的又一流程圖如圖7所示,該方法應用於數據伺服器,包括:
步驟s61:接收客戶端上傳的數據;
本實施例中,分布式文件系統內包含多個數據伺服器,分布式文件系統接收客戶端上傳的數據,其實質上是,各個數據伺服器接收與其各自相對應的客戶端上傳的數據。
客戶端採集、上傳數據的情況如實施例一種步驟s11處所述,不再贅述。
步驟s62:統計所述數據伺服器接收到的所述客戶端上傳的數據的接收數據條數;
本實施例中,對該數據伺服器所接收到的、客戶端上傳的數據的條數進行統計,得到該數據伺服器的接收數據條數。接收數據條數是一個累計值。
更具體的,只要成功接收到一條客戶端上傳的數據,及可認定為一條數據的成功上傳,將接收數據條數作加1處理,依此方法累計接收數據條數。這個過程可以由數據伺服器內置的函數完成的,每成功接收到一條數據,函數累計值加1。
步驟s63:過濾所述客戶端上傳的數據中的不合格數據;
本實施例中,對於該數據伺服器接收到的數據中的不合格數據進行過濾。不合格數據即不符合上報規範的數據。
步驟s64:統計所述數據伺服器過濾掉的不合格數據的過濾數據條數。
本實施例中,對該數據伺服器過濾掉的不合格數據的條數進行統計,得到該數據伺服器的過濾數據條數。過濾數據條數是一個累計值。
更具體的,只要過濾掉一條數據,就將過濾數據條數作加1處理,依此方法累計過濾數據條數。這個過程同樣可以由數據伺服器內置的函數完成的,每過濾掉一條數據,函數累計值加1。
本實施例提供的數據處理方法,接收客戶端上傳的數據;統計所述數據伺服器接收到的所述客戶端上傳的數據的接收數據條數;過濾所述客戶端上傳的數據中的不合格數據;統計所述數據伺服器過濾掉的不合格數據的過濾數據條數。從而使得,分布式文件系統中的各個數據伺服器,對接收到與其對應的客戶端上傳的數據的條數,以及,對過濾掉的不合格數據的條數,分別進行了統計,從而可使技術人員通過匯總各個數據伺服器統計的數據處理情況,並以此為依據,判斷分布式文件系統的運行情況。
實施例六
與實施例一相對應,本發明提供了一種分布式文件系統的結構示意圖,如圖8所示,包括統計裝置71和多個數據伺服器72,其中,所述統計裝置71包括第一統計單元711和第二統計單元712;其中:
所述數據伺服器72用於,接收客戶端上傳的數據;
所述第一統計單元711用於,統計每個所述數據伺服器72接收到所述客戶端上傳的數據的接收數據總條數;
所述數據伺服器72還用於,過濾所述客戶端上傳的數據中的不合格數據;
所述第二統計單元712用於,統計每個所述數據伺服器72過濾掉的不合格數據的過濾數據總條數。
實施例七
與實施例五相對應,本發明提供了一種數據伺服器的結構示意圖,如圖9所示,包括:
接收單元81,用於接收客戶端上傳的數據;
第一統計單元82,用於統計所述數據伺服器接收到的所述客戶端上傳的數據的接收數據條數;
過濾單元83,用於過濾所述客戶端上傳的數據中的不合格數據;
第二統計單元84,用於統計所述數據伺服器過濾掉的不合格數據的過濾數據條數。
需要說明的是,本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對於裝置類實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本發明時可以把各單元的功能在同一個或多個軟體和/或硬體中實現。
通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本發明可藉助軟體加必需的通用硬體平臺的方式來實現。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品可以存儲在存儲介質中,如rom/ram、磁碟、光碟等,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)執行本發明各個實施例或者實施例的某些部分所述的方法。
以上對本發明所提供的一種數據處理方法、分布式文件系統及數據伺服器進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。