一種處理缺失數據的方法及裝置製造方法
2023-06-30 20:27:16 1
一種處理缺失數據的方法及裝置製造方法
【專利摘要】本發明公開了一種處理缺失數據的方法及裝置,包括在經營周期內出現缺失數據時,利用上一運營周期中相同統計時點的累計值估算本運營周期的當期累計值;根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。本發明方案針對經營周期對缺失數據進行估算,大大減少了估算所需的數據量即計算複雜度,從而降低了計算佔用的系統資源,縮短了運行時間;而且,本發明結合缺失數據時點當期累計值估算數據及前一統計時點的當期累計實際值,更加準確地對缺失數據進行了估算。進一步地,本發明在處理缺失數據的過程中,通過對相關計算元素的存儲,為缺失數據的計算提供了參考,提高了缺失數據的處理速度。
【專利說明】一種處理缺失數據的方法及裝置
【技術領域】
[0001]本發明涉及數據處理技術,尤指一種處理缺失數據的方法及裝置。
【背景技術】
[0002]隨著信息技術的發展,企業的信息系統覆蓋率越來越高,大部分企業都建立了基於各類數據的分析系統,以支持企業的快速、精準決策。
[0003]當企業內部信息系統增多後,分析系統在抽取數據時難免會遇到業務源系統由於系統故障或性能問題而無法提供全部或部分數據的情況。在這種情況下,系統界面展示的數據必然存在缺失或失真,給使用帶來極大的不便。尤其是總量數據的展示,如果不加處理,會顯示大幅度的數據異動,給使用人員帶來困擾。
[0004]對於缺失數據的處理,通常採用如下處理方式:刪除數據、不處理或採用統計方法填充數據等。如果用於分析、挖掘等尋求數據內在規律,缺失的數據可以根據具體影響採用上述三種方式中任一方式進行處理。但是,在企業數據分析系統中,由於數據需要實時展現,如果採用刪除數據,或不處理的方式,都會帶來總量數據異常波動,從而給數據使用人員帶來不便,因此,對於企業數據分析系統,是不能採用簡單刪除數據或者不處理的方式的,其更適用於填充數據的處理方式。
[0005]企業數據分析系統採集數據的頻次分為日、月、季或按小時採集的準實時數據,當數據採集頻次為按小時或日採集時,需要採用一種快速的填充數據處理方式,不能使用複雜耗時的一般性統計方法來填充數據。
[0006]經過對企業數據進行分析,發明人發現企業的數據具有非常顯著的周期性特點。獨立的數據變化規律往往不明顯,但每個運營周期的當期累計值往往具有顯著特點,比如:新增用戶數,雖然在一個月中觀察每天的數據變動,規律性不強,但如果看每個月各天的累計新增用戶數,卻有比較強的規律性。如果採用一般性統計方法來估算某天的缺失數據,往往忽略了這種針對性,完全基於大量的歷史數據進行計算,實現起來比較複雜,且計算量大時佔用系統資源多,運行時間長,無法滿足快速提供數據的要求。
【發明內容】
[0007]為了解決上述技術問題,本發明提供了一種處理缺失數據的方法及裝置,能夠在一般性統計方法的基礎上,簡單、快速、準確地對企業數據中的缺失數據進行處理。
[0008]為了達到本發明目的,本發明提供了一種處理缺失數據的方法,當前運營周期出現缺失數據時,包括:利用上一運營周期中相同統計時點的累計值估算本運營周期的當期累計值;
[0009]根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。
[0010]所述利用上一運營周期中相同統計時點的當期累計值估算本運營周期當期累計值包括:[0011]根據所述上一運營周期中在統計時點的當期累計值,計算上一運營周期各統計時點的當期累計平均值;
[0012]根據上一運營周期中各統計時點的當期累計值,及計算得到的當期累計平均值,計算得到當期累計估計係數;
[0013]根據計算得到的當期累計平均值及當期累計估計係數獲取當期統計時點累計值的估計值。
[0014]所述獲取當期統計時點缺失數據的估計值包括:
[0015]計算所述統計時點當期累計值的估計值與所述上期統計時點實際的累計值之差,得到的差值為統計時點當期累計值的估計值。
[0016]所述經營周期結束時,該方法還包括:存儲運營周期各統計時點的當期累計估算係數。
[0017]所述運營周期結束後,該方法還包括:存儲最近一個經營周期各統計時點的當期累計平均值。
[0018]本發明還提供一種處理缺失數據的裝置,至少包括第一處理模塊、第二處理模塊,其中,
[0019]第一處理模塊,用於根據上一完整的經營周期中各運營周期中各統計時點當期累計值,計算各統計時點的當期累計平均值;根據上一完整的經營周期中各統計時點當期累計值,以及各統計時點的當期累計實際值,計算得到各統計時點當期累計估計係數;根據最近一個經營周期所有運營周期各統計時點的當期累計實際值,計算得到各統計時點的當期累計平均值。
[0020]第二處理模塊,根據缺失數據所在統計時點的當期累計值估算係數及最近一個經營周期中各統計時點的當期累計平均值,計算得到當前缺失數據統計時點的當期累計估算值,根據估算出的當期累計值及前一天實際的當期累計值,獲取當期當天缺失數據的估計值。
[0021]還包括存儲模塊,用於存儲第一處理模塊計算出的當期累計平均值、當期累計估算係數。
[0022]與現有技術相比,本發明包括在當前運營周期內出現缺失數據時,利用上一運營周期中相同統計時點的累計值估算本運營周期的當期累計值;根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。本發明方案針對經營周期數據特點對缺失數據進行估算,大大減少了估算所需數據量及計算複雜度,從而降低了計算佔用的系統資源,縮短了運行時間;而且,本發明結合缺失數據時點當期累計值估算數據及前一統計時點累計值實際數據,更加準確地對缺失數據進行了估算。
[0023]進一步地,本發明在處理缺失數據的過程中,通過對相關計算元素的存儲,為缺失數據的計算提供了參考,提高了缺失數據的處理速度。
[0024]本發明的其它特徵和優點將在隨後的說明書中闡述,並且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在說明書、權利要求書以及附圖中所特別指出的結構來實現和獲得。
【專利附圖】
【附圖說明】[0025]附圖用來提供對本發明技術方案的進一步理解,並且構成說明書的一部分,與本申請的實施例一起用於解釋本發明的技術方案,並不構成對本發明技術方案的限制。
[0026]圖1為本發明處理缺失數據的方法的流程圖;
[0027]圖2為本發明處理缺失數據的裝置的組成結構示意圖。
【具體實施方式】
[0028]為使本發明的目的、技術方案和優點更加清楚明白,下文中將結合附圖對本發明的實施例進行詳細說明。需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互任意組合。
[0029]在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行。並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。
[0030]圖1為本發明處理缺失數據的方法的流程圖,如圖1所示,包括:
[0031]步驟100:當前運營周期出現缺失數據時,利用上一運營周期相同統計時點的累計值估算本運營周期的當期累計值。其中,上一運營周期相同統計時點,指的是自當前時點前推一個運營周期的時間長度所在的時間點。
[0032]本步驟中,如何確定缺失數據是否出現屬於現有技術,這裡不再贅述。這裡強調的是,對缺失數據的處理是針對每個經營周期進行的,而每個經營周期由若干個運營周期組成,如12個月為一個經營周期,而每個月為一個運營周期;或者,31天為一個經營周期,而每天為一個運營周期等。具體如何設置經營周期由運營商根據數據特點設置,屬於本領域技術人員的慣用技術手段。
[0033]本步驟中,可以自當前經營周期前推,選取一整個經營周期的歷史數據進行計算,利用歷史數據中各運營周期相同統計時點的當期累計值估算統計時點當期累計值,具體包括:首先,根據歷史數據中各運營周期缺失數據統計時點的當期累計值,計算缺失上一運營周期各統計時點的當期累計平均值;然後,根據上一運營周期中各統計時點的當期累計值,及計算得到的當期累計平均值,計算當期累計值估計係數;最後,根據計算得到的當期累計平均值及當期累計估計係數獲取當期統計時點累計值的估計值。
[0034]步驟101:根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。
[0035]本發明方法針對經營周期數據特點對缺失數據進行估算,大大減少了計算所需數據量,降低了計算佔用的系統資源,縮短了運行時間;而且,本發明方法結合當期累計值估算數據及前一統計時點實際的當期累計值,更加準確地對缺失數據進行了估算。
[0036]以經營周期為I年即12個月,每個運營周期I個月為例,本發明方法中,假設需要
估算的值為第m月的第n天即當期當天累計值的估算值,用表示。第m月第n天的當期累計值用Cnm表示;各月第n天的當期累計平均值用G表示;第m月第n天的當期累計估算係數用Snm表示;第m月第n天缺失數據的估算數用廠良示。其中,
[0037]首先,各月第n天的當期累計平均值巧按照公式(I)計算:[0038]
【權利要求】
1.一種處理缺失數據的方法,當前運營周期出現缺失數據時,其特徵在於,包括:利用上一運營周期中相同統計時點的累計值估算本運營周期的當期累計值; 根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。
2.根據權利要求1所述的方法,其特徵在於,所述利用上一運營周期中相同統計時點的當期累計值估算本運營周期當期累計值包括: 根據所述上一運營周期中在統計時點的當期累計值,計算上一運營周期各統計時點的當期累計平均值; 根據上一運營周期中各統計時點的當期累計值,及計算得到的當期累計平均值,計算得到當期累計估計係數; 根據計算得到的當期累計平均值及當期累計估計係數獲取當期統計時點累計值的估計值。
3.根據權利要求1或2所述的方法,其特徵在於,所述獲取當期統計時點缺失數據的估計值包括: 計算所述統計時點當期累計值的估計值與所述上期統計時點實際的累計值之差,得到的差值為統計時點當期累計值的估計值。
4.根據權利要求2所述的方法,其特徵在於,所述經營周期結束時,該方法還包括:存儲運營周期各統計時點的當期累計估算係數。
5.根據權利要求2所述的方法,其特徵在於,所述運營周期結束後,該方法還包括:存儲最近一個經營周期各統計時點的當期累計平均值。
6.一種處理缺失數據的裝置,其特徵在於,至少包括第一處理模塊、第二處理模塊,其中, 第一處理模塊,用於根據上一完整的經營周期中各運營周期中各統計時點當期累計值,計算各統計時點的當期累計平均值;根據上一完整的經營周期中各統計時點當期累計值,以及各統計時點的當期累計實際值,計算得到各統計時點當期累計估計係數;根據最近一個經營周期所有運營周期各統計時點的當期累計實際值,計算得到各統計時點的當期累計平均值; 第二處理模塊,根據缺失數據所在統計時點的當期累計值估算係數及最近一個經營周期中各統計時點的當期累計平均值,計算得到當前缺失數據統計時點的當期累計估算值,根據估算出的當期累計值及前一天實際的當期累計值,獲取當期當天缺失數據的估計值。
7.根據權利要求6所述的裝置,其特徵在於,還包括存儲模塊,用於存儲第一處理模塊計算出的當期累計平均值、當期累計估算係數。
【文檔編號】G06F17/30GK103678721SQ201410001575
【公開日】2014年3月26日 申請日期:2014年1月2日 優先權日:2014年1月2日
【發明者】王芹, 謝攀, 黃敏燕 申請人:中國聯合網絡通信集團有限公司, 聯通系統集成有限公司