新四季網

一種處理缺失數據的方法及裝置製造方法

2023-06-30 20:27:16

一種處理缺失數據的方法及裝置製造方法
【專利摘要】本發明公開了一種處理缺失數據的方法及裝置,包括在經營周期內出現缺失數據時,利用上一運營周期中相同統計時點的累計值估算本運營周期的當期累計值;根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。本發明方案針對經營周期對缺失數據進行估算,大大減少了估算所需的數據量即計算複雜度,從而降低了計算佔用的系統資源,縮短了運行時間;而且,本發明結合缺失數據時點當期累計值估算數據及前一統計時點的當期累計實際值,更加準確地對缺失數據進行了估算。進一步地,本發明在處理缺失數據的過程中,通過對相關計算元素的存儲,為缺失數據的計算提供了參考,提高了缺失數據的處理速度。
【專利說明】一種處理缺失數據的方法及裝置
【技術領域】
[0001]本發明涉及數據處理技術,尤指一種處理缺失數據的方法及裝置。
【背景技術】
[0002]隨著信息技術的發展,企業的信息系統覆蓋率越來越高,大部分企業都建立了基於各類數據的分析系統,以支持企業的快速、精準決策。
[0003]當企業內部信息系統增多後,分析系統在抽取數據時難免會遇到業務源系統由於系統故障或性能問題而無法提供全部或部分數據的情況。在這種情況下,系統界面展示的數據必然存在缺失或失真,給使用帶來極大的不便。尤其是總量數據的展示,如果不加處理,會顯示大幅度的數據異動,給使用人員帶來困擾。
[0004]對於缺失數據的處理,通常採用如下處理方式:刪除數據、不處理或採用統計方法填充數據等。如果用於分析、挖掘等尋求數據內在規律,缺失的數據可以根據具體影響採用上述三種方式中任一方式進行處理。但是,在企業數據分析系統中,由於數據需要實時展現,如果採用刪除數據,或不處理的方式,都會帶來總量數據異常波動,從而給數據使用人員帶來不便,因此,對於企業數據分析系統,是不能採用簡單刪除數據或者不處理的方式的,其更適用於填充數據的處理方式。
[0005]企業數據分析系統採集數據的頻次分為日、月、季或按小時採集的準實時數據,當數據採集頻次為按小時或日採集時,需要採用一種快速的填充數據處理方式,不能使用複雜耗時的一般性統計方法來填充數據。
[0006]經過對企業數據進行分析,發明人發現企業的數據具有非常顯著的周期性特點。獨立的數據變化規律往往不明顯,但每個運營周期的當期累計值往往具有顯著特點,比如:新增用戶數,雖然在一個月中觀察每天的數據變動,規律性不強,但如果看每個月各天的累計新增用戶數,卻有比較強的規律性。如果採用一般性統計方法來估算某天的缺失數據,往往忽略了這種針對性,完全基於大量的歷史數據進行計算,實現起來比較複雜,且計算量大時佔用系統資源多,運行時間長,無法滿足快速提供數據的要求。

【發明內容】

[0007]為了解決上述技術問題,本發明提供了一種處理缺失數據的方法及裝置,能夠在一般性統計方法的基礎上,簡單、快速、準確地對企業數據中的缺失數據進行處理。
[0008]為了達到本發明目的,本發明提供了一種處理缺失數據的方法,當前運營周期出現缺失數據時,包括:利用上一運營周期中相同統計時點的累計值估算本運營周期的當期累計值;
[0009]根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。
[0010]所述利用上一運營周期中相同統計時點的當期累計值估算本運營周期當期累計值包括:[0011]根據所述上一運營周期中在統計時點的當期累計值,計算上一運營周期各統計時點的當期累計平均值;
[0012]根據上一運營周期中各統計時點的當期累計值,及計算得到的當期累計平均值,計算得到當期累計估計係數;
[0013]根據計算得到的當期累計平均值及當期累計估計係數獲取當期統計時點累計值的估計值。
[0014]所述獲取當期統計時點缺失數據的估計值包括:
[0015]計算所述統計時點當期累計值的估計值與所述上期統計時點實際的累計值之差,得到的差值為統計時點當期累計值的估計值。
[0016]所述經營周期結束時,該方法還包括:存儲運營周期各統計時點的當期累計估算係數。
[0017]所述運營周期結束後,該方法還包括:存儲最近一個經營周期各統計時點的當期累計平均值。
[0018]本發明還提供一種處理缺失數據的裝置,至少包括第一處理模塊、第二處理模塊,其中,
[0019]第一處理模塊,用於根據上一完整的經營周期中各運營周期中各統計時點當期累計值,計算各統計時點的當期累計平均值;根據上一完整的經營周期中各統計時點當期累計值,以及各統計時點的當期累計實際值,計算得到各統計時點當期累計估計係數;根據最近一個經營周期所有運營周期各統計時點的當期累計實際值,計算得到各統計時點的當期累計平均值。
[0020]第二處理模塊,根據缺失數據所在統計時點的當期累計值估算係數及最近一個經營周期中各統計時點的當期累計平均值,計算得到當前缺失數據統計時點的當期累計估算值,根據估算出的當期累計值及前一天實際的當期累計值,獲取當期當天缺失數據的估計值。
[0021]還包括存儲模塊,用於存儲第一處理模塊計算出的當期累計平均值、當期累計估算係數。
[0022]與現有技術相比,本發明包括在當前運營周期內出現缺失數據時,利用上一運營周期中相同統計時點的累計值估算本運營周期的當期累計值;根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。本發明方案針對經營周期數據特點對缺失數據進行估算,大大減少了估算所需數據量及計算複雜度,從而降低了計算佔用的系統資源,縮短了運行時間;而且,本發明結合缺失數據時點當期累計值估算數據及前一統計時點累計值實際數據,更加準確地對缺失數據進行了估算。
[0023]進一步地,本發明在處理缺失數據的過程中,通過對相關計算元素的存儲,為缺失數據的計算提供了參考,提高了缺失數據的處理速度。
[0024]本發明的其它特徵和優點將在隨後的說明書中闡述,並且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在說明書、權利要求書以及附圖中所特別指出的結構來實現和獲得。
【專利附圖】

【附圖說明】[0025]附圖用來提供對本發明技術方案的進一步理解,並且構成說明書的一部分,與本申請的實施例一起用於解釋本發明的技術方案,並不構成對本發明技術方案的限制。
[0026]圖1為本發明處理缺失數據的方法的流程圖;
[0027]圖2為本發明處理缺失數據的裝置的組成結構示意圖。
【具體實施方式】
[0028]為使本發明的目的、技術方案和優點更加清楚明白,下文中將結合附圖對本發明的實施例進行詳細說明。需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互任意組合。
[0029]在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行。並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。
[0030]圖1為本發明處理缺失數據的方法的流程圖,如圖1所示,包括:
[0031]步驟100:當前運營周期出現缺失數據時,利用上一運營周期相同統計時點的累計值估算本運營周期的當期累計值。其中,上一運營周期相同統計時點,指的是自當前時點前推一個運營周期的時間長度所在的時間點。
[0032]本步驟中,如何確定缺失數據是否出現屬於現有技術,這裡不再贅述。這裡強調的是,對缺失數據的處理是針對每個經營周期進行的,而每個經營周期由若干個運營周期組成,如12個月為一個經營周期,而每個月為一個運營周期;或者,31天為一個經營周期,而每天為一個運營周期等。具體如何設置經營周期由運營商根據數據特點設置,屬於本領域技術人員的慣用技術手段。
[0033]本步驟中,可以自當前經營周期前推,選取一整個經營周期的歷史數據進行計算,利用歷史數據中各運營周期相同統計時點的當期累計值估算統計時點當期累計值,具體包括:首先,根據歷史數據中各運營周期缺失數據統計時點的當期累計值,計算缺失上一運營周期各統計時點的當期累計平均值;然後,根據上一運營周期中各統計時點的當期累計值,及計算得到的當期累計平均值,計算當期累計值估計係數;最後,根據計算得到的當期累計平均值及當期累計估計係數獲取當期統計時點累計值的估計值。
[0034]步驟101:根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。
[0035]本發明方法針對經營周期數據特點對缺失數據進行估算,大大減少了計算所需數據量,降低了計算佔用的系統資源,縮短了運行時間;而且,本發明方法結合當期累計值估算數據及前一統計時點實際的當期累計值,更加準確地對缺失數據進行了估算。
[0036]以經營周期為I年即12個月,每個運營周期I個月為例,本發明方法中,假設需要
估算的值為第m月的第n天即當期當天累計值的估算值,用表示。第m月第n天的當期累計值用Cnm表示;各月第n天的當期累計平均值用G表示;第m月第n天的當期累計估算係數用Snm表示;第m月第n天缺失數據的估算數用廠良示。其中,
[0037]首先,各月第n天的當期累計平均值巧按照公式(I)計算:[0038]
【權利要求】
1.一種處理缺失數據的方法,當前運營周期出現缺失數據時,其特徵在於,包括:利用上一運營周期中相同統計時點的累計值估算本運營周期的當期累計值; 根據估算出的當期累計值及上期統計時點實際的累計值,獲取當期統計時點缺失數據的估計值。
2.根據權利要求1所述的方法,其特徵在於,所述利用上一運營周期中相同統計時點的當期累計值估算本運營周期當期累計值包括: 根據所述上一運營周期中在統計時點的當期累計值,計算上一運營周期各統計時點的當期累計平均值; 根據上一運營周期中各統計時點的當期累計值,及計算得到的當期累計平均值,計算得到當期累計估計係數; 根據計算得到的當期累計平均值及當期累計估計係數獲取當期統計時點累計值的估計值。
3.根據權利要求1或2所述的方法,其特徵在於,所述獲取當期統計時點缺失數據的估計值包括: 計算所述統計時點當期累計值的估計值與所述上期統計時點實際的累計值之差,得到的差值為統計時點當期累計值的估計值。
4.根據權利要求2所述的方法,其特徵在於,所述經營周期結束時,該方法還包括:存儲運營周期各統計時點的當期累計估算係數。
5.根據權利要求2所述的方法,其特徵在於,所述運營周期結束後,該方法還包括:存儲最近一個經營周期各統計時點的當期累計平均值。
6.一種處理缺失數據的裝置,其特徵在於,至少包括第一處理模塊、第二處理模塊,其中, 第一處理模塊,用於根據上一完整的經營周期中各運營周期中各統計時點當期累計值,計算各統計時點的當期累計平均值;根據上一完整的經營周期中各統計時點當期累計值,以及各統計時點的當期累計實際值,計算得到各統計時點當期累計估計係數;根據最近一個經營周期所有運營周期各統計時點的當期累計實際值,計算得到各統計時點的當期累計平均值; 第二處理模塊,根據缺失數據所在統計時點的當期累計值估算係數及最近一個經營周期中各統計時點的當期累計平均值,計算得到當前缺失數據統計時點的當期累計估算值,根據估算出的當期累計值及前一天實際的當期累計值,獲取當期當天缺失數據的估計值。
7.根據權利要求6所述的裝置,其特徵在於,還包括存儲模塊,用於存儲第一處理模塊計算出的當期累計平均值、當期累計估算係數。
【文檔編號】G06F17/30GK103678721SQ201410001575
【公開日】2014年3月26日 申請日期:2014年1月2日 優先權日:2014年1月2日
【發明者】王芹, 謝攀, 黃敏燕 申請人:中國聯合網絡通信集團有限公司, 聯通系統集成有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀