新四季網

一種用於管網建模的時序數據清洗方法與流程

2023-05-15 14:11:21


本發明屬於數據處理技術領域,具體而言,涉及一種用於管網建模的時序數據清洗方法。



背景技術:

管網建模過程中涉及到大量監測數據處理,例如涉及到的以時間序列的數據主要有水廠出水壓力和出水流量的監測數據,居民生活用水量、用水模式數據,用於模型校驗的管網監測點的壓力、流量數據等。但是,這些數據中有些是正確的,而有些則由於機械儀器誤差等某些不特定因素,會不可避免的存在某些時間點異常值、數據缺失、數據重複等問題。如果不加以篩選,勢必會對模型計算結果產生一定的影響甚至有可能直接導致模型計算不收斂,模型崩潰等現象的發生,因此我們在將這些數據導入到模型計算之前需進行數據的預處理使之達到清洗的效果,為模型的計算提供保證。

例如,在收集到的時序監測數據中,有時候會出現個別的異常數值,從直觀上看,這個數據要比其它數據小許多或者大很多。在處理試驗數據時,對於這樣的個別異常值,是否要剔除,剔除後如何補齊,如果單純憑直覺判斷,缺乏理論上的依據。對於建模監測數據中上述異常值、數據缺失、數據重複問題,目前還沒有一套完整的標準化處理流程。通常在建模時對於異常值僅為人工判斷合理區間,對於缺失值和異常值的處理是忽略缺失值使用簡單的線性差值來補充異常值。



技術實現要素:

本發明的目的在於提供一種用於管網建模的時序數據清洗方法,該方法針對管網建模中的時序數據,能夠採取較為合理科學的數據預處理方式為模型計算的精度提供保證。

為實現上述技術目的,達到上述技術效果,本發明通過以下技術方案實現:

一種用於管網建模的時序數據清洗方法,包括以下步驟:

步驟1)重複值篩出;

利用結構化查詢語言(SQL)選取所需時間段的數據,同一監測點位的數據作為一組,進行重複值查找,並刪除相同時間點的重複值;

步驟2)離散程度分析;

批量分別計算不同組數據最大值Xmax、最小值Xmin、平均值μ、標準差σ和變異係數CV,其中CV=σ/μ,通過標準差σ和變異係數CV來分析數據的離散程度,通過變異係數CV的處理可將不同量綱的流量和壓力數據同一批次處理;並對變異係數CV設定閾值,當變異係數大於所設定的閾值時,則判定該監測點位的數據為無效數據,並進行刪除,不參與模型計算;

步驟3)異常值判定;

通過三倍標準差法確定上下限值,即正常值X為,確定上限值為,確定下限值為,對於不符合此範圍的值均為異常值進行剔除;

步驟4)平滑曲線去噪點;

對於已去除異常值的各組監測點(離散點)數據採用最小二乘法擬合平滑曲線,首先確定一個函數逼近原函數;設近似函數為,函數值與觀測值之差稱為殘差,可以用殘差來衡量近似函數的好壞,具體方法為:

根據已知數據點,先利用MATLAB解方程組,得到待定係數和擬合函數;再利用擬合函數值代替曲線噪點值,達到曲線平滑的效果;進一步的,可將替換噪點值後擬合函數值再次進行擬合,重複上述步驟直至殘差滿足精度要求;

步驟5)對缺失值進行插值處理;

採用三次樣條函數對缺失值進行插值,通過上述步驟描述處理監測的時序數據重複值、缺失值、異常值以及離散度較大的序列數據;

在實際建模過程中進行數據處理時,先通過最小二乘法擬合出最逼近觀測值的函數,總體把握數據的趨勢走向,同時甄別步驟3)中未能通過三倍標準差發去除的異常值並剔除,減小誤差的存在;

在實際導入模型數據時,再利用局部分段的數據,採用三次樣條曲線插值法將缺失值及異常值剔除的部分進行補齊,以防止擬合曲線數據的失真,同時保留了原合理的觀測值。

進一步的,步驟1)中,所述的時間段數據包括水廠出水壓力和出水流量的監測數據,居民生活用水量、用水模式數據,以及用於模型校驗的不同管網監測點位的壓力、流量時序數據。

進一步的,步驟2)中,所述變異係數的閾值可設定為1,即標準差σ小於平均值μ,實踐中當變異係數<1時,所監測的壓力和流量時序列數據離散程度較好。

進一步的,在步驟4)中,所述的函數的曲線在曲線圖上不要求過所有的數據點(可以消除誤差影響),但需要儘可能表現出數據的趨勢,靠近這些數據點即可。

本發明的有益效果是:

本發明提供了異常值的判定,不同量綱的壓力數據流量數據的標準化處理,採用差異顯著性分析對異常值快速查找及替換的方法,同時對缺失數據進行比較後選擇最合理的插值方式等一整套的數據處理流程。通過引入變異係數(標準差/平均數)以實現不同量綱的壓力數據和流量數據標準化處理,可以同時進行判定數組的離散程度並篩選。本發明在方法上先用三倍標準差法對於異常值數據查找處理再用最小二乘法擬合,極大減小了異常值對擬合結果的影響;同時用擬合函數對噪點數據平滑處理進一步的減少異常數據的存在,最小二乘法擬合能夠滿足不符合正態分布的數據處理;最後採用三次樣條插值較線性插值能夠使插入的數值更加平滑。因此本發明的方法能夠在將數據導入到模型計算之前對其進行預處理,以達到數據清洗的效果,為模型的計算提供保證。

上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,並可依照說明書的內容予以實施,以下以本發明的較佳實施例並配合附圖詳細說明如後。本發明的具體實施方式由以下實施例及其附圖詳細給出。

附圖說明

此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:

圖1為本發明的時序數據清洗方法的流程圖。

具體實施方式

下面將參考附圖並結合實施例,來詳細說明本發明。

參照圖1所示,一種用於管網建模的時序數據清洗方法,包括以下步驟:

步驟1)重複值篩出

利用結構化查詢語言(SQL)選取所需時間段的數據,所述的時間段數據包括水廠出水壓力和出水流量的監測數據,居民生活用水量、用水模式數據,以及用於模型校驗的不同管網監測點位的壓力、流量時序數據;同一監測點位的數據作為一組,進行重複值查找,並刪除相同時間點的重複值。

步驟2)離散程度分析

批量分別計算不同組數據最大值Xmax、最小值Xmin、平均值μ、標準差σ和變異係數CV。

設這組數值X1,X2,X3,......Xn其平均值(算術平均值)為μ;則標準差σ為:

變異係數為:CV=σ/μ。

通過標準差σ和變異係數CV來分析數據的離散程度,通過變異係數CV的處理可將不同量綱的流量和壓力數據同一批次處理;並對變異係數CV設定閾值,當變異係數大於所設定的閾值時,則判定該監測點位的數據為無效數據,並進行刪除,不參與模型計算。

實際建模中通常會有某監測點位部分時間段採集到的數據均為0,其餘時間點數據正常,與實際情況並不符合,此組數據為無效數據,這樣的數據的標準差及變異係數較大,因此可以通過離散度來分析去除。

實際經驗中當變異係數<1時,所監測的數據離散程度較好,對於建模中所監測的流量和壓力時序數據的變異係數的閾值可選擇為1,即標準差σ小於平均值μ。

步驟3)異常值判定

通過三倍標準差法確定上下限值,即正常值X為,確定上限值為,確定下限值為,對於不符合此範圍的值均為異常值進行剔除。對於符合正態分布的數據數值分布在(μ-3σ,μ+3σ)中的概率為0.9974,因此在該區間之外的數據均被認為是異常值。

步驟4)平滑曲線去噪點;

對於已去除異常值的各組監測點(離散點)數據採用最小二乘法擬合平滑曲線,首先確定一個函數逼近原函數,該函數的曲線在曲線圖上不要求過所有的數據點(可以消除誤差影響),但該函數需要儘可能表現出數據的趨勢,靠近這些數據點。

設近似函數為,函數值與觀測值之差稱為殘差,可以用殘差來衡量近似函數的好壞,具體實現方法如下:

設已知數據點,求m次多項式來擬合函數。需要求出m+1項多項式的待定係數即可,且使得以下函數值達到最小:

要使上述函數達到最小值,由高等數學知識有:

於是得到法方程:

轉換成矩陣如下

利用MATLAB解方程組,得到待定係數和擬合函數。

利用擬合函數值代替曲線噪點值,達到曲線平滑的效果。進一步可將噪點值替換後再次進行擬合,重複上述步驟直至殘差滿足精度要求。

步驟5)對缺失值進行插值處理

採用三次樣條函數對缺失值進行插值,通過上述步驟描述處理監測的時序數據重複值、缺失值、異常值以及離散度較大的序列數據;

在實際建模過程中進行數據處理時,先通過最小二乘法擬合出最逼近觀測值的函數,總體把握數據的趨勢走向,同時甄別步驟3)中未能通過三倍標準差發去除的異常值並剔除,減小誤差的存在;

在實際導入模型數據時,再利用局部分段的數據,採用三次樣條曲線插值法將缺失值及異常值剔除的部分進行補齊,具體實現方法如下:

在[a,b]上函數的三次樣條插值函數S(x)滿足:

(1)在[a,b]上0,1,2介導數連續,即

(2);

(3)在區間上是三次多項式。

通過上述插值處理對剔除的異常值及缺失值進行補齊,以防止擬合曲線數據的失真,同時保留了原合理的觀測值。

以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀