新四季網

用於環境空氣品質監測的大數據存儲模型的製作方法

2023-05-29 21:27:46 1

本發明涉及數據存儲模型,尤其涉及一種用於環境空氣品質監測的大數據存儲模型。
背景技術:
::城市空氣品質的監測由自動化監測站完成,國家環境監測總站於2012年啟動了全國自動化空氣站的聯網工作,到2014年底,將實現全國340個城市,1456個國控自動化站的聯網,同時在原來監測項目SO2,NO2,PM10的基礎上,增加CO,O3,PM2.5,能見度,城市環境攝影系統的實時監測。用新的空氣品質指數(AQI)取代空氣汙染指數(API)進行空氣品質實時發布,並發布了一系列針對儀器監測、數據計算、實時數據發布、數據傳輸、質量評價的標準進行指導。空氣品質自動化監測站在實時監測的過程中,根據監測儀器的頻次,需要記錄大量的實時數據,若按每分鐘記錄一個實時數據計算,一個自動化監測站點一天記錄的數據條數為(汙染物監測項目9個+氣象5參數)*60*24=20160,由於NO2的計算需要記錄總氮氧化物NOx及NO,然後由NOx-NO得到,故需要記錄9個監測項目的實時值。以湖北省環境監測總站管轄的102個自動化站為例,1年的實時數據量為20160*102*365=750556800,每條實時數據記錄均為結構化數據包括地區碼、站點編碼、時間戳、記錄時間、記錄值、單位編碼、標記位、狀態量等數據欄位。在實時數據基礎上,還需要計算站點及城區的小時、日均值數據及評價,並存儲入庫。若使用現有的關係型資料庫,為提高數據的查詢效率,不能將如此海量的數據存儲在一個中心站資料庫中,只能採用分布式的存儲方法,將實時數據分散存放在前置的工控機資料庫中,中心站資料庫只存放小時、日均值數據及評價數據,若需查詢某個自動化站的實時數據,只能通過內部的VPN網絡,連接到對應的工控機資料庫進行查詢,查詢效率低下,且無法對實時數據進行集中管理。基於Hadoop生態圈的大數據解決方案的研究為存儲和查詢海量空氣品質監測數據提供了新的思路,其中列式存儲資料庫是建立在Hadoop之上,是具有高可靠性、高性能、列存儲、可伸縮、實時讀寫特點的資料庫系統,通過行鍵(rowkey)和主鍵的範圍來檢索數據,能夠為海量的數據提供高性能的數據維護及查詢服務。如何將列式存儲資料庫應用到無線傳感、氣象、智能電站等領域進行數據存儲,均有學者進行了深入的研究。本發明提出了一個可用於環境空氣品質監測的大數據存儲模型,可有效的存儲海量的監測數據並能有效的對數據進行操作及查詢。技術實現要素:本發明要解決的技術問題在於針對現有技術中的缺陷,提供一種用於環境空氣品質監測的大數據存儲模型。本發明解決其技術問題所採用的技術方案是:一種用於環境空氣品質監測的大數據存儲模型,所述大數據存儲模型包括:1)列存儲模式的數據表,數據列分別存儲實時監測數據、小時均值數據及評價數據、日均值數據及評價數據;其中,所述實時數據監測列用於存儲空氣品質監測的各個汙染物實時值;所述小時均值數據及評價數據用於存儲空氣品質監測的各個汙染物的小時均值及評價數據;小時均值數據為根據各個汙染物的實時監測數據值,結合標記位,按環境監測數據計算的相關國家標準,計算獲得各個汙染物的小時均值;所述小時均值數據的評價數據採用汙染物濃度及空氣品質分指數;具體為根據小時均值計算每個汙染物的分指數(IAQI);根據某個城市所轄的所有自動化站的汙染物小時均值,計算城區的各個汙染物小時均值及分指數;根據站點及城區的汙染物小時均值計算站點及城區的AQI指數及評價數據;所述日均值數據及評價數據用於存儲空氣品質監測的各個汙染物的全天小時均值及評價數據;所述根據各個汙染物的全天小時均值,結合標記位,按環境監測數據計算的相關國家標準,計算各個汙染物的日均值,根據日均值計算每個汙染物的分指數(IAQI);根據某個城市所轄的所有自動化站的汙染物日均值,計算城區的各個汙染物日均值及分指數;根據站點及城區的汙染物日均值計算站點及城區的AQI指數及評價數據;2)實時數據數據列的行鍵;實時數據數據列的行鍵設計如下:地區編碼-站點編碼-當前小時;其中實時數據監測列對應的站點編碼設計為字符SS+地區編碼+站點編號;小時均值及評價數據列的行鍵設計如下:地區編碼-站點編碼-當前小時;其中小時均值數據對應的城區的站點編碼統一設置為SS+地區編碼+999;日均值及評價數據列的行鍵設計為:地區編碼-站點編碼-當前日(YYYYMMDD);其中日均值數據對應的城區的站點編碼統一設置為SS+地區編碼+999。按上述方案,所述實時數據監測列中實時值寫入的格式為{值:單位:標記位}。按上述方案,所述小時均值數據及評價數據中小時均值的寫入格式為{值:標記位}。按上述方案,所述實時數據監測列中各個汙染物實時值為帶時間戳的多版本形式。本發明產生的有益效果是:本發明將數據合理的分布在多個子區域及其包含的存儲文件中,以便有效進行數據查詢。實踐結果表明該模型可以完全滿足實時數據、小時均值數據及評價、日均值數據及評價的存儲及業務邏輯的數據查詢要求,證明了該存儲模型的可用性。附圖說明下面將結合附圖及實施例對本發明作進一步說明,附圖中:圖1是本發明實施例的監測數據大數據存儲模型;圖2是本發明實施例的監測數據的數據流向示意圖;圖3是本發明實施例的監測數據的區域存儲結構示意圖;圖4是本發明實施例的數據的篩選粒度示意圖。具體實施方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,並不用於限定本發明。一種用於環境空氣品質監測的大數據存儲模型,所述大數據存儲模型包括:1)列存儲模式的數據表,數據列分別存儲實時監測數據、小時均值數據及評價數據、日均值數據及評價數據;其中,所述實時數據監測列用於存儲空氣品質監測的各個汙染物實時值;所述小時均值數據及評價數據用於存儲空氣品質監測的各個汙染物的小時均值及評價數據;小時均值數據為根據各個汙染物的實時監測數據值,結合標記位,按環境監測數據計算的相關國家標準,計算獲得各個汙染物的小時均值;所述小時均值數據的評價數據採用汙染物濃度及空氣品質分指數;具體為根據小時均值計算每個汙染物的分指數(IAQI);根據某個城市所轄的所有自動化站的汙染物小時均值,計算城區的各個汙染物小時均值及分指數;根據站點及城區的汙染物小時均值計算站點及城區的AQI指數及評價數據;所述日均值數據及評價數據用於存儲空氣品質監測的各個汙染物的全天小時均值及評價數據;所述根據各個汙染物的全天小時均值,結合標記位,按環境監測數據計算的相關國家標準,計算各個汙染物的日均值,根據日均值計算每個汙染物的分指數(IAQI);根據某個城市所轄的所有自動化站的汙染物日均值,計算城區的各個汙染物日均值及分指數;根據站點及城區的汙染物日均值計算站點及城區的AQI指數及評價數據;2)實時數據數據列的行鍵;實時數據數據列的行鍵設計如下:地區編碼-站點編碼-當前小時(YYYYMMDDHH);其中實時數據監測列對應的站點編碼設計為字符SS+地區編碼+站點編號;小時均值及評價數據列的行鍵設計如下:地區編碼-站點編碼-當前小時;其中小時均值數據對應的城區的站點編碼統一設置為SS+地區編碼+999;日均值及評價數據列的行鍵設計為:地區編碼-站點編碼-當前日(YYYYMMDD);其中日均值數據對應的城區的站點編碼統一設置為SS+地區編碼+999。該模型的數據查詢算法為:1、查詢某個地區下的某個站點在一定範圍時間內的連續值。2、查詢某個地區在一定時間範圍內的連續值。3、查詢某個特定時間下,不同地區或同一地區下不同站點的離散值。4、查詢一定時間範圍內,不同地區或同一地區下不同站點的連續值。環境空氣品質監測大數據存儲模型如圖1所示。存儲模型的表名為EMCData,包括RTData、HourData、HourEval、DailyData、DailyEval列族,其中RTData存放站點汙染物實時監測數據,HourData存放站點及城區汙染物小時均值數據及對應分指數,HourEval存放站點及城區的小時AQI指數及評價,DailyData存放站點及城區汙染物日均值數據及對應分指數,DailyEval存放站點及城區的日AQI指數及評價。列族RTData存放汙染物SO2,NO2,PM10,CO,O3,PM2.5的實時監測數據,實時數據按儀器的監測頻次將數據寫入對應的列,實時值寫入的格式為{值:單位:標記位},如SO2的實時監測值{25.2:M01:N},表示SO2的監測值為25.2,單位為ppb,標記位為N,表示正常,標記位是監測數據狀態的說明。RTData的VERSIONS設置為60,表示每個列可存儲60個不同的版本,既在一個小時內,最多每分鐘可存儲一個實時數據。小時均值的寫入格式為{值:標記位},根據RTData中的實時值計算小時均值時,單位統一換算為質量濃度單位mg/m3,故小時均值不帶單位,小時均值的計算、單位的換算、標記位的設置按《中華人民共和國環境保護部。GB3095-2012,環境空氣品質標準》、《中華人民共和國環境保護部。HJ633-2012,環境空氣品質指數AQI技術規定》、《中華人民共和國環境保護部。HJ663-2013,環境空氣品質評價技術規範(試行)》進行,由於算法比較複雜,且需要較多的行業知識,在此不過多敘述。得到每個汙染物的小時均值後,若其標記位為N,則根據《中華人民共和國環境保護部。HJ633-2012,環境空氣品質指數AQI技術規定》的規則,計算其對應的分指數(IAQI),並存入HourData列族對應的列中。整個監測站點的所有的汙染物的小時均值和分指數計算完畢後,根據文獻《中華人民共和國環境保護部。HJ633-2012,環境空氣品質指數AQI技術規定》、《中華人民共和國環境保護部。HJ663-2013,環境空氣品質評價技術規範(試行)》的規定,計算該站點的AQI指數及評價,分別寫入HourEval列族對應的列中。整個城市的所有監測站點的數據計算完畢後,根據每個站點的汙染物的小時均值計算城區的汙染物小時均值及分指數,並寫入HourData對應的列中,然後計算城區的AQI指數及評價,寫入HourEval對應的列中。根據HourData記錄的自動化站汙染物0-24時的小時均值,計算汙染物的日均值及分指數,並寫入DailyData的對應列中,日均值不再帶標記位,若0-24時的小時均值為N標記位的數據不足18個,則日均值記為「NA」,對應的分指數也記為「NA」。站點的所有汙染物的日均值計算完畢後,根據《中華人民共和國環境保護部。HJ633-2012,環境空氣品質指數AQI技術規定》、《中華人民共和國環境保護部。HJ663-2013,環境空氣品質評價技術規範(試行)》的規定計算站點的AQI指數及評價,分別寫入DailyEval的對應列。所有站點的日均值計算完畢後,根據規範計算城區的汙染物日均值,分指數,AQI指數,評價,並寫入對應的列。監測數據的計算過程及數據流向如圖2所示。列式存儲資料庫的每張表都通過行鍵按照一定的範圍被分割成多個子表(HRegion),默認一個HRegion超過一定閾值就要被分割,HRegion由HRegionServer管理,管理哪些HRegion由HMaster分配。HRegionServer存取一個子表時,會創建一個HRegion對象,然後對表的每個列族(ColumnFamily)創建一個Store實例,每個Store都會有0個或多個StoreFile與之對應,每個StoreFile都會對應一個HFile,HFile就是實際的存儲文件。因此,一個HRegion有多少個列族就有多少個Store。EMCData的一個典型Region的存儲結構如圖3所示:列式存儲資料庫將需要存儲的值存放在單元格(Cell)中,單元格具有結構信息,也稱為KeyValue-鍵值對,key由行鍵、列族、列限定符、時間戳組成,用於確定對應的Value。同一個單元格的多個版本(Version)被單獨存儲為連續的單元格,其行鍵、列族、列限定符均相同,但由於更新的時間有差異,故時間戳不同。列式存儲資料庫客戶端API在訪問存儲文件時,根據鍵來進行數據篩選,鍵的各個組成部分在篩選中的粒度如圖4所示。從圖中可以看出,行鍵可以用來篩選Region、Storefile及適用各種過濾器,因此,行鍵的設計對於數據查詢的效率其中至關重要的作用。在設計表的存儲結構時,應儘量將表設計為「高表」而非「寬表」,「高表」是指行鍵中包含用於篩選數據的多個維度,從而使得表顯得「行多而列少」,有利於進行Region的劃分及進行部分鍵掃描。「寬表」的行鍵只包含鍵本身的信息,從而使得表顯得「行少而列多」,若出現同一行的數據超過了HFile的最大限制,就會導致該HFile無法拆分,從而導致Region也無法在合適的位置拆分。根據以上的理論基礎,對EMCData中的行鍵進行以下的設計:RTData列族對應的行鍵設計為:地區編碼-站點編碼-當前小時(YYYYMMDDHH)。站點編碼設計為字符SS+地區編碼+站點編號,理由是1)可以唯一標識站點。2)可以直接通過站點編碼得到地區編碼,便於數據的查詢。如4205-SS4205001-2014100109,表示宜昌市-伍家崗自動化站-2014年10月1日9時的實時數據的行鍵。HourData及HourEval的行鍵設計同RTData,城區的站點編碼統一設置為SS+地區編碼+999,以便和自動化站區別。DailyData,DailyEval的行鍵設計為:地區編碼-站點編碼-當前日(YYYYMMDD),如4205-SS4205999-20141001,表示宜昌市城區2014年10月1日DailyData和DailyEval列族的行鍵。地區編碼及站點編碼的值為固定不變的值,在行鍵中作為篩選的維度,用於部分鍵掃描,時間維度當前小時,當前日以字典排序的方式不斷的遞增,從而用於區分不同的小時及日數據行。按此規則設計行鍵後,隨著數據的增長,首先小時均值數據及評價數據(RTData、HourData、HourEval)和日均值數據及評價數據(DailyData、DailyEval)會被劃分到不同的Region,然後小時數據及日數據Region根據不同的地區編碼進行劃分,最後按照站點編碼進行劃分。按照EMCData行鍵設計的規則,可給出以下業務邏輯中常用數據查詢的算法。算法1:查詢某個地區下的某個站點在一定範圍時間內的連續值。查詢可以充分利用行鍵進行篩選,是最符合行鍵設計目的的查詢算法,查詢效率最高。算法如下所示:publicvoidGetDataByDTSpan(areaCode,ssId,startDT,endDT,cfName,cqName,isRT){HTabletable=newHTable(cfg,"EMCData");Scansc=newScan;sc.addColumn(Bytes.toBytes(cfName),Bytes.toBytes(cqName));sc.setStartRow(Bytes.toBytes(areaCode+"-"+ssId+"-"+startDT));sc.setStopRow(Bytes.toBytes(areaCode+"-"+ssId+"-"+endDT));if(isRT){sc.setMaxVersions;}//查詢實時值的多個版本ResultScannerrrs=table.getScanner(sc);for(Resultres:rrs){輸出結果;}}}算法2:查詢某個地區在一定時間範圍內的連續值。只需要得到地區下的所有子站編碼,就可循環調用查詢算法1進行查詢,從而得到結果。publicvoidGetDataByDTSpan(areaCode,startDT,endDT,cfName,cqName,isRT){ArrayListlssIDs=得到areaCode下的所有子站id;for(StringssId:lssIDs){GetDataByDTSpan(areaCode,ssId,startDT,endDT,cfName,cqName,isRT);}}算法3:查詢某個特定時間下,不同地區或同一地區下不同站點的離散值。由於查詢的值是離散的,若直接用正則表達式進行行鍵的匹配,會導致掃描所有的Region及StoreFile進行查找,導致查詢效率低下,故然採用如下算法,仍使用行鍵進行篩選,提高查詢效率。publicGetDataByDT(dt,areaCode,clName,cqName,isHB){HTabletable=newHTable(cfg,"EMCData");ArrayListlssIDs;if(isHB){lssIDs=得到湖北省下所有地市的站點id;}else{lssIDs=得到areaCode下的所有子站id;}for(StringssId:lssIDs){Stringrowkey=areaCode+「-」+ssId+「-」+dt;Scansc=newScan;sc.addColumn(Bytes.toBytes(clName),Bytes.toBytes(cqName));rf=newRowFilter(CompareFilter.CompareOp.EQUAL,newBinaryComparator(Bytes.toBytes(rowkey)));for(Resultres:rrs){輸出結果;}}}}算法4:查詢一定時間範圍內,不同地區或同一地區下不同站點的連續值。通過得到子站列表的地區編碼,循環調用查詢算法1得到結果。publicvoidGetDataByDTSpan(ssIds,startDT,endDT,cfName,cqName,isRT){for(StringssId:ssIds){StringareaCode=通過站點編碼得到地區編碼;GetDataByDTSpan(areaCode,ssId,startDT,endDT,cfName,cqName,isRT);}}應當理解的是,對本領域普通技術人員來說,可以根據上述說明加以改進或變換,而所有這些改進和變換都應屬於本發明所附權利要求的保護範圍。當前第1頁1&nbsp2&nbsp3&nbsp當前第1頁1&nbsp2&nbsp3&nbsp

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀