新四季網

一種減小財政資料庫儲存量的方法

2023-06-15 12:17:01 1

專利名稱:一種減小財政資料庫儲存量的方法
技術領域:
本發明涉及資料庫儲存量壓縮技術領域,具體涉及一種基於小波變換的財政資料庫壓縮方法。特別是適用處理財政和稅務的大容量的實時數據。
背景技術:
許多應用場合的數據都以連續的流的形式出現,被稱為數據流,如證券交易、信用卡交易、商場購物交易、網站點擊流、電話呼叫記錄等應用中所產生的連續不斷的數據。其主要特點為1)數據流動態增長,長度可能無限;2)對流中的數據只能一次掃描,利用一次掃描建立數據流的近似概要結構,其後的處理只能依賴該概要結構。財政方面的實時數據通常具有數量大、數據流量突發性高等特點,如何保存如此龐大的實時數據以及如何訪問這些保存的歷史數據一直是個難題。因為這些實時數據過於巨大,如果簡單的將所有的數據保存下來,不但佔用很大的物理空間,而且使得以後再查詢特定歷史時間的數據時效率會大大折扣。因為我們是對財政數據進行實時採集,所以得到的都是基於時間序列的數據,這些數據具有時間屬性,但是它的時態關係和時態資料庫系統相比要簡單一些,主要是說其時間是序列化的。用戶可能對那些在較小範圍變化的數據興趣不大,僅較為關注默寫變化劇烈的拐點數據。其實,只要這些被丟棄的數據在一定的誤差範圍內不影響過程歷史數據的重構,數據壓縮完全可以通過採用丟棄一些數據的方法來減少對存儲資源的需求。數據壓縮完全可以通過採用丟棄一些數據的方法減少存儲資源,同時丟棄的這些數據必須保證在一定的誤差控制中不影響對歷史數據的重構,方便之後對歷史數據的查詢處理。目前,數據壓縮的方法有很多,但是本質上不外乎完全可逆的冗餘度壓縮和實際上不可逆的熵壓縮兩類。冗餘度壓縮常用於磁碟文件、數據通信和氣象衛星雲圖等不允許在壓縮過程中有絲毫損失的場合中。但它的壓縮比通常只有幾倍,遠遠不能滿足數字視聽應用的要求。在實踐的數字視聽設備中,差不多都採用壓縮比更高、但實際有損的熵壓縮技術。 只要作為最終用戶的人覺察不出或者能夠容忍這些失真,就允許對數字音像信號進一步壓縮以換取更高的編碼效率。但是這些方法的壓縮比不高,存儲數據的空間有限,常常導致數據失真。

發明內容
本發明的目的在於克服現有技術的不足之處,提出一種壓縮比高、數據失真少的減小財政資料庫儲存量的方法。本發明所述的減小財政資料庫儲存量的方法,包括以下步驟1)壓縮數據節點閾值過濾假設數據流是穩定的,將數據流中不斷到來的數據作為第1層,在相同的時間內到來的數據序列中平均由η個數據組成,則這η個數據組成一個
數據節點,第1層的數據節點數有一,其中M為數據流的總數據個數;
2)數據預處理對實時數據流進行噪聲處理,主要是對數據序列進行空缺值處
γγγ
理。假設數據序列的屬性個數為m,如果空缺屬性個數 ^ γ,則認為該條數據流是噪聲,直接過濾;反之,將空缺屬性補充為所有該屬性所有取值的平均值;3)壓縮處理將第1層每η個數據組成的子序列進行濃縮,提煉成第2層中的一個數據節點,記該子序列為屯,該數據節點為PiJU Pi中保存了 Cli的概要信息。隨著新數據
的不斷到來,第2層上的數據節點不斷增加,當第2層上的數據節點個數> f時,將最老的η
個數據節點進行歸併,合併成第3層上的1個數據節點,並計算數據節點的概要信息,以此逐層向上,從而使得該數據流總是被壓縮成一組分層次的數據節點,最後構造一棵能夠存儲小波係數的誤差樹;誤差樹中,節點Ci對應小波係數,葉節Axu對應原始數據。對一給定的誤差樹T和 T中的內節點ck,令Ieavesk表示以Ck為根的子樹的葉節點集合,Ieftleavesk表示Ck的左子樹的葉節點集合,rightleave、表示ck的右子樹的葉節點集合,pathk為T中從ck (或Xij) 到根的路徑上全體非零係數的集合。設%是IeftleaVe%中數據的均值,bk是rightleave、 中數據的均值,則ck = (4_\)/2,而C1是全部數據的均值;包括以下步驟首先數據流Xi = {xn, xi2, A,xi(1},將Xi = {xn, xi2, A,XiJ中的數據兩兩分對求其均值和均值與第二個數據的差值,則差值就是第2層的數據節點,也是相應的小波系 ^c2k ;其次計算誤差樹中第3層的小波係數。令Ieavesk表示以Ck為根的子樹的葉節點集合,leftleave、表示ck的左子樹的葉節點集合,rightleave、表示Ck的右子樹的葉節點集合。設%是Ieftleavesk中數據的均值,bk是rightleave、中數據的均值,則c3k = (ak-bk)/2 ;最後依次繼續計算,直至誤差樹的最高層的小波係數,它也等於全部數據的平均值;4)小波係數的篩選其遵循的原則一是絕對值大的係數的缺失會對相關的數據值的重構有更大的影響;二是從誤差樹上易知,越接近根的係數用於重構時影響的數據越多,具有更高的重要性。本發明運用誤差平方和(sum of squared error) sse
SSe(DM)=Yj^ - A )2來進行小波係數的蹄選,其中D表示壓縮之前的數據序列,D'表示
i=\
壓縮之後的數據序列,Xi是數據序列D的第i個數據,χ' i是數據序列D'的第i個數;設對子序列Xi = {xn, xi2, A,xi(1},提取得到的數據節點Pi概要信息表示成四元
組(/,「Γ),其中t = t (xn), η = \])\,X = -t^,t為該數據節點的時間戳,表示d中最後一
個數據的到達時刻,η為d中數據個數,文為d中數據的均值。對d進行DWT變換,Γ分量
中保存變換得到的r < η個最重要的小波係數,r取使現(Α 』) = Σ(Χ;-x/f最小的前r個。
/=1
對子序列Xi進行小波變換,對小波係數進行規範化,Γ分量中保存得到的η個係數中最重要的r個係數,因為係數重要性的衡量基於sse最小化,所以Γ中應保留r個絕對值最大的係數。
本發明方法只需要對數據流進行一次掃描就可得到小波係數,最後僅存儲少量的小波係數來表徵數據流。它能夠在保證數據壓縮高效率的前提下儘可能正確無誤的恢復歷史的數據。小波變換方法利用變換後生成的少量小波係數近似模擬原始數據,在資料庫和數據處理領域,通過對原始數據集進行小波變換,保存部分重要的小波係數,把這些小波係數作為原始數據的壓縮表示,進而能夠近似地還原出原始數據集合。本發明的有益效果在於能夠在保留數據主要信息的前提下大大減少數據存儲空間,壓縮比高、數據失真小,具有良好的實際應用價值。


圖1是本發明方法的具體實現流程圖。
具體實施例方式下面結合

和具體實施方式
對本發明做進一步詳細說明。本發明提出的減小財政資料庫儲存量的方法,包括以下步驟1)壓縮數據節點閾值過濾假設數據流是穩定的,將數據流中不斷到來的數據作為第1層,在相同的時間內到來的數據序列中平均由η個數據組成,則這η個數據組成一個
廠μ
數據節點,第1層的數據節點數有一,其中M為數據流的總數據個數。
η2)數據預處理對實時數據流進行噪聲處理,主要是對數據序列進行空缺值處
γγγ
理。假設數據序列的屬性個數為m,如果空缺屬性個數 ^ γ,則認為該條數據流是噪聲,直接過濾。反之,將空缺屬性補充為所有該屬性所有取值的平均值。3)壓縮處理將第1層每η個數據組成的子序列進行濃縮,提煉成第2層中的一個數據節點,記該子序列為屯,該數據節點為PiJU Pi中保存了 Cli的概要信息。隨著新數據
的不斷到來,第2層上的數據節點不斷增加,當第2層上的數據節點個數> f時,將最老的η
個數據節點進行歸併,合併成第3層上的1個數據節點,並計算數據節點的概要信息,以此逐層向上,從而使得該數據流總是被壓縮成一組分層次的數據節點,最後構造一棵能夠存儲小波係數的誤差樹。誤差樹中,節點Ci對應小波係數,葉節點Xu對應原始數據。對一給定的誤差樹T和 T中的內節點ck,令Ieavesk表示以Ck為根的子樹的葉節點集合,Ieftleavesk表示Ck的左子樹的葉節點集合,rightleave、表示ck的右子樹的葉節點集合,pathk為T中從ck (或Xij) 到根的路徑上全體非零係數的集合。設%是IeftleaVe%中數據的均值,bk是rightleave、 中數據的均值,則ck = (4_\)/2,而C1是全部數據的均值。包括以下步驟首先數據流Xi = {xn, xi2, A,xi(1},將Xi = {xn, xi2, A,XiJ中的數據兩兩分對求其均值和均值與第二個數據的差值,則差值就是第2層的數據節點,也是相應的小波係數 c2ko
其次計算誤差樹中第3層的小波係數。令Ieavesk表示以Ck為根的子樹的葉節點集合,leftleave、表示ck的左子樹的葉節點集合,rightleave、表示Ck的右子樹的葉節點集合。設%是Ieftleavesk中數據的均值,bk是rightleave、中數據的均值,則c3k = (ak-bk) / 2 ο最後依次繼續計算,直至誤差樹的最高層的小波係數,它也等於全部數據的平均值。4)小波係數的篩選其遵循的原則一是絕對值大的係數的缺失會對相關的數據值的重構有更大的影響;二是從誤差樹上易知,越接近根的係數用於重構時影響的數據越多,具有更高的重要性。本發明運用誤差平方和(sum of squared error) sse
權利要求
1.減小財政資料庫儲存量的方法,包括以下步驟1)壓縮數據節點閾值過濾假設數據流是穩定的,將數據流中不斷到來的數據作為第 1層,在相同的時間內到來的數據序列中平均由η個數據組成,則這η個數據組成一個數據
全文摘要
本發明涉及減小財政資料庫存儲量的方法,首先將從財政和稅務處提取的實時數據進行預處理,然後對經過預處理的數據進行基於小波變換的數據壓縮,得到能夠反應數據重要特徵的小波概要,最後將小波概要中的小波係數進行存儲,進而可以重構實時數據。本發明有效地降低了現行地方財政和稅務在數據預處理方面的巨額成本,應用這種方法能夠實現在保存財政和稅務數據完整信息的前提下,大大減少了數據存儲和傳輸的大小,具有良好的實用價值。
文檔編號G06F17/30GK102354319SQ20111028566
公開日2012年2月15日 申請日期2011年9月23日 優先權日2011年9月23日
發明者劉東升, 琚春華, 許翀寰, 陳庭貴 申請人:浙江工商大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀