新四季網

一種數據監管方法及系統與流程

2023-06-16 01:51:26


本發明涉及計算機系統及存儲領域,特別涉及一種數據監管方法及系統。



背景技術:

現如今,隨著網際網路的快速普及,設備間的數據交換,不再單單是通過磁碟、光碟、U盤等這些相對耗時的實體設備進行中轉的方法,而是可以通過網際網路更快速的進行數據的交換。與此同時,帶來的問題便是大量的數據交換也使得管理起來困難,容易出現文件重複存儲的情況,例如,視頻、文檔、音樂等,大量的重複數據將佔用大量的存儲空間,對於企業來說更是如此。

網盤的出現在一定程度上緩解了企業對於存儲空間的壓力,但是網盤的便利性使得眾多的用戶能夠輕鬆地上傳大量文件,雖然對於每個用戶個體來說其所上傳的文件都是不同的,但整體來看眾多用戶會上傳一個文件多次,如果不對這些文件進行處理,存儲空間將大量浪費在這些重複文件上。

因此,如何能夠降低數據的重複率成為了技術人員需要解決的問題。



技術實現要素:

有鑑於此,本發明的目的在於提供。其具體方案如下:

一種數據監管方法,包括:

接收數據塊,並保存到緩存區;

利用預設的算法計算出所述數據塊的特徵信息;

在特徵信息記錄表中查找所述數據塊的特徵信息,以確定物理空間中是否存在數據內容與所述數據塊相同的物理塊,其中,所述特徵信息記錄表為保存所述物理空間中每個物理塊相應的特徵信息的表;

如果查找到所述數據塊的特徵信息,則刪除所述緩存區中的所述數據塊。

優選的,所述利用預設的算法計算出所述數據塊的特徵信息包括:

利用第一預設算法和第二預設算法分別計算出所述數據塊的第一特徵信息和第二特徵信息;

相應的,所述在特徵信息記錄表中查找所述數據塊的特徵信息,以確定物理空間中是否存在數據內容與數據塊相同的物理塊包括:

如果查找到與所述第一特徵信息相同的第一歷史特徵信息,並且查找到與所述第二特徵信息相同的第二歷史特徵信息,則判定所述物理空間中存在數據內容與所述數據塊相同的物理塊;

否則判定所述物理空間中不存在數據內容與所述數據塊相同的物理塊。

優選的,所述第一預設算法為哈希校驗算法,所述第二預設算法為MD5校驗算法。

優選的,所述接收數據塊,包括:

預選設定數據塊單位長度;

控制發送終端根據所述數據塊長度設定信息切割源數據,得到數據塊集;

接收由所述發送終端發送的所述數據塊集。

優選的,所述預選設定數據塊單位長度為4KB。

優選的,還包括:當任一用戶需要訪問所述物理空間中的目標物理塊,則為所述目標物理塊創建相應的副本。

優選的,所述生成所述目標物理塊的副本之後,還包括:

對與所述目標物理塊相對應的副本的總數進行統計;

當與所述目標物理塊相對應的副本的總數為零,則刪除所述目標物理塊。

本發明還公開了一種數據監管系統,包括:

接收模塊,用於接收數據塊,並保存到緩衝區;

特徵信息計算模塊,用於利用預設的算法計算出所述數據塊的特徵信息;

特徵信息查找模塊,用於在特徵信息記錄表中查找所述數據塊的特徵信息,以確定物理空間中是否存在數據內容與所述數據塊相同的物理塊,其中,所述特徵信息記錄表為保存所述物理空間中每個物理塊相應的特徵信息的表;

第一刪除模塊,用於當所述特徵信息查找模塊查找到所述數據塊的特徵信息,則刪除所述緩存區中的所述數據塊。

優選的,還包括:副本生成模塊,用於當任一用戶需要訪問所述物理空間中的目標物理塊,則為所述目標物理塊創建相應的副本。

優選的,還包括:

副本統計模塊,用於對與所述目標物理塊相對應的副本的總數進行統計;

第二刪除模塊,用於當與所述目標物理塊相對應的副本的總數為零,則刪除所述目標物理塊。

由上可見,本發明的技術方案中,數據監管方法,包括:接收數據塊,並保存到緩存區;利用預設的算法計算出數據塊的特徵信息;在特徵信息記錄表中查找數據塊的特徵信息,以確定物理空間中是否存在數據內容與數據塊相同的物理塊,其中,特徵信息記錄表為保存物理空間中每個物理塊相應的特徵信息的表;如果查找到數據塊的特徵信息,則刪除緩存區中的數據塊。可見,本發明在緩衝區以數據塊的形式接收文件並計算出文件的特徵信息與特徵信息記錄表中的歷史特徵信息進行比對,判定接收的數據塊是否為重複數據,如果判定為重複數據則直接從緩衝區刪除重複數據塊,通過對數據塊進行查重,使得精準度和細化程度得到了極大地提升,能夠準確地對重複數據進行刪除,並且通過記錄歷史特徵信息,能夠保證物理空間中不會存儲相同的數據塊,極大地降低了數據重複率。

附圖說明

為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。

圖1為本發明實施例提供的一種數據監管方法流程圖;

圖2為本發明實施例提供的另一種數據監管方法流程圖;

圖3為本發明實施例提供的一種數據監管系統結構示意圖。

具體實施方式

下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。

本發明實施例公開了一種數據監管方法,參見圖1所示,該方法包括:

步驟S11:接收數據塊,並保存到緩存區。

本實施例中,接收終端在接收數據前,會向發送終端發送數據塊單位長度設定信息,發送終端接收到該信息後,根據該信息要求的數據塊單位長度對源數據進行切割,得到數據塊集,其中,數據塊集中包含多個等大的數據塊和/或小於設定的數據塊單位長度,然後發送終端將數據塊集發送給接收終端,接收終端接收到數據塊集後,將數據塊集先行保存到緩衝區中,等待重複數據判斷。

可以理解的是,數據塊的大小對於後續重複數據判斷有著一定的影響,過大的數據塊,雖然會使切分數量變少,加快重複數據判斷速度,但是對於重複數據判斷的準確性就無法保證,而過小的數據雖然提高了對於重複數據判斷的準確度,但是過多的數據塊,會降低數據存儲的性能,例如,當數據塊單位長度設定為32K時,一個32K的數據塊,在第31K位置上有1K數據不一樣則會判斷為非重複數據,如果將數據塊單位長度設定為8K時,則前三個8K的數據塊將會被判斷為重複數據,會被刪除,最後的一個8k數據塊則將會保留,這樣便能節省24K的空間,當然最後被保留的8K數據中還有7K輸入重複數據,而如果將數據塊單位長度設定為1K時,雖然能夠剔除全部的31K重複數據,但是判斷次數也從最初的一次和八次,激增為了三十二次,過於頻繁的數據重複判斷降低了數據存儲的性能,同時也會增加處理器的消耗,因此本發明實施例採用4K作為數據塊單位長度,不僅保證了對於重複數據判斷的準確度,也不會過度影響數據存儲的性能,給處理器增加不必要的負擔。

步驟S12:利用預設的算法計算出數據塊的特徵信息。

需要說明的是,如果直接使用接收的數據塊的內容作為判斷重輸數據的標準,與物理空間中存儲的物理塊進行一一對比,將極大消耗系統資源的消耗,得不償失,且面對大量數據進行匹對時效率低下。因此,可以使用預先設定的算法,計算出數據塊的特徵信息,通過特徵信息來進行比對,同樣能夠保證準確性,並且提高判斷效率。

實際應用中,當計算數據塊的特徵信息時,使用單一的算法,有可能出現誤判的情況,儘管可能性很低,但為了避免出現此種情況時發生損失,可以同時使用兩種算法對同一數據塊進行計算,得出第一特徵信息和第二特徵信息,這樣在後續的重複數據判斷時,能夠保證判斷結果的準確。當然,根據實際需要不局限於採用雙算法,例如,使用三種算法也可以實現,在此不對使用算法的數量做限定。

可以理解的是,特徵信息可以選用數據塊的哈希值,算法可以為哈希校驗算法和/或MD5校驗算法(Message Digest Algorithm 5,消息摘要算法5),其中,哈希校驗算法可以為SHA(Secure Hash Standard,安全哈希算法)或CRC校驗(Cyclic Redundancy Check,循環冗餘校驗碼)。

步驟S13:在特徵信息記錄表中查找數據塊的特徵信息,以確定物理空間中是否存在數據內容與數據塊相同的物理塊,其中,特徵信息記錄表為保存物理空間中每個物理塊相應的特徵信息的表。

計算出數據塊的特徵信息後,在特徵信息記錄表中查找是否有與數據塊的特徵信息相同的歷史特徵信息,如果查找到與數據塊的特徵信息相同的歷史特徵信息,則判定接收到的數據塊為重複數據,物理空間中存在數據內容與數據塊相同的物理塊;如果沒有查找到數據塊的特徵信息相同的歷史特徵信息,則判定接收到的數據塊為非重複數據。

其中,當判定接收到的數據塊為非重複數據時,需要對數據塊進行保存,具體包括步驟S131至步驟S133:

步驟S131:在物理空間中為數據塊分配物理塊地址,以使數據塊能夠長時間存儲。

步驟S132:保存數據塊的特徵信息到特徵信息記錄表中,以便後續繼續進行重複數據判斷時能夠判斷出與當前保存的數據塊重複的數據。

步驟S133:寫入數據到指定的物理塊中,完成對數據塊的保存。

其中步驟S131和步驟S132執行順序可以互換或同時進行,例如,先執行保存數據塊的特徵信息到特徵信息記錄表中,再執行在物理空間中為數據塊分配物理塊地址,在此不對具體執行順序做限定。

當採用雙算法計算特徵信息時,根據計算出的第一特徵信息查找是否存在與第一特徵信息相同的第一歷史特徵信息,並且查找與第二特徵信息相同的第二歷史特徵信息。

如果查找結果為只查找到與第一特徵信息相同的第一歷史特徵信息或與第二特徵信息相同的第二歷史特徵信息,則判定數據塊為非重複數據,可以進行保存。

如果均未查找到與第一特徵信息相同的第一歷史特徵信息和與第二特徵信息相同的第二歷史特徵信息,則判定數據塊為非重複數據,可以進行保存。

如果均查找到與第一特徵信息相同的第一歷史特徵信息和與第二特徵信息相同的第二歷史特徵信息,則繼續判斷第一歷史特徵信息和第二歷史特徵信息是否指向同一個物理塊,如果是,則可以確認數據塊與該物理塊的數據內容相同;如果第一歷史特徵信息和第二歷史特徵信息指向不同的兩個物理塊,則說明數據塊為非重複數據,可以進行保存。

需要說明的是,因為與數據塊對應的特徵信息具有唯一性,所以出現兩種算法不同結果的可能性很低,因此當出現這種情況下,可以先行保存數據塊到物理空間中,並且記錄數據塊特徵信息查找結果,反饋給管理員,由管理員再對查找結果進行分析,判斷數據塊是否為重複數據,如果重新判斷為重複數據則刪除已保存到物理塊的數據內容,如果判斷為非重複數據,則不進行操作。

例如,當出現查找結果為只查找到與第一特徵信息相同的第一歷史特徵信息或與第二特徵信息相同的第二歷史特徵信息,或均查找到與第一特徵信息相同的第一歷史特徵信息和與第二特徵信息相同的第二歷史特徵信息,但第一歷史特徵信息和第二歷史特徵信息指向不同的物理塊時,則保存數據塊到物理空間中,並且將記錄查找結果,反饋給管理員,由管理員再對查找結果進行分析,判斷數據塊是否為重複數據,如果重新判斷為重複數據則刪除已保存到物理塊的數據內容,如果判斷為非重複數據,則不進行操作。

可以理解的是,特徵信息記錄表中記錄的特徵信息,是在歷史重複數據判斷任務過程中記錄的,在歷史重複數據判斷任務過程中使用當前重複數據判斷任務相同的算法對歷史數據塊進行特徵信息計算並比對,當為非重複數據時便保存歷史數據塊的特徵信息。通過上述過程不斷更新特徵信息記錄表中的內容,以此保證重複數據判斷的準確性。且為了加快在特徵記錄表中的查找速度,可以對查找記錄表中的特徵信息進行分類,例如,根據不同算法計算出的特徵信息分類,如使用哈希校驗算法計算出的特徵信息均分為一類,使用MD5校驗算法計算出的特徵信息均分為另一類,根據當前重複數據判斷任務使用的算法進行分類查找,如當前使用的是MD5校驗算法計算數據塊的特徵信息,則在特徵信息記錄表中的MD5校驗算法分類中查找,進一步加快查找速度。

步驟S14:如果查找到數據塊的特徵信息,則刪除緩存區中的數據塊。

可見,本發明在緩衝區以數據塊的形式接收文件並計算出文件的特徵信息與特徵信息記錄表中的歷史特徵信息進行比對,判定接收的數據塊是否為重複數據,如果判定為重複數據則直接從緩衝區刪除重複數據塊,通過對數據塊進行查重,使得精準度和細化程度得到了極大地提升,能夠準確地對重複數據進行刪除,並且通過記錄歷史特徵信息,能夠保證物理空間中不會存儲相同的數據塊,極大地降低了數據重複率。

本發明實施例公開了一種具體的數據監管方法,相對於上一實施例,本實施例對技術方案作了進一步的說明和優化。參見圖2所示,具體的:

實際應用中,因為重複數據判斷過程是在後臺進行的,所以用戶並不知道自己保存的數據是否重複,這也是為了減少用戶操作,提高用戶體驗,但是當用戶對目標數據具有使用需求,進行保存目標數據操作,而目標數據在重複數據判斷過程中被刪除,用戶將無法使用目標數據,也無法直觀的了解到為何保存操作沒能完成,造成很差的用戶體驗,並且影響用戶的正常操作,因此,在上一實施例的基礎上對此種情況增加副本的引用來解決這一問題。

步驟S21:當任一用戶需要訪問物理空間中的目標物理塊,則為目標物理塊創建相應的副本。

具體的,物理空間可能是由多個用戶共享使用,例如,企業中的文件共享空間或雲網盤,當任一用戶下載的數據中包含重複數據則可認為用戶需要訪問相應物理空間中的目標物理塊,此時為該用戶創建目標物理塊相應的副本,用戶便可以通過選擇副本對目標物理塊進行訪問和調用。

其中,副本為邏輯塊與物理塊之間的映射關係,保存在Key-Value資料庫,並沒有數據存儲。

步驟S22:對與目標物理塊相對應的副本的總數進行統計。

需要說明的是,對於用戶而言使用副本相當於使用已保存的目標物理塊,因此當任一用戶不再需要副本,即對目標物理塊進行刪除操作,為了防止影響到其他可能還需要使用目標物理塊的用戶,所以在生成目標物理塊的副本後,對與目標物理塊相對應的副本的總數進行統計,當副本的總數不為零時,用戶進行刪除副本操作,則只刪除相應的副本,而不對目標物理塊進行刪除,當與目標物理塊相對應的副本的總數為零時,進入步驟S23。

步驟S23:當與目標物理塊相對應的副本的總數為零,則刪除目標物理塊。

當與目標物理塊相對應的副本的總數為零時,說明所有用戶對目標物理塊沒有進一步的使用需求,因此可以刪除目標物理塊,以此來節省存儲空間。

本發明實施例中,通過增加副本的引用,使得用戶能夠能加方便快捷的索引和使用已保存的數據,而不會因為重複數據判斷任務造成的操作不便,導致用戶體驗下降等因素。

本發明實施例還公開了一種數據監管系統,參見圖3所示,該系統包括:

接收模塊11,用於接收數據塊,並保存到緩衝區;

特徵信息計算模塊12,用於利用預設的算法計算出數據塊的特徵信息;

特徵信息查找模塊13,用於在特徵信息記錄表中查找數據塊的特徵信息,以確定物理空間中是否存在數據內容與數據塊相同的物理塊,其中,特徵信息記錄表為保存物理空間中每個物理塊相應的特徵信息的表;

第一刪除模塊14,用於當特徵信息查找模塊13查找到數據塊的特徵信息,則刪除緩存區中的數據塊。

本發明實施例中的接收模塊11,具體包括數據塊單位長度設定單元、數據切割控制單元和接收單元,其中,

數據塊單位長度設定單元,用於預選設定數據塊單位長度;

數據切割控制單元,用於控制發送終端根據數據塊長度設定信息切割源數據,得到數據塊集;

接收單元,用於接收由發送終端發送的數據塊集。

數據切割控制單元,具體用於控制發送終端以4KB為數據塊單位長度切割源數據,得到數據塊集。

特徵信息計算模塊12,具體用於利用第一預設算法和第二預設算法分別計算出數據塊的第一特徵信息和第二特徵信息,其中,第一預設算法為哈希校驗算法,第二預設算法為MD5校驗算法。

特徵信息查找模塊13,具體用於如果查找到與第一特徵信息相同的第一歷史特徵信息,並且查找到與第二特徵信息相同的第二歷史特徵信息,則判定物理空間中存在數據內容與數據塊相同的物理塊;

否則判定物理空間中不存在數據內容與數據塊相同的物理塊。

本發明實施例的數據監管系統還包括:

副本生成模塊,用於當任一用戶需要訪問物理空間中的目標物理塊,則為目標物理塊創建相應的副本。

副本統計模塊,用於對與目標物理塊相對應的副本的總數進行統計;

第二刪除模塊,用於當與目標物理塊相對應的副本的總數為零,則刪除目標物理塊。

可見,本發明在緩衝區以數據塊的形式接收文件並計算出文件的特徵信息與特徵信息記錄表中的歷史特徵信息進行比對,判定接收的數據塊是否為重複數據,如果判定為重複數據則直接從緩衝區刪除重複數據塊,通過對數據塊進行查重,使得精準度和細化程度得到了極大地提升,能夠準確地對重複數據進行刪除,並且通過記錄歷史特徵信息,能夠保證物理空間中不會存儲相同的數據塊,極大地降低了數據重複率。

最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。

以上對本發明所提供的一種數據監管方法及系統進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀