新四季網

一種基於相似性的文件分類方法

2023-05-21 04:39:01

專利名稱:一種基於相似性的文件分類方法
技術領域:
本發明屬於計算機存儲系統領域,具體涉及一種基於相似性的文件分類方法,用於提高按相似性對文件進行分類時的處理速度,降低內存佔用。
背景技術:
圖靈獎獲得者Jim Gray提出了一個經驗定律網絡環境下,每18個月產生的數據量等於有史以來數據量之和。國際數據公司(IDC)最新「數字宇宙」研究結果顯示,全世界的信息量每兩年以超過翻番的速度增長,2011年產生和複製1. 8ZB的海量數據,其增長速度超過摩爾定律。大數據已經成為學術界與工業界討論的熱點話題。如何有效的存儲這些數據已經成為目前存儲系統面臨的一大挑戰。分布式存儲系統解決了海量數據的存儲問題,重複數據刪除技術則解決了節省存儲空間和網絡帶寬的問題。對於像網盤這樣的網絡應用,由於其管理著海量的數據,而且文件之間有較高的相似性,利用相似性進行重複數據刪除可以起到提高存儲空間使用效率,提升系統輸入輸出吞吐量的效果。目前業界所使用的線上重複數據刪除系統多是採用了局部性原理來提高重刪處理的吞吐率,緩解磁碟瓶頸。最新的研究成果顯示,利用相似性可以在損失少量重複數據刪除率的情況下,提升重複數據刪除的速度,吞吐率,減少重複數據刪除時佔用的資源。所以,將這一新的技術加以研究,解決其在延遲,刪除等方面的問題後,將顯著提升存儲系統的磁碟利用率,吞吐率,降低對網絡的需求。目前公開的主流相似數據檢測技術,主要有三種,第一種是基於瓦(shingle)的檢測技術,見Broder AZ.1dentifying and filtering near-duplicatedocuments.1n Giancarlo R,Sankoff D,eds. Proc. of the Ilth Annual Symp. OnCombinatorial PatternMatching. London :Springer-Verlag,2000. 1-10 ;該方法實現簡單,適用性廣,在實際系統中多有使用,但計算量大,內存佔用大;第二種是基於布隆過濾器(bloom filter)的檢測技術,見Jain N,Dahlin M,TewariR. Taper Tiered approach for eliminatingredundancy in replica synchronization.1n Proc. of the4th Usenix Conf. on Fileand Storage Technologies(FAST2005). Berkeley USENIX Association,2005. 281-294.這種方法比第一種方法在時間和空間開銷有較大優勢,但存在一定的錯誤匹配概率,計算量和內存佔用仍然有進一步減小的空間;第三種是基於模式匹配的檢測技術,見Manber U. Finding similar files in a large file system.1n Proc. of the USENIXWinter 1994Technical Conf. Berkeley USENIX Association,1994. 1-10.該方法則需要對整個文件集進行掃描,也沒有解決計算量和內存佔用較大的問題。MD5哈希算法與SHAl哈希算法,都是計算機廣泛使用的哈希算法,主流程式語言已有MD5哈希算法與SHAl哈希算法的實現
發明內容
本發明提供一種基於相似性的文件分類方法,解決現有分類方法計算量和內存佔用較大的問題。本發明所提供的一種基於相似性的文件分類方法,包括下述步驟(I)分塊步驟,包括下述子步驟(1.1)將文件字節流上的開始與結束位置作為兩個分界點,將一個窗口的後沿置於文件字節流的開始位置上,利用哈希函數計算窗口內字節的哈希值,所述窗口長度LO為4位元組 1024位元組;所述哈希函數的散列空間不大於設定的塊最大字節數P,P = 128 8192 ;(1.2)判斷所述哈希值與預定值是否相同,是則進行子步驟(1. 3),否則轉子步驟(1. 4),所述預定值從所述哈希函數的值域中任意選擇一個;(1. 3)將窗口的前沿所在字節作為當前分界點,判斷當前分界點與前一個分界點之間的字節數是否小於設定的塊最小字節數,是則忽略當前分界點,執行子步驟(1. 4),否則執行子步驟(1. 5),所述塊最小字節數為8 P ;(1.4)將所述窗口沿文件字節流滑動一個字節,判斷窗口前沿與前一個分界點之間的字節數是否達到設定的塊最大字節數P,是則把窗口前沿設定為當前分界點,執行子步驟(1. 5),否則計算窗口內字節的哈希值,轉子步驟(1.2);(1.5)將當前分界點與前一個分界點之間的字節作為一個塊,記為當前塊,將窗口後沿置於文件字節流上當前分界點的下一個字節處,執行步驟(2);(2)計算校驗和步驟計算檢驗和s,並將其保存在臨時校驗和結果集中,s = a+2%,其中,a、b為中間參數
權利要求
1.一種基於相似性的文件分類方法,包括下述步驟 (1)分塊步驟,包括下述子步驟(1.1)將文件字節流上的開始與結束位置作為兩個分界點,將一個窗口的後沿置於文件字節流的開始位置上,利用哈希函數計算窗口內字節的哈希值,所述窗口長度LO為4位元組 1024位元組;所述哈希函數的散列空間不大於設定的塊最大字節數P,P = 128 8192 ;(1.2)判斷所述哈希值與預定值是否相同,是則進行子步驟(1.3),否則轉子步驟(1. 4),所述預定值從所述哈希函數的值域中任意選擇一個; (1. 3)將窗口的前沿所在字節作為當前分界點,判斷當前分界點與前一個分界點之間的字節數是否小於設定的塊最小字節數,是則忽略當前分界點,執行子步驟(1. 4),否則執行子步驟(1. 5),所述塊最小字節數為8 P ; (1.4)將所述窗口沿文件字節流滑動一個字節,判斷窗口前沿與前一個分界點之間的字節數是否達到設定的塊最大字節數P,是則把窗口前沿設定為當前分界點,執行子步驟(1. 5),否則計算窗口內字節的哈希值,轉子步驟(1.2); (1. 5)將當前分界點與前一個分界點之間的字節作為一個塊,記為當前塊,將窗口後沿置於文件字節流上當前分界點的下一個字節處,執行步驟(2); (2)計算校驗和步驟 計算檢驗和s,並將其保存在臨時校驗和結果集中, s = a+216b, 其中,a、b為中間參數
2.如權利要求1所述的基於相似性的文件分類方法,其特徵在於 所述分塊步驟中,所述哈希函數為
3.如權利要求1所述的基於相似性的文件分類方法,其特徵在於 所述分類步驟中,計算指紋值採用MD5哈希算法或者SHAl哈希算法。
全文摘要
一種基於相似性的文件分類方法,屬於計算機存儲系統領域,解決現有分類方法計算量和內存佔用較大的問題。本發明包括分塊步驟、計算校驗和步驟、統計步驟和分類步驟。本發明對文件數據的處理不需要隨機讀寫,只需要從頭到尾的進行一次處理,就可以完成分塊,計算校驗和,統計,排序以及最終確定分類所有步驟;可以高效的獲取文件間的關聯信息,將在二進位數據層面上相似的文件劃歸為一類,對文件給出所屬類別的唯一標識,在判定兩個文件是否相似時,只需要判斷它們所屬類別的標識是否相同即可,處理速度快,佔用內存少,可以通過運行參數調整判定精度;適用於各類需要獲取數據相似性的應用,特別面向存儲、數據去重的相關應用。
文檔編號G06F17/30GK103049263SQ20121053747
公開日2013年4月17日 申請日期2012年12月12日 優先權日2012年12月12日
發明者王芳, 馮丹, 陳儉喜, 杜鑫, 鄭超 申請人:華中科技大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀