新四季網

從單實例數據歸檔和/或備份環境中去除數據的系統和方法

2023-04-27 13:24:26 2

專利名稱:從單實例數據歸檔和/或備份環境中去除數據的系統和方法
從舉實例數據歸檔和/il^m中去除數據的系^^方法
^L明涉及去I^M^,尤^a^局限於M實例數據歸檔和/^^r嫂中 去除數據.
背景絲
^!t據歸^N^4H^r嫂中,經常需JN^很多數據對IU^'J歸檔/4H^系 統中.這種數據對象可能需絲留特定的時間段,^J:到某個辨完成.有時, 管SM^要^某^HIL小時間段內保留所有文檔.這種管S^的一個示例是
美國2002 Sarbanes-Oxley法案中M^的數^f3M!"需求。
在一些數據歸檔和/^r^系統中,文件可食fe^於樸實例雄,以防止 系^f浙同一文檔的多個副本而it^浪費。因jH^il檔/^^系統中,卑^H^ 文檔的編號由許多不同時期的不同資源t氛。
在一些數據歸檔和/^^系統中,;U:fNfc^割成許多同等大小的單元, 通常被稱為片亂這種方式下,當數據附加到已經歸檔/4HW文件時,後來的 歸檔/4H^ft僅需^^建相應i^數據的片亂
M明已經至少部^f;l^fm系統中的缺陷和限制.

發明內容
因此,械明提^ft從單實例數據對^Ht器中刪除數據對象的系統、 方'#^£,以確保僅當對於數據對象的所有引用*^除後,M^器中實際 去除數據對象.因此,當真正需JNW,數據對^UHI器中去除時,可保 持^W"-it蹄可靠性,
條第一個方面,械明提供了-"#狄系統,可辦的利用單個實例存 #^^*文件或文件片段.4^系統^i^Llt據M器,可IMt的M關 於文件的itlb據,其中^^tlt據^r條目&^從與條目有關的文^H十算出的 特徵,而JjtMt樹幽文件的內容是唯一的.話系艦^內^ft器,
可辦的^ Ht屬於^tlt據^^條目中識別的文件的文件片段,片段可被由片
段計算出來的特徵識別,而JjH^t斜目對該片段的內容是唯一的;^#數據對 象,所述數據對^ii^tJt據,器中識別的文件,可利用數據對f^述的 文件的唯一特徵識別該數據對象。數據對象包括列表,列表中包含文件的每個 片段的片段特徵。內^#^#照時間順序或者^1^!]的指令,對W^其中
的片賴^^:據對象"iW^t,以通過內^f^作隊列旨所述動作。*系 統能夠可操作的識別翻'J除的文件,為^#』除的文件#^£^1據^#條目,從
數據對象中為文^Hs'騰對於元教據^ft條目的引用,以"^tlt據M器中刪
除才朽己的;tJt據4^條目。因此,當數據不再需^f^"而刪除時,單實例, 器可,可靠和^的數^M^策略以旨,的數據,
在一些示例中,每個數據對象可描述不止一個文件,並JUH用它所描述的
每個文件的特徵iM示識。因此,單個實體可用於在單個實例文件系統中追蹤與
文件片段的多個源文件的連續相關性。
在一些示例中,如^v數據對象中去除對於; tli:據^^條目的引用,導致 所述數據對象不再描述^f可文件時,系統也可刪除所述數據對象。因此,可將 不再需要的文件的標識符完4^iW^賭器中去除。在一些示例中,系統可通過 在內$^ 作隊列的E^;添加數據對象刪除指令^f亍數據對象的刪除;隱藏 數據對象;當刪除指令到達內^f^作隊列的前端時,進4沐對以確定自刪 除指令,一入指令隊列後數據對象是否是寫入動作主體;如彩殳有U寫入動 作,則刪除數據對象。因此,可以這樣的方式來^M亍數據對象的刪除,即在數 據對韌皮標識為刪除後,但在被排入刪除隊列之前確^數據對斜目關的指令, 可防jhJt據對象的刪除以保持4^數據的一致性。
在一些示例中,為文件從數據對象中去除對於itlt據^t條目的引用後, 系統可從數據對象中刪除到^f可片段的連結,不再與^f可在數據對象中描述的
文件關聯。因此,^^r在數據對象中被標識的文件不再需要片段,片^a^數據
對象中解fiHl接,以表明該片段與數據對象之間缺乏關^^生。
在一些示例中,從數據對象中去除片段的連結後,如果jttJP]沒有數據對象 連結到片Wi,則系統可以去除片段。因此,片段不再與^^可數據對象關聯, 不再與存儲器中的任何文件存在繼續的關聯性,可完全被刪除。在一些示例中,
片段的去除可以這才We: ##騰片段的指令增加到內^# /作隊列的尾部;
隱藏片段;當刪除指令到達內$1# 作隊列的前端時,進4沐實以確定自刪
除指令^^入指令隊列後數據對象是否是寫入動作主體;如彩殳有iCji寫入動
作,則刪除數據對象。因此,可以這樣的方式來^Wf數據對象的刪除,即在片
段被標識為刪除後,#被排入刪除隊列之前,確定與該片 目關的指令可防
jJilt據對象的刪除以^^^數據的一致性。
才艮據第二個方面,本發明提供了一種M賭器系統中利用單個實例^^r
案刪除文件或文件片段的方法。所i^r法包括^itit據M器中4^與文件 有關的元數據,其中每個^Jt據^^條目包括從與條目有關的文件計算出的相 對文件唯一的特徵;在內^^器中^ft屬於^ tit^:據^^條目中標識的文件 的文件片段,片段可被由所述片段計算出來的併到目對片段內容唯一的特徵來 標識;在內^^器中^^^tlit據員器中標識的文件的數據對象,數據 對象可利用它所描述的文件的唯一的特徵^M示識,數據對象包括包含所iiil件 的每個片段的片段特徵的列表。所^法進一步包括對^|在所述內^# 器中的片段和數據對象產生將按照時間順序或者接收到的指令執行的動作指 令,以扭J亍所述動作;識別要刪除的文件;為要刪除的文件才朽2^Jt據^^條 目;從數據對象中為文^H9'J除對於所iiitJt據^ft條目的引用;AULIt椐M 器中刪除^i己的^LIt據^ft條目。
通過以下^#示例的描述,本發明的更多的方面和實施例是顯而易見的。


下面M過示例的方式,根椐附圖中附圖相^^斜己的部分,描述本發明的 詳細實施例。
圖l是J^IlBL據4^^呈的^^布式計^r嫂的示意圖; 圖2A^^^JI]數據4^t程的分布式計^^竟的示意圖; 圖3是說明在兩個時間點之間:W5T修改數據文件的示意圖; 圖4是說明單個實例*系統的示意圖; 圖5是說明數據對象的示意圖; 圖6是說明刪除文件i^呈圖; 圖7是說明刪除數據對象的^W呈圖;和圖8是說明刪除文件片段的i^圖。
雖然本發明易受^#修^#換方式的影響,但M的實施例可通過圖中 示例顯示,而JL^iiE進樹細描述。然而,應該明白,附圖和在次詳細的描 述並不是將本發明局限於e/^的特定形式,憐斜目反,本發明似了所有改 進了的型式,以^Wii/斤附^'j要求定義的本發明的^ft和範圍之內的等 同方式和可^f^"式。
^#實施方式
如圖1所示,分布式計,竟10可以包括中央辦公室12,還可以包^個 或多個i^^呈^^室14和/或一個或多個i^^呈用戶16。中央^W^室12可以包括數 據將被4^到的存儲池20。代表一個或多個^X作站24的備份客戶機22執 行^ii程的管理。通過LAN (區域網)25可以將^^數據傳^'J^^池20。
i^f呈^^室14包括一個或多個^H^客戶機26,所述^^客戶機26可以是 專用名,調器,或者由工作^*11###客戶機。通過4^客戶機26,可將數 據^^到i^呈^M^室4^i殳備28。然後,^i殳備28通過WAN (廣域網)鏈 接29將^^數據傳i^'J中央^M^室的^^池20。
酉e4^有4^^戶機30的移動用戶16在i^^Bf端Jii^行。名^"^1戶才幾30可 以通過WAN連結29將^^數據發i^'J中央辦公室12的存^"池20。
當前示例中,通過LAN25和WAN29傳送的^"數據的數量,由確保僅 僅將唯一的數據發i^ij^^^池20中而受到限制。實現技^M^在下文中詳細 說明。
圖2是說明另一分布式計^r嫂的示例。此示例中, 一些工作站和侈動用
戶與各自的;W^^伺服器相連,每個伺服器可與^"##務賭的數據中心通信。
如圖2所示,當前示例中,每個包含在備盼系統中的計算機系統40運行備 份客戶機,^^客戶才純可,tt作^^。當文件或文件片段被創建時,每個本
i^嫂識別新的和改^的文件或文件片段,以;M/每個文件或文件片段計算
特徵。代理可淨icS己置為忽略不需^W文件,例如列印池文件、操作系鍵丈件 或臨時文件。
當前示例中,比預定閾值長的文件^c^割為多個片段。這樣可允許更有效
的備份文件。例如,如MSOutlook^.pst文件典型地包括大量的數據,這些 數 ^#不變,並且例如當用戶發絲接收郵件或浙日程條目時,附崎的 數據。因此,當在片鄉式下4^亍^^t時,在未 的文#^會處,所有 片自不需要重新#。 itbi^f呈如圖3所示。
如圖3所示,絲^W文件70被^^為多個狄片段72。當齡下一 ^Wt,文件增加大小到新文件74。在^HWt中,4^^3S再一次將文件 看作是多個片段,因》b^個片段具有為其計算的特徵。通過將這些特徵與包括 在前面措中的特4^ii行t嫩,可確定4^P片段76已經預先被騎,因此不需 重新^^在*系統中。另一方面,新片段78並沒有預先被餅,因此可以發 ilUi^H^絲器中。通iiiM這種^^,每當系統中所有 的文件>^^送以 進行*時,在"^#怍中用於4###而^^送的數^*可以大大減少。
下面的說明中,字文件和片WI於相互交換以引用名喻數據單元。可以理 解,當文件小於預定片段大小時,可考慮將文件分絲為單個片段。當前示例 中,可以4M糾片段大小。可理解的是,越小的片段,^!:提高^^呈的 效率,^£過4#^3^又增加了處理負荷。在一些示例中,可以^fM的32k字 節,64k字節或128k字節的片段大小。
4^確定的特樹娥其內容唯一地識別文件或文件片段。此特 目對文件 或文件片段的內容唯一,也i61說,相對於文件或文件片段中的數據唯一。兩 篇不同名字的文件通常被認為是同一用戶的兩篇不同的文件,但兩篇這樣的文 件可具有極其相同的內容(或者在文件片段的情況下的部分內容)。這種情況下, 它們具有同樣的特徵。因此,沒有兩篇不同的文件或片段具有同樣的特徵,同 樣的文件或片m常具有同樣的特徵。當前示例中,特4i^用哈希函數(hash function)計算出來。哈希函lbUt學函數,用於從許多差不多大小的數據項中 確定固定長度信息肩要或特徵。哈希函^^單向函數-它不負^Mt徵中反向此 過程以重新產生原始^t據。從需要的處理能力上考慮,與^^#技術,如 CRC (循環冗餘>%^驗)方法相t嫩,哈希函數相對較慢,而錄費高。然而 與CRC方法相比,哈希函數具有為^"個獨特的數據粒成唯"Ht徵的優點, 而CRC方法從多種不同數據集中生成同樣結果。^M]哈希函數計算當前示例的 特徵的示例包括MD5, SHA1和SHA256。
每個工作站40的代理識別新的和獨特於工作站的文件或片段。因此,如果
在工作站上新生成的文件或片段事實上是預先4^文件或片段的精確複製, 艦就不需再發送片糊於梳
一旦^3^工作站40中識別獨特的片段,片段的特徵可^L^iHi)^^服務 器42,以再次^iL^^^H^。 ^jll/ftt:新測試可以確定相對特定工作站40唯一的 文件是否同樣相對於所有服務於^"伺服器42的工作i^^一。 ^f^伺服器可以 是:W^呈^y^室46內所示的^##伺服器,或者在中央網絡48內所示的位 於中央網絡48內的工作站40。可選的,^#伺服器可以是^^##伺服器,如 在中央網絡48內所示的位於,ji(M^室44內的工作站40。工作站40是移動工 作站,例^(W更攜式電腦,移動工作站上的^^U^icS己置為連接到同一4^服 務器上,或者連接到^Ei^定時間內物^J巨移動工作站最近的4^伺服器上。
在4^#構內,發送特樹'J更高層樹腿一過程可以一直持續,直到iiJ!] 最高層權限。在大型系統內,可以是與許多^k^^伺服器連接的中央^^服 務器。在小型系統內,可以僅^U艮務於所有工作站的單個^^伺服器。如果 在*系統中片^:,皮確定為是唯一的,可指示初始的工作^^^j^)於a
的實l^lt據片段。
不是唯一的片段也可以具有通過4^^^^J)J^^伺服器的自身特徵。 這也許是在定義了數IW4策略的系統內的一種情況,以確^^^^環嫂中,
在文件或片段出IIUM^可工作站上的最近時間^,在4^^,中##最小周 期的時間。在一些示例中,也需要確^^定文件的4^P片段出^L^僻系統中, 直到文件的數^^絲需^if止。因此,文件的^片段需^f絲直到數^^ 策 ^周期的結束,而不只3L它的^4務改的片段。
m容易理解,當前示例中的工作站40可以包括文件或應用月良務器,其中存 鄉^4^的數據。例如,可以是這種情況,文件伺服器用fvf^i午多數據文 件,因jtblt據文件的內容需^^。應用月l務器的示例例如MSExchange^服 務器,應用月艮務器絲與應用相關的數據,因此需J^h應用文件 >如此。 無論位於工作站還AJ3PL務器都需^4^a,例:^I^^"種直接方法來'I^1客 戶it^,或者在系統41^^,重構工作站iUl務器。
如上面所^:到的,在計#^系統內數據可應用數#^#策略。這種策略可 以通過公司確定,或者通過管*限強制。管理強制此策略應用,例如在金融 信息和法律信息方面。為此,需要工作^^鎮包括在^##中刪除文件,
以確#小於一次#^時間間隔內,存在於工作站上的文件仍舊包含在4^it 程中。
應當理解的是,才娥典型的iMl數十位大小順序的特徵,^^亍4"^ii^來 決定真正需# 皮^#的片段,與在決定數據^ft器是否實際需^t前,在系統 中為發送以進行務賭而標識的##數據相1^艮,通it^工作站和^^服務^
間連接的網絡中^il的數據的數量大大減少。
返回到圖2中,^#伺服器42可以將4^數據^^到^i殳備,如^#服 務器50中。^#伺服器50可以是獨立的肩儲伺服器,或者是^4^^i5^拖, 例如SAN (務賭區域網絡)52的4分。可替換的示例中備份伺服器42包括 用於^^^t據的,器。
為4^數據提供冗餘性、妙妙,可利用性,^ft伺服器42由一對鏡 像的^ft伺服器組成,其中一個處於有效狀態,另一個泎為熱*,在運行狀 態的備份伺服器出現故障時準M管。例如可以在i^Ii^點56上提供i^^鏡像 54,以提供對於影響有效^^伺服器位置的故障的舉性。這種i^f呈站點也可用 於產生和/或###^數據的*副本,例如,在^#磁性設備中或採用常絲 她術如磁帶保險庫(tapevault) 58。
這裡已經描述了備份環境的多個示例,以採用數據特徵來識別^^的文 Wp/或片段,並且僅^^一的文件和片段,以實I^L^^頻巻^^I的最高效 率。
為了提^""種在4^系統中訪問文件和片段的方法,文件和片"^可以# 到索引的文件系絲資料庫結構中,其允i械it&索各自特徵來識別和'^^文 件或片段。特徵H^fct作是文件或片段的"籤名"。因此,簡單的文件系絲數 據庫結構可以用於文#片段中,以允i^til搜索和'^l的過程。
為了搜索上述類型的4^絲器的內容,^H古絲器的內容,以^## 器中'MJt據,可以提供itJt據的資料庫。itJt據的資料庫或^"^tJt據庫"可 以4 ^^*系統中務賭的文件的數據。這種數據可以包括信息,例如文 件名,^編輯日期,創建日期,作者,文件大小和表示文件內容的關鍵詞。 ^ 1據^##了文件(或文件的每個片段)的特徵(或多^#徵)。因此, 用戶可在itJt據庫中運行查詢指令,以在^tlt據庫中搜索在特定日期編輯的文 件,任何的返回結果能夠使備盼系統中的文件通過唯一的識別特徵而被恢復。
由於與實際^^文件的大小相比,資料庫鄉t嫩小,以^JL許文件/片段數據 庫中釆用簡單的搜索過程,此方法構成的系統l^t據^^有高速搜索性能。
在另一個示例中,文件/片W^tlt據數據^^並為單個資料庫。在某種意 :5Ui說,這種系M^供了一種僅需要單個資料庫的簡4^構。
返回到獨立的itJt據庫和文件/片段的賴器示例中,通it^許^t^:據庫 中多於一個的條目以包樹目同特徵,該系統可以作為單個實例#^器運行。 這如圖4所示。
三個計^U殳備終端卯,文件伺服器92^#動終端94中每個^#^了 相同的電子表格文件"Budget2005,xls"。 ^f端卯上,文件96於2005年3月 19日/fHt在"C:MVlyDocuments《alesDocsr文件夾下,大小為293kB。 ^M^件服 務器92上,文件98於2005年3月22日^^在"X:XPublicXFianceY,文件夾下, 大小為293kB。在移動終端94上,文件100於2005年4月14日^f^在"C:MVIy DocumenteV,文件夾下,大小為293kB。文件96、 98、 100^_相同的,因而它們 具有同樣大小,具有同樣內容(分別是102A、 102B、 102C),在^f^Mt時間 產生同樣的特徵FP (104A、 104B、 104C)。
在終端90、文件伺服器92和移動終端94上,扭/f亍4^怍的時間不同, 因而每個計^4幾設備的4^PA^^系統中的時間也不相同。例如,*端 卯和文件伺服器92的預定的^^Mt發生期間,如果移動終端94 一直不與備 份系M^目連接,則移動轉"端94的^^Mt執行時間與^f端90或文件伺服器92 的名^ #怍時間均不同。
對於終端卯的^Wt性育^M兌,為文件96計算出特徵104A,特徵104A 與疆系統的內$^#器部分116》懷。如^^錯系統中特徵是唯一的,文 件96的內容102A需要^^^在內^^器116中,如與特徵104相關聯的內容 102所示的。如絲內^^器中特糾是唯一的(例如,如^1件已預;^皮備 份),則內^需重新賴。在決定內容104A是否需要絲的同時,如^JL件 96沒有被預先^W話,文件96的iLlt據106 ^f^到itlt據庫114中。與特徵 104相關m^f^b^據106,其中特徵104識別^#在內$^#器116中的內 容102。
當文件伺服器92上的文件98以及移動終端100上的文件100被選擇用於 *時,扭/ft類似的過程。因此,一SJ:件96、 98、 100都已經包括在4^Ht
程中,元Jt據庫包^f且輸入每個文件,因為每個文件^^有不同的; Llt據, 但內^^^W文件的單個副本。在另一可選躺實施例中,;Ut據庫可以 具有每^^徵的單^S己錄,所述記錄為生成特徵的文件的4^原始實例> !^元 數據。
因此,可以^^供包括文件的所有初始實例的元Jt據的^:據庫,以提供搜 索環翻以檢索在內^##器中##^文件/片段。同時,內^#^||^包括每 個文件/片段的種實例,以限制內^ft器需要的賴空間。通過每個對應的 內容記錄的特徵,itlt據庫記錄與內^^器中的內容記斜目聯繫。
在內^4#器中,為輔助文件和片段的管理,引入了數據對象實體。數據
對象可以便於文件內片段的管理,iiX文件不需要為每個; Llt據庫條目fe大 量片m系。同樣,類t據對象可允"i午^^^^系統內》"類文件,
參考圖5,示出了數據對象110。通過提供^^L件的所有片段的列表112, 數據對象將原始文件與其所有片段連^^。數據對象110可以與片段-^^存 儲在內旨賭器中。為了f^4^器中識別和訪問數據對象,可與原始文件的 特4im系起來作為一個整本。在單個片賴文件的情況下,當前示例中的系統為 片段(因為絲的多個片^L件可以包4t^個片段,作為自身特徵的其中之一) 創建片m象。所述系統也創^t據對象,棘這種情況下,文件對象的片段
列表僅包括一個片段。文件和片財^Rr有同"Ht徵(而貼同-"#賦下
絲)。藉助於數據對象UO,通過檢索在數據對象UO中引用的片段U2,並
且按照它們在所述數據對象中出現的〗'liW^附加它們,可以重構原始文件。
對每個片^M兌,相關的數據對象列表可與片段""^4^到內^#器中。 數據對象列表以附絲; tJt據的形iU!^到片段中,數據對象列4^殳有,贈作
是片段的1分。因此,片段特徵是不食b皮數據對象列狄改的。片段的數據
對象列^A片段的有效簿"i^t息,並且不是片段數據的一^分。既然片段特徵 是通過片段數據單獨被計算出來的,片段特;^立於^^r片^^ft息,例如 數據對象列表。
這提供了片MiJ文件的連結。上面已經描述了,獨特的片^R僅:I皮4^^在內 ^i^器中一次,以a在文件,器中不必要的片段的複製。如上面所描述 的,實際上有^k^f^t種單個實例處理過程,例如兩個文件可以不同,但是 仍共有一個或多個片奴必要的。》1^有片段^4#一次,但兩個文件將具有
# 皮^^到內$^#器中的不同數據對象。兩個數據對絲涉及共同的片段。 提^f^"種方法將片段與所有數據對象連結,數據對象引用片段(因此引用包含 片段的所有文件),為每個片段記^i^種數據對象列表。此列表因此包含引用片 段的數據對象。
因此,在^(^t期間,當##客戶機需 ^片段(作為文件狄的一
部分)時,將查詢內^^器^ii^片狄否已^ME於內^^器中。如
果內^##器對此查詢做出肯定響應,則客戶機請求內^Ht器增加從片^Ji] 與客戶才;uL^^i文件相對應的數據對象的連結,而不A^送實際片鮮,J內容
賴器中。
為了完^文件各部^^描ii^之間關係的循環,^tJt據庫中的文件元
數稱己錄與內^#器中的數據對^間提供了連結。在最簡單的形式中,可 通過包含itJt粉己錄中的文件特徵來實現,反之亦然,通過包含到數據對象中 ^t粉己錄的連結來實現。在一些示例中,需對娘特定標準來歸檔文件,歸
檔標準的實例為備除日期(例如,歸檔在同一天4^的所有文件),或者* 源(例如,W目同的計算機設備歸檔所有4^I文件,或屬於特定用戶或用戶 組的所有文件)。在該描述的其^Hl^^i^jl用通用示例,文件的用戶定義的組 ,皮稱為文件組。在這種假設下,^LIt粉己^^相應數據對象的鏈,然通過 文件特4i^供。然而,另夕卜,通過與數據對象一^記錄^^一個或多個所^t 數粉己錄的文件組,可以將所述數據對象連結到引用所述數據對象的itlfc掛己 錄。例如,假設存"個文件組,其中文件組1^W引用數據對象X的兩個元 數粉己錄,文件組2絲引用數據對象X的l個it^^i^,文件組3不## 引用數據對象X的itlt新己錄,則ie^內^4^器中的用於數據對象x的文 件組的列表包^Ha標識l和2。 ^M1連結到文件組,而不是_連結到^;^1:粉己 錄,提供了可以^LP艮制的對數據對象記錄的鏈被目。在^^Mt期間,當客
戶機為文件組i的##文件時,客戶才>^#求內^##11#^個4^數據對象
連結到文件組l,不管數據對象是否已^#在內^4#器中,或由客戶才械效 賴。
因此,已經描述了一種系統,用於為數據網^C供內容M的4^V或歸
檔解決方案。該系統確保所有獨特的數據存儲的同時,避免不必要的非獨特數 據的絲。通過分析片段中的大型數據對象,這種to^式^i一步提高,
如圖4所示,給定的內容項可以連結到itjt據,器(或元資料庫)上的 多個條目。在一些示例中,很明顯,^^給定的內容項^^接到一個、 一些或
多個itlst據庫項。例如,文檔>^€供到^#:創建的實^^卜的接財之前由個
人完成。因此,這使##個內^#絲目賄單個; £^據庫條目。在另一個 示例中,文檔是由一個小的團隊共同完成,或者由一個人創建並JLit過電子郵 件發iti,JM團隊成員中。這種情況下,期望內容項具有對於每個內$^#器 條目的多個^Jt據庫條目。在她示例中,文檔由單個人創建,複製[個組 織或部門內的許多誠所有人。這個示例中,對每個內^^絲目來說,每 個內容項可以具有數百或甚至數千個;^:據庫條目。
如^LE應用分^"案,十辨會變得#極端。如^L檔是包M多片段 的大型文檔,考慮文檔將,ic^布到一個^^組織或部門內的示例。下一步,假 i5^L檔是從一些接財^iiU,J組織外的個人。同樣,原始文檔包—些拼寫錯 誤。 一些接^^並沒有在轉發前將糾正拼寫躲, 一些接財將糾正-"^爐 誤, 一些接財將糾正所有的淑,其餘的將糾正將糾正另一^^m。這將 導致一些用戶中的副本與原始文件一致,其餘用戶併存的副本以^t方式修改 了原始文件。因此,修改的文件的分段可能生成也需要,的新片段。才娥不 同用戶做出的修改的,M ,多個用戶獨立^'j建同一文件或具有同樣片段的文 件。因此,^^始文檔可能形成了多個相^il相關的片段,每個片M過許多 不同itlt據庫條目連結到不同的用戶組。如^ii過不同用戶經it^個月或;L4
的時間形成不同的變化,片^^tlt據庫條目的網^^變得^口複雜。
因此,如果需要從內^##器中去除數據,例如,擬娥數^f絲策略定 義的數|^#期終止後,m^決定內^^l^目和^lt據庫條目哪一個可以
^^i[^除,同時留下完整和可'歐的文檔的最新缽。
同樣,在^f可給定時間浙MW定資料庫的確定性狀態。例如,給定內容 M器項作為^r識別的通過歸檔/##系鄉^良務的計^^資源,已經&,J預定 閾值時間fWic^除。因此,此項淨ic^除。然而,此項^LA即刪除之前,^#代 理詢問片段是否具有與當前,器中正被刪除的項的特徵匹配。此時,此項仍 舊存在,4^^^接W)J肯定答J^,不再發送片朋於絲。然而,響應詢 問指令後,此項立即才娥數:^f絲方案被刪除。因此,意外地ii^:據丟失。
這種情況通過4^亍數 4除策略可以被解決,所述策略^1於避免此情況
M的可能性而設計。S^將更詳細,iiit種系統。
下面描述中,假i^^備盼系統中實現如上述參考圖5所描述的數據對象實
體。同樣,假設內^t器iMl連續的動作隊列接收動作指令。可利用狄系
統的這兩個特徵來去除數據,而沒有意外的數據丟失。
當前示例中,實現隊列機制使得在內^4^器中^^亍的辦連續化。內容 員器中的所有動作被添加到此隊列中,並以先i^y良務的方式執行,不允許
^f可動作繞iit匕隊列。可能的動作例如^Wf片段,^W的數據對象,增 加已有的片段到新的數據對象的連結,增加從已有的數據對^ij文件組的連結, 去除從數據對IM'J文件組的連結,去除從片御'J數據對象的連結,去除數據對 象,去除片段。需要注意的是,來自4^客戶機的特定詢問和l^動作必須是 自動的動作。例如,當4^客戶機詢問內^4^器特定的片狄否已^^內容 ,器中, (在接^'J肯^i^^)為此片段請求連結動作,必須確保 在詢問襯作請求之間沒有雞動作iiA^隊列中。否則,如Jii^斤述的,數 據可能會意外丟失。
如上iL^斤述的,,數據對象的提供和序列化動作隊列的採用,數據去除
過程可如下批阡。該過程包括兩個主要階段,^MJt據;W阡的第一階W^在
內^^器中i(jl的第二階段。
x ^tjt據庫中初始化該i^呈,以從將被去除的文件列表開始。該列表包含
^^^器中從單文件到所有文件的範圍內的^f^f可數量的文件。該列表可才M^數 H^i^Nf止策略來確定,例如,所有超過了特定期限(期限是'^!^數,
持管3m^制定的)的it據,皮標識為去除。
如圖6所示的方法。首先,在步驟S&1中,^LIt據庫中,識別為將被去 除文件記錄的it^i^己錄,並JL^i己為過期。一J^i己^^皮才封己為it期,4^"客 戶機就不^f^J此記錄作為條目點,而'M3亥記^^斤引用的文件。接下來,在 步驟S6-3中,itJ:據庫請求內^^器解除^i己為過期的itlt據庫記^J,J數 據對象的連結。在每個數據對象引用單個文件的示例中,在這些記錄之間脅 一對一,^^接。在如上i^斤述的常規示例中,此步驟中,由於數據對象是 連接到文件組,而不^JL接到^:浙己錄,該步^^會^;複雜,在itlt粉己錄 和數據對象之間^^在一對一關係。因此,當屬於文件組1的文件A (的; Llt 粉己錄)到期時,並不立刻指示去斜目應的數據對^ij文件組l的連結。實際
上,可以想到的是,^LiL件組l中,稱為文件B的第二文件可能與文件A具有 至少一個相同特徵,因此在內^W器中與文件A引用同一數據對象。^il種 情況下,不能去除在所述數據對^Ji^文件組1的連結。常^M兌,若且唯若 在文件組中的所有itli:粉己錄引用標識為過期的同一數據對象,則允許itJt據 庫解除文件^i'J特定數據對象的連結。一^S^jt這種情況,文件組不再具有到 所iijyt對象的引用,則可有^t去除此^^。
步驟S6"5中,一JLIt據對斜Mt需要而淨iL^新,^JLIt據庫中可^^ f^t期的it教^i己錄。在一個示例中,可以立即完彭匕類去除。另一個示例中, 過期的記錄將在itJt據庫中^^一段時間。這個示例中,這可以允^H錄歷史 或允if^M宗,並且會在預定的一段時間it^^W亍去除。
步驟S6"3中,內^ft器處Sitlt據庫請求的解^^接的動作請求,解除 數據對象連結的動作;^i在內^i^器隊列中,按敘隊列的順序處理。"^"" 個解ftH^接動作從附加於數據對象的文件組列表中去除文件組。結果是,數據 對"再是文件組的4分。
特定情況下,解除連結的動作會去除從數據對#^最^5^件組的連結。這 指示數據對象不再被^f射可文件組需要,因而可以被刪除,除非動作隊列仍包含 客戶才樹特定數據對象的連結請求。如^it種動作存在,立即去除數據對象則 會^jt數據丟失。狄數據丟失的itf雖圖7中有更詳細的描述。因此,在當 前示例中,步驟S7-1中數據對"是被立即去除,而是_#*除數據對象的動作 增加到內^Ht器隊列中。同時,內$^#11^吏得數據對象不可訪問,或在步 驟S7-3中隱^II對象的存在。因此,內^#器隊列中的先狄出動作確保 在去,作,i^:理之前,已經^frf^T增加到特定數據對象的連結的動作。而 且,既然隊列中已增加了去,作,當數據對象不可用時,對於該lt據對象的 新的連結請求將不再被增加到該隊列。實際上,當##客戶機請^##器增加 到數據對象的連結時,內^## 響應為不4##數據對象,然後客戶機強 制要求內^^^^建新的數據對象。
因此,當內$^#器準4^1#去,作時,已經處理增加到數據對象連結 的任何動作,而iUt隊列中沒有新動作等待。因此,在liWt去l^作之前,步 驟S7-5中,內^#器|^£是否增加了到數據對象的<^^連結。如果是,在步 驟S7-7 (既然數據對象仍在^^])取消去,作,否則,在步驟S7-9^/ft去除 動作。
當^Ut數據對象刪絲作時(步驟S7-9中),內^#絲除數據對象。 當已去除了數據對象,不再需要^H^t據對象的片船'J數據對象的連結,可以 在步驟S7-11中去除。因此,對每個片Wt講,內^#器在其隊列中增加解 ft^^接的動作。這些動作增加到隊列中(與立即"^^目反),以允許^ft為首先 處理的有關片段之一的^^T已預定的動作。當處Sil種解J^^接的動作時,片 段不秘接到數據對"
與數據對象解^#_接動作類似,片鵬I^^接動作去除了從片^J'J^數
^&對象的^接。指示片段不再被^fsr數據對象需要,可被刪除,除非動作隊列 仍舊包含客戶才樹該特定片段的連結請求。如^it種動作存在,立即去除片段 會導致數據丟失。連結動作的存在事實上奮M客戶她^^片段,但是通 過內^##器被告知該片段仍舊存在,以^^隊列中妙連結動作, 一旦動作 存在隊列中,客戶樹目信片段已經被有^#^(絲。因此,返回到先前狀 態,在去除片^ji的絲連結後立即去除片段會導致數據丟失。艦這種數據
丟失的過程在圖8中詳細地描述。因此,不肯^即去除片段,而是如步驟S8-1 在內^#器隊列中增加片段去絲作,以4步驟S8-3中內^##器對於外 部(事實上是對^^客戶機)隱藏片段。當這種片段去,作到達P人列尾部、 準4^/f亍時,^^可其它有關片段的動作已被增加到隊列中,不再在P人列中為片 段增崎的動作。因此,當內^^器準M理片段去絲作時,步驟S8-5驗 證是否增加了到片段的^f可連結。如果是,當片段仍舊需要時,步驟S8-7和肖 去RHMt,否則步驟S8-9^^亍去,作。
如上面所述的刪l^t程,除非不再被^f可文件組引用,^L件組去除的數 據對象實際上不是從內^4^器中刪除。同樣地,除非不^^接到^^T數據對
象上,賴的片段實際上不是從內^ft器中刪除。逸M內^m器iMl單
個實例來^^有效的^f^U莫的結果。
因此,實現文件片段的單個實例務賭以達到有效務賭空間利用的*系統, 可配置為才娥數^f絲方案允許文件和片段的刪除,而不會由於刪絲寫指令 的即時重疊導致數據丟失。
對於閱讀本說明書的本領域技術人員很顯然的是,可以對於Jiii實例作出 多種修改、替換、補充以及等同方式,並JLil些修改、替換、補充以及等同方 式的實現並沒有脫離本發明的銜申和範圍。
權利要求
1、一種採用單實例存儲方案的可操作用於存儲文件或文件片段的備份系統,所述備份系統包括元數據存儲器,可操作用於存儲涉及文件的元數據,其中每個元數據存儲條目包括從與條目有關的所述文件計算出的、並相對所述文件唯一的特徵;和內容存儲器,可操作用於存儲屬於在元數據存儲條目中標識的文件的文件片段,其中片段可利用由所述片段計算出來的、並相對此片段唯一的特徵來標識;存儲描述在元數據存儲器中標識的文件的數據對象,其中數據對象可利用它所引用的文件的唯一特徵來標識,數據對象包括包含所述文件的每個片段的片段特徵的列表;和按照時間順序或者接收到的指令,對存儲於其中的片段和數據對象執行操作,以通過內容存儲動作隊列執行所述動作;其中所述備份系統可操作用於識別要刪除的文件,為所述要刪除的文件標記所述元數據存儲條目,從所述數據對象中為所述文件去除對於所述元數據存儲條目的引用,並且從所述元數據存儲器中刪除所述標記的元數據存儲條目。
2、 才Mt^'j要求l所述的系統,其中每個數據對象可以描述不止一個文件, 並且可以採用它所描述的每個文件的特徵iM射只。
3、 #4^權利要求2所述的系統,其中所述系統可辦用於4^數據對象中 去除對於;^Jt據^l條目的引用,導致所述數據對象不再描述^f封可文件時,刪 除所述數據對象。
4、 ^L^M'j要求3所述的系統,其中所述系統可操怍用於柳'騰所述數據對象的指令增加到所述內^ 作隊列的尾部;隱^/斤述數據對象;當所述 刪除指令到i^斤述內^jH^作隊列的前端時,進^t對以確定自刪除指令被 加x;斤述指令隊列後數據對象是否是寫動作的主體;如果沒有發生寫動作,則 刪除所述數據對象。
5、 才Nt前述4封可一個^U'J^"求所述的系統,其中所述系統可操怍用於vMJ斤 述數據對象中去除對於元數據^#條目的引用後,v^斤述數據對象中去除與所 述數據對絲述的^^文件不再關聯的<樹片段的連結。
6、 ##^'溪求5所述的系統,其中所述系統可操怍用於>^斤述數據對象 去除片段連結後,如影殳有數據對象連結到所迷片段,則所述系統可去除所迷 片段。
7、 #^ '溪求6所述的系統,其中所述系統可辦用於柳'J除片段的指 令增加到所迷內^4^;作隊列的尾部;隱^/斤述片段;當所述刪除指令到達 所述內^f^ 作隊列的前端時,進#^對以確定自刪除指令^b^/^斤述指令 隊列後所述片M否是寫動作的主體;如^ 殳有^ji寫動作,則刪除所述片段。
8、 一種從具有單實例4^r案的務賭系統中刪除文件或文件片段的方法, 所述方法包括在itJt據M器中^^與文件有關的; t教據,其中每個itlt據^^條目包 括從與條目有關的文件計算出的、並相對於所iiX件唯一的特徵;在內^4^器中^^屬於4^Jt據^^條目中標識的文件的文件片段,片 段可利用由所述片段計算出的、並相對於所述片段唯一的特徵^#識;在內^4^器中^^t^t^:據絲器中標識的文件的數據對象,數據 對象可利用它所描述的文件的唯一特徵^M示識,數據對象包括包含所iiiL件的^^片段的片^a特徵的列^;對^f^在所迷內^##器中的片W^數據對象產生將按照時間順序或者接 j^J'J的指令敝的動作指令,以敝所ial動作;和 識別^S'J除的文件;為所述射條的文件才敏斤ii^據絲條目; ^^斤述數據對象中為所述文件去除對於所述itlt據^^條目的引用; ^v^斤i^tJt據M器中刪除所^^i己的;^:據^^條目。
9、 才Mt^'J要求8所述的方法,其中每個數椐對象可以描迷不止一個文件, 並JL可以^JD它所描述的"^個文件的特;N^示i只。
10、 才M^5U'J要求9所述的方法,進一步包拾如果從數據對象中刪除對於元數據^^條目的引用,導fM/f述數據對^ 再描述4封可文件時,則刪除所述數據對象。
11、 根據斥WJ要求10所述的方法,其中所述數據對象的刪除包拾 ,'J除所述數據對象的指令增加到所述內^ff^作隊列的尾部; 隱^^斤述數據對象當所述刪除指令到i^斤述內^^f^作隊列的前端時,進4沐對以確定自 刪除指令^U口入指令隊列後所述數據對象是否是寫動作的主體; 如^ 殳有^jt寫動作,則刪除所述數據對象。
12、 才Nt權利要求8到ii中^^r一個所述的方法,進一步包拾.為所^:件A^斤述數據對象中去除對於所iiitlfc椐^^條目的引用後,從的連結。
13、 才Ni權利要求12所述的方法,進一步包括>^斤述數據對象去除片段連結後,如^殳有數據對象連結到所述片段,則 去除所迷片段。
14、 才娥權矛j^求13所述的方法,其中去除片段包括 # 除所迷片段的指令增加到所述內^^t^作隊列的尾部; 隱藏所述片段;當所述刪除指令到i^斤述內^f^作隊列的前端時,進4沐對以確定自 刪除指令^^入指令隊列後所述片 _否是寫動作的主體; 如影免有M寫動作,則刪除所述片段。
全文摘要
本發明提供一種從單實例數據對象存儲器中去除數據對象的系統、方法和裝置,以確保僅當對於數據對象的所有引用被去除後,從存儲器中實際去除數據對象。因此,當真正需要被刪除的數據對象從存儲器中去除時,可保持存儲的一致性和可靠性。
文檔編號G06F17/30GK101393532SQ20081016868
公開日2009年3月25日 申請日期2008年3月28日 優先權日2007年3月29日
發明者B·斯圖吉, K·德弘特, M·威爾湯根, N·克雷梅裡爾, 克里斯多福·德斯皮格爾 申請人:賽門鐵克公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀