新四季網

一種分布式系統中的海量文件存儲和訪問方法

2023-06-11 12:53:01 1

專利名稱:一種分布式系統中的海量文件存儲和訪問方法
一種分布式系統中的海量文件存儲和訪問方法技術領域
本發明專利申請公開一種信息技術領域的海量文件的存儲、組織和訪問方法。
技術背景
在信息技術領域,經常需要處理大量的數據,特別是在處理一些流式數據的時候, 往往需要將數據保存在文件系統裡面。但是文件系統的節點下的文件數量太多會導致IO 瓶頸。在為了保持低成本而使用多個廉價存儲伺服器構成的分布式集群的時候,需要保證分布式存儲方法的有效性和簡潔性。因此針對應用的海量數據特性來組織和存儲文件,會提高海量文件服務的響應性能。特別地,如果這些文件系統還需要響應應用程式不同維度的數據訪問的時候,需要對這些文件進行遍歷訪問,因此採用何種方式來組織和存儲文件有可能會對應用的反應時間產生較大的影響。
比如在搜尋引擎的文件存儲系統裡面,搜尋引擎接收和解析的各種文件體存放在本地文件系統裡面,在搜尋引擎按照不同的方法對文件進行檢索的時候,經常會遍歷這些文件的索引,同時還會訪問這些文件體及相關的淨文本。在一類特殊應用裡面,時間維度或者數據的業務類型可能是需要檢索的一個關鍵特性。百度、谷歌提供了對最新文件的檢索功能,但是其主要文件檢索過程則是在關鍵詞的字符基礎上發生的。因此,除非對百度、谷歌等商業化引擎進行改造,使其能夠支持時間特性的檢索。還有其他的一些特性的檢索方式,百度、谷歌對其的支持也不好,這是因為其進行通用的搜索方面走的太遠了的緣故。
本專利提出一種分布式系統中的海量文件存儲、組織和訪問方法,其利用分布式並行架構和維度分割特性來對海量的文件進行組織,使得對某些維度的數據訪問非常快捷。對於搜尋引擎來講,由於限定訪問的維度和文件組織一致,只需要訪問指定節點所代表的維度即可完成應用的要求,因此沒有額外的訪問開銷。發明內容
通過對文件按照各種維度來組織文件的存放,可以加速文件的訪問過程,針對應用的要求減少不必要的文件訪問,是本發明申請的出發點。
比如文件對象有3個維度,時間、協議類型、業務類型等等,時間維度還可以細分為年月日、時、分等維度。如果應用程式想訪問某一業務在某一時間段內的數據時,只需要訪問對應的文件夾下的目錄裡面的文件即可,即一個層次的目錄代表了一個維度。該層目錄下某個文件夾的文件名即代表了一個維度的一個實例。
常見的集群式分布式系統,可以採用多臺節點來進行文件的組織和存放,只需要將各個節點間的文件都按照一致的維度分割方法和秩序來進行,即可使用訪問代理來對節點中的文件按照維度進行同步的訪問,加快整個分布式系統的數據吞吐量。
當上層應用選擇某一個維度的文件訪問時,訪問代理會將訪問轉化為對分布式節點的同步訪問,節點上的本地代理會將某個維度的訪問轉換為對相應維度的文件夾內文件的訪問,再由本地的訪問引擎對文件進行處理並將處理結果反饋給訪問代理。
也就是說在多個分布式節點上使用相同的方式來組織和保存文件,即將海量數據按照多個維度存儲,每一個維度為文件系統中的一個層次的目錄,目錄的名稱即該維度的一個實例。系統將訪問指令中的維度信息提取出來,轉化為對文件夾的訪問,可以提高數據訪問的效率,減小不必要的數據訪問開銷。


附圖1是不同節點間的文件存儲和組織方式。各個節點採用相同的方式按照不同的維度來組織和存儲文件。
附圖2是通過訪問代理對不同節點的數據訪問和分布式節點的本地代理進行數據訪問的流程。
具體實施方式
按照圖1所示,文件組織為多個層次結構,一個維度為一個層次的目錄,目錄的名稱為該維度的一個實例,比如日期為20111215。將最常用的維度放在最靠近根的層次下,比如附圖1所示的維度A。不同的節點採用相同的文件組織模式,
如圖2所示,具體的訪問步驟如下
①應用向訪問代理下發訪問指令,對某些維度的具體實例進行訪問請求;
②訪問代理將指令轉化為對分布式節點的訪問,將訪問指令同步下發給各個分布式節點上的本地代理;
③分布式節點的本地代理將訪問指令分解為不同的維度實例集合,將訪問指令加載到訪問引擎;
④分布式節點的訪問引擎將訪問指令中的維度實例集合轉化為具體的文件夾,並對文件夾內的數據進行加載;
⑤分布式節點的訪問引擎對加載的數據按照指令進行訪問後將結果返回給本地代理;
⑥分布式節點的本地代理將本分布式節點的結果返回給訪問代理;
⑦訪問代理綜合各個分布式節點的結果後返回給應用。
比如用戶選擇了某一段時間內的某種業務進行關鍵詞查詢,查詢訪問代理會將查詢分解到分布式節點,節點的本地代理會對關鍵詞查詢按照業務類型、時間的維度,按照具體命中的維度實例來對表示該實例的文件夾下的內容進行訪問,從而減少不必要的磁碟訪問和計算開銷。本分布式節點的查詢結果由本地代理返回給查詢訪問代理,再由查詢訪問代理綜合各節點的查詢結果後返回給用戶。
本發明申請能夠利用廉價的PC伺服器來打造分布式節點集群,同時能夠快速對指定維度的數據進行快速訪問,減少對不相關數據的訪問和計算,極大地降低了系統的總體擁有成本。在不採用昂貴的磁碟陣列或者磁碟櫃的時候,本發明申請的方案也能夠提供非常優秀的訪問性能。
權利要求
1.一種分布式系統中的海量文件存儲和訪問方法,其特徵在於在多個分布式節點上使用相同的方式來組織和保存文件,即將海量數據按照多個維度存儲,每一個維度為文件系統中的一個層次的目錄,目錄的名稱即該維度的一個實例。
2.一種分布式系統中的海量文件存儲和訪問方法,其特徵在於系統將訪問指令中的維度信息提取出來,轉化為對文件夾的訪問。
全文摘要
本發明申請公開一種信息技術領域內的海量文件存儲和訪問方法。分布式系統內各節點均按照此方式來組織和保存文件其通過對海量數據按照業務的要求分層多個維度來存儲,每個維度對應一個層次的文件夾,文件夾的名稱即維度的實例。當上層應用選擇某一個維度的文件訪問時,訪問代理會將訪問轉化為對分布式節點的同步訪問,節點上的本地代理會將某個維度的訪問轉換為對相應維度的文件夾內文件的訪問,再由本地的訪問引擎對文件進行處理並將處理結果反饋給訪問代理,由訪問代理將各個節點的處理結果匯總後返回給應用。本申請能夠利用廉價的PC伺服器來構成分布式集群來實現對海量數據的高速訪問,提供價格低廉但媲美於磁碟陣列和磁碟櫃的訪問性能。
文檔編號G06F17/30GK102521383SQ20111043348
公開日2012年6月27日 申請日期2011年12月22日 優先權日2011年12月22日
發明者倪良勝, 廖聞劍, 汪洋 申請人:南京烽火星空通信發展有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀