新四季網

分布式主動混合存儲系統的製作方法

2023-07-09 00:27:32 2


優先權聲明

本申請要求2014年10月3日提交的新加坡專利申請no.10201406349v的優先權。

本發明涉及一種用於數據中心的存儲系統。更具體地說,本發明涉及一種用於數據中心的分布式主動混合存儲系統。



背景技術:

目前的存儲裝置或容量具有很少的智能或者就沒有智能。它們是可被指示執行簡單的讀取/寫入操作的虛擬裝置。它依賴於存儲伺服器中的一組系統軟體來提取基於塊的存儲裝置。數據中心的數據越多,就需要越多的存儲伺服器來管理裝置並提供存儲摘要。這不僅增加了硬體成本,而且還增加了伺服器維護的成本。

隨著中央處理單元(cpu)和非易失性存儲器(nvm)技術的發展,越來越可行的是,將系統和集群軟體實現和其它數據管理的功能併入較小的控制板以優化系統的效率和性能,從而降低總擁有成本(toc)。nvm是一種以非常高的速度和/或非常低的延遲訪問時間來存儲數據的固態存儲器和存儲技術,並且即使隨著電力的移除nvm仍會保留存儲的數據。nvm技術的例子包括但不限於stt-mram(自旋力矩轉移mram)、reram(阻變ram)和快閃記憶體儲器。也可以通過各種不同的nvm技術的混合或組合來提供nvm,以實現成本和性能之間平衡。

因此,需要一種系統,其利用cpu和nvm技術來給存儲裝置提供智能並減少或消除它們對用於這種智能的存儲伺服器的依賴。此外,結合附圖和本公開文本的背景,根據隨後的具體實施方式和附隨的屬權利要求,其它期望的特點和特徵將變得明顯。



技術實現要素:

根據本發明的一個方面,公開了一種主動存儲系統。該主動存儲系統包括存儲裝置、非易失性存儲器和主動驅動控制器。該主動驅動控制器在主動存儲系統中執行數據管理和/或集群管理,該主動驅動控制器還包括用於至少接收對象和/或文件數據的數據接口。

根據本發明的另一方面,還公開了另一種主動存儲系統。該主動存儲系統包括元數據伺服器和一個或多個主動混合節點。每個主動混合節點都包括多個混合對象存儲裝置(hosd)和對應的多個主動驅動控制器,多個主動驅動控制器中的每個都包括用於至少接收對應hosd的對象和/或文件數據的數據接口。多個主動驅動控制器中的一個還包括主動管理節點,該主動管理節點與元數據伺服器和多個主動驅動存儲裝置中的每個進行交互以管理和監控主動混合節點。

附圖說明

在附圖中,相同的附圖標記是指所有單獨視圖中相同或功能相似的元件,將附圖連同下面的具體實施方式一起併入說明書中,並形成說明書的一部分,附圖僅通過非限制性實例的方式來示例各種實施例和說明根據本發明的各種原理和優勢。

參考下面的附圖,在下文中描述本發明的實施例,其中:

圖1是描繪根據本實施例的主動驅動存儲系統的例子的圖示。

圖2是描繪根據本實施例的主動驅動分布式存儲系統體系結構的例子的圖示。

圖3是描繪根據本實施例的主動驅動存儲系統的例子的方框圖的圖示。

圖4是描繪根據本實施例的一對一的鍵值到對象的映射的的視圖的圖示。

圖5是描繪根據本實施例的多對一的鍵值到對象的映射的視圖的圖示。

圖6是描繪根據本實施例的一對多的鍵值到對象的映射的視圖的圖示。

圖7是描繪根據本實施例的主動混合節點(ahn)體系結構的例子的方框圖。

圖8是描繪根據本實施例的主動管理節點(amn)軟體體系結構的方框圖。

圖9是描繪常規分布式存儲系統中的數據更新過程的方框圖。

圖10是描繪根據本實施例的分布式主動混合存儲系統的示例性網絡優化的方框圖。

圖11是描繪根據本實施例的交換機控制板(scb)中的可編程交換包轉發流程的流程圖。

圖12是描述根據本實施例的在遇到hosd失效時的重建過程的流程圖。

技術人員應該意識到,為了簡單清晰,圖中的元件是示例性的,並且不一定按比例繪製。

具體實施方式

下面的詳細描述實際上僅是示例性的,並且不意指限制本發明或本發明的應用和用途。此外,不意指受本發明前面的背景或下面的詳細描述所提出的任何理論的約束。本發明的目的是提出一種主動存儲系統,該主動存儲系統包括耦合到用於執行數據管理和集群管理的系統中的混合存儲裝置的主動驅動控制器,集群管理包括與元數據伺服器和其它主動驅動控制器交互以發現和加入集群或形成和維持集群。根據本實施例的主動驅動控制器包括用於接收對象數據、文件數據和鍵值數據的數據接口。

參考圖1,圖100描繪了根據本實施例系統100的主動驅動存儲系統的例子。主動驅動存儲系統包括三個主要組成部分:應用伺服器102、主動混合節點(ahn)104和主動管理節點(amn)106。ahn104是一種具有附接的硬碟驅動器(hdd)112和非易失性存儲器(nvm)110的混合存儲節點。多個ahn104可以形成集群120。amn106包含少量的nvm作為存儲介質。數據包130經由網絡140在應用伺服器102和ahn104之間流動。

參考圖2,其描繪了根據本實施例的主動驅動分布式存儲系統200的體系結構的例子。主動驅動分布式存儲系統包括經由網際網路204耦合到多個主動混合驅動器206的應用/客戶端伺服器202。在數據中心配置中,主動混合驅動器206可被安裝在機架(諸如42u機架210)中,該機架包括用於將安裝在其中的主動混合驅動器206耦合到應用/客戶端伺服器202的可編程交換機220。由於數據直接傳輸到主動混合驅動器206,所以這種體系結構消除了存儲節點。

參考圖3,其示例了根據本實施例的分布式主動混合驅動存儲系統302的例子的示意圖300。應用伺服器102耦合到ahn104、304,其中一些ahn104包括nvm110、hdd112和主動驅動控制器306,其它的ahn304包括nvm110、固態驅動器(ssd)310和主動驅動控制器306。多個ahn104、304可形成集群315。為了提高性能和增加存儲利用率,分布式主動混合存儲系統302採用並行數據訪問和糾刪碼。為了寫入數據,應用伺服器102可將數據分條到不同的ahn104、304,使用元數據伺服器320跟蹤部分數據。在讀取數據期間,應用伺服器102可同時從不同的ahn104、304中同步讀取多個條以實現高性能。

參考圖4,映射圖400描繪了根據本實施例的一對一的鍵值與對像映射的視圖。對象410由三部分組成:對象標識(oid)412、對象數據414和對象元數據416。oid412是對象410的唯一id/名稱。對象數據414是對象410的實際內容。對象元數據416可以是對象410的任何預先設定的屬性或信息。

鍵值(kv)接口建立在對象存儲的頂部。映射層被設計和實現為將kv條目420映射到對象410。將kv映射到對象有各種機制。在如映射圖400所描繪的一對一映射中,每個kv條目420都被映射到單個對象410。kv條目420包括鍵422、值424和其它信息426。鍵422被映射432到對象id412。值424被映射434到對象數據414。其它信息426可包括版本、校驗和值大小,並被映射436到對象元數據416。

圖5描繪了根據本實施例的多對一映射方案的視圖的映射圖500。多個kv條目520被映射到同一個對象510。對象id512表示鍵的範圍522。具有在範圍522內的鍵的kv條目520都被映射到這個對象510。對於每個條目520,其鍵524和屬性526都被映射532到對象元數據516。屬性526可通過在對象元數據516中搜索鍵524來找到。有存儲在對象元數據516中的命名為「偏移」的屬性526,當每個值528都被映射534到對像數據514時,「偏移」表示鍵值的存儲代表的偏移540。

圖6描繪了根據本實施例的一對多的鍵值到對象的映射的視圖的映射圖,其中每個kv條目620被映射到多個對象610。鍵622被映射到多個對象id612,每個對象id612都組合有後綴(#000、#001等)的鍵622。屬性624存儲在第一對象610的元數據614中。屬性strip_sz626表示映射到每個對象數據616的值630的片段大小628。最後的對象數據616可存儲比strip_sz628少的字節。備選地,每個對象610可存儲不同的片段大小628,單個片段大小存儲在對象614、615的元數據中。

參考圖7,方框圖700描繪了具有節點後臺程序704的ahn702的體系結構。後臺程序是作為後臺進程運行的一種電腦程式,並且可以有許多後臺程序,諸如混合對象存儲裝置(hosd)後臺程序,該hosd後臺程序包括一個或多個hosd或映射減少工作706,其在ahn702是大的大數據存儲池的存儲節點時能處理映射減少工作。還可以有實現的其它後臺程序,諸如重建後臺程序708或元數據分類後臺程序(例如,以將數據分類以用於本地存儲)。應用或客戶端伺服器(例如,伺服器102)可將工作發布和安裝到ahn702中執行,節點後臺程序704中的消息處理程序710為ahn702提供了與應用/客戶端伺服器102通信的信息處理能力,其中客戶端伺服器可以是對象客戶端712或鍵值(kv)客戶端714。

ahn702還包括對象存儲716、本地文件存儲718和混合存儲720,混合存儲720包括hdd112和nvm110。本地文件存儲包括對象元數據416(或對象元數據516、614、615)和對象數據文件414(或對象數據文件514、616)。對象存儲716包括用於與對象客戶端712接口的對象接口722和用於與kv客戶端714接口的鍵值接口724。鍵值接口724負責kv到對象的映射,如圖4、5和6所示的映射,對象存儲716中的文件存儲726負責對象到文件的映射。數據壓縮和混合數據管理728也是對象存儲716的控制形式。

更詳細地描述了形成ahn702的操作和功能的軟體體系結構和模塊。可執行軟體存儲在用於程序代碼存儲的非易失性介質中,並在執行啟動時通過ahn處理器將其召回到主存儲器中。ahn702提供了與對象客戶端伺服器712和kv客戶端伺服器714中的應用接口的對象接口和鍵值(kv)接口。對象接口722是關於基礎對象存儲716的本地接口。對象存儲716可被備選地實現為文件存儲(例如,文件存儲726)以將對象存儲為文件。

軟體有三個主要層:節點後臺程序704、對象存儲716和本地文件系統718。節點後臺程序層704是指各種獨立運行的程序或軟體後臺程序。消息處理後臺程序710處理與其它anh、amn和客戶終端的、用於形成和保持分布式集群系統並在客戶端伺服器和anh之間提供數據傳輸的、基於tcp/ip的通信協議。

重建後臺程序708負責通過對來自相關的尚存的數據和校驗碼驅動器的數據進行解碼而執行從系統中的失效驅動器重建丟失的數據的過程。映射減少後臺程序706為映射減少框架中的工作跟蹤提供映射減少和大數據分布式文件系統(hdfs)接口,以將數據分析任務指定給anh執行,使得處理所需要的數據可以在anh節點中的多個存儲裝置中的一個存儲裝置中被直接本地訪問。客戶端可安裝程序後臺程序730被配置為執行存儲在附接到anh的任何一個或多個存儲裝置上的程序。由於應用或客戶端服力器可將工作發布和安裝到ahn中執行,所以客戶端可安裝程序後臺程序可與客戶終端進行通信,以將可執行程序上傳和安裝到附接到anh的一個或多個存儲裝置。

運行在ahn702中計算的數據的原則是使計算更接近存儲,即後臺程序大部分時間只需要訪問來自本地ahn702的數據和將工作的結果發送回應用或客戶端伺服器。在許多情況下,數據計算的結果的大小要比用於計算的本地數據小很多。這樣,可以減少需要在網絡140上傳輸的數據量,並可隨著存儲資源分配大數據處理或計算,以便大大提高整個系統性能。

對象存儲716是一種將對象接口722和kv接口724提供到節點後臺程序層704的軟體層。對象存儲層716還通過文件存儲726將對象映射到文件,以使對象能被下層的文件系統存儲和管理。數據壓縮和混合數據管理是對象存儲層716中的另外兩個主要模塊(為了簡單通過圖7的單模塊728示出)。根據本實施例,數據壓縮分別對數據寫入和讀取執行行內數據編碼和解碼。混合數據管理根據本實施例管理混合存儲,以使經常使用的數據存儲在nvm中。在對象存儲層716中還可實現其它的數據管理服務,諸如存儲服務質量(qos)。

本地文件系統層718通過將每個對象分解成一個或多個存儲裝置的對應扇區塊,來提供用於存儲對象元數據416和對象數據414的下層的一個或多個存儲裝置的數據塊的文件系統管理。根據本實施例,用於刪除對象的數據扇區塊被本地文件系統層718回收,以便將來分配用於存儲新創建的對象的扇區空間。

參考圖8,方框圖800描繪了根據本實施例的主動管理節點(amn)802的軟體體系結構的例子。amn802可經由消息處理後臺程序812與amn802所屬的集群中的其它amn(如果有)804、ahn806、應用伺服器808和交換機控制板(scb)交換機810進行通信。

amn802是一種多功能節點。除了集群管理和監控功能814之外,由於新節點的加入或、失效和不活動的ahn、或對ahn的不平衡的數據訪問,amn802從數據遷移和重建後臺程序816發送遷移數據的指令。此外,amn802還能夠通過經由交換機控制器後臺程序818向scb交換機810發送向發送器未指定的目的地轉發數據包的指令,有利地減少網絡流量。

消息處理程序後臺程序812實現了與其它amn(如果有)、集群中的ahn、應用伺服器和可編程交換機的通信協議。集群管理和監控後臺程序814提供了形成和保持有關集群的信息的算法和功能。客戶伺服器與集群管理和監控後臺程序814進行通信,以在集群中提取最新的hosd拓撲結構,以便確定相應的hosd來存儲或檢索數據。基於集群的監控狀態,由於新節點的加入、或失效和不活動的ahn、或對ahn的不平衡的數據訪問,amn802從數據遷移和重建後臺程序816發送遷移數據的指令。此外,amn802還可以經由交換機控制器後臺程序818向可編程交換機發送複製和轉發數據包到目的地的指令,以自主地減少客戶端通信的負載。

參考圖9,方框圖900描繪了具有為可靠性而實現有糾刪碼的常規分布式存儲系統中的數據更新過程。應用伺服器902經由網絡交換機904耦合到包括數據節點906(即,dn1、dn2,…,dnn)和校驗節點908(即,pn1、pn2和pn3)的存儲器。校驗節點908保持來自dn1至dnn的編碼數據,以便每當將數據寫入數據節點(例如,在步驟912將數據w寫入dn1),就將數據複製到校驗節點908(例如,在步驟914將數據w複製到pn1、pn2和pn3)。如果校驗節點908的編碼數據由reedsolomon碼來計算,則存儲系統可同時維持三個節點失效。元數據伺服器910還經由網絡交換機904耦合到數據節點906和校驗節點908。

參考圖10,方框圖1000示例了根據本實施例的分布式主動混合存儲系統1002的示例性網絡優化。應用伺服器902經由網絡交換機904與分布式主動混合存儲系統1002進行通信。網絡交換機904與分布式主動混合存儲系統1002的可編程交換機1004進行接口,以與ahn數據節點1006和ahn校驗節點1008通信。可編程交換機1004包括流量表1010和校驗節點索引1012,並響應於來自amn1014的可編程命令進行操作。數據節點1006和校驗節點1008可以是在amn1014控制下的主動混合驅動存儲集群中的hosd。應用伺服器902和存儲節點(即,數據節點1006和校驗節點1008)之間的數據傳輸使用tcp/ip作為傳輸和路由協議在網絡上實現。數據節點1006和校驗節點1008是主動混合節點,諸如ahn702(圖7),並使用主動混合節點702的軟體體系結構解除了將多個數據副本發送到不同存儲節點的應用伺服器902。這種結構還降低了數據中心網絡交換機904帶寬的消耗。

參考圖11,流程圖1100描繪了根據本實施例的、在可編程交換機1004(圖10)的交換機控制板(scb)中的、用於轉發應用伺服器902的引入數據的可編程交換包轉發流程。當從應用伺服器902接收1102數據包時,可編程交換機1004的scb檢查數據包報頭和對應的有效載荷參數信息,並檢查1104流量表1010和校驗節點1012,以確定該數據包是否是寫入數據包並將該包轉發到ahn節點1006。

如果在流量表中沒有找到1106相關條目,則將數據包報頭和相關的有效載荷參數發送到amn1014以獲得用於這個包或流量的新條目,並根據從包含新表條目信息的amn1014接收的響應,在可編程交換機1004中更新1108流量和校驗節點表。當找到1106該條目時,將數據包轉發1110到包含該條目所指示的目標hosd的ahn。從應用伺服器902接收的具有相同數據的獨立數據寫入請求通過可編程交換機1004來重複1112、1114,以轉發到與校驗節點表1012中的對應條目所列出的數據節點1006相關的每個校驗節點1008。校驗節點1008和數據節點1006由分布式存儲集群中的hosd來提供。

參考圖12,流程圖1200描繪了在一個或多個hosd失效時的重建過程。最初,ahn識別1202其附接的hosd/hdd失效。一旦識別出替代驅動器,就開始重建過程。在單個hosd/hdd失效1204和來自同一ahn的多個hosd/hdd失效1206的情況下,附接到出現hosd失效的ahn的amn802的重建後臺程序使用ahn702包含的對象映射開始1208重建過程。首先,重建後臺程序816搜索1210在所附接的nvm中可用的數據,並將其直接複製到替代hosd/hdd。在重建每個對象之後或者在重建1214多個對象之後,更新1212也用作重建映射的對象映射。

對於多個hosd/hdd失效橫跨不同的ahn1216發生的情況,每個ahn將負責自己的hosd/hdd重建1218。對於每個ahn,重建過程是重建後臺程序816,該重建後臺程序816查找1220在所附接的nvm中可用的數據並將其直接複製到替代hosd/hdd,以及在重建每個對象之後或者在重建1214多個對象之後,更新1212也用作重建映射的對象映射。

因此,可以看出,本實施例提供了一種系統,其利用cpu和nvm技術給存儲裝置提供智能並減少或消除它們為了這種智能而對該存儲伺服器的依賴。此外,本實施例提供了一種有利的方法,其通過使數據計算更接近數據存儲和只轉發數據計算結果來減少網絡通信,其中數據計算結果大小比在網絡上用於計算的本地數據小很多。在這種方式中,能夠減少需要在網絡上傳輸的數據量,並能隨著存儲資源分配大數據處理或計算,從而大大提高了整個系統性能。雖然在本發明的上述詳細描述中已經給出了示例性實施例,但應該意識到會存在大量變化。

應該進一步意識到,示例性實施例僅是示例性的,並不意指以任何方式限制本發明的範圍、適用性、操作或配置。相反地,前述詳細描述將為本領域的技術人員提供實現本發明的示例性實施例的方便路線圖,應該理解,在不偏離附屬權利要求所闡述的本發明的範圍的情況下,可在示例性實施例所描述的元件的功能和布置和操作的方法方面製造各種變更。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀