新四季網

一種大數據分析與處理系統及訪問方法

2023-09-09 19:47:55 1

一種大數據分析與處理系統及訪問方法【專利摘要】本發明公開了一種大數據分析與處理系統,包括分布於物理伺服器上的HadoopMapRuduce模塊、mongo-hadoop連接器和mongodb資料庫分片集群。本發明的基於Hadoop和MongoDB的大數據分析與處理系統,能夠通過hadoop的MapReduce組件直接處理MongoDB中的數據,並將處理結果直接寫回MongoDB資料庫。本發明的另一目的是提供一種採用上述基於Hadoop和MongoDB的大數據分析與處理系統的大數據訪問方法,能夠通過hadoop的MapReduce組件直接處理MongoDB中的數據,並將處理結果直接寫回MongoDB資料庫。【專利說明】一種大數據分析與處理系統及訪問方法【
技術領域:
】[0001]本發明屬於大數據處理【
技術領域:
】,涉及一種大數據分析與處理系統,本發明還涉及一種大數據訪問方法。【
背景技術:
】[0002]隨著信息技術的發展,信息數量呈現幾何式增長,各種非關係型數據結構充斥在網際網路中,傳統關係型資料庫很難滿足新的需求,同時,集中式數據分析與處理從海量信息中快速分析與統計出真正需要的信息正變得越來越困難,所以數據存儲與數據分析都應具備分布式處理能力,能根據需要處理信息的增長,不斷地擴展系統規模以增強系統存儲能力、信息分析與處理能力。NoSQL資料庫技術的出現為當前面臨的問題提供了新的解決方案,它採用了分布式多節點的方式,更加適合大數據的存儲和管理。NoSQL資料庫在設計上非常關注對數據高並發的讀寫和對海量數據的存儲等,與關係型資料庫相比,它們在架構和數據模型方面做了「減法」,而在擴展和並發等方面做了「加法」。現今的計算機體系結構在數據存儲方面要求具備龐大的水平擴展性,而NoSQL致力於改變這一現狀。目前Google、Yahoo、Facebook、Twitter、Amazon都在大量應用NoSQL型資料庫。NoSQL資料庫正在逐漸地成為資料庫領域中不可或缺的一部分。[0003]MongoDB是NoSQL資料庫產品中最熱門的一種。它是一個介於關係資料庫和非關係資料庫之間的產品,是非關係資料庫當中功能最豐富,最像關係資料庫的。它支持的數據結構非常鬆散,是類似json的bjson格式,因此可以存儲比較複雜的數據類型。Mongo最大的特點是他支持的查詢語言非常強大,其語法有點類似於面向對象的查詢語言,幾乎可以實現類似關係資料庫單表查詢的絕大部分功能,而且還支持對數據建立索引。它的特點是高性能、易部署、易使用,存儲數據非常方便。[0004]分布式的雲計算技術通過整合資源的方式,為降低成本和能耗提供了一種簡化的、集中的計算平臺。Hadoop是一個開源的分布式的並行計算平臺,其Map/Reduce運算功能被廣泛地應用在數據分析與處理領域,Hadoop正在發展成為絕佳的大數據分析方法。[0005]Hadoop軟體是用於大數據分析的完整開源框架。它包括一個分布式文件系統(HDFS)、一個並行處理框架(ApacheHadoopMapReduce)和多種不同的組件,支持數據獲取、工作流協調、任務管理以及集群監控等功能。Hadoop能夠比傳統方法更經濟高效地處理大型非結構化數據集。[0006]當海量數據存儲在NoSQL資料庫中時,hadoop要對這些數據進行處理時的做法是先將NoSQL資料庫中的要分析的數據導入到HDFS中,然後再對其進行MapReduce操作,MapReduce處理完成之後再將數據寫入HDFS中,最後將處理結果寫回NoSQL資料庫。整個過程中HDFS只是做了數據存儲的中間件,並沒有對數據進行實質性的分析處理,而NoSQL資料庫本身就是數據持久化的工具,如果將HDFS這一過程省略,數據處理過程的效率將會提聞很多。【
發明內容】[0007]本發明的目的是提供一種大數據分析與處理系統,能夠通過hadoop的MapReduce組件直接處理MongoDB中的數據,並將處理結果直接寫回MongoDB資料庫。[0008]本發明的另一目的是提供一種大數據訪問方法,能夠通過hadoop的MapReduce組件直接處理MongoDB中的數據,並將處理結果直接寫回MongoDB資料庫。[0009]本發明一種技術方案所採用的技術方案是,一種大數據分析與處理系統,包括分布於物理伺服器上的HadoopMapRuduce模塊、mongo-hadoop連接器和mongodb資料庫分片集群。[0010]本發明一種技術方案的特點還在於,[0011]物理伺服器包括主節點物理伺服器和從節點物理伺服器。[0012]HadoopMapRuduce模塊包括jobtracker單兀和tasktracker單兀,jobtracker單元分布於主節點物理伺服器上,tasktracker單元分布於從節點物理伺服器上。[0013]mongodb資料庫分片集群包括mongood進程單元、路由進程單元和配置伺服器單元,路由進程單元分布於主節點物理伺服器上,mongood進程單元和配置伺服器單元均分布於從節點物理伺服器上。[0014]從節點物理伺服器的數量不少於2個。[0015]本發明另一種技術方案所採用的技術方案是,一種大數據訪問方法,採用一種大數據分析與處理系統,其結構為:包括分布於物理伺服器上的HadoopMapRuduce模塊、mongo-hadoop連接器和mongodb資料庫分片集群;[0016]物理伺服器包括主節點物理伺服器和從節點物理伺服器。;[0017]HadoopMapRuduce模塊包括jobtracker單兀和tasktracker單兀,jobtracker單元分布於主節點物理伺服器上,tasktracker單元分布於從節點物理伺服器上。;[0018]mongodb資料庫分片集群包括mongood進程單元、路由進程單元和配置伺服器單元,路由進程單元分布於主節點物理伺服器上,mongood進程單元和配置伺服器單元均分布於從節點物理伺服器上;[0019]從節點物理伺服器的數量不少於2個;[0020]採用上述大數據分析與處理系統的大數據訪問方法,具體按照以下步驟實施:[0021]步驟I,用戶向Hadoop提交mapreduce作業,配置hadoopmapreduce的數據源為mongodb資料庫,所述mapreduce作業包括數據源地址、結果數據輸出的地址以及具體的map和reduce過程;[0022]步驟2,Hadoop通過訪問路由進程單元獲取到數據的存儲信息,並將數據分割成Hadoopmapreduce的輸入數據塊;[0023]步驟3,jobtracker單元將數據塊信息分發給不同的tasktracker單元,tasktracker單元根據獲得的數據塊信息向mongodb分片集群獲取具體數據;[0024]步驟4,獲取的數據經過mongo-Hadoop連接器適配成HadoopMapReduce可以直接處理的數據類型並發送給mapreduce,[0025]其中,數據類型指BooleanWritable、Byteffritable>Doubleffritable>FloatWritable、IntWritable、Longffritable>Text格式;[0026]步驟5,mapreduce對步驟4中經過適配後的數據進行並行計算處理;[0027]步驟6,tasktracker單兀將處理結果經過mongo-Hadoop連接器適配mongodb可以寫入的數據格式後發送給mongodb分片集群,並存入mongodb資料庫,其中,mongodb可以寫入的數據格式指BSON格式。[0028]本發明的有益效果是省去了Hadoop中的HDFS這一過程,通過hadoop的MapReduce組件直接訪問MongoDB中的數據,可以滿足hadoop高效的讀取並處理MongoDB中存儲的數據,並能順利的將處理結果返回給MongoDB資料庫,數據處理過程的效率得到明顯提聞。【專利附圖】【附圖說明】[0029]圖1是本發明一種大數據分析與處理系統的結構示意圖;[0030]圖2是本發明一種大數據訪問方法的流程示意圖。[0031]圖中,1.mongo-hadoop連接器,2.jobtracker單兀,3.tasktracker單兀,4.mongood進程單元,5.路由進程單元,6.配置伺服器單元。【具體實施方式】[0032]下面結合附圖和【具體實施方式】對本發明進行詳細說明。[0033]本發明一種大數據分析與處理系統,如圖1所示,包括分布於物理伺服器上的HadoopMapRuduce模塊、mongo-hadoop連接器I和mongodb資料庫分片集群。物理伺服器包括主節點物理伺服器和從節點物理伺服器。HadoopMapRuduce模塊包括jobtracker單兀2和tasktracker單兀3,jobtracker單兀2分布於主節點物理伺服器上,tasktracker單元3分布於從節點物理伺服器上。mongodb資料庫分片集群包括mongood進程單元4、路由進程單元5和配置伺服器單元6,路由進程單元5分布於主節點物理伺服器上,mongood進程單元4和配置伺服器單元6均分布於從節點物理伺服器上。從節點物理伺服器的數量不少於2個。[0034]本發明一種大數據分析與處理系統中各個模塊的具體作用為:[0035]1、Mapreduce模塊[0036](a)TaskTracker單元3在集群中的計算節點上管理和執行各個Map和Reduce作業;[0037](b)JobTracker單元2接受作業提交,提供作業的監測和控制,管理任務,以及分配作業到TaskTracker單元3的節點上。[0038]2、Mongodb資料庫分片集群[0039](I)非關係資料庫分片1、非關係資料庫分片2,本方發明中使用3個mongod進程單元4組成一個非關係資料庫副本集(用於數據可靠存儲,用於自己的複製機制,能夠自動進行故障轉移),構成一個非關係資料庫分片,用於存儲實際集群的一部分數據塊;[0040](2)配置伺服器單元6,存儲整個mongodb分片集群的集群元數據信息,包括全局集群配置,每個資料庫、集合和特定範圍數據的位置,一份變更記錄;[0041](3)路由進程單元5,提供了一個接口連接整個集群,將所有的讀寫請求指引到合適的分片上;[0042]3>mongo-hadoop連接器I[0043]作用是連接mongodb和Hadoop進行數據交互,將mongodb向Hadoop的輸入數據(BSON)適配為Hadoopmapreduce可以直接處理的數據類型(BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text等),並將Hadoopmapreduce的處理結果數據類型(Booleanffritable>Byteffritable>DoubleWritable、FloatWritable、IntWritable、Longffritable>Text等)適配成能夠直接存入mongodb的數據類型(BSON)。[0044]本發明一種大數據分析與處理系統的工作原理為,數據存儲在mongodb分片集群中,用戶向Hadoop提交作業,Hadoop通過訪問路由進程獲取到數據的存儲信息,將數據分割成Hadoopmapreduce的輸入數據塊,jobtracker單元2將數據塊信息分發給不同的tasktracker單元3,tasktracker單元3根據獲得的數據塊信息向mongodb分片集群獲取具體數據(中間過程數據通過mongo-Hadoop連接器進行適配)進行mapreduce處理,處理完後tasktracker單元3將處理結果返回給mongodb分片集群(中間過程數據通過mongo-Hadoop連接器進行適配)。[0045]本發明另一種大數據訪問方法,採用上述大數據分析與處理系統的結構,如圖2所示,具體按照以下步驟實施:[0046]步驟I,用戶向Hadoop提交mapreduce作業,配置hadoopmapreduce的數據源為mongodb資料庫,mapreduce作業包括數據源地址、結果數據輸出的地址以及具體的map和reduce過程;[0047]步驟2,Hadoop通過訪問路由進程單元5獲取到數據的存儲信息,並將數據分割成Hadoopmapreduce的輸入數據塊;[0048]步驟3,jobtracker單元2將數據塊信息分發給不同的tasktracker單元3,不同的tasktracker單元3根據獲得的數據塊信息向mongodb分片集群獲取具體數據;[0049]步驟4,獲取的數據經過mongo-Hadoop連接器I適配成HadoopMapReduce可以直接處理的數據類型並發送給mapreduce,數據類型指BooleanWritable、ByteWritable、Doubleffritable>FloatWritable、IntWritable、Longffritable>Text格式;[0050]步驟5,mapreduce對步驟4中經過適配後的數據進行並行計算處理;[0051]步驟6,tasktracker單兀3將處理結果經過mongo-Hadoop連接器I適配mongodb可以寫入的數據格式後發送給mongodb分片集群,並存入mongodb資料庫,其中,mongodb可以寫入的數據格式指BSON格式。【權利要求】1.一種大數據分析與處理系統,其特徵在於,包括分布於物理伺服器上的HadoopMapRuduce模塊、mongo-hadoop連接器(I)和mongodb資料庫分片集群。2.根據權利要求1所述的一種大數據分析與處理系統,其特徵在於,所述物理伺服器包括主節點物理伺服器和從節點物理伺服器。3.根據權利要求2所述的一種大數據分析與處理系統,其特徵在於,所述HadoopMapRuduce模塊包括jobtracker單兀(2)和tasktracker單兀(3),所述jobtracker單兀(2)分布於主節點物理伺服器上,所述tasktracker單元(3)分布於從節點物理伺服器上。4.根據權利要求1所述的一種大數據分析與處理系統,其特徵在於,所述mongodb資料庫分片集群包括mongood進程單元(4)、路由進程單元(5)和配置伺服器單元¢),所述路由進程單元(5)分布於主節點物理伺服器上,所述mongood進程單元(4)和配置伺服器單元(6)均分布於從節點物理伺服器上。5.根據權利要求2或3或4所述的一種大數據分析與處理系統,其特徵在於,所述從節點物理伺服器的數量不少於2個。6.一種大數據訪問方法,其特徵在於,採用一種大數據分析與處理系統,其結構為:包括分布於物理伺服器上的HadoopMapRuduce模塊、mongo-hadoop連接器(I)和mongodb資料庫分片集群;所述物理伺服器包括主節點物理伺服器和從節點物理伺服器;所述HadoopMapRuduce模塊包括jobtracker單兀(2)和tasktracker單兀(3),所述jobtracker單元(2)分布於主節點物理伺服器上,所述tasktracker單元(3)分布於從節點物理伺服器上;所述mongodb資料庫分片集群包括mongood進程單元(4)、路由進程單元(5)和配置伺服器單元¢),所述路由進程單元(5)分布於主節點物理伺服器上,所述mongood進程單元(4)和配置伺服器單元(6)均分布於從節點物理伺服器上;所述從節點物理伺服器的數量不少於2個;採用上述基於Hadoop和MongoDB的大數據分析與處理系統的大數據訪問方法,具體按照以下步驟實施:步驟I,用戶向Hadoop提交mapreduce作業,配置hadoopmapreduce的數據源為mongodb資料庫,所述mapreduce作業包括數據源地址、結果數據輸出的地址以及具體的map和reduce過程;步驟2,Hadoop通過訪問路由進程單元(5)獲取到數據的存儲信息,並將數據分割成Hadoopmapreduce的輸入數據塊;步驟3,jobtracker單元(2)將數據塊信息分發給不同的tasktracker單元(3),所述不同的tasktracker單元(3)根據獲得的數據塊信息向mongodb分片集群獲取具體數據;步驟4,獲取的數據經過mongo-Hadoop連接器(I)適配成HadoopMapReduce可以直接處理的數據類型並發送給mapreduce,所述數據類型指BooleanWritable、ByteWritable、Doubleffritable>FloatWritable、Intffritable>Longffritable>Text格式;步驟5,mapreduce對步驟4中經過適配後的數據進行並行計算處理;步驟6,tasktracker單兀(3)將處理結果經過mongo-Hadoop連接器(I)適配mongodb可以寫入的數據格式後發送給mongodb分片集群,並存入mongodb資料庫,其中,mongodb可以寫入的數據格式指BSON格式。【文檔編號】G06F17/30GK104317899SQ201410577412【公開日】2015年1月28日申請日期:2014年10月24日優先權日:2014年10月24日【發明者】王茜,葛新,李安穎,史晨昱,梁小江申請人:西安未來國際信息股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀