新四季網

Hadoop數據倉庫的自動導入數據方法及系統與流程

2023-05-05 10:50:06


本發明涉及了一種hadoop數據倉庫的自動導入數據方法及系統。



背景技術:

隨著企業要存儲和分析處理的數據量越來越大,hadoop越來越受到重視,hadoop是apache軟體基金會的開源項目。hadoop實現了一個分布式文件系統(hadoopdistributedfilesystem),簡稱hdfs。由於hadoop在可伸縮性、健壯性、計算性能和成本上具有無可替代的優勢,已然成為當前主流的大數據存儲和分析平臺。

目前應用於大數據分析的基礎數據通常是保存於如mysql、sqlsever、db2等關係型資料庫中,由於對數據分析和處理的需要,需要將這些基礎數據進行篩選並導入至hadoop的hive數據倉庫中,通過hadoop平臺的運算處理能力實現針對大數據的數據分析。sqoop是一款開源工具,利用sqoop我們能夠在hadoop生態圈中建立一個供其他伺服器調用的接口,通過調用該接口可以實現將關係型資料庫中指定的數據導入到hadoop的hdfs中,hadoop最終再將這些hdfs文件導入至hive數據倉庫中。由於用於分析的數據經常性會變動,每次進行數據更新時,都需要採用人工敲入代碼的方式來調用數據傳輸接口,面對複雜的傳輸和處理流程,要求工作人員必須定時定期操作,因此費時費力。



技術實現要素:

針對現有技術的不足,本發明提供了一種hadoop數據倉庫的自動導入數據方法及系統,解決了現有技術中每次將關係型資料庫中的數據傳輸至hadoop的數據倉庫時需要人工操作的不便之處。

為實現上述目的,本發明提供了一種hadoop數據倉庫的自動導入數據方法,包括:

步驟一:搭載hadoop數據倉庫的伺服器c預先配置用於從搭載關係型資料庫的伺服器a中獲取數據的數據傳輸接口;

步驟二:搭載作業調度器的伺服器b預先配置用於調用所述數據傳輸接口的調用命令以及執行該調用命令的執行周期;

步驟三:伺服器b按照執行周期定期執行調用命令;

步驟四:伺服器c從伺服器a中獲取數據並生成hdfs分布式文件系統文件;

步驟五:伺服器c將生成的hdfs文件導入至hive數據倉庫中。

作為本發明的進一步改進,

所述步驟一具體包括:

伺服器c預先配置數據傳輸接口的接口參數,該接口參數包括用於和伺服器a建立連接關係的伺服器a的資料庫地址、資料庫用戶名和密碼、伺服器c的主機名以及用戶名和密碼,以及用於獲取指定數據的數據篩選條件、表名以及列名。

作為本發明的進一步改進,

所述步驟三和步驟四之間還包括:

步驟a:伺服器b監控伺服器a中hdfs文件的生成情況;

所述步驟四和步驟五之間還包括:

步驟b:伺服器b在監控到伺服器a中hdfs文件生成完畢後向伺服器c發送將hdfs數據導入至hive數據倉庫的指令。

本發明還提供了一種hadoop數據倉庫的自動導入數據系統,包括:

伺服器a,用於搭載存儲基礎數據的關係型資料庫;

伺服器b,用於搭載作業調度器,用於預先配置調用所述數據傳輸接口的調用命令,以及按照執行周期定期執行調用命令;

伺服器c,用於搭載hadoop數據倉庫,用於預先配置從搭載關係型資料庫的伺服器a中獲取數據的數據傳輸接口,用於從伺服器a中獲取數據並生成hdfs文件,以及將生成的hdfs文件導入至hive數據倉庫中。

作為本發明的進一步改進,

所述伺服器b包括:

調用命令配置模塊,用於輸入數據傳輸接口的調用命令;

執行周期配置模塊,用於配置執行調用指令的執行周期。

作為本發明的進一步改進,

所述伺服器c包括:

數據傳輸接口配置模塊,用於配置數據傳輸接口;

hdfs文件生成模塊,用於將獲取的數據轉化為hdfs文件;

hive數據倉庫導入模塊,用於將生成的hdfs文件導入至hive數據倉庫中。

作為本發明的進一步改進,

所述調用命令配置模塊包括:

接口參數配置單元:用於配置數據傳輸接口的接口參數,接口參數包括數據篩選條件、伺服器a的資料庫地址、表名以及列名。

作為本發明的進一步改進,

所述伺服器b還包括:

hdfs文件監控模塊:用於監控伺服器c中hdfs文件的生成情況;

指令發送模塊:用於向伺服器c發送將hdfs數據導入至hive數據倉庫的指令。

本發明的有益效果是:本申請技術方案提供的hadoop數據倉庫的自動導入數據方法及系統,應用於關係型資料庫到分布式系統架構中hive數據倉庫的數據導入,實現了關係型資料庫的數據能夠定時定期地導入至hadoop的hive數據倉庫中。與傳統技術相比,面對複雜的傳輸和處理流程不需要人工進行操作,節省了工作人員的時間,而且不容易出錯。

附圖說明

圖1為本發明hadoop數據倉庫的自動導入數據方法實施例的流程圖;

圖2為本發明hadoop數據倉庫的自動導入數據系統實施例的結構框圖;

圖3為本發明hadoop數據倉庫的自動導入數據系統實施例中伺服器b的結構框圖;

圖4為本發明hadoop數據倉庫的自動導入數據系統實施例中伺服器c的結構框圖;

圖5為本發明hadoop數據倉庫的自動導入數據系統實施例中調用命令配置模塊的結構框圖。

具體實施方式

為使本發明的目的、技術方案及優點更加清楚明白,以下參照附圖並舉實施例,對本發明進一步詳細說明。

本發明hadoop數據倉庫的自動導入數據方法的實施例,如圖1所示,包括:

步驟一100:搭載hadoop數據倉庫的伺服器c預先配置用於從搭載關係型資料庫的伺服器a中獲取數據的數據傳輸接口;

步驟二101:搭載作業調度器的伺服器b預先配置用於調用所述數據傳輸接口的調用命令以及執行該調用命令的執行周期;

步驟三102:伺服器b按照執行周期定期執行調用命令;

步驟四103:伺服器c從伺服器a中獲取數據並生成hdfs文件;

步驟五104:伺服器c將生成的hdfs文件導入至hive數據倉庫中。

在本實施例中,所述步驟一具體包括:

伺服器c預先配置數據傳輸接口的接口參數,該接口參數包括用於和伺服器a建立連接關係的伺服器a的資料庫地址、資料庫用戶名和密碼、伺服器c的主機名以及用戶名和密碼,以及用於獲取指定數據的數據篩選條件、表名以及列名。

伺服器b通過調用伺服器a中預先配置的數據傳輸接口能夠實現伺服器a和伺服器c之間建立連接關係,並且伺服器c從伺服器a中獲取指定的數據。

在本實施例中,

所述步驟三102和步驟四103之間還包括:

步驟a110:伺服器b監控伺服器a中hdfs文件的生成情況;

伺服器c在從伺服器a中獲取數據時,會生成相應的hdfs文件,伺服器b定時通過hadoopfs-get語句獲取此hdfs文件,以此判斷數據獲取是否完成。

所述步驟四103和步驟五104之間還包括:

步驟b120:伺服器b在監控到伺服器a中hdfs文件生成完畢後向伺服器c發送將hdfs數據導入至hive數據倉庫的指令。

在此過程中,伺服器b向伺服器c發送hive接口的load指令,伺服器c在收到伺服器b發送的指令後將hdfs文件導入至hive數據倉庫中。

本發明hadoop數據倉庫的自動導入數據系統的實施例如圖2-5所示,包括:

伺服器a200,用於搭載存儲基礎數據的關係型資料庫;

伺服器b210,用於搭載作業調度器,用於預先配置調用所述數據傳輸接口的調用命令,以及按照執行周期定期執行調用命令;

伺服器c220,用於搭載hadoop數據倉庫,用於預先配置從搭載關係型資料庫的伺服器a200中獲取數據的數據傳輸接口,用於從伺服器a200中獲取數據並生成hdfs文件,以及將生成的hdfs文件導入至hive數據倉庫中。

在本實施例中,所述伺服器b210包括:

調用命令配置模塊211,用於輸入數據傳輸接口的調用命令;

執行周期配置模塊212,用於配置執行調用指令的執行周期。

在本實施例中,所述伺服器c220包括:

數據傳輸接口配置模塊221,用於配置數據傳輸接口;

hdfs文件生成模塊222,用於將獲取的數據轉化為hdfs文件;

hive數據倉庫導入模塊223,用於將生成的hdfs文件導入至hive數據倉庫中。

在本實施例中,所述調用命令配置模塊211包括:

接口參數配置單元211a:用於配置數據傳輸接口的接口參數,接口參數包括數據篩選條件、伺服器a200的資料庫地址、表名以及列名。

作為本發明的進一步改進,

所述伺服器b210還包括:

hdfs文件監控模塊213:用於監控伺服器c220中hdfs文件的生成情況;

指令發送模塊214:用於向伺服器c220發送將hdfs數據導入至hive數據倉庫的指令。

本發明應用於關係型資料庫到分布式系統架構中hive數據倉庫的數據導入,實現了關係型資料庫的數據能夠定時定期地導入至hadoop的hive數據倉庫中。與傳統技術相比,面對複雜的傳輸和處理流程不需要人工進行操作,節省了工作人員的時間,而且不容易出錯。

需要說明的是,本發明中所述的伺服器b和伺服器c可以是同一伺服器,當伺服器b和伺服器c為同一伺服器時,該伺服器同時搭載有hadoop集群和作業調度器,通過在該伺服器端進行相應的配置,同樣能夠實現本發明所能達到的效果。

以上實施例,只是本發明優選地具體實施例的一種,本領域技術人員在本發明技術方案範圍內進行的通常變化和替換都包含在本發明的保護範圍內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀