新四季網

一種基於雲計算的大規模熱連軋數據主題定製系統的製作方法

2023-07-25 04:46:01 2

專利名稱:一種基於雲計算的大規模熱連軋數據主題定製系統的製作方法
技術領域:
本發明涉及鋼鐵冶金行業中大規模數據處理技術領域,尤其涉及熱連軋數據挖掘的預處理領域。
背景技術:
在帶鋼熱連軋生產線日常的生產過程中,產生了海量的實時數據,這些數據中蘊含著豐富的科研價值。長期以來,由於對海量數據的重視程度不夠,管理不善,導致數據長時間零散存放,沒有得到有效的利用,從數據挖掘的角度上講,是一種很大的浪費。這也在一定程度上,極大的影響了熱連軋工藝的發展。隨著計算機技術的發展,目前基本上所有熱軋帶鋼廠,都實現了電子化信息化的管理。但是,這些僅僅是對現有數據的一些存儲、統計與展示,如溫度、厚度、板形和一些參數的直接展示。在工藝要求越來越高的今天,已經很難通過這種直接的展示來達到帶鋼質量上的進步。因此,對熱軋數據進行更深一步的探索,發掘其內在的聯繫與規律,就顯得愈發重要。原有的數據挖掘預處理的模式是先定主題,由主題規定一些需要的數據表構建對應主題的雲數據倉庫,而雲數據倉庫根據對應的主題從資料庫中選取部分相關數據表來抽取主題所需要的數據。然而熱軋鋼原有系統製作工藝複雜,數據類型繁重,而且沒有現在技術的良好設計結構,加上年代久遠,傳統的資料庫建表組織抽取模式是先定義數據持久層的結構來抽取的信息的方式無法滿足對未知需求下的設計,而且面對海量數據集,資料庫的存儲、拓展和分析能力也十分有限。此外,由於熱軋鋼系統實時數據數據類型複雜,加上專業人士也無法對系統及領域知識所面面俱到,很難針對系統改造提出確切的需求,這使得傳統的「合作應用程式開發模式」,即通過信息技術人員與業務部門協同工作內容,在進行歸類的基礎上,標識出不同數據的主題區域成為了十分困難的事情。

發明內容
本發明所要解決的技術問題是為原有的熱軋鋼系統構建一個可用於分析挖掘的雲數據倉庫,並提供一個可拓展的主題定製功能,用於對未知需求條件下的複雜數據集進行靈活的主題定製,以便於進一步對數據進行挖掘和分析。本發明第一目的在於提出一種基於雲計算的熱連軋數據主題定製系統,其特徵在於,所述系統包括ETL (信息抽取)模塊、數據持久層模塊和主題定製模塊;
ETL (信息抽取)模塊,用於解析熱連軋系統數據結構,生成數據字典文件和表頭文件,將數據字典文件和表頭文件發送至數據持久層模塊,並定時對熱連軋系統採集文本數據進行格式化;
數據持久層模塊,數據持久層模塊用於根據從ETL模塊接收的所述數據字典文件和表頭文件為雲數據倉庫構建數據字典和數據表,並定時將格式化後的採集文本數據歸併入雲數據倉庫; 主題定製模塊,基於雲數據倉庫進行主題定製。優選地,ETL模塊包括:
數據結構解析單元,用於解析熱連軋系統數據結構生成數據字典文件和表頭文件;
結構化模板庫生成單元,用於對數據結構解析單元生成的表頭文件進行格式化生成結構化模板庫的模版文件;
文本數據格式化單元,用於將結構化模板庫裡的模版文件定時加載入數據解析模板庫,對熱連軋系統採集文本數據進行格式化,並發送到數據持久層模塊。優選地,主題定製模塊包括:
主題庫查詢單元,用於根據關鍵字查詢主題庫,確定主題庫是否存在用戶所需主題
項;
經驗庫推薦單元,用於當主題庫中不存在所需主題項時,提供數據表的數據字典的屬性選擇,並將用戶所選屬性作為所需主題項屬性,並基於用戶所選屬性在經驗庫中獲取推薦主題項;
主題庫註冊單元,用於當所述推薦主題項中存在所需主題項時,將所需主題項註冊入主題庫;當所述推薦主題項中不存在所需主題項時,接受用戶自定義的新主題項,並將所述新主題項註冊入主題庫;
通信單元,在操作數據時,用於向雲數據倉庫發送主題項的數據請求。本發明另一目的在於提出一種基於雲計算的熱連軋數據主題定製方法,其特徵在於,該定製方法包括以下步驟:
步驟一、ETL模塊對熱連軋系統數據結構進行解析,生成數據字典文件和表頭文件,將數據字典文件和表頭文件發送至數據持久層模塊,並定時對熱連軋系統採集文本數據進行格式化;
步驟二,數據持久層模塊根據接收的數據字典文件和表頭文件,為雲數據倉庫創建數據字典和數據表,並定時歸併ETL模塊格式化後的採集文本數據;
步驟三,主題定製模塊基於雲數據倉庫進行主題定製。優選地,步驟一具體包括以下步驟:
步驟1.1,ETL模塊解析熱連軋系統數據結構生成數據字典文件和表頭文件;
步驟1.2,ETL模塊對表頭文件進行格式化生成結構化模板庫的模版文件;
步驟1.3,ETL模塊將結構化模板庫裡的模版文件定時加載入數據解析模板庫,對熱連軋系統採集文本數據進行格式化,並發送到數據持久層模塊。優選地,步驟三具體包括以下步驟:
步驟3.1,主題定製模塊根據關鍵字查詢主題庫,確定主題庫是否存在用戶所需的主題
項;
步驟3.2,當主題庫中不存在所需主題項時,主題定製模塊提供數據表的數據字典的屬性選擇,接收用戶對數據字典中的屬性選擇,並基於用戶所選屬性在經驗庫中獲取推薦主題項;
步驟3.3,當經驗庫推薦主題項中存在所需主題項時,將所需主題項註冊入主題庫;當經驗庫推薦主題項中不存在所需主題項時,經驗庫接受用戶自定義的新主題項,並將所述新主題項註冊入主題庫; 步驟3.4,操作數據時,主題庫向雲數據倉庫發送主題項的數據請求。優選地,步驟3.3中用戶自定義新主題項的方式為:從經驗庫推薦主題項中獲得最大匹配主題項,修改最大匹配主題項的屬性,形成新主題項。本發明優點在於,它運用了區別於原數據挖掘預處理的正常過程,利用原有系統的數據結構,從數據抽取過程中動態生成雲數據倉庫,再利用雲數據倉庫的大規模並行化特點動態生成數據主題區域反向實現數據預處理過程,充分體現了系統的可拓展性和靈活性。而且系統具有允許用戶自由靈活地定義和拓展主題項的特點,極大便利在未知需求下根據實際情況自定義主題項,並可以基於此系統拓展其他業務主題的數據挖掘和分析,這種方式是由一個不完備集向一個完備集轉變的過程,且基於雲計算存儲的可自由擴展性,接近於無限的存儲量也為這種拓展主題集提供極大的優勢,讓用戶可以更好的利用系統發現更多潛在數據內部的規律。本發明可以對複雜的熱軋鋼系統有效的自解析,將全部數據集作為數據資源構建雲數據倉庫,大大減少了專業人士和程序開發人士在處理需求過程中的不協調性;特別是為未知需求的熱軋鋼系統提供自由的主題的定製功能,使得系統更靈活多用,方便的主題定製也給熱軋鋼領域提供更大的數據控制空間,更容易從數據中發現規律,指導生產。


圖1本發明熱連軋數據主題定製系統的結構示意圖。圖2本發明熱連軋數據主題定製系統中ETL模塊的數據處理流程。圖3本發明熱連軋數據主題定製系統的部分數據結構樹。圖4本發明熱連軋數據主題定製系統數據持久層模塊構建的字典文件和表頭文件。圖5本發明熱連軋數據主題定製系統數據持久層模塊的雲數據倉庫模型。圖6本發明熱連軋數據主題定製系統的可拓展主題定製模塊與其他模塊交互操作的流程圖。圖7本發明熱連軋數據主題定製系統主題項定製實例圖。圖8本發明熱連軋數據主題定製系統不完全匹配的主題項定製實例圖。
具體實施例方式本發明提供一種構建在雲計算基礎上、旨在處理未知需求下的複雜熱連軋數據集主題定製的系統。如圖1所示,熱連軋數據集主題定製系統包括:ETL (信息抽取)模塊、數據持久層模塊和可拓展主題定製模塊,完成從數據採集、數據解析、數據入庫、主題定製的數據預處理過程。系統通過ETL模塊解析原有熱連軋系統,並根據解析出的數據結構在數據持久層模塊中動態構建數據表;可將熱軋鋼生產線上的實時採集數據和歷史數據抽取到ETL模塊臨時文件夾;數據持久層模塊每天定時將ETL模塊採集的數據歸併入雲數據倉庫中的表裡;可拓展主題定製模塊是通過經驗庫對已構建好的數據集定製主題,並通過其MapReduce模板容器為公共數據挖掘方法庫提供支持,由用戶根據經驗為已擁有的數據集定製分析挖掘主題。
其中,ETL模塊具有自動解析系統數據結構,構建雲數據倉庫表結構,定時結構化採集的文本數據三部分功能構成。ETL模塊根據系統自身結構,通過解析熱軋鋼原系統頭文件,生成系統數據的結構樹,其中結構樹節點包括欄位名稱和欄位解釋。例如在對C語言開發的熱軋鋼系統頭文件(後綴為.h的文件)解析時,將頭文件.h中以struct為關鍵詞的結構體內容取出,將結構體名作為頂層節點,結構體內容作為次層節點,以此方式迭代即可構建成系統數據的結構樹。獲得結構樹後,ETL模塊遞歸遍歷整棵數據結構樹,拆分樹中節點項,生成用於構建雲數據倉庫數據字典文件和用於存儲數據的表頭文件。ETL模塊將解析完成的數據字典文件和表頭文件發送到數據持久層模塊,數據持久層模塊根據這2個文件為雲數據倉庫生成數據字典和數據表。ETL模塊將表頭文件進行格式化變成結構化模板庫的模版文件,方便將採集數據存入數據持久層的雲數據倉庫中;ETL模塊將結構化模板庫裡的模版文件定時加載入數據解析模板庫,並基於模板文件將生產線和歷史數據裡的文本數據進行格式化,以便將格式化的文本數據抽取到數據持久層模塊的雲數據倉庫中。數據持久層模塊主要由基於雲存儲的雲數據倉庫組成。雲數據倉庫用於結構化存儲原軋鋼系統的數據,其表結構和數據字典由ETL模塊在解析系統構成中生成,它主要是定時歸併ETL模塊解析的數據到雲數據倉庫中並存儲。本系統的雲數據倉庫設計構架於Hadoop雲計算模型的分布式文件系統(HDFS)Hadoop Distributed File System上,它利用HDFS的多節點分布式特點存儲數據資源,從而同時解決了數據處理的並行化和存儲容量的動態擴展問題。在雲數據倉庫中,構建好的數據表通過雲數據倉庫的語句操作(類似於一般的sql語句),從ETL模塊將格式化好的採集文本數據直接加載進雲數據倉庫的數據表中,在數據表的數據字典和數據項之間通過位置的一一映射方式,在操作數據時,通過數據字典的位置映射數據的位置來操作數據,這被稱為數據操作的「讀時模式」。通過這個模式給雲數據倉庫使用者提供類似於傳統資料庫的操作方式,給他們開發帶來更大的便利。雲數據倉庫中的數據字典是定製主題的主要依據。它是主題項屬性和數據表之間的主要聯繫,主題項屬性通過數據字典訪問到數據表中的數據,從而對數據進行相關的語句操作。可拓展主題定製模塊包括主題庫、經驗庫、MapReduce模板容器和公共數據挖掘方法庫,主題定製模塊主要是在構建好的雲數據倉庫上,根據用戶自己的經驗和知識,參考數據字典的說明和經驗庫的導向指定一些用戶需要數據項構建主題,由於雲數據倉庫是對整個系統數據的存儲,主題構建就是對系統結構表的一個動態劃分過程。主題庫是定製好的具有多個主題(如:質量主題、參數主題等)的歸檔主題集,每個主題包括若干主題項,包含表名、列名以及主題名等相關數據,主題其實是一個表區域(此區域可以重疊),這是為雲計算並行分析劃分的區域,而主題定製也只是一個區域劃分的過程,它表示這個主題可控的數據大小。主題區域還負責管理數據集的並行化,MapReduce模板容器就是為數據挖掘公共方法庫提供並行化支持設計的。它可以在一次並行化過程對多個主題進行挖掘和分析。歸檔好的主題集即為經驗庫,是以數據表的形式存放於資料庫中,經驗庫是通過已有的一些相關領域的數據挖掘系統,繼承他們已定製的歸檔好的比較完善的主題庫,來為本系統的未知需求作導向,採用最大匹配度的算法來儘可能從經驗庫給用戶提供幫助。經驗庫需要配置相關的領域同義詞詞表來匹配不同系統之間的語義誤差,將系統之間的誤差減少到最小。具體可擴展主題定製流程如下:用戶根據查詢主題庫了解是否有自己所要的主題項存在於主題庫;如果沒有,用戶申請查看雲數據倉庫中的數據表的數據字典,當用戶選定一個數據表的數據項時,系統會自動給出經驗庫中存在的此屬性的相關主題項推薦,不讓用戶盲目選擇,然後用戶通過實際需求選擇使用或是不使用推薦主題項;當用戶定製的需求在經驗庫中不存在時,用戶自定義的主題項會註冊入經驗庫,作為自學習的一個過程,並且經驗庫會定期統計主題庫的屬性表,將出現頻率較高的屬性作為敏感屬性,它們作為用戶開始定製主題的關鍵屬性推薦給用戶;新主題項註冊入主題庫,並在字典中劃分出這個主題項所需要的區域和範圍;當主題區域劃定後,MapReduce模板容器可以為公共數據挖掘分析方法提供MapReduce的並行算法支持;它是一個並行化集成器,對同一數據集的多個主題項採用同一種挖掘算法時可以一次性處理,大大提高數據分析挖掘的速度和效率。公共數據挖掘方法庫是用MapReduce實現的一些數據挖掘的公共方法,如:關聯規則、神經網絡、遺傳算法和決策樹方法等等,使用時動態加載到MapReduce模板容器,大大減少了數據挖掘人員的工作量,同時,利用MapReduce模板容器,數據管理人員可以輕鬆使用容器提供的API編寫一些主題分析的程序,更方便的契合系統,發揮並行挖掘的效率。基於上述熱連軋數據集主題定製系統,對熱連軋工業領域複雜數據集的數據進行採集、分類、建庫,進而達到有效的主題定製,其中具體方法流程如下:
步驟一、ETL模塊對熱軋鋼系統數據結構進行解析,生成數據字典文件和表頭文件,將數據字典文件和表頭文件發送至數據持久層模塊,並定時對熱連軋系統採集文本數據進行格式化。ETL模塊的流程如圖2所示:
步驟1.1,ETL模塊解析熱軋鋼系統數據結構生成數據字典文件和表頭文件。該步驟為初始化步驟,ETL模塊分析熱軋鋼原系統頭文件,生成熱軋鋼原系統數據的結構樹(結構樹節點包括欄位名稱和欄位解釋),ETL模塊遞歸遍歷整棵數據結構樹,拆分樹中節點項,生成用於構建雲數據倉庫數據字典文件和用於存儲數據的表頭文件;之後,ETL模塊將解析完成的數據字典文件和表頭文件發送到數據持久層模塊,以便數據持久層模塊根據上述2個文件為雲數據倉庫生成數據字典和數據表。上述結構樹是由多層節點構成的多層樹狀結構,鑑於結構樹的複雜度,以其中的一個分支「軋線數據」的子結構樹為例,如圖3所示,頂層節點表示的含義是軋線數據結構體的名字,同樣也是雲數據倉庫構建軋線數據表的名字;第二層節點表示軋線數據所包含的屬性,同樣它們作為軋線數據表中的欄位。第三層節點類似於第二層節點與第一層節點的關係,它們是對第二層節點的說明,同樣也是構建第二層節點表的欄位。結構樹生成後,ETL模塊以廣度遍歷的方式遞歸遍歷整棵數據結構樹,拆分樹中節點項,生成數據字典文件和表頭文件,用於構建雲數據倉庫表頭。以圖3的「軋線數據」子結構樹為例,將節點「軋線數據」作為大標籤「〈軋線數據 >」,然後遍歷到它的子節點,分別
是「鋼卷屬性」、「粗軋預設定結果數據」.....等,將它們作為xml中「〈軋線數據 >」的子標
籤「鋼卷屬性」,「粗軋預設定結果數據」,...,後續節點以此類推完成數據字典文件和表頭文件的生成。數據字典文件和表頭文件的樣例以如下XML文件生成。數據字典文件樣例:


〈1>鋼卷號
鋼種
板還號
材質代碼


。表頭文件樣例:



p.mill.pr1.Matld〈/1>
p.mill.pr1.SteelGrade
p.mill.pr1.SlabNo



..0在完成了原始軋鋼系統的分析和生產線熱連軋數據集主題定製系統的初始化後,需要將生產線上採集的文本數據寫入雲數據倉庫中,為了便於採集數據的寫入,需要進行採集文本數據的格式化。步驟1.2,ETL模塊對表頭文件進行格式化生成結構化模板庫的模板文件。為了便於採集數據存入數據持久層的雲數據倉庫中。ETL模塊根據上述的數據字典的字典項和表頭文件的表頭項方式進行排版生成對應格式化的結構化模板庫的模板文件,模板庫形式同上述XML格式,以數字表示位置的來抽取非結構化的文件或採集的二進位文件。 結構化模板庫的模版文件是提取文件數據時用的代碼格式,它用於將採集文本數據(包括生產線和歷史數據裡的文本數據)格式化成雲數據倉庫抽取順序格式的文件,以便雲數據倉庫將數據存入對應的合理位置。步驟1.3,ETL模塊根據結構化模板庫裡的模版文件定時加載入數據解析模板庫,將採集文本數據(包括生產線和歷史數據裡的文本數據)格式化,並發送到數據持久層模塊。
在形成結構化模板庫後,ETL模塊中的數據解析模板庫會定時對採集數據進行格式化,具體步驟為:首先,數據解析模板庫實時或定時獲取採集數據和數據樣本集的文本數據;其次,在規定的時間,數據解析模板庫中加載入結構化模板庫;最後,數據解析模板庫根據加載的結構化模板庫對採集數據數據樣本集的文本數據進行格式化。步驟二,數據持久層模塊根據接收的數據字典文件和表頭文件,構建雲數據倉庫創建數據字典和數據表,數據持久層模塊中的雲數據倉庫定時歸併ETL模塊格式化後的採集文本數據。數據持久層模塊從ETL模塊獲取數據字典文件和表頭文件,並為雲數據倉庫創建數據字典和數據表, 以步驟1.1中的「軋線數據」為例具體為:軋線數據的數據字典表將「鋼卷號」作為第一欄位,「〈2>鋼種」作為第二欄位,「〈3>板坯號」作為第三欄位以此類推;而與該數字字典相關的數據表中則把對應的「P.mill.pr1.Matld〈/1>」作為第一欄位,「p.mill.pr1.SteelGrade〈/2>」作為第二欄位,「p.mill,pr1.SlabNo〈/3>」作為第三欄位,使它們各自生成的表在雲數據倉庫中形成欄位位置一一對應關係,如圖4所示。雲數據倉庫模型如圖5,它建於hadoop雲計算模型的分布式文件系統HDFS(Hadoop Distributed File System)之上,由 MapReduce 實現了雲數據倉庫的操作方法。在雲數據倉庫中,構建好的數據表通過雲數據倉庫的語句操作(類似於一般的sql語句),從ETL模塊將格式化好的採集文本數據直接加載進雲數據倉庫的數據表中,在數據表中數據字典和數據項之間通過位置的一一映射方式,在操作數據時,通過字典的位置映射數據的位置來操作數據,稱為數據操作的「讀時模式」。下面是一個數據表的例子,表I是雲數據倉庫中存儲的從ETL模塊獲取數據,它們是一種流式的非結構化的數據,對於數據分析和主題定製都無法通過這樣數據進行操作。雲數據倉庫是通過數據映射建立的數據模型,它是根據資料庫的模型設計的一種位置讀取映射關係,將數據文件、表頭文件和數據字典文件通過位置映射成一個整體,然後通過類似於傳統資料庫的操作方式sql語句(非標準的sql語句)來操作數據並行存取,表2是解析後的數據,它是通過雲數據倉庫的數據查詢操作(select * from product)從雲數據倉庫中查詢出的部分數據行,以便在後的數據分析和主題定製處理。雲數據倉庫中存儲的數據:
表I
權利要求
1.一種基於雲計算的熱連軋數據主題定製系統,其特徵在於,所述系統包括ETL (信息抽取)模塊、數據持久層模塊和主題定製模塊; ETL (信息抽取)模塊,用於解析熱連軋系統數據結構,生成數據字典文件和表頭文件,將數據字典文件和表頭文件發送至數據持久層模塊,並定時對熱連軋系統採集文本數據進行格式化; 數據持久層模塊,數據持久層模塊用於根據從ETL模塊接收的所述數據字典文件和表頭文件為雲數據倉庫構建數據字典和數據表,並定時將格式化後的採集文本數據歸併入雲數據倉庫; 主題定製模塊,基於雲數據倉庫進行主題定製。
2.如權利要求1所述的熱連軋數據主題定製系統,其特徵在於,ETL模塊包括: 數據結構解析單元,用於解析熱連軋系統數據結構生成數據字典文件和表頭文件; 結構化模板庫生成單元,用於對數據結構解析單元生成的表頭文件進行格式化生成結構化模板庫的模版文件; 文本數據格式化單元,用於將結構化模板庫裡的模版文件定時加載入數據解析模板庫,對熱連軋系統採集文本數據進行格式化,並發送到數據持久層模塊。
3.如權利要求1所述的熱連軋數據主題定製系統,其特徵在於,主題定製模塊包括: 主題庫查詢單元,用於根據關鍵字查詢主題庫,確定主題庫是否存在用戶所需主題項; 經驗庫推薦單元,用於當主題庫中不存在所需主題項時,提供數據表的數據字典的屬性選擇,並將用戶所選屬性作為所需主題項屬性,並基於用戶所選屬性在經驗庫中獲取推薦主題項; 主題庫註冊單元,用於當所述推薦主題項中存在所需主題項時,將所需主題項註冊入主題庫;當所述推薦主題項中不存在所需主題項時,接受用戶自定義的新主題項,並將所述新主題項註冊入主題庫; 通信單元,在操作數據時,用於向雲數據倉庫發送主題項的數據請求。
4.一種基於雲計算的熱連軋數據主題定製方法,其特徵在於,該定製方法包括以下步驟: 步驟一、ETL模塊對熱連軋系統數據結構進行解析,生成數據字典文件和表頭文件,將數據字典文件和表頭文件發送至數據持久層模塊,並定時對熱連軋系統採集文本數據進行格式化; 步驟二,數據持久層模塊根據接收的數據字典文件和表頭文件,為雲數據倉庫創建數據字典和數據表,並定時歸併ETL模塊格式化後的採集文本數據; 步驟三,主題定製模塊基於雲數據倉庫進行主題定製。
5.一種如權利要求4所述的熱連軋數據主題定製方法,其特徵在於,步驟一具體包括以下步驟: 步驟1.1,ETL模塊解析熱連軋系統數據結構生成數據字典文件和表頭文件; 步驟1.2,ETL模塊對表頭文件進行格式化生成結構化模板庫的模版文件; 步驟1.3,ETL模塊將結構化模板庫裡的模版文件定時加載入數據解析模板庫,對熱連軋系統採集文本數據進行格式化,並發送到數據持久層模塊。
6.一種如權利要求4所述的熱連軋數據主題定製方法,其特徵在於,步驟三具體包括以下步驟: 步驟3.1,主題定製模塊根據關鍵字查詢主題庫,確定主題庫是否存在用戶所需的主題項; 步驟3.2,當主題庫中不存在所需主題項時,主題定製模塊提供數據表的數據字典的屬性選擇,接收用戶對數據字典中的屬性選擇,並基於用戶所選屬性在經驗庫中獲取推薦主題項; 步驟3.3,當經驗庫推薦主題項中存在所需主題項時,將所需主題項註冊入主題庫;當經驗庫推薦主題項中不存在所需主題項時,經驗庫接受用戶自定義的新主題項,並將所述新主題項註冊入主題庫; 步驟3.4,操作數據時,主題庫向雲數據倉庫發送主題項的數據請求。
7.—種如權利要求6所述的熱連軋數據主題定製方法,其特徵在於,步驟3.3中用戶自定義新主題項的方式為:從經驗庫推薦主題項中獲得最大匹配主題項,修改最大匹配主題項的屬性,形成 新主題項。
全文摘要
本發明提供一種基於雲計算的大規模熱連軋數據主題定製系統,包括ETL模塊、數據持久層模塊和主題定製模塊。ETL模塊用於實現原始熱軋鋼系統數據解析、雲數據倉庫數據表構建和數據抽取功能;數據持久層模塊利用雲數據倉庫組織和存儲ETL模塊抽取的結構化數據;針對雲數據倉庫中數據主題分析問題,主題定製模塊通過主題庫、經驗庫為用戶提供合理的主題定製方案,並通過公共數據挖掘方法庫和MapReduce模版容器提供通用的數據分析功能,提高數據管理人員的工作效率。本發明提供的主題定製系統具有靈活的可擴展性,可集成於任意原始熱連軋數據系統,處理用戶在實際需求不明確時對複雜數據的主題分類問題,為熱軋鋼數據挖掘分析提供可靠的數據集保障。
文檔編號G06F17/30GK103198138SQ20131013044
公開日2013年7月10日 申請日期2013年4月16日 優先權日2013年4月16日
發明者鄒麗暉, 張德政, 華鎮, 阿孜古麗, 孫義, 謝永紅, 劉宏嵐, 杜鑫 申請人:北京科技大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀