數據整合系統和方法
2023-05-29 15:49:06
專利名稱:數據整合系統和方法
技術領域:
本發明涉及一種數據整合系統和方法,尤其涉及一種能夠提供具有標準數據格式 的數據的數據整合系統和方法。
背景技術:
眾所周知,現今企業中的信息發展迅速,技術更是日新月異。然而多方面的信息建 設以及自然的延續,雖然各自取得相當的效益,卻也造成了一座座的信息孤島,阻礙了進一 步的信息運用以及更大的統合效益。為了阻斷信息割據,提高信息系統的運行效率,數據整 合技術成為各個企業所關心的技術。數據整合技術可將各個信息孤島的數據進行互通,將 孤立的信息整合到一起,形成最終企業需要的信息。
在數據整合技術中,其中兩種為數據文件整合方式和數據及時整合方式,下面分 別介紹
1.數據文件整合方式(PUSH方式)
圖1是數據文件整合方式的架構圖。參見圖1,所謂數據文件整合方式,是指由源 數據提供方提供一個或多個數據文件,將源數據提供方的所有數據變化一次性提供給數據 接收方,而由數據接收方對數據文件進行處理,其中文件格式比較常見的為xml、txt、exCel 等。此種方式主要應用場景是一次性導入大量數據。該方式的優點是容易控制,便於儲存; 缺點是文件格式種類繁雜,並且文件中的數據格式也是五花八門,一旦增加一種文件格式 和數據格式,程序需要經常做很大的改動來適應新的格式,另外由於數據量比較大,導致系 統的負荷大,如果整合過程中出現問題,容易導致整個過程失敗,需要花費很長時間再次進 行數據處理。
2.數據及時整合方式(PULL方式)
圖2是數據及時整合方式的架構圖。參見圖2,所謂數據及時整合方式,是指數據 提供方有任何數據變化,則通過數據接收方提供的及時響應方式向數據接收方通知其關心 的數據的變化,而實現這種響應方式的代表技術有Webservive、REST、jmS等。此種方式經 常應用的場景是在兩個應用信息變化特別緊密的系統之間的信息同步上。優點是信息同步 比較及時,及時同步的缺點是處理速度慢,對系統的處理能力與資源要求高,處理大量數據 處理請求時容易導致程序崩潰。
下面是數據及時整合方式的Wfebservice實現的說明。
Webservice是由企業發布的完成特定商務需求的在線應用服務,其它公司或應用 軟體能夠通過hternet來訪問並使用這項在線應用服務。Webservice是一種構建應用程 序的普遍模型,可以在任何支持網絡通信的作業系統中實施運行;它是一種新的web應用 程序分支,是自包含、自描述、模塊化的應用,可以發布、定位、通過web調用。Webservice還 是一個應用組件,它邏輯性地為其他應用程式提供數據與服務。各應用程式通過網絡協議 和規定的一些標準數據格式(Http,XML,Soap等)來訪問Webservice,通過Webservice內 部執行得到所需結果。Webservice可以執行從簡單的請求到複雜商務處理的任何功能。一旦部署以後,其他Webservice應用程式可以發現並調用它部署的服務。
一種數據整合的方案是對應上述兩種數據整合方式,開發兩套數據整合程序來處 理,將兩種數據整合方式簡單地組合在一起,即兩種方案並存。對於這種數據整合的方案, 存在如下缺點
1.兩種數據整合方式各有缺點對於數據文件整合方式,整合過程中出錯後,只 能再次重新進行處理;對於數據及時整合方式,處理程序的處理能力受機器本身的限制,處 理能力有限;
2.兩種數據整合方式沒有監控功能由於兩種數據整合方式本身並不提供監控 功能,所以很難監控數據整合的運行情況和執行情況,這使得數據接收方和數據發送方都 很難知道具體的數據整合情況,不容易掌握運行情況;
3.維護成本較大數據文件整合方式中數據格式繁雜,一旦新增或修改一種數據 格式,都需要修改數據整合程序。此外,數據接收方的核心數據模型(核心數據模型是指數 據接收方自己內部的數據的結構和數據相互之間的關係)調整後,會導致兩套數據整合程 序都要做修改;
4.擴展不夠方便由於採用兩套方案,無論是水平擴展(多資料庫之間同步數 據),還是垂直擴展(多種數據源提供數據)都很困難。發明內容
鑑於上述問題,本發明旨在減少多種數據格式對數據整合系統造成的維護困難、 麻煩,並可以監控數據整合的細微變化情況。
本發明一方案提供一種數據整合系統,包括初始化模塊,從不同數據源獲取數 據;適配模塊,從所述初始化模塊接收數據,並提供具有標準數據格式的數據;校驗模塊, 從所述適配模塊接收標準數據格式的數據,並校驗所述標準數據格式的數據的完整性和正 確性,過濾不符合要求的數據;持久化模塊,將通過校驗的數據持久化到資料庫;以及監控 模塊,監控數據整合系統中每條數據的整合情況。
本發明另一方案提供一種數據整合方法,包括初始化步驟,從不同數據源獲取數 據;適配步驟,基於所獲取的數據,提供具有標準數據格式的數據;校驗步驟,校驗所述標 準數據格式的數據的完整性和正確性,過濾不符合要求的數據;持久化步驟,將通過校驗的 數據持久化到資料庫;以及監控步驟,監控數據整合系統中每條數據的整合情況。
本發明不是單純採用數據文件整合及數據及時整合兩種數據整合方式的任何一 種,而是將兩種方式有機地融為一體;靈活地適應各種情況的數據整合需求,並且提供盡可 能靈活的水平和垂直擴展功能。
通過以下參照附圖對優選實施例的說明,本申請的上述以及其它目的、特徵和優 點將更加明顯。
圖1是數據文件整合方式的架構圖2是數據及時整合方式的架構圖3是根據本發明一實施例的數據整合系統的架構圖4是根據本發明一實施例的數據整合系統的整體流程圖5是根據本發明一實施例的數據整合方法的流程圖6是根據本發明一實施例的數據整合系統的水平擴展結構圖7是根據本發明一實施例的適配模塊的示意圖8是根據本發明一實施例的使用純java語言開發並基於標準jdkl. 5構建的數 據整合系統的示意圖。
具體實施方式
下面將詳細描述本發明的優選實施例。應當注意,這裡描述的實施例只用於舉例 說明,並不用於限制本申請。
圖3是根據本發明一實施例的數據整合系統的架構圖;圖4是根據本發明一實施 例的數據整合系統的整體流程圖。
本發明的數據整合系統可以通過能夠運行計算機可執行程序的計算機等硬體來 實現。數據整合系統所包含的各個裝置、模塊、單元等可以通過能夠執行計算機可讀程序的 具有處理功能的處理器(如CPU)等硬體來實現。例如,在一實施例中,數據整合系統可以 使用純java語言開發,基於標準jdkl. 5構建。參見圖8,圖8是使用純java語言開發並基 於標準jdkl. 5構建的數據整合系統的示意圖。
再參見圖3,根據本發明一實施例,本發明的數據整合系統包括5個功能模塊初 始化模塊、適配模塊、校驗模塊、持久化模塊、監控模塊。這些功能模塊的靈活組合即可以實 現數據整合系統對不同數據源的不同業務入庫規則的靈活變換。當其中某個模塊的功能需 要調整的時候,只需要改變單個功能模塊,將其換成具有相應功能的模塊。通過這5個模塊 的靈活組合即可實現將不同來源的數據統一整合成數據接收方的核心數據。
實例一
A系統(例如一提供數據的外部系統,在此稱為A系統)採用xml文件使用ftp方 式同步給B系統(根據本發明的數據整合系統,在此稱為B系統)關於一些用戶信息的數 據,則數據整合的過程可包括如下步驟。
1、B系統接到A系統通知。
2、通知監控模塊啟動一個數據整合流程。
3、啟動初始化模塊來使用ftp方式獲得xml文件。
4、通知監控模塊初始化模塊執行情況。
5、通過適配模塊的xml文件解析器將xml文件轉換為數據流(如果系統A是採用 txt文件傳輸數據,那麼解析器就使用對應的txt文件解析器),但此時的數據流是系統A 提供的數據格式,在系統B中無法直接利用。
6、通知監控模塊解析器執行情況。
7、通過適配模塊中的數據適配器將數據流轉換為系統B中可以使用的數據。
8、通知監控模塊數據適配器執行情況。
9、再通過校驗模塊來判斷數據流的數據是否合法。
10、通知監控模塊校驗器執行情況。
11、執行持久化模塊來保存數據到系統B中。
12、通知監控模塊持久化模塊執行情況。
13、整個數據整合流程完成並通知監控模塊整個流程完成。
通過實例一中幾個通知步驟,監控模塊就可以監控到整個數據流程的執行情況。
以下結合上述實例具體描述本發明實施例的各個功能模塊。
初始化模塊用於為了獲取數據而作一些初始化工作。例如從各種平臺通過不 同訪問協議獲得數據,接收各種不同類型的數據信息並進行對應的處理。對於數據文件整 合方式來說,初始化模塊的功能是通過各種協議獲得數據文件,並將數據文件下載到本地 應用伺服器。而對於數據及時整合方式來說,初始化模塊是負責提供對外服務的程序模塊。
初始化模塊的代碼實例為
初始化接口 [
權利要求
1.一種數據整合系統,包括初始化模塊,從不同數據源獲取數據;適配模塊,從所述初始化模塊接收數據,並提供具有標準數據格式的數據; 校驗模塊,從所述適配模塊接收標準數據格式的數據,並校驗所述標準數據格式的數 據的完整性和正確性,過濾不符合要求的數據;持久化模塊,將通過校驗的數據持久化到資料庫;以及 監控模塊,監控數據整合系統中每條數據的整合情況。
2.如權利要求1所述的數據整合系統,其中,當接收的數據的格式不是所述標準數據 格式時,所述適配模塊將其轉換成所述標準數據格式。
3.如權利要求1所述的數據整合系統,其中所述監控模塊包括通知單元和出錯處理單兀。
4.如權利要求3所述的數據整合系統,其中所述通知單元實現與其它數據整合系統的 交互,所述出錯處理單元處理數據整合中出現的錯誤。
5.如權利要求1所述的數據整合系統,其中所述持久化模塊根據入庫規則將通過校驗 的數據持久化到資料庫。
6.如權利要求5所述的數據整合系統,其中所述入庫規則根據不同業務規則進行單獨 定製,使得不同的標準數據格式具有不同的入庫規則。
7.一種數據整合方法,用於數據整合系統,該方法包括 初始化步驟,從不同數據源獲取數據;適配步驟,基於所獲取的數據,提供具有標準數據格式的數據;校驗步驟,校驗所述標準數據格式的數據的完整性和正確性,過濾不符合要求的數據;持久化步驟,將通過校驗的數據持久化到資料庫;以及 監控步驟,監控數據整合系統中每條數據的整合情況。
8.如權利要求7所述的數據整合方法,其中,當獲取的數據的格式不是所述標準數據 格式時,所述適配步驟將其轉換成所述標準數據格式。
9.如權利要求7所述的數據整合方法,其中所述監控步驟包括通知步驟和出錯處理步馬聚ο
10.如權利要求9所述的數據整合方法,其中所述通知步驟實現與其它數據整合系統 的交互,所述出錯處理步驟處理數據整合中出現的錯誤。
11.如權利要求7所述的數據整合方法,其中所述持久化步驟根據入庫規則將通過校 驗的數據持久化到資料庫。
12.如權利要求11所述的數據整合方法,其中所述入庫規則根據不同業務規則進行單 獨定製,使得不同的標準數據格式具有不同的入庫規則。
全文摘要
本發明提供一種數據整合系統和方法,該數據整合系統包括初始化模塊,從不同數據源獲取數據;適配模塊,從所述初始化模塊接收數據,並提供具有標準數據格式的數據;校驗模塊,從所述適配模塊接收標準數據格式的數據,並校驗所述標準數據格式的數據的完整性和正確性,過濾不符合要求的數據;持久化模塊,將通過校驗的數據持久化到資料庫;以及監控模塊,監控數據整合系統中每條數據的整合情況。本發明不是單純採用數據文件整合及數據及時整合這兩種數據整合方式的任何一種,而是將兩種方式有機地融為一體;靈活地適應各種情況的數據整合需求,並且提供儘可能靈活的水平和垂直擴展功能。
文檔編號G06F17/30GK102043837SQ201010569590
公開日2011年5月4日 申請日期2010年12月1日 優先權日2010年12月1日
發明者雲廣, 劉鑫 申請人:北京迅捷英翔網絡科技有限公司