一種多源異構割裂結構化數據轉化方法及系統與流程
2023-06-04 21:19:41 3
本發明涉及數據處理
技術領域:
:,尤其涉及一種多源異構割裂結構化數據轉化方法及系統。
背景技術:
::據ibm公司的分析,人類文明有90%的數據是在過去兩年內產生的,到2020年,全世界所產生的數據規模將達到今天的44倍。而我國截至2015年12月,已經擁有6.88億的網際網路用戶,13.06億的手機用戶,每天可產生海量的數據。大數據無論在大型企業,還是政府部門都發揮著相當的作用。2015年8月國務院印發了《促進大數據發展行動綱要》(國發〔2015〕50號),明確強調「數據已成為國家基礎性戰略資源,大數據正日益對全球生產、流通、分配、消費活動以及經濟運行機制、社會生活方式和國家治理能力產生重要影響」。該文件同時指出大數據的特點為「數量巨大、來源分散、格式多樣」,要求通過「採集、存儲和關聯分析,從中發現新知識、創造新價值」。在體量巨大之外,大數據的明顯特徵是「碎片化」。具體來說是同一個數據可能碎片化存儲或者來源於不同的數據源,相互獨立;同一對象的不同側面和不同維度的數據碎片化存儲於不同的地方,互不關聯;同一側面和維度的數據可能採用不同的結構和模式進行組織和表示,互不相同。總結而言,大數據的碎片化形成了多源、割裂、異構的數據形態。因此,如何將多源、割裂、異構的數據融合是一個值得研究的問題。而在現有的系統中,對結構化數據的描述都具有獨特性的。在多源的情況下,相同的信息在不同的系統具有不同的描述方式及不同的表達結構。因此,現有的數據融合及實體識別的方法都是基於特定結構的數據,一旦用於不同結構的數據,算法效果將大大降低。所以,在數據融合的過程中,不同的描述方式嚴重影響數據融合的質量及增加了數據融合的成本。現有的技術主要採用基於模式集成方式,即通過模式轉換實現不同資料庫之間的轉換,只能描述數據模型的結構信息,缺少了語義信息。同時根據1所說,現有的數據融合及實體識別的方法都是基於特定結構的數據。而yodsawalaichodpathumwan提出的一種獨立表達方式的轉換方法只針對於特定的兩個能轉換的資料庫。但在現實的情況中,並不是所有的資料庫的圖結構都可以相互轉換的。技術實現要素:為了解決上述技術問題,本發明的目的是提供一種能提高信息完整度的一種多源異構割裂結構化數據轉化方法及系統。本發明所採取的技術方案是:一種多源異構割裂結構化數據轉化方法,包括以下步驟:將多個數據源映射到對應的局部映射圖;將各局部映射圖組成總映射圖。作為所述的一種多源異構割裂結構化數據轉化方法的進一步改進,所述的將多個數據源映射到對應的局部關係圖,這一步驟具體包括:將數據源的各數據表分別映射到對應的局部映射圖中對應的節點;將數據源中各數據表的外鍵引用關係分別映射到對應的局部映射圖中對應的邊。作為所述的一種多源異構割裂結構化數據轉化方法的進一步改進,所述的節點包括結構信息和語義信息。作為所述的一種多源異構割裂結構化數據轉化方法的進一步改進,所述結構信息包括表結構、欄位、欄位類型和具體值。作為所述的一種多源異構割裂結構化數據轉化方法的進一步改進,所述語義信息包括數據表名、屬性名稱、具體屬性和約束條件。本發明所採用的另一技術方案是:一種多源異構割裂結構化數據轉化系統,包括:局部映射單元,用於將多個數據源映射到對應的局部映射圖;映射組成單元,用於將各局部映射圖組成總映射圖。作為所述的一種多源異構割裂結構化數據轉化系統的進一步改進,所述的局部映射單元具體包括:節點映射單元,用於將數據源的各數據表分別映射到對應的局部映射圖中對應的節點;邊映射單元,用於將數據源中各數據表的外鍵引用關係分別映射到對應的局部映射圖中對應的邊。作為所述的一種多源異構割裂結構化數據轉化系統的進一步改進,所述的節點包括結構信息和語義信息。作為所述的一種多源異構割裂結構化數據轉化系統的進一步改進,所述結構信息包括表結構、欄位、欄位類型和具體值。作為所述的一種多源異構割裂結構化數據轉化系統的進一步改進,所述語義信息包括數據表名、屬性名稱、具體屬性和約束條件。本發明的有益效果是:本發明一種多源異構割裂結構化數據轉化方法及系統通過將多源割裂異構的數據通過轉化為圖模型進行統一的描述,使得相同的信息具有相同的表達結構。而且在圖模型中添加了語義信息,使得圖模型對資料庫的信息表達更加完整,有效提高描述的準確性。附圖說明下面結合附圖對本發明的具體實施方式作進一步說明:圖1是本發明一種多源異構割裂結構化數據轉化方法的步驟流程圖;圖2是本發明一種多源異構割裂結構化數據轉化方法中局部映射的步驟流程圖;圖3是本發明一種多源異構割裂結構化數據轉化系統的模塊方框圖;圖4是本發明實施例的圖模型轉化圖。具體實施方式參考圖1,本發明一種多源異構割裂結構化數據轉化方法,包括以下步驟:將多個數據源映射到對應的局部映射圖;將各局部映射圖組成總映射圖。參考圖2,進一步作為優選的實施方式,所述的將多個數據源映射到對應的局部關係圖,這一步驟具體包括:將數據源的各數據表分別映射到對應的局部映射圖中對應的節點;將數據源中各數據表的外鍵引用關係分別映射到對應的局部映射圖中對應的邊。進一步作為優選的實施方式,所述的節點包括結構信息和語義信息。進一步作為優選的實施方式,所述結構信息包括表結構、欄位、欄位類型和具體值。進一步作為優選的實施方式,所述語義信息包括數據表名、屬性名稱、具體屬性和約束條件。參考圖3,本發明一種多源異構割裂結構化數據轉化系統,包括:局部映射單元,用於將多個數據源映射到對應的局部映射圖;映射組成單元,用於將各局部映射圖組成總映射圖。進一步作為優選的實施方式,所述的局部映射單元具體包括:節點映射單元,用於將數據源的各數據表分別映射到對應的局部映射圖中對應的節點;邊映射單元,用於將數據源中各數據表的外鍵引用關係分別映射到對應的局部映射圖中對應的邊。進一步作為優選的實施方式,所述的節點包括結構信息和語義信息。進一步作為優選的實施方式,所述結構信息包括表結構、欄位、欄位類型和具體值。進一步作為優選的實施方式,所述語義信息包括數據表名、屬性名稱、具體屬性和約束條件。本發明實施例中,採用有向圖描述資料庫具體如下:g=〈v,e〉:有向無環圖(dag),表示資料庫的關係圖,其中vi:圖中的一個節點,對應資料庫中的一個表i。v={v1,v2,···,vk|1≤k≤n}:圖中的點集,表示資料庫中所有表的集合。e=(vi,vj):圖中的一條有向邊,表示資料庫中表ti外鍵引用表tj。其中ti:表示資料庫中的一個表,t:表示資料庫中表的集合。e={(vi,vj)|1≤i,j≤n,i≠j}:圖中的邊集,表示資料庫中所有外鍵引用關係以及邏輯依賴關係的集合。當在存在多個數據源的情況時,每個數據源映射到一個圖。多個圖組成一個更大的圖,描述多個數據源的整體情況,每個小圖描述一個單一數據源的情況。本實施例是可在不需要理解資料庫的語義信息及其業務邏輯的情況下將資料庫轉為圖模型,極大降低了轉換成本。完成了數據源的圖建模後,擬將數據融合過程相關的計算和操作映射到圖上進行處理,包括數據匯聚、實體識別、實體消歧、關係發現、實體擴展等操作。因此,建立圖模型時需定義實體與圖之間的映射關係。實體是對物理或抽象存在的事物的一個描述。因此,對事物的不同方面的描述應該是能夠唯一地關聯和綁定在一起,形成對實體的相對更加全面的刻畫。實體的映射圖是一個中心連通圖,即該圖中存在一個中心節點,對圖中任何一個點,都存在一條從該點到中心節點的路徑。中心連通圖數學化描述如下:對於一個圖g=,g是一個中心連通圖若且唯若∃v_0∈v,對∀v∈v,至少存在一條從v到v_0的路徑。基於此,一個圖中的每一個中心連通子圖可能都對應一個實體。在此描述方式下,本發明假設已知中心連通子圖是一個實體,具有實體的結構信息及其語義信息。描述模型當中,節點包括表結構信息及語義信息,以數據表的外鍵關係為邊與以資料庫表結構及語義信息為節點構建圖描述模型。將圖中所有中心連通子圖提取出來,進行相似性比較。參考圖4,本發明實施例中,將需要比較的實體轉化為通過中心連通子圖進行描述,將資料庫中表的結構及語義信息都包含到節點中,具體的節點描述如下:節點包括表結構部分及語義部分:1、結構信息:結構部分主要是節點包含對應數據表的所有信息,包括表結構、欄位、欄位類型、具體值等信息。2、語義信息:將節點對應的數據表及其屬性進行規範化定義,將其語義信息包含到節點當中。數據項是指數據表中的一個屬性,數據項的語義與它所屬的數據表的語義環境相關,數據項的語義信息存在語義及應用場景的特定條件約束。一個數據項(屬性)si的語義可表示為一個四元關係組:si=,其中table是屬性所在的數據表名,name是屬性名稱,iskey表示是否為主鍵,constraint是屬性的約束條件。一個數據表st的語義可表示為一個三元關係組:st=,tablename是數據表的名稱,context是數據表所在的應用語境,dataitems是數據表所有數據項(屬性)的集合,存在一定的隱含約束條件。以數據表的外鍵關係為邊與上述定義的節點構建圖模型,描述一個數據源的資料庫。多個數據源的資料庫統一以上述圖模型的方式描述,從而形成統一的表達方式,可用於實體識別及相似性查詢,極大降低了數據融合的成本。從上述內容可知,本發明一種多源異構割裂結構化數據轉化方法及系統通過將多源割裂異構的數據通過轉化為圖模型進行統一的描述,使得相同的信息具有相同的表達結構。而且在圖模型中添加了語義信息,使得圖模型對資料庫的信息表達更加完整,有效提高描述的準確性。以上是對本發明的較佳實施進行了具體說明,但本發明創造並不限於所述實施例,熟悉本領域的技術人員在不違背本發明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請權利要求所限定的範圍內。當前第1頁12當前第1頁12