一種異構資料庫環境下語義集成過程的並行計算方法
2023-07-21 09:42:31
專利名稱:一種異構資料庫環境下語義集成過程的並行計算方法
技術領域:
本發明涉及一種異構資料庫環境下語義集成過程的並行計算方法。是一種能提高系統性能並且不降低查準率和查全率計算方法。
背景技術:
在異構資料庫環境下能夠區分出相同和不相同的屬性是實現資料庫互操作的一個重要前提條件。許多參考文獻討論了如何區分異構資料庫中相同屬性的問題。但這些方法不能區分出現實世界中存在的不相同(似)的數據類型描述的同一屬性(後面給出數據類型之間相同(似)性的定義)O例如,關係模式:Student (Sno, Shame, Sage.Sdept)假如描述屬性Sno的數據類型是整型,則用於區分屬性的特徵向量類似為:(data type, length, key or not, value constraints, aver-age, rain, max)特徵向量的具體取值為:(int,4,key,notnull,95030,95001。95059)1假如描述屬性Sno的數據類型是字符型,則用於區分屬性的特徵向量類似為:(data type, length, key or not, value constraints, theratio of the number ofnumerical characters to the totalnumber of characters,the ratio of white—spacecharac-ters tO total characters, statistics on length)。特徵向量的具體取值為:(char,5, key, not null, 1,0,5)2顯然,由於用不相同(似)數據類型描述同一屬性時特徵向量的巨大差異性,目前通過比較描述屬性的特徵向量信息不能夠區分出不相同(似)的數據類型描述的同一屬性(如⑴和⑵).
既然用描述屬性的特徵向量信息不能區分出不相同(似)的數據類型描述的同一屬性,我們認為在不相同(似)的數據類型描述的屬性中進行相似屬性的確定是無實際意義的.所以,本文提出一種基於數據類型的方法來實現異構數據環境下相同屬性的確定。該方法要求首先對各個資料庫中的數據根據數據類型分類,然後在資料庫之間具有相同數據類型描述的屬性內部進行屬性是否相同的確定。由於屬性根據數據類型進行了分類,從而可以實現不同數據類型內確定相同屬性過程的並行計算(在第3部分理論上分析了該方法並行計算的可行性),同時,該方法也明顯地減少了語義集成過程中屬性的比較次數。實驗結果顯示我們提出的方法能明顯提高系統的運行效率,並且不降低語義集成中數據的查準率和查全率。
發明內容
基於上述情況,特此發明一種異構資料庫環境下語義集成過程的並行計算方法;該方法根據屬性的元數據信息排除了大部分不相等的屬性對,從而解決了文[10,11]中確定屬性關係時比較費時的問題。但是,該方法僅使用屬性的元數據信息,並未使用數據內容信息,使用文[9]中的規則。則具有相同元數據信息描述的不同屬性不能被區分開。同時,該方法不能實現相同屬性確定過程的並行計算。我們認為為了提高數據的查準率和查全率,描述屬性的特徵向量中應增加描述數據內容方面的信息,通過計算模式信息和數據內容與統計信息的概率值來確定相同屬性。1.在數值型屬性間進行相同屬性的確定;首先,進行數值型屬性間相同屬性的確定。我們把描述數值型屬性特徵的信息分為三類:模式信息、數據限制和數據內容。(I)模式信息:包括數據類型、長度、是否為鍵屬性;(2)數據限制:包括外鍵信息、屬性取值範圍限制、是否允許為空;(3)數據內容:包括最大值、最小值、平均值、標準差;2.在字符型屬性間進行相同屬性的確定;其中模式信息、數據限制如數值型屬性,數據內容部分包括:字符型屬性的具體取值中數字字符佔整個字符的比率,空白字符佔整個字符的比率,字符所佔空間的統計長度。其中,:字符所佔空間的統計長度是指實際用來存儲字符的長度,而不是事先分配的存儲空問的長度。
權利要求
1.一種異構資料庫環境下語義集成過程的並行計算方法:該方法是是易於實現語義集成過程的並行計算。
2.根據權利要求1的基於一種異構資料庫環境下語義集成過程的並行計算方法,此方法的分為三大部分:在數值型屬性間進行相同屬性的確定、在宇符型屬性間進行相同屬性的確定、在稀有型屬性間進行相同屬性的確定。
全文摘要
一種異構資料庫環境下語義集成過程的並行計算方法區分相同屬性是異構資料庫環境下語義集成中的一個重要環節,主要的方法是用特徵描述屬性來評估屬性之間的相似性。雖然這種方法具有較高自動化和易於實現的特點,但它將花費更多的時間來比較所有的屬性且不能在語義集成中實現並行計算。本文提出了一種基於數據類型的方法來實現異構數據環境下相同屬性的確定,這種方法具有在描述比較時間的同時實現語義集成的並行計算的特點。
文檔編號G06F17/30GK103092868SQ201110344888
公開日2013年5月8日 申請日期2011年11月1日 優先權日2011年11月1日
發明者楊際榮 申請人:鎮江華揚信息科技有限公司