新四季網

用於深層網數據集成的數據源選擇方法

2023-09-22 17:34:55 2

專利名稱:用於深層網數據集成的數據源選擇方法
技術領域:
本發明涉及一種基於網絡的數據源選擇方法,具體涉及一種由網絡查詢接口連接 的深層網的數據源選擇方法,用於深層網數據源的集成服務。
背景技術:
隨著網絡資料庫的廣泛應用,網絡正在加速的「深化」。網際網路上有大量頁面是由 後臺資料庫動態產生,這部分信息不能直接通過靜態連結獲取,只能通過填寫表單提交查 詢來獲取,由於傳統的網絡爬蟲(Crawler)不具有填寫表單的能力,爬不出這些頁面。因 此,現有的搜尋引擎搜索不出這部分頁面信息,從而導致這部分信息對用戶是隱藏、不可見 的,被稱為深層網(De印Web,又稱為Invisible Web, Hidden Web)。Deep Web是一個與 Surface Web相對應的概念,最初由Dr. Jill Ellsworth於1994年提出,指那些由普通搜索 引擎難以發現其信息內容的Web頁面。De印Web信息一般存儲在資料庫中,需要通過查詢 接口提交查詢進行訪問,和靜態頁面相比通常信息量更大,主題更專一,信息質量更好,信 息結構化更好,增長速度更快。研究表明,De印Web信息是Surface Web信息的500倍,有 近450,000個De印Web站點。實現大規模DeepWeb數據集成是方便用戶使用De印Web信 息的一個有效途徑。大規模De印Web集成系統主要包含1)數據源發現(De印Web Discovery) ;2) 查詢接口抽取(Query Interface Extraction) ;3)數據源選擇(Source selection) ;4)查 詢轉換(Query Transfer) ;5)結果合成(Result Merging)這五個關鍵部分。Deep Web數據源包括多種主題的數據資源,而且在某個主題上De印Web數據源 也有許多,這些數據源屬於同一主題,但數據質量上差別很大有些是過時的、不準確或不 一致的,而有些是更新及時、準確一致的。並且這些數據源包含的數據量大小不一,互相覆 蓋,有的覆蓋大,有的甚至完全包含其它的數據源。以商業和教育這兩個領域為例,根據 Complete Planet的統計,存在上千個Web資料庫,由於Complete Planet只是搜集了整個 Deep Web數據源中大約7%的Web資料庫,所以在現實中還要遠遠大於這個數字(Bergman Μ.K. The Deep Web :Surfacing Hidden Value. In Journal of Electronic Publishing, 2002,7(1) =8912-8914)。Kabra G等提出了一種選擇那些和用戶查詢請求內容最為接近的 (Top-k)k個De印 Web數據源進行查詢的方法(Kabra G,Li CK,Chang KCC. Query routing Finding Ways in the Maze of the Deep Web. In Proc. of the ICDE,2005,64—73)。上述 方法只處理查詢接口簡單屬性關係,而且是通過關鍵詞進行查詢表單,這些方法沒有考慮 到查詢接口各屬性間語義關係,而且進行相應數據源選擇過程中數據源選擇結果的準確率 低,而且返回數據源結果不全等。隨著Web資料庫數量的不斷增長,使得Deep Web數據源 的選擇成為一個亟待解決的關鍵問題。

發明內容
本發明的目的是針對現有技術的不足,提供一種高效、準確的深層網數據源選擇方法,從而提高深層網數據源的選擇效率和準確度。數據源選擇是指在給定Deep Web數據源查詢接口集和某個用戶查詢的條件下,選 擇與用戶查詢相關度大於某一設定的閾值的查詢接口集或者選擇相關度值較大的前k個 數據源的查詢接口集的過程。數據源選擇主要是為了選擇覆蓋程度高,重疊程度小的數據 庫,避免出現大量的冗餘和無關信息;用戶希望找到相應的高質量的查詢結果,又希望能得 到相同結果之間的對比情況。現有數據源選擇方法大多是直接計算用戶查詢與查詢接口的 相關度來進行關鍵詞匹配,由於以下三方面原因導致使用現有方法時,用戶查詢通常是不 準確的,並且具有較高的冗餘度,同時會發現一些不相關的數據源首先是由於同一個領域中存在大量可訪問De印Web資源,訪問Internet上大量 的Deep Web是個費時又費力的過程;其次各資料庫的數據質量相差很大,有些是過時的、 不準確或不一致的,而有些是更新及時、準確一致的,並不是每一個Deep Web都能夠滿足一 個特定的查詢,顯然任何一個領域的Deep Web不可能包含該領域中所有的信息,因此也不 可能滿足這個領域的任意查詢;最後就是一個領域中大部分的Deep Web數據源包含的數 據量大小不一,互相覆蓋,有的覆蓋大,甚至完全包含其它的數據源;而且它們之間還存在 著冗餘的信息,而對於一個查詢而言,訪問Deep Web次數越多,返回信息的冗餘度也會越 大,極大地增加冗餘信息的處理難度。基於以上分析可知,在De印Web數據源的選擇這一步要達到的目標是如何從一個 領域中大量的Deep Web數據源中選擇出合適的子集,減少訪問Deep Web的數量和使得查 詢結果中冗餘度足夠小,而且查詢代價更低。為此,我們利用查詢接口語義特徵,基於領域本體將用戶查詢進行了擴展,這樣, 所選擇的查詢接口集更能滿足用戶的查詢要求。具體的說,本發明技術方案如下一種用於深層網數據集成的數據源選擇方法,其特徵在於,包括以下步驟步驟A、對查詢接口進行解析;步驟B、構建本體庫並通過本體庫把相應查詢信息轉化為本體信息;步驟C、計算本體信息與各數據源的相關度,根據相關度選擇滿足預先設定的條件 的數據源;對於給定目標查詢接口對象DWIi和查詢本體Qi,相關度按照如下公式計算其中,R(DffIi, Qi)表示查詢本體Qi與查詢接口對象DWIi的相關度,m為查詢接口 中的對象個數。本體是一種具有更多語義和結構信息的複雜模型,上述步驟B中的本體庫可以使 用現有的公用本體庫;也可以通過採集現有的公用本體庫,並對這些本體庫進行擴充,得到 新的本體庫;而本發明採用後者。這類本體學習的主要任務就是分析關係模型中蘊涵的語義信息,並將其映射到本 體中的相應部分。其次,查詢接口和數據源結果頁面通常包含豐富的信息如概念、實例以及 領域有關的概念之間的關係,查詢接口以HTML表單格式出現,在無法獲得資料庫模式的情 況下,可以通過分析HTML表單的結構和數據來獲取Web資料庫中的語義,從而構建本體。根
據以上分析,可以通過以下各步驟構建本發明的本體庫步驟Bi、通過現有本體庫分析HTML表單模式結構來獲取查詢接口的語義,構建相 應本體庫中的類;步驟B2、從查詢接口和結果頁面抽取概念和實例,提取現有本體庫中類的層次關 系和函數關係;步驟B3、從某個主題的多個數據源中提取上述步驟B2中得到的本體類之間關係, 然後推理映射不同的關係,最後合併成一個更高層的領域本體;針對每個本體庫中的每個 類,構建與該類對應的關鍵詞集合,組成本體庫的詞彙層。為了進一步提高數據源選擇的準確性,減少信息冗餘,降低查詢代價;本發明又在 上述技術方案的基礎上引入了數據源質量得分的概念,通過數據源的質量得分來度量數據 源的質量,選擇質量得分較高的若干數據源而放棄其他質量較低的數據源,從而大大降低 信息冗餘,提高了查詢的準確性。具體而言,就是在上述步驟C之後繼續執行以下各步驟步驟D、建立數據源質量評估模型並利用該數據源質量評估模型計算步驟C中得 到的各數據源的質量得分;步驟E、根據質量得分並按照一定的方法選擇若干高質量數據源,得到最終的數據 源集。上述步驟E中所述根據質量得分並按照一定的方法選擇若干高質量數據源可以 是選擇質量得分大於一個預先設定的閾值的數據源;也可以採用Top-k數據選擇方法,即 按照質量得分將數據源從大到小排序,選擇前k個數據源,k為預先設定的最終選擇的數據 源的個數。本發明方法首先基於查詢接口語義特徵並結合本體庫,選擇與用戶查詢相關度較 大的深層網數據源;接著通過數據源的質量得分來度量數據源的質量,選擇質量得分較高 的若干數據源而放棄其他質量較低的數據源,最終得到與客戶查詢相關度大且質量較高的 數據源。相比現有技術,本發明方法能夠提高深層網頁查詢的準確度,同時降低信息冗餘, 提高查詢效率。


圖1是本發明具體實施方式
的深層網頁查詢接口示例圖;圖2是本發明方法的流程圖;圖3是本體庫結構示例具體實施例方式下面結合附圖對本發明的技術方案進行詳細說明如附圖2所示,本發明按照以下各步驟進行深層網數據源的選擇步驟A、對查詢接口進行解析;如附圖1所示,一個查詢接口包含一些表單控制項讓用戶輸入查詢信息,如文本框 (Textbox),單選按鈕(Radio Button),複選框(Check box)和下拉列表(Selection List) 等控制項。每個控制項通常都關聯一個標籤——一個描述文本,每個控制項可以有一個或多個值 (value),例如一個下拉列表有一列值供用戶選擇,單選按鈕和複選框通常有一個值。邏輯上講,一個控制項和它關聯的標籤構成了一個屬性(attribute),對應了深層網頁(De印Web) 後臺資料庫中的一個欄位。通常,一個屬性包含一個標籤,一個或多個表單控制項。通過對當 前Deep Web查詢接口頁面進行解析,得到相應各屬性內容的標籤、表單控制,再把它們按照 語義關係組成一個個屬性(查詢條件的一個邏輯單位)。我們可以抽象地將查詢接口本體 實例DWI表示為DWI = (S,P,Μ)。其中S反映了接口實例功能等的特定信息,它包含接 口實例的名字(表單標籤名)和該接口站點的URL等基本信息。P= {ρι,ρ2,…,ρη}為接 口實例所對應的本體實例模板,M為接口實例所提供的方法。建立了 DWI實例後,用戶就可 以提供一個面向本體實例的查詢來檢索其所需要的信息。Deep Web數據源接口集可以抽象為假定某領域內De印Web數據源接口集為DWS ={Sn,Si2,…,SJ,每個數據源接口 Sii都對應一個出現在查詢接口上的實例Ri組成的數 據源本體模板,本體模板中的所有實例的聯合為數據源接口集DWS。所謂實例就是指定查詢 接口上一個元素對應的標籤名、內部屬性名、一個或多個修飾語及其值域,它是查詢接口上 最小的語義單位。步驟B、構建本體庫並通過本體庫把相應查詢信息轉化為本體信息;其中構建本 體庫按照以下各步驟執行步驟Bi、通過現有本體庫分析HTML表單模式結構來獲取查詢接口的語義,構建相 應本體庫中的類;步驟B2、從查詢接口和結果頁面抽取概念和實例,提取現有本體庫中類的層次關 系和函數關係;步驟B3、從某個主題的多個數據源中提取上述步驟B2中得到的本體類之間關係, 然後推理映射不同的關係,最後合併成一個更高層的領域本體;針對每個本體庫中的每個 類,構建與該類對應的關鍵詞集合,組成本體庫的詞彙層;本發明方法將相應查詢信息抽象表示為一種查詢模型De印Web表示由一系列查 詢接口屬性組成的關係表DB =Aq= Iaq1, aq2,…,aqj (接口模式)和一系列查詢結果屬性 組成Ar= Iaivar2,,arm}(結果模式)。其中,每個屬性e A表示通過查詢接口得到 的查詢屬性,而結果屬性arj e A表示查詢結果中的屬性。每個查詢操作可以用類似SQL語 句來表不「Select ar1 ar2,,arm from DB WHERE aql = val q1 aq2 = valq2,·..,aqn = valqn」,這裡val Qi表示查詢表單中填充的屬性值。對於查詢信息通過本體庫進行查詢擴展得到一系列的查詢接口集。本體結構如附 圖3所示,圖中所示為以一個交通工具(Vehicle)為核心概念的本體庫結構圖的一部分。該 本體庫結構包括一系列對現實事物的抽象。例如,「VehiCle」、「Car」「TruCk」等這些概念構 成本體庫中的類(class),圖中還包括了類與類之間關係如「driver」和「price」等,該本體 庫還包含各類相應的實體,如BWM,F512M等。通過本體庫的擴展,可以將一個概念擴展成一 系列本體層中的概念集。如對於概念「Vehicle」,它所對應的概念還包含「Car」和「Truck」 等概念。步驟C、計算本體信息與各數據源的相關度,根據相關度選擇滿足預先設定的條件 的數據源;對於給定目標查詢接口對象DWIi和查詢本體Qi,相關度按照如下公式計算Yj(DWIiXQi) R(DWIliQi) =其中,R(DffIi, Qi)表示查詢本體Qi與查詢接口對象DWIi的相關度,m為查詢接口 中的對象個數。步驟D、建立數據源質量評估模型並利用該數據源質量評估模型計算步驟C中得 到的各數據源的質量得分;通過分析可知,影響評估De印Web數據源質量的主要因素有瀏覽器、Web數據 庫、用戶以及網絡性能,本具體實施方式
把這四類因素作為一級質量因子;每個一級質量因 子又包含若干二級質量因子,例如,作為一級質量因子,Web資料庫包括域完整性、一致性、 冗餘性、數據源大小等若干二級質量因子,這樣,就可以得到一個包括兩級質量因子的質量 因子集,並據此得到數據源質量評估模型如下 其中,Qs e W,100],表示第s個數據源的質量得分;Wn表示質量因子集中第η個
一級質量因子的權重,η = 1,2…K,K為質量因子集中一級質量因子的個數,Σ#"=1; %
為第η個一級質量因子中第j個二級質量因子的權重,Qnj為使用第η個一級質量因子中第 j個二級質量因子評估第s個數據源的質量得分,j = 1,2…L,L為質量因子集中第η個一上述數據源質量評估模型為現有技術,更詳細內容可參考文獻(鮮學豐,方巍 等.一種De印Web數據源質量評估模型.微電子學與計算機,2008,Vol 25(10) =47-50.) 0步驟Ε、根據質量得分並按照一定的方法選擇若干高質量數據源,得到最終的數據 源集。本具體實施方式
在本步驟中採用Top-k的數據選擇方法,即按照質量得分將數據 源從大到小排序,選擇前k個數據源,k為預先設定的最終選擇的數據源的個數。
級質量因子中所包含二級質量因子的個數,二1;
權利要求
一種用於深層網數據集成的數據源選擇方法,其特徵在於,包括以下步驟步驟A、對查詢接口進行解析;步驟B、構建本體庫並通過本體庫把相應查詢信息轉化為本體信息;步驟C、計算本體信息與各數據源的相關度,根據相關度選擇滿足預先設定的條件的數據源;對於給定目標查詢接口對象DWIi和查詢本體Qi,相關度按照如下公式計算 R ( DWIi , Qi )= i=1 m ( DWIi Qi ) i = 1m ( DWIi )2 i = 1m Q i2 , 其中,R(DWIi,Qi)表示查詢本體Qi與查詢接口對象DWIi的相關度,m為查詢接口中的對象個數。
2.如權利要求1所述用於深層網數據集成的數據源選擇方法,其特徵在於,所述構建 本體庫具體按照以下步驟步驟Bi、通過現有本體庫分析HTML表單模式結構來獲取查詢接口的語義,構建相應本 體庫中的類;步驟B2、從查詢接口和結果頁面抽取概念和實例,提取現有本體庫中類的層次關係和 函數關係;步驟B3、從某個主題的多個數據源中提取上述步驟B2中得到的本體類之間關係,然後 推理映射不同的關係,最後合併成一個更高層的領域本體;針對每個本體庫中的每個類,構 建與該類對應的關鍵詞集合,組成本體庫的詞彙層。
3.如權利要求1所述用於深層網數據集成的數據源選擇方法,其特徵在於,步驟C之後 還包括步驟D、建立數據源質量評估模型並利用該數據源質量評估模型計算步驟C中得到的 各數據源的質量得分;步驟E、根據質量得分並按照一定的方法選擇若干高質量數據源,得到最終的數據源集。
4.如權利要求3所述用於深層網數據集成的數據源選擇方法,其特徵在於,步驟E中所 述根據質量得分並按照一定的方法選擇若干高質量數據源是指按照質量得分將數據源從 大到小排序,選擇前k個數據源;k為預先設定的最終選擇的數據源的個數。Yj(DWIiXQi)
全文摘要
本發明公開了一種用於深層網數據集成的數據源選擇方法。本發明方法首先基於查詢接口語義特徵並結合本體庫,選擇與用戶查詢相關度較大的深層網數據源;接著通過數據源的質量評估模型對數據源的質量進行評估,最後根據質量評估情況質量較高的數據源,最終得到與客戶查詢相關度大且質量較高的數據源集。相比現有技術,本發明方法能夠提高深層網頁查詢的準確度,同時降低信息冗餘,提高查詢效率。
文檔編號G06F17/30GK101916272SQ20101025012
公開日2010年12月15日 申請日期2010年8月10日 優先權日2010年8月10日
發明者文學誌, 方巍, 畢碩本 申請人:南京信息工程大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀