基於wdb特徵和用戶查詢請求的web資料庫選擇方法

2023-05-18 10:56:46 7

專利名稱：：基於wdb特徵和用戶查詢請求的web資料庫選擇方法
技術領域：
：本發明涉及一種計算機應用技術或Web數據管理及DeepWeb等研究領域，具體地說是一種基於WDB特徵和用戶查詢請求的WEB資料庫選擇方法。
背景技術：
：隨著Web資料庫的廣泛應用，Web正在加速地「深化」。DeepWeb中蘊藏了更加豐富、「專業」(專注於某一領域)的信息，其數據量也在成倍增長。因此，實現對De印Web中信息的檢索和利用已成為當前資料庫領域研究的熱點之一。為了使用戶能夠有效地利用DeepWeb中的海量信息，研究者們展開了對De印Web數據集成的研究，即建立一個De印Web數據集成系統。該系統可以為用戶提供一個集成查詢接口，並把各個Web資料庫返回的結果合併到一個統一的模式下。至今，在該研究領域已經取得了若干成果，比如查詢接口集成、Web資料庫的分類、Web數據的抽取等。由於De印Web的規模巨大，使得DeepWeb數據集成系統中會集成上百甚至上千個Web資料庫，極大地超過了傳統數據集成系統中數據源的數量。同時，由於對Web資料庫的訪問只能通過其提供的查詢接口，如果對數據集成系統中的所有Web資料庫進行逐個檢索，不僅會產生很多無效的檢索，降低系統的效率，同時也可能會返回大量重複數據，為後期的數據處理增加了複雜度。例如針對用戶的某個查詢請求(1)有些Web資料庫並不滿足該查詢，無須對其查詢；(2)有些Web資料庫之間存在著較大的冗餘，只需選擇其中1個或幾個查詢。因此，為了提高系統的工作效率，需要針對用戶的查詢請求選擇合適的資料庫進行查詢，即選擇滿足如下條件的Web資料庫進行查詢(1)與用戶查詢請求相關。為滿足該條件，可以借鑑傳統搜尋引擎的做法，生成Web資料庫的特徵。由於用戶查詢是基於Web資料庫提供的查詢接口進行的，因此該特徵庫的建立需要結合查詢接口的相關特徵。獲取Web資料庫特徵後，通過構造基於用戶查詢請求與Web資料庫特徵的相關度算法計算當前查詢請求與Web資料庫的相關度；(2)返回的有效數據儘可能多。為滿足該條件，最好的方案是針對每一個Web資料庫和用戶的每個查詢請求，都能得到一個反映資料庫可能返回的數據量大小的數據，以便獲取各Web資料庫針對本次查詢返回的數據量對比；與此相對應，理想情況下，需要在Web資料庫的特徵中添加能夠反映針對每個查詢請求可能返回的數據量(或數據百分比)的特徵；(3)選擇的各資料庫之間的冗餘儘可能小。為滿足該條件，需要能夠基於Web資料庫的特徵建立同類資料庫之間冗餘度矩陣。綜合以上分析，需要建立一個基於Web資料庫查詢接口的Web資料庫特徵表示機制；並且基於該特徵，可以方便地計算當前用戶查詢請求與該資料庫之間的相關度、可能返回的數據量以及針對當前請求的不同資料庫之間的冗餘度。然而，要獲取Web資料庫的特徵，必然要基於該資料庫的真實數據或提取一定的數據樣本，Web存在大量的數據源，信息冗餘問題非常嚴重，如何解決信息冗餘、做好記錄去重成為信息集成成敗的關鍵。若可以通過較少的數據源，找到領域全集，則可以有效減輕信息冗餘問題的困擾。選擇一個好的數據源選擇算法顯得尤為重要，過去十年間，已經出現了很多數據源選擇算法，包括GLOSS、gGlOSS/vGLOSS.CORI等。其中CORI算法中，數據源的特徵表示包括term及其對應的詞頻。同時Ipeirotis等提出了基於主題分類的數據源選擇算法，該方法將所有的待選數據源依照已有的主題層次進行分類，相同分類主題的數據源所對應的近似內容摘要描述通常很相似，但是同一個術語很可能在一個數據源中是低頻術語，而在另一個數據源中是高頻的。因此，可以使用具有相同分類主題的數據源的近似內容摘要來互相補充，獲得術語的覆蓋度更好的近似內容摘要描述。以上工作為web資料庫的選擇奠定了基礎，通過應用合適的數據源選擇算法找到冗餘度低的數據源。但是近年來，用戶個性化研究是信息檢索領域的熱點問題，同樣資料庫提供的信息應儘可能滿足用戶的需求，且不同的數據類型有不同的特徵表示與抽取方法。Web資料庫查詢接口一般是用HTML表示的網頁表單，其中包含Web資料庫查詢接口的重要屬性信息。一般來說，常用的查詢接口輸入形式一般有如下兩類(1)用戶直接在表單輸入框中輸入關鍵字或日期、數字等值，如Text，TextArea；(2)用戶在下拉列表中選擇一個值，如Select、Checkbox、Radiobutton。同時，用戶通過網頁表單提交的數據類型一般可歸納為文本、數字和日期三種類型。綜合以上兩種情況，將WDB查詢接口提交的數據類型分為文本型數據、數值型數據、日期型數據和分類型數據。由於日期型數據和數值型數據都具有連續性特點，因此統一歸併為數值數據；其它離散型數據按分類屬性處理。
發明內容本發明給出了一種針對Web資料庫查詢接口中各種數據類型的、較全面的WDB特徵表示與抽取方法，並基於該特徵，給出了結合用戶查詢請求的相似度、返回數據量及冗餘度計算方法，並最終提出一種基於WDB特徵和用戶查詢的數據源選擇方法。本發明的目的是按以下方式實現的，包括1)WDB查詢接口特徵抽取方法；2)基於WDB特徵的WDB和用戶查詢的相關度計算；3)滿足用戶查詢的數據量估計；4)基於WDB特徵的冗餘度估計；5)基於WDB特徵和用戶查詢的數據源的選擇方法，具體步驟如下步驟如下1)基於詞頻的文本型屬性的特徵表示方法在各種Web資料庫查詢接口中，包含文本屬性的輸入欄位佔有絕對多數，比如圖書搜索中的書名、出版社名稱、作者，職位搜索中的職位名稱、公司名稱、職位說明等。這些屬性不僅是文本屬性，而且由於Web資料庫多數都是關係資料庫，其中描述的內容多為各種實體，因此這種資料庫中的文本屬性與普通文檔相比，具有自己的特點(I)Web資料庫中的文本具有極強的領域相關性，且多為各種實體的名稱、屬性等，與普通語料庫中的文檔具有的一般性、普適性相比，更具有自身的領域的特點；(2)Web資料庫中的文本多以自然語言中的實體(Entity)為主，大多不屬於中文普通詞彙的範疇。比如，圖書資料庫中的「軟體工程」一詞，雖然「軟體」和「工程」是兩個普通中文詞彙，但他們在語料庫中統計出來的詞頻遠遠低於計算機類型圖書資料庫中的詞頻。因此，借鑑中文文本分類中的文檔特徵表示方法，給出Web資料庫文本特徵的表示方法，如(17)式所示。formulaseeoriginaldocumentpage8其中，Attrtrart表示一個文本屬性，tfjl^i^n)表示第i個詞的詞頻，η為針對文本屬性的所有文本分詞並去掉停用詞後的關鍵詞個數。2)基於正態分布的數值型屬性的特徵表示方法在Web資料庫的查詢接口中，數值型屬性雖然不多，但也有一定的數量，比如圖書搜索的價格、人才網站中的招聘人數等。鑑於數值屬性具有的連續性特點，且正態分布具有強大的普適性，採用正態分布的期望和偏差表示數值屬性的特徵，若查詢接口中的某屬性對應WDB中的一個欄位是數值屬性，則可通過其樣本數據獲取其均值μ和方差O，進而得到數值屬性的特徵表示如下Attrdata=Ν(μ，σ2)(18)3)基於統計的分類型屬性的特徵表示方法對於分類屬性，採用根據查詢接口屬性的分類統計樣本中同類屬性的記錄數與總記錄數的比值來表示，如(19)式所示。,樣本中屬於同類別的記錄個數dass=樣本記朵總數4)Web資料庫特徵的形式化表示方法基於以上三類屬性的表示方法，Web資料庫特徵的形式化表示方法如(20)式所示，即一個Web資料庫的特徵Character·是一個特徵向量，該向量的每個分量為這個資料庫的查詢接口的η個屬性所對應的WDB欄位的特徵。Characterwoi3=(20)5)基於WDB特徵的WDB與用戶查詢的相關度計算首先確定WDB與用戶查詢的相關度，其中，Web資料庫與用戶查詢的相關度是指當前用戶查詢請求與當前Web資料庫的相互關聯的程度，其取值是0到1之間的值。其值越大，說明當前查詢請求與當前資料庫越相關。對於用戶通過Web查詢接口發出的查詢請求，給出如(21)式的形式化表示request=(Attr1=key」Attr2=key2,...,Attrn=keyj(21)其中，Attri代表查詢接口上的某個屬性，key,代表針對當前屬性的查詢關鍵字，keyi可能是文本、數字或用戶選擇的某個類別。針對以上給出的三類屬性，分別給出相關度計算的方法。1.文本屬性的相關度計算若當前用戶對Attri屬性所輸入的關鍵字keyi屬於文本屬性，則首先按照樣本資料庫的分詞方法對keyi進行分詞，然後按照(22)式計算該文本屬性的相關度。rela<^'^sJz^ords)(22)J其中，relatext表示當前文本屬性關鍵字與Web資料庫對應欄位的相關度；'f—表示對keyi分詞後所得到的某個詞的詞頻；sumfellwords)表示對樣本數據中當前欄位所有記錄分詞後的所有詞的詞頻。2.數值屬性的相關度計算若當前用戶對Attri屬性所輸入的關鍵字keyi屬於數值屬性，由於(18)式中已經得到當前屬性的正態分布，則只需將當前數值keyi作為參數代入正態分布函數中，即可獲取當前數值keyi相對該正態分布的概率，將該概率定義為數值屬性與Web資料庫的相關度，如(23)式所示。formulaseeoriginaldocumentpage93.分類屬性的相關度計算由於分類屬性在執行查詢時是按照嚴格相等的方式執行的，因此定義分類屬性的相關度等價於該屬性的特徵，如(24)式所示。relaclass=Attrclass(24)綜上，給出當前查詢請求與Web資料庫的相關度定義，如(25)式所示。formulaseeoriginaldocumentpage9relaKequest=^i^relaam.(其中=1)(25)其中，αi表示第i個查詢接口屬性的權值，表示第i個屬性與Web資料庫的相關度。6)滿足用戶查詢的數據量估計理想情況下，如果當前查詢請求只有一個查詢條件，且能夠得到Web資料庫的大小size·以及當前查詢請求所能夠返回數據的百分比Percentatte，則可以很容易得到該查詢可能返回的數據量(如26式中的第一個等式所示)。Web資料庫大小的估計已有相關的研究工作，對於返回數據的百分比，以當前查詢請求與Web資料庫特徵的相關度作為其近似值，其原因是對數據量估計的目的僅用於對各數據源進行排序。formulaseeoriginaldocumentpage9一般情況下，當用戶輸入多個查詢條件時，多個查詢條件之間一般是and的關係。但如果以and連接查詢返回的數據量較少時，多數資料庫將減弱查詢條件以返回更多數據。因此，不失一般性，定義滿足用戶查詢的數據量為所有查詢條件中，返回數據最多的單個查詢條件所返回的數據量，如(27)式所示。Sizerequest=^^WDBx^^{perCentattr.)(27)=sizeWDBx^x(simattr,)7)基於WDB特徵的冗餘度估計針對用戶查詢的Web資料庫之間的冗餘度是指當前用戶請求提交後，兩個資料庫返回的重複數據的數量或百分比。例如，某個查詢針對WDB1返回的查詢結果中包含Ii1條數據，針對WDB2返回的結果中包含H2條數據，如果其中包含的重複數據個數為H12，則nl2為兩個資料庫之間的冗餘度，或表示為formulaseeoriginaldocumentpage9從(28)式看，redundantTOB的值越大，說明當前資料庫的冗餘度越大，其利用價值越低。而要獲得兩個資料庫之間的冗餘度，就要獲取當前Web資料庫滿足當前查詢的數據量以及兩個資料庫返回的重複數據的個數。滿足當前查詢的數據量已在前文說明，而重複數據的數量雖然可以針對真實資料庫或樣本數據進行預查詢，分別統計返回的數據個數與重複數據個數，但這麼做顯然工作量太大。比如要判斷3個資料庫之間的冗餘度，每個資料庫返回的數據個數平均500個，則要完全判斷兩兩資料庫之間的重複數據個數至少要比對3次，每次比對500*500條數據，最壞情況下需比對500*500*3次；而在查詢更多資料庫、返回更多數據時，將消耗更多的計算機時間。因此，採用基於WDB特徵的整體重複度近似表示其數據的冗餘度。1.文本屬性的冗餘度計算對於文本屬性，採用Web資料庫相同屬性中相同關鍵詞的詞頻總和與該屬性所有關鍵詞的詞頻總和的比值來表示，如(29)式所示。redundanttext(WDBl，WDB2)=∑sameKeys/∑WDB1,text(29)(29)式中，redundanttext(WDBijWDB2)表示WDB1相對WDB2在相同文本屬性上的冗餘度；sameKeys是指WDB1和WDB2兩個資料庫中同一文本屬性中的相同關鍵字；WDBJext是WDB1資料庫中，當前文本屬性的所有關鍵字；tfi是指關鍵字i的詞頻。2.數值屬性的冗餘度計算在Web資料庫的特徵表示中，數值型數據被表示成一個正態分布。假設兩個WDB的數值屬性所對應的正態分布分別是Ν(μαJ和Ν(μ2，σ2)，且樣本空間中的最小值和最大值分別是mini、maXl、min2和Hiax2，兩個正態分布的交叉部分的值為X，則定義兩個數值屬性的冗餘度為兩個正態分布的重疊部分所佔整體的比例，即min2和maxl之間部分所佔各自屬性的比例。由於正態分布通過變量替換可以變成標準正態分布，因此直接給出(30)式所示的數值屬性的冗餘度計算公式。兩個數值屬性的正態分布如圖1所示。redundantdma(WDBhWDB2)刑，廣)-屍I(^i)(30)+F2(x-u2/o2)-F2(min2-u2/o2)3.分類屬性的冗餘度計算基於WDB的特徵表示分類屬性的冗餘度，以兩個資料庫中當前分類屬性中相同類別的個數與當前資料庫中的分類總數的比值表示，即redundantclass(WDBl,WDB2)=countofrecordsinsameclass/countofallrecordsinallClassValues(31)綜上，給出基於Web資料庫特徵的冗餘度計算公式redundant{WDBx,WDB2)=∑redundantattri(其中^約=丄)(β2)其中，redundant(WDB1,WDB2)表示WDB1相對WDB2的冗餘度；βj表示第i個查詢接口屬性的權值，—r康示第i個屬性的冗餘度度。8)基於WDB特徵和用戶查詢的數據源選擇方法在獲取查詢相關度、返回的數據量以及冗餘度三項數據的基礎上，給出基於Web資料庫特徵和用戶查詢的數據源選擇方法(1)根據獲取的Web資料庫的樣本數據，獲取Web資料庫的特徵，並表示成(20)式的形式；(2)根據用戶輸入的查詢請求，結合Web資料庫的特徵，計算該請求與所有Web資料庫的相關度sInirequesl-；(3)根據相關Simraiuest對所有資料庫進行排序，並選擇TOPK個資料庫作為備選查詢資料庫，這裡記為ChoicedDB1；(4)估計針對當前選擇的備選資料庫執行查詢後的返回結果sizere_st，並去除返回數據量小於N的資料庫，並將剩餘的資料庫記為ChoicedDB2；(5)對ChoicedDB2中的資料庫，基於其特徵計算兩兩之間的冗餘度，並刪除其中冗餘度值大於R的資料庫。至此，剩下的資料庫為針對當前用戶查詢請求的數據源。本發明的優異效果是從理論分析和實踐證明，基於以上過程，最終選擇的資料庫是與當前查詢請求相關、相互之間的冗餘儘可能低且每個查詢返回的數據量都比較多的資料庫。在Web數據集成領域中，能夠很好地減少檢索的目標資料庫的數量，同時並不減少返回的數據量，因此，能夠在保證Web數據集成系統返回的數據質量的同時，大大提高系統運行的效率，實現以更小的代價返回更多的數據。圖1是兩個數值屬性的正態分布圖。具體實施例方式針對以上描述過程，針對現有網絡進行了實際測試和驗證，具體步驟如下1.數據準備利用Watir工具按行業屬性(分類屬性)從網際網路上抓取了全國性人才招聘網站智聯招聘(www.zhilian.com)、前程無憂(www.51job.com)以及地方性招聘網站大眾人才網(www.dazhonghr.com)、齊魯人才網(www.qlrc.com)等4個網站的包含職位信息(職位名稱、招聘人數、工作地區)的樣本數據各5000餘條(2009年12月份採集)，作為方法驗證的測試數據。為陳述方便，下文以ZL、QC,DZ和QL四組符號分別代表四個網站。2.抽取Web資料庫特徵首先針對各網站的文本數據(職位名稱)、數值數據(公司規模)和分類數據(工作地區)提取其特徵，其結果如表1所示，由於關鍵詞和工作地區較多，只列出數量較多的前5個。從中基本可以看出各網站的主要職位分布、公司規模和工作地區分布。各網站的數據量估計方法採用基於分類屬性的估計方法，因為在人才資料庫中，一個職位很少會屬於兩個以上行業。另外，基於以上特徵，獲得各網站兩兩之間的冗餘度矩陣如表2所示。該表中，第i行、第j列的數據表示第i個資料庫相對第j個資料庫的冗餘度向量，每個分量分別表示文本、數值和分類屬性的冗餘度。從表2可以看出，各資料庫的職位重複較大，結合表1可知職位在分布上的差別；在公司規模上，結合表1容易發現智聯的大公司較多、前程無憂與齊魯人才的中等公司較多、而大眾的公司分布較廣，各庫之間的重複度中等；而在地區分布上，智聯和前程的重複度較大、大眾和齊魯的重複度較大。3.基於用戶查詢的資料庫選擇獲取各資料庫特徵後，設計了表3所示的4個查詢，分別針對本地的樣本數據和實際資料庫進行查詢，並從4個資料庫中選擇2個最優資料庫，以對比本發明方法對數據源的選擇結果與人工查詢實際資料庫的選擇結果是否一致。這四個查詢條件中，基本覆蓋了三類數據屬性，且查詢3和查詢4分別側重全國性招聘和地方性(山東)招聘。同時，「參數設置」欄對不同α取值情況進行了驗證，尤其針對查詢3和查詢4，各取2組α值進行測試；由於資料庫冗餘度計算中，並未考慮查詢請求，因此對參數β的取值僅取一組值進行驗證。根據以上查詢條件，分別計算該查詢條件與各網站之間的相似度、返回的數據量與冗餘度，其計算和執行結果如表4和表5所示。通過實驗結果可以看出，本發明提出的數據源選擇方法基本符合實際需求。雖然表5中個別數據(第四行)存在不一致，但通過計算得到的結果可以發現，綜合指標比較中，QC比DZ具有微弱的優勢排名靠前，這也是精確定量比較與人工定性比較的差別，但總體來看，結果基本滿足要求。從表5中也可以看出，參數α的不同取值對數據源選擇結果的影響，例如針對查詢3和查詢4的選擇結果。其原因從(9)式可以明顯看出，不同、取值查詢相似度計算結果的影響；同樣可以進一步驗證參數β對數據源選擇的作用。表1各網站的特徵抽取結果職位名稱公司規模丄作地區~~(有限公司』5883)，(銷售，2067)，(經~(深圳，247),(濟南，269),(廣州,理，1974)，(北京，1922),(科技，1212)』333)，(上海，樹1),(北京』21恥)(軟體，7240)，(工程師，6554),(有限公η力(上海，1863)，(北京，1300)，(深圳，司，6306),(科技,2697)，(上海，1709)，799)，(廣州，493),(杭州，355)(有限公司，5162),(濟南，1929)，(山(、(濟南，4032)，(濱州，308),(青島，東，1632),(經理，1121)，(科技，1016)U』270),(泰安，211)，(東營』147)(有限公司，4923),(濟南，1469)，(科(32)(濟南，2124)，(青島，647),(山東，技，1233),(山東，968),(經理，803)_『551)，(煙臺，450),(濰坊，375)表2各網站之間的冗餘度分量矩陣tableseeoriginaldocumentpage12表3實驗所用查詢條件tableseeoriginaldocumentpage13表4WDB與用戶查詢的相似度tableseeoriginaldocumentpage13表5實驗結果tableseeoriginaldocumentpage13權利要求基於WDB特徵和用戶查詢請求的WEB資料庫選擇方法，其特徵在於，包括1)WDB查詢接口特徵抽取方法；2)基於WDB特徵的WDB和用戶查詢的相關度計算；3)滿足用戶查詢的數據量估計；4)基於WDB特徵的冗餘度估計；5)基於WDB特徵和用戶查詢的數據源的選擇方法，具體步驟如下1)WDB查詢接口特徵表示和抽取方法將WDB查詢接口提交的數據類型分為文本型數據、數值型數據、日期型數據和分類型數據，其中由於日期型數據和數值型數據都具有連續性特點，因此統一歸併為數值數據；其它離散型數據按分類屬性處理。(1)基於詞頻的文本型屬性的特徵表示在各種Web資料庫查詢接口中，包含文本屬性的輸入欄位佔有絕對多數，包括圖書搜索中的書名、出版社名稱、作者，職位搜索中的職位名稱、公司名稱、職位說明，這些屬性不僅是文本屬性，而且由於Web資料庫多數都是關係資料庫，其中描述的內容多為各種實體，因此這種資料庫中的文本屬性具有以下特點①Web資料庫中的文本具有極強的領域相關性，且多為各種實體的名稱、屬性，具有自身的領域的特點；②Web資料庫中的文本多以自然語言中的實體Entity為主，大多不屬於中文普通詞彙的範疇，但他們在語料庫中統計出來的詞頻遠遠低於計算機類型圖書資料庫中的詞頻；因此，借鑑中文文本分類中的文檔特徵表示方法，給出Web資料庫文本特徵的表示方法，如以下公式所示Attrtext＝(1)其中，Attrtext表示一個文本屬性，tfi(1≤i≤n)表示第i個詞的詞頻，n為針對文本屬性的所有文本分詞並去掉停用詞後的關鍵詞個數；(2)基於正態分布的數值型屬性的特徵表示在Web資料庫的查詢接口中，數值型屬性雖然不多，但也有一定的數量，包括圖書搜索的價格、人才網站中的招聘人數，鑑於數值屬性具有的連續性特點，且正態分布具有強大的普適性，採用正態分布的期望和偏差表示數值屬性的特徵，即查詢接口中的某屬性對應WDB中的一個欄位是數值屬性，則通過其樣本數據獲取其均值μ和方差σ，進而得到數值屬性的特徵表示，(2)式如下Attrdata＝N(μ，σ2)(2)(3)基於統計的分類型屬性的特徵表示對於分類屬性，採用根據查詢接口屬性的分類統計樣本中同類屬性的記錄數與總記錄數的比值來表示，如以下公式所示(4)Web資料庫特徵的形式化表示基於以上三類屬性的表示方法，即一個Web資料庫的特徵CharacterWDB是一個特徵向量，該向量的每個分量為這個資料庫的查詢接口的n個屬性所對應的WDB欄位的特徵，Web資料庫特徵的形式化表示方法，如以下公式所示CharacterWDB＝(4)2)基於WDB特徵的WDB和用戶查詢的相關度計算首先確定WDB與用戶查詢的相關度，Web資料庫與用戶查詢的相關度是指當前用戶查詢請求與當前Web資料庫的相互關聯的程度，其取值是0到1之間的值，其值越大，說明當前查詢請求與當前資料庫越相關；對於用戶通過Web查詢接口發出的查詢請求，如以下公式所示request＝{Attr1＝key1，Attr2＝key2，...，Attrn＝keyn}(5)其中，Attri代表查詢接口上的某個屬性，keyi代表針對當前屬性的查詢關鍵字，1≤i≤n。keyi是文本、數字或用戶選擇的某個類別，針對以上給出的三類屬性，分別給出相關度計算的方法；其中(1)文本屬性的相關度計算若當前用戶對Attri屬性所輸入的關鍵字keyi屬於文本屬性，則首先按照樣本資料庫的分詞方法對keyi進行分詞，然後按照公式(6)計算該文本屬性的相關度；relatext=jtfwordjsum(allwords)---(6)其中，relatext表示當前文本屬性關鍵字與Web資料庫對應欄位的相關度；表示對keyi分詞後所得到的某個詞的詞頻；sum(allwords)表示對樣本數據中當前欄位所有記錄分詞後的所有詞的詞頻；(2)數值屬性的相關度計算當前用戶對Attri屬性所輸入的關鍵字keyi屬於數值屬性，由於公式(2)中已經得到當前屬性的正態分布，則只需將當前數值keyi作為參數代入正態分布函數中，即獲取當前數值keyi相對該正態分布的概率，將該概率定義為數值屬性與Web資料庫的相關度，如以下公式所示；simdata=f(keyi;,)=12exp-(keyi-)222---(7)(3)分類屬性的相關度計算由於分類屬性在執行查詢時是按照嚴格相等的方式執行的，因此定義分類屬性的相關度等價於該屬性的特徵，如以下公式所示；relaclass＝Attrclass(8)綜上，給出當前查詢請求與Web資料庫的相關度定義，如以下公式所示；relarequest=i=1nirelaattri(其中)(9)其中，αi表示第i個查詢接口屬性的權值，表示第i個屬性與Web資料庫的相關度；3)滿足用戶查詢的數據量估計理想情況下，當前查詢請求只有一個查詢條件，且能夠得到Web資料庫的大小sizeWDB以及當前查詢請求所能夠返回數據的百分比percentattr，則得到該查詢可能返回的數據量，如10式中的第一個等式所示，web資料庫大小的估計已有相關的研究工作，對於返回數據的百分比，以當前查詢請求與Web資料庫特徵的相關度作為其近似值，其原因是對數據量估計的目的僅用於對各數據源進行排序；如(10)式所示；sizeattr＝sizeWDB×percentattr(10)＝sizeWDB×simattr一般情況下，當用戶輸入多個查詢條件時，多個查詢條件之間一般是and的關係，但以and連接查詢返回的數據量較少時，多數資料庫將減弱查詢條件以返回更多數據，因此，不失一般性，定義滿足用戶查詢的數據量為所有查詢條件中，返回數據最多的單個查詢條件所返回的數據量，如以下公式所示；sizerequest=sizeWDBmaxi(percentattri)(11)=sizeWDBmaxi(simattri)4)基於WDB特徵的冗餘度估計針對用戶查詢的Web資料庫之間的冗餘度是指當前用戶請求提交後，兩個資料庫返回的重複數據的數量或百分比，某個查詢針對WDB1返回的查詢結果中包含n1條數據，針對WDB2返回的結果中包含n2條數據，其中包含的重複數據個數為n12，則n12為兩個資料庫之間的冗餘度，由以下公式表示為redundantWDB1=n12/n1100%(12)redundantWDB2=n12/n2100%通過以上公式看出，redundantWDB的值越大，說明當前資料庫的冗餘度越大，其利用價值越低，而要獲得兩個資料庫之間的冗餘度，就要獲取當前Web資料庫滿足當前查詢的數據量以及兩個資料庫返回的重複數據的個數，滿足當前查詢的數據量已在前文說明，而重複數據的數量雖然針對真實資料庫或樣本數據進行預查詢，分別統計返回的數據個數與重複數據個數，但這麼做顯然工作量太大，而在查詢更多資料庫、返回更多數據時，將消耗更多的計算機時間，因此，採用基於WDB特徵的整體重複度近似表示其數據的冗餘度；計算公式如下(1)文本屬性的冗餘度計算對於文本屬性，採用Web資料庫相同屬性中相同關鍵詞的詞頻總和與該屬性所有關鍵詞的詞頻總和的比值來表示，如以下公式所示；redundanttext(WDB1,WDB2)=i{sameKdys}tfij{WDB1,text}tfj---(13)公(29)式中，redundantext(WDB1，WDB2)表示WDB1相對WDB2在相同文本屬性上的冗餘度；sameKeys是指WDB1和WDB2兩個資料庫中同一文本屬性中的相同關鍵字；WDB1.text是WDB1資料庫中，當前文本屬性的所有關鍵字；tfi是指關鍵字i的詞頻。(2)數值屬性的冗餘度計算在Web資料庫的特徵表示中，數值型數據被表示成一個正態分布，兩個WDB的數值屬性所對應的正態分布分別是N(μ1，σ1)和N(μ2，σ2)，且樣本空間中的最小值和最大值分別是min1、max1、min2和max2，兩個正態分布的交叉部分的值為x，則定義兩個數值屬性的冗餘度為兩個正態分布的重疊部分所佔整體的比例，即min2和max1之間部分所佔各自屬性的比例，由於正態分布通過變量替換變成標準正態分布，因此直接給出數值屬性的冗餘度計算公式；如以下公式所示；redundantdata(WDB1,WDB2)=F1(max1-11)-F1(x-11)(14)+F2(x-22)-F2(min2-22)(3)分類屬性的冗餘度計算基於WDB的特徵表示分類屬性的冗餘度，以兩個資料庫中當前分類屬性中相同類別的個數與當前資料庫中的分類總數的比值表示，如以下公式所示；redundantclass(WDB1,WDB2)=countofrecordsinsameClasscountofallrecordsinallClassValues---(15)綜上，給出基於Web資料庫特徵的冗餘度計算公式如(16)式所示；redundant(WDB1,WDB2)=iiredundantattri(其中)(16)其中，redundant(WDB1，WDB2)表示WDB1相對WDB2的冗餘度；βi表示第i個查詢接口屬性的權值，表示第i個屬性的冗餘度度；5)基於WDB特徵和用戶查詢的數據源選擇方法在獲取查詢相關度、返回的數據量以及冗餘度三項數據的基礎上，給出基於Web資料庫特徵和用戶查詢的數據源選擇方法如下(1)根據獲取的Web資料庫的樣本數據，獲取Web資料庫的特徵，並表示成公式(4)的形式；(2)根據用戶輸入的查詢請求，結合Web資料庫的特徵，計算該請求與所有Web資料庫的相關度simrequest；(3)根據相關simrequest對所有資料庫進行排序，並選擇TOPK個資料庫作為備選查詢資料庫，這裡記為ChoicedDB1；(4)估計針對當前選擇的備選資料庫執行查詢後的返回結果婦sizerequest，並去除返回數據量小於N的資料庫，並將剩餘的資料庫記為ChoicedDB2；(5)對ChoicedDB2中的資料庫，基於其特徵計算兩兩之間的冗餘度，並刪除其中冗餘度值大於R的資料庫。至此，剩下的資料庫為針對當前用戶查詢請求的數據源。FSA00000038299800011.tif,FSA00000038299800022.tif,FSA00000038299800025.tif,FSA00000038299800026.tif,FSA00000038299800045.tif,FSA00000038299800046.tif全文摘要本發明提供一種基於WDB特徵和用戶查詢請求的WEB資料庫選擇方法，包括1)WDB查詢接口特徵抽取方法；2)基於WDB特徵的WDB和用戶查詢的相關度計算；3)滿足用戶查詢的數據量估計；4)基於WDB特徵的冗餘度估計；5)基於WDB特徵和用戶查詢的數據源的選擇方法，通過上述方法實現了DeepWeb領域中的數據集成和提供一個高效的數據檢索策略所要解決的首要問題。面對眾多的Web資料庫，選擇最恰當的資料庫進行查詢，實現以更小的代價返回更多的數據是本發明的目的，針對此目的提出基於Web資料庫獨立樣本的Web資料庫特徵表示和抽取方法，結合綜合考慮查詢相關度、返回數據量和數據冗餘度三個要素的數據源選擇方法，實現基於WDB特徵和用戶查詢請求的WEB資料庫選擇，較好地滿足集成系統的需求。文檔編號G06F17/30GK101814085SQ20101010598公開日2010年8月25日申請日期2010年2月4日優先權日2010年2月4日發明者林培光申請人:林培光

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於wdb特徵和用戶查詢請求的web資料庫選擇方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法