新四季網

一種表格定位的數據挖掘方法

2023-05-23 20:26:21


專利名稱::一種表格定位的數據挖掘方法
技術領域:
:本發明屬於計算機科學
技術領域:
,具體涉及一種表格定位的數據挖掘方法,其特別適用於搜尋引擎中對網頁信息進行深入的分析與處理。二
背景技術:
:作為一種傳統的計算機科學技術,數據挖掘方法廣泛運用在計算機網際網路,商業金融等社會的方方面面。近年來,以網際網路數據挖掘為代表的搜索技術發展迅速,由於需求廣泛,商業模式豐富,逐漸形成了影響深遠的搜索經濟。在這樣的背景下,人們開始越加關注全球各大搜尋引擎的性能、技術和曰流量。作為企業,會根據搜尋引擎的知名度以及日流量來選擇是否要投放廣告等;作為普通網民,會根據搜尋引擎的性能和技術來選擇自己喜歡的搜尋引擎査找資料;作為學者,會把有代表性的搜尋引擎作為研究對象。目前搜索技術最關注的重要性能之一是查準率。顧名思義,査準率表述的是搜索的準確性,即搜索出來的結果與用戶所需要的信息是否吻合。現有主流的搜尋引擎都是運用關鍵字匹配的全文索引技術。在此技術中,搜尋引擎將整個網頁的內容視為一個字符集合。當用戶需要檢索信息的時候,用戶輸入和信息相關的關鍵字,搜尋引擎査找在網頁字符集合中是否含有此關鍵字,如果有,則將整個網頁的內容返回給用戶。這種方法的缺點是在關鍵字匹配的全文索引技術中,用戶只能通過關鍵字來檢索所需信息,由於關鍵字的信息量有限,搜尋引擎本身無法準確地知道用戶的搜索需求,從而無法準確返回用戶需要的信息。另一方面由於全文索引技術的局限,搜尋引擎無法通過搜索到的全文信息提煉出文中真正有價值的關鍵數據,也無法知道這些數據的實際含義。目前以全文索引技術為基礎的搜尋引擎以增加相關的方式來提高用戶搜索的準確性需求,用戶通過搜索關鍵字相關的關鍵字和網頁信息來一步步縮小自己的搜索範圍,從而最終找到自己需要的數據。然而這種方式往往需要用戶具備相當的行業知識和鑑別能力,從而嚴重影響了搜尋引擎的用戶體驗度。三
發明內容本發明的目的是為了克服現有搜索技術査準率較低的現狀,通過表格定位的方式將用戶真正關心和需要的數據提取出來並加以整理,從而最大程度的提升搜尋引擎的用戶體驗度。本發明所屬的一種表格定位的數據挖掘方法,其特徵是該方法包括以下步驟1)為數據源建立格式化模型;2)根據數據源格式化模型定位數據表格;3)根據數據表格單元的內容提取數據。在上述步驟l)中為數據源建立格式化模型,包括以下步驟11)將數據源定義為一系列具有編號的數據表格;12)數據表格編號對應表格在數據源中的位置;13)將數據表格分解為一系列由表格單元含義到表格單元值的映射。在步驟13)中映射的形式是行列表或是〈含義,值〉的組合。在上述步驟2)中定位數據表格包括根據數據表格編號匹配待挖掘表格。在上述步驟3中)中提取數據的步驟包括31)根據表格單元具體含義和位置匹配待挖掘數據;32)將匹配到的數據值存放到事先定義好的資料庫表格或結構化數據結構中。本發明提出一種新穎的基於表格定位的數據挖掘方法。和傳統的全文索引技術有本質的不同,本發明的核心思想是為數據源(如網際網路頁)建立格式化模型,即將數據源視為由一系列表格構成,表格之間可以相互嵌套或並列存在。在進行數據挖掘的過程中,首先根據數據源格式化模型定位到用戶關心的數據表格,然後根據表格單元的具體含義和位置將其對應的值提取出來,最後將提取出來的數據存放到相應的關係資料庫表中以便用戶查詢。與傳統的全文索引技術不同,上述的數據挖掘技術依託數據源格式化模型,精確的提取了用戶所關心的數據,沒有全文索引過程所帶來的檢索誤差和信息冗餘,從而可以引導用戶直接獲取自己需要的數據。四圖1是數據源格式化的模型;圖2是數據表格的位置(編號)關係示意圖3是表格單元的含義和位置(行列號)對應關係表;其中圖3—1是傳統的行列表,圖3—2是〈含義,值〉的組合對應關係表。圖4是基於表格定位的網絡搜尋引擎工作流程圖;圖5是網頁數據流結構示意圖。五具體實施例方式如圖1所示,本發明的第一步為數據源格式化模型的建立。由於數據通常是以異構形式存在的,即相同含義的數據在不同的數據源中通常以不同的形式表現出來。在數據源格式化模型的建立過程中,模型配置人員針對數據源的特點,如數據表格的具體位置,表格單元的具體含義和位置進行人工指定並輸入到數據源格式化模型中。如圖2所示,本發明的第二步為根據數據源格式化模型定位數據表格。一旦確立了數據源格式化模型,就可以根據數據源格式化模型中的數據源配置來定位數據表格的具體位置了。數據源格式化模型產生的數據源配置將數據源視為由一系列數據表格構成,數據表格之間可以相互嵌套或並列存在(圖2)。在定位過程中,只要得到數據表格的編號,就可以確定數據表格的具體位置了。舉個例子,編號為1的數據表格為該數據源的第一張數據表格,編號為1.1的數據表格為該數據源的第一張數據表格內的第一張數據表格,以此類推。如圖3所示,本發明的第三步為根據表格單元含義和位置提取數據。一旦確定了數據表格的位置,就可以根據數據源配置中相應數據表格的表格單元含義和位置來提取具體數據了。數據源配置將數據表格分解為一系列的由表格單元含義到表格單元值的映射,映射的形式可以是傳統的行列表(圖3—1),也可以是<含義,值〉的組合(圖3—2)。在數據提取過程中,只要得到表格單元的含義和位置,就可以將其對應的值存放到事先定義好的關係資料庫表格或結構化數據結構中了。舉個例子,第一行第一列的單元含義為公司僱員姓名,那麼,對應傳統行列表方式(圖3—1),第一列從第二行開始為具體的公司僱員的姓名值;對應<含義,值〉的組合方式(圖3—2),第一行第二列為具體的公司僱員的姓名值。圖4所示的流程圖中,以網絡搜尋引擎為例說明了根據數據源配置進行表格定位和數據提取的步驟。搜尋引擎首先得到數據源位置信息比如網站URL(401);檢査當前網頁參數看搜尋引擎是否能夠處理此網頁(402);如果能夠處理,搜尋引擎就獲取當前網頁的數據流(403);如果不能處理或者該網站的所有網頁都已經處理完畢,搜尋引擎就更換到下一數據源(413);在獲取網頁數據流之後,首先檢査當前數據表格配置是否有效比如編號不能越界等等(404);如果當前數據表格配置無效或者該網頁的所有數據表格配置都已經處理完畢,搜尋引擎就更換到下一網頁(412);如果當前數據表格配置有效,搜尋引擎就開始進一步做數據挖掘,如圖5所示,首先將網頁數據流中的當前表格號遞加(根據HTML編碼,網頁表格以〈,table〉開始,以〈/table〉結束,在一對〈table〉〈/table〉中的內容視為擁有同一表格號)(405);將得到的表格號和數據源配置中的數據表格號比較(406);如果不符合,搜尋引擎就繼續對網頁數據流中的當前表格號遞加(405);如果符合,搜尋引擎就繼續進一步做數據挖掘,如圖5所示,首先將表格中的當前行列號遞加(根據HTML編碼,網頁行以〈tr〉開始,以〈/tr〉結束,在一對〈tr〉〈/tr〉中的內容視為擁有同一行號,網頁列以〈td〉開始,以〈/td〉結束,在一對〈tdX/td〉中的內容視為擁有同一列號)(407);將得到的行列號和數據源配置中的表格單元位置比較(408);如果不符合,搜尋引擎就繼續對表格中的當前行列號遞加(407);如果符合,搜尋引擎就做數據提取,即將行列號所對應的表格單元含義以及值存放到事先定義好的關係資料庫表格或結構化數據結構中(409);在傳統的行列表模式中,有時還要對行列號進行(臨時)步進,以得到後繼表格單元值(410);搜尋引擎接下來判斷表格是否結束(411);如果沒有結束,搜尋引擎就繼續對表格中的當前行列號遞加(407);如果結束,搜尋引擎就更換到下一數據表格配置(414)。搜尋引擎可以運用該技術對網頁信息進行深入的分析與處理,將其中有用的格式化信息提取出來,並整理到關係資料庫表或結構化數據結構中。搜尋引擎對於這些數據的實際含義非常清楚,從而可以引導用戶直接獲取自己需要的數據,而不需要通過相關查詢間接獲取數據,極大地減少了用戶搜索的時間,提高了數據的利用價值。利用本發明的搜尋引擎能夠精確提取用戶所關心的數據,從而在很大的程度上提升了搜尋引擎的用戶體驗度。權利要求1、一種表格定位的數據挖掘方法,其特徵是該方法包括以下步驟1)為數據源建立格式化模型;2)根據數據源格式化模型定位數據表格;3)根據數據表格單元的內容提取數據。2、權利要求1所述的表格定位的數據挖掘方法,其特徵是上述步驟l)中為數據源建立格式化模型,包括以下步驟11)將數據源定義為一系列具有編號的數據表格;12)數據表格編號對應表格在數據源中的位置;13)將數據表格分解為一系列由表格單元含義到表格單元值的映射。3、權利要求2所述的表格定位的數據挖掘方法,其特徵是步驟13)中映射的形式是行列表或是〈含義,值〉的組合。4、權利要求1或2所述的表格定位的數據挖掘方法,其特徵是上述步驟2)中定位數據表格包括根據數據表格編號匹配待挖掘表格。5、權利要求4所述的表格定位的數據挖掘方法,其特徵是上述步驟3中)中提取數據的步驟包括31)根據表格單元具體含義和位置匹配待挖掘數據;32)將匹配到的數據值存放到事先定義好的資料庫表格或結構化數據結構全文摘要本發明公開了一種表格定位的數據挖掘方法,屬計算機科學
技術領域:
。該方法的步驟是首先為數據源建立格式化模型,再根據數據源格式化模型定位數據表格,最後根據數據表格單元的內容提取數據。搜尋引擎可以運用該技術對網頁信息進行深入的分析與處理,將其中有用的格式化信息提取出來,並整理到關係資料庫表或結構化數據結構中,從而可以引導用戶直接獲取自己需要的數據,而不需要通過相關查詢間接獲取數據,極大地減少了用戶搜索的時間,提高了數據的利用價值。利用本發明的搜尋引擎能夠精確提取用戶所關心的數據,從而在很大的程度上提升了搜尋引擎的用戶體驗度。文檔編號G06F17/30GK101105797SQ20071002614公開日2008年1月16日申請日期2007年8月21日優先權日2007年8月21日發明者鋮丁,波肖申請人:南京新愷拓網絡技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀