新四季網

一種網頁表格數據抽取的方法

2023-05-02 08:41:11


專利名稱::一種網頁表格數據抽取的方法一種網頁表格數據抽取的方法
技術領域:
:本發明涉及網絡網頁
技術領域:
,尤其涉及一種網頁表格數據抽取的方法。
背景技術:
:隨著網頁技術的不斷發展,網頁顯示效果和包含的信息量日趨複雜,網頁結構及內容也實時更新。而要想從網頁中獲取指定的表格數據,需要人工在大量冗長的網頁原始碼中查找表格所在的位置、標籤及屬性等,才能定位到表格對應的源碼,從而獲取表格數據。這樣不僅需要巨大的工作量,造成時間和精力的浪費,同時在繁雜的網頁代碼中查找也容易出錯,更無法滿足數據實時性的需求。W3C是英文WorldWideWebConsortium的縮寫,中文意思是W3C理事會或全球資訊網聯盟。W3C組織是對網絡標準制定的一個非贏利組織,像HTML、XHTML、CSS、XML的標準就是由W3C來定製。現有技術中提供了一種信息抽取中基於DOM樹的過濾器方法,其出自「中國學術期刊網絡出版總庫」,公開日期為2009/9/15,來源中國過濾器網,其描述的是頁面預處理的一種方法,將HTML解析成D0M,利用DOM樹的特性,不僅可以從大的邏輯單元抽取信息,還可以對更小的單元進行操作,以完成信息抽取工作中頁面預處理,從而大大提高信息抽取的效率和準確率。該方法還提供了三種過濾器,每個過濾器都是可以由用戶設置的,以完成不同程度的過濾,並以恰當的順序選擇和疊加各個過濾器,形成最佳預處理組合。該方法目標不是提取細粒度的數據,而是過濾掉網頁中凌亂多餘的信息,如廣告,無關連結等,即完成網頁中頁面的預處理。
發明內容本發明要解決的技術問題,在於提供一種網頁表格數據抽取的方法,實現從實時變化的網頁中準確快速抽取與原網頁顯示效果相同的表格,獲取指定行/列數據。本發明是這樣實現的一種網頁表格數據抽取的方法,其特徵在於包括如下步驟步驟10、讀取網頁源碼,根據字符編碼將其網頁源碼解析成W3C的Document對象,獲取所述網頁表格中的任意兩個關鍵詞;步驟20、深度優先遍歷Document對象中所有節點,分別獲取第一關鍵詞所屬的第一節點,第二關鍵詞所屬的第二節點;步驟30、獲取第一節點、第二節點具有唯一屬性的共同父節點,並利用唯一屬性獲取網頁表格定位條件;步驟40、利用所述網頁表格定位條件,遍歷Document對象,查找符合所述定位條件的節點,從而定位表格位置,記錄各個單元格數據的正確位置以及字號大小、字體顏色屬性,抽取與原網頁顯示效果相同的表格,並根據所述定位表格位置中的表格行/列值篩選得到要抽取的網頁表格指定的行/列數據。進一步的,所述步驟20中深度優先遍歷Document對象中所有節點,分別獲取第一關鍵詞所屬的第一節點,第二關鍵詞所屬的第二節點,具體為步驟21、獲取Document對象的根節點root,並記為node;步驟22、遍歷所述node的每一個子節點childNode,判斷childNode是否為葉節點;是則獲取childNode的值,並轉入步驟23,否則遍歷查找childNode的每一個子節點,遍歷完成後仍無關鍵詞節點,則返回node的父節點,繼續查找所述node的剩餘子節點;步驟23、判斷childNode是否包含關鍵詞,是則返回childNode,記為關鍵詞所屬的節點;否則繼續查找判斷childNode的兄弟節點。進一步的,所述步驟30獲取第一節點、第二節點具有唯一屬性的共同父節點,並利用唯一屬性獲取網頁表格定位條件,具體為步驟31、分別獲取第一節點node1、第二節點node2的父節點parentNode1、parentNode2,判斷是否相同;相同則返回parentNode,不同則繼續將parentNode1、parentNode2作為參數代入,遞歸查找,直至獲取距離nodel、node2最近的共同父節點parentNode;步驟32、獲取所述parentNode的唯一屬性,並利用唯一屬性獲取網頁表格定位條件具體為獲取parentNode的所有標籤屬性,並判斷是否存在唯一屬性,若存在唯一屬性,則利用該屬性得到網頁表格定位條件,即定位條件為格式為「tablel^ath=parentNode標籤名[唯一屬性名=對應屬性值]」,進入步驟40;若不存在唯一屬性,則獲取parentNode的父節點targetNode並查找其唯一屬性即用遞歸查找直至找到存在唯一屬性的父節點targetNode或者到達Document根節點為止;同時記錄查找過程的路徑標籤及parentNode在其父節點targetNode中的相對位置,用以拼接/修改得到網頁表格定位條件,即定位條件為格式為"tabIePath=targetNode標籤名[唯一屬性名=對應屬性值]/路徑標籤1[相對位置1]/路徑標籤2[相對位置2]/...,,或「tabIePath=Document根節點/路徑標籤1[相對位置1]/路徑標籤2[相對位2]/...ο本發明具有如下優點本發明僅需網頁原始碼、欲抽取表格中的任意兩個關鍵詞以及需要的表格行/列值,即可從實時變化的網頁中抽取與原網頁顯示效果相同的表格,並通過篩選獲得表格指定行/列數據,而不再需要手動從網頁源碼中通過查找表格位置、標籤屬性等方式來定位表格、獲取數據。本發明不僅簡化了網頁表格的抽取方式,提高了數據抽取的靈活性,滿足了數據實時性的需求,同時也提高了表格數據抽取的準確率。圖1為本發明方法流程示意圖。具體實施方式參照圖1所示,本發明的一種網頁表格數據抽取的方法,包括如下步驟步驟10、讀取網頁源碼,根據字符編碼將其網頁源碼解析成W3C的Document對象,獲取所述網頁表格中的任意兩個關鍵詞;步驟20、深度優先遍歷Document對象中所有節點,分別獲取第一關鍵詞所屬的第一節點,第二關鍵詞所屬的第二節點;其中具體為步驟21、獲取Document對象的根節點root,並記為node;步驟22、遍歷所述node的每一個子節點childNode,判斷childNode是否為葉節點;是則獲取childNode的值,並轉入步驟23,否則遍歷查找childNode的每一個子節點,遍歷完成後仍無關鍵詞節點,則返回node的父節點,繼續查找所述node的剩餘子節點;步驟23、判斷childNode是否包含關鍵詞,是則返回childNode,記為關鍵詞所屬的節點;否則繼續查找判斷childNode的兄弟節點。步驟30、獲取第一節點、第二節點具有唯一屬性的共同父節點,並利用唯一屬性獲取網頁表格定位條件;其具體為步驟31、分別獲取第一節點node1、第二節點node2的父節點parentNode1、parentNode2,判斷是否相同;相同則返回parentNode,不同則繼續將parentNode1、parentNode2作為參數代入,遞歸查找,直至獲取距離nodel、node2最近的共同父節點parentNode;步驟32、獲取所述parentNode的唯一屬性,並利用唯一屬性獲取網頁表格定位條件具體為獲取parentNode的所有標籤屬性,並判斷是否存在唯一屬性,若存在唯一屬性,則利用該屬性得到網頁表格定位條件,即定位條件為格式為「tablel^ath=parentNode標籤名(即parentNode所有標籤屬性中有唯一屬性的標籤)[唯一屬性名=對應屬性值]」,進入步驟40;若不存在唯一屬性,則獲取parentNode的父節點targetNode並查找其唯一屬性即用遞歸查找直至找到存在唯一屬性的父節點targetNode或者到達Document根節點為止;同時記錄查找過程的路徑標籤及parentNode在其父節點targetNode中的相對位置,用以拼接/修改得到網頁表格定位條件,即定位條件為格式為"tabIePath=targetNode標籤名[唯一屬性名=對應屬性值]/路徑標籤1[相對位置1]/路徑標籤2[相對位置2]/...,,或「tabIePath=Document根節點/路徑標籤1[相對位置1]/路徑標籤2[相對位2]/...ο步驟40、利用所述網頁表格定位條件,遍歷Document對象,查找符合所述定位條件的節點,從而定位表格位置,記錄各個單元格數據的正確位置以及字號大小、字體顏色屬性,抽取與原網頁顯示效果相同的表格,並根據所述定位表格位置中的表格行/列值篩選得到要抽取的網頁表格指定的行/列數據。下面結合具體實施例對獲取第一節點、第二節點具有唯一屬性的共同父節點,並利用唯一屬性獲取網頁表格定位條件作進一步的說明。例如網頁原始碼為權利要求1.一種網頁表格數據抽取的方法,其特徵在於包括如下步驟步驟10、讀取網頁源碼,根據字符編碼將其網頁源碼解析成W3C的Document對象,獲取所述網頁表格中的任意兩個關鍵詞;步驟20、深度優先遍歷Document對象中所有節點,分別獲取第一關鍵詞所屬的第一節點,第二關鍵詞所屬的第二節點;步驟30、獲取第一節點、第二節點具有唯一屬性的共同父節點,並利用唯一屬性獲取網頁表格定位條件;步驟40、利用所述網頁表格定位條件,遍歷Document對象,查找符合所述定位條件的節點,從而定位表格位置,記錄各個單元格數據的正確位置以及字號大小、字體顏色屬性,抽取與原網頁顯示效果相同的表格,並根據所述定位表格位置中的表格行/列值篩選得到要抽取的網頁表格指定的行/列數據。2.根據權利要求1所述的一種網頁表格數據抽取的方法,其特徵在於所述步驟20中深度優先遍歷Document對象中所有節點,分別獲取第一關鍵詞所屬的第一節點,第二關鍵詞所屬的第二節點,具體為步驟21、獲取Document對象的根節點root,並記為node;步驟22、遍歷所述node的每一個子節點childNode,判斷childNode是否為葉節點;是則獲取childNode的值,並轉入步驟23,否則遍歷查找childNode的每一個子節點,遍歷完成後仍無關鍵詞節點,則返回node的父節點,繼續查找所述node的剩餘子節點;步驟23、判斷childNode是否包含關鍵詞,是則返回childNode,記為關鍵詞所屬的節點;否則繼續查找判斷childNode的兄弟節點。3.根據權利要求2所述的一種網頁表格數據抽取的方法,其特徵在於所述步驟30獲取第一節點、第二節點具有唯一屬性的共同父節點,並利用唯一屬性獲取網頁表格定位條件,具體為步驟31、分別獲取第一節點nodel、第二節點node2的父節點parentNodel、parentNode2,判斷是否相同;相同則返回parentNode,不同則繼續將parentNodel、parentNodd作為參數代入,遞歸查找,直至獲取距離nodel、n0de2最近的共同父節點parentNode;步驟32、獲取所述parentNode的唯一屬性,並利用唯一屬性獲取網頁表格定位條件具體為獲取parentNode的所有標籤屬性,並判斷是否存在唯一屬性,若存在唯一屬性,則利用該屬性得到網頁表格定位條件,即定位條件為格式為「tablel^ath=parentNode標籤名[唯一屬性名=對應屬性值]」,進入步驟40;若不存在唯一屬性,則獲取parentNode的父節點targetNode並查找其唯一屬性即用遞歸查找直至找到存在唯一屬性的父節點targetNode或者到達Document根節點為止;同時記錄查找過程的路徑標籤及parentNode在其父節點targetNode中的相對位置,用以拼接/修改得到網頁表格定位條件,即定位條件為格式為"tabIePath=targetNode標籤名[唯一屬性名=對應屬性值]/路徑標籤1[相對位置1]/路徑標籤2[相對位置2]/...,,或"tabIePath=Document根節點/路徑標籤1[相對位置1]/路徑標籤2[相對位置2J>>ο全文摘要本發明提供一種網頁表格數據抽取的方法,包括步驟10、讀取網頁源碼,根據字符編碼將其解析成W3C的Document對象,獲取所述網頁表格中的任意兩個關鍵詞;步驟20、深度優先遍歷Document對象中所有節點,分別獲取兩關鍵詞所屬的兩個節點;步驟30、獲取兩節點具有唯一屬性的共同父節點,並利用唯一屬性獲取網頁表格定位條件;步驟40、利用網頁表格數據定位條件,過濾網頁原始碼,抽取和網頁顯示效果相同的網頁表格。本發明根據欲抽取網頁表格中的任意兩個關鍵詞以及需要的表格行/列值,即可從實時變化的網頁中準確快速抽取與原網頁顯示效果相同的表格,獲取指定行/列數據,提高數據抽取的靈活性和準確率。文檔編號G06F17/30GK102254009SQ20111020045公開日2011年11月23日申請日期2011年7月15日優先權日2011年7月15日發明者楊凡,林珊,黃建雄申請人:福建星網銳捷通訊股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀