一種基於網頁主體特徵和中介真值的網頁主體提取方法
2023-05-14 09:22:01
一種基於網頁主體特徵和中介真值的網頁主體提取方法
【專利摘要】本發明基於網頁主體特徵和中介真值的網頁主體識別和提取方法是一種Web信息抽取過程中進行主體識別的解決方案。主要用於解決主體識別存在的通用性不強、準確度有待提高的問題,屬於Web信息處理領域。本發明的特徵:通過考察網頁結點樹中每個結點的子樹數、平均子樹分支數、可顯示字符數和子樹分支數極差等屬性,從多角度判別每個結點是主體結點的真值程度,再綜合各個角度的評判結果識別出網頁的主體結點,從而具有較高的網頁主體識別準確度;而且本發明能夠針對每個網頁自動設定中介真值程度計算所需要各個屬性的界值,多角度判別和自動設定界值一起使本發明通用性強,適用於各種類型網頁的主體識別和提取。
【專利說明】 一種基於網頁主體特徵和中介真值的網頁主體提取方法
【技術領域】
[0001]本發明涉及網際網路信息處理領域,特別涉及一種基於網頁主體特徵和中介真值的網頁主體提取方法。
【背景技術】
[0002]從內容上來說,一個網頁一般是由導航信息、網頁正文、廣告信息、版權資訊、相關連結等部分組成的。所謂網頁主體提取,就是將網頁的正文信息從網頁中分離出來。而網頁中除去正文信息以外的內容,本發明將其稱為噪音內容。如何屏蔽噪音信息,將網頁中的正文內容提取出來,對網頁分類、Web信息抽取等技術具有重要的意義。
[0003]國內外的學者在此領域已經有大量的研究工作,分類方法也各有不同,目前主流的有以下幾類研究方法。
[0004](I)基於模板的網頁主體提取方法
基於模板的網頁主體提取方法依賴於HTML內部結構特徵。它設定Web的同類網頁中有著相似的結構特徵或者相似的Dom樹(Document Object Model)結構。可以通過制定模板獲取同類網頁的正文內容,網頁中的主體數據可通過分裝器(wrapper)程序來進行抽取。分裝器可以根據網頁的布局特徵,制定模板,編寫分析器,解析出正文在網頁中的位置,即它根據特定的信息模式從信息源中抽取出需要匹配的內容,並以某些形式展示出來。
[0005]該方法的重點和難點是如何確定和維護模板,以及如何生成分裝器。分裝器的生成和維護都是費時費力的。目前研究人員仍在研究如何高效地構建分裝器。目前較為流行的有TSIMMIs系統中的分裝器,Ontology系統中的分裝器,XffRA系統中的分裝器等。
[0006](2)基於視覺特徵的網頁主體提取方法
基於視覺特徵的網頁主體提取方法充分利用了網頁中字體的大小、背景的顏色、空白區域等視覺特徵,將一個網頁分割成多個不同的視覺信息塊,進而實現信息抽取。微軟亞洲研究院提出的基於視覺的Web網頁切割算法(Visual Based Page Segment Algorithm)就是使用該方法實現的。
[0007]網際網路用戶通常根據Web網頁的布局特徵感知Web正文區的內容,基於視覺的提取算法的主要思想就是模擬網際網路用戶的判斷過程進行主體抽取。該算法的流程大致分為三步:首先根據視覺信息和HTML原始碼將網頁分割為多個網頁塊;然後將中間塊分割為更多的小的網頁塊;其次對網頁塊與網頁塊之間的分隔條賦予權值;最後根據分隔條的權重進行網頁合併,並將合併結束後的數據塊提取出來,得到網頁主體數據。
[0008](3)基於語義信息的網頁主體提取方法
所謂語義信息是指除了網頁中的視覺信息之外的所有信息,包括HTML的標籤信息,網頁的文字信息,HTML的結構信息等。該類方法又可以分為如下三種:1)基於去除HTML標籤的方法,該方法主要思想是先去除HTML標籤,再根據去除HTML標籤後的文字密度判斷出正文區域,最後將所有的正文區域合併,獲得網頁主體內容;2)基於字符序列統計的方法,該方法先將網頁生成一個Dom樹,然後統計每個TABLE結點中包含的中文字符的數量,將包含字符數量最多的作為包含正文信息的結點;3)基於Table結點的方法,Table標籤經常被用來完成網頁的布局,該方法就是利用這一特點,從Table標籤下提取正文內容,例如,中科院計算所軟體研究室提出的TVPS算法(Table and Vision based PageSegmentation)就利用了 TABLE標籤和視覺特徵來對網頁進行語義塊劃分。
[0009]以上方法雖然各有優點,但是隨著Internet的不斷發展,Web網頁變得越來越複雜,它們的不足也顯現出來。方法(I)對基於同一個模板的網頁集有很好的效果,然而網際網路上有不計其數的網頁模板,因此該方法不夠通用。方法(2)雖然可以完成一定的信息抽取任務,然而由於視覺特徵具有複雜而又不確定的特性,往往需要人工不斷地修改調整抽取規則,使用起來很難保證規則集的一致性。而方法(3)中基於去除HTML標籤的方法很難將無關的噪音全部過濾掉,也就是說,無法準確地提取出我們所需要的主體信息,基於字符序列統計的方法要求網頁中所有的正文信息都必須放在同一個Table標籤中,但實際上網頁結構複雜的多,有很多網頁甚至沒有Table標籤。TVPS算法中所設計的分塊方法只對最底層的TABLE標籤加以考慮,而現實中無論是網頁的樣式結構還是TABLE標籤的嵌套關係都是很複雜的,網頁正文信息全部存在於最底層TABLE標籤中的可能性很小。
[0010]由此可見,目前還沒有一種方法能適用於所有網頁的主體提取,且已有網頁主體提取方法準確性有待提高。為了進一步提高網頁主體提取的準確性和通用性,本發明將中介真值程度度量(MMTD)應用於網頁主體塊的識別和提取中,提出了基於網頁主體特徵和中介真值程度度量(MMTD)的網頁主體提取方法,本方法不僅大大提高了提取的準確率,並且具有更高的通用性。
【發明內容】
[0011]本發明目的在於提供一種Web網頁主體提取方法以及實現流程,用於解決網頁主體提取存在的準確性和通用性有待進一步提高的問題。
[0012]本發明解決其技術問題所採用的技術方案是:本發明是一種策略性方法,可以用於Web網頁主體的識別和提取,也可根據本發明方法開發基於網頁主體提取的Web信息抽取系統。網頁主體提取的目標是將一個網頁中所有周邊內容都去掉,只留下網頁中表達主題的主體部分。本發明首先將Web網頁進行預處理,包括網頁整理和網頁去噪,即將不規則的HTML標籤規範化和去除網頁中極易判別的與其所要表達主題無關的一些噪聲內容;然後基於網頁主體特徵和中介真值程度度量(MMTD)度量進行網頁主體的識別和提取。本發明的目標是有效解決已有網頁主體提取方法準確度不夠高且通用性不夠強的問題,提出一種適用於多種風格和類型網頁的主體識別,且具有較高準確度的網頁主體識別和提取方法。
[0013]本發明中使用如下概念和計算公式:
(I)子樹:以一個結點某個孩子結點為根的樹稱為該結點的子樹。
[0014](2)子樹數:一個結點所擁有的子樹的數目。
[0015](3)分支數:一個結點以自己為根的樹中所有結點的數目減一。
[0016](4)平均子樹分支數:一個結點的各子樹分支數的平均值,即一個結點各子樹的分支數之和除以該結點的子樹數。
[0017](5)可顯示字符數:一個結點以自己為根的樹中的所有結點中可以顯示到網頁上的字符的數目。[0018](6)子樹分支數極差:一個結點的所有子樹的最大與最小分支數之差。
[0019]本發明將一個結點的子樹數、分支數、平均子樹分支數、可顯示字符數、子樹分支數極差稱為這個結點的屬性。基於對多種風格和類型的HTML網頁主體的各屬性的特徵分析,本發明提出基於網頁主體特徵和中介真值程度度量(MMTD)的網頁主體識別和提取方法,在經預處理過濾出來的所有結點中選出包含全部主體信息且包含最少噪音的結點,此結點的內容即為網頁的主體內容,主要包括網頁整理、網頁去噪、生成結點樹、計算網頁結點數和各結點的屬性、確定適用於本網頁計算結點真值所需的各個屬性的界值、計算網頁每個結點是網頁主體結點的真值程度、將真值最高結點作為主體結點並提取其包含的結點和內容並存為XML文檔等過程,如圖1所示。
[0020]方法流程:
本發明提供一種基於網頁主體特徵和中介真值的網頁主體提取方法,包括如下步驟:步驟I)網頁整理,即將不規則的HTML標籤規範化;整理的內容包括添加結束標籤,合理配對嵌套,以使其完全符合HTML的語法規則;
步驟2)網頁去噪,即將確信無疑是噪聲的內容去掉;所謂網頁噪聲,指的是網頁中與本網頁主題表達無關的那部分內容;網頁去噪包括:只輸出body部分,不輸出font標籤,不輸出屬性,不輸出源碼中每行前的空格;刪除腳本類標籤和注釋類標籤以及其間的內容,刪除空標籤以及select、input等標籤以及其間的內容,刪除img標籤;對於一個標籤的刪除,需考慮兩種情況,一個是此標籤有配對結束標籤的情況,另一個是此標籤沒有單獨結束標籤的情況,對於有結束標籤的,要將兩個配對標籤以及其間的內容全部去掉,對於沒有結束標籤的,要將在此標籤中的全部內容去掉;
步驟3)利用HTMLParser解析經過步驟I)和步驟2)預處理後的網頁的HTML源碼,生成分層次的結點樹,之後的處理都針對預處理後的網頁結點樹;
步驟4)計算網頁的結點數並記為M,計算每個結點的4個屬性:子樹數、平均子樹分支數、可顯示字符數和子樹分支數極差;
步驟5)對4個屬性分別確定計算中介真值程度需要的界值;對所有結點的4個屬性分別排序,子樹數、平均子樹分支數和可顯示字符數三個屬性均按照從小到大的順序進行排序,子樹分支數極差按照從大到小的順序進行排序,得到四個有序排列的序列;各個屬性排在50%M (取整)位置上的屬性值作為相應屬性的第一個界點的值,70%M (取整)位置上的屬性值作為相應屬性的第二個界值,80%M (取整)位置上的屬性值作為相應屬性的第三個界值,90%M (取整)位置上的屬性值作為相應屬性的第四個界值,四個界值分別用a1、a2、a3、a4表示;對每個屬性分別確定其四個界值,4個屬性有4組界值;
步驟6) 對每個結點按照式(I)和式(2)計算「本結點是網頁主體結點」的真值程度;設結點i的四個屬性y1=(yn.yd.yfi.yi4),其中第4個屬性為子樹分支數極差,結點i是網頁主體結點的真值程度
hn-T 為:
【權利要求】
1.一種基於網頁主體特徵和中介真值的網頁主體提取方法,其特徵在於,包含如下步驟: 步驟I)網頁整理,即將不規則的HTML標籤規範化;整理的內容包括添加結束標籤,合理配對嵌套,以使其完全符合HTML的語法規則; 步驟2)網頁去噪,即將確信無疑是噪聲的內容去掉,包括:只輸出body部分,不輸出font標籤,不輸出屬性,不輸出源碼中每行前的空格;刪除腳本類標籤和注釋類標籤以及其間的內容,刪除空標籤以及selectUnput等標籤以及其間的內容,刪除img標籤;對於一個標籤的刪除,需考慮兩種情況,一個是此標籤有配對結束標籤的情況,另一個是此標籤沒有單獨結束標籤的情況,對於有結束標籤的,要將兩個配對標籤以及其間的內容全部去掉,對於沒有結束標籤的,要將在此標籤中的全部內容去掉; 步驟3)利用HTMLParser解析經過步驟I)和步驟2)預處理後的網頁的HTML源碼,生成分層次的結點樹,之後的處理都針對預處理後的網頁結點樹; 步驟4)計算網頁的結點數並記為M,計算每個結點的4個屬性:子樹數、平均子樹分支數、可顯示字符數和子樹分支數極差; 步驟5)對4個屬性分別確定計算中介真值程度需要的界值;對所有結點的4個屬性分別排序,子樹數、平均子樹分支數和可顯示字符數三個屬性均按照從小到大的順序進行排序,子樹分支數極差按照從大到小的順序進行排序,得到四個有序排列的序列;各個屬性排在50%M (取整)位置上的屬性值作為相應屬性的第一個界點的值,70%M (取整)位置上的屬性值作為相應屬性的第二個界值,80%M (取整)位置上的屬性值作為相應屬性的第三個界值,90%M (取整)位置上的屬性值作為相應屬性的第四個界值,四個界值分別用a1、a2、a3、a4表示;對每個屬性分別確定其四個界值,4個屬性有4組界值; 步驟6) 對每個結點按照式(I)和式(2)計算「本結點是網頁主體結點」的真值程度;設結點i的四個屬性
【文檔編號】G06F17/30GK103678432SQ201310116907
【公開日】2014年3月26日 申請日期:2013年4月7日 優先權日:2013年4月7日
【發明者】成衛青, 於靜, 洪龍, 楊庚, 黃衛東, 梁勝 申請人:南京郵電大學