網頁內容提取方法和裝置的製作方法

2023-08-12 11:52:01 5

專利名稱：網頁內容提取方法和裝置的製作方法
技術領域：
本發明涉及網際網路信息處理領域及圖像處理領域，特別涉及一種基於視覺布局分析的網頁內容提取方法和裝置，其通過應用圖像處理的文檔布局分析技術和自然語言處理的相關統計技術來完成對網頁正文內容的自動提取。
背景技術：
當前，網際網路已經成為現有信息系統的主要信息來源之一。由於網際網路的開放性和用戶的隨意性，Web網頁在存在大量有價值的信息的同時也存在大量諸如導航、版權、廣告等與正文無關的噪聲信息。噪聲信息的存在使得後續信息服務的數據質量無法保證。從網頁中提取有價值的內容來保證數據質量無疑可以為後續的網頁信息處理應用奠定基礎。在信息搜索、信息過濾、文本分類、文本聚類、文摘等應用中，去除掉網頁中的噪聲信息，提取網頁的內容是非常重要的一步。比如在信息搜索中，在去除掉噪聲信息的網頁內容基礎上建立索引可以有效地提高搜索的準確率；而在信息過濾、文本分類、文本聚類和網頁自動摘要等應用中，準確的網頁內容對系統的性能有很大的提升作用。網頁內容提取技術經歷了長時間的發展，演化出了多種方法，這些方法大致可以分為以下幾類基於用戶設計的特定語言來開發提取網頁內容的包裝器的方法；基於HTML 文檔的樹結構(D0M樹或標籤樹)，通過自動或半自動的方法來推導提取內容的包裝器的方法；基於自然語言處理相關技術的提取方法；以及基於已標註樣本學習的包裝器推導方法；基於Ontology的內容提取方法。上述的分類方法只是眾多分類方法中的一種，各種分類方法的界限並不是截然分明的，現有的很多方法也通常是多種技術的有機結合。在傳統的提取網頁正文的方法中，雖然考慮了網頁的布局信息，但其採用的方法都是從DOM樹推導出來的一種偽布局，DOM樹中的節點的順序與顯示的布局之間有很大的差異，所以傳統的方法得到的布局只是對網頁的一種粗略的分塊，從而經常造成提取內容的部分缺失和噪音夾雜的問題。

發明內容
在下文中給出了關於本發明的簡要概述，以便提供關於本發明的某些方面的基本理解。但是，應當理解，這個概述並不是關於本發明的窮舉性概述。它並不是意圖用來確定本發明的關鍵性部分或重要部分，也不是意圖用來限定本發明的範圍。其目的僅僅是以簡化的形式給出關於本發明的某些概念，以此作為稍後給出的更詳細描述的前序。鑑於現有技術的上述情形，本發明的目的是提供一種基於視覺布局分析的網頁內容提取方法和裝置，其通過應用圖像處理的文檔布局分析技術和自然語言處理的相關統計技術來完成對網頁正文內容的自動提取，從而能夠有效地克服或減輕現有技術中的上述技術問題。為了實現上述目的，根據本發明的一方面，提供了一種網頁內容提取方法，其包括
5如下步驟對網頁的圖片進行視覺布局分析，以將所述圖片分割為至少一個布局塊；對每個布局塊進行光學字符識別，以生成所述布局塊的識別文本；對所述網頁進行分析，以建立所述網頁的文檔對象模型樹；利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊的識別文本之間的對應關係，將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中；以及至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。根據本發明的另一方面，還提供了一種網頁內容提取裝置，其包括布局分析單元，用於對網頁的圖片進行視覺布局分析，以將所述圖片分割為至少一個布局塊；布局塊識別單元，用於對每個布局塊進行光學字符識別，以生成所述布局塊中的識別文本；網頁分析單元，用於對所述網頁進行分析，以建立所述網頁的文檔對象模型樹；文本節點映射單元，用於利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊中的識別文本之間的對應關係，將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中；以及網頁內容提取單元，用於至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。根據本發明的另一方面，還提供了用於實現上述網頁內容提取方法的電腦程式
女口
廣 PFt O根據本發明的另一方面，還提供了計算機可讀介質，其上記錄有用於實現上述網頁內容提取方法的電腦程式代碼。在本發明的上述技術方案中，可以使用基於圖像的文檔布局分析技術對網頁進行視覺布局分割，從某種意義上來說該方案模擬了用戶瀏覽網頁時對網頁布局的第一感知，克服了傳統方案中從網頁的文檔對象模型(DOM)樹來推導出網頁分塊的不確定性，複雜程度相比之下也大大降低，同時，還結合了自然語言處理的相關技術來完成對網頁內容的提取，提高了提取內容的正確性。由上可知，本發明開創性地融合了圖像布局分析和自然語言處理的相關技術，形成了一個全自動、高效、準確的網頁內容提取方案。

本發明可以通過參考下文中結合附圖所給出的詳細描述而得到更好的理解，其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中並形成說明書的一部分，用來進一步舉例說明本發明的優選實施例和解釋本發明的原理和優點。在附圖中圖1示出了根據本發明實施例的網頁內容提取方法的總體流程圖；圖2具體示出了圖1所示的步驟SllO的視覺布局分析處理的流程圖；圖3示出了對示例性輸入網頁進行視覺布局分析處理的示意圖；圖4示出了與圖3的輸入網頁相對應的DOM樹及其中的文本節點的示意圖；圖5具體示出了圖1所示的步驟S140的文本節點映射處理的流程圖；圖6示出了布局塊的坐標示意圖；以及圖7示出了根據本發明實施例的網頁內容提取裝置的框圖。本領域技術人員應當理解，附圖中的元件僅僅是為了簡單和清楚起見而示出的，
6而且不一定是按比例繪製的。例如，附圖中某些元件的尺寸可能相對於其它元件放大了，以便有助於提高對本發明實施例的理解。
具體實施例方式在下文中將結合附圖對本發明的示範性實施例進行描述。為了清楚和簡明起見，在說明書中並未描述實際實施方式的所有特徵。然而，應該了解，在開發任何這種實際實施例的過程中必須做出很多特定於實施方式的決定，以便實現開發人員的具體目標，例如，符合與系統及業務相關的那些限制條件，並且這些限制條件可能會隨著實施方式的不同而有所改變。此外，還應該了解，雖然開發工作有可能是非常複雜和費時的，但對得益於本公開內容的本領域技術人員來說，這種開發工作僅僅是例行的任務。在此，還需要說明的一點是，為了避免因不必要的細節而模糊了本發明，在附圖中僅僅示出了與根據本發明的方案密切相關的裝置結構和/或處理步驟，而省略了與本發明關係不大的其它細節。下面參照附圖詳細描述根據本發明實施例的網頁內容提取方法。圖1示出了根據本發明實施例的網頁內容提取方法的總體流程圖。首先，在步驟S110，對網頁的圖片進行視覺布局分析，以將所述圖片分割為至少一個布局塊。接下來，在步驟S120，對每個布局塊進行光學字符識別(OCR)，以生成所述布局塊的識別文本。接下來，在步驟S130，對所述網頁進行分析，以建立所述網頁的文檔對象模型 (DOM)樹。接下來，在步驟S140，利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊的識別文本之間的對應關係，將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中。最後，在步驟S150中，至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。下面結合附圖對根據本發明實施例的網頁提取方法的各個步驟的具體實施方式
進行詳細描述。但是，本領域的技術人員應當清楚，本發明不局限於下述具體實施方式
。根據本發明的一個具體實施例，圖1所示的步驟SllO的視覺布局分析處理的流程圖如圖2所示，其具體包括在步驟S210，將輸入的網頁轉存為圖片；以及在步驟S220，利用基於圖像的布局分析算法，對圖片進行區域布局劃分。步驟S220中的處理所採用的布局分析算法例如可以採用現有技術中公知的各種基於圖像的文檔布局分析算法，例如「Whitespace cover」算法。該算法通過尋找圖像中的最大空白區域來完成各區域的界定與分割，具體實現請參見Τ. M. Breuel所著的」Two geometric algorithms for layoutanalysis，，(Workshop on Document Analysis Systems, 2002)。通過基於圖像的布局分析算法，完成對網頁的布局分割，形成各布局塊，並給出各布局塊在網頁中的坐標信息。這樣，可以很直觀地模擬出用戶瀏覽網頁時對於網頁布局的視覺感知與定位，較之傳統的基於DOM樹來反推網頁布局的方法更加直接，更加準確。圖3示出了對示例性輸入網頁進行視覺布局分析處理的示意圖，其中該圖的上半部分示意性地示出了輸入網頁，而下半部分示意性地示出了所產生的各布局塊及其中的識別文本。對於圖1的步驟S130中的網頁分析處理，其基本做法就是，依次讀入網頁的內容，識別每一個HTML標籤的名稱、類別、參數和內容，以樹狀結構進行存儲，從而形成網頁的 DOM樹。該過程對於本領域的技術人員是熟知的，在此不再贅述。圖4示出了與圖3的輸入網頁相對應的DOM樹及其中的文本節點的示意圖。根據本發明的一個具體實施例，圖1所示的步驟S140的文本節點映射處理的流程圖如圖2所示，其具體包括在步驟S610，根據自然語言處理中的η元語法統計技術，形成與所述文本節點的真實文本相對應的η元短語集合；在步驟S620，對於每個布局塊，通過將所述η元短語集合中的短語包含在所述布局塊的識別文本中的數目除以所述η元短語集合中的總短語數目來計算所述布局塊相對於所述文本節點的短語包含率；以及，在步驟 S630，將所述文本節點映射到其短語包含率大於預定閾值的布局塊中。對於步驟S610的處理，η元短語集合可以以字為單位來形成，也可以以詞為單位來形成。在η元短語集合以詞為單位形成的情況下，需要首先對文本節點的真實文本進行分詞。舉例來說，假設文本節點的真實文本為「視覺布局分析」，且η為3的情況下，則在以字為單位的情況下，其3元短語集合為{ 「視覺布」，「覺布局」，「布局分」，「局分析」 }，而在以詞為單位的情況下，「視覺布局分析」首先經分詞為「視覺」、「布局」和「分析」這三個詞，因而其3元短語集合為{ 「視覺布局分析」 }。對於步驟S620的處理，遍歷所有的布局塊，計算布局塊相對於當前文本節點的短語包含率。具體地說，首先，對於當前文本節點的η元短語集合中的每個短語，判斷其是否能夠在布局塊的識別文本中搜索到。如果能夠搜索到，則將相應的計數值增1。在處理完該η元短語集合中的所有短語後，將最終得到的計數值除以η元短語集合中的短語總數來算出布局塊相對於當前文本節點的短語包含率。對於步驟S630的處理，預定閾值可以根據經驗調整，優選地可以設為0. 8。可選地，如果當前文本節點在任一布局塊中的短語包含率都小於預定閾值，則該文本節點不被映射到任何布局塊。在這種情況下，可以查找與當前文本節點相鄰的已被映射文本節點，並且將當前文本節點映射到所找出的相鄰文本節點所被映射的布局塊中，從而可以將DOM樹中的所有文本節點都一一映射到某個布局塊中。由於位於DOM樹同一層上的文本節點，即編號連續的節點通常在網頁顯示時其中的內容也是上下接續的，因此查找與當前文本節點相鄰的已被映射文本節點優選地可以通過以下方式來實現首先，對網頁的DOM樹中的各個文本節點按照廣度優先的次序進行順序編號。優選地，該處理可以在步驟S130分析網頁來建立DOM樹時一併完成。例如，圖4示出了與圖 3的輸入網頁相對應的DOM樹中各個文本節點的編號；然後，查找其編號與當前文本節點的編號連續的已被映射文本節點，作為與當前文本節點相鄰的已被映射文本節點，即，其編號比當前文本節點的編號大1或小1的已被映射文本節點。根據本發明的一個具體實施例，圖1的步驟S150中的網頁提取處理具體包括根
8據布局塊在網頁中的位置坐標信息，判定布局塊是否位於網頁的預定區域，優選地是網頁的中間區域；以及至少根據判定的結果來提取所述網頁的正文內容。具體地說，首先，根據各布局塊在網頁中的坐標信息過濾掉網頁的邊緣布局塊。人們習慣於將網頁的內容放在網頁的相對中央的部分，邊緣的布局塊多為一些廣告、導航、相關連結等信息，這類布局塊中含有網頁正文的機率很小。假定網頁的布局塊及網頁本身的坐標如圖6所示，則可以分別在X軸及Y軸方向上設定閾值參數來過濾布局塊，如布局塊的坐標滿足如下兩對條件，則認為該布局塊為候選正文塊，否則認為該布局塊不包含網頁的正文內容條件 1 :Xl/w > a&&x2/w c&&y2/h < d其中，a、b、C、d四個閾值可以根據欲提取內容的網頁的類型及經驗設定。優選地，在確定了候選正文塊以後，可以根據在本技術領域內公知的各種手段，對候選各塊進行進一步的判斷，以決定其是否可以作為正文內容被提取出來。例如，在決策的過程中，可以採用連結正文比和/或DOM樹節點的標籤屬性來判斷其是否是正文。所謂的連結正文比是指布局塊內容中包含連結的文字的長度!^-與整個布局塊包含內容的長度Ln。de的比例R R = Llink/Lnode如果R大於預定閾值，則認為該塊包含的文字非正文，因為其連結文字的長度過大，極有可能是相關連結及其他形式的噪音內容。該預定閾值可以根據網頁的類型及經驗設定。同時，根據DOM樹節點的標籤屬性來進一步過濾布局塊，對於一些常用的用戶交互式的節點，如〈input〉、〈select〉、〈option〉、等標籤，這些標籤主要是用來與用戶進行交互使用，不構成網頁的內容，因此，如果一個布局塊中全部為此類節點或者有部分此類節點，則將該布局塊或布局塊中這些節點對應的內容過濾掉，得到最終的網頁內容。雖然上面結合附圖詳細描述了根據本發明實施例的網頁提取方法，但是本領域的技術人員應當明白，圖1所示的流程圖僅僅是示例性的，並且可以根據實際應用和具體要求的不同，對圖1所示的方法流程進行相應的修改。根據需要，可以對圖1所示的方法中的某些步驟的執行順序進行調整，或者可以省去或者添加某些處理步驟。例如，雖然圖3中示出了網頁分析處理(即，步驟S130)在視覺布局分析處理和布局塊識別處理(即，步驟SllO和S120)之後執行，但是顯然它們也可以並行執行，或者是顛倒順序地執行。根據本發明的上述技術方案，可以基於圖像的布局分析得到相對精確的網頁布局，同時利用OCR技術獲得布局塊中的大致內容，再結合自然語言處理中的相關技術完成對布局塊真實內容的恢復和最終的網頁正文內容的提取，這種方法適合任何類型的網頁，不需要針對不同的網站進行特殊處理，同時，該方法得到的布局更接近於用戶瀏覽網頁時的視覺感知，更能準確的反映出網頁中主體內容所在的位置，在充分利用了布局位置信息和自然語言處理中的η元短語(n-gram)統計技術的基礎上，最大程度上保證了提取內容的完整性和正確性，很好地克服了傳統方法中經常造成提取內容的部分缺失和噪音夾雜的問題。下面將結合附圖描述根據本發明實施例的網頁提取裝置。圖7示出了根據本發明
9實施例的網頁提取裝置700的框圖，其中，為了簡明起見僅僅示出了與本發明密切相關的部分。在網頁提取裝置700中，能夠執行以上參考圖1所描述的網頁接入方法。如圖7所示，網頁提取裝置700可以包括布局分析單元710、布局塊文本識別單元 720、網頁分析單元730、文本節點映射單元740以及網頁內容提取單元750。其中，布局分析單元710可以對網頁的圖片進行視覺布局分析，以將所述圖片分割為至少一個布局塊。布局塊文本識別單元720可以對每個布局塊進行光學字符識別，以生成所述布局塊中的識別文本。網頁分析單元730可以對所述網頁進行分析，以建立所述網頁的文檔對象模型樹。文本節點映射單元740可以利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊中的識別文本之間的對應關係，將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中。網頁內容提取單元750可以至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。在本發明的一個具體實施例中，布局分析單元710可以進一步包括網頁轉存單元，用於將所述網頁轉存為所述圖片；以及布局劃分單元，用於利用基於圖像的布局分析算法，對所述圖片進行區域布局劃分。在本發明的一個具體實施例中，文本節點映射單元740可以進一步包括n元短語集合形成單元，用於根據自然語言處理中的η元語法統計技術，形成與所述文本節點的真實文本相對應的η元短語集合；短語包含率計算單元，用於對於每個布局塊通過將所述η元短語集合中的短語包含在所述布局塊的識別文本中的數目除以所述η元短語集合中的總短語數目來計算所述布局塊相對於所述文本節點的短語包含率；以及第一映射單元，用於將所述文本節點映射到其短語包含率大於預定閾值的布局塊中。在本發明的一個具體實施例中，文本節點映射單元740還可以包括相鄰節點查找單元，用於如果所述文本節點未被映射到任一布局塊中，則查找與所述文本節點相鄰的已被映射文本節點；以及第二映射單元，用於將所述文本節點映射到所找出的相鄰文本節點所被映射的布局塊中。在本發明的一個具體實施例中，相鄰節點查找單元可以進一步包括文本節點編號單元，用於對所述文檔對象模型樹中的各個文本節點按照廣度優先的次序進行順序編號；以及查找單元，用於查找其編號與所述文本節點的編號連續的已被映射文本節點，作為與所述文本節點相鄰的所述已被映射文本節點。在本發明的一個具體實施例中，網頁內容提取單元750可以進一步包括區域判定單元，用於根據所述布局塊在所述網頁中的位置坐標信息，判定所述布局塊是否位於所述網頁的預定區域；以及提取單元，用於至少根據所述區域判定單元作出的判定結果來提取所述網頁的正文內容。在本發明的一個具體實施例中，提取單元還利用所述布局塊中所包含的文字長度與所包含的連結文字的長度的比例以及所述文本節點的屬性中的一個或兩者來提取所述網頁的正文內容。由於在上文中已經參照方法的流程圖對網頁提取裝置700的各個組成部件的具體和/或可選處理過程進行了描述，因此，在此為了避免重複，就不再對它們的操作和處理過程進行詳述了。在此需要說明的是，圖7所示的網頁提取裝置700的結構僅僅是示例性的，本領域
10技術人員可以根據需要對圖7所示的結構框圖進行修改。此外，顯然，根據本發明的上述方法的各個操作過程也可以以存儲在各種機器可讀的存儲介質中的計算機可執行程序的方式實現。而且，本發明的目的也可以通過下述方式實現將存儲有上述可執行程序代碼的存儲介質直接或者間接地提供給系統或設備，並且該系統或設備中的計算機或者中央處理單元(CPU)讀出並執行上述程序代碼。此時，只要該系統或者設備具有執行程序的功能，則本發明的實施方式不局限於程序，並且該程序也可以是任意的形式，例如，目標程序、解釋器執行的程序或者提供給作業系統的腳本程序等。上述這些機器可讀存儲介質包括但不限於各種存儲器和存儲單元，半導體設備，磁碟單元例如光、磁和磁光碟，以及其它適於存儲信息的介質等。另外，計算機通過連接到網際網路上的相應網站，並且將依據本發明的電腦程式代碼下載和安裝到計算機中然後執行該程序，也可以實現本發明。在本發明的裝置和方法中，顯然，各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應視為本發明的等效方案。並且，執行上述系列處理的步驟可以自然地按照說明的順序按時間順序執行，但是並不需要一定按照時間順序執行。某些步驟可以並行或彼此獨立地執行。以上雖然結合附圖詳細描述了本發明的實施例，但是應當明白，上面所描述的實施方式只是用於說明本發明，而並不構成對本發明的限制。對於本領域的技術人員來說，可以對上述實施方式作出各種修改和變更而沒有背離本發明的實質和範圍。因此，本發明的範圍僅由所附的權利要求及其等效含義來限定。
權利要求
一種網頁內容提取方法，包括如下步驟對網頁的圖片進行視覺布局分析，以將所述圖片分割為至少一個布局塊；對每個布局塊進行光學字符識別，以生成所述布局塊的識別文本；對所述網頁進行分析，以建立所述網頁的文檔對象模型樹；利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊的識別文本之間的對應關係，將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中；以及至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。
2.根據權利要求1所述的網頁內容提取方法，其中對網頁的圖片進行視覺布局分析進一步包括將所述網頁轉存為所述圖片；以及利用基於圖像的布局分析算法，對所述圖片進行區域布局劃分。
3.根據權利要求1所述的網頁內容提取方法，其中將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中進一步包括根據自然語言處理中的η元語法統計技術，形成與所述文本節點的真實文本相對應的 η元短語集合；對於每個布局塊，通過將所述η元短語集合中的短語包含在所述布局塊的識別文本中的數目除以所述η元短語集合中的總短語數目來計算所述布局塊相對於所述文本節點的短語包含率；以及將所述文本節點映射到其短語包含率大於預定閾值的布局塊中。
4.根據權利要求3所述的網頁內容提取方法，其中將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中還包括如果所述文本節點未被映射到任一布局塊中，則查找與所述文本節點相鄰的已被映射文本節點；以及將所述文本節點映射到所找出的相鄰文本節點所被映射的布局塊中。
5.根據權利要求4所述的網頁內容提取方法，其中查找與所述文本節點相鄰的已被映射節點進一步包括對所述文檔對象模型樹中的各個文本節點按照廣度優先的次序進行順序編號；以及查找其編號與所述文本節點的編號連續的已被映射文本節點，作為與所述文本節點相鄰的所述已被映射文本節點。
6.根據權利要求1所述的網頁內容提取方法，其中至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容進一步包括根據所述布局塊在所述網頁中的位置坐標信息，判定所述布局塊是否位於所述網頁的預定區域；以及至少根據所述判定的結果來提取所述網頁的正文內容。
7.根據權利要求6所述的網頁內容提取方法，其中至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容還包括利用所述布局塊中所包含的文字長度與所包含的連結文字的長度的比例以及所述文本節點的屬性中的一個或兩者來提取所述網頁的正文內容。
8.—種網頁內容提取裝置，包括布局分析單元，用於對網頁的圖片進行視覺布局分析，以將所述圖片分割為至少一個布局塊；布局塊識別單元，用於對每個布局塊進行光學字符識別，以生成所述布局塊中的識別文本；網頁分析單元，用於對所述網頁進行分析，以建立所述網頁的文檔對象模型樹；文本節點映射單元，用於利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊中的識別文本之間的對應關係，將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中；以及網頁內容提取單元，用於至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。
9.根據權利要求8所述的網頁內容提取裝置，其中所述布局分析單元進一步包括網頁轉存單元，用於將所述網頁轉存為所述圖片；以及布局劃分單元，用於利用基於圖像的布局分析算法，對所述圖片進行區域布局劃分。
10.根據權利要求8所述的網頁內容提取裝置，其中所述文本節點映射單元進一步包括η元短語集合形成單元，用於根據自然語言處理中的η元語法統計技術，形成與所述文本節點的真實文本相對應的η元短語集合；短語包含率計算單元，用於對於每個布局塊通過將所述η元短語集合中的短語包含在所述布局塊的識別文本中的數目除以所述η元短語集合中的總短語數目來計算所述布局塊相對於所述文本節點的短語包含率；以及第一映射單元，用於將所述文本節點映射到其短語包含率大於預定閾值的布局塊中。
11.根據權利要求10所述的網頁內容提取裝置，其中所述文本節點映射單元還包括相鄰節點查找單元，用於如果所述文本節點未被映射到任一布局塊中，則查找與所述文本節點相鄰的已被映射文本節點；以及第二映射單元，用於將所述文本節點映射到所找出的相鄰文本節點所被映射的布局塊中。
12.根據權利要求11所述的網頁內容提取裝置，其中所述相鄰節點查找單元進一步包括文本節點編號單元，用於對所述文檔對象模型樹中的各個文本節點按照廣度優先的次序進行順序編號；以及查找單元，用於查找其編號與所述文本節點的編號連續的已被映射文本節點，作為與所述文本節點相鄰的所述已被映射文本節點。
13.根據權利要求8所述的網頁內容提取裝置，其中所述網頁內容提取單元進一步包括區域判定單元，用於根據所述布局塊在所述網頁中的位置坐標信息，判定所述布局塊是否位於所述網頁的預定區域；以及提取單元，用於至少根據所述區域判定單元作出的判定結果來提取所述網頁的正文內容。
14.根據權利要求13所述的網頁內容提取裝置，其中所述提取單元還利用所述布局塊中所包含的文字長度與所包含的連結文字的長度的比例以及所述文本節點的屬性中的一個或兩者來提取所述網頁的正文內容。
全文摘要
本發明公開了一種網頁內容提取方法和裝置，其中該網頁內容提取方法，包括如下步驟對網頁的圖片進行視覺布局分析，以將所述圖片分割為至少一個布局塊；對每個布局塊進行光學字符識別，以生成所述布局塊的識別文本；對所述網頁進行分析，以建立所述網頁的文檔對象模型樹；利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊的識別文本之間的對應關係，將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中；以及至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。本發明開創性地融合了圖像布局分析和自然語言處理的相關技術，形成了一個全自動、高效、準確的網頁內容提取方案。
文檔編號G06F17/30GK101937438SQ20091013974
公開日2011年1月5日申請日期2009年6月30日優先權日2009年6月30日
發明者於浩, 付雷, 孫俊, 孟遙申請人:富士通株式會社

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

網頁內容提取方法和裝置的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法