新四季網

網頁內容提取方法和裝置的製作方法

2023-08-12 11:52:01 2

專利名稱:網頁內容提取方法和裝置的製作方法
技術領域:
本發明涉及網際網路信息處理領域及圖像處理領域,特別涉及一種基於視覺布局分 析的網頁內容提取方法和裝置,其通過應用圖像處理的文檔布局分析技術和自然語言處理 的相關統計技術來完成對網頁正文內容的自動提取。
背景技術:
當前,網際網路已經成為現有信息系統的主要信息來源之一。由於網際網路的開放性 和用戶的隨意性,Web網頁在存在大量有價值的信息的同時也存在大量諸如導航、版權、廣 告等與正文無關的噪聲信息。噪聲信息的存在使得後續信息服務的數據質量無法保證。從 網頁中提取有價值的內容來保證數據質量無疑可以為後續的網頁信息處理應用奠定基礎。 在信息搜索、信息過濾、文本分類、文本聚類、文摘等應用中,去除掉網頁中的噪聲信息,提 取網頁的內容是非常重要的一步。比如在信息搜索中,在去除掉噪聲信息的網頁內容基礎 上建立索引可以有效地提高搜索的準確率;而在信息過濾、文本分類、文本聚類和網頁自動 摘要等應用中,準確的網頁內容對系統的性能有很大的提升作用。網頁內容提取技術經歷了長時間的發展,演化出了多種方法,這些方法大致可以 分為以下幾類基於用戶設計的特定語言來開發提取網頁內容的包裝器的方法;基於HTML 文檔的樹結構(D0M樹或標籤樹),通過自動或半自動的方法來推導提取內容的包裝器的 方法;基於自然語言處理相關技術的提取方法;以及基於已標註樣本學習的包裝器推導方 法;基於Ontology的內容提取方法。上述的分類方法只是眾多分類方法中的一種,各種分類方法的界限並不是截然分 明的,現有的很多方法也通常是多種技術的有機結合。在傳統的提取網頁正文的方法中,雖然考慮了網頁的布局信息,但其採用的方法 都是從DOM樹推導出來的一種偽布局,DOM樹中的節點的順序與顯示的布局之間有很大的 差異,所以傳統的方法得到的布局只是對網頁的一種粗略的分塊,從而經常造成提取內容 的部分缺失和噪音夾雜的問題。

發明內容
在下文中給出了關於本發明的簡要概述,以便提供關於本發明的某些方面的基本 理解。但是,應當理解,這個概述並不是關於本發明的窮舉性概述。它並不是意圖用來確定 本發明的關鍵性部分或重要部分,也不是意圖用來限定本發明的範圍。其目的僅僅是以簡 化的形式給出關於本發明的某些概念,以此作為稍後給出的更詳細描述的前序。鑑於現有技術的上述情形,本發明的目的是提供一種基於視覺布局分析的網頁內 容提取方法和裝置,其通過應用圖像處理的文檔布局分析技術和自然語言處理的相關統計 技術來完成對網頁正文內容的自動提取,從而能夠有效地克服或減輕現有技術中的上述技 術問題。為了實現上述目的,根據本發明的一方面,提供了一種網頁內容提取方法,其包括
5如下步驟對網頁的圖片進行視覺布局分析,以將所述圖片分割為至少一個布局塊;對每 個布局塊進行光學字符識別,以生成所述布局塊的識別文本;對所述網頁進行分析,以建立 所述網頁的文檔對象模型樹;利用所述文檔對象模型樹中的文本節點的真實文本與所述布 局塊的識別文本之間的對應關係,將所述文檔對象模型樹中的每個文本節點映射到所述布 局塊之一中;以及至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內 容。根據本發明的另一方面,還提供了一種網頁內容提取裝置,其包括布局分析單 元,用於對網頁的圖片進行視覺布局分析,以將所述圖片分割為至少一個布局塊;布局塊識 別單元,用於對每個布局塊進行光學字符識別,以生成所述布局塊中的識別文本;網頁分析 單元,用於對所述網頁進行分析,以建立所述網頁的文檔對象模型樹;文本節點映射單元, 用於利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊中的識別文本之間 的對應關係,將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中;以及網 頁內容提取單元,用於至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正 文內容。根據本發明的另一方面,還提供了用於實現上述網頁內容提取方法的電腦程式
女口
廣 PFt O根據本發明的另一方面,還提供了計算機可讀介質,其上記錄有用於實現上述網 頁內容提取方法的電腦程式代碼。在本發明的上述技術方案中,可以使用基於圖像的文檔布局分析技術對網頁進行 視覺布局分割,從某種意義上來說該方案模擬了用戶瀏覽網頁時對網頁布局的第一感知, 克服了傳統方案中從網頁的文檔對象模型(DOM)樹來推導出網頁分塊的不確定性,複雜程 度相比之下也大大降低,同時,還結合了自然語言處理的相關技術來完成對網頁內容的提 取,提高了提取內容的正確性。由上可知,本發明開創性地融合了圖像布局分析和自然語言處理的相關技術,形 成了一個全自動、高效、準確的網頁內容提取方案。


本發明可以通過參考下文中結合附圖所給出的詳細描述而得到更好的理解,其中 在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下 面的詳細說明一起包含在本說明書中並形成說明書的一部分,用來進一步舉例說明本發明 的優選實施例和解釋本發明的原理和優點。在附圖中圖1示出了根據本發明實施例的網頁內容提取方法的總體流程圖;圖2具體示出了圖1所示的步驟SllO的視覺布局分析處理的流程圖;圖3示出了對示例性輸入網頁進行視覺布局分析處理的示意圖;圖4示出了與圖3的輸入網頁相對應的DOM樹及其中的文本節點的示意圖;圖5具體示出了圖1所示的步驟S140的文本節點映射處理的流程圖;圖6示出了布局塊的坐標示意圖;以及 圖7示出了根據本發明實施例的網頁內容提取裝置的框圖。 本領域技術人員應當理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的,
6而且不一定是按比例繪製的。例如,附圖中某些元件的尺寸可能相對於其它元件放大了,以 便有助於提高對本發明實施例的理解。
具體實施例方式在下文中將結合附圖對本發明的示範性實施例進行描述。為了清楚和簡明起見, 在說明書中並未描述實際實施方式的所有特徵。然而,應該了解,在開發任何這種實際實施 例的過程中必須做出很多特定於實施方式的決定,以便實現開發人員的具體目標,例如,符 合與系統及業務相關的那些限制條件,並且這些限制條件可能會隨著實施方式的不同而有 所改變。此外,還應該了解,雖然開發工作有可能是非常複雜和費時的,但對得益於本公開 內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本發明,在附圖中 僅僅示出了與根據本發明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發明 關係不大的其它細節。下面參照附圖詳細描述根據本發明實施例的網頁內容提取方法。圖1示出了根據本發明實施例的網頁內容提取方法的總體流程圖。首先,在步驟S110,對網頁的圖片進行視覺布局分析,以將所述圖片分割為至少一 個布局塊。接下來,在步驟S120,對每個布局塊進行光學字符識別(OCR),以生成所述布局塊 的識別文本。接下來,在步驟S130,對所述網頁進行分析,以建立所述網頁的文檔對象模型 (DOM)樹。接下來,在步驟S140,利用所述文檔對象模型樹中的文本節點的真實文本與所述 布局塊的識別文本之間的對應關係,將所述文檔對象模型樹中的每個文本節點映射到所述 布局塊之一中。最後,在步驟S150中,至少利用所述布局塊在所述網頁中的位置信息來提取所述 網頁的正文內容。下面結合附圖對根據本發明實施例的網頁提取方法的各個步驟的具體實施方式
進行詳細描述。但是,本領域的技術人員應當清楚,本發明不局限於下述具體實施方式
。根據本發明的一個具體實施例,圖1所示的步驟SllO的視覺布局分析處理的流程 圖如圖2所示,其具體包括在步驟S210,將輸入的網頁轉存為圖片;以及在步驟S220,利用基於圖像的布局分析算法,對圖片進行區域布局劃分。步驟S220中的處理所採用的布局分析算法例如可以採用現有技術中公知的各 種基於圖像的文檔布局分析算法,例如「Whitespace cover」算法。該算法通過尋找圖 像中的最大空白區域來完成各區域的界定與分割,具體實現請參見Τ. M. Breuel所著的 」Two geometric algorithms for layoutanalysis,,(Workshop on Document Analysis Systems, 2002)。通過基於圖像的布局分析算法,完成對網頁的布局分割,形成各布局塊,並 給出各布局塊在網頁中的坐標信息。這樣,可以很直觀地模擬出用戶瀏覽網頁時對於網頁 布局的視覺感知與定位,較之傳統的基於DOM樹來反推網頁布局的方法更加直接,更加準確。圖3示出了對示例性輸入網頁進行視覺布局分析處理的示意圖,其中該圖的上半部分 示意性地示出了輸入網頁,而下半部分示意性地示出了所產生的各布局塊及其中的識別文 本。對於圖1的步驟S130中的網頁分析處理,其基本做法就是,依次讀入網頁的內容, 識別每一個HTML標籤的名稱、類別、參數和內容,以樹狀結構進行存儲,從而形成網頁的 DOM樹。該過程對於本領域的技術人員是熟知的,在此不再贅述。圖4示出了與圖3的輸入 網頁相對應的DOM樹及其中的文本節點的示意圖。根據本發明的一個具體實施例,圖1所示的步驟S140的文本節點映射處理的流 程圖如圖2所示,其具體包括在步驟S610,根據自然語言處理中的η元語法統計技術,形 成與所述文本節點的真實文本相對應的η元短語集合;在步驟S620,對於每個布局塊,通過 將所述η元短語集合中的短語包含在所述布局塊的識別文本中的數目除以所述η元短語 集合中的總短語數目來計算所述布局塊相對於所述文本節點的短語包含率;以及,在步驟 S630,將所述文本節點映射到其短語包含率大於預定閾值的布局塊中。對於步驟S610的處理,η元短語集合可以以字為單位來形成,也可以以詞為單位 來形成。在η元短語集合以詞為單位形成的情況下,需要首先對文本節點的真實文本進行 分詞。舉例來說,假設文本節點的真實文本為「視覺布局分析」,且η為3的情況下,則在以 字為單位的情況下,其3元短語集合為{ 「視覺布」,「覺布局」,「布局分」,「局分析」 },而在 以詞為單位的情況下,「視覺布局分析」首先經分詞為「視覺」、「布局」和「分析」這三個詞, 因而其3元短語集合為{ 「視覺布局分析」 }。對於步驟S620的處理,遍歷所有的布局塊,計算布局塊相對於當前文本節點的短 語包含率。具體地說,首先,對於當前文本節點的η元短語集合中的每個短語,判斷其是否 能夠在布局塊的識別文本中搜索到。如果能夠搜索到,則將相應的計數值增1。在處理完 該η元短語集合中的所有短語後,將最終得到的計數值除以η元短語集合中的短語總數來 算出布局塊相對於當前文本節點的短語包含率。對於步驟S630的處理,預定閾值可以根據經驗調整,優選地可以設為0. 8。可選地,如果當前文本節點在任一布局塊中的短語包含率都小於預定閾值,則該 文本節點不被映射到任何布局塊。在這種情況下,可以查找與當前文本節點相鄰的已被映 射文本節點,並且將當前文本節點映射到所找出的相鄰文本節點所被映射的布局塊中,從 而可以將DOM樹中的所有文本節點都一一映射到某個布局塊中。由於位於DOM樹同一層上的文本節點,即編號連續的節點通常在網頁顯示時其中 的內容也是上下接續的,因此查找與當前文本節點相鄰的已被映射文本節點優選地可以通 過以下方式來實現首先,對網頁的DOM樹中的各個文本節點按照廣度優先的次序進行順序編號。優 選地,該處理可以在步驟S130分析網頁來建立DOM樹時一併完成。例如,圖4示出了與圖 3的輸入網頁相對應的DOM樹中各個文本節點的編號;然後,查找其編號與當前文本節點的編號連續的已被映射文本節點,作為與當前 文本節點相鄰的已被映射文本節點,即,其編號比當前文本節點的編號大1或小1的已被映 射文本節點。根據本發明的一個具體實施例,圖1的步驟S150中的網頁提取處理具體包括根
8據布局塊在網頁中的位置坐標信息,判定布局塊是否位於網頁的預定區域,優選地是網頁 的中間區域;以及至少根據判定的結果來提取所述網頁的正文內容。具體地說,首先,根據各布局塊在網頁中的坐標信息過濾掉網頁的邊緣布局塊。人 們習慣於將網頁的內容放在網頁的相對中央的部分,邊緣的布局塊多為一些廣告、導航、相 關連結等信息,這類布局塊中含有網頁正文的機率很小。假定網頁的布局塊及網頁本身的 坐標如圖6所示,則可以分別在X軸及Y軸方向上設定閾值參數來過濾布局塊,如布局塊的 坐標滿足如下兩對條件,則認為該布局塊為候選正文塊,否則認為該布局塊不包含網頁的 正文內容條件 1 :Xl/w > a&&x2/w c&&y2/h < d其中,a、b、C、d四個閾值可以根據欲提取內容的網頁的類型及經驗設定。優選地,在確定了候選正文塊以後,可以根據在本技術領域內公知的各種手段,對 候選各塊進行進一步的判斷,以決定其是否可以作為正文內容被提取出來。例如,在決策的過程中,可以採用連結正文比和/或DOM樹節點的標籤屬性來判斷 其是否是正文。所謂的連結正文比是指布局塊內容中包含連結的文字的長度!^-與整個布 局塊包含內容的長度Ln。de的比例R R = Llink/Lnode如果R大於預定閾值,則認為該塊包含的文字非正文,因為其連結文字的長度過 大,極有可能是相關連結及其他形式的噪音內容。該預定閾值可以根據網頁的類型及經驗 設定。同時,根據DOM樹節點的標籤屬性來進一步過濾布局塊,對於一些常用的用戶交互式 的節點,如〈input〉、〈select〉、〈option〉、等標籤,這些標籤主要是用來與用戶進行 交互使用,不構成網頁的內容,因此,如果一個布局塊中全部為此類節點或者有部分此類節 點,則將該布局塊或布局塊中這些節點對應的內容過濾掉,得到最終的網頁內容。雖然上面結合附圖詳細描述了根據本發明實施例的網頁提取方法,但是本領域的 技術人員應當明白,圖1所示的流程圖僅僅是示例性的,並且可以根據實際應用和具體要 求的不同,對圖1所示的方法流程進行相應的修改。根據需要,可以對圖1所示的方法中的某些步驟的執行順序進行調整,或者可以 省去或者添加某些處理步驟。例如,雖然圖3中示出了網頁分析處理(即,步驟S130)在視 覺布局分析處理和布局塊識別處理(即,步驟SllO和S120)之後執行,但是顯然它們也可 以並行執行,或者是顛倒順序地執行。根據本發明的上述技術方案,可以基於圖像的布局分析得到相對精確的網頁布 局,同時利用OCR技術獲得布局塊中的大致內容,再結合自然語言處理中的相關技術完成 對布局塊真實內容的恢復和最終的網頁正文內容的提取,這種方法適合任何類型的網頁, 不需要針對不同的網站進行特殊處理,同時,該方法得到的布局更接近於用戶瀏覽網頁時 的視覺感知,更能準確的反映出網頁中主體內容所在的位置,在充分利用了布局位置信息 和自然語言處理中的η元短語(n-gram)統計技術的基礎上,最大程度上保證了提取內容的 完整性和正確性,很好地克服了傳統方法中經常造成提取內容的部分缺失和噪音夾雜的問 題。下面將結合附圖描述根據本發明實施例的網頁提取裝置。圖7示出了根據本發明
9實施例的網頁提取裝置700的框圖,其中,為了簡明起見僅僅示出了與本發明密切相關的 部分。在網頁提取裝置700中,能夠執行以上參考圖1所描述的網頁接入方法。如圖7所示,網頁提取裝置700可以包括布局分析單元710、布局塊文本識別單元 720、網頁分析單元730、文本節點映射單元740以及網頁內容提取單元750。其中,布局分析單元710可以對網頁的圖片進行視覺布局分析,以將所述圖片分 割為至少一個布局塊。布局塊文本識別單元720可以對每個布局塊進行光學字符識別,以 生成所述布局塊中的識別文本。網頁分析單元730可以對所述網頁進行分析,以建立所述 網頁的文檔對象模型樹。文本節點映射單元740可以利用所述文檔對象模型樹中的文本節 點的真實文本與所述布局塊中的識別文本之間的對應關係,將所述文檔對象模型樹中的每 個文本節點映射到所述布局塊之一中。網頁內容提取單元750可以至少利用所述布局塊在 所述網頁中的位置信息來提取所述網頁的正文內容。在本發明的一個具體實施例中,布局分析單元710可以進一步包括網頁轉存單 元,用於將所述網頁轉存為所述圖片;以及布局劃分單元,用於利用基於圖像的布局分析算 法,對所述圖片進行區域布局劃分。在本發明的一個具體實施例中,文本節點映射單元740可以進一步包括n元短語 集合形成單元,用於根據自然語言處理中的η元語法統計技術,形成與所述文本節點的真 實文本相對應的η元短語集合;短語包含率計算單元,用於對於每個布局塊通過將所述η元 短語集合中的短語包含在所述布局塊的識別文本中的數目除以所述η元短語集合中的總 短語數目來計算所述布局塊相對於所述文本節點的短語包含率;以及第一映射單元,用於 將所述文本節點映射到其短語包含率大於預定閾值的布局塊中。在本發明的一個具體實施例中,文本節點映射單元740還可以包括相鄰節點查 找單元,用於如果所述文本節點未被映射到任一布局塊中,則查找與所述文本節點相鄰的 已被映射文本節點;以及第二映射單元,用於將所述文本節點映射到所找出的相鄰文本節 點所被映射的布局塊中。在本發明的一個具體實施例中,相鄰節點查找單元可以進一步包括文本節點編 號單元,用於對所述文檔對象模型樹中的各個文本節點按照廣度優先的次序進行順序編 號;以及查找單元,用於查找其編號與所述文本節點的編號連續的已被映射文本節點,作為 與所述文本節點相鄰的所述已被映射文本節點。在本發明的一個具體實施例中,網頁內容提取單元750可以進一步包括區域判 定單元,用於根據所述布局塊在所述網頁中的位置坐標信息,判定所述布局塊是否位於所 述網頁的預定區域;以及提取單元,用於至少根據所述區域判定單元作出的判定結果來提 取所述網頁的正文內容。在本發明的一個具體實施例中,提取單元還利用所述布局塊中所包含的文字長度 與所包含的連結文字的長度的比例以及所述文本節點的屬性中的一個或兩者來提取所述 網頁的正文內容。由於在上文中已經參照方法的流程圖對網頁提取裝置700的各個組成部件的具 體和/或可選處理過程進行了描述,因此,在此為了避免重複,就不再對它們的操作和處理 過程進行詳述了。在此需要說明的是,圖7所示的網頁提取裝置700的結構僅僅是示例性的,本領域
10技術人員可以根據需要對圖7所示的結構框圖進行修改。此外,顯然,根據本發明的上述方法的各個操作過程也可以以存儲在各種機器可 讀的存儲介質中的計算機可執行程序的方式實現。而且,本發明的目的也可以通過下述方式實現將存儲有上述可執行程序代碼的 存儲介質直接或者間接地提供給系統或設備,並且該系統或設備中的計算機或者中央處理 單元(CPU)讀出並執行上述程序代碼。此時,只要該系統或者設備具有執行程序的功能,則 本發明的實施方式不局限於程序,並且該程序也可以是任意的形式,例如,目標程序、解釋 器執行的程序或者提供給作業系統的腳本程序等。上述這些機器可讀存儲介質包括但不限於各種存儲器和存儲單元,半導體設備, 磁碟單元例如光、磁和磁光碟,以及其它適於存儲信息的介質等。另外,計算機通過連接到網際網路上的相應網站,並且將依據本發明的電腦程式 代碼下載和安裝到計算機中然後執行該程序,也可以實現本發明。在本發明的裝置和方法中,顯然,各部件或各步驟是可以分解和/或重新組合的。 這些分解和/或重新組合應視為本發明的等效方案。並且,執行上述系列處理的步驟可以 自然地按照說明的順序按時間順序執行,但是並不需要一定按照時間順序執行。某些步驟 可以並行或彼此獨立地執行。以上雖然結合附圖詳細描述了本發明的實施例,但是應當明白,上面所描述的實 施方式只是用於說明本發明,而並不構成對本發明的限制。對於本領域的技術人員來說,可 以對上述實施方式作出各種修改和變更而沒有背離本發明的實質和範圍。因此,本發明的 範圍僅由所附的權利要求及其等效含義來限定。
權利要求
一種網頁內容提取方法,包括如下步驟對網頁的圖片進行視覺布局分析,以將所述圖片分割為至少一個布局塊;對每個布局塊進行光學字符識別,以生成所述布局塊的識別文本;對所述網頁進行分析,以建立所述網頁的文檔對象模型樹;利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊的識別文本之間的對應關係,將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中;以及至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。
2.根據權利要求1所述的網頁內容提取方法,其中對網頁的圖片進行視覺布局分析進 一步包括將所述網頁轉存為所述圖片;以及利用基於圖像的布局分析算法,對所述圖片進行區域布局劃分。
3.根據權利要求1所述的網頁內容提取方法,其中將所述文檔對象模型樹中的每個文 本節點映射到所述布局塊之一中進一步包括根據自然語言處理中的η元語法統計技術,形成與所述文本節點的真實文本相對應的 η元短語集合;對於每個布局塊,通過將所述η元短語集合中的短語包含在所述布局塊的識別文本中 的數目除以所述η元短語集合中的總短語數目來計算所述布局塊相對於所述文本節點的 短語包含率;以及將所述文本節點映射到其短語包含率大於預定閾值的布局塊中。
4.根據權利要求3所述的網頁內容提取方法,其中將所述文檔對象模型樹中的每個文 本節點映射到所述布局塊之一中還包括如果所述文本節點未被映射到任一布局塊中,則查找與所述文本節點相鄰的已被映射 文本節點;以及將所述文本節點映射到所找出的相鄰文本節點所被映射的布局塊中。
5.根據權利要求4所述的網頁內容提取方法,其中查找與所述文本節點相鄰的已被映 射節點進一步包括對所述文檔對象模型樹中的各個文本節點按照廣度優先的次序進行順序編號;以及查找其編號與所述文本節點的編號連續的已被映射文本節點,作為與所述文本節點相 鄰的所述已被映射文本節點。
6.根據權利要求1所述的網頁內容提取方法,其中至少利用所述布局塊在所述網頁中 的位置信息來提取所述網頁的正文內容進一步包括根據所述布局塊在所述網頁中的位置坐標信息,判定所述布局塊是否位於所述網頁的 預定區域;以及至少根據所述判定的結果來提取所述網頁的正文內容。
7.根據權利要求6所述的網頁內容提取方法,其中至少利用所述布局塊在所述網頁中 的位置信息來提取所述網頁的正文內容還包括利用所述布局塊中所包含的文字長度與所包含的連結文字的長度的比例以及所述文 本節點的屬性中的一個或兩者來提取所述網頁的正文內容。
8.—種網頁內容提取裝置,包括布局分析單元,用於對網頁的圖片進行視覺布局分析,以將所述圖片分割為至少一個 布局塊;布局塊識別單元,用於對每個布局塊進行光學字符識別,以生成所述布局塊中的識別 文本;網頁分析單元,用於對所述網頁進行分析,以建立所述網頁的文檔對象模型樹; 文本節點映射單元,用於利用所述文檔對象模型樹中的文本節點的真實文本與所述布 局塊中的識別文本之間的對應關係,將所述文檔對象模型樹中的每個文本節點映射到所述 布局塊之一中;以及網頁內容提取單元,用於至少利用所述布局塊在所述網頁中的位置信息來提取所述網 頁的正文內容。
9.根據權利要求8所述的網頁內容提取裝置,其中所述布局分析單元進一步包括 網頁轉存單元,用於將所述網頁轉存為所述圖片;以及布局劃分單元,用於利用基於圖像的布局分析算法,對所述圖片進行區域布局劃分。
10.根據權利要求8所述的網頁內容提取裝置,其中所述文本節點映射單元進一步包括η元短語集合形成單元,用於根據自然語言處理中的η元語法統計技術,形成與所述文 本節點的真實文本相對應的η元短語集合;短語包含率計算單元,用於對於每個布局塊通過將所述η元短語集合中的短語包含在 所述布局塊的識別文本中的數目除以所述η元短語集合中的總短語數目來計算所述布局 塊相對於所述文本節點的短語包含率;以及第一映射單元,用於將所述文本節點映射到其短語包含率大於預定閾值的布局塊中。
11.根據權利要求10所述的網頁內容提取裝置,其中所述文本節點映射單元還包括 相鄰節點查找單元,用於如果所述文本節點未被映射到任一布局塊中,則查找與所述文本節點相鄰的已被映射文本節點;以及第二映射單元,用於將所述文本節點映射到所找出的相鄰文本節點所被映射的布局塊中。
12.根據權利要求11所述的網頁內容提取裝置,其中所述相鄰節點查找單元進一步包括文本節點編號單元,用於對所述文檔對象模型樹中的各個文本節點按照廣度優先的次 序進行順序編號;以及查找單元,用於查找其編號與所述文本節點的編號連續的已被映射文本節點,作為與 所述文本節點相鄰的所述已被映射文本節點。
13.根據權利要求8所述的網頁內容提取裝置,其中所述網頁內容提取單元進一步包括區域判定單元,用於根據所述布局塊在所述網頁中的位置坐標信息,判定所述布局塊 是否位於所述網頁的預定區域;以及提取單元,用於至少根據所述區域判定單元作出的判定結果來提取所述網頁的正文內容。
14.根據權利要求13所述的網頁內容提取裝置,其中所述提取單元還利用所述布局塊中所包含的文字長度與所包含的連結文字的長度的比例以及所述文本節點的屬性中的一 個或兩者來提取所述網頁的正文內容。
全文摘要
本發明公開了一種網頁內容提取方法和裝置,其中該網頁內容提取方法,包括如下步驟對網頁的圖片進行視覺布局分析,以將所述圖片分割為至少一個布局塊;對每個布局塊進行光學字符識別,以生成所述布局塊的識別文本;對所述網頁進行分析,以建立所述網頁的文檔對象模型樹;利用所述文檔對象模型樹中的文本節點的真實文本與所述布局塊的識別文本之間的對應關係,將所述文檔對象模型樹中的每個文本節點映射到所述布局塊之一中;以及至少利用所述布局塊在所述網頁中的位置信息來提取所述網頁的正文內容。本發明開創性地融合了圖像布局分析和自然語言處理的相關技術,形成了一個全自動、高效、準確的網頁內容提取方案。
文檔編號G06F17/30GK101937438SQ20091013974
公開日2011年1月5日 申請日期2009年6月30日 優先權日2009年6月30日
發明者於浩, 付雷, 孫俊, 孟遙 申請人:富士通株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀