一種基於標點連續性的通用網頁正文提取方法及其系統的製作方法

2023-06-04 09:34:01 1

專利名稱：一種基於標點連續性的通用網頁正文提取方法及其系統的製作方法
技術領域：
本發明涉及計算機技術領域，特別是涉及一種基於標點連續性的通用網頁正文提取方法及其系統。
背景技術：
隨著網際網路的飛速發展，越來越多的企業和個人把信息公布於網上。每天，網際網路上都有成千上萬的網頁產生，人們可以跨越時間和空間界限來共享大量信息，網際網路已經成為了世界上一個最大的信息源。在這個浩如煙海的信息海洋中，如何幫助人們快速的提取有效的信息成為一個重要的課題。網頁作為網際網路上最為廣泛的信息載體，包含了絕大部分的網際網路信息，成為了搜尋引擎和普通用戶獲取信息的最常用手段。但是，以網頁為獲取信息的單元是不足夠的，因為網頁往往包含了多種主題的信息，如包含導航塊、廣告塊、版權聲明塊，信息塊等等。對於息的獲取者而目，信息塊往往是其唯一關心的對象。其餘的息成為了噪聲。對於如何去除網頁噪聲，自動提取信息塊已有不少研究I.基於文檔對象模型(DOM, Document Object Model)的信息提取HTML是一種規範，一種標準，它通過標記符號來標記要顯示的網頁中的各個部分。通過提取HTML文檔中的標記可以生成一顆DOM樹，再對樹中的特定節點(Table、Div，P)等進行處理來得到網頁有用信息，如《基於統計的網頁正文信息抽取方法的研究》中認為網頁的正文信息(有用信息)一般存在於一個Table節點中，通過統計節點中中文文字的信息得到特定的Table節點，提取其中的文字得到網頁的有用正文。此類研究還有《基於標記窗的網頁正文信息提取方法》等。基於DOM的網頁正文提取方法存在幾個問題不少的網頁不是結構良好的，形成的DOM樹可能不規範；HTML作為標記語言關注於如何顯示網頁，一般不關心網頁的分塊和語義信息；不同網站的網頁排版往往不同(正文的信息不一定都包含在一個Table節點中)。2.基於視覺的信息提取從人類的角度來看，當一個用戶觀察Web頁面的時候，它總是會自然而然的把一個語義塊作為一個單一對象來看待，而不會管Web頁面的內部結構是如何描述的。通常情況下，在分辨語義塊的時候，用戶會使用一些視覺因素來進行幫助，比如背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等等。因此如果充分的使用Web頁面的視覺提示，並結合DOM樹進行頁面語義分塊，則可以彌補僅使用DOM樹所帶來的一些缺憾。這類方法的代表是《VIPS :基於視覺的頁面分割算法》，基於視覺的正文提取方法需要獲取頁面的視覺因素，這是一個計算量比較大的過程，而且如果頁面的視覺因素通過不同的文件進行控制(如通過CSS層疊樣式表文件進行控制)，導致了獲取網頁還需要獲取其相關的控制文件，需要多次請求，效率比較低下。而且對於網頁風格不是十分良好的情況，基於視覺的正文提取精確度也會比較低下。3.基於規則制定和機器學習的方法
這種方法是基於機器學習的，通常使用數據挖掘中的分類技術通過設定一系列的與網頁正文相關的屬性，對大量(越多越好)的網頁訓練集進行訓練得到能夠判斷一個網頁的某個區塊是不是正文區塊的一個分類器，再用訓練後的分類器指導獲取網頁的正文。這類方法在訓練過程中需要對於訓練集中的網頁正文塊進行標識，這是一個工作量很大的過程。而且不同的網站規則往往不盡相同，能得到一個通用的規則難度很大，同樣也因為如此，導致了網頁正文提取的精確度比較低。上述三種提取方法中基於DOM的統計信息的方法針對於網站風格良好，排版較一致的網頁，而由於開發者的不同，HTML網頁標籤應用的複雜多樣化，網站的排版布局往往也是千變萬化，已有研究的實驗網頁大多基於正規的門戶網站，方法的通用性比較差。基於視覺信息的方法需要的計算量大，視覺啟發規則對於不同網站也不一定通用(比如對於標題的啟發規則塊A文字的字體是否比塊B的大，塊A、塊B的字體顏色是否不同，對於不同網站就不可能完全通用)，基於視覺信息的方法對於CSS控制的頁面排版的網頁會有很大的限制，而現在越來越多的網頁版面控制採用CSS，所以該方法的實際應用較少，通用性不強。基於機器學習的方法的難點主要有兩個第一個是網頁訓練集的數據量大小直接和分類器的提取準確率相關，需要人工標註網頁正文的區域，工作量繁重。第二個難點是是否存在一個可以判斷網頁正文區間並且具有較高準確率的通用的規則集，現在還沒有研究證明。

發明內容
本發明的目的在於克服現有技術之不足，提供一種基於標點連續性的通用網頁正文提取方法及其系統，是利用標點的連續性來獲取網頁正文，具有處理速度快、適應性強和通用性強的特點。本發明解決其技術問題所採用的技術方案是一種基於標點連續性的通用網頁正文提取方法，包括如下步驟讀入文件，並把讀入的文件轉化為Unicode的字符流形式的html原始碼；對html原始碼進行預處理，用預置的噪聲標記來去除html原始碼中存在的一些對於網頁正文提取無幫助作用的字符串；生成html標記樹,通過預置的解析工具把html原始碼表示成標記樹的形式；對標記樹中的正文格式信息進行處理，用預置的特定字符去替換對應的格式信提取文本文字的節點並採用過濾算法生成html標記樹中的文字節點序列；定義一個文章的常用標點集合P= {。，；「」…}，以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分，對於文字節點中的字符如果是集合P中的標點，則在標點後加分隔符或空格符作為分離的標誌；利用標點的延續性，抽取標點連續性最高的文字塊，返回為正文。所述的抽取標點連續性最高的文字塊的處理過程，包括如下步驟a.以分隔符或空格符為劃分點對上一步驟處理後的字符串進行切分，切分後得到字符串數組A= [S1, s2, S3,…，sn]，其中Sn為一個短句；b.遍歷數組A,把A中短句以集合P中的標點為結束的短句Sm,加入到標點句數組B= [si； Sj, sk,…，sn],並記錄短句的序號m ;c.依次計算集合B中元素的下標序號差…，如果k_j大於閾值，則表示短句Sp Sk之間不存在連續性，令短句集合Si, si+1, si+2…Sp為當前最長標點連續字符串集合，緩存為 L = (Si, si+1，si+2…SjJ ；d.重複步驟C，如果當前獲取的最長標點連續字符串集合長度大於L的長度，則替換L為當前獲取的最長標點連續字符串集合；e.數組B被處理完畢後，集合L中的文字即為網頁正文。本發明的一種基於標點連續性的通用網頁正文提取方法，是利用標點的連續性來獲取網頁的正文。本方法的依據是標點符號是中文中斷句、語義切分的重要標誌，一篇無標點的中文文章幾乎無法讓人正確理解文章所要表達的意思，標點是中文文章中不可或缺的標誌，因此，標點符號是網頁正文中不可或缺的一部分；而且，網頁的正文中通常存在著連續出現的標點；這樣，就可以判定標點連續性最高的文字往往是網頁的正文。此處標點的連續性指的是在網頁中對出現的文字，進行分塊後每一塊文字中標點存在情況的延續性。首先把待提取正文的html源文件轉化為Unicode的字符流形式，Unicode字符集能存儲絕大多數網頁的正文編碼，統一的編碼有利於後續的字符處理程序。接著去除噪聲標記信息，對在html原始碼中存在一些對於網頁正文提取無幫助作用，反而會對正文提取造成幹擾的噪聲標記塊，需要在預處理階段進行刪除。如script 塊 (no) script. * 〈/ (no) script〉) 一般用於輔助功能,注釋塊 ! —. * —.>) 是開發者對於網頁原始碼的注釋。其他如下拉列表的select塊，格式控制的style塊，跑馬燈的marquee塊，等等對於網頁正文的提取也是無幫助的。再接著生成html標記樹,html即超文本標記語言,是標準通用標記語言的一個子集，通過neko或者htmlparser等解析工具可以方便的把html原始碼表示成標記樹的形式。然後，對於標記樹中的正文格式控制信息進行處理，對於換行的格式信息如P，BR 等換行標記進行替換成特殊字符以便存儲換行信息，對於字體、顏色等文字信息，本方法並不專注於保持原文的全部字體信息所以此類如F0NT，STR0NG等標記信息作刪除處理(因為有可能對後續的處理造成影響)。而後，提取文本文字的節點。網頁正文提取的是文字節點的集合，算法過濾提取 html標記樹中的文字節點序列進行後續的處理。再接著，定義一個文章的常用標點集合P= {。，;…}，以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分對於文字節點中的字符如果是集合P中的標點，則在標點後加分隔字符(空格符)作為分尚的標誌。最後，利用標點的延續性，抽取標點連續性最高的文字塊，返回為正文。一種基於標點連續性的通用網頁正文提取系統，包括讀入模塊，該讀入模塊用來讀入文件，並把讀入的文件轉化為Unicode的字符流形式的html原始碼；去除噪聲標記信息模塊，該去除噪聲標記信息模塊用來對html原始碼進行預處理，用預置的噪聲標記來去除html原始碼中存在的一些對於網頁正文提取無幫助作用的字符串；
生成html標記樹模塊,該生成html標記樹模塊用來生成html標記樹,通過預置的解析工具把html原始碼表示成標記樹的形式；處理正文格式信息模塊，該處理正文格式信息模塊用來對標記樹中的正文格式信息進行處理，用預置的特定字符去替換對應的格式信息；提取文本節點生成文本句子序列模塊，該提取文本節點生成文本句子序列模塊用來提取文本文字的節點並採用過濾算法生成html標記樹中的文字節點序列；利用常用的標點對文本序列塊重新分句模塊，該利用常用的標點對文本序列塊重新分句模塊用來定義一個文章的常用標點集合P= {。，；…}，以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分，對於文字節點中的字符如果是集合P中的標點，則在標點後加分隔符或空格符作為分離的標誌；利用標點的連續性原理提取最長連續正文模塊，該利用標點的連續性原理提取最長連續正文模塊用來利用標點的延續性，抽取標點連續性最高的文字塊，返回為正文。本發明的有益效果是，由於採用了讀入文件，轉化為Unicode ;去除噪聲標記信息；生成html標記樹；處理正文格式信息；提取文本節點生成文本句子序列；利用常用的標點對文本序列塊重新分句；利用標點的連續性原理提取最長連續正文等處理步驟來實現通用網頁正文提取，相對於現有技術，具有如下優點I、標點符號是網頁正文必要部分，所以方法具有很高的通用性。2、標點符號只處理文字串，無需分析網頁的各種結果信息，性能上具有比較大的優勢，適合於實時的網頁正文提取。3、即使頁面結果複雜，含有多種幹擾信息，該方法也能有效的提取網頁的正文部分，方法的針對性很強。4、標點連續性最長的網頁文字為網頁的正文，也保證了網頁正文提取的精確度。以下結合附圖及實施例對本發明作進一步詳細說明；但本發明的一種基於標點連續性的通用網頁正文提取方法及其系統不局限於實施例。

圖I是一則網頁新聞頁面的示意圖；圖2是本發明方法的流程示意圖；圖3是本發明的html標記樹的結構示意圖。
具體實施例方式實施例，請參見圖I所示，圖I是一則網頁新聞頁面的示意圖，由圖I可以看出，新聞的正文中連續的標點出現是必然的。基於標點連續性的正文提取方法和基於視覺的正文提取有相同的點基於視覺的方法中正文區塊是標點連續性最強的區塊。參見圖2所示，本發明的一種基於標點連續性的通用網頁正文提取方法，包括如下步驟步驟SI :讀入文件,並把讀入的文件轉化為Unicode的字符流形式的html原始碼；即對應於圖2的「讀入文件，轉化Unicode」框；步驟S2 :對html原始碼進行預處理,用預置的噪聲標記來去除html原始碼中存在的一些對於網頁正文提取無幫助作用的字符串；即對應於圖2的「去除噪聲標記信息」框；步驟S3 :生成html標記樹,通過預置的解析工具把html原始碼表示成標記樹的形式；即對應於圖2的「生成html標記樹」框；步驟S4 :對標記樹中的正文格式信息進行處理，用預置的特定字符去替換對應的格式信息；即對應於圖2的「處理正文格式信息」框；步驟S5 :提取文本文字的節點並採用過濾算法生成html標記樹中的文字節點序列；即對應於圖2的「提取文本節點生成文本句子序列」框；步驟S6:定義一個文章的常用標點集合P= {。，; …}，以集合P中的節點對步驟S5中的文字節點序列進行重新的文字劃分，對於文字節點中的字符如果是集合P中的標點，則在標點後加分隔符或空格符作為分離的標誌；即對應於圖2的「利用常用的標點對文本序列塊重新分句」框；步驟S7 :利用標點的延續性，抽取標點連續性最高的文字塊，返回為正文；即對應於圖2的「利用標點的連續性原理提取最長連續正文模塊」框。其中，所述的抽取標點連續性最高的文字塊的處理過程，包括如下步驟步驟a.以分隔符或空格符為劃分點對步驟S6處理後的字符串進行切分，切分後得到字符串數組A = [Sl, s2, S3,…，sn]，其中Sn為一個短句；步驟b.遍歷數組A，把A中短句以集合P中的標點為結束的短句Sni，加入到標點句數組B= [si； Sj, sk,…，sn],並記錄短句的序號m ;步驟c.依次計算集合B中元素的下標序號差j_i，k_j…，如果k_j大於閾值，則表示短句Sp Sk之間不存在連續性，令短句集合Si，si+1, si+2-Sp為當前最長標點連續字符串集合，緩存為L = (Si, si+1，si+2…Sj}；步驟d.重複步驟C，如果當前獲取的最長標點連續字符串集合長度大於L的長度，則替換L為當前獲取的最長標點連續字符串集合；步驟e.數組B被處理完畢後，集合L中的文字即為網頁正文。本發明的一種基於標點連續性的通用網頁正文提取方法，是利用標點的連續性來獲取網頁的正文。本方法的依據是標點符號是中文中斷句、語義切分的重要標誌，一篇無標點的中文文章幾乎無法讓人正確理解文章所要表達的意思，標點是中文文章中不可或缺的標誌，因此，標點符號是網頁正文中不可或缺的一部分；而且，網頁的正文中通常存在著連續出現的標點；這樣，就可以判定標點連續性最高的文字往往是網頁的正文。此處標點的連續性指的是在網頁中對出現的文字，進行分塊後每一塊文字中標點存在情況的延續性。首先把待提取正文的html源文件轉化為Unicode的字符流形式，Unicode字符集能存儲絕大多數網頁的正文編碼，統一的編碼有利於後續的字符處理程序。接著去除噪聲標記信息，對在html原始碼中存在一些對於網頁正文提取無幫助作用，反而會對正文提取造成幹擾的早上標記塊，需要在預處理階段進行刪除。如script 塊 (no) script. * 〈/ (no) script〉) 一般用於輔助功能,注釋塊 ! —. * —.>) 用戶開發者對於網頁原始碼的注釋。其他下拉列表的select塊，格式控制的style塊，跑馬燈的marquee塊，等等對於網頁正文的提取也是無幫助的。再接著生成html標記樹,html即超文本標記語言,是標準通用標記語言的一個子集，通過neko或者htmlparser等解析工具可以方便的把html原始碼表示成標記樹的形式；如圖3所示。然後，對於標記樹中的正文格式控制信息進行處理，對於換行的格式信息如P，BR 等換行標記進行替換成特殊字符以便存儲換行信息，對於字體、顏色等文字信息，本方法並不專注於保持原文的全部字體信息所以此類如F0NT，STR0NG等標記信息作刪除處理(因為有可能對後續的處理造成影響)。而後，提取文本文字的節點。網頁正文提取的是文字節點的集合，算法過濾提取 html標記樹中的文字節點序列進行後續的處理。再接著，定義一個文章的常用標點集合P= {。，;…}，以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分對於文字節點中的字符如果是集合P中的標點，則在標點後加分隔字符(空格符)作為分尚的標誌。具體算法java表達如下
權利要求
1.一種基於標點連續性的通用網頁正文提取方法，其特徵在於包括如下步驟讀入文件，並把讀入的文件轉化為Unicode的字符流形式的html原始碼；對html原始碼進行預處理，用預置的噪聲標記來去除html原始碼中存在的一些對於網頁正文提取無幫助作用的字符串；生成html標記樹,通過預置的解析工具把html原始碼表示成標記樹的形式；對標記樹中的正文格式信息進行處理，用預置的特定字符去替換對應的格式信息；提取文本文字的節點並採用過濾算法生成html標記樹中的文字節點序列；定義一個文章的常用標點集合P= {。，； …}，以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分，對於文字節點中的字符如果是集合P中的標點，則在標點後加分隔符或空格符作為分離的標誌；利用標點的延續性，抽取標點連續性最高的文字塊，返回為正文。
2.根據權利要求I所述的基於標點連續性的通用網頁正文提取方法，其特徵在於所述的抽取標點連續性最高的文字塊的處理過程，包括如下步驟a.以分隔符或空格符為劃分點對上一步驟處理後的字符串進行切分，切分後得到字符串數組A = [S1, s2, S3, ···, sn],其中Sn為一個短句；b.遍歷數組A,把A中短句以集合P中的標點為結束的短句Sm,加入到標點句數組B= [Si, S」，sk, ···, sn],並記錄短句的序號m ；c.依次計算集合B中元素的下標序號差j-i，k-j···，如果k-j大於閾值，則表示短句 Sj, Sk之間不存在連續性，令短句集合Si，si+1, si+2··· Sp為當前最長標點連續字符串集合，緩為 L — {Sj j Si+1 j Si+2... Sj};d.重複步驟C，如果當前獲取的最長標點連續字符串集合長度大於L的長度，則替換L 為當前獲取的最長標點連續字符串集合；e.數組B被處理完畢後，集合L中的文字即為網頁正文。
3.一種基於標點連續性的通用網頁正文提取系統，其特徵在於包括讀入模塊，該讀入模塊用來讀入文件，並把讀入的文件轉化為Unicode的字符流形式的html原始碼；去除噪聲標記信息模塊，該去除噪聲標記信息模塊用來對html原始碼進行預處理，用預置的噪聲標記來去除html原始碼中存在的一些對於網頁正文提取無幫助作用的字符串;生成html標記樹模塊，該生成html標記樹模塊用來生成html標記樹，通過預置的解析工具把html原始碼表示成標記樹的形式；處理正文格式信息模塊，該處理正文格式信息模塊用來對標記樹中的正文格式信息進行處理，用預置的特定字符去替換對應的格式信息；提取文本節點生成文本句子序列模塊，該提取文本節點生成文本句子序列模塊用來提取文本文字的節點並採用過濾算法生成html標記樹中的文字節點序列；利用常用的標點對文本序列塊重新分句模塊，該利用常用的標點對文本序列塊重新分句模塊用來定義一個文章的常用標點集合P= {。，;…}，以集合P中的節點對上一步驟中的文字節點序列進行重新的文字劃分，對於文字節點中的字符如果是集合P中的標點，貝1J在標點後加分隔符或空格符作為分離的標誌；利用標點的連續性原理提取最長連續正文模塊，該利用標點的連續性原理提取最長連續正文模塊用來利用標點的延續性，抽取標點連續性最高的文字塊，返回為正文。
全文摘要
本發明公開了一種基於標點連續性的通用網頁正文提取方法及其系統，包括讀入文件，轉化為Unicode的處理步驟；去除噪聲標記信息的處理步驟；生成html標記樹的處理步驟；處理正文格式信息的處理步驟；提取文本節點生成文本句子序列的處理步驟；利用常用的標點對文本序列塊重新分句的處理步驟和利用標點的連續性原理提取最長連續正文的處理步驟。這種利用標點的連續性來獲取網頁正文的方式，具有處理速度快、適應性強和通用性強的特點。
文檔編號G06F7/20GK102591612SQ20111044670
公開日2012年7月18日申請日期2011年12月27日優先權日2011年12月27日
發明者張雪峰, 胡海斌, 趙庸申請人:廈門市美亞柏科信息股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種基於標點連續性的通用網頁正文提取方法及其系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法