一種基於標題的網頁有效元數據內容提取方法與流程
2023-10-08 18:23:49 1
本發明涉及,具體涉及一種基於標題的網頁有效元數據內容提取方法。
背景技術:
::隨著網際網路在全球範圍內的飛速發展,網絡新聞媒體已被公認為是繼報紙、廣播、電視之後的「第四媒體」。網絡技術推陳出新,網絡新聞、論壇、博客、聚合新聞等層出不窮,且具有範圍廣、交互性強、更新速度快的特點,可以說任何人都可以在bbs論壇,留言版或者自建站點上發布言論和觀點,而且,隨著web2.0的發展與廣泛應用,網際網路上的輿論信息迅速傳遍。從對社會影響方面看,網絡輿論成為社會輿論的一種重要表現形式。由於原始的網頁信息中包含有大量的導航信息與廣告信息等,對識別有效的輿論信息帶來極大的幹擾。那麼如何從不同的網頁中自動抽取出有效的正文內容、發表時間、原始來源、原始作者、相關的圖片、表格、文檔等元數據就變得尤為重要。對於提取網頁中的元數據內容傳統的方法是對每個不同的網站配置不同的抽取模板,即根據所要監測網站的文章內容網頁的展現形式通過正則表達式、前後字符或網頁元素的xpath路徑等預先定義好抽取規則後分別提取相關的元數據。中國專利「cn201611027102.8一種基於網頁聚類的正文信息提取方法」提供了一種網頁正文信息提取方法。此專利在基於相似的網站連結地址情況下,自動根據多個相似的網頁的特徵生成正文信息的抽取規則。傳統的根據不同的網站配置不同的網頁內容抽取規則,需要投入較多人力來根據不同的網站配置不同的抽取模板。一旦目標網站的網頁改版了,或者有稍微細小的調整都可能導致原來的抽取模板規則失效,需要重新根據新的版面配置新的抽取規則。這種形式維護工作量較大,不宜對數萬乃至數十萬上百萬個網站的網頁內容抽取。中國專利「cn201611027102.8一種基於網頁聚類的正文信息提取方法」需要通過對目標網站上的大量相似的網頁進行學習後提取特徵自動生成規則,也會存在目標網站的網頁改版後,需要重新學習抽取規則特徵的情況。技術實現要素:本發明的目的是提取出一種無需根據每個網站的展現形式制定抽取規則,根據網頁的標題信息自動識別網頁中有效元數據的方法。本發明的目的是通過以下技術方案實現的:一種基於標題的網頁有效元數據內容提取方法,提取方法基於連結標題或網頁標題來定義網頁的主體內容所在的位置,無需對網頁的html進行人工分析設定抽取規則,只需在識別時輸入網頁的html源碼和連結標題信息即可以自動識別出與網頁相關的各項元數據信息。具體步驟如下:(1)通過爬蟲系統讀取每個網站的連結、連結標題和網頁內容後;(2)將網頁內容送入內容識別算法,識別算法先判斷輸入的內容中是否有連結標題,沒有連結標題的自動提取網頁中的到中的內容作為信息標題;(3)剔除網頁原始碼中的script、iframe、noscript、textarea、select、注釋等信息,以加快有效內容的識別;(4)將網頁的html原始碼轉換成樹狀結構,在轉換中同時記錄每個樹結點的中的句子數量、連結數量等以作為識別的輔助信息;(5)逐個讀取html樹結點的元素中的文本內容,判斷該文本信息是否是句子或段落,判斷是否是句子或段落的依據是該段文本中的逗號數量是否超過2個,而且含有中英文常用的句子結束符號(句號、省略號、感嘆號等),如果不是句子的,判斷文本信息的長度是否大於3個漢字,6個字符,小於3個漢字的可以認為是噪聲信息不作後續的處理,繼續讀取下一個html樹結點;大於3漢字的,通過公式計算該字符串與輸入的標題的相似度;相似度計算公式為:(a∩b/a∪b)*100=相似度,即a為連結標題中的所有字符(英文以單詞),b為當前文本的所有字符,a與b中共同出現的字符數量除與a與b中所有不重複的單詞數量乘於100即為兩個文本的相似度;(6)當發現文本與標題的相似度超過20%時,先記錄當前文本的位置,繼續掃描其它的html樹結點,當發現該文本相似度超過原先搜索到的文本的相似度時,即可以替換原來的結點信息,逐步替換直到找到首個句子或段落出現時即結束標題信息的搜索;(7)當發現標題後到搜索到第一個句子或段落信息後,需要求出標題與首個句子的共同的首個父結點,並以此結點作為搜索起始通過深度掃描判斷每個結點的句子數量是否發生變化,當數量的變化不超過1/2時將繼續往下搜索,直到搜索出包含有最多句子和段落的html元素結點;至此,即可鎖定網頁的正文主體內容,通過html樹結點上的標籤信息如img可以獲得文中的圖片信息,通過table標籤可以獲得文中的表格信息,通過a標籤與href屬性判斷是否是文中的文檔信息;(8)除了識別正文與正文中的元數據外,還需要抽取正文相關的作者、來源、發表時間等信息,這個可以通過對正文標題到首個句子或段落間的文本信息進行掃描,並通過正則表達式來判斷是否是作者信息、來源信息或時間信息等屬性;(9)根據以上的信息,即可以將網頁內容識別出相關的屬性元數據信息。本發明具有如下有益的效果:本發明由於不需要對網頁的內容進行人工分析,只需要輸入連結的網頁內容和連結標題即可完成文章元數據內容的抽取。據統計網頁上80%以上的連結都有相應的標題信息,即便沒有標題信息,我們也可以從網頁的自身標題上獲取該網頁的大致內容,以此作為基礎搜索正文主體所在信息,並抽取出相關的屬性信息。通過該方法至少可以達到:①易維護,無需配置抽取規則,自動適應各種網站的網頁風格,大大減輕了維護成本;②速度快,無需學習模式,只要有標題經過簡單過濾後識別即可以快速鎖定文章的主體信息,在大規模識別網頁內容時具備有速度快的特點;③精準性,由於基於連結標題作為線索,即網頁中必須要出現與連結標題大體相似的信息,並以此作為中心點探測網頁的主體內容結點,所以獲得的主體內容必是與標題相關的結點,就該結點中輸出的內容就是網頁的內容;④易讀性,由於採用了html結構樹的模式,可以在鎖定主體內容結點後,可以以該結點為起始輸入遞歸輸出包含有html屬性的文本信息,可以較好地保留原文的風格,如加粗、字體大小等風格。附圖說明圖1為本發明的流程圖;圖2為本發明的html轉換成結構樹的效果圖;圖3為本發明的掃描標題與首個句子後的效果圖;圖4為本發明的識別到標題與句子段落的情況圖;圖5為本發明的識別到網頁中的元數據效果圖。具體實施方式下面結合附圖對本發明作進一步的說明:如圖1所示,一種基於標題的網頁有效元數據內容提取方法,提取方法基於連結標題或網頁標題來定義網頁的主體內容所在的位置,無需對網頁的html進行人工分析設定抽取規則,只需在識別時輸入網頁的html源碼和連結標題信息即可以自動識別出與網頁相關的各項元數據信息。具體步驟如下:(1)通過爬蟲系統讀取每個網站的連結、連結標題和網頁內容後;(2)將網頁內容送入內容識別算法,識別算法先判斷輸入的內容中是否有連結標題,沒有連結標題的自動提取網頁中的到中的內容作為信息標題;(3)剔除網頁原始碼中的script、iframe、noscript、textarea、select、注釋等信息,以加快有效內容的識別;(4)如圖2所示,將網頁的html原始碼轉換成樹狀結構,在轉換中同時記錄每個樹結點的中的句子數量、連結數量等以作為識別的輔助信息;(5)逐個讀取html樹結點的元素中的文本內容,判斷該文本信息是否是句子或段落,判斷是否是句子或段落的依據是該段文本中的逗號數量是否超過2個,而且含有中英文常用的句子結束符號(句號、省略號、感嘆號等),如果不是句子的,判斷文本信息的長度是否大於3個漢字,6個字符,小於3個漢字的可以認為是噪聲信息不作後續的處理,繼續讀取下一個html樹結點;大於3漢字的,通過公式計算該字符串與輸入的標題的相似度;相似度計算公式為:(a∩b/a∪b)*100=相似度,即a為連結標題中的所有字符(英文以單詞),b為當前文本的所有字符,a與b中共同出現的字符數量除與a與b中所有不重複的單詞數量乘於100即為兩個文本的相似度;(6)如圖3所示,當發現文本與標題的相似度超過20%時,先記錄當前文本的位置,繼續掃描其它的html樹結點,當發現該文本相似度超過原先搜索到的文本的相似度時,即可以替換原來的結點信息,逐步替換直到找到首個句子或段落出現時即結束標題信息的搜索;(7)如圖4所示,當發現標題後到搜索到第一個句子或段落信息後,需要求出標題與首個句子的共同的首個父結點,並以此結點作為搜索起始通過深度掃描判斷每個結點的句子數量是否發生變化,當數量的變化不超過1/2時將繼續往下搜索,直到搜索出包含有最多句子和段落的html元素結點;至此,即可鎖定網頁的正文主體內容,通過html樹結點上的標籤信息如img可以獲得文中的圖片信息,通過table標籤可以獲得文中的表格信息,通過a標籤與href屬性判斷是否是文中的文檔信息;(8)除了識別正文與正文中的元數據外,還需要抽取正文相關的作者、來源、發表時間等信息,這個可以通過對正文標題到首個句子或段落間的文本信息進行掃描,並通過正則表達式來判斷是否是作者信息、來源信息或時間信息等屬性;(9)如圖5所示,根據以上的信息,即可以將網頁內容識別出相關的屬性元數據信息。具體實施例如下:通過爬蟲系統讀取每個網站的連結、連結標題和網頁內容後;讀取到騰訊網有「德國聯邦情報局再曝醜聞,監控國際刑警組織多年」的標題,通過內容識別算法識別出該標題為連結標題,進入標題的連結網頁,剔除網頁原始碼中的注釋等信息,將網頁的html原始碼轉換成樹狀結構,對該網頁進行逐句的文本讀取,判斷句子和段落文字長度,進而搜索相似標題、內容、作者、發表時間,搜索到中國日報和《明鏡周刊》均有類似報導,進而讀取到所需要的信息。本發明通過基於連結標題或網頁標題來定義網頁的主體內容所在的位置,可以無需對網頁的html進行人工分析設定抽取規則。只需在識別時輸入網頁的html源碼和連結標題信息即可以自動識別出與網頁相關的各項元數據信息,關鍵電涉及到將html源碼轉換為html結構樹,要求html源碼在轉換為結構樹能較好的地滿足html規範,並具有一定的容錯能力,如只有的標籤,沒有標籤時可以自動結束一個html結點,同時還需要快速的文本相似度計算公式與句子段落判定公式,通過以上幾項技術的,結合本發明算法即可以實現快速的對各種網頁內容抽取文章的元數據信息。以上顯示和描述了本發明的基本原理、主要特徵和優點。本行業的技術人員應該了解,本發明不受上述實施過程的限制,上述實施過程和說明書中描述的只是說明本發明的原理,在不脫離本發明精神和範圍的前提下,本發明還會有各種變化和改進,這些變化和改進都落入要求保護的本發明的範圍內。本發明要求護範圍由所附的權利要求書及其效果界定。當前第1頁12當前第1頁12