新四季網

網頁內容抽取方法和網頁內容抽取系統的製作方法

2023-10-08 21:25:34 2

網頁內容抽取方法和網頁內容抽取系統的製作方法
【專利摘要】本發明提供了一種網頁內容抽取方法和和網頁內容抽取系統。該網頁內容抽取方法包括:提取網頁對應的DOM樹結構;遍歷DOM樹,獲取DOM樹中各結點的維度特徵;將各結點的維度特徵按照預定規則輸入決策樹,對各結點進行分類,並根據決策樹的分類結果確定網頁的結構分塊;按照結構分塊選擇性抽取相應的網頁內容。利用本發明的技術方案,根據網頁的DOM樹結構進行結構分塊,根據結構分塊過濾掉無關塊的內容,抽取出需要的分塊的網頁內容,分塊和抽取過程中不需要使用人工規則,解決了人工規則效率低、維護複雜的問題。
【專利說明】網頁內容抽取方法和網頁內容抽取系統
【技術領域】
[0001]本發明涉及網際網路領域,具體而言,涉及一種網頁內容抽取方法和網頁內容抽取系統。
【背景技術】
[0002]一般而言,網頁包含的信息豐富而複雜,可以包括有導航、標題、正文、時間、甚至廣告等內容。為了在網頁中抽取有效的內容,就需要對網頁進行精細的分析。在現有技術中,對網頁內容抽取的方法存在兩種處理方式。
[0003]第一種為利用人工設置規則對頁面中固定某一區域的內容進行抽取,
[0004]第二種為人為地對頁面編譯語言進行手工標註從而形成網頁構造模板,對於大多數簡易的網頁可以基於網頁信息的位置總結出一定的模板形式,這樣在抽取一網頁信息時,只需要按照該網頁對應的模板抽取相應的內容。
[0005]上述兩種處理方式效率都較低,且存在通用性差,普適性不高的問題,尤其目前網際網路中的網頁形式千差萬別,網頁特徵維度越來越大,甚至可以達到上百個維度,要從複雜的網頁中總結出符合條件的經驗公式或者建立標註模板,都是非常困難的。另外,對於維度較多的網頁特徵,編寫出的人工規則必然也是十分繁雜,維護十分複雜;而且在網站改版時,此前的模板可能失效,從而導致抽取的內容出現偏差。

【發明內容】

[0006]鑑於上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的網頁內容抽取系統和相應的網頁內容抽取方法。
[0007]依據本發明的一個方面,提供了一種網頁內容抽取方法。該網頁內容抽取方法包括:提取網頁對應的DOM樹結構;遍歷DOM樹,獲取DOM樹中各結點的維度特徵;將各結點的維度特徵按照預定規則輸入決策樹,對各結點進行分類,並根據決策樹的分類結果確定網頁的結構分塊;按照結構分塊選擇性抽取相應的網頁內容。
[0008]可選地,遍歷DOM樹進一步包括:對DOM樹進行後跟遍歷,並通過累加當前遍歷結點的所有子結點的維度特徵得到當前遍歷結點的維度特徵和/或累加當前遍歷結點自身所帶的維度特徵以及當前遍歷結點的所有子結點的維度特徵得到當前遍歷結點的維度特徵。
[0009]可選地,將各結點的維度特徵按照預定規則輸入決策樹進一步包括:按照先跟遍歷的順序依次將DOM樹中各結點的維度特徵輸入決策樹。
[0010]可選地,根據決策樹的分類結果確定網頁的結構分塊的步驟進一步包括:根據決策樹對DOM樹中各結點的分類結果構建網頁的第一分塊序列,其中第一分塊序列包括多個結構分塊;將第一分塊序列輸入條件隨機場進行優化計算,得到第二分塊序列,其中第二分塊序列包括一個或多個經優化後的結構分塊。
[0011]可選地,結點的維度特徵至少包括以下的任意一項或多項:文本長度、超連結個數、超連結文本長度、高亮文本長度、中文字符長度、英文字符長度、數字字符長度、特定關鍵詞、特定標點符號。
[0012]可選地,網頁結構分塊的類型至少包括以下的任意一項或多項:導航塊、標題塊、正文塊、日期塊、時間塊、廣告塊、作者信息塊、垃圾塊、目錄塊。
[0013]根據本發明的另一方面,提供了一種網頁內容抽取系統。該網頁內容抽取系統包括:D0M樹提取器,適於提取網頁對應的DOM樹結構;D0M樹遍歷器,適於遍歷DOM樹,獲取DOM樹中各結點的維度特徵;決策樹分類器,適於將各結點的維度特徵按照預定規則輸入決策樹,對各結點進行分類,並根據決策樹的分類結果確定網頁的結構分塊;內容抽取器,適於從按照網頁結構分塊中選擇性抽取相應的網頁內容。
[0014]可選地,DOM樹遍歷器還適於:對DOM樹進行後跟遍歷,並通過累加當前遍歷結點的所有子結點的維度特徵得到當前遍歷結點的維度特徵和/或累加當前遍歷結點自身所帶的維度特徵以及當前遍歷結點的所有子結點的維度特徵得到當前遍歷結點的維度特徵。
[0015]可選地,決策樹分類器進一步包括:輸入模塊,適於按照先跟遍歷的順序依次將DOM樹中各結點的維度特徵輸入決策樹。
[0016]可選地,本發明提供的網頁內容抽取系統進一步包括:條件隨機場處理器,適於對第一分塊序列進行優化計算,輸出第二分塊序列,其中第一分塊序列由決策樹計算器輸出網頁的結構分塊構建,包括多個結構分塊,第二分塊序列包括一個或多個經優化的分塊。
[0017]本發明的網頁內容抽取方法根據網頁的DOM樹結構進行結構分塊,根據結構分塊過濾掉無關塊的內容,抽取出需要的分塊的網頁內容,分塊和抽取過程中不需要使用人工規則,解決了人工規則效率低、維護複雜的問題。
[0018]進一步地,本發明的網頁內容抽取方法中遍歷得到DOM樹結點的維度特徵,經過決策樹的分類以及條件隨機場的優化計算,分塊準確度高,能夠滿足對複雜多變的網頁進行處理的需要。
[0019]上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂,以下特舉本發明的【具體實施方式】。
[0020]根據下文結合附圖對本發明具體實施例的詳細描述,本領域技術人員將會更加明了本發明的上述以及其他目的、優點和特徵。
【專利附圖】

【附圖說明】
[0021]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明了。附圖僅用於示出優選實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0022]圖1示出了一種常見的頁面結構的分塊示意圖;
[0023]圖2示出了另一種常見的頁面結構的分塊示意圖;
[0024]圖3示意性地示出了根據本發明一個實施例的網頁內容抽取系統100的框圖;
[0025]圖4示意性地示出了根據本發明一個實施例的網頁內容抽取方法的流程圖;以及
[0026]圖5至圖8示意性地示出了利用本發明一個實施例的網頁內容抽取方法過程中網頁元素的變化過程。【具體實施方式】
[0027]在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備固有相關。各種通用系統也可以與基於在此的示教一起使用。根據上面的描述,構造這類系統所要求的結構是顯而易見的。此外,本發明也不針對任何特定程式語言。應當明白,可以利用各種程式語言實現在此描述的本發明的內容,並且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。
[0028]本發明實施例的技術方案是基於對頁面分塊提出,也就是將頁面按照內容劃分成不同類型的「塊」。圖1和圖2分別示出了兩種常見的頁面結構,其中,圖1示出的論壇網站的頁面被分為8個塊,分別為:導航塊、垃圾塊、翻頁、垃圾塊、標題塊、作者信息塊、發表日期塊、正文塊。網站的功能和作用不同,其結構分塊也是不同的,在圖2示出的新聞網站的頁面結構較為簡單,可以分為導航塊、標題塊、時間塊、正文塊等。一般而言,正文塊中包含的內容是整個頁面的核心內容,也是需要抽取的網頁內容。除以上兩個典型頁面中的分塊夕卜,根據頁面的內容和版面可以靈活地增加或減少頁面分塊。
[0029]在確定出頁面的分塊類型後,可以使用本發明實施例提供的網頁內容抽取系統和網頁內容抽取方法,查找出需要抽取的頁面分塊,抽取該分塊內相應的網頁內容。無需人工制定規則或人工標註,分塊準確度高,能夠滿足對複雜多變的網頁進行處理的需要。
[0030]圖3示意性地示出了根據本發明一個實施例的網頁內容抽取系統100的框圖。如圖3所示,網頁內容抽取系統100包括:D0M樹提取器110、D0M樹遍歷器120、決策樹分類器130、內容抽取器130。其中,DOM樹遍歷器120適於遍歷DOM樹,獲取DOM樹中各結點的維度特徵;決策樹分類器130適於將各結點的維度特徵按照預定規則輸入決策樹,對各結點進行分類,並根據決策樹的分類結果確定網頁的結構分塊;內容抽取器130適於從按照網頁結構分塊中選擇性抽取相應的網頁內容。
[0031]以上DOM樹提取器110可以提取出網頁對應的DOM樹結構。DOM是文檔對象模型(Document Object Model)的英文縮寫。根據W3C DOM規範,DOM是一種與瀏覽器、平臺、語言無關的接口,利用DOM可以方便訪問頁面其他的標準組件。DOM是以層次結構組織的結點或信息片斷的集合。這個層次結構允許開發人員在樹中導航尋找特定信息。分析DOM結構通常需要加載整個文檔和構造層次結構。並且由於它是基於信息層次的,因而DOM被認為是基於樹或基於對象的。DOM把HTML文檔呈現為帶有元素、屬性和文本的樹結構。在得到目標的網頁後,DOM樹提取器110可以使用Webkit等瀏覽器引擎,分析網頁的HTML文檔,將網頁解析成DOM樹。
[0032]DOM樹遍歷器120遍歷由DOM樹提取器110得出的DOM樹,獲取該DOM樹中各結點的維度特徵。在本實施例中,可以使用的維度特徵多達105個,主要涉及以下內容:文本長度、超連結個數、超連結文本長度、高亮文本長度(包含加大加粗的文字)、各種特殊字符個數、中文、英文、數字字符長度、是否出現關鍵詞或特定符號,以及管檢測或特定符號出現頻率等。
[0033]DOM樹遍歷器120遍歷DOM樹的過程可以採用後跟遍歷的方式進行,並通過累加當前遍歷結點的所有子結點的維度特徵得到當前遍歷結點的維度特徵或累加當前遍歷結點自身所帶的維度特徵以及當前遍歷結點的所有子結點的維度特徵得到當前遍歷結點的維度特徵。後跟遍歷的遍歷順序為:依次遍歷左子樹、右子樹、根結點,採用這種方式進行遍歷,獲取父結點的維度特徵時,可以通過累加子結點的特徵進行,避免了重複計算。其中,當前遍歷結點自身不帶有維度特徵時,該結點的維度特徵通過累加當前遍歷結點的所有子結點的維度特徵得到。在當前遍歷結點自身帶有維度特徵時,該結點的維度特徵通過訪問根結點累加當前遍歷結點自身所帶的維度特徵以及當前遍歷結點的所有子結點的維度特徵得到。通過遍歷可以得到DOM樹所有結點的維度特徵。
[0034]決策樹分類器130中可以包括輸入模塊,該輸入模塊將DOM樹遍歷器120輸出的各結點的維度特徵按照預定規則輸入決策樹對各結點進行分類,以上預定規則可以優選採用先跟遍歷的方式進行,依次將一個結點最多105個維度特徵輸入決策樹。先跟遍歷的遍歷順序為:依次遍歷根結點、左子樹、右子樹、採用這種方式進行遍歷。利用決策樹進行頁面的初步分塊,得到第一分塊序列。
[0035]決策樹是在已知各種分塊中各種維度特徵的統計數據的基礎上,通過構成決策樹來利用結點的維度特徵得出DOM中結點對應的分塊類型。進一步地,本實施例的網頁內容抽取系統還可以包括:條件隨機場處理器,適於對上述決策樹分類器130得出的第一分塊序列進行優化計算,輸出第二分塊序列,其中第一分塊序列由決策樹計算器輸出網頁的結構分塊構建,包括多個結構分塊,第二分塊序列包括一個或多個經優化的分塊。
[0036]條件隨機場處理器,利用條件隨機場(conditional random fields,簡稱CRF)對分塊序列進行優化計算,提高分塊的準確率和召回率,其中,將決策樹計算器輸出網頁的結構分塊構建的第一分塊序列作為CRF的輸入,CRF在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分布,即輸入給定觀察序列,求取最佳序列。從而因此利用CRF可以對決策樹的分類結果進行糾正,提高了分塊效果。
[0037]內容抽取器130按照決策樹分類器130確定出的網頁結構分塊,選擇性地抽取相應分中的網頁內容,從而得到需要要信息,完成網頁內容的抽取。
[0038]本實施例還提供了一種網頁內容抽取方法,該網頁內容抽取方法可以由以上介紹的任一種網頁內容抽取系統執行,利用DOM樹進行頁面分塊,並抽取對應分塊的網頁內容。圖4示意性地示出了根據本發明一個實施例的網頁內容抽取方法的流程圖。如圖4所示,該網頁內容抽取方法包括:
[0039]步驟S402,提取網頁對應的DOM樹結構;
[0040]步驟S404,遍歷DOM樹,獲取DOM樹中各結點的維度特徵;
[0041]步驟S406,將各結點的維度特徵按照預定規則輸入決策樹,對各結點進行分類,並根據決策樹的分類結果確定網頁的結構分塊;
[0042]步驟S408,按照結構分塊選擇性抽取相應的網頁內容。
[0043]在以上步驟中,步驟S402具體採用對DOM樹進行後跟遍歷的方式進行DOM樹的遍歷,而且並通過累加當前遍歷結點的所有子結點的維度特徵得到當前遍歷結點的維度特徵和/或累加當前遍歷結點自身所帶的維度特徵以及當前遍歷結點的所有子結點的維度特徵得到當前遍歷結點的維度特徵。採用後跟遍歷的遍歷方式,在獲取當前結點的維度特徵時,可以通過累加其子結點的特徵進行,避免了重複計算。例如,當前遍歷結點自身不帶有維度特徵時,該結點的維度特徵通過累加當前遍歷結點的所有子結點的維度特徵得到。在當前遍歷結點自身帶有維度特徵時,該結點的維度特徵通過訪問根結點累加當前遍歷結點自身所帶的維度特徵以及當前遍歷結點的所有子結點的維度特徵得到。從而可以得到DOM樹所有結點的維度特徵。
[0044]以上結點的維度特徵至少包括以下的任意一項或多項:文本長度、超連結個數、超連結文本長度、高亮文本長度、中文字符長度、英文字符長度、數字字符長度、特定關鍵詞、特定標點符號。在本實施例中可以使用的維度特徵多達105個。
[0045]步驟S406中輸入決策樹的步驟具體可以採用按照先跟遍歷的順序依次將DOM樹中各結點的維度特徵輸入決策樹,利用決策樹根據維度特徵對結點進行分類,根據決策樹對DOM樹中各結點的分類結果構建網頁的第一分塊序列,將第一分塊序列輸入條件隨機場進行優化計算,得到第二分塊序列。經過條件隨機場的計算,糾正決策樹輸出的第一分塊序列可能出現的錯誤,提高了分塊準確程度。
[0046]以上網頁的結構分塊可能包括以下任意一項或多項:導航塊、標題塊、正文塊、日期塊、時間塊、廣告塊、作者信息塊、垃圾塊、目錄塊。具體的網頁分塊,可以根據網頁根據頁面的內容和版面可以靈活地增加或減少頁面分塊,以上第一分塊序列和第二分塊序列相當於構成了網頁結構的「模板」。經過分塊,對網頁內容進行了分解,便於對需要的內容進行抽取。
[0047]圖5至圖8示意性地示出了利用本發明一個實施例的網頁內容抽取方法過程中網頁元素的變化過程。其中,圖5示出了將HTML文檔構建為DOM樹的過程,在DOM樹中,BODY代表了文檔的主體,DIV和SPAN是網頁中的塊級元素,A、A、P、B分別代表了 DIV和SPAN內更下一級的元素。
[0048]得到類似於圖5的DOM樹後,進行後跟遍歷,圖6示出了 DOM樹進行後跟遍歷的順序,根據圖中示出的順序,可以依次得到B、SPAN、P、A、A、DIV、BODY各個結點的維度特徵。
[0049]圖7示出了經過決策樹運算得到的第一分塊序列,在該序列中得到分塊結果依次為導航塊、正文塊、時間塊、正文塊,出現了兩個正文塊,因此需要對決策樹的初步分塊結果進行優化和糾正。將第一分塊序列的結果作為隨機條件場的輸入,進行優化運算,運算優化的輸出結果為第二分塊序列,該如圖8所示,第二分塊序列的分塊結果為導航塊、標題塊、時間塊、正文塊。
[0050]根據內容抽取的需要,按照第二分塊序列的分塊結果可以將正文塊的內容進行抽取,得到需要的信息。
[0051]本實施例的網頁內容抽取方法和網頁抽取系統根據網頁的DOM樹結構進行結構分塊,根據結構分塊過濾掉無關塊的內容,抽取出需要的分塊的網頁內容,分塊和抽取過程中不需要使用人工規則,解決了人工規則效率低、維護複雜的問題。
[0052]進一步地,本發明的網頁內容抽取方法中遍歷得到DOM樹結點的維度特徵,經過決策樹的分類以及條件隨機場的優化計算,分塊準確度高,能夠滿足對複雜多變的網頁進行處理的需要。
[0053]在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,並未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0054]類似地,應當理解,為了精簡本公開並幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特徵有時被一起分組到單個實施例、圖、或者對其的描述中。然而,並不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個權利要求中所明確記載的特徵更多的特徵。更確切地說,如下面的權利要求書所反映的那樣,發明方面在於少於前面公開的單個實施例的所有特徵。因此,遵循【具體實施方式】的權利要求書由此明確地併入該【具體實施方式】,其中每個權利要求本身都作為本發明的單獨實施例。
[0055]本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變並且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特徵和/或過程或者單元中的至少一些是相互排斥之外,可以採用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特徵以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特徵可以由提供相同、等同或相似目的的替代特徵來代替。
[0056]此外,本領域的技術人員能夠理解,儘管在此所述的一些實施例包括其它實施例中所包括的某些特徵而不是其它特徵,但是不同實施例的特徵的組合意味著處於本發明的範圍之內並且形成不同的實施例。例如,在權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0057]本發明的各個部件實施例可以以硬體實現,或者以在一個或者多個處理器上運行的軟體模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數位訊號處理器(DSP)來實現根據本發明實施例的網頁抽取系統中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用於執行這裡所描述的方法的一部分或者全部的設備或者裝置程序(例如,電腦程式和電腦程式產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。這樣的信號可以從網際網路網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0058]應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,並且本領域技術人員在不脫離所附權利要求的範圍的情況下可設計出替換實施例。在權利要求中,不應將位於括號之間的任何參考符號構造成對權利要求的限制。單詞「包含」不排除存在未列在權利要求中的元件或步驟。位於元件之前的單詞「一」或「一個」不排除存在多個這樣的元件。本發明可以藉助於包括有若干不同元件的硬體以及藉助於適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬體項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
[0059]至此,本領域技術人員應認識到,雖然本文已詳盡示出和描述了本發明的多個示例性實施例,但是,在不脫離本發明精神和範圍的情況下,仍可根據本發明公開的內容直接確定或推導出符合本發明原理的許多其他變型或修改。因此,本發明的範圍應被理解和認定為覆蓋了所有這些其他變型或修改。
【權利要求】
1.一種網頁內容抽取方法,包括: 提取網頁對應的DOM樹結構; 遍歷所述DOM樹,獲取所述DOM樹中各結點的維度特徵; 將所述各結點的維度特徵按照預定規則輸入決策樹,對所述各結點進行分類,並根據所述決策樹的分類結果確定所述網頁的結構分塊; 按照所述結構分塊選擇性抽取相應的網頁內容。
2.根據權利要求1所述的網頁內容抽取方法,其中,遍歷所述DOM樹進一步包括:對所述DOM樹進行後跟遍歷,並通過累加當前遍歷結點的所有子結點的維度特徵得到所述當前遍歷結點的維度特徵和/或累加當前遍歷結點自身所帶的維度特徵以及當前遍歷結點的所有子結點的維度特徵得到所述當前遍歷結點的維度特徵。
3.根據權利要求1所述的網頁內容抽取方法,其中,將所述各結點的維度特徵按照預定規則輸入決策樹進一步包括:按照先跟遍歷的順序依次將所述DOM樹中各結點的維度特徵輸入決策樹。
4.根據權利要求1至3中任一項所述的網頁內容抽取方法,其中,根據所述決策樹的分類結果確定所述網頁的結構分塊的步驟進一步包括: 根據決策樹對所述DOM樹中各結點的分類結果構建所述網頁的第一分塊序列,其中第一分塊序列包括多個結構分塊; 將所述第一分塊序列輸入條件隨機場進行優化計算,得到第二分塊序列,其中第二分塊序列包括一個或多個經優化後的結構分塊。
5.根據權利要求1至4中任一項所述的網頁內容抽取方法,其中,所述結點的維度特徵至少包括以下的任意一項或多項:文本長度、超連結個數、超連結文本長度、高亮文本長度、中文字符長度、英文字符長度、數字字符長度、特定關鍵詞、特定標點符號。
6.根據權利要求1至4中任一項所述的網頁內容抽取方法,其中,所述網頁結構分塊的類型至少包括以下的任意一項或多項:導航塊、標題塊、正文塊、日期塊、時間塊、廣告塊、作者?目息塊、垃圾塊、目錄塊。
7.—種網頁內容抽取系統,包括: DOM樹提取器,適於提取網頁對應的DOM樹結構; DOM樹遍歷器,適於遍歷所述DOM樹,獲取所述DOM樹中各結點的維度特徵; 決策樹分類器,適於將所述各結點的維度特徵按照預定規則輸入決策樹,對所述各結點進行分類,並根據所述決策樹的分類結果確定所述網頁的結構分塊; 內容抽取器,適於從按照所述網頁結構分塊中選擇性抽取相應的網頁內容。
8.根據權利要求7所述的網頁內容抽取系統,其中,所述DOM樹遍歷器還適於:對所述DOM樹進行後跟遍歷,並通過累加當前遍歷結點的所有子結點的維度特徵得到所述當前遍歷結點的維度特徵和/或累加當前遍歷結點自身所帶的維度特徵以及當前遍歷結點的所有子結點的維度特徵得到所述當前遍歷結點的維度特徵。
9.根據權利要求7所述的網頁內容抽取系統,其中,所述決策樹分類器進一步包括:輸入模塊,適於按照先跟遍歷的順序依次將所述DOM樹中各結點的維度特徵輸入決策樹。
10.根據權利要求7至9中任一項所述的網頁內容抽取系統,其進一步包括:條件隨機場處理器,適於對第一分塊序列進行優化計算,輸出第二分塊序列,其中所述第一分塊序列由所述決策樹計算器輸出所述網頁的結構分塊構建,包括多個所述結構分塊,所述第二分塊序列包括一個或.多個經優化的分塊。
【文檔編號】G06F17/30GK103473338SQ201310432426
【公開日】2013年12月25日 申請日期:2013年9月22日 優先權日:2013年9月22日
【發明者】王志剛 申請人:北京奇虎科技有限公司, 奇智軟體(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀