新四季網

無效模板生成方法及裝置、無效網頁識別方法及裝置的製作方法

2023-05-28 09:50:31

專利名稱:無效模板生成方法及裝置、無效網頁識別方法及裝置的製作方法
技術領域:
本發明涉及信息處理技術,具體涉及一種無效模板生成方法及裝置、無效網頁識 別方法及裝置。
背景技術:
網際網路上存在這樣一些頁面,即這些頁面是對用戶的錯誤操作或者由於網站數據 未能準備好而對用戶進行的提示信息,比如http://artgle. cn/sceneshow/118468/110,此 類頁面對搜素引擎的用戶來說不具有檢索價值。通常這些頁面會保存在本地資料庫中,不 僅佔用了大量存儲空間,而且在用戶進行某些操作時,由於這些頁面的存在會耗費大量的 系統資源,比如在數據積累階段(Spider抓取網頁)。由此可見,如果可以快速準確地發現 此類網頁,對提升數據積累的效率,增強用戶搜索效果是很有幫助的。為此,現有技術中通常採用以下兩類方法發現無效頁面第一類是不做內容分析的方法,例如1.通過頁面大小來識別無效頁面,比如,將頁面長度小於Ik的頁面作為無效頁2.通過url (Uniform Resource Locator,統一資源定位符)的模式來識別無效頁 面,比如,如果url後的參數帶有Error等字符串,則判斷為無效頁面。這類不做內容分析的方法,處理速度快,但準確率和召回率都很難提升。第二類是通過內容分析,選取其中某些特徵進行統計分析,確定無效頁面,通常包 括以下過程1.隨機選取一定數量的網頁樣本(比如10000篇)進行人工標註,即對有效頁面 和無效頁面進行分類;2.利用此分類後結果選取網頁特徵(比如頁面長度,主要內容文字等)訓練分類 器;3.利用訓練好的分類器對新網頁樣本進行判決。這種方法可以詳細地分析網頁內容,在一定程度上保證了準確率,缺點在於需要 人工標註語料庫,耗時較長,而實際情況的無效頁面分布不均勻,特徵很難量化,實施困難。

發明內容
本發明實施例一方面提供一種無效模板生成方法及裝置,為基於內容的無效網頁 分析提供依據。本發明實施例另一方面提供一種無效網頁識別方法及裝置,以快速、準確地自動 識別無效網頁。為此,本發明實施例提供如下技術方案一種無效模板生成方法,包括獲取種子無效模板集合,所述種子無效模板集合中包含一個或多個種子無效網頁模板;根據所述種子無效網頁模板及本地網頁資料庫中的網頁,生成候選無效模板集 合;從所述候選無效模板集合篩選得到最終無效模板集合。一種無效網頁識別的方法,包括獲取當前網頁;如果所述當前網頁中包含所述最終無效模板集合中的任意一個無效網頁模板,並 且所述當前網頁的大小小於所述無效網頁模板對應的閾值,則確定所述當前網頁為無效網頁。一種無效模板生成裝置,包括獲取單元,用於獲取種子無效模板集合,所述種子無效模板集合中包含一個或多 個種子無效網頁模板;候選無效模板生成單元,用於根據所述種子無效網頁模板及本地網頁資料庫中的 網頁,生成候選無效模板集合;篩選單元,用於從所述候選無效模板集合篩選得到最終無效模板集合。一種無效網頁識別裝置,包括網頁獲取單元,用於獲取當前網頁;第一檢測單元,用於檢測所述當前網頁中是否包含最終無效模板集合中的任意一 個無效網頁模板;第二檢測單元,用於檢測所述當前網頁的大小是否小於所述無效網頁模板的對應 的閾值;確定單元,用於在所述第一檢測單元檢測到所述當前網頁中包含所述最終無效模 板集合中的任意一個無效網頁模板,並且所述第二檢測單元檢測到所述當前網頁的大小小 於所述無效網頁模板對應的閾值時,確定所述當前網頁為無效網頁。本發明實施例無效模板生成方法及裝置,通過獲取種子無效模板集合,根據所述 種子無效模板集合中的各種子無效網頁模板及本地網頁資料庫中的網頁,生成候選無效模 板集合,從所述候選無效模板集合中篩選得到最終無效模板集合,從而為基於內容的無效 網頁分析提供了依據。本發明實施例無效網頁識別方法及裝置,利用所述最終無效模板集合識別當前網 頁是否為無效網頁,具體地,如果所述當前網頁中包含所述最終無效模板集合中的任意一 個無效網頁模板,並且所述當前網頁的大小小於所述無效網頁模板對應的閾值,則確定所 述當前網頁為無效網頁。可見,本發明實施例利用網頁的內容信息,可以在保證網頁處理速 度的情況下,有效提高識別無效網頁的準確率。


圖1是本發明實施例無效模板生成方法的流程圖;圖2是本發明實施例無效網頁識別方法的流程圖;圖3是本發明實施例無效模板生成裝置的一種結構示意圖;圖4是本發明實施例無效模板生成裝置的另一種結構示意5
圖5是本發明實施例無效網頁識別裝置的一種結構示意圖;圖6是本發明實施例無效網頁識別裝置的另一種結構示意圖。
具體實施例方式為了使本技術領域的人員更好地理解本發明實施例的方案,下面結合附圖和實施 方式對本發明實施例作進一步的詳細說明。在介紹本發明具體實施例之前,首先對本發明實施例中使用的幾個名稱進行簡單 說明無效網頁,指在搜尋引擎中沒有搜索價值的網頁,比如用戶錯誤操作提示、網關關 閉通知等;無效網頁模板,指在無效網頁的集合中,多個無效網頁擁有的共同特徵,即同樣的 句子;本地網頁資料庫,指已收錄的網際網路上的網頁的集合(不帶html標籤的網頁)。本發明實施例無效模板生成方法及無效網頁識別方法,充分考慮了所有可能的無 效網頁的內容信息,由選取的一個或多個種子無效網頁模板組成種子無效模板集合,根據 所述種子無效網頁模板及本地網頁資料庫中的網頁,生成候選無效模板集合,並從所述候 選無效模板集合篩選得到最終無效模板集合,利用所述最終無效模板集合識別當前網頁是 否為無效網頁。具體地,如果所述當前網頁中包含所述最終無效模板集合中的任意一個無 效網頁模板,並且所述當前網頁的大小小於所述無效網頁模板對應的閾值,則確定所述當 前網頁為無效網頁。為了進一步提高無效模板的準確率,還可以將所述最終無效模板集合中的無效網 頁模板添加到所述種子無效模板集合中,進行迭代處理過程;當迭代處理後得到的最終無 效模板集合中的無效網頁模板的數量小於第二閾值時,停止所述迭代處理過程。如圖1所示,是本發明實施例無效模板生成方法的流程圖,包括以下步驟步驟101,獲取種子無效模板集合,所述種子無效模板集合中包含一個或多個種子 無效網頁模板。可以選取一定數量的無效網頁模板種子,由這些種子組成種子無效模板集合。為 了描述方便,將所述種子無效模板集合記為ISeed = {Ii},其中,Ii為具體的某一條無效網 頁模板。具體地,在選取無效網頁模板種子時,可以有多種方式,比如將包含以下內容信息 的網頁作為無效網頁模板種子1.您訪問的網頁不存在或已被刪除;或者2.找不到該信息,該信息已能已被刪除;或者3.您要訪問的網頁存在問題,因此無法顯示等。步驟102,根據所述種子無效模板及本地網頁資料庫中選擇網頁,生成候選無效模 板集合。所述本地網頁資料庫是指已收錄的網際網路上的網頁的全集,各網頁不帶btml標籤。由於不同的網頁在描述同一個錯誤的時候使用的句式或者詞語結構往往是類似的,但是並不完全相同。為此,可以通過計算句子相似度來尋找出所有可能的無效網頁模 板,由這些無效網頁模板組成候選無效模板集合。在計算句子相似度時,可以按以下過程進行1.讀取本地網頁資料庫,並讀取Iseed集合;2.遍曆本地網頁資料庫中每個網頁,對每個網頁進行如下操作(1)對每個網頁進行分句,比如按特殊符號(換行符和/或標點符號)進行分句, 得到分句後的網頁,記為Si。(2)對於每個種子無效模板Ii,計算其與Si的相似度,即計算無效模板Ii中的句 子與分句後的網頁Si中的句子的相似度,具體計算過程將在後面詳細說明。(3)如果計算得到的相似度大於設定的第一閾值,則將該Si作為候選的無效網頁 模板,記為Ti。3.遍曆本地網頁資料庫中的每個網頁結束後,即可將得到的所有候選的無效網頁 模板組成候選無效模板集合。假設兩個句子分別為Sl和S2,下面將詳細說明計算這兩個句子相似度Sim(Sl, S2)的過程。a.首先計算兩個句子Sl與S2的距離Dist (Si,S2),該距離表示將Si,S2分詞為 最小單位(去掉標點符號和助詞)後,Sl或S2經過最少幾次增加、或刪除、或修改操作,使 得 Sl = S2。例如Sl =您訪問的網頁不存在;S2 =您正在訪問的頁面不存在;分詞後結果為Sl =您/訪問/的/網頁/不存在;其中,「的」為助詞,其影響不計入計算句子距
離當中;S2 =您/正在/訪問/的/頁面/不存在;其中,「的」為助詞,其影響不計入計算
句子距離當中。如下表1所示的詞表,為了描述方便,將該詞表命名為D。第一行為Sl分詞後的結 果,第一列為S2分詞後的結果。表1
不存在5sucessDist (Si,S2)的初始值為 0。D[l,l] = success,表示Sl的第一個分詞單位與S2第一個分詞單位一致,即是相 匹配的;D[2,2] =Add(正在),表示Sl的第二個分詞單位與S2第二個分詞單位不同,需 要添加一個「正在」,才能與S2第二個分詞單位相匹配。此時記錄Dist(Sl,S2) = 1,表示 使用了一次增加操作,距離加1 ;D[2,3] = success,表示Sl中的第二個結點「訪問」與S2中的第三個結點「訪問」 相匹配;D [3,4] = Change (頁面),表示Sl第三個結點需要修改成「頁面」,才能與S2的第 4個結點相匹配。此時記錄Dist (Si,S2) = 2,表示使用一次修改操作,距離加1。D[4,5] = success,表示Sl中第四個結點「不存在」與S2中第五個結點「不存在」 相匹配。此時計算結束,在該過程中,Sl需要使用兩次增加、刪除或者修改操作,使得Sl = S2,因此得到 Dist(Sl,S2) =2。b.得到Sl與S2的距離後,可以按照預定的公式計算得到其相似度。可以根據Sl與S2的距離,大致得到Sl與S2的相似度,即Sl與S2的距離值越小, 說明Sl與S2的相似度越高;反之,Sl與S2的距離值越大,說明Sl與S2的相似度越低。如果為了得到更精確的相似度,可以按照一定的算法來計算Sim(Sl,S2)的值,比 如按以下公式計算Sim(Si,S2) = 1-Dist (Si,S2)/S1 和 S2 中長度最大值當然,本發明實施例並不僅限於上述公式來計算Sl與S2的相似度,還可以採用其 他算法,在此不再一一列舉。需要說明的是,在所述候選無效模板集合中,還可以加入在步驟101中獲得的種 子無效模板集合中包含的種子無效網頁模板。步驟103,從所述候選無效模板集合中篩選得到最終無效模板集合。具體地,可以根據所述候選無效模板集合中各無效網頁模板統計本地網頁資料庫 中無效網頁的長度和/或頻率,根據統計結果篩選得到最終無效模板集合。為了進一步提高無效模板的準確率,還可對所述候選無效模板集合中各無效網頁 模板做進一步地篩選。具體地,可以根據該集合中各無效網頁模板統計本地網頁資料庫中 無效網頁的長度和/或頻率,根據統計結果篩選得到最終無效模板集合。通常,一個或多個 網站的同一個無效網頁會批量出現。比如,http://artgle. cn/sceneshow/118468/110 是一個無效網頁;而 http://artgle.cn/sceneshow/118468/lll ;http//artgle.cn/sceneshow/ 118468/112等可能都是和此網頁一樣的無效網頁,但是本地網頁資料庫中卻保存了很多類 似這樣的網頁,所以可以將統計所述候選無效模板集合中各無效網頁模板出現在網頁的頻 率作為判斷是否為無效網頁的一個重要依據。具體地,可以將所述無效網頁模板的頻率定義為本地網頁資料庫中包含所述無效
8網頁模板的數量,為了描述方便,將所述頻率記為DF。如果DF大於設定的某一閾值,則可以 將相應的候選無效網頁模板作為最終的候選網頁模板,將其記錄到最終無效模板集合中。另外,為了防止誤判情況的發生,還可進一步參考網頁的長度來確定。通常,包含 一條無效網頁模板的網頁會有很多,這其中包括有效網頁和無效網頁。由於無效頁面的長 度分布都很集中,比如包含一條無效網頁模板「如果您的瀏覽器不支持javascript... 」的 無效網頁長度大都集中在1 3k或9 13k,而包含這條無效網頁模板的有效網頁的分布 則很稀疏,比如15k以上的就很少,因此,可以根據這種特性,篩選出網頁長度分布較多的 那個範圍的無效網頁,作為最終無效網頁。比如,一個討論網頁上出現「您訪問的頁面不存在」這個問題的解決辦法的頁面, 會命中所述候選無效模板集合中的某個無效網頁模板,此時,通過限定無效網頁模板的長 度即可避免這種誤判的情況發生。具體地,可以統計包含此條無效網頁模板的網頁的長度 分布,分布越密集的區域越有可能是真正的無效網頁的長度,分布稀疏的區域可能是有價 值的網頁。具體地,可以計算包含某個候選無效網頁模板的網頁的長度分布最密集的部分的 網頁長度,為了描述方便,將其記為lengthBoimd。如果某個候選無效網頁模板的網頁的長 度小於lengthBoimd,則可以將相應的候選無效網頁模板作為最終的候選網頁模板,將其記 錄到最終無效模板集合中。當然,考慮到不同的應用環境及實現複雜度,也可以只根據所述長度和頻率中的 任一個特徵來進行篩選,得到最終無效模板集合。為了描述方便,下面將所述最終無效模板集合記為Ifinal。需要說明的是,在 Ifinal中,對其中的每個無效網頁模板還可以設定一個對應的閾值。具體地,該閾值可以是 無效網頁模板的大小,也可以是大於無效網頁模板的大小的一個值。在本發明實施例中,為了進一步提高得到的最終無效模板集合的準確率,還可以 將所述最終無效模板集合中的無效網頁模板添加到所述種子無效模板集合中,進行迭代處 理,當迭代處理後得到的最終無效模板集合中的無效網頁模板的數量小於一定值(第二閾 值)時,停止所述迭代處理過程。可見,本發明實施例無效模板生成方法,充分考慮網頁的內容信息,由選取的一個 或多個種子無效網頁模板組成種子無效模板集合,根據所述種子無效網頁模板及本地網頁 資料庫中的網頁,生成候選無效模板集合,從所述候選無效模板集合中篩選得到最終無效 模板集合,從而為基於內容的無效網頁分析提供了準確的依據。基於上面實施例中得到的最終無效模板集合,本發明實施例還提供了一種無效網 頁識別方法,如圖2所示,是該無效網頁識別方法的流程圖,包括以下步驟步驟201,獲取當前網頁;步驟202,如果所述當前網頁中包含所述最終無效模板集合中的任意一個無效網 頁模板,並且所述當前網頁的大小小於所述無效網頁模板對應的閾值,則確定所述當前網 頁為無效網頁。例如,在利用Spider抓取網頁時,遍歷正在被抓取的當前網頁,如果命中最終無 效模板集合Ifinal中的某條無效網頁模板,即當前抓取的網頁中包含Ifinal中的某條無 效網頁模板,則認為這是一個無效網頁。否則,認為這是一個有效網頁。
進一步地,在命中Ifinal中的某條無效網頁模板後,還要判斷Spider抓取的網頁 的大小是否小於該無效網頁模板對應的閾值,如果是,則認為這是一個無效網頁。否則,認 為這是一個有效網頁。為了進一步提高本地網頁資料庫中存儲的網頁的有效性,在本發明實施例中,還 可以利用Ifinal對本地網頁資料庫進行清理,即按照上述過程遍曆本地網頁資料庫中的 網頁,如果所述本地網頁資料庫中包含無效網頁,則刪除其中的無效網頁。利用所述最終無效模板集合識別當前網頁是否為無效網頁,從而可以快速、準確 地自動識別無效網頁,進而可以提高檢索的召回率。所謂召回率是指檢索出的相關文檔數 和文檔庫中所有的相關文檔數的比率,衡量的是檢索的查全率。本領域普通技術人員可以理解實現上述實施例方法中的全部或部分步驟是可以 通過程序來指令相關的硬體來完成,所述的程序可以存儲於一計算機可讀取存儲介質中, 所述的存儲介質,如ROM/RAM、磁碟、光碟等。本發明實施例還提供了一種無效模板生成裝置,如圖3所示,是該裝置的結構示 意圖。在該實施例中,所述無效模板生成裝置包括獲取單元301、候選無效模板生成單 元302、篩選單元303。其中獲取單元301,用於獲取種子無效模板集合,所述種子無效模板集合中包含一個或 多個種子無效網頁模板;候選無效模板生成單元302,用於根據所述種子無效網頁模板及本地網頁資料庫 中的網頁,生成候選無效模板集合;篩選單元303,用於從所述候選無效模板集合中篩選得到最終無效模板集合。在本發明實施例中,所述候選無效模板生成單元302的一種優選結構包括分句 子單元321、計算子單元322、判斷子單元323和存儲子單元324。其中分句子單元321,用於讀取本地網頁資料庫中的網頁,並對所述網頁進行分句;計算子單元322,用於分別計算所述種子無效模板集合中的各種子無效模板與分 句後的網頁的句子相似度;判斷子單元323,用於在所述計算子單元得到的句子相似度大於第一閾值時,將對 應的分句後的網頁作為候選無效網頁模板;存儲子單元324,用於存儲由所述候選無效網頁模板組成的候選無效模板集合。當然,本發明實施例中,所述候選無效模板生成單元302並不僅限於上述這種結 構,根據應用需要,還可以有基於本發明思想實現的其他結構變形。在本發明實施例中,所述篩選單元303的一種優選結構包括統計子單元331和篩 選子單元332。其中統計子單元331,用於根據所述候選無效模板集合中各無效網頁模板統計本地網 頁資料庫中無效網頁的長度和/或頻率;所述無效網頁模板的頻率為本地網頁資料庫中包 含所述無效網頁模板的數量。篩選子單元332,用於根據統計結果篩選得到最終無效模板集合。當然,本發明實施例中,所述篩選單元303並不僅限於上述這種結構,根據應用需 要,還可以有基於本發明思想實現的其他結構變形。
可見,本發明實施例無效模板生成裝置,充分考慮了網頁的內容信息,由選取的一 個或多個種子無效模板組成種子無效模板集合,根據所述種子無效模板從本地網頁資料庫 中選擇網頁,生成候選無效模板集合,從所述候選無效模板集合中篩選得到最終無效模板 集合,從而為基於內容的無效網頁分析提供了準確的依據。在本發明實施例中,為了進一步提高得到的最終無效模板集合的準確率,還可以 將所述最終無效模板集合中的無效網頁模板添加到所述種子無效模板集合中,進行迭代處 理,當迭代處理後得到的最終無效模板集合中的無效網頁模板的數量小於一定值(第二閾 值)時,停止所述迭代處理過程。參照圖4,是本發明實施例無效模板生成裝置的另一種結構示意圖。在該實施例中,不僅包括與圖3所示實施例對應的獲取單元401、候選無效模板生 成單元402、篩選單元403,還包括迭代處理單元404和迭代判斷單元405。其中迭代處理單元404,用於將所述最終無效模板集合中的無效網頁模板添加到所述 種子無效模板集合中,進行迭代處理過程;迭代判斷單元405,用於判斷迭代處理後得到的最終無效模板集合中的無效網頁 模板的數量是否小於第二閾值,如果是,則通知所述迭代處理單元404停止所述迭代處理 過程。當然,在本發明實施例中,所述迭代判斷單元405可以在所述篩選單元403第一次 得到最終無效模板集合,即進行是否需要迭代處理的判斷,也可以在經過一次迭代處理後 再進行判斷,具體可根據應用需要來確定。需要說明的是,本發明實施例無效模板生成裝置並不僅限於這種結構,根據應用 需要,還可以有基於本發明思想實現的其他結構變形。基於上述實施例中無效模板生成裝置生成的最終無效模板集合,本發明實施例還 提供了 一種無效網頁識別裝置。如圖5所述,是該無效網頁識別裝置的一種結構示意圖。在該實施例中,所述無效 網頁識別裝置包括依次相連的網頁獲取單元500、第一檢測單元501、第二檢測單元502和 確定單元503。其中網頁獲取單元500,用於獲取當前網頁;第一檢測子單元501,用於檢測所述當前網頁中是否包含最終無效模板集合中的 任意一個無效網頁模板;第二檢測單元502,用於在第一檢測單元501檢測到所述當前網頁中包含所述最 終無效模板集合中的任意一個無效網頁模板後,檢測所述當前網頁的大小是否小於所述無 效網頁模板的對應的閾值;確定單元503,用於在第二檢測單元502檢測到所述當前網頁的大小小於所述無 效網頁模板對應的閾值後,確定所述當前網頁為無效網頁。如圖6所示,是本發明實施例無效網頁識別裝置的另一種結構示意圖。在該實施例中,所述無效網頁識別裝置包括網頁獲取單元600、分別與網頁獲取 單元600相連的第一檢測單元601和第二檢測單元602、分別與所述第一檢測單元601和第 二檢測單元602相連的確定單元603。其中網頁獲取單元600,用於獲取當前網頁;
第一檢測單元601,用於檢測所述當前網頁中是否包含最終無效模板集合中的任 意一個無效網頁模板;第二檢測單元602,用於檢測所述當前網頁的大小是否小於所述無效網頁模板的 對應的閾值;確定單元603,用於根據第一檢測單元601和第二檢測單元602的檢測結果確定所 述當前網頁為無效網頁。具體地,在所述第一檢測單元601檢測到所述當前網頁中包含所 述最終無效模板集合中的任意一個無效網頁模板,並且所述第二檢測單元602檢測到所述 當前網頁的大小小於所述無效網頁模板對應的閾值時,確定所述當前網頁為無效網頁。當然,本發明實施例無效網頁識別裝置並不僅限於上述這兩種結構,根據應用需 要,還可以有基於本發明思想實現的其他結構變形。比如,所述確定單元可以只根據所述第 一檢測單元或所述第二檢測單元的檢測結果來確定所述當前網頁是否為無效網頁。本發明實施例無效網頁識別裝置,利用所述最終無效模板集合識別當前網頁是否 為無效網頁,從而可以快速、準確地自動識別無效網頁,進而可以提高檢索的召回率。所謂 召回率是指檢索出的相關文檔數和文檔庫中所有的相關文檔數的比率,衡量的是檢索的查 全率。為了進一步提高本地網頁資料庫中存儲的網頁的有效性,在本發明實施例的無效 網頁識別裝置中,還可以進一步包括清理單元(未圖示),用於刪除所述本地網頁資料庫中 的無效網頁,即利用最終無效模板集合Ifinal對本地網頁資料庫進行清理,刪除其中的無 效網頁。以上對本發明實施例進行了詳細介紹,本文中應用了具體實施方式
對本發明進行 了闡述,以上實施例的說明只是用於幫助理解本發明的方法及設備;同時,對於本領域的 一般技術人員,依據本發明的思想,在具體實施方式
及應用範圍上均會有改變之處,綜上所 述,本說明書內容不應理解為對本發明的限制。
權利要求
一種無效模板生成方法,其特徵在於,包括獲取種子無效模板集合,所述種子無效模板集合中包含一個或多個種子無效網頁模板;根據所述種子無效網頁模板及本地網頁資料庫中的網頁,生成候選無效模板集合;從所述候選無效模板集合篩選得到最終無效模板集合。
2.根據權利要求1所述的方法,其特徵在於,所述根據所述種子無效網頁模板及本地 網頁資料庫中的網頁,生成候選無效模板集合包括讀取本地網頁資料庫中的網頁,並對所述網頁進行分句;分別計算所述種子無效模板集合中的各種子無效網頁模板與分句後的網頁的句子相 似度;如果得到的句子相似度大於第一閾值,則將對應的分句後的網頁作為候選無效網頁模板;由所述候選無效網頁模板組成候選無效模板集合。
3.根據權利要求1所述的方法,其特徵在於,所述從候選無效模板集合篩選得到最終 無效模板集合包括根據所述候選無效模板集合中各無效網頁模板統計本地網頁資料庫中無效網頁的長 度和/或頻率;所述無效網頁模板的頻率為本地網頁資料庫中包含所述無效網頁模板的數量。根據統計結果篩選得到最終無效模板集合。
4.根據權利要求1所述的方法,其特徵在於,所述方法還包括將所述最終無效模板集合中的無效網頁模板添加到所述種子無效模板集合中,進行迭 代處理過程;當迭代處理後得到的最終無效模板集合中的無效網頁模板的數量小於第二閾值時,停 止所述迭代處理過程。
5.一種基於權利要求1所述的最終無效模板集合進行無效網頁識別的方法,其特徵在 於,包括獲取當前網頁;如果所述當前網頁中包含最終無效模板集合中的任意一個無效網頁模板,並且所述當 前網頁的大小小於所述無效網頁模板對應的閾值,則確定所述當前網頁為無效網頁。
6.根據權利要求5所述的方法,其特徵在於,所述方法還包括如果所述本地網頁資料庫中包含無效網頁,則刪除所述本地網頁資料庫中的無效網頁。
7.一種無效模板生成裝置,其特徵在於,包括獲取單元,用於獲取種子無效模板集合,所述種子無效模板集合中包含一個或多個種 子無效網頁模板;候選無效模板生成單元,用於根據所述種子無效網頁模板及本地網頁資料庫中的網 頁,生成候選無效模板集合;篩選單元,用於從所述候選無效模板集合篩選得到最終無效模板集合。
8.根據權利要求7所述的裝置,其特徵在於,所述候選無效模板生成單元包括分句子單元,用於讀取本地網頁資料庫中的網頁,並對所述網頁進行分句; 計算子單元,用於分別計算所述種子無效模板集合中的各種子無效網頁模板與分句後 的網頁的句子相似度;判斷子單元,用於在所述計算子單元得到的句子相似度大於第一閾值時,將對應的分 句後的網頁作為候選無效網頁模板;存儲子單元,用於存儲由所述候選無效網頁模板組成的候選無效模板集合。
9.根據權利要求7所述的裝置,其特徵在於,所述篩選單元包括統計子單元,用於根據所述候選無效模板集合中各無效網頁模板統計本地網頁資料庫 中無效網頁的長度和/或頻率;所述無效網頁模板的頻率為本地網頁資料庫中包含所述無 效網頁模板的數量;篩選子單元,用於根據統計結果篩選得到最終無效模板集合。
10.根據權利要求7至9任一項所述的裝置,其特徵在於,還包括迭代處理單元,用於將所述最終無效模板集合中的無效網頁模板添加到所述種子無效 模板集合中,進行迭代處理過程;迭代判斷單元,用於判斷迭代處理後得到的最終無效模板集合中的無效網頁模板的數 量是否小於第二閾值,如果是,則通知所述迭代處理單元停止所述迭代處理過程。
11.一種基於權利要求7所述的無效模板生成裝置生成的最終無效模板集合進行無效 網頁識別的裝置,其特徵在於,包括網頁獲取單元,用於獲取當前網頁;第一檢測單元,用於檢測所述當前網頁中是否包含最終無效模板集合中的任意一個無 效網頁模板;第二檢測單元,用於檢測所述當前網頁的大小是否小於所述無效網頁模板的對應的閾值;確定單元,用於在所述第一檢測單元檢測到所述當前網頁中包含所述最終無效模板集 合中的任意一個無效網頁模板,和/或所述第二檢測單元檢測到所述當前網頁的大小小於 所述無效網頁模板對應的閾值時,確定所述當前網頁為無效網頁。
12.根據權利要求11所述的裝置,其特徵在於,還包括 清理單元,用於刪除所述本地網頁資料庫中的無效網頁。
全文摘要
本發明涉及信息處理技術,公開了一種無效模板生成方法及裝置,所述方法包括獲取種子無效模板集合,所述種子無效模板集合中包含一個或多個種子無效網頁模板;根據所述種子無效網頁模板及本地網頁資料庫中的網頁,生成候選無效模板集合;從所述候選無效模板集合篩選得到最終無效模板集合。本發明還公開了一種無效網頁識別方法及裝置。利用本發明,可以快速、準確地自動識別無效網頁。
文檔編號G06F17/30GK101908047SQ20091008685
公開日2010年12月8日 申請日期2009年6月8日 優先權日2009年6月8日
發明者佟子健, 張超旭 申請人:北京搜狗科技發展有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀