新四季網

基於網頁結構的信息動態採集更新調度方法

2023-11-05 02:58:42

基於網頁結構的信息動態採集更新調度方法
【專利摘要】本發明公開了一種基於網頁結構的信息動態採集更新調度方法,該方法包括:S1,採用網頁結構分析方法對每個採集後的網頁進行量化打分;S2,頁面分數大於一定閾值判定為Hub頁面,參與更新採集調度;S3,將Hub頁面分數劃定等級,不同等級採用不同的調度周期實施調度;S4,每輪採集後,重新調整Hub頁面調度等級,在持續調整過程中實現更新採集效果的不斷優化。本發明實現了海量資訊時代下,信息採集系統準確、高效的要求。
【專利說明】基於網頁結構的信息動態採集更新調度方法
【技術領域】
[0001]本發明涉及一種網絡信息的處理技術,具體地說,是涉及一種基於網頁結構的信息動態採集更新調度方法。
【背景技術】
[0002]網際網路信息通常包含兩部分內容,一種是以連結為主的索引頁面也稱Hub頁面,另一種是以內容為主的內容頁面也稱Topic頁面。網頁/[目息米集是指對網絡上的/[目息利用網絡爬蟲技術自動搜集的過程,是搜尋引擎系統建設的重要基礎環節。
[0003]在海量網際網路信息的背景下,增量網頁識別能力是實現高效信息收集的必備條件。而目前業界普遍採用的方法依然是全量採集,即每一輪次信息採集都要把採集範圍內的所有網頁全部採集下來,或者採集到一定的網頁數量即停止採集,這就給採集系統帶來了超強的負荷。學術界也有不少學者在研究信息動態採集調度策略問題,集中在對特定領域及特定類型網頁的信息採集策略,主要採用基於網頁相關度或熱點查詢的權重計算方法、基於網頁信息構建採集規則等的方法。這些方法對於通用網際網路信息採集工作顯得蒼白無力,難以適應海量資訊時代下,信息採集系統準確、高效的要求。

【發明內容】

[0004]鑑於以上不足,本發明實施例提供了一種基於網頁結構的信息動態採集更新調度方法,採用基於網頁結構化分析方法自動識別Hub頁面,根據Hub頁面對新Topic頁面貢獻度大小動態調整Hub頁面活躍度,實現網頁信息動態採集更新,達到海量網際網路資訊時代下高效信息採集的目的。
[0005]本發明實施例提供一種基於網頁結構的信息動態採集更新調度方法,包括:
51、採用網頁結構分析方法對每個採集後的網頁進行量化打分;
52、頁面分數大於一定閾值(Θ)判定為Hub頁面,參與更新採集調度;
53、將Hub頁面分數劃定等級,不同等級採用不同的調度周期實施調度;
54、每輪採集後,重新調整Hub頁面調度等級,在持續調整過程中實現更新採集效果的不斷優化。
[0006]其中,SI中有效網頁結構信息包括:錨文本、有效連結、新連結、URL特徵、非連結文字等。從採集後的網頁中抽取這些信息,並計算其在網頁中所佔的對應比例。
[0007]每一項結構信息所佔比例作為量化打分的一個量化因子,所有量化因子定義如下。
[0008]量化因子A:錨文本佔比,是頁面中所有錨文本字符長度之和與網頁所有的內容字符的長度之比。
[0009]量化因子B:有效連結佔比,錨文本長度符合一定長度範圍的連結作為有效連結,長度超過一定大小或者小於一定大小的連結作為無效連結。頁面中有效連結數與總連結數之比即為有效連結佔比。[0010]量化因子C:新連結佔比,在頁面新發現的連結數與頁面中總連結數之比。
[0011 ] 量化因子D =URL特徵,如果網頁的URL名字包含「 index, htm」、「default, htm」等字符串,則對該網頁的權值增加D。
[0012]量化因子E:非連結文字佔比,頁面中非連結文字字符長度之和與網頁所有內容字符的長度之比。
[0013]量化因子F:調度獎罰因子,如果網頁在調度周期內採集成功,權值加F ;否則權值減F。
[0014]根據上述量化因子對頁面進行量化加權,採用的加權公式如下:
頁面量化分數=α *Α+ β *Β+ Y *C+D_ δ *E+/_F,其中α、β、y、δ為各量化因子的加權係數,量化分數為百分制,當量化分數大於100時記為100,不足O時記為O。
[0015]S2根據頁面權值,選取大於一定閾值(Θ )的頁面作為Hub頁面,參與更新調度。
[0016]S3根據頁面權值,將Hub頁面劃分到不同權值範圍,每一個權值範圍作為一個等級,賦予不同的調度周期,根據採集規模的不同,確定周期範圍。
[0017]S4每次更新採集後要對頁面進行重新量化打分,劃分為不同等級後的Hub頁面如果在調度周期內再次採集時遇到網絡錯誤、頁面被刪除等,會降低一定權值,根據調整後的權值,重新確定等級,判定頁面的調度周期。如果採集時更新採集成功則相應增加一定權值,同樣根據調整後的 權值,重新確定範圍,判定該頁面的調度周期以實現動態調整。
[0018]目前大型網頁採集系統很難實現增量式實時採集,本發明藉助網頁結構信息,設計一種量化打分算法,識別Hub頁面,並對Hub頁面進行動態登記調整,使得高等級的Hub頁面得到優先調度,實現機器和網絡資源的優化和高效使用,達到海量信息增量式採集準確、高校的目的。
【專利附圖】

【附圖說明】
[0019]圖1為本發明實施例提供的基於網頁結構的信息動態採集更新調度方法的流程圖。
[0020]圖2為本發明實施例提供的基於網頁結構分析方法的頁面量化打分算法的流程圖。
【具體實施方式】
[0021]下面結合附圖和實施例對本發明方法作進一步詳細說明。
[0022]如圖1所示為基於網頁結構的信息動態採集更新調度方法的流程圖,採集系統對每一個採集後的網頁進行分析,實現動態採集更新調度。調度策略包括:採用頁面量化打分算法對採集網頁進行量化打分(SI)、選定大於一定閾值的頁面作為Hub頁面(S2)、按Hub頁面得分劃定等級,賦予不同的採集周期,進行更新調度採集(S3)、每輪採集後重新對頁面量化打分,調整頁面等級及採集周期(S4)。
[0023]SI中採集系統對每個採集後的網頁進行分析,獲取網頁結構信息,並對每一項結構信息所佔比例進行量化打分,量化打分因子包括:錨文本佔比A、有效連結佔比B、新連結佔比C、URL特徵因子D、非連結文字佔比E、調度獎罰因子F。
[0024]採用如下加權公式,根據上述量化因子對頁面進行量化加權:頁面量化分數=α *Α+ β *Β+ Y *C+D_ δ *E+/_F,其中α、β、y、δ為各量化因子的加權係數,量化分數為百分制,當量化分數大於100時記為100,不足O時記為O。
[0025]量化因子的加權係數會根據目標網站集合的不同而有所差別,其取值範圍通常依據經驗來確定,例如新聞類網站α的經驗值為0.45、β的經驗值為0.15、Y的經驗值為
0.15、δ的經驗值為0.25,政府類網站α的經驗值為0.2、β的經驗值為0.4、Y的經驗值為0.2、δ的經驗值為0.2。
[0026]調度獎罰因子在初始打分時不存在,每輪採集後對頁面進行分數調整時,調度獎罰因子是一個重要調整因子。
[0027]S2根據頁面量化分數,選取大於一定閾值(Θ )的頁面作為Hub頁面,參與下一期更新調度。例如,頁面量化分制為百分制,閾值Θ可取值為60。
[0028]S3根據頁面量化分數,將Hub頁面劃分到不同權值範圍,每一個權值範圍作為一個等級,賦予不同的調度周期,根據採集規模的不同,確定周期範圍。如下表為一種調度周期計劃:
【權利要求】
1.基於網頁結構的信息動態採集更新調度方法,其特徵在於,包括: SI,採用網頁結構分析方法對每個採集後的網頁進行量化打分; S2,頁面分數大於一定閾值(Θ )判定為Hub頁面,參與更新採集調度; S3 JfHub頁面分數劃定等級,不同等級採用不同的調度周期實施調度; S4,每輪採集後,重新調整Hub頁面調度等級,在持續調整過程中實現更新採集效果的不斷優化。
2.如權利要求1所述的信息動態採集更新調度方法,其特徵在於,更新調度策略需在對待採集網頁進行初始採集後進行。
3.如權利要求1所述的信息動態採集更新調度方法,其特徵在於,SI中有效網頁結構信息包括:錨文本、有效連結、新連結、URL特徵、非連結文字等。
4.如權利要求1和權利要求3所述的信息動態採集更新調度方法,其特徵在於,每一項結構信息所佔比例作為量化打分的一個量化因子,所有量化因子定義如下: 量化因子A:錨文本佔比,是頁面中所有錨文本字符長度之和與網頁所有的內容字符的長度之比; 量化因子B:有效連結佔比,錨文本長度符合一定長度範圍的連結作為有效連結,長度超過一定大小或者小於一定大小的連結作為無效連結;頁面中有效連結數與總連結數之比即為有效連結佔比; 量化因子C:新連結佔比,在頁面新發現的連結數與頁面中總連結數之比; 量化因子D =URL特徵,如果網頁的URL名字包含「index.htm」、「default.htm」等字符串,則對該網頁的權值增加D ; 量化因子E:非連結文字佔比,頁面中非連結文字字符長度之和與網頁所有內容字符的長度之比; 量化因子F:調度獎罰因子,如果網頁在調度周期內採集成功,權值加F ;否則權值減F。
5.如權利要求1和權利要求4所述的信息動態採集更新調度方法,其特徵在於,頁面量化加權打分,按如下公式計算: 頁面量化分數=α *Α+β *B+Y *C+D_ δ *E +/- F,其中α、β、Y、δ為各量化因子的加權係數。
6.如權利要求5所述的信息動態採集更新調度方法,其特徵在於,量化分數為百分制,當量化分數大於100時記為100,不足O時記為O。
7.如權利要求5和權利要求6所述的信息動態採集更新調度方法,其特徵在於,量化分數大於一定閾值(Θ )的頁面作為Hub頁面,參與更新調度,否則不進行更新調度。
8.如權利要求1和權利要求5所述的信息動態採集更新調度方法,其特徵在於,將Hub頁面的量化分數劃分到不同權值範圍,每一個權值範圍作為一個等級,賦予不同的調度周期,根據採集規模的不同,確定周期範圍。
9.如權利要求1所述的信息動態更新採集調度方法,其特徵在於,每次更新採集後需要對頁面進行重新量化打分,劃分為不同等級後的Hub頁面,如果在調度周期內採集失敗,則降低一定權值;如果採集成功則相應增加一定權值,根據調整後的權值,重新確定範圍,判斷該頁面的調度周期,實施動態調度。
【文檔編號】G06F17/30GK103793421SQ201210428272
【公開日】2014年5月14日 申請日期:2012年10月31日 優先權日:2012年10月31日
【發明者】都雲程 申請人:北京拓爾思信息技術股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀