基於網頁結構的信息動態採集更新調度方法
2023-11-05 02:58:42
基於網頁結構的信息動態採集更新調度方法
【專利摘要】本發明公開了一種基於網頁結構的信息動態採集更新調度方法,該方法包括:S1,採用網頁結構分析方法對每個採集後的網頁進行量化打分;S2,頁面分數大於一定閾值判定為Hub頁面,參與更新採集調度;S3,將Hub頁面分數劃定等級,不同等級採用不同的調度周期實施調度;S4,每輪採集後,重新調整Hub頁面調度等級,在持續調整過程中實現更新採集效果的不斷優化。本發明實現了海量資訊時代下,信息採集系統準確、高效的要求。
【專利說明】基於網頁結構的信息動態採集更新調度方法
【技術領域】
[0001]本發明涉及一種網絡信息的處理技術,具體地說,是涉及一種基於網頁結構的信息動態採集更新調度方法。
【背景技術】
[0002]網際網路信息通常包含兩部分內容,一種是以連結為主的索引頁面也稱Hub頁面,另一種是以內容為主的內容頁面也稱Topic頁面。網頁/[目息米集是指對網絡上的/[目息利用網絡爬蟲技術自動搜集的過程,是搜尋引擎系統建設的重要基礎環節。
[0003]在海量網際網路信息的背景下,增量網頁識別能力是實現高效信息收集的必備條件。而目前業界普遍採用的方法依然是全量採集,即每一輪次信息採集都要把採集範圍內的所有網頁全部採集下來,或者採集到一定的網頁數量即停止採集,這就給採集系統帶來了超強的負荷。學術界也有不少學者在研究信息動態採集調度策略問題,集中在對特定領域及特定類型網頁的信息採集策略,主要採用基於網頁相關度或熱點查詢的權重計算方法、基於網頁信息構建採集規則等的方法。這些方法對於通用網際網路信息採集工作顯得蒼白無力,難以適應海量資訊時代下,信息採集系統準確、高效的要求。
【發明內容】
[0004]鑑於以上不足,本發明實施例提供了一種基於網頁結構的信息動態採集更新調度方法,採用基於網頁結構化分析方法自動識別Hub頁面,根據Hub頁面對新Topic頁面貢獻度大小動態調整Hub頁面活躍度,實現網頁信息動態採集更新,達到海量網際網路資訊時代下高效信息採集的目的。
[0005]本發明實施例提供一種基於網頁結構的信息動態採集更新調度方法,包括:
51、採用網頁結構分析方法對每個採集後的網頁進行量化打分;
52、頁面分數大於一定閾值(Θ)判定為Hub頁面,參與更新採集調度;
53、將Hub頁面分數劃定等級,不同等級採用不同的調度周期實施調度;
54、每輪採集後,重新調整Hub頁面調度等級,在持續調整過程中實現更新採集效果的不斷優化。
[0006]其中,SI中有效網頁結構信息包括:錨文本、有效連結、新連結、URL特徵、非連結文字等。從採集後的網頁中抽取這些信息,並計算其在網頁中所佔的對應比例。
[0007]每一項結構信息所佔比例作為量化打分的一個量化因子,所有量化因子定義如下。
[0008]量化因子A:錨文本佔比,是頁面中所有錨文本字符長度之和與網頁所有的內容字符的長度之比。
[0009]量化因子B:有效連結佔比,錨文本長度符合一定長度範圍的連結作為有效連結,長度超過一定大小或者小於一定大小的連結作為無效連結。頁面中有效連結數與總連結數之比即為有效連結佔比。[0010]量化因子C:新連結佔比,在頁面新發現的連結數與頁面中總連結數之比。
[0011 ] 量化因子D =URL特徵,如果網頁的URL名字包含「 index, htm」、「default, htm」等字符串,則對該網頁的權值增加D。
[0012]量化因子E:非連結文字佔比,頁面中非連結文字字符長度之和與網頁所有內容字符的長度之比。
[0013]量化因子F:調度獎罰因子,如果網頁在調度周期內採集成功,權值加F ;否則權值減F。
[0014]根據上述量化因子對頁面進行量化加權,採用的加權公式如下:
頁面量化分數=α *Α+ β *Β+ Y *C+D_ δ *E+/_F,其中α、β、y、δ為各量化因子的加權係數,量化分數為百分制,當量化分數大於100時記為100,不足O時記為O。
[0015]S2根據頁面權值,選取大於一定閾值(Θ )的頁面作為Hub頁面,參與更新調度。
[0016]S3根據頁面權值,將Hub頁面劃分到不同權值範圍,每一個權值範圍作為一個等級,賦予不同的調度周期,根據採集規模的不同,確定周期範圍。
[0017]S4每次更新採集後要對頁面進行重新量化打分,劃分為不同等級後的Hub頁面如果在調度周期內再次採集時遇到網絡錯誤、頁面被刪除等,會降低一定權值,根據調整後的權值,重新確定等級,判定頁面的調度周期。如果採集時更新採集成功則相應增加一定權值,同樣根據調整後的 權值,重新確定範圍,判定該頁面的調度周期以實現動態調整。
[0018]目前大型網頁採集系統很難實現增量式實時採集,本發明藉助網頁結構信息,設計一種量化打分算法,識別Hub頁面,並對Hub頁面進行動態登記調整,使得高等級的Hub頁面得到優先調度,實現機器和網絡資源的優化和高效使用,達到海量信息增量式採集準確、高校的目的。
【專利附圖】
【附圖說明】
[0019]圖1為本發明實施例提供的基於網頁結構的信息動態採集更新調度方法的流程圖。
[0020]圖2為本發明實施例提供的基於網頁結構分析方法的頁面量化打分算法的流程圖。
【具體實施方式】
[0021]下面結合附圖和實施例對本發明方法作進一步詳細說明。
[0022]如圖1所示為基於網頁結構的信息動態採集更新調度方法的流程圖,採集系統對每一個採集後的網頁進行分析,實現動態採集更新調度。調度策略包括:採用頁面量化打分算法對採集網頁進行量化打分(SI)、選定大於一定閾值的頁面作為Hub頁面(S2)、按Hub頁面得分劃定等級,賦予不同的採集周期,進行更新調度採集(S3)、每輪採集後重新對頁面量化打分,調整頁面等級及採集周期(S4)。
[0023]SI中採集系統對每個採集後的網頁進行分析,獲取網頁結構信息,並對每一項結構信息所佔比例進行量化打分,量化打分因子包括:錨文本佔比A、有效連結佔比B、新連結佔比C、URL特徵因子D、非連結文字佔比E、調度獎罰因子F。
[0024]採用如下加權公式,根據上述量化因子對頁面進行量化加權:頁面量化分數=α *Α+ β *Β+ Y *C+D_ δ *E+/_F,其中α、β、y、δ為各量化因子的加權係數,量化分數為百分制,當量化分數大於100時記為100,不足O時記為O。
[0025]量化因子的加權係數會根據目標網站集合的不同而有所差別,其取值範圍通常依據經驗來確定,例如新聞類網站α的經驗值為0.45、β的經驗值為0.15、Y的經驗值為
0.15、δ的經驗值為0.25,政府類網站α的經驗值為0.2、β的經驗值為0.4、Y的經驗值為0.2、δ的經驗值為0.2。
[0026]調度獎罰因子在初始打分時不存在,每輪採集後對頁面進行分數調整時,調度獎罰因子是一個重要調整因子。
[0027]S2根據頁面量化分數,選取大於一定閾值(Θ )的頁面作為Hub頁面,參與下一期更新調度。例如,頁面量化分制為百分制,閾值Θ可取值為60。
[0028]S3根據頁面量化分數,將Hub頁面劃分到不同權值範圍,每一個權值範圍作為一個等級,賦予不同的調度周期,根據採集規模的不同,確定周期範圍。如下表為一種調度周期計劃:
【權利要求】
1.基於網頁結構的信息動態採集更新調度方法,其特徵在於,包括: SI,採用網頁結構分析方法對每個採集後的網頁進行量化打分; S2,頁面分數大於一定閾值(Θ )判定為Hub頁面,參與更新採集調度; S3 JfHub頁面分數劃定等級,不同等級採用不同的調度周期實施調度; S4,每輪採集後,重新調整Hub頁面調度等級,在持續調整過程中實現更新採集效果的不斷優化。
2.如權利要求1所述的信息動態採集更新調度方法,其特徵在於,更新調度策略需在對待採集網頁進行初始採集後進行。
3.如權利要求1所述的信息動態採集更新調度方法,其特徵在於,SI中有效網頁結構信息包括:錨文本、有效連結、新連結、URL特徵、非連結文字等。
4.如權利要求1和權利要求3所述的信息動態採集更新調度方法,其特徵在於,每一項結構信息所佔比例作為量化打分的一個量化因子,所有量化因子定義如下: 量化因子A:錨文本佔比,是頁面中所有錨文本字符長度之和與網頁所有的內容字符的長度之比; 量化因子B:有效連結佔比,錨文本長度符合一定長度範圍的連結作為有效連結,長度超過一定大小或者小於一定大小的連結作為無效連結;頁面中有效連結數與總連結數之比即為有效連結佔比; 量化因子C:新連結佔比,在頁面新發現的連結數與頁面中總連結數之比; 量化因子D =URL特徵,如果網頁的URL名字包含「index.htm」、「default.htm」等字符串,則對該網頁的權值增加D ; 量化因子E:非連結文字佔比,頁面中非連結文字字符長度之和與網頁所有內容字符的長度之比; 量化因子F:調度獎罰因子,如果網頁在調度周期內採集成功,權值加F ;否則權值減F。
5.如權利要求1和權利要求4所述的信息動態採集更新調度方法,其特徵在於,頁面量化加權打分,按如下公式計算: 頁面量化分數=α *Α+β *B+Y *C+D_ δ *E +/- F,其中α、β、Y、δ為各量化因子的加權係數。
6.如權利要求5所述的信息動態採集更新調度方法,其特徵在於,量化分數為百分制,當量化分數大於100時記為100,不足O時記為O。
7.如權利要求5和權利要求6所述的信息動態採集更新調度方法,其特徵在於,量化分數大於一定閾值(Θ )的頁面作為Hub頁面,參與更新調度,否則不進行更新調度。
8.如權利要求1和權利要求5所述的信息動態採集更新調度方法,其特徵在於,將Hub頁面的量化分數劃分到不同權值範圍,每一個權值範圍作為一個等級,賦予不同的調度周期,根據採集規模的不同,確定周期範圍。
9.如權利要求1所述的信息動態更新採集調度方法,其特徵在於,每次更新採集後需要對頁面進行重新量化打分,劃分為不同等級後的Hub頁面,如果在調度周期內採集失敗,則降低一定權值;如果採集成功則相應增加一定權值,根據調整後的權值,重新確定範圍,判斷該頁面的調度周期,實施動態調度。
【文檔編號】G06F17/30GK103793421SQ201210428272
【公開日】2014年5月14日 申請日期:2012年10月31日 優先權日:2012年10月31日
【發明者】都雲程 申請人:北京拓爾思信息技術股份有限公司