新四季網

一種基於網際網路定向站點網頁數據採集的方法及裝置的製作方法

2023-10-11 14:05:59

專利名稱:一種基於網際網路定向站點網頁數據採集的方法及裝置的製作方法
技術領域:
本發明屬於計算機網際網路技術領域,特別涉及一種基於網際網路定向站點網頁數據 採集的方法及裝置。
背景技術:
網際網路一直處於高速發展狀態,信息數量高速膨脹。更多的公眾通過網際網路查詢 相關信息。雖然使用公共的搜尋引擎可以搜索各種信息,但這些搜尋引擎的結果存在著不 少的缺陷實時性不夠,不能直接看到詳細的正文信息等等。由此誕生了很多網絡採集系 統。這些採集系統一般都是配置要採集的站點,設置起始的URL,採集系統就自動地按照網 站結構的層次來設置URL的優先級,並按照這個級別進行網頁的抓取。這種機制基本保證 了數據的「採全性」,但卻不能滿足用戶的「時效性」。比如一篇新聞被分為10個頁面分別 顯示,在採集到第一個頁數據後,同時取到了其他分頁的URL,這些頁面被稱之為與之前採 集的頁面內容關聯的頁面,無論這片新聞第一頁URL的優先級是高是低,在採集完第一頁 數據後,剩餘的頁面都應該儘快地採集下來,從而保證讓用戶最快的看到完成的新聞信息。從以上問題可以看出現有技術中採集系統無法保證對採集站點及時、有效的進行 數據採集。

發明內容
為了解決現有技術文件採集系統無法保證對採集站點及時、有效的進行數據採集 的問題,本發明實施例提供了一種基於網際網路定向站點網頁數據採集的方法,包括根據待採集網頁的統一資源定位器URL的優先級值,將待採集網頁的URL加入到 具有對應優先級的待訪問URL隊列中;根據各URL隊列中的URL數量、URL隊列優先級值和權值因子確定各URL隊列權 值,權值因子為用於刷新和獲取內容頁連結的列表頁刷新後,列表頁中新的URL連結數量;對權值最高的待訪問URL隊列中的URL進行訪問,並根據訪問的URL採集網頁數 據同時本發明實施例還提供一種基於網際網路定向站點網頁數據採集的裝置,包括隊列生成模塊用於根據待採集網頁的統一資源定位器URL的優先級值,將待採 集網頁的URL加入到具有對應優先級的待訪問URL隊列中;權值確定模塊用於根據各URL隊列中的URL數量、URL隊列優先級值和權值因子 確定各URL隊列權值,權值因子為用於刷新和獲取內容頁連結的列表頁刷新後,列表頁中 新的URL連結數量;獲取模塊用於對權值最高的待訪問URL隊列中的URL進行訪問,並根據訪問的 URL採集網頁數據。由本發明提供的具體實施方案可以看出,正是由於計算得到URL隊列權值,進而 從權值最高的URL隊列中獲取URL,進而實現及時、有效的進行數據採集。


圖1為本發明提供的第一實施例方法流程圖;圖2為本發明提供的第二實施例系統結構圖。
具體實施例方式為了解決現有技術中採集系統無法保證對採集站點及時、有效的進行數據採集的 問題,本發明實施例提供了一種基於網際網路定向站點網頁數據採集的方法,尤其是針對URL 的優先級和採集隊列(即採集系統的待訪問隊列)的優先級管理,具體包括配置採集任 務,其中包括起始URL和採集的深度。根據指定的起始URL採集網頁數據,按照URL分類機 制對分析出的新的URL(即待採集URL)設定不同的優先級,並插入相應的優先級隊列本實 施例中的待採集URL是指待採集下來加入到待訪問URL隊列中的URL,。當網頁下載模塊向URL管理模塊請求訪問一個可用URL時,URL管理模塊根據不 同優先級URL隊列的長度、優先級級別和權值因子計算各URL隊列的權值,優先從權值最大 的URL隊列中取URL訪問。進一步同時兼顧禮貌訪問問題,避免對某些站點訪問數過大而 被拒絕。使用該方法既能夠保證任務刷新的及時性以及內容關聯的網頁採集的時效性,也 能夠避免低優先級的URL被「餓死」,同時兼顧站點訪問友好性,實現高效穩定的數據採集。本發明提供的第一實施例是一種基於網際網路定向站點網頁數據採集的方法,為了 實現本實施例中的方法,採用URL分類機制,具體定義列表頁連結URLB。arf,不保存網頁數據,只用於刷新和獲取內容頁連結的連結,如 一個網站的首頁(不保存網頁數據)的URL就是一個列表頁連結;內容頁連結URLc。ntent,保存有網頁數據的連結,如新聞正文、帖子、博客的日誌 等,進行保存,如一個博客日誌的URL就是內容頁連結;翻頁連結URLPageup,包括 URLB。ard 類 URL
Pageup
和 URLconlent 類 URLpageup ; URLeoard 類 URLpageup 指翻頁連結 URLpagwp 為列表頁連結 URLB。a,d,URLcontent 類 URLpageup 指翻頁連結 URLpagwp 為內容頁連結URLfontent,如一個搜尋引擎搜索完畢後的搜索結果展示網頁中用於進入多個 其它搜索結果展示頁面的URL即為URL。 類URLpageup,或一篇新聞網頁中用於進入多個新 聞內容關聯的頁面的URL即為URLB。a,d類URLPageup。內容分析返回的連結URLKrtum,指將內容頁連結的內容頁面分析後獲取的內容關 聯的頁面連結,包括URLC 類URLpageup和URLQthCT(如圖片連結、附件連結等);其他的連結=URLmict,包括圖片連結、附件連結等;優先級的自動設定,本實施例中採集系統中的最高優先級值nValPrimax = TASK_ PRIORIGY_VALUE ;已採集下來的URL的優先級值nValPri。urPage,其取值範圍為[1,TASK_PRI0RITY_ VALUE];本實施例中,首先配置要採集的的站點,設置起始URL,根據配置的採集任務中預 先設定的採集所需的各起始URL的優先級值,將各起始URL作為待採集URL加入到對應優 先級的待訪問URL隊列中,例如配置任務中設定有2起始URL分別為URLl和URL2,URL1的優先級值為5,URL2的優先級值為3,將URLl加入到優先級值為5的待訪問URL隊列中,將 URL2加入到優先級值為3的待訪問URL隊列中,這樣在後續步驟中,採集系統通過對優先級 值為3和優先級值為5的待訪問URL隊列進行訪問,就可以採集到URLl和URL2。基於此, 其它待採集URL (非起始URL)通過已訪問的URL直接得到,待採集URL的優先級定義如下對於通過已訪問的URL直接得到的待採集URL中,類別為URLKeturn的URL,其優先 級值 nValPriKeturnUri = nValPrimax ;對於通過已訪問的URL直接得到的待採集URL中,類別為URLB。arf類URLpageup類別 的 URL,其優先級值 nValPriPageuptel = nVaIPricurpage ;除了 URLKeturn和URLB。arf類URLpageup之外的其他通過已訪問的URL直接得到的待採 集 URL,其優先級值 IiValPriurl = nValPri。urPage-l。隨著採集系統的長期運行,系統存儲的已訪問的歷史記錄也會越來越多。以一個 採集系統一天刷新採集的頁面為40萬為例,設定一個URL的平均長度為200個字節計算, 一天記錄的歷史URL信息就是約76MB,一周的訪問歷史為約532MB,URL消重將成為採集系 統性能的一大障礙。進一步,為了避免重複採集,在執行本實施例的方法前,需進行URL快速消重,待 採集URL加入待訪問隊列前,根據MD5算法計算待採集URL的MD5散列值,與待訪問隊列已 訪問的URL、正在訪問的URL和未訪問的URL的MD5散列值進行比較,如果是新聞或博客站 點的URL,同時在系統記錄的所有URL的MD5信息中未找到,則將其插入對應優先級的帶採 集URL隊列中;如果是論壇帖子的URL,則需要進一步判斷該帖子的回覆數是否有更新,若 已更新則插入待採集URL隊列,若均不相同則加入對應優先級的URL隊列中。否則拋棄,待 訪問隊列指與待採集URL具有對應優先級的URL隊列。具體過程為,對待加入到待訪問URL隊列的待採集URL進行解析,拼成一個絕對路
徑的 URLAbs。lute,計算 URLAbs。lute 的 MD5 值 URLm5。其中計算URLAbs。lute的MD5值URLm5如下,補充URLAbs。lute的長度為512位的整數倍, 補充後的URL信息為StrTempurl,對StrTempuri按照512位進行分組,分組數目為nNumGroup ;引入MD5算法四個32位連結變量(chaining variable),分別為A = 0x01234567,B = 0x89abcdef,C = 0xfedcba98, D = 0x76543210 ;將 A、B、C、D 分別賦值給 a, b, c, d進入算法的四輪循環運算,循環的次數nNumCycle = nNumGroup。FF(a, b,C,d,x
FF (d,a,b,C,x[l,S12,0xe8c7b756)
FF (c,d,a,b,χ [2,S13,0x242070db)/*3*/
FF (b,C,d,a,χ [3,S14,Oxclbdceee)
FF (a,b,C,d,χ [4,Sll,0xf57c0faf)
FF (d,a,b,C,χ [5,S12,0x4787c62a)/*6*/
FF (c,d,a,b,χ [6,S13,0xa8304613)/*7*/
FF (b,C,d,a,x [7,S14,0xfd469501)/*8*/
FF (a,b,C,d,χ [8,Sll,0x698098d8)/*9*/
FF (d,a,b,C,χ [9,S12,0x8b44f7af)/*10*
FFC,d,a,b,x[10],S13,0xffff5bbl)/*11*/
FFb,C,d,a,x[ll],S14,0x895cd7be)/*12*/
FFa,b,C,d,x[12],Sll,0x6b901122)/氺13氺/
FFd,a,b,C,x[13],S12,0xfd987193)/*14*/
FFC,d,a,b,x[14],S13,0xa679438e)/*15*/
FFb,C,d,a,x[15],S14,0x49b40821)/*16*/
/*Round 2*/
GGa,b,C,d,x[l],S21,0xf61e2562) ;//氺17氺/
GGd,a,b,C,x [6],S22,0xc040b340) ;/418*/
GGC,d,a,b,x[ll],S23,0x265e5a51)/*19*/
GGb,C,d,a,x
,S24,0xe9b6c7aa) ;/420*/
GGa,b,C,d,x [5],S21,0xd62fl05d) ;/ζ氺21氺/
GGd,a,b,C,x[10],S22,0x2441453) ;/ζ氺22氺/
GGC,d,a,b,x[15],S23,0xd8ale681)
GGb,C,d,a,x [4],S24,0xe7d3fbc8) ;/ζ氺24氺/
GGa,b,C,d,x [9],S21,0x21elcde6) ;/
GGd,a,b,C,x[14],S22,0xc33707d6)
GGC,d,a,b,x [3],S23,0xf4d50d87) ;/ζ氺27氺/
GGb,C,d,a,x [8],S24,0x455al4ed) ;/
GGa,b,C,d,x[13],S21,0xa9e3e905)
GGd,a,b,C,x [2],S22,0xfcefa3f8) ;/430*/
GGC,d,a,b,x [7],S23,0x676f02d9) ;/ 31*/
GGb,C,d,a,x[12],S24,0x8d2a4c8a)
/*Round 3*/
HHa,b,C,d,x [5],S31,0xfffa3942) ;/ζ氺33氺/
HHd,a,b,C,x [8],S32,0x8771f681) ;/
HHC,d,a,b,x[ll],S33,0x6d9d6122)
HHb,C,d,a,x[14],S34,0xfde5380c)
HHa,b,C,d,x[l],S31,0xa4beea44) ;/ζ氺37氺/
HHd,a,b,C,x [4],S32,0x4bdecfa9) ;/
HHC,d,a,b,x [7],S33,0xf6bb4b60) ;/>39*/
HHb,C,d,a,x[10],S34,0xbebfbc70)/*40*/
HHa,b,C,d,x[13],S31,0x289b7ec6)/*41*/
HHd,a,b,C,x
,S32,0xeaal27fa) ;/ζ氺42氺/
HHC,d,a,b,x [3],S33,0xd4ef3085) ;/
HHb,C,d,a,x [6],S34,0x4881d05) ;/*44*/
HHa,b,C,d,x [9],S31,0xd9d4d039) ;/ζ氺45氺/
HHd,a,b,C,x[12],S32,0xe6db99e5)/*46*/
HHC,d,a,b,x[15],S33,0xlfa27cf8)/*47*/
HH(b, c, d, a, χ[2], S34,0xc4ac5665) ;/*48*//*Round 4*/II(a,b, c, d, x
, S41,0xf4292244) ;/*49*/II (d, a, b, c, χ[7], S42,0x432aff97) ;/*50*/II (c, d, a, b, χ[14], S43,0xab9423a7) ;/*51*/II(b, c, d, a, χ[5], S44,0xfc93a039) ;/氺52氺/II(a,b, c, d, x[12], S41,0x655b59c3) ;/*53*/II (d, a, b, c, x[3], S42,0x8f0ccc92) ;/氺54氺/II(c, d, a, b, χ[10], S43,Oxffeff47d) ;/*55*/II(b, c, d, a, x[l], S44,0x85845ddl) ;/*56*/II (a, b, c, d, x[8], S41,0x6fa87e4f) ;/*57*/II (d, a, b, c, x[15], S42,0xfe2ce6e0) ;/*58*/II (c, d, a, b, x[6], S43,0xa3014314) ;/*59*/II(b,c, d, a, x[13], S44,0x4e0811al) ;/*60*/II(a, b, c, d, x[4], S41,0xf7537e82) ;/*61*/II (d, a, b, c, x[ll], S42,0xbd3af235) ;/*62*/II (c, d, a, b, χ[2], S43,0x2ad7d2bb) ;/*63*/II(b, c, d, a, x[9], S44,0xeb86d391) ;/*64*/上述計算最終輸出4個32位分組,對其進行級聯後生成了一個128位的散列值, 即為16個字節的URLm5。系統使用URLtffi5進行消重驗證,URLm5表示URL的MD5散列值採集系統的待訪問URL隊列中包括全部待訪問URL的數組為 ArrayQueueunvisited [TASK_PRIORITY_VALUE],其對應的 MD5 信息結構表示為 MapUrlMd5mvisited ;正在訪問的URL對應的MD5信息結構表示為MapUrlMd5visitmg ;已訪問URL的MD5信息結構表示為MapUrlMd5visited。使用URLffil5 依次在 MapUrlMd5visited、MapUrlMd5visitmg 和 MapUrlMd5mvisited 進行查找, 若找到則直接拋棄該URL,若未找到則作為一個新URL插入待訪問隊列。本發明提供的第一實施例是一種基於網際網路定向站點網頁數據採集的方法,方法 流程如圖1所示,包括步驟101 計算各個待訪問 URL 隊列 ArrayQueueunvisited[i-Ι],i e [1,TAKS_ PRIORITY_VALUE]的權值 dValPr、。步驟102 對 ClValPrii 從高到低進行排序 Sort(ClValPrii)。步驟103 從ClValPrii最大的隊列中按FIFO的原則確定當前待訪問URL。步驟104 判斷當前待訪問URL所屬站點的是否符合預定訪問策略。如果符合,則 當前待訪問URL即可進行訪問;如果不符合,則繼續從該隊列中取後續的URL依次進行判 斷;如果該隊列都沒有合適的URL,則從(^斤!^次大的隊列中取URL進行訪問,依次類推, 直到獲得合適的URL進行訪問為止,並根據訪問的URL採集網頁數據。其中步驟101中,根據各URL隊列中的URL數量、URL隊列優先級值和權 值因子確定各URL隊列權值ClValPrii,權值ClValPrii計算具體為,double ClValPrii=QueLeni/pow(iFactor, TASK_PRIORITY_VALUE-Vali),其中 Vali 表示 URL 隊列 ArrayQueueunvisited[i-Ι]優先級的值,URL 隊列 ArrayQueueunvisited[i_l]存儲的是所有優先 級為Vali的URL的信息,QueLeni表示URL隊列ArrayQueueunvisited[i_l]的長度即URL隊 列ArrayQueueunvisited[i-Ι]中的URL數量,iFactor表示權值因子,權值因子為網際網路網絡 頁面刷新後,平均一個列表頁的新頁面增加的數量,如一個列表頁的新頁面增加為2。故 iFactor初始值為2。進一步,還可以根據各URL隊列中的URL數量、URL隊列優先級值、採 集該URL隊列中URL的線程數量和權值因子確定各URL隊列權值ClValPrii。其中步驟104中,由於網絡採集系統遇到的另外一個問題就是拒絕訪問的問題, 為了儘可能快的抓取數據,採集系統往往最大可能的向站點請求數據,從而造成不友好的 訪問,或被認作攻擊行為,最終不能再進行採集。因此為了避免造成不友好的訪問,在本步 驟中進一步需要判斷當前待獲取URL所屬站點的禮貌訪問。通過上述的方案,本實施例通過對URL進行分類,按照類別設定優先級,保證了內 容相關聯的頁面能夠快速採集完整,解決了要等一段時間延遲才能得到完整的內容信息的 問題,進一步,本實施例通過計算隊列權值並結合禮貌訪問機制的方式,保證了對站點的友 好訪問以及照顧到低優先級的URL也能獲取系統資源進行採集。本發明提供的第二實施例是一種基於網際網路定向站點網頁數據採集的裝置,其結 構如圖2所示,包括隊列生成模塊201 用於根據待採集網頁的統一資源定位器URL的優先級值,將待 採集網頁的URL加入到具有對應優先級的待訪問URL隊列中;權值確定模塊202 用於根據各URL隊列中的URL數量、URL隊列優先級值和權值 因子確定各URL隊列權值,權值因子為用於刷新和獲取內容頁連結的列表頁刷新後,列表 頁中新的URL連結數量;獲取模塊203 用於對權值最高的待訪問URL隊列中的URL進行訪問,並根據訪問 的URL採集網頁數據。進一步,權值確定模塊202 還用於根據各URL隊列中的URL數量、URL隊列優先級 值、權值因子和訪問該URL隊列中URL的線程數量確定各URL隊列權值。進一步,權值確定模塊202 還用於根據如下公式計算URL隊列權值ClValPrii double (IValPrii = QueLeni/RowQFactorJASI^PRIORITYJALUE-Vali),其中為, QueLeni表示URL隊列中的URL數量,Vali表示URL隊列的優先級值,iFactor表示權值因 子,TASK_PRI0RITY_VALUE表示最高優先級值。進一步,隊列生成模塊201 還用於根據MD5算法計算待採集URL的MD5散列值,與 各待訪問URL隊列已訪問的URL、正在訪問的URL和未訪問的URL的MD5散列值進行比較, 若均不相同,或者相同且待採集URL對應網頁中包括的針對該網頁內容的回覆數信息有更 新,則加入對應優先級的URL隊列中,否則拋棄。進一步,獲取模塊203 還用於從權值最高的URL隊列中按FIFO的原則訪問URL, 如果訪問的URL所屬站點符合預定訪問策略,則對該URL進行訪問,否則,則繼續從該URL 所屬的隊列中選取後續的URL依次進行判斷,如果該隊列都沒有合適的URL,則按優先級由 高到低依次訪問其它URL隊列中的URL。顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及其等同技術的範圍 之內,則本發明也意圖包含這些改動和變型在內。
權利要求
1.一種基於網際網路定向站點網頁數據採集的方法,其特徵在於,包括根據待採集網頁的統一資源定位器URL的優先級值,將待採集網頁的URL加入到具有 對應優先級的待訪問URL隊列中;根據各URL隊列中的URL數量、URL隊列優先級值和權值因子確定各URL隊列權值,權 值因子為用於刷新和獲取內容頁連結的列表頁刷新後,列表頁中新的URL連結數量;對權值最高的待訪問URL隊列中的URL進行訪問,並根據訪問的URL採集網頁數據。
2.如權利要求1所述的方法,其特徵在於,根據各URL隊列中的URL數量、URL隊列優 先級值、權值因子和訪問該URL隊列中URL的線程數量確定各URL隊列權值。
3.如權利要求1所述的方法,其特徵在於,確定各URL隊列權值具體為根據如下公式計算URL隊列權值dValft^ double dValPrij = QueLeniZpow(iFactor, TASK_PRIORITY_VALUE-Vali),其中為, QueLeni表示URL隊列中的URL數量,Vali表示URL隊列的優先級值,iFactor表示權值因 子,TASK_PRIORITY_VALUE表示最高優先級值。
4.如權利要求1所述的方法,其特徵在於,根據待採集URL的優先級,將待採集URL加 入到具有對應優先級的待訪問URL隊列中具體為根據MD5算法計算待採集URL的MD5散 列值,與各待訪問URL隊列已訪問的URL、正在訪問的URL和未訪問的URL的MD5散列值進 行比較,若均不相同,或者相同且待採集URL對應網頁中包括的針對該網頁內容的回覆數 信息有更新,則加入對應優先級的URL隊列中,否則拋棄。
5.如權利要求1所述的方法,其特徵在於,從權值最高的待訪問URL隊列中獲取URL具 體為從權值最高的URL隊列中按FIFO的原則訪問URL,如果訪問的URL所屬站點符合預 定訪問策略,則對該URL進行訪問,否則,則繼續從該URL所屬的隊列中選取後續的URL依 次進行判斷,如果該隊列都沒有合適的URL,則按優先級由高到低依次訪問其它URL隊列中 的 URL。
6.如權利要求1所述的方法,其特徵在於,待採集URL的優先級值的定義如下若待採集URL為採集所需的起始URL,則從配置的採集任務中獲取各起始URL優先級值;若待採集URL為非起始URL,對於通過已訪問的URL直接得到的待採集URL,類別為內 容分析返回的連結的URL,其優先級值最大,內容分析返回的連結指將內容頁連結的內容頁 面分析後獲取的內容關聯的頁面連結;若待採集URL為非起始URL,對於通過已訪問的URL直接得到的待採集URL,類別為列 表頁連結類翻頁連結的URL,其優先級值IiValI^ipageupllri = ηVaIPricurpage, ηVaIPricurpage表示 已採集下來的URL優先級值,列表頁連結指不保存網頁數據,只用於刷新和獲取內容頁鏈 接的連結;若待採集URL為非起始URL,對於除類別為內容分析返回的連結的URL和類別為列表頁 連結類翻頁連結的URL之外的,其他通過已訪問的URL直接得到的待採集URL,其優先級值 IiValPriurl = nValPricurPage_l。
7.一種基於網際網路定向站點網頁數據採集的裝置,其特徵在於,包括隊列生成模塊用於根據待採集網頁的統一資源定位器URL的優先級值,將待採集網 頁的URL加入到具有對應優先級的待訪問URL隊列中;權值確定模塊用於根據各URL隊列中的URL數量、URL隊列優先級值和權值因子確定 各URL隊列權值,權值因子為用於刷新和獲取內容頁連結的列表頁刷新後,列表頁中新的 URL連結數量;獲取模塊用於對權值最高的待訪問URL隊列中的URL進行訪問,並根據訪問的URL採 集網頁數據。
8.如權利要求7所述的裝置,其特徵在於,權值確定模塊還用於根據各URL隊列中的 URL數量、URL隊列優先級值、權值因子和訪問該URL隊列中URL的線程數量確定各URL隊 列權值。
9.如權利要求7所述的裝置,其特徵在於,權值確定模塊還用於根據如下公式計算 URL 隊列權值 dVall^rii double dVal Prii = QueLeniZpow(iFactor, TASK_PRIORITY_VALUE-Vali),其中為, QueLeni表示URL隊列中的URL數量,Vali表示URL隊列的優先級值,iFactor表示權值因 子,TASK_PRIORITY_VALUE表示最高優先級值。
10.如權利要求7所述的裝置,其特徵在於,隊列生成模塊還用於根據MD5算法計算 待採集URL的MD5散列值,與各待訪問URL隊列已訪問的URL、正在訪問的URL和未訪問的 URL的MD5散列值進行比較,若均不相同,或者相同且待採集URL對應網頁中包括的針對該 網頁內容的回覆數信息有更新,則加入對應優先級的URL隊列中,否則拋棄。
11.如權利要求7所述的裝置,其特徵在於,獲取模塊還用於從權值最高的URL隊列 中按FIFO的原則訪問URL,如果訪問的URL所屬站點符合預定訪問策略,則對該URL進行訪 問,否則,則繼續從該URL所屬的隊列中選取後續的URL依次進行判斷,如果該隊列都沒有 合適的URL,則按優先級由高到低依次訪問其它URL隊列中的URL。
全文摘要
為了解決現有技術文件採集系統無法保證對採集站點及時、有效的進行數據採集的問題,本發明公開了一種基於網際網路定向站點網頁數據採集的方法及裝置,該方法包括根據待採集URL的優先級值,將待採集URL加入到具有對應優先級的URL隊列中,根據各URL隊列中的URL數量、URL隊列優先級值和權值因子確定各URL隊列權值,權值因子為用於刷新和獲取內容頁連結的列表頁刷新後,列表頁中新的URL連結數量,從權值最高的URL隊列中獲取URL,計算得到URL隊列權值,進而對權值最高的待訪問URL隊列中的URL進行訪問,並根據訪問的URL採集網頁數據,進而實現及時、有效的進行數據採集。
文檔編號G06F17/30GK102117275SQ20091021750
公開日2011年7月6日 申請日期2009年12月31日 優先權日2009年12月31日
發明者吳新麗, 尹小剛, 楊建武, 藍康泰 申請人:北京北大方正電子有限公司, 北京大學, 北京方正電子政務信息科技有限公司, 北大方正集團有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀