新四季網

執行爬取任務的方法和裝置製造方法

2023-05-07 15:09:56

執行爬取任務的方法和裝置製造方法
【專利摘要】本發明公開了一種執行爬取任務的方法和裝置。其中,該方法包括:第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列;第二終端從雲端分布式隊列中讀取爬取請求,其中,第二終端為雲終端;第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫;第一終端從資料庫讀取爬取結果數據。採用本發明,解決了現有技術中使用單機執行爬取任務效率低且IP位址容易被屏蔽的問題,達到了在避免被伺服器屏蔽的情況下提高執行爬取請求效率的效果。
【專利說明】執行爬取任務的方法和裝置

【技術領域】
[0001]本發明涉及網際網路領域,具體而言,涉及一種執行爬取任務的方法和裝置。

【背景技術】
[0002]目前,爬蟲程序是構建網際網路搜尋引擎的基本組件,具備分析並爬取網站上網頁資源或其他資源的功能。可以將爬蟲程序分為連結分析模塊與爬取模塊,其中,爬取模塊負責根據爬取請求獲取爬取結果。常見的爬取模塊的實現,是將爬取請求在本機執行,即由執行爬蟲程序的計算機直接向待爬取的網址或者伺服器發出網絡請求,並接收伺服器對於該請求的響應內容。
[0003]現有技術主要依靠本地計算機來執行爬取請求,所以,頁面爬取完全依賴於本機埠,而本機埠有限,會影響爬取效率,且單機的帶寬有限,無法同時發起較多的網絡請求,因此無法通過大規模並行爬取提高爬取效率。由上可知,使用單機執行爬取請求時,爬取請求的執行速度和質量將受到本機埠和網絡資源的限制。另外,當爬取請求集中在一個網站時,頻繁請求將導致本機過度衝擊遠端Web伺服器,從而可能被該伺服器端所屏蔽,且一旦屏蔽發生,將極大影響爬取質量和效果。
[0004]針對現有技術中使用單機執行爬取任務效率低且IP位址容易被屏蔽的問題,目前尚未提出有效的解決方案。


【發明內容】

[0005]本發明的主要目的在於提供一種執行爬取任務的方法和裝置,以解決現有技術中使用單機執行爬取任務效率低且IP位址容易被屏蔽的問題。
[0006]為了實現上述目的,根據本發明實施例的一個方面,提供了一種執行爬取任務的方法。根據本發明的執行爬取任務的方法包括:第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列;第二終端從雲端分布式隊列中讀取爬取請求,其中,第二終端為雲終端;第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫;第一終端從資料庫讀取爬取結果數據。
[0007]進一步地,第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列包括:為爬取請求設置第一請求標籤;將第一請求標籤和爬取請求發送至雲端分布式隊列;以及保存爬取請求和第一請求標籤至第一終端的數據表。
[0008]進一步地,在第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫的同時或之後,方法還包括:將爬取請求的第一請求標籤和爬取結果數據的存儲地址保存至雲伺服器的爬取完成隊列。
[0009]進一步地,第一終端從資料庫讀取爬取結果數據包括:從爬取完成隊列中獲取第一請求標籤及其對應的存儲地址;從存儲地址對應資料庫的存儲位置中讀取爬取結果數據。
[0010]進一步地,在第一終端從資料庫讀取爬取結果數據之後,方法還包括:從數據表中讀取第一請求標籤的爬取請求;輸出第一請求標籤的爬取請求和爬取結果數據。
[0011]為了實現上述目的,根據本發明實施例的另一方面,提供了一種執行爬取任務的裝置。根據本發明的執行爬取任務的裝置包括:發送模塊,用於第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列;第一讀取模塊,用於第二終端從雲端分布式隊列中讀取爬取請求,其中,第二終端為雲終端;爬取模塊,用於第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫;第二讀取模塊,用於第一終端從資料庫讀取爬取結果數據。
[0012]進一步地,發送模塊包括:設置模塊,用於為爬取請求設置第一請求標籤;發送子模塊,用於將第一請求標籤和爬取請求發送至雲端分布式隊列;以及第一保存模塊,用於保存爬取請求和第一請求標籤至第一終端的數據表。
[0013]進一步地,裝置還包括:第二保存模塊,用於在第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫的同時或之後,將爬取請求的第一請求標籤和爬取結果數據的存儲地址保存至雲伺服器的爬取完成隊列。
[0014]進一步地,第二讀取模塊包括:獲取模塊,用於從爬取完成隊列中獲取第一請求標籤及其對應的存儲地址;第二讀取子模塊,用於從存儲地址對應資料庫的存儲位置中讀取爬取結果數據。
[0015]進一步地,裝置還包括:第三讀取模塊,用於在第一終端從資料庫讀取爬取結果數據之後,從數據表中讀取第一請求標籤的爬取請求;輸出模塊,用於輸出第一請求標籤的爬取請求和爬取結果數據。
[0016]採用本發明,將第一終端(可以是本地計算機)作為一個代理,負責上傳爬取請求而不具體地執行爬取請求,使用雲端的第二終端去執行具體地爬取任務,通過多個雲終端並行執行爬取請求,從而不再受本地資源和能力的局限,從而達到提升整體爬取效率的效果;另外,雲端資源具有分布式特性,能夠有效避免伺服器對執行大量爬取請求時的屏蔽。採用本發明,解決了現有技術中使用單機執行爬取任務效率低且IP位址容易被屏蔽的問題,達到了在避免被伺服器屏蔽的情況下提高執行爬取請求效率的效果。

【專利附圖】

【附圖說明】
[0017]構成本申請的一部分的附圖用來提供對本發明的進一步理解,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:
[0018]圖1是根據本發明實施例的執行爬取任務的方法的流程圖;以及
[0019]圖2是根據本發明實施例的執行爬取任務的裝置的示意圖。

【具體實施方式】
[0020]需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。下面將參考附圖並結合實施例來詳細說明本發明。
[0021 ] 為了使本【技術領域】的人員更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分的實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。
[0022]需要說明的是,本發明的說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裡描述的本發明的實施例。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
[0023]本發明實施例提供了一種執行爬取任務的方法。圖1是根據本發明實施例的執行爬取任務的方法的流程圖。如圖1所示,該方法可以包括步驟如下:
[0024]步驟S102,第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列。
[0025]步驟S104,第二終端從雲端分布式隊列中讀取爬取請求,其中,第二終端為雲終端。
[0026]步驟S106,第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫。
[0027]步驟S108,第一終端從資料庫讀取爬取結果數據。
[0028]採用本發明,在第一終端接收到爬取請求時,為每一個爬取請求設置第一請求標籤並將爬取請求以及對應的第一請求標籤發送至雲伺服器的雲端分布式隊列中,第二終端從雲端分布式隊列中讀取爬取請求及對應的第一請求標籤,並根據爬取請求對對應的伺服器進行爬取得到爬取結果數據,並將爬取結果數據保存至資料庫,第一終端從資料庫中獲取爬取結果數據。採用本發明,將第一終端(可以是本地計算機)作為一個代理,負責上傳爬取請求而不具體地執行爬取請求,使用雲端的第二終端去執行具體地爬取任務,通過多個雲終端並行執行爬取請求,從而不再受本地資源和能力的局限,從而達到提升整體爬取效率的效果;另外,雲端資源具有分布式特性,能夠有效避免伺服器對執行大量爬取請求時的屏蔽。採用本發明,解決了現有技術中使用單機執行爬取任務效率低且IP位址容易被屏蔽的問題,達到了在避免被伺服器屏蔽的情況下提高執行爬取請求效率的效果。
[0029]其中,上述實施例中的資料庫可以是BLOB資料庫,該資料庫為使用二進位保存數據的資料庫。
[0030]在本發明的上述實施例中,第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列可以包括:為爬取請求設置第一請求標籤;將第一請求標籤和爬取請求發送至雲端分布式隊列;以及保存爬取請求和第一請求標籤至第一終端的數據表。
[0031]具體地,當第一終端接收到爬取請求之後,為該請求生成一個第一請求標籤,並將上述爬取請求和對應的第一請求標籤放入第一終端的數據表,然後將上述爬取請求(即請求實體)和對應的第一請求標籤發送至雲端分布式隊列以便第二終端能夠及時獲取爬取請求。
[0032]在第一終端維護一個鍵為第一請求標籤,值為爬取請求的哈希表(即上述實施例中的數據表),將完成上傳的爬取請求及其第一請求標籤放置入該哈希表中。
[0033]通過本發明的上述實施例,第一終端可以根據爬取請求的第一請求標籤及時獲取每一個爬取請求的執行狀態,若該爬取請求已經執行完畢,第一終端從資料庫中獲取爬取結果數據,通過第二終端執行爬取任務,達到了提高執行爬取請求效率的效果。
[0034]在本發明的上述實施例中,在第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫之後,方法還可以包括:將爬取請求的第一請求標籤和爬取結果數據的存儲地址保存至雲伺服器的爬取完成隊列。
[0035]在本發明的上述實施例中,第二終端爬取完成後,將爬取結果數據存入雲端分布式BLOB資料庫,並將請求標籤和爬取結果的地址發送至爬取完成隊列。第一終端從爬取完成隊列中讀取到完成信息後,再根據完成信息中的地址去雲端BLOB資料庫讀取具體的爬取結果。
[0036]其中,上述實施例中的爬取結果數據的存儲地址為雲端存儲URL (即,統一資源定位符)地址;爬取完成隊列同樣是位於雲端的分布式隊列。
[0037]具體地,第二終端根據從雲端分布式隊列中讀取的爬取請求從對應的伺服器讀取響應數據,然後將其存儲在BLOB資料庫中,並將該爬取請求的響應數據的存儲地址以及該請求對應的第一請求標籤存儲至雲伺服器的爬取完成隊列。其中,爬取請求的響應數據即爬取結果數據。
[0038]通過本發明的上述實施例,將爬行結果數據和其對應的存儲地址分別存儲在BLOB資料庫和爬取完成隊列,能夠提高第一終端查詢和讀取爬行結果數據的效率。其中,BLOB形式的資料庫為雲端的資料庫。
[0039]根據本發明的上述實施例,第一終端從資料庫讀取爬取結果數據可以包括:從爬取完成隊列中獲取第一請求標籤及其對應的存儲地址;從存儲地址對應資料庫的存儲位置中讀取爬取結果數據。
[0040]具體地,第一終端從爬取完成隊列中獲取第一請求標籤以及該第一請求標籤對應的爬取請求的爬取結果數據的地址,然後根據該地址從資料庫獲取爬取結果數據。通過上述實施例,第一終端不再需要具體地執行爬取請求,減少了本地操作,節省了大量的資源,採用本發明的方法可以將本地資源用於讀取爬取結果數據,提高了執行爬取請求的效率。
[0041]根據本發明的上述實施例,在第一終端從資料庫讀取爬取結果數據之後,方法還可以包括:從數據表中讀取第一請求標籤的爬取請求;輸出第一請求標籤的爬取請求和爬取結果數據。
[0042]具體地,第一終端的頁面爬取模塊從爬取完成隊列中獲取完成的爬取請求的請求標籤,並從相應的雲端存儲URL讀取爬取結果數據;可選地,頁面爬取模塊可以根據請求標籤從哈希表中查找爬取請求的信息,將從雲端BLOB資料庫下載的爬取結果數據一併輸出。
[0043]在第一終端從資料庫讀取完爬取結果數據並存入數據表中後,需要將爬取結果數據返回至爬取請求的發起者,具體是根據第一請求標籤從數據表讀取已經執行完畢的爬取請求和對應的爬取結果數據,將上述請求和數據下發至該請求的發起者。
[0044]需要進一步說明的是,在本發明的上述實施例中可以包括多個第一終端,每個第一終端上均可以維護一個請求池(即上述實施例中的哈希表),請求池中記錄了爬取請求和第一請求標籤。當從爬取完成隊列讀取到完成信息時,可以利用請求標籤和第一終端的請求池做一個匹配,找到對應的原始的爬取請求。如果在第一終端的請求池裡找不到同樣的請求標籤的爬取請求,則說明這個爬取完成的請求是其他第一終端所提交的,該第一終端可將此完成的請求信息(即上述實施例中的爬取結果數據)還回爬取完成隊列中,以便其他的第一終端獲取。
[0045]在本發明的上述實施例中,採用分布式隊列進行本地代理與雲端爬蟲進行交互,如上傳爬取請求、通知爬取完成;並且雲端第二終端的爬蟲將爬取結果保存在雲端BLOB資料庫,本地爬取模塊接收到爬取完成的通知後,按需進行下載。在上述實施例中,使用請求標籤在分布式架構下標記爬取條目,以方便在本地與雲端將請求與爬取結果相對應。
[0046]在該實施例中,第一終端的爬取模塊實質上成為了一個代理,其負載分發爬取請求和獲取爬取結果,不參與具體地爬取工作,具體地爬取工作由雲端爬蟲集群進行。因此,本地的網絡資源瓶頸不復存在,在可水平擴展的雲端爬蟲集群配合下,可以大幅度提升爬取速度和效率,避免了單臺機器對伺服器反覆高頻度請求而遭屏蔽的風險。
[0047]需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,並且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。
[0048]本發明實施例還提供了一種執行爬取任務的裝置。圖2是根據本發明實施例的執行爬取任務的裝置的示意圖。如圖2所示,該裝置可以包括如下模塊:發送模塊10、第一讀取模塊20、爬取模塊30以及第二讀取模塊40。
[0049]其中,發送模塊10用於第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列;第一讀取模塊20用於第二終端從雲端分布式隊列中讀取爬取請求,其中,第二終端為雲終端;爬取模塊30用於第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫;第二讀取模塊40用於第一終端從資料庫讀取爬取結果數據。
[0050]採用本發明,當第一終端接收到爬取請求時,發送模塊為每一個爬取請求設置第一請求標籤並將爬取請求以及對應的第一請求標籤發送至雲伺服器的雲端分布式陣列中,並將爬取結果數據保存至資料庫,第一讀取模塊從資料庫中獲取爬取結果數據。採用本發明,將第一終端(可以是本地計算機)作為一個代理,負責上傳爬取請求而不具體地執行爬取請求,使用雲端的第二終端去執行具體地爬取任務,通過多個雲終端並行執行爬取請求,從而不再受本地資源和能力的局限,從而達到提升整體爬取效率的效果;另外,雲端資源具有分布式特性,能夠有效避免伺服器對執行大量爬取請求時的屏蔽。採用本發明,解決了現有技術中使用單機執行爬取任務效率低且IP位址容易被屏蔽的問題,達到了在避免被伺服器屏蔽的情況下提高執行爬取請求效率的效果。
[0051 ] 其中,上述實施例中的資料庫可以是BLOB資料庫,該資料庫為使用二進位保存數據的資料庫。
[0052]在本發明的上述實施例中,發送模塊可以包括:設置模塊,用於為爬取請求設置第一請求標籤;發送子模塊,用於將第一請求標籤和爬取請求發送至雲端分布式隊列;第一保存模塊,用於保存爬取請求和第一請求標籤至第一終端的數據表。
[0053]具體地,當第一終端接收到爬取請求之後,為該請求生成一個第一請求標籤,並將上述爬取請求和對應的第一請求標籤放入第一終端的數據表,然後將上述爬取請求(即請求實體)和對應的第一請求標籤發送至雲端分布式隊列以便第二終端能夠及時獲取爬取請求。
[0054]在第一終端維護一個鍵為第一請求標籤,值為爬取請求的哈希表(即上述實施例中的數據表),將完成上傳的爬取請求及其第一請求標籤放置入該哈希表中。
[0055]採用本發明的上述實施例,通過設置模塊為每一個爬取請求添加第一請求標籤,使得第一終端實質上成為了一個代理,從而讓第一終端將有限的資源用於負責上傳爬取請求和獲取爬取結果,並不參與具體爬取工作,達到了提升爬取速度和效率的效果,同時避免了因第一終端對伺服器反覆高頻度的爬取請求而遭屏蔽的風險。
[0056]在本發明的上述實施例中,裝置還可以包括:第二保存模塊,用於在第二終端按照爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫的同時或之後,將爬取請求的第一請求標籤和爬取結果數據的存儲地址保存至雲伺服器的爬取完成隊列。
[0057]在本發明的上述實施例中,第二終端爬取完成後,將爬取結果數據存入雲端分布式BLOB資料庫,並將請求標籤和爬取結果的地址發送至爬取完成隊列。第一終端從爬取完成隊列中讀取到完成信息後,再根據完成信息中的地址去雲端BLOB資料庫讀取具體的爬取結果。
[0058]其中,上述實施例中的爬取結果數據的存儲地址為雲端存儲URL (即,統一資源定位符)地址;爬取完成隊列同樣是位於雲端的分布式隊列。
[0059]根據本發明的上述實施例,第二讀取模塊可以包括:獲取模塊,用於從爬取完成隊列中獲取第一請求標籤及其對應的存儲地址;第二讀取子模塊,用於從存儲地址對應資料庫的存儲位置中讀取爬取結果數據。
[0060]具體地,獲取模塊從爬取完成隊列中獲取第一請求標籤以及該第一請求標籤對應的爬取請求的爬取結果數據的地址,然後第二讀取子模塊根據該地址從資料庫獲取爬取結果數據。
[0061]通過上述實施例,第一終端不再需要具體地執行爬取請求,減少了本地操作,節省了大量的資源,採用本發明的方法就可以將本地資源(即第一終端)用於讀取爬取結果數據,從而提高了執行爬取請求的效率。
[0062]在上述實施例中,裝置還包括:第三讀取模塊,用於在第一終端從資料庫讀取爬取結果數據之後,從數據表中讀取第一請求標籤的爬取請求;輸出模塊,用於輸出第一請求標籤的爬取請求和爬取結果數據。
[0063]在第一終端從資料庫讀取完爬取結果數據並存入數據表中後,需要將爬取結果數據發送至爬取請求的發起者,具體是第三讀取模塊根據第一請求標籤從數據表讀取已經執行完畢的爬取請求和對應的爬取結果數據,然後輸出模塊將上述爬取請求和爬取結果數據下發至該請求的發起者。
[0064]需要進一步說明的是,在本發明的上述實施例中可以包括多個第一終端,每個第一終端上均可以維護一個請求池(即上述實施例中的哈希表),請求池中記錄了爬取請求和第一請求標籤。當從爬取完成隊列讀取到完成信息時,可以利用請求標籤和第一終端的請求池做一個匹配,找到對應的原始的爬取請求。如果在第一終端的請求池裡找不到同樣的請求標籤的爬取請求,則說明這個爬取完成的請求是其他第一終端所提交的,該第一終端可將此完成的請求信息(即上述實施例中的爬取結果數據)還回爬取完成隊列中,以便其他的第一終端獲取。
[0065]在本發明的上述實施例中,採用分布式隊列進行本地代理與雲端爬蟲進行交互,如上傳爬取請求、通知爬取完成;並且雲端第二終端的爬蟲將爬取結果保存在雲端BLOB資料庫,本地爬取模塊接收到爬取完成的通知後,按需進行下載。在上述實施例中,使用請求標籤在分布式架構下標記爬取條目,以方便在本地與雲端將請求與爬取結果相對應。
[0066]本實施例中所提供的各個模塊與方法實施例對應步驟所提供的使用方法相同、應用場景也可以相同。當然,需要注意的是,上述模塊涉及的方案可以不限於上述實施例中的內容和場景,且上述模塊可以運行在計算機終端或移動終端,可以通過軟體或硬體實現。
[0067]從以上的描述中,可以看出,本發明實現了如下技術效果:
[0068]採用本發明,當第一終端接收到爬取請求時,發送模塊為每一個爬取請求設置第一請求標籤並將爬取請求以及對應的第一請求標籤發送至雲伺服器的雲端分布式陣列中,並將爬取結果數據保存至資料庫,第一讀取模塊從資料庫中獲取爬取結果數據。採用本發明,將第一終端(可以是本地計算機)作為一個代理,負責上傳爬取請求而不具體地執行爬取請求,使用雲端的第二終端去執行具體地爬取任務,通過多個雲終端並行執行爬取請求,從而不再受本地資源和能力的局限,從而達到提升整體爬取效率的效果;另外,雲端資源具有分布式特性,能夠有效避免伺服器對執行大量爬取請求時的屏蔽。採用本發明,解決了現有技術中使用單機執行爬取任務效率低且IP位址容易被屏蔽的問題,達到了在避免被伺服器屏蔽的情況下提高執行爬取請求效率的效果。
[0069]顯然,本領域的技術人員應該明白,上述的本發明的各模塊或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而,可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別製作成各個集成電路模塊,或者將它們中的多個模塊或步驟製作成單個集成電路模塊來實現。這樣,本發明不限制於任何特定的硬體和軟體結合。
[0070]需要說明的是,對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明並不受所描述的動作順序的限制,因為依據本發明,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模塊並不一定是本發明所必須的。
[0071]在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
[0072]在本申請所提供的幾個實施例中,應該理解到,所揭露的方法,可通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
[0073]作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0074]另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
[0075]集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、移動終端、伺服器或者網絡設備等)執行本發明各個實施例方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬碟、磁碟或者光碟等各種可以存儲程序代碼的介質。
[0076]以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
【權利要求】
1.一種執行爬取任務的方法,其特徵在於,包括: 第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列; 第二終端從所述雲端分布式隊列中讀取所述爬取請求,其中,所述第二終端為雲終端; 所述第二終端按照所述爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫; 所述第一終端從所述資料庫讀取所述爬取結果數據。
2.根據權利要求1所述的方法,其特徵在於,第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列包括: 為所述爬取請求設置第一請求標籤; 將所述第一請求標籤和所述爬取請求發送至所述雲端分布式隊列;以及 保存所述爬取請求和所述第一請求標籤至所述第一終端的數據表。
3.根據權利要求2所述的方法,其特徵在於,在所述第二終端按照所述爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫的同時或之後,所述方法還包括: 將所述爬取請求的所述第一請求標籤和所述爬取結果數據的存儲地址保存至所述雲伺服器的爬取完成隊列。
4.根據權利要求3所述的方法,其特徵在於,所述第一終端從所述資料庫讀取所述爬取結果數據包括: 從所述爬取完成隊列中獲取所述第一請求標籤及其對應的所述存儲地址; 從所述存儲地址對應所述資料庫的存儲位置中讀取所述爬取結果數據。
5.根據權利要求2所述的方法,其特徵在於,在所述第一終端從所述資料庫讀取所述爬取結果數據之後,所述方法還包括: 從所述數據表中讀取所述第一請求標籤的所述爬取請求; 輸出所述第一請求標籤的所述爬取請求和所述爬取結果數據。
6.一種執行爬取任務的裝置,其特徵在於,包括: 發送模塊,用於第一終端將接收到的爬取請求發送至雲伺服器的雲端分布式隊列; 第一讀取模塊,用於第二終端從所述雲端分布式隊列中讀取所述爬取請求,其中,所述第二終端為雲終端; 爬取模塊,用於所述第二終端按照所述爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫; 第二讀取模塊,用於所述第一終端從所述資料庫讀取所述爬取結果數據。
7.根據權利要求6所述的裝置,其特徵在於,所述發送模塊包括: 設置模塊,用於為所述爬取請求設置第一請求標籤; 發送子模塊,用於將所述第一請求標籤和所述爬取請求發送至所述雲端分布式隊列;以及 第一保存模塊,用於保存所述爬取請求和所述第一請求標籤至所述第一終端的數據表。
8.根據權利要求7所述的裝置,其特徵在於,所述裝置還包括: 第二保存模塊,用於在所述第二終端按照所述爬取請求進行網絡資源的爬取,並將爬取結果數據保存至資料庫的同時或之後,將所述爬取請求的所述第一請求標籤和所述爬取結果數據的存儲地址保存至所述雲伺服器的爬取完成隊列。
9.根據權利要求8所述的裝置,其特徵在於,所述第二讀取模塊包括: 獲取模塊,用於從所述爬取完成隊列中獲取所述第一請求標籤及其對應的所述存儲地址; 第二讀取子模塊,用於從所述存儲地址對應所述資料庫的存儲位置中讀取所述爬取結果數據。
10.根據權利要求7所述的裝置,其特徵在於,所述裝置還包括: 第三讀取模塊,用於在所述第一終端從所述資料庫讀取所述爬取結果數據之後,從所述數據表中讀取所述第一請求標籤的所述爬取請求; 輸出模塊,用於輸出所述第一請求標籤的所述爬取請求和所述爬取結果數據。
【文檔編號】G06F17/30GK104484405SQ201410779535
【公開日】2015年4月1日 申請日期:2014年12月15日 優先權日:2014年12月15日
【發明者】何愷鐸 申請人:北京國雙科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀