新四季網

一種完整採集網頁信息的方法和系統的製作方法

2023-05-01 04:41:26

專利名稱:一種完整採集網頁信息的方法和系統的製作方法
技術領域:
本發明涉及網頁信息採集領域,具體涉及一種完整採集網頁信息的方法和系統。
背景技術:
隨著網際網路技術的發展,用戶可以通過網際網路獲取各種各樣的信息。目前,網際網路上的網頁分為靜態網頁和動態網頁。所謂靜態網頁,指的是預先編譯好並存儲在伺服器上的網頁文件,靜態網頁不含程序也不能交互,因此靜態網頁在伺服器中沒有對應的資料庫,通過連結地址連結到該預先編譯好的靜態網頁文件所在的伺服器即可完成該靜態網頁信息的採集,而動態網頁是相對靜態網頁而言的,動態網頁不是獨立存在於伺服器上的網頁文件,動態網頁只在與伺服器交互時動態生成,動態網頁一般在伺服器上設置針對該網頁的資料庫以及程序,用戶必須通過與伺服器進行交互來實現對網頁信息的採集。中國專利文獻CN101996196A公開了一種動態網頁的採集方法,具體公開了在客戶端側預先設置模擬用戶行為功能,具體通過具有配置文件的瀏覽器模擬用戶行為,在採集動態網頁時,首先和提供動態網頁信息的伺服器建立連結,通過設置的模擬用戶行為功能下載動態網頁信息,對下載的動態網頁信息中的表項解析、填寫並發送給伺服器後,按照靜態網頁的採集方法採集動態網頁。上述專利文獻中,通過具有配置文件的瀏覽器模擬用戶行為,因為配置文件本身只包含了輸入交互行為,對於基於AJAX技術的動態網頁而言,交互的過程中伺服器返回的只是網頁的部分信息,基於配置文件採集基於AJAX技術的動態網頁信息無法獲取AJAX動態生成的部分連結的連結頁面及請求結果。因此,上述專利文獻中公開的動態網頁採集方法只適用於論壇類以及搜索類等未使用AJAX技術的傳統動態網頁的數據的採集,而對於採用AJAX技術的社區交互網站,如BBS、博客和微博等,該方法就無法實現對其網頁上的信息完整和全面的採集,上述專利文獻公開的方法的使用範圍受限,通用性較差。

發明內容
為此,本發明所要解決的一個問題是上述專利文獻公開的動態網頁採集方法無法獲取AJAX動態生成的部分連結的連結頁面及請求結果從而無法實現對基於AJAX技術的動態網頁上的信息進行完整和全面的採集的技術問題,從而提供一種完整採集網頁信息的方法和系統。為達到上述目的,本發明的技術方案是這樣實現的:一種完整採集網頁信息的方法,包括如下步驟:S1:在安裝有FireBug插件以及Cookies Manager插件的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的Cookies登陸信息、所有URL請求及伺服器返回的包括所述URL的第一響應結果;S2:後臺運行的瀏覽器根據上述瀏覽器中保存的所述Cookies登錄信息模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的伺服器返回的包括URL的第二響應結果;
S3:將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中;S4:後臺運行的所述瀏覽器根據補充後的所述第二響應結果進行網頁信息的採集,並將採集結果保存。步驟SI具體包括如下步驟:S10:在所述瀏覽器中的地址欄中輸入網站的入口地址;Sll:在請求得到的頁面中輸入登錄信息,點擊提交按鈕,並保存Cookies登陸信息;S12:在得到的響應頁面中模擬用戶瀏覽瀏覽器的行為與網站進行交互;S13:保存交互過程中產生的URL請求和伺服器返回的所述第一響應結果。步驟S2具體包括如下步驟:S20:初始化後臺運行的所述瀏覽器的WebClient對象並向該WebClient對象中添加所述Cookies登錄信息;S21:所述WebClient對象模擬用戶瀏覽瀏覽器的行為向伺服器發送URL請求;S22:後臺運行的所述瀏覽器保存伺服器返回的第二響應結果。步驟S4具體包括如下步驟:S40:後臺運行的所述瀏覽器根據補充後的所述第二響應結果構造目標頁面的抓取邏輯;S41:後臺運行的所述瀏覽器根據所述抓取邏輯抓取目標頁面;S42:構造目標頁面內容的抓取邏輯,按照抓取邏輯抓取頁面內容並將抓取內容保存。步驟S40具體包括如下步驟:S401:所述瀏覽器提取目標頁面的標識信息;S402:對比提取出的目標頁面的所述標識信息和所述目標頁面的URL ;S403:將所述URL對應的標識信息用參數值替代,根據所述參數值構造目標頁面的抓取邏輯;步驟S42具體包括如下步驟:S420:獲取目標頁面的Dom樹;S421:將所述Dom樹中包含用戶關心的元素提取到抓取列表中;S422:將所述抓取列表中的元素按一定順序排列,形成頁面內容的抓取邏輯;S423:按照抓取邏輯抓取頁面內容並抓取的內容保存至資料庫。步驟SI中的所述瀏覽器採用FireFox瀏覽器、Chrome瀏覽器或者IE瀏覽器;步驟S2中的後臺運行的所述瀏覽器採用HtmlUnit或者WebDriver。同時,提供一種完整採集網頁信息的系統,包括:第一模擬模塊,用於在安裝有FireBug插件以及Cookies Manager插件的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的Cookies登陸信息、所有URL請求及伺服器返回的包括所述URL的第一響應結果;第二模擬模塊,用於後臺運行的瀏覽器根據上述瀏覽器中保存的所述Cookies登錄信息模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的伺服器返回的包括URL的第二響應結果;補充模塊,用於將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中;採集模塊,用於後臺運行的所述瀏覽器根據補充後的所述第二響應結果進行網頁信息的採集,並將採集結果保存。所述第一模擬模塊包括:輸入子模塊,用於在所述瀏覽器中的地址欄中輸入網站的入口地址;提交子模塊,用於在請求得到的頁面中輸入登錄信息,點擊提交按鈕,並保存Cookies登陸信息;第一模擬子模塊,用於在得到的響應頁面中模擬用戶瀏覽瀏覽器的行為與網站進行交互;第一保存子模塊,用於保存交互過程中產生的URL請求和伺服器返回的所述第一響應結果。所述第二模擬模塊包括:初始化子模塊,用於初始化後臺運行的所述瀏覽器的WebClient對象並向該WebClient對象中添加所述Cookies登錄信息;第二模擬子模塊,用於所述WebClient對象模擬用戶瀏覽瀏覽器的行為向伺服器發送URL請求;第二保存子模塊,用於後臺運行的瀏覽器保存伺服器返回的第二響應結果。所述採集模塊包括:構造子模塊,用於後臺運行的所述瀏覽器根據補充後的所述第二響應結果構造目標頁面的抓取邏輯;第一抓取子模塊,用於所述瀏覽器根據所述抓取邏輯抓取目標頁面;第二抓取子模塊,用於構造目標頁面內容的抓取邏輯,按照抓取邏輯抓取頁面內容並將抓取內容保存。所述構造子模塊包括:提取子子模塊,用於所述瀏覽器提取目標頁面的標識信息;對比子子模塊,用於對比提取出的目標頁面的所述標識信息和所述目標頁面的URL ;第一抓取子子模塊,用於將所述URL對應的標識信息用參數值替代,根據所述參數值構造目標頁面的抓取邏輯。所述第二抓取子模塊包括:獲取子子模塊,用於獲取目標頁面的Dom樹;第二抓取子子模塊,用於將所述Dom樹中包含用戶關心的元素提取到抓取列表中;排序子子模塊,用於將所述抓取列表中的元素按一定順序排列,形成頁面內容的抓取邏輯;第三抓取子子模塊,用於按照抓取邏輯抓取頁面內容並抓取的內容保存至資料庫。
所述第一模擬模塊中的所述瀏覽器採用FireFox瀏覽器、Chrome瀏覽器或者IE瀏覽器;所述第二模擬模塊中的所述瀏覽器採用HtmlUnit或者WebDriver。本發明的上述技術方案相比現有技術具有以下優點:本發明所述的完整採集網頁信息的方法和系統,先由安裝有FireBug插件以及Cookies Manager插件的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的Cookies登陸信息、所有URL請求及伺服器返回的包括所述URL的第一響應結果,所述第一響應結果包括所有動態網頁信息和靜態網頁信息,其中,動態網頁信息中包括AJAX動態生成的連結頁面信息;然後再由後臺運行的瀏覽器根據上述瀏覽器中保存的所述Cookies登錄信息模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的伺服器返回的包括URL的第二響應結果,最後將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中,此時第二響應結果中包括AJAX動態生成的部分連結的連結頁面信息,所述後臺運行的所述瀏覽器根據補充後的所述第二響應結果可完成所有網頁信息的採集,且不佔用瀏覽器的資源。解決了現有技術中動態網頁採集方法無法獲取AJAX動態生成的連結頁面的問題。


為了使本發明的內容更容易被清楚的理解,下面結合附圖,對本發明作進一步詳細的說明,其中,圖1是本發明一個實施例的一種完整採集網頁信息的方法流程圖;圖2是本發明一個實施例的一種完整採集網頁信息的系統結構框圖。
具體實施例方式本發明一個實施例的一種完整採集網頁信息的方法流程圖,如圖1所示,S1:在安裝有FireBug插件以及Cookies Manager插件的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的Cookies登陸信息、所有URL請求及伺服器返回的包括所述URL的第一響應結果;其中,所述FireBug插件用於保存所有URL請求及伺服器返回的包括所述URL的第一響應結果,所述Cookies Manager插件用於保存Cookies登陸信息;所述第一響應結果為通過模擬用戶瀏覽瀏覽器的行為所得到的頁面響應信息。S2:後臺運行的瀏覽器根據上述瀏覽器中保存的所述Cookies登錄信息模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的伺服器返回的包括URL的第二響應結果;所述第二響應結果為通過Cookies登錄信息所得到的頁面響應信息。S3:將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中;所述第一響應結果中存在的所述第二響應結果沒有的網頁信息指通過Cookies登陸信息訪問網頁過程中AJAX動態生成的網頁信息;S4:後臺運行的所述瀏覽器根據補充後的所述第二響應結果進行網頁信息的採集,並將採集結果保存。這種採集方式解決了現有技術中動態網頁採集方法無法獲取AJAX動態生成的連結頁面的問題,並且該採集方式不佔用瀏覽器的資源。以BBS網站的信息採集為例,BBS網站含有AJAX動態生成的網頁,具體說明本發明上述實施例的完整抓取網頁信息的方法,參見圖2所示,其包括如下步驟:SlO:在安裝有FireBug插件以及Cookies Manager插件的FireFox瀏覽器中的地址欄中輸入網站的入口地址;Sll:在請求得到的頁面中輸入登錄信息,點擊提交按鈕,並保存Cookies登陸信息;S12:在得到的響應頁面中模擬用戶瀏覽瀏覽器的行為,包括下拉滾動條、點擊帖子連結、點擊回復者連結、點擊回復下一頁連結、點擊回複數、點擊瀏覽數、點擊帖子列表下一頁,通過這些行為與網站進行交互;將每次用戶的交互操作所產生的URL請求及第一響應結果保存到FireBug中。初始化Htmlunit瀏覽器的WebClient對象並向該WebClient對象中添加所述Cookies登錄信息;WebClient對象模擬用戶瀏覽瀏覽器的行為向伺服器發送URL請求,Htmlunit瀏覽器保存伺服器返回的第二響應結果。將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中。Htmlunit瀏覽器提取目標頁面的標識信息,包括用戶ID、頁數、列表起止編號等;對比提取出的目標頁面的所述標識信息和所述目標頁面的URL ;將所述URL對應的標識信息用參數值(0、1、2等)替代,根據所述參數值構造的目標頁面的抓取邏輯抓取目標頁面;獲取目標頁面的Dom樹;將所述Dom樹中包含用戶關心的元素,包括版主信息、統計信息、帖子詳細信息、回覆信息、回復者信息提取到抓取列表中;將所述抓取列表中的元素按內容大小的順序排列,從而形成頁面內容的抓取邏輯;按照抓取邏輯抓取頁面內容並抓取的內容保存至資料庫。基於同一發明構思,本發明還提供一種完整採集網頁信息的系統,包括:第一模擬模塊,用於在安裝有FireBug插件以及Cookies Manager插件的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的Cookies登陸信息、所有URL請求及伺服器返回的包括所述URL的第一響應結果;第二模擬模塊,用於後臺運行的瀏覽器根據上述瀏覽器中保存的所述Cookies登錄信息模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的伺服器返回的包括URL的第二響應結果;補充模塊,用於將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中;採集模塊,用於後臺運行的所述瀏覽器根據補充後的所述第二響應結果進行網頁信息的採集,並將採集結果保存。所述第一模擬模塊包括:輸入子模塊,用於在所述瀏覽器中的地址欄中輸入網站的入口地址;提交子模塊,用於在請求得到的頁面中輸入登錄信息,點擊提交按鈕,並保存Cookies登陸信息;
第一模擬子模塊,用於在得到的響應頁面中模擬用戶瀏覽瀏覽器的行為,包括下拉滾動條、點擊帖子連結、點擊回復者連結、點擊回復下一頁連結、點擊回複數、點擊瀏覽數、點擊帖子列表下一頁,通過這些行為與網站進行交互;第一保存子模塊,用於保存交互過程中產生的URL請求和伺服器返回的所述第一響應結果,即將每次用戶的交互操作所產生的URL請求及所述第一響應結果保存到FireBug 中。所述第二模擬模塊包括:初始化子模塊,用於初始化後臺運行的所述瀏覽器的WebClient對象並向該WebClient對象中添加所述Cookies登錄信息;第二模擬子模塊,用於所述WebClient對象模擬用戶瀏覽瀏覽器的行為向伺服器發送URL請求;第二保存子模塊,用於後臺運行的瀏覽器保存伺服器返回的第二響應結果,SPHtmlunit瀏覽器保存伺服器返回的第二響應結果。所述採集模塊包括:構造子模塊,用於後臺運行的所述瀏覽器根據補充後的所述第二響應結果構造目標頁面的抓取邏輯;第一抓取子模塊,用於所述瀏覽器根據所述抓取邏輯抓取目標頁面;第二抓取子模塊,用於構造目標頁面內容的抓取邏輯,按照抓取邏輯抓取頁面內容並將抓取內容保存。所述構造子模塊包括:提取子子模塊,用於所述瀏覽器提取目標頁面的標識信息,即Htmlunit瀏覽器提取目標頁面的標識信息,包括用戶ID、頁數、列表起止編號等;對比子子模塊,用於對比提取出的目標頁面的所述標識信息和所述目標頁面的URL,即對比提取出的目標頁面的所述標識信息和所述目標頁面的URL ;將所述URL對應的標識信息用參數值(0、1、2等)替代,根據所述參數值構造的目標頁面的抓取邏輯抓取目標頁面;第一抓取子子模塊,用於將所述URL對應的標識信息用參數值替代,根據所述參數值構造目標頁面的抓取邏輯。所述第二抓取子模塊包括:獲取子子模塊,用於獲取目標頁面的Dom樹,將所述Dom樹中包含用戶關心的元素,包括版主信息、統計信息、帖子詳細信息、回覆信息、回復者信息提取到抓取列表中;第二抓取子子模塊,用於將所述Dom樹中包含用戶關心的元素提取到抓取列表中;排序子子模塊,用於將所述抓取列表中的元素按內容大小的順序排列,形成頁面內容的抓取邏輯;第三抓取子子模塊,用於按照抓取邏輯抓取頁面內容並抓取的內容保存至資料庫。在本實施例中,所述第一模擬模塊中的所述瀏覽器採用FireFox瀏覽器、Chrome瀏覽器或者IE瀏覽器;所述第二模擬模塊中的所述瀏覽器採用HtmlUnit或者WebDriver。
本發明所述的完整採集網頁信息的方法和系統,先由安裝有FireBug插件以及Cookies Manager插件的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的Cookies登陸信息、所有URL請求及伺服器返回的包括所述URL的第一響應結果,所述第一響應結果包括所有動態網頁信息和靜態網頁信息,其中,動態網頁信息中包括AJAX動態生成的連結頁面信息;然後再由後臺運行的瀏覽器根據上述瀏覽器中保存的所述Cookies登錄信息模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的伺服器返回的包括URL的第二響應結果,最後將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中,此時第二響應結果中包括AJAX動態生成的部分連結的連結頁面信息,所述後臺運行的所述瀏覽器根據補充後的所述第二響應結果可完成所有網頁信息的採集,且不佔用瀏覽器的資源。解決了現有技術中動態網頁採集方法無法獲取AJAX動態生成的連結頁面的問題。顯然,上述實施例僅僅是為清楚地說明所作的舉例,而並非對實施方式的限定。對於所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這裡無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處於本發明創造的保護範圍之中。
權利要求
1.一種完整採集網頁信息的方法,其特徵在於,包括如下步驟: S1:在安裝有FireBug插件以及Cookies Manager插件的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的Cookies登陸信息、所有URL請求及伺服器返回的包括所述URL的第一響應結果; S2:後臺運行的瀏覽器根據上述瀏覽器中保存的所述Cookies登錄信息模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的伺服器返回的包括URL的第二響應結果; S3:將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中; S4:後臺運行的所述瀏覽器根據補充後的所述第二響應結果進行網頁信息的採集,並將採集結果保存。
2.根據權利要求1所述的方法,其特徵在於,步驟SI具體包括如下步驟: 510:在所述瀏覽器中的地址欄中輸入網站的入口地址; 511:在請求得到的頁面中輸入登錄信息,點擊提交按鈕,並保存Cookies登陸信息; 512:在得到的響應頁面中模擬用戶瀏覽瀏覽器的行為與網站進行交互; 513:保存交互過程中產生的URL請求和伺服器返回的所述第一響應結果。
3.根據權利要求1或2所述的方法,其特徵在於,步驟S2具體包括如下步驟: 520:初始化後臺運行的所述瀏覽器的WebClient對象並向該WebClient對象中添加所述Cookies登錄信息; 521:所述WebClient對象模擬用戶瀏覽瀏覽器的行為向伺服器發送URL請求; S22:後臺運行的所述瀏覽器保存伺服器返回的第二響應結果。
4.根據權利要求1-3任一所述的方法,其特徵在於,步驟S4具體包括如下步驟: 540:後臺運行的所述瀏覽器根據補充後的所述第二響應結果構造目標頁面的抓取邏輯; 541:後臺運行的所述瀏覽器根據所述抓取邏輯抓取目標頁面; 542:構造目標頁面內容的抓取邏輯,按照抓取邏輯抓取頁面內容並將抓取內容保存。
5.根據權利要求4所述的方法,其特徵在於, 步驟S40具體包括如下步驟: 5401:所述瀏覽器提取目標頁面的標識信息; 5402:對比提取出的目標頁面的所述標識信息和所述目標頁面的URL ; 5403:將所述URL對應的標識信息用參數值替代,根據所述參數值構造目標頁面的抓取邏輯; 步驟S42具體包括如下步驟: 5420:獲取目標頁面的Dom樹; 5421:將所述Dom樹中包含用戶關心的兀素提取到抓取列表中; 5422:將所述抓取列表中的元素按一定順序排列,形成頁面內容的抓取邏輯; 5423:按照抓取邏輯抓取頁面內容並抓取的內容保存至資料庫。
6.根據權利要 求1-5任一所述的方法,其特徵在於,步驟SI中的所述瀏覽器採用FireFox瀏覽器、Chrome瀏覽器或者IE瀏覽器;步驟S2中的後臺運行的所述瀏覽器採用HtmlUnit 或者 WebDriver。
7.一種完整採集網頁信息的系統,其特徵在於,包括: 第一模擬模塊,用於在安裝有FireBug插件以及Cookies Manager插件的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的Cookies登陸信息、所有URL請求及伺服器返回的包括所述URL的第一響應結果; 第二模擬模塊,用於後臺運行的瀏覽器根據上述瀏覽器中保存的所述Cookies登錄信息模擬用戶瀏覽瀏覽器的行為並保存瀏覽過程中產生的伺服器返回的包括URL的第二響應結果; 補充模塊,用於將所述第一響應結果中存在的所述第二響應結果沒有的網頁信息補充到所述第二響應結果中; 採集模塊,用於後臺運行的所述瀏覽器根據補充後的所述第二響應結果進行網頁信息的採集,並將採集結果保存。
8.根據權利要求7所述的系統,其特徵在於,所述第一模擬模塊包括: 輸入子模塊,用於在所述瀏覽器中的地址欄中輸入網站的入口地址; 提交子模塊,用於在請求得到的頁面中輸入登錄信息,點擊提交按鈕,並保存Cookies登陸信息; 第一模擬子模塊,用於在得到的響應頁面中模擬用戶瀏覽瀏覽器的行為與網站進行交互; 第一保存子模塊,用於保存交互過程中產生的URL請求和伺服器返回的所述第一響應結果。
9.根據權利要求7所述的系統,其特徵在於,所述第二模擬模塊包括: 初始化子模塊,用於初始化後臺運行的所述瀏覽器的WebClient對象並向該WebClient對象中添加所述Cookies登錄信息; 第二模擬子模塊,用於所述WebClient對象模擬用戶瀏覽瀏覽器的行為向伺服器發送URL請求; 第二保存子模塊,用於後臺運行的瀏覽器保存伺服器返回的第二響應結果。
10.根據權利要求7所述的系統,其特徵在於,所述採集模塊包括: 構造子模塊,用於後臺運行的所述瀏覽器根據補充後的所述第二響應結果構造目標頁面的抓取邏輯; 第一抓取子模塊,用於所述瀏覽器根據所述抓取邏輯抓取目標頁面; 第二抓取子模塊,用於構造目標頁面內容的抓取邏輯,按照抓取邏輯抓取頁面內容並將抓取內容保存。
11.根據權利要求10所述的系統,其特徵在於, 所述構造子模塊包括: 提取子子模塊,用於所述瀏覽器提取目標頁面的標識信息; 對比子子模塊,用於對比提取出的目標頁面的所述標識信息和所述目標頁面的URL ;第一抓取子子模塊,用於將所述URL對應的標識信息用參數值替代,根據所述參數值構造目標頁面的抓取邏輯。
12.根據權利要求10所述的系統,其特徵在於,所述第二抓取子模塊包括: 獲取子子模塊,用於獲取目標頁面的Dom樹;第二抓取子子模塊,用於將所述Dom樹中包含用戶關心的元素提取到抓取列表中;排序子子模塊,用於將所述抓取列表中的元素按一定順序排列,形成頁面內容的抓取邏輯; 第三抓取子子模塊,用於按照抓取邏輯抓取頁面內容並抓取的內容保存至資料庫。
13.根據權利要求7所述的系統,其特徵在於,所述第一模擬模塊中的所述瀏覽器採用FireFox瀏覽器、Chrome瀏覽器或者IE瀏覽器;所述第二模擬模塊中的所述瀏覽器採用HtmlUnit 或者 W ebDriver。
全文摘要
本發明涉及一種完整採集網頁信息的方法和系統,包括如下步驟①在安裝有FireBug以及Cookies Manager的瀏覽器中模擬用戶瀏覽瀏覽器的行為並保存Cookies信息、所有URL請求及伺服器返回的第一響應結果;②後臺運行的瀏覽器模擬用戶瀏覽瀏覽器的行為並保存第二響應結果;③將第一響應結果中存在的第二響應結果沒有的網頁信息補充到第二響應結果中;④後臺運行的瀏覽器根據補充後的第二響應結果進行網頁信息的採集,並保存。本發明所述的完整採集網頁信息的方法和系統,後臺運行的瀏覽器根據補充後的第二響應結果可完成所有網頁信息的採集,且不佔用瀏覽器的資源,從而解決了現有技術中動態網頁採集方法無法獲取AJAX動態生成的連結頁面的問題。
文檔編號G06F17/30GK103186670SQ20131010258
公開日2013年7月3日 申請日期2013年3月27日 優先權日2013年3月27日
發明者全小飛, 柳香 申請人:中金數據系統有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀