內部網可定製爬蟲系統構建方法
2023-06-06 02:19:36
專利名稱:內部網可定製爬蟲系統構建方法
技術領域:
本發明涉及網絡悽t據採集系統的構建方法,尤其涉及一種內部 網可定製爬出系統構建方法。
背景技術:
隨著資訊時代的到來,越來越多的企業、學校等紛紛建立起自 己的內部網,在內部網上搭建伺服器實行數據的共享來提高工作、 學習等效率。但是隨著內部網數據量的激增,人們很難簡單快捷地 在內部網上找到所需的悽t據,因此#丈據的共享並沒有帶來顯著的效 率的提高。內部網和數據共享並沒有發揮它們應有的潛力。於是, 人們想能否通過網際網路上的 一般搜尋引擎來檢索內部網上的數據,
但;^艮不幸的是,由於這些數據只能在企業、學校等內部使用、交流 和傳播,因此網際網路上的一般搜尋引擎4企索不到這些內部網的數 據。為了解決這一問題,人們提出了內部網搜尋引擎的概念。而從 一般網際網路上的搜尋引擎轉變到內部網上的搜尋引擎,其他的搜索 引擎系統部分可以直接複製,惟一的不同是爬蟲系統,因此內部網 爬蟲系統是內部網搜尋引擎的核心。怎樣估文到爬蟲系統只在內部網 上採集數據已受到越來越多的學者的關注。目前,還沒有一種系統 的行之有效的內部網爬蟲構建方法。
由於內部網上的數據類型千差萬別,如音頻、視頻、圖像、文 本等,其中,音頻又包括mp3、 wma等,禍J貞又包括avi、 rm、 rmvb、 wmv等,圖像又包括jpg、 png、 tif、 bmp等,文本又包括txt、 doc、 pdf等。為了提高檢索效率和降低搜尋引擎的開發難度, 提出了只針對某一類數據類型的特色搜尋引擎,如音頻搜尋引擎、 視頻搜尋引擎、圖像搜尋引擎、文本搜尋引擎等。因此,爬蟲系統 的數據類型針對性是搭建特色搜尋引擎的核心部分之一,也受到越 來越多的學者的關注。目前,也還沒有一種系統的行之有效的數據 類型針對型爬蟲構建方法。
發明內容
針對現有技術存在的問題,本發明的目的是提供一種內部網可 定製爬出系統構建方法。
為達到上述目的,本發明的方法包括下列步驟 (1 )分析超連結所指向的數據是否是web網頁;
(2) 若是web網頁,則分析web網頁,處理超連結信息;若不 是web網頁,則直接進入步驟(3);
(3) 才艮據定製下載數據;
(4 )重複執行步驟(1 ) , ( 2 )和(3 ),直到沒有需要處理的 超連結為止。
上述方法中,步-驟(2)進一步包凌舌 (21 ) 4是取web網頁內超鏈4妄;
(22) 檢測超連結是否是內部網的超連結;
(23) 若是內部網的超連結,則保存此超連結;若不是內部網的 超連結,則不保存此超連結。
上述方法中,步驟(3)進一步包括
(31)檢測當前待下載數據的類型是否與預先定製的數據類型相
同;(32 )若當前待下載悽i據的類型與預先定製的數據類型相同, 則下載此數據;若當前待下載數據的類型與預先定製的數據類型不 相同,則不下載此^t據。
本發明的有益效果在於,通過應用本發明所描述的方法,可以 有效地解決爬蟲系統無法採集內部網數據的問題;可以為搭建特色 搜尋引擎所需的重要技術--爬蟲系統的數據類型針對性提供通用 的框架,有效地降^氐系統開發成本。
結合附圖,本發明的其他特點和優點可以從下面通過舉例來對
圖1是根據本發明的一個實施方式的方法的流程圖。
圖2是根據本發明的一個實施方式所得到的超連結列表片段截取。
具體實施例方式
下面將結合附圖對本發明的具體實施方式
進行詳細描述。
圖1是才艮據本發明的一個實施方式的方法的流程圖。該流程開 始於步驟101,這些內部網可以是企業、學校等,需要指出的是這 <又<義是舉例,內部網的不同形式不構成對本發明的限制。然後在步 驟102中,分析超連結所指向的數據是否是web網頁。需要說明的 是起始超連結應當是包含超連結豐富的web網頁,如網站的首頁 等,這僅僅是最優舉例,起始超連結的不同不構成對本發明的限制。分析判斷超連結所指向的數據是否是web網頁, 一種實施方式 是利用超連結的本身所包含的信息來進行分析。下面通過舉例來進 一步說明。如圖2所示,從201所指向的超連結可知,此超連結所 指向的數據是一個doc格式的文本數據;從202所指向的超連結可 知,此超連結所指向的數據是一個htm格式的web網頁。另一種實 施方式是利用超《連接的錨文本,例如, 一個錨文本可能是如下文字 北京郵電大學校內信息首頁,從這個錨文本也可以分析出此超連結 所指向的數據是一個web網頁,而且是一個包含超連結豐富的web 網頁。還有一種實施方式是通過HTTP協i義Content-Type,即通過 給伺服器發送請求得到Content-Type數據,來分析判斷超連結所指 向的數據是否是web網頁。以上是判斷超連結所指向的數據是否是 web網頁的三種不同的實施例,其他不同的實施例子不構成對本發 明的限制。
若是web網頁,則流程進入步驟103;若不是web網頁,則流 程直接進入步驟107。
在步驟103,才是取web網頁內超連結。 一個實施例是通過正則 表達式技術,來匹配網頁源碼中的超《連接,從而定位超連結,進而 提取出超連結。
步-驟103之後,流禾呈進入步驟104。
在步驟104,將步驟103中提取出的超連結分析檢測是否是內 部網的超鏈才妄。
下面通過超連結的結構並且結合一個實施例來說明。
超鏈4妻的結構是協"i義+主才幾域名+文件名+埠號,其中埠 號可以預設。分析可知,其中協議可以是http、 ftp等不同形式,這 部分在內部網和外部網是一致的,不能夠作為區分是否是內部網的標誌。第二部分是主機域名,它能夠十分顯著地表示主才幾,也就是 伺服器所在的網絡環境,即主機是位於外部網還是內部網,這就是 分析判斷的標誌。接下來是文件名和埠號,這兩部分在內部網和 外部網也是一致的,也不能夠作為區分是否是內部網的標誌。 一個 實施例是通過正則表達式技術,來匹配主機域名,進而判斷是否是
內部網的超連結。如圖2所示,這些超連結都是來自同一個內部網, 可以明顯看到所有的超《連4妻都擁有共同的內部網主才幾i或名 www.buptnu.com.cn, 通過正貝'j表達式匹酉己www.buptnu.com.cn字才尋 串,能夠匹配上的屬於這一內部網,不能夠匹配上的不屬於這一內 部網。由於在內部網上主機域名是很少有限的幾個,每一個都估文如 上的處理,這樣就能夠把整個內部網的超連結與外部網的超連結區 分開。以上是分析檢測是否是內部網的超連結的一個實施例,其他 不同的實施例子不構成對本發明的限制。
若是內部網的超連結,則流程進入步驟105;若不是內部網的 超連結,則流程進入步驟106 。
在步驟105,保存此超連結。
在步驟106,不保存此超連結。
步驟105之後,流程進入步驟107;步驟106之後,流程進入 步驟107。
在步驟107,檢測當前待下載數據的類型是否與預先定製的數 據類型相同。如上所述的超連結的結構是協議+主機域名+文件名 +埠號。其中文件名都包含有表示這個數據類型的後綴,如圖2 所示,表示數才居類型的後鄉農有.doc、 .htm、 .xls、 .rar。 一個實施例 是通過正則表達式,匹配包含在超連結裡的數據類型的後綴,然後 與預先定製的數據類型比較。若當前待下載數據的類型與預先定製的數據類型相同,則流考呈進入步驟108;若當前待下載悽史據的類型 與預先定製的凝:據類型不相同,則流程進入步驟109。
在步驟108,下載此數據。
在步-驟109,不下載it匕悽t據。
步驟108之後,流程進入步驟110;步驟109之後,流程進入 步驟110。
在步驟110, 4企測在步驟105中保存的超連結是否全部^皮處理, 若全部被處理完了,則流程進入步驟111;若還有沒有^皮處理的超 《連*接,則流程進入步驟102。
以上結合附圖描述了本發明的具體實施方式
,各種舉例說明不 對發明的實質內容構成限制,本發明不限於上面提供的實施細節, 可以在不脫離本發明特徵的情況下以另外的實施例實現。所屬4支術 領域的普通#支術人員在閱讀了 i兌明書後可以對以前所述的具體實 施方式估W奮改或變形,而不背離發明的實質和範圍。
權利要求
1.一種內部網可定製爬蟲系統構建方法,其特徵在於包括下列步驟(1)分析超連結所指向的數據是否是web網頁;(2)若是web網頁,則分析web網頁,處理超連結信息;若不是web網頁,則直接進入步驟(3);(3)根據定製下載數據;(4)重複執行步驟(1),(2)和(3),直到沒有需要處理的超連結為止。
2. 根據權利要求1所述的內部網可定製爬蟲系統構建方法,其特 徵在於步驟(2)進一步包括(21 )才是取web網頁內超鏈4妄;(22 )檢測超連結是否是內部網的超連結;(23 )若是內部網的超連結,則保存此超連結;若不是 內部網的超連結,則不保存此超連結。
3. 根據權利要求1所述的內部網可定製爬蟲系統構建方法,其特 徵在於步驟(3)進一步包括(31 )檢測當前待下載數據的類型是否與預先定製的數 據類型相同;(32)若當前待下載數據的類型與預先定製的數據類型 相同,則下載此數據;若當前待下載數據的類型與預先定製的 ^t據類型不相同,則不下載此數據。
全文摘要
本發明公開了一種內部網可定製爬出系統構建方法,該方法包括下列步驟(1)分析超連結所指向的數據是否是web網頁;(2)若是web網頁,則分析web網頁,處理超連結信息;若不是web網頁,則直接進入步驟(3);(3)根據定製下載數據;(4)重複執行步驟(1),(2)和(3),直到沒有需要處理的超連結為止。通過應用本發明所描述的方法,可以有效地解決爬蟲系統無法採集內部網數據的問題;可以為搭建特色搜尋引擎所需的重要技術——爬蟲系統的數據類型針對性提供通用的框架,有效地降低系統開發成本。
文檔編號G06F17/30GK101295321SQ20081012645
公開日2008年10月29日 申請日期2008年6月27日 優先權日2008年6月27日
發明者徐蔚然, 溥 楊, 軍 郭 申請人:北京郵電大學