新四季網

內部網可定製爬蟲系統構建方法

2023-06-06 02:19:36

專利名稱:內部網可定製爬蟲系統構建方法
技術領域:
本發明涉及網絡悽t據採集系統的構建方法,尤其涉及一種內部 網可定製爬出系統構建方法。
背景技術:
隨著資訊時代的到來,越來越多的企業、學校等紛紛建立起自 己的內部網,在內部網上搭建伺服器實行數據的共享來提高工作、 學習等效率。但是隨著內部網數據量的激增,人們很難簡單快捷地 在內部網上找到所需的悽t據,因此#丈據的共享並沒有帶來顯著的效 率的提高。內部網和數據共享並沒有發揮它們應有的潛力。於是, 人們想能否通過網際網路上的 一般搜尋引擎來檢索內部網上的數據,
但;^艮不幸的是,由於這些數據只能在企業、學校等內部使用、交流 和傳播,因此網際網路上的一般搜尋引擎4企索不到這些內部網的數 據。為了解決這一問題,人們提出了內部網搜尋引擎的概念。而從 一般網際網路上的搜尋引擎轉變到內部網上的搜尋引擎,其他的搜索 引擎系統部分可以直接複製,惟一的不同是爬蟲系統,因此內部網 爬蟲系統是內部網搜尋引擎的核心。怎樣估文到爬蟲系統只在內部網 上採集數據已受到越來越多的學者的關注。目前,還沒有一種系統 的行之有效的內部網爬蟲構建方法。
由於內部網上的數據類型千差萬別,如音頻、視頻、圖像、文 本等,其中,音頻又包括mp3、 wma等,禍J貞又包括avi、 rm、 rmvb、 wmv等,圖像又包括jpg、 png、 tif、 bmp等,文本又包括txt、 doc、 pdf等。為了提高檢索效率和降低搜尋引擎的開發難度, 提出了只針對某一類數據類型的特色搜尋引擎,如音頻搜尋引擎、 視頻搜尋引擎、圖像搜尋引擎、文本搜尋引擎等。因此,爬蟲系統 的數據類型針對性是搭建特色搜尋引擎的核心部分之一,也受到越 來越多的學者的關注。目前,也還沒有一種系統的行之有效的數據 類型針對型爬蟲構建方法。

發明內容
針對現有技術存在的問題,本發明的目的是提供一種內部網可 定製爬出系統構建方法。
為達到上述目的,本發明的方法包括下列步驟 (1 )分析超連結所指向的數據是否是web網頁;
(2) 若是web網頁,則分析web網頁,處理超連結信息;若不 是web網頁,則直接進入步驟(3);
(3) 才艮據定製下載數據;
(4 )重複執行步驟(1 ) , ( 2 )和(3 ),直到沒有需要處理的 超連結為止。
上述方法中,步-驟(2)進一步包凌舌 (21 ) 4是取web網頁內超鏈4妄;
(22) 檢測超連結是否是內部網的超連結;
(23) 若是內部網的超連結,則保存此超連結;若不是內部網的 超連結,則不保存此超連結。
上述方法中,步驟(3)進一步包括
(31)檢測當前待下載數據的類型是否與預先定製的數據類型相
同;(32 )若當前待下載悽i據的類型與預先定製的數據類型相同, 則下載此數據;若當前待下載數據的類型與預先定製的數據類型不 相同,則不下載此^t據。
本發明的有益效果在於,通過應用本發明所描述的方法,可以 有效地解決爬蟲系統無法採集內部網數據的問題;可以為搭建特色 搜尋引擎所需的重要技術--爬蟲系統的數據類型針對性提供通用 的框架,有效地降^氐系統開發成本。
結合附圖,本發明的其他特點和優點可以從下面通過舉例來對


圖1是根據本發明的一個實施方式的方法的流程圖。
圖2是根據本發明的一個實施方式所得到的超連結列表片段截取。
具體實施例方式
下面將結合附圖對本發明的具體實施方式
進行詳細描述。
圖1是才艮據本發明的一個實施方式的方法的流程圖。該流程開 始於步驟101,這些內部網可以是企業、學校等,需要指出的是這 <又<義是舉例,內部網的不同形式不構成對本發明的限制。然後在步 驟102中,分析超連結所指向的數據是否是web網頁。需要說明的 是起始超連結應當是包含超連結豐富的web網頁,如網站的首頁 等,這僅僅是最優舉例,起始超連結的不同不構成對本發明的限制。分析判斷超連結所指向的數據是否是web網頁, 一種實施方式 是利用超連結的本身所包含的信息來進行分析。下面通過舉例來進 一步說明。如圖2所示,從201所指向的超連結可知,此超連結所 指向的數據是一個doc格式的文本數據;從202所指向的超連結可 知,此超連結所指向的數據是一個htm格式的web網頁。另一種實 施方式是利用超《連接的錨文本,例如, 一個錨文本可能是如下文字 北京郵電大學校內信息首頁,從這個錨文本也可以分析出此超連結 所指向的數據是一個web網頁,而且是一個包含超連結豐富的web 網頁。還有一種實施方式是通過HTTP協i義Content-Type,即通過 給伺服器發送請求得到Content-Type數據,來分析判斷超連結所指 向的數據是否是web網頁。以上是判斷超連結所指向的數據是否是 web網頁的三種不同的實施例,其他不同的實施例子不構成對本發 明的限制。
若是web網頁,則流程進入步驟103;若不是web網頁,則流 程直接進入步驟107。
在步驟103,才是取web網頁內超連結。 一個實施例是通過正則 表達式技術,來匹配網頁源碼中的超《連接,從而定位超連結,進而 提取出超連結。
步-驟103之後,流禾呈進入步驟104。
在步驟104,將步驟103中提取出的超連結分析檢測是否是內 部網的超鏈才妄。
下面通過超連結的結構並且結合一個實施例來說明。
超鏈4妻的結構是協"i義+主才幾域名+文件名+埠號,其中埠 號可以預設。分析可知,其中協議可以是http、 ftp等不同形式,這 部分在內部網和外部網是一致的,不能夠作為區分是否是內部網的標誌。第二部分是主機域名,它能夠十分顯著地表示主才幾,也就是 伺服器所在的網絡環境,即主機是位於外部網還是內部網,這就是 分析判斷的標誌。接下來是文件名和埠號,這兩部分在內部網和 外部網也是一致的,也不能夠作為區分是否是內部網的標誌。 一個 實施例是通過正則表達式技術,來匹配主機域名,進而判斷是否是
內部網的超連結。如圖2所示,這些超連結都是來自同一個內部網, 可以明顯看到所有的超《連4妻都擁有共同的內部網主才幾i或名 www.buptnu.com.cn, 通過正貝'j表達式匹酉己www.buptnu.com.cn字才尋 串,能夠匹配上的屬於這一內部網,不能夠匹配上的不屬於這一內 部網。由於在內部網上主機域名是很少有限的幾個,每一個都估文如 上的處理,這樣就能夠把整個內部網的超連結與外部網的超連結區 分開。以上是分析檢測是否是內部網的超連結的一個實施例,其他 不同的實施例子不構成對本發明的限制。
若是內部網的超連結,則流程進入步驟105;若不是內部網的 超連結,則流程進入步驟106 。
在步驟105,保存此超連結。
在步驟106,不保存此超連結。
步驟105之後,流程進入步驟107;步驟106之後,流程進入 步驟107。
在步驟107,檢測當前待下載數據的類型是否與預先定製的數 據類型相同。如上所述的超連結的結構是協議+主機域名+文件名 +埠號。其中文件名都包含有表示這個數據類型的後綴,如圖2 所示,表示數才居類型的後鄉農有.doc、 .htm、 .xls、 .rar。 一個實施例 是通過正則表達式,匹配包含在超連結裡的數據類型的後綴,然後 與預先定製的數據類型比較。若當前待下載數據的類型與預先定製的數據類型相同,則流考呈進入步驟108;若當前待下載悽史據的類型 與預先定製的凝:據類型不相同,則流程進入步驟109。
在步驟108,下載此數據。
在步-驟109,不下載it匕悽t據。
步驟108之後,流程進入步驟110;步驟109之後,流程進入 步驟110。
在步驟110, 4企測在步驟105中保存的超連結是否全部^皮處理, 若全部被處理完了,則流程進入步驟111;若還有沒有^皮處理的超 《連*接,則流程進入步驟102。
以上結合附圖描述了本發明的具體實施方式
,各種舉例說明不 對發明的實質內容構成限制,本發明不限於上面提供的實施細節, 可以在不脫離本發明特徵的情況下以另外的實施例實現。所屬4支術 領域的普通#支術人員在閱讀了 i兌明書後可以對以前所述的具體實 施方式估W奮改或變形,而不背離發明的實質和範圍。
權利要求
1.一種內部網可定製爬蟲系統構建方法,其特徵在於包括下列步驟(1)分析超連結所指向的數據是否是web網頁;(2)若是web網頁,則分析web網頁,處理超連結信息;若不是web網頁,則直接進入步驟(3);(3)根據定製下載數據;(4)重複執行步驟(1),(2)和(3),直到沒有需要處理的超連結為止。
2. 根據權利要求1所述的內部網可定製爬蟲系統構建方法,其特 徵在於步驟(2)進一步包括(21 )才是取web網頁內超鏈4妄;(22 )檢測超連結是否是內部網的超連結;(23 )若是內部網的超連結,則保存此超連結;若不是 內部網的超連結,則不保存此超連結。
3. 根據權利要求1所述的內部網可定製爬蟲系統構建方法,其特 徵在於步驟(3)進一步包括(31 )檢測當前待下載數據的類型是否與預先定製的數 據類型相同;(32)若當前待下載數據的類型與預先定製的數據類型 相同,則下載此數據;若當前待下載數據的類型與預先定製的 ^t據類型不相同,則不下載此數據。
全文摘要
本發明公開了一種內部網可定製爬出系統構建方法,該方法包括下列步驟(1)分析超連結所指向的數據是否是web網頁;(2)若是web網頁,則分析web網頁,處理超連結信息;若不是web網頁,則直接進入步驟(3);(3)根據定製下載數據;(4)重複執行步驟(1),(2)和(3),直到沒有需要處理的超連結為止。通過應用本發明所描述的方法,可以有效地解決爬蟲系統無法採集內部網數據的問題;可以為搭建特色搜尋引擎所需的重要技術——爬蟲系統的數據類型針對性提供通用的框架,有效地降低系統開發成本。
文檔編號G06F17/30GK101295321SQ20081012645
公開日2008年10月29日 申請日期2008年6月27日 優先權日2008年6月27日
發明者徐蔚然, 溥 楊, 軍 郭 申請人:北京郵電大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀