新四季網

第三方web應用程式發現的方法和裝置的製作方法

2023-07-06 14:07:41

專利名稱:第三方web應用程式發現的方法和裝置的製作方法
技術領域:
本發明涉及計算機網絡安全技術領域,尤其涉及一種第三方TOB應用程式發現的 方法和裝置。
背景技術:
隨著網際網路的普及與發展,越來越多的中、小型企業甚至政府、金融機構等使用了 很多第三方WEB應用程式,因為第三方TOB應用程式可以開支,以及提供了他們沒有的專業 技術等。TOB應用程式,即一種應用程式,但其基於WEB,以瀏覽器/伺服器架構(Browser/ Server,簡稱B/S),如論壇、內容管理系統、留言板等都屬於WEB應用程式。在風險評估中,脆弱性掃描和滲透性測試等都會有信息收集環節。但這些信息收 集環節都沒有涉及第三方WEB應用程式的發現。

發明內容
針對以上不足,本發明要解決的技術問題是提供一種第三方TOB應用程式發現的 方法和裝置,該方法和裝置解決了在WEB應用弱點掃描中沒涉及到第三方WEB應用程式的 發現的問題。為了解決上述技術問題,本發明提供一種第三方WEB應用程式發現的方法,包括 判斷待檢測URL對應的HTML頁面是否存在,如果是,則下載待檢測URL對應的HTML頁
以HTML標籤作為DOM樹結構的索引,將HTML頁面解析為DOM樹結構; 提取指定HTML標籤中的子URL,如果子URL中的目的網站子URL的數量達到預設的閾 值,則將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特徵 進行匹配;並且,提取DOM樹結構中的信息特徵,將信息特徵與第三方TOB應用程式特徵數 據庫中的特徵進行匹配;
如果在第三方WEB應用程式模型資料庫中查找到所有匹配成功的特徵,則確定待檢測 URL對應的HTML頁面中包含第三方WEB應用程式。進一步的,判斷待檢測URL對應的HTML頁面是否存在包括通過判斷HTTP響應消 息判斷待檢測URL對應的HTML頁面是否存在;
下載待檢測URL的HTML頁面信息包括按照HTTP請求方法下載待檢測URL的HTML頁
面信息。進一步的,判斷待檢測URL對應的HTML頁面存在之後還包括判斷待檢測URL的 來源屬性。進一步的,判斷待檢測URL的來源屬性包括如果待檢測URL的來源屬性不是目的 網站子URL、需判斷HASH值的URL、文件默認路徑URL中的其中一種,則確定待檢測URL的 來源屬性為用戶提交的根URL。進一步的,提取指定HTML標籤中的子URL之後,還包括判斷子URL的域名;
如果子URL包含待檢測URL對應的完整域名,則確定子URL為目的網站子URL,標記來 源屬性為目的網站子URL;
如果子URL包含待檢測URL對應的父域名而不包含待檢測URL對應的完整域名,則確 定子URL為目的網站子域名URL ;
如果子URL既不包含待檢測URL對應的完整域名,又不包含待檢測URL對應的父域名, 則確定子URL為第三方URL。進一步的,如果子URL中的目的網站子URL的數量沒有達到預設的閾值,則將目的 網站子URL作為待檢測URL進行檢測。進一步的,將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵數 據庫中的特徵進行匹配包括
對所有目的網站子URL去掉待檢測URL對應的完整域名,截取文件默認路徑特徵,與第 三方WEB應用程式特徵資料庫中的文件默認路徑特徵進行匹配,記錄匹配成功的文件默認 路徑特徵;
將第三方WEB應用程式特徵資料庫中沒有匹配成功的文件默認路徑特徵與待檢測URL 對應的完整域名組合成為新的URL,來源屬性標記為文件默認路徑URL,將新的URL作為待 檢測URL進行檢測。進一步的,如果確定子URL為第三方URL,則判斷第三方URL是否有跳轉行為,如果 有,則判定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。進一步的,提取DOM樹結構中的信息特徵,將信息特徵與第三方WEB應用程式特徵 資料庫中的特徵進行匹配包括
如果在第三方TOB應用程式特徵資料庫中沒有信息特徵對應的文件HASH值匹配屬性, 則記錄該信息特徵為匹配成功的特徵;
如果在第三方TOB應用程式特徵資料庫中有信息特徵對應的文件HASH值匹配屬性,則 將該信息特徵與待檢測URL組合為新的待檢測URL進行檢測,來源屬性標記為需判斷HASH 值的URL。進一步的,還包括下載來源屬性標記為需判斷HASH值的URL所確定的文件,對下 載後的文件進行HASH計算,如果計算所得的HASH值與第三方WEB應用程式特徵資料庫中 該信息特徵對應的文件HASH值匹配屬性的值相同,則記錄該信息特徵和HASH值為匹配成 功的特徵。進一步的,第三方WEB應用程式模型資料庫包括開源第三方TOB應用程式、提取 的開源第三方WEB應用程式的特徵、依據提取的開源第三方TOB應用程式的特徵在真實TOB 應用環境中測試中的出現頻率設定的權值;非開源第三方WEB應用程式、提取的非開源第 三方WEB應用程式的特徵、依據提取的非開源第三方WEB應用程式的特徵在真實WEB應用 環境中測試中的出現頻率設定的權值。進一步的,如果在第三方TOB應用程式模型資料庫中查找到所有匹配成功的特 徵,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式具體包括如果所有匹 配成功的特徵與第三方TOB應用程式模型資料庫中提取的開源第三方TOB應用程式的特徵 匹配成功,或者所有匹配成功的特徵與第三方WEB應用程式模型資料庫中提取的非開源第
7三方TOB應用程式的特徵匹配成功,則確定待檢測URL對應的HTML頁面中包含第三方WEB
應用程式。本發明還提供了一種第三方TOB應用程式發現的裝置,包括
URL下載模塊,用於判斷待檢測URL對應的HTML頁面是否存在,如果是,則下載待檢測 URL對應的HTML頁面;
頁面解析模塊,用於以HTML標籤作為DOM樹結構的索引,將HTML頁面解析為DOM樹結
構;
URL下載模塊,用於判斷待檢測URL對應的HTML頁面是否存在,如果是,則下載待檢測 URL對應的HTML頁面;
頁面解析模塊,用於以URL下載模塊得到的HTML的標籤作為DOM樹結構的索引,將 HTML頁面解析為DOM樹結構;
URL提取模塊,用於從URL下載模塊得到的HTML頁面中提取指定HTML標籤中的子
URL ;
URL監控模塊,用於對URL提取模塊提取的子URL中的目的網站子URL的數量做統計; 特徵匹配模塊,用於在URL監控模塊確定目的網站子URL的數量達到預設的閾值時, 將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特徵進行匹 配,並且,提取DOM樹結構中的信息特徵,將信息特徵與第三方WEB應用程式特徵資料庫中 的特徵進行匹配;
模型匹配模塊,用於如果在第三方WEB應用程式模型資料庫中查找到特徵匹配模塊的 所有匹配成功的特徵,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。進一步的,URL下載模塊具體用於通過判斷HTTP響應消息判斷待檢測URL對應的 HTML頁面是否存在;按照HTTP請求方法下載待檢測URL的HTML頁面信息。進一步的,URL下載模塊具體還用於判斷待檢測URL對應的HTML頁面存在之後判 斷待檢測URL的來源屬性。進一步的,判斷待檢測URL的來源屬性包括如果待檢測URL的來源屬性不是目的 網站子URL、需判斷HASH值的URL、文件默認路徑URL中的其中一種,則確定待檢測URL的 來源屬性為用戶提交的根URL。進一步的,URL提取模塊具體用於提取指定HTML標籤中的子URL之後,還包括 判斷子URL的域名;
如果子URL包含待檢測URL對應的完整域名,則確定子URL為目的網站子URL,標記來 源屬性為目的網站子URL;
如果子URL包含待檢測URL對應的父域名而不包含待檢測URL對應的完整域名,則確 定子URL為目的網站子域名URL ;
如果子URL既不包含待檢測URL對應的完整域名,又不包含待檢測URL對應的父域名, 則確定子URL為第三方URL。進一步的,特徵匹配模塊具體用於如果子URL中的目的網站子URL的數量沒有達 到預設的閾值,則將目的網站子URL作為待檢測URL送給URL下載模塊進行檢測。進一步的,特徵匹配模塊具體還用於將目的網站子URL的文件默認路徑特徵與第 三方WEB應用程式特徵資料庫中的特徵進行匹配對所有目的網站子URL去掉待檢測URL對應的完整域名,截取文件默認路徑特徵,與第 三方WEB應用程式特徵資料庫中的文件默認路徑特徵進行匹配,記錄匹配成功的文件默認 路徑特徵;
將第三方WEB應用程式特徵資料庫中沒有匹配成功的文件默認路徑特徵與待檢測URL 對應的完整域名組合成為新的URL,來源屬性標記為文件默認路徑URL,將新的URL作為待 檢測URL送給URL下載模塊進行檢測。進一步的,如果確定子URL為第三方URL,則判斷第三方URL是否有跳轉行為,如果 有,則判定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。進一步的,特徵匹配模塊具體還用於提取DOM樹結構中的信息特徵,將信息特徵 與第三方WEB應用程式特徵資料庫中的特徵進行匹配
如果在第三方TOB應用程式特徵資料庫中沒有信息特徵對應的文件HASH值匹配屬性, 則記錄該信息特徵為匹配成功的特徵;
如果在第三方TOB應用程式特徵資料庫中有信息特徵對應的文件HASH值匹配屬性,則 將該信息特徵與待檢測URL組合為新的待檢測URL送給URL下載模塊進行檢測,來源屬性 標記為需判斷HASH值的URL。進一步的,特徵匹配模塊具體還用於下載來源屬性標記為需判斷HASH值的URL所 確定的文件,對下載後的文件進行HASH計算,如果計算所得的HASH值與第三方WEB應用程 序特徵資料庫中該信息特徵對應的文件HASH值匹配屬性的值相同,則記錄該信息特徵和 HASH值為匹配成功的特徵。進一步的,第三方TOB應用程式模型資料庫包括開源第三方TOB應用程式、提取 的開源第三方WEB應用程式的特徵、依據提取的開源第三方TOB應用程式的特徵在真實TOB 應用環境中測試中的出現頻率設定的權值;非開源第三方WEB應用程式、提取的非開源第 三方WEB應用程式的特徵、依據提取的非開源第三方WEB應用程式的特徵在真實WEB應用 環境中測試中的出現頻率設定的權值。進一步的,模型匹配模塊具體用於如果在第三方TOB應用程式模型資料庫中查找 到特徵匹配模塊的所有匹配成功的特徵,則確定待檢測URL對應的HTML頁面中包含第三方 WEB應用程式具體包括如果特徵匹配模塊所有匹配成功的特徵與第三方WEB應用程式模 型資料庫中提取的開源第三方WEB應用程式的特徵匹配成功,或者特徵匹配模塊所有匹配 成功的特徵與第三方TOB應用程式模型資料庫中提取的非開源第三方TOB應用程式的特徵 匹配成功,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。本發明的有益效果是
本發明提供了一種第三方WEB應用程式發現的方法和裝置,解決了目前在WEB應用弱 點掃描中沒涉及到第三方WEB應用程式的發現,也解決了目前在對網頁結構相似性確定的 局限性。並且在計算機網絡安全領域中確定了第三方WEB應用程式安全問題的重要性,以 及促進了第三方WEB應用程式安全標準規範的形成。


為了更清楚地說明本發明或現有技術中的技術方案,下面將對實施例或現有技術 描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明中記載的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以 根據這些附圖獲得其他的附圖。圖1為本發明第三方TOB應用程式發現的方法流程圖; 圖2為本發明第三方WEB應用程式發現的裝置示意圖3為本發明第三方WEB應用程式發現的具體實施例流程圖; 圖4為典型的DOM樹結構示意圖; 圖5為HTML轉為DOM樹結構的示意圖。
具體實施例方式為了使本技術領域的人員更好地理解本發明實施例中的技術方案,並使本發明的 上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖對本發明中技術方案作進一步詳 細的說明。本發明提供了一種第三方WEB應用程式發現的方法和裝置,解決了目前在WEB應 用弱點掃描中沒涉及到第三方WEB應用程式的發現。首先介紹本發明提供的第三方TOB應用程式發現的方法,具體實施步驟如圖1所 示,包括
S101、判斷待檢測URL對應的HTML頁面是否存在,如果是,則下載待檢測URL對應的 HTML頁面;
其中,判斷待檢測URL對應的HTML頁面是否存在包括通過判斷HTTP響應消息判斷待 檢測URL對應的HTML頁面是否存在;
下載待檢測URL的HTML頁面信息包括按照HTTP請求方法下載待檢測URL的HTML頁
面信息。判斷待檢測URL對應的HTML頁面存在之後還包括判斷待檢測URL的來源屬性。判斷待檢測URL的來源屬性包括如果待檢測URL的來源屬性不是目的網站子 URL、需判斷HASH值的URL、文件默認路徑URL中的其中一種,則確定待檢測URL的來源屬性 為用戶提交的根URL。S102、以HTML標籤作為DOM樹結構的索引,將HTML頁面解析為DOM樹結構; S103、提取指定HTML標籤中的子URL,如果子URL中的目的網站子URL的數量達到預設
的閾值,則將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的 特徵進行匹配;
其中,提取指定HTML標籤中的子URL之後,還包括 判斷子URL的域名;
如果子URL包含待檢測URL對應的完整域名,則確定子URL為目的網站子URL,標記來 源屬性為目的網站子URL;
如果子URL包含待檢測URL對應的父域名而不包含待檢測URL對應的完整域名,則確 定子URL為目的網站子域名URL ;
如果子URL既不包含待檢測URL對應的完整域名,又不包含待檢測URL對應的父域名, 則確定子URL為第三方URL。如果子URL中的目的網站子URL的數量沒有達到預設的閾值,則將目的網站子URL作為待檢測URL進行檢測。將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特 徵進行匹配包括
對所有目的網站子URL去掉待檢測URL對應的完整域名,截取文件默認路徑特徵,與第 三方WEB應用程式特徵資料庫中的文件默認路徑特徵進行匹配,記錄匹配成功的文件默認 路徑特徵;
將第三方WEB應用程式特徵資料庫中沒有匹配成功的文件默認路徑特徵與待檢測URL 對應的完整域名組合成為新的URL,來源屬性標記為文件默認路徑URL,將新的URL作為待 檢測URL進行檢測。如果確定子URL為第三方URL,則判斷第三方URL是否有跳轉行為,如果有,則判定 待檢測URL對應的HTML頁面中包含第三方WEB應用程式。S104、提取DOM樹結構中的信息特徵,將信息特徵與第三方TOB應用程式特徵數據 庫中的特徵進行匹配;
其中,提取DOM樹結構中的信息特徵,將信息特徵與第三方WEB應用程式特徵資料庫中 的特徵進行匹配包括
如果在第三方TOB應用程式特徵資料庫中沒有信息特徵對應的文件HASH值匹配屬性, 則記錄該信息特徵為匹配成功的特徵;
如果在第三方TOB應用程式特徵資料庫中有信息特徵對應的文件HASH值匹配屬性,則 將該信息特徵與待檢測URL組合為新的待檢測URL進行檢測,來源屬性標記為需判斷HASH 值的URL。下載來源屬性標記為需判斷HASH值的URL所確定的文件,對下載後的文件進行 HASH計算,如果計算所得的HASH值與第三方TOB應用程式特徵資料庫中該信息特徵對應的 文件HASH值匹配屬性的值相同,則記錄該信息特徵和HASH值為匹配成功的特徵。如圖2所示,步驟S103與步驟S104在順序上沒有先後之分。S105、如果在第三方TOB應用程式模型資料庫中查找到所有匹配成功的特徵,則 確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。其中,第三方WEB應用程式模型資料庫包括開源第三方TOB應用程式、提取的開 源第三方WEB應用程式的特徵、依據提取的開源第三方WEB應用程式的特徵在真實WEB應 用環境中測試中的出現頻率設定的權值;非開源第三方WEB應用程式、提取的非開源第三 方TOB應用程式的特徵、依據提取的非開源第三方WEB應用程式的特徵在真實TOB應用環 境中測試中的出現頻率設定的權值。如果在第三方TOB應用程式模型資料庫中查找到所有匹配成功的特徵,則確定待 檢測URL對應的HTML頁面中包含第三方WEB應用程式具體包括如果所有匹配成功的特徵 與第三方WEB應用程式模型資料庫中提取的開源第三方WEB應用程式的特徵匹配成功,或 者所有匹配成功的特徵與第三方TOB應用程式模型資料庫中提取的非開源第三方TOB應用 程序的特徵匹配成功,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。本發明還提供了一種第三方TOB應用程式發現的裝置,如圖2所示,包括以下模 塊
URL下載模塊201,用於判斷待檢測URL對應的HTML頁面是否存在,如果是,則下載待
11檢測URL對應的HTML頁面;
頁面解析模塊202,用於以URL下載模塊201得到的HTML的標籤作為DOM樹結構的索 弓丨,將HTML頁面解析為DOM樹結構;
URL提取模塊203,用於從URL下載模塊201得到的HTML頁面中提取指定HTML標籤中 的子URL ;
URL監控模塊204,用於對URL提取模塊203提取的子URL中的目的網站子URL的數量 做統計;
特徵匹配模塊205,用於在URL監控模塊204確定目的網站子URL的數量達到預設的閾 值時,將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特徵 進行匹配,並且,提取DOM樹結構中的信息特徵,將信息特徵與第三方WEB應用程式特徵數 據庫中的特徵進行匹配;
模型匹配模塊206,用於如果在第三方TOB應用程式模型資料庫中查找到特徵匹配模 塊205的所有匹配成功的特徵,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用 程序。URL下載模塊201具體用於通過判斷HTTP響應消息判斷待檢測URL對應的HTML 頁面是否存在;按照HTTP請求方法下載待檢測URL的HTML頁面信息。URL下載模塊201具體還用於判斷待檢測URL對應的HTML頁面存在之後判斷待檢 測URL的來源屬性。判斷待檢測URL的來源屬性包括如果待檢測URL的來源屬性不是目的網站子 URL、需判斷HASH值的URL、文件默認路徑URL中的其中一種,則確定待檢測URL的來源屬性 為用戶提交的根URL。URL提取模塊203具體用於提取指定HTML標籤中的子URL之後,還包括 判斷子URL的域名;
如果子URL包含待檢測URL對應的完整域名,則確定子URL為目的網站子URL,標記來 源屬性為目的網站子URL;
如果子URL包含待檢測URL對應的父域名而不包含待檢測URL對應的完整域名,則確 定子URL為目的網站子域名URL ;
如果子URL既不包含待檢測URL對應的完整域名,又不包含待檢測URL對應的父域名, 則確定子URL為第三方URL。特徵匹配模塊205具體用於如果子URL中的目的網站子URL的數量沒有達到預設 的閾值,則將目的網站子URL作為待檢測URL送給URL下載模塊201進行檢測。特徵匹配模塊205具體還用於將目的網站子URL的文件默認路徑特徵與第三方 WEB應用程式特徵資料庫中的特徵進行匹配
對所有目的網站子URL去掉待檢測URL對應的完整域名,截取文件默認路徑特徵,與第 三方WEB應用程式特徵資料庫中的文件默認路徑特徵進行匹配,記錄匹配成功的文件默認 路徑特徵;
將第三方WEB應用程式特徵資料庫中沒有匹配成功的文件默認路徑特徵與待檢測URL 對應的完整域名組合成為新的URL,來源屬性標記為文件默認路徑URL,將新的URL作為待 檢測URL送給URL下載模塊201進行檢測。
如果確定子URL為第三方URL,則判斷第三方URL是否有跳轉行為,如果有,則判定 待檢測URL對應的HTML頁面中包含第三方WEB應用程式。特徵匹配模塊205具體還用於提取DOM樹結構中的信息特徵,將信息特徵與第三 方TOB應用程式特徵資料庫中的特徵進行匹配
如果在第三方TOB應用程式特徵資料庫中沒有信息特徵對應的文件HASH值匹配屬性, 則記錄該信息特徵為匹配成功的特徵;
如果在第三方TOB應用程式特徵資料庫中有信息特徵對應的文件HASH值匹配屬性,則 將該信息特徵與待檢測URL組合為新的待檢測URL送給URL下載模塊201進行檢測,來源 屬性標記為需判斷HASH值的URL。特徵匹配模塊205具體還用於下載來源屬性標記為需判斷HASH值的URL所確定 的文件,對下載後的文件進行HASH計算,如果計算所得的HASH值與第三方WEB應用程式特 徵資料庫中該信息特徵對應的文件HASH值匹配屬性的值相同,則記錄該信息特徵和HASH 值為匹配成功的特徵。第三方TOB應用程式模型資料庫包括開源第三方TOB應用程式、提取的開源第三 方TOB應用程式的特徵、依據提取的開源第三方WEB應用程式的特徵在真實WEB應用環境 中測試中的出現頻率設定的權值;非開源第三方TOB應用程式、提取的非開源第三方TOB應 用程序的特徵、依據提取的非開源第三方WEB應用程式的特徵在真實WEB應用環境中測試 中的出現頻率設定的權值。模型匹配模塊206具體用於如果在第三方TOB應用程式模型資料庫中查找到特徵 匹配模塊的所有匹配成功的特徵,則確定待檢測URL對應的HTML頁面中包含第三方WEB應 用程序具體包括如果特徵匹配模塊205所有匹配成功的特徵與第三方WEB應用程式模型 資料庫中提取的開源第三方WEB應用程式的特徵匹配成功,或者特徵匹配模塊205所有匹 配成功的特徵與第三方TOB應用程式模型資料庫中提取的非開源第三方TOB應用程式的特 徵匹配成功,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。下面給出本發明的一個具體實施例,流程圖如圖3所示,包括以下步驟
5301、用戶提交待檢測URL;
5302、接受URL地址,判斷待檢測URL對應的HTML頁面是否存在,如果是,則下載待檢 測URL對應的HTML頁面;
其中,通過判斷HTTP響應消息判斷待檢測URL對應的HTML頁面是否存在;按照HTTP 請求方法下載待檢測URL的HTML頁面信息。HTTP響應消息的判斷即檢測裝置客戶端發起一個請求,建立一個到伺服器指定 埠(默認為80埠)的TCP連接,HTTP伺服器則監聽客戶端發送過來的請求。如返回 "HTTP/1. 1 200 0K」表示頁面存在,然後標記該請求URL狀態,繼續進行下一步驟;如返回 "HTTP/1. 1 404 Not Found」表示請求頁面不存在,然後標記該請求URL狀態,不進行下一步
馬聚οHTTP請求方法的判斷,即判斷HTTP請求方法,例如可以是GET或者POST,有時候 由於待檢測WEB應用程式的要求,我們需要通過構造HTTP請求頭信息來模擬瀏覽器請求。 然後按照HTTP請求方法,下載保存待檢測URL的HTML頁面信息。S303、URL 來源判斷;判斷待檢測URL的來源屬性包括如果待檢測URL的來源屬性不是目的網站子URL、需 判斷HASH值的URL、文件默認路徑URL中的其中一種,則確定待檢測URL的來源屬性為用戶 提交的根URL。S304、將下載保存的HTML頁面解析為DOM樹結構,以HTML標籤對DOM樹結構建立 索引;
為了在之後快速提取子URL和頁面信息特徵與特徵資料庫特徵匹配,需要把下載後待 檢測頁面中HTML頁面轉換為DOM樹結構,然後以HTML標籤對DOM樹建立索引,通過查詢索 引,可以提取子URL和所需特徵。DOM樹即文檔對象模型(Document Object Model,D0M)是 一種用於HTML和XML文檔的編程接口。它給文檔提供了一種結構化的表示方法,可以改變 文檔的內容和呈現方式。圖4即典型的DOM樹結構示意圖。S305、提取指定HTML標籤中的子URL,最終以目的網站子URL、目的網站子域名URL 和第三方URL分類
判斷子URL的域名;
如果子URL包含待檢測URL對應的完整域名,則確定子URL為目的網站子URL,標記來 源屬性為目的網站子URL;
如果子URL包含待檢測URL對應的父域名而不包含待檢測URL對應的完整域名,則確 定子URL為目的網站子域名URL ;
如果子URL既不包含待檢測URL對應的完整域名,又不包含待檢測URL對應的父域名, 則確定子URL為第三方URL。如果確定子URL為第三方URL,則判斷第三方URL是否有跳轉行為,如果有,則判定 待檢測URL對應的HTML頁面中包含第三方WEB應用程式。S306、判斷目的網站子URL隊列中的URL數量達到數量上限的設定;
如果子URL中的目的網站子URL的數量沒有達到預設的閾值,則將目的網站子URL作 為待檢測URL進行檢測。S307、如果子URL中的目的網站子URL的數量達到預設的閾值,則將目的網站子 URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特徵進行匹配;
將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特徵進 行匹配包括
對所有目的網站子URL去掉待檢測URL對應的完整域名,截取文件默認路徑特徵,與第 三方WEB應用程式特徵資料庫中的文件默認路徑特徵進行匹配,記錄匹配成功的文件默認 路徑特徵;
將第三方WEB應用程式特徵資料庫中沒有匹配成功的文件默認路徑特徵與待檢測URL 對應的完整域名組合成為新的URL,來源屬性標記為文件默認路徑URL,將新的URL作為待 檢測URL進行檢測。S308、根據以HTML標籤對DOM樹結構建立的索引,提取DOM樹結構中的信息特徵, 與第三方WEB應用程式特徵資料庫中的特徵進行匹配,記錄匹配成功的特徵;
S309、提取DOM樹結構中的信息特徵,將信息特徵與第三方WEB應用程式特徵資料庫中 的特徵進行匹配如果在第三方TOB應用程式特徵資料庫中沒有信息特徵對應的文件HASH 值匹配屬性,則記錄該信息特徵為匹配成功的特徵;S310、如果在第三方TOB應用程式特徵資料庫中有信息特徵對應的文件HASH值匹配屬 性,則將該信息特徵與待檢測URL組合為新的待檢測URL進行檢測,來源屬性標記為需判斷 HASH 值的 URL;
下載來源屬性標記為需判斷HASH值的URL所確定的文件,對下載後的文件進行HASH 計算,如果計算所得的HASH值與第三方TOB應用程式特徵資料庫中該信息特徵對應的文件 HASH值匹配屬性的值相同,則記錄該信息特徵和HASH值為匹配成功的特徵。S311、對所有匹配成功的特徵在第三方TOB應用程式模型資料庫中查找、匹配,最 終確定待檢測URL是否包含第三方WEB應用程式;
其中,第三方WEB應用程式特徵資料庫依賴於第三方TOB應用程式模型資料庫; 第三方TOB應用程式模型資料庫包括開源第三方WEB應用程式、提取的開源第三方 TOB應用程式的特徵、依據提取的開源第三方TOB應用程式的特徵在真實TOB應用環境中測 試中的出現頻率設定的權值;非開源第三方WEB應用程式、提取的非開源第三方TOB應用程 序的特徵、依據提取的非開源第三方WEB應用程式的特徵在真實WEB應用環境中測試中的 出現頻率設定的權值;
如果在第三方WEB應用程式模型資料庫中查找到所有匹配成功的特徵,則確定待檢測 URL對應的HTML頁面中包含第三方WEB應用程式具體包括如果所有匹配成功的特徵與第 三方WEB應用程式模型資料庫中提取的開源第三方WEB應用程式的特徵匹配成功,或者所 有匹配成功的特徵與第三方TOB應用程式模型資料庫中提取的非開源第三方TOB應用程式 的特徵匹配成功,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。為了更好的理解本發明,下面結合一個基於第三方TOB應用程式架構的網站為 例
用戶提交待檢測網站URL,檢測裝置接收並檢測判斷URL狀態。判斷URL請求方式,請 求方式為GET請求。判斷URL來源,即用戶提交根URL,通過對目標網站發送GET請求,判斷 HTTP響應消息,目標網站返回「HTTP/1. 1 200 0K」,即頁面存在,下載並保存頁面信息。將下載後保存的頁面解析為DOM樹結構,並以HTML標籤建立索引。提取目的網站子頁面URL地址,最終以目的網站URL、目的網站子URL和第三方 URL分類輸出。若目的網站URL數量達到檢測上限值則進行文件默認路徑特徵檢測。同時由HTML標籤索引,提取DOM樹結構頁面信息特徵,與特徵資料庫中特徵匹配, 記錄匹配成功的特徵。特徵若需要HASH值匹配則進行文件下載、文件HASH值計算並匹配。 之後與模型資料庫匹配,若不需要HASH值匹配直接和模型資料庫匹配。從圖5的DOM樹,我們得到以下特徵
(1)網站標題為中包含「Poweredby TestWeb !」字符串
(2)網站頁面中包含「TestWeb!」字符串
(3)網站頁面中包含「1.0」字符串
(4)網站頁面中包含「登錄」字符串
(5)網站頁面中包含「Images/test/logo,gif」字符串,且 MD5 值為「567890abcdefghi jklmnopqrstuvwxyz,,
另發現文件默認路徑特徵
(6)存在「/xxx_admin/login. php」 該路徑。
15
特徵資料庫中特徵為
權利要求
1. 一種第三方WEB應用程式發現的方法,其特徵在於,包括判斷待檢測URL對應的HTML頁面是否存在,如果是,則下載待檢測URL對應的HTML頁以HTML標籤作為DOM樹結構的索引,將HTML頁面解析為DOM樹結構;提取指定HTML標籤中的子URL,如果子URL中的目的網站子URL的數量達到預設的閾 值,則將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特徵 進行匹配;並且,提取DOM樹結構中的信息特徵,將信息特徵與第三方TOB應用程式特徵數 據庫中的特徵進行匹配;如果在第三方WEB應用程式模型資料庫中查找到所有匹配成功的特徵,則確定待檢測 URL對應的HTML頁面中包含第三方WEB應用程式。
2.如權利要求1所述的第三方WEB應用程式的發現方法,其特徵在於,判斷待檢測URL 對應的HTML頁面是否存在包括通過判斷HTTP響應消息判斷待檢測URL對應的HTML頁面 是否存在;下載待檢測URL的HTML頁面信息包括按照HTTP請求方法下載待檢測URL的HTML頁面信息。
3.如權利要求1所述的第三方WEB應用程式的發現方法,其特徵在於,判斷待檢測URL 對應的HTML頁面存在之後還包括判斷待檢測URL的來源屬性。
4.如權利要求3所述的第三方TOB應用程式的發現方法,其特徵在於,判斷待檢測URL 的來源屬性包括如果待檢測URL的來源屬性不是目的網站子URL、需判斷HASH值的URL、 文件默認路徑URL中的其中一種,則確定待檢測URL的來源屬性為用戶提交的根URL。
5.如權利要求1所述的第三方WEB應用程式的發現方法,其特徵在於,提取指定HTML 標籤中的子URL之後,還包括判斷子URL的域名;如果子URL包含待檢測URL對應的完整域名,則確定子URL為目的網站子URL,標記來 源屬性為目的網站子URL;如果子URL包含待檢測URL對應的父域名而不包含待檢測URL對應的完整域名,則確 定子URL為目的網站子域名URL ;如果子URL既不包含待檢測URL對應的完整域名,又不包含待檢測URL對應的父域名, 則確定子URL為第三方URL。
6.如權利要求1所述的第三方WEB應用程式的發現方法,其特徵在於,如果子URL中的 目的網站子URL的數量沒有達到預設的閾值,則將目的網站子URL作為待檢測URL進行檢 測。
7.如權利要求1所述的第三方WEB應用程式的發現方法,其特徵在於,將目的網站子 URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特徵進行匹配包括對所有目的網站子URL去掉待檢測URL對應的完整域名,截取文件默認路徑特徵,與第 三方WEB應用程式特徵資料庫中的文件默認路徑特徵進行匹配,記錄匹配成功的文件默認 路徑特徵;將第三方WEB應用程式特徵資料庫中沒有匹配成功的文件默認路徑特徵與待檢測URL 對應的完整域名組合成為新的URL,來源屬性標記為文件默認路徑URL,將新的URL作為待檢測URL進行檢測。
8.如權利要求5所述的第三方WEB應用程式的發現方法,其特徵在於,如果確定子URL 為第三方URL,則判斷第三方URL是否有跳轉行為,如果有,則判定待檢測URL對應的HTML 頁面中包含第三方WEB應用程式。
9.如權利要求1所述的第三方WEB應用程式的發現方法,其特徵在於,提取DOM樹結構 中的信息特徵,將信息特徵與第三方WEB應用程式特徵資料庫中的特徵進行匹配包括如果在第三方TOB應用程式特徵資料庫中沒有信息特徵對應的文件HASH值匹配屬性, 則記錄該信息特徵為匹配成功的特徵;如果在第三方TOB應用程式特徵資料庫中有信息特徵對應的文件HASH值匹配屬性,則 將該信息特徵與待檢測URL組合為新的待檢測URL進行檢測,來源屬性標記為需判斷HASH 值的URL。
10.如權利要求9所述的第三方TOB應用程式的發現方法,其特徵在於,還包括下載 來源屬性標記為需判斷HASH值的URL所確定的文件,對下載後的文件進行HASH計算,如果 計算所得的HASH值與第三方WEB應用程式特徵資料庫中該信息特徵對應的文件HASH值匹 配屬性的值相同,則記錄該信息特徵和HASH值為匹配成功的特徵。
11.如權利要求1所述的第三方TOB應用程式的發現方法,其特徵在於,第三方TOB應 用程序模型資料庫包括開源第三方WEB應用程式、提取的開源第三方WEB應用程式的特 徵、依據提取的開源第三方WEB應用程式的特徵在真實WEB應用環境中測試中的出現頻率 設定的權值;非開源第三方WEB應用程式、提取的非開源第三方WEB應用程式的特徵、依據 提取的非開源第三方TOB應用程式的特徵在真實TOB應用環境中測試中的出現頻率設定的 權值。
12.如權利要求1或11所述的第三方WEB應用程式的發現方法,其特徵在於,如果在 第三方TOB應用程式模型資料庫中查找到所有匹配成功的特徵,則確定待檢測URL對應的 HTML頁面中包含第三方WEB應用程式具體包括如果所有匹配成功的特徵與第三方WEB應 用程序模型資料庫中提取的開源第三方WEB應用程式的特徵匹配成功,或者所有匹配成功 的特徵與第三方Wra應用程式模型資料庫中提取的非開源第三方TOB應用程式的特徵匹配 成功,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。
13.—種第三方WEB應用程式發現的裝置,其特徵在於,包括URL下載模塊,用於判斷待檢測URL對應的HTML頁面是否存在,如果是,則下載待檢測 URL對應的HTML頁面;頁面解析模塊,用於以URL下載模塊得到的HTML的標籤作為DOM樹結構的索引,將 HTML頁面解析為DOM樹結構;URL提取模塊,用於從URL下載模塊得到的HTML頁面中提取指定HTML標籤中的子URL ;URL監控模塊,用於對URL提取模塊提取的子URL中的目的網站子URL的數量做統計;特徵匹配模塊,用於在URL監控模塊確定目的網站子URL的數量達到預設的閾值時, 將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的特徵進行匹 配,並且,提取DOM樹結構中的信息特徵,將信息特徵與第三方WEB應用程式特徵資料庫中 的特徵進行匹配;模型匹配模塊,用於如果在第三方WEB應用程式模型資料庫中查找到特徵匹配模塊的 所有匹配成功的特徵,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。
14.如權利要求13所述的第三方TOB應用程式發現的裝置,其特徵在於,URL下載模塊 具體用於通過判斷HTTP響應消息判斷待檢測URL對應的HTML頁面是否存在;按照HTTP請 求方法下載待檢測URL的HTML頁面信息。
15.如權利要求13所述的第三方TOB應用程式發現的裝置,其特徵在於,URL下載模塊 具體還用於判斷待檢測URL對應的HTML頁面存在之後判斷待檢測URL的來源屬性。
16.如權利要求15所述的第三方TOB應用程式發現的裝置,其特徵在於,判斷待檢測 URL的來源屬性包括如果待檢測URL的來源屬性不是目的網站子URL、需判斷HASH值的 URL、文件默認路徑URL中的其中一種,則確定待檢測URL的來源屬性為用戶提交的根URL。
17.如權利要求13所述的第三方TOB應用程式發現的裝置,其特徵在於,URL提取模塊 具體用於提取指定HTML標籤中的子URL之後,還包括判斷子URL的域名;如果子URL包含待檢測URL對應的完整域名,則確定子URL為目的網站子URL,標記來 源屬性為目的網站子URL;如果子URL包含待檢測URL對應的父域名而不包含待檢測URL對應的完整域名,則確 定子URL為目的網站子域名URL ;如果子URL既不包含待檢測URL對應的完整域名,又不包含待檢測URL對應的父域名, 則確定子URL為第三方URL。
18.如權利要求13所述的第三方TOB應用程式發現的裝置,其特徵在於,特徵匹配模 塊具體用於如果子URL中的目的網站子URL的數量沒有達到預設的閾值,則將目的網站子 URL作為待檢測URL送給URL下載模塊進行檢測。
19.如權利要求13所述的第三方TOB應用程式發現的裝置,其特徵在於,特徵匹配模塊 具體還用於將目的網站子URL的文件默認路徑特徵與第三方TOB應用程式特徵資料庫中的 特徵進行匹配對所有目的網站子URL去掉待檢測URL對應的完整域名,截取文件默認路徑特徵,與第 三方WEB應用程式特徵資料庫中的文件默認路徑特徵進行匹配,記錄匹配成功的文件默認 路徑特徵;將第三方WEB應用程式特徵資料庫中沒有匹配成功的文件默認路徑特徵與待檢測URL 對應的完整域名組合成為新的URL,來源屬性標記為文件默認路徑URL,將新的URL作為待 檢測URL送給URL下載模塊進行檢測。
20.如權利要求17所述的第三方TOB應用程式發現的裝置,其特徵在於,如果確定子 URL為第三方URL,則判斷第三方URL是否有跳轉行為,如果有,則判定待檢測URL對應的 HTML頁面中包含第三方WEB應用程式。
21.如權利要求13所述的第三方TOB應用程式發現的裝置,其特徵在於,特徵匹配模塊 具體還用於提取DOM樹結構中的信息特徵,將信息特徵與第三方TOB應用程式特徵資料庫 中的特徵進行匹配如果在第三方TOB應用程式特徵資料庫中沒有信息特徵對應的文件HASH值匹配屬性, 則記錄該信息特徵為匹配成功的特徵;如果在第三方TOB應用程式特徵資料庫中有信息特徵對應的文件HASH值匹配屬性,則 將該信息特徵與待檢測URL組合為新的待檢測URL送給URL下載模塊進行檢測,來源屬性 標記為需判斷HASH值的URL。
22.如權利要求21所述的第三方TOB應用程式發現的裝置,其特徵在於,特徵匹配模 塊具體還用於下載來源屬性標記為需判斷HASH值的URL所確定的文件,對下載後的文件進 行HASH計算,如果計算所得的HASH值與第三方WEB應用程式特徵資料庫中該信息特徵對 應的文件HASH值匹配屬性的值相同,則記錄該信息特徵和HASH值為匹配成功的特徵。
23.如權利要求13所述的第三方WEB應用程式發現的裝置,其特徵在於,第三方WEB應 用程序模型資料庫包括開源第三方WEB應用程式、提取的開源第三方WEB應用程式的特 徵、依據提取的開源第三方WEB應用程式的特徵在真實WEB應用環境中測試中的出現頻率 設定的權值;非開源第三方WEB應用程式、提取的非開源第三方WEB應用程式的特徵、依據 提取的非開源第三方TOB應用程式的特徵在真實TOB應用環境中測試中的出現頻率設定的 權值。
24.如權利要求13或23所述的第三方WEB應用程式發現的裝置,其特徵在於,模型 匹配模塊具體用於如果在第三方WEB應用程式模型資料庫中查找到特徵匹配模塊的所有 匹配成功的特徵,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式具體包 括如果特徵匹配模塊所有匹配成功的特徵與第三方WEB應用程式模型資料庫中提取的開 源第三方WEB應用程式的特徵匹配成功,或者特徵匹配模塊所有匹配成功的特徵與第三方 WEB應用程式模型資料庫中提取的非開源第三方WEB應用程式的特徵匹配成功,則確定待 檢測URL對應的HTML頁面中包含第三方WEB應用程式。
全文摘要
本發明公開了一種第三方WEB應用程式發現的方法,包括判斷待檢測URL對應的HTML頁面存在則下載待檢測URL對應的HTML頁面;以HTML標籤作為DOM樹結構的索引,將HTML頁面解析為DOM樹結構;提取指定HTML標籤中的子URL,將目的網站子URL的文件默認路徑特徵與第三方WEB應用程式特徵資料庫中的特徵進行匹配;提取DOM樹結構中的信息特徵,與第三方WEB應用程式特徵資料庫中的特徵進行匹配;如果在第三方WEB應用程式模型資料庫中查找到所有匹配成功的特徵,則確定待檢測URL對應的HTML頁面中包含第三方WEB應用程式。本發明還公開了一種第三方WEB應用程式發現的裝置。本發明解決了目前在WEB應用弱點掃描中沒涉及到第三方WEB應用程式的發現,也解決了目前在對網頁結構相似性確定的局限性。
文檔編號G06F17/30GK102063484SQ201010610790
公開日2011年5月18日 申請日期2010年12月29日 優先權日2010年12月29日
發明者李柏松, 胡星儒 申請人:北京安天電子設備有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀