新四季網

一種基於最近鄰及相似度測量檢測釣魚網頁的方法

2023-06-06 08:33:01

專利名稱:一種基於最近鄰及相似度測量檢測釣魚網頁的方法
技術領域:
本發明涉及一種釣魚網頁檢測的方法,主要從網頁整體視覺特性來提取特徵值並進行相應的特徵值距離計算從而對釣魚網頁進行匹配和識別,屬於信息安全領域。
背景技術:
釣魚網站是隨著網絡普及和在線交易增加而變得異常猖獗的網絡詐騙行為。釣魚網站是犯罪分子做出的詐騙網站,釣魚網站通常與銀行網站或其他知名網站幾乎完全相同,從而引誘網站使用者在釣魚網站上提交出敏感信息(如用戶名、口令、銀行帳號或信用卡詳細信息等)[Zhang2007]。圖1是釣魚網站的體系結構。最典型的網絡釣魚攻擊過程如下首先將用戶引誘到一個通過精心設計與目標組織的網站非常相似的釣魚網站上,然後獲取用戶在該釣魚網站上輸入的個人敏感信息,例如銀行帳號、銀行密碼等。通常這個攻擊過程不會讓受害者警覺。這些個人信息對釣魚網站持有者具有非常大的吸引力,通過使用竊取到的個人信息,他們可以假冒受害者進行欺詐性金融交易,獲得極大的經濟利益,而受害者們卻因此而遭受到巨大的經濟損失,非但如此,被竊取的個人信息還可能被用於其他非法活動。如何識別釣魚網站,如何保證網站信息傳輸的保密完整性,愈發的顯示出其重要性和必要性。當前釣魚網站識別主要靠計算機自動識別和人工識別兩種方式,人工識別採用黑名單機制,用戶對某個網站進行舉報,通過人工鑑定是否為釣魚網站,這樣顯然速度太慢。 計算機自動識別目前主要是基於頁面視覺相似性檢測方式判斷是否為釣魚網站,電腦通過抽取網頁的視覺、文字特徵與大多數主要的合法網站頁面進行相似度對比或進行機器學習,從而判斷是否為釣魚網站。大多數用戶會受騙,很多時候是由於釣魚網頁總是與真實網頁有高度的相似性。 由於人們一般都比較注重自己瀏覽網頁的主要目的,進而忽視了安全性問題的提示,並且視覺欺騙率很高。由此人們想到從視覺角度來檢測,基於視覺的檢測分為基於HMTL文本的檢測、基於布局的檢測和基於圖像[Chen2009]的檢測。基於超文本連結標示語言文本的檢測方法很多,如現有web文檔識別方法的評估,疊瓦法,用單詞序列來檢測兩個文檔中的差異,以及隨機投影算法,用單詞的隨機投影作為相似性檢測的一個籤名。但是由於超文本連結標示語言語言的靈活性和網頁元素的動態性及豐富性,仿冒者可以輕易地做出視覺上一樣但是超文本連結標示語言結構不同的網頁,這樣,基於超文本連結標示語言的匹配將會失效。基於布局特徵和圖像特徵的網頁相似檢測方法根據人的視覺原理,對網頁的相似性進行計算,是一種通用的檢測方法,如2006年Fu等人提出了一種基於像素的EMD距離的匹配算法[Fu2006],這種算法是在像素水平上從視覺的相似性角度來察覺釣魚網頁的。從實驗結果可以看出效果要明顯好於基於超文本連結標示語言內容的檢測,但也有其局限性, 該算法只考慮了網頁圖像中的顏色及其分布特點,沒有考慮網頁中不同部分之間的位置關係。根據格斯塔視覺原理,相對位置在人的視覺中佔主要地位,特別是多個形體間的相對位置關係,相對位置關係的變化必然導致視覺上的區別,而該算法由於沒有考慮相對位置因素可能導致相似檢測的失效,所以這種方法只能檢測出與真實網頁在視覺上有相似性的網頁。釣魚者為了取得用戶的信任,通常會模仿合法網站來構建釣魚網站,所以一個釣魚網站跟它的目標網站是有很好關聯的。根據格斯塔理論,可以認為網頁是一個不可分割的整體。簡化複雜信息,獲取主要信息,對一系列的問題進行整合。基於這種兩種思想,結合網頁之間的關聯性和網頁的整體性,可以有效地判斷是否為釣魚網頁。[Zhang2007] Y. Zhang, J. Hong, and L. Cranor. Cantina :A content-based approachto detecting phishing websites. WWW,2007.[Fu2006]Anthony Y. Fu, Wenyin Liu, Xiaotie Deng. Detecting Phishing Web Pageswith Visual Similarity Assessment based on Earth Mover' s Distance (EMD). IEEE Transactions on Dependable and Secure Computing,2006,3(4), pages 301-311. [Chen2009]K. -T. Chen, J. -Y. Chen, C. -R. Huang, and C. -S. Chen. Fighting Phishingwith Discriminative Keypoint Features of ffebpages. IEEE Internet Computing,2009.

發明內容
技術問題本發明的目的是提供一種基於最近鄰及相似度測量檢測釣魚網頁的方法,以往釣魚網頁識別主要通過人工識別,目前現有的計算機識別的釣魚網頁檢測技術主要從網頁元素角度對檢測網頁進行匹配檢測,匹配速度往往無法達到實際使用的要求。本發明從網頁整體視覺性進行特徵提取、特徵距離計算,大大提高了頁面匹配的速度,同時保證了高精度和低誤判率。技術方案釣魚者為了取得用戶的信任,他們通常會模仿合法網頁來構建釣魚網頁,所以一個釣魚網頁與它的目標網頁是有很大的視覺相似性的。這為我們採用基於釣魚網頁的視覺相似性檢測研究提供了可能性。我們的目標就是在尺度不變特徵轉換算法提取特徵的基礎上建立基於陸地移動距離的相似度計算的分類模型,高效地對釣魚網頁的視覺性進行檢測。我們提出一種新的檢測釣魚網頁的方法,改善釣魚網頁的檢測精確度和效率。基於最近鄰及相似度測量檢測釣魚網頁的方法是以網頁整體圖像的圖片為出發點,提取其尺度不變轉化特徵在釣魚網頁檢測階段進行相似特徵的快速查詢,查詢所得相似特徵交給機器學習匹配模塊進行識別;機器學習匹配模塊在系統訓練階段接收特徵提取模塊傳來的特徵數據進行訓練,優化網頁相似性閾值的參數;在釣魚網頁檢測階段,接收特徵提取模塊傳來的特徵數據,計算網頁之間的相似度,最後根據網頁相似性閾值判斷釣魚網頁;另外,還加入了一種分類方法一貝葉斯可添加回歸樹,對可疑網頁進行預測;在釣 魚網頁檢測過程中通過提取特徵,以此作為釣魚網頁檢測的依據,具體實現步驟為步驟1)訓練階段數據準備過程採集可能被釣魚網頁模仿的正規網站頁面,並用圖像特徵提取算法提取網頁圖片的特徵組織成樣本數據;採集釣魚網站頁面以及普通網頁,並提取尺度不變轉化特徵組織成檢測數據;步驟2)待檢測數據集的標定過程將待檢測數據中的所有普通網頁標註為「0」, 表示非釣魚網頁;再將待檢測數據中的所有釣魚網頁標註為「1」,表示釣魚網頁;步驟3)對所有待檢測網頁的特徵在訓練庫中查找相似的特徵,並統計找到每一個檢測網頁在庫中最相似的網頁,計算它們的相似度作為待檢測網頁最終的相似度;
步驟4)將所有待檢測網頁的標註以及待檢測網頁與庫的相似度送入機器學習匹配模塊,遍歷所有可能的相似度閾值,找到一個值使得相似度大於這個值的釣魚網頁數量與相似度小於這個值的釣魚網頁數量差值最大,那麼這個值就可以作為釣魚網頁相似度閾值;步驟5)對疑 似釣魚網頁的檢測過程對可疑網頁採集特徵;用可疑網頁的特徵在訓練庫中查找相似的特徵,並統計找到可疑網頁在庫中最相似的網頁,以它們的相似度作為可疑網頁最終的相似度;將待可疑網頁與庫的相似度送入訓練好的匹配模塊進行預測, 預測所得結果作為本方案最終的釣魚網站檢測結果。有益效果高準確率本發明方法綜合了尺度不變轉換算法特徵提取和陸地移動距離算法的文本和圖像特徵。將網頁以圖片形式保存,然後提取其尺度不變特徵轉換特徵, 計算尺度不變特徵轉換等特徵的陸地移動距離。通過使用本發明的方法,能夠提高釣魚網頁檢測的精度和召回率,節省程序運算時間和空間。


圖1是釣魚郵件體系結構圖2是基於不變特徵轉換的釣魚檢測特徵處理流程3是分類器分類流程
具體實施例方式實施方法需要以下步驟步驟1)收集釣魚網頁、對應合法網頁及其他合法網頁數據集從網站http://www. phishtank. com/收集釣魚網頁;與釣魚網頁對應的合法網頁;普通的其它合法網頁。步驟2)對收集到的數據進行特徵的提取將搜集的網頁保存為圖片的形式,對這些圖片可以提取各種顏色特徵,紋理特徵, 形狀特徵,以及一些能用在局部不變的SIFT (Scale-invariant featuretransform)特徵。步驟3)通過提取的網頁圖片的特徵來計算兩個圖片的陸地移動距離。步驟4)用機器學習方法進行訓練,獲取一個閾值;步驟5)選定好閾值後,對可疑網頁進行預測。本發明技術方案具體分為三大部分1.特徵提取部分釣魚者為了試圖取得用戶的信任,通常會模擬合法網頁來構建釣魚網頁,所以一個釣魚網站和它的目標網站有很好的視覺相似性。這使得從視覺上進行釣魚網頁的檢測成為可能。本發明用尺度不變特徵轉換算法提取不變特徵描述符作為網頁圖片特徵庫,則圖片的籤名為; = {(灼,Wp1 ),(p2, Wp2),...,(pm,Wpm ) }.Pi為不變特徵描述符,Pi的權重,m為不變特徵描述符的個數,i = {1,2,…
m} ο
2.相似度計算部分提取好特徵後,對尺度不變特徵轉換算法等提取的圖片特徵計算其與標準網頁圖片資料庫中每一個圖片的陸地移動距離,並選取其中最小值,記為Di,i = {1,2,…,N};其EMD距離
權利要求
1. 一種基於最近鄰及相似度測量檢測釣魚網頁的方法,其特徵在於該方法是以網頁整體圖像的圖片為出發點,提取其尺度不變轉化特徵在釣魚網頁檢測階段進行相似特徵的快速查詢,查詢所得相似特徵交給機器學習匹配模塊進行識別;機器學習匹配模塊在系統訓練階段接收特徵提取模塊傳來的特徵數據進行訓練,優化網頁相似性閾值的參數;在釣魚網頁檢測階段,接收特徵提取模塊傳來的特徵數據,計算網頁之間的相似度,最後根據網頁相似性閾值判斷釣魚網頁;另外,還加入了一種分類方法一貝葉斯可添加回歸樹,對可疑網頁進行預測;在釣魚網頁檢測過程中通過提取特徵,以此作為釣魚網頁檢測的依據,具體實現步驟為步驟1)訓練階段數據準備過程採集可能被釣魚網頁模仿的正規網站頁面,並用圖像特徵提取算法提取網頁圖片的特徵組織成樣本數據;採集釣魚網站頁面以及普通網頁,並提取尺度不變轉化特徵組織成檢測數據;步驟2)待檢測數據集的標定過程將待檢測數據中的所有普通網頁標註為「0」,表示非釣魚網頁;再將待檢測數據中的所有釣魚網頁標註為「1」,表示釣魚網頁;步驟3)對所有待檢測網頁的特徵在訓練庫中查找相似的特徵,並統計找到每一個檢測網頁在庫中最相似的網頁,計算它們的相似度作為待檢測網頁最終的相似度;步驟4)將所有待檢測網頁的標註以及待檢測網頁與庫的相似度送入機器學習匹配模塊,遍歷所有可能的相似度閾值,找到一個值使得相似度大於這個值的釣魚網頁數量與相似度小於這個值的釣魚網頁數量差值最大,那麼這個值就可以作為釣魚網頁相似度閾值;步驟5)對疑似釣魚網頁的檢測過程對可疑網頁採集特徵;用可疑網頁的特徵在訓練庫中查找相似的特徵,並統計找到可疑網頁在庫中最相似的網頁,以它們的相似度作為可疑網頁最終的相似度;將待可疑網頁與庫的相似度送入訓練好的匹配模塊進行預測,預測所得結果作為本方案最終的釣魚網站檢測結果。
全文摘要
一種基於最近鄰及相似度測量檢測釣魚網頁的方法是以網頁整體圖像的圖片為出發點,提取其尺度不變轉化特徵在釣魚網頁檢測階段進行相似特徵的快速查詢,查詢所得相似特徵交給機器學習匹配模塊進行識別;機器學習匹配模塊在系統訓練階段接收特徵提取模塊傳來的特徵數據進行訓練,優化網頁相似性閾值的參數;在釣魚網頁檢測階段,接收特徵提取模塊傳來的特徵數據,計算網頁之間的相似度,最後根據網頁相似性閾值判斷釣魚網頁;另外,還加入了一種分類方法——貝葉斯可添加回歸樹,對可疑網頁進行預測;在釣魚網頁檢測過程中通過提取特徵,以此作為釣魚網頁檢測的依據,在保證高準確率的同時,顯著減小網頁檢測時間。
文檔編號G06F17/30GK102170447SQ20111011244
公開日2011年8月31日 申請日期2011年4月29日 優先權日2011年4月29日
發明者周國強, 張衛豐, 張迎周, 李濤賢, 許碧歡, 陸柳敏 申請人:南京郵電大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀