新四季網

仿冒域名檢測方法及設備的製作方法

2023-05-20 06:36:26

仿冒域名檢測方法及設備的製作方法
【專利摘要】本發明提供一種仿冒域名檢測方法及設備。該仿冒域名檢測方法包括:獲取待檢測域名;將所述待檢測域名的關鍵詞的各中文字符,分別與預先獲取的目標域名的關鍵詞的各中文字符組成匹配對;根據各匹配對內兩個中文字符的語音和/或字形,確定所述各匹配對的相似度值;根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值;若所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,大於等於預設關鍵詞相似度閾值,則判定所述待檢測域名為所述目標域名的仿冒域名。本發明提供的仿冒域名檢測方法及設備能夠實現仿冒中文域名的有效檢測。
【專利說明】仿冒域名檢測方法及設備
【技術領域】
[0001]本發明涉及信息處理技術,尤其涉及一種仿冒域名檢測方法及設備,屬於網絡安全【技術領域】。
【背景技術】
[0002]隨著科技的普及化,網絡通訊技術以不可取代的地位深入各個領域,而網絡安全問題也日益嚴峻,其中以網絡釣魚問題尤為突出。
[0003]網絡釣魚,是指通過發送垃圾電子郵件等方式,將收信用戶引誘到一個通過精心設計與目標組織的網站非常相似的釣魚網站上,並獲取收信人在此網站上輸入的個人敏感信息的網絡犯罪行為。隨著電子商務和網際網路應用的普及和發展,網絡釣魚造成的損失日益嚴重。由於域名是網站面向終端用戶的入口,網絡釣魚者行為常常要採用和目標域名相似的域名,來使得用戶誤以為釣魚網站為正規的目標網站。因此,域名仿冒行為是釣魚攻擊的一個重要特徵,所以在進行釣魚網站和郵件的檢測時,需要進行URL的域名部分的相似性分析,即仿冒域名檢測。
[0004]目前的仿冒域名檢測,主要是通過計算兩個英文域名的字符串的編輯距離來實現的。但隨著國際化域名(International Domain Names, IDN)的興起,域名註冊字符集進一步擴大,不可避免地將出現大量的相似性字符。中文域名是國際化域名的重要組成部分。漢字較大的字庫空間以及象形、形聲的造字規則產生了大量的相似字符,而網絡釣魚常常會利用這些相似字符來構造仿冒域名,對網絡用戶進行欺騙。目前針對英文域名的相似性檢測方法無法有效檢測出中文域名的仿冒域名。

【發明內容】

[0005]針對現有技術中的缺陷,本發明提供一種仿冒域名檢測方法及設備,用以實現仿冒中文域名的有效檢測。
[0006]根據本發明實施例的一方面,提供一種仿冒域名檢測方法,包括:
[0007]獲取待檢測域名;
[0008]將所述待檢測域名的關鍵詞的各中文字符,分別與預先獲取的目標域名的關鍵詞的各中文字符組成匹配對;
[0009]根據各匹配對內兩個中文字符的語音和/或字形,確定所述各匹配對的相似度值;
[0010]根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值;
[0011 ] 若所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,大於等於預設關鍵詞相似度閾值,則判定所述待檢測域名為所述目標域名的仿冒域名。
[0012]進一步地,在上述實施例的仿冒域名檢測方法中,所述根據各匹配對內兩個中文字符的語音相似度和/或字形相似度,確定所述各匹配對的相似度值,包括對所述各匹配對分別執行以下操作:
[0013]根據預設語音相似度算法,計算所述匹配對內兩個中文字符的語音相似度值;
[0014]若所述語音相似度值大於等於預設語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值;
[0015]若所述語音相似度值小於所述預設語音相似度閾值,則根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值,並將所述字形相似度值確定為所述匹配對的相似度值。
[0016]進一步地,在上述實施例的仿冒域名檢測方法中,所述根據預設語音相似度算法,計算所述匹配對內兩個中文字符的語音相似度值,包括:
[0017]獲取所述兩個中文字符的拼音序列字符串;
[0018]計算所述兩個中文字符的拼音序列字符串的編輯距離;
[0019]根據所述編輯距離確定所述兩個中文字符的語音相似度值。
[0020]進一步地,在上述實施例的仿冒域名檢測方法中,所述根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值,包括:
[0021]獲取所述兩個中文字符的Unicode編碼;
[0022]根據所述Unicode編碼,從點陣字庫中獲取分別與所述兩個中文字符對應的0_1矩陣;
[0023]根據所述0-1矩陣確定所述兩個中文字符的特徵向量V=(特徵值C,特徵值E,特徵值Cp,特徵值G,特徵值S),其中特徵值C為所述中文字符的連通域,特徵值E為所述中文字符的端點個數,特徵值Cp為所述中文字符的交點個數,特徵值G為所述中文字符的虧格數,特徵值S為所述中文字符的筆劃數;
[0024]根據所述兩個中文字符的特徵向量中相同特徵值的差值,確定所述兩個中文字符的字形相似度值。
[0025]進一步地,在上述實施例的仿冒域名檢測方法中,所述根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,包括:
[0026]初始化編輯距離矩陣:
[0027]
【權利要求】
1.一種仿冒域名檢測方法,其特徵在於,包括: 獲取待檢測域名; 將所述待檢測域名的關鍵詞的各中文字符,分別與預先獲取的目標域名的關鍵詞的各中文字符組成匹配對; 根據各匹配對內兩個中文字符的語音和/或字形,確定所述各匹配對的相似度值;根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值; 若所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,大於等於預設關鍵詞相似度閾值,則判定所述待檢測域名為所述目標域名的仿冒域名。
2.根據權利要求1所述的仿冒域名檢測方法,其特徵在於,所述根據各匹配對內兩個中文字符的語音相似度和/或字形相似度,確定所述各匹配對的相似度值,包括對所述各匹配對分別執行以 下操作: 根據預設語音相似度算法,計算所述匹配對內兩個中文字符的語音相似度值; 若所述語音相似度值大於等於預設語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值; 若所述語音相似度值小於所述預設語音相似度閾值,則根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值,並將所述字形相似度值確定為所述匹配對的相似度值。
3.根據權利要求2所述的仿冒域名檢測方法,其特徵在於,所述根據預設語音相似度算法,計算所述匹配對內兩個中文字符的語音相似度值,包括: 獲取所述兩個中文字符的拼首序列字符串; 計算所述兩個中文字符的拼音序列字符串的編輯距離; 根據所述編輯距離確定所述兩個中文字符的語音相似度值。
4.根據權利要求2所述的仿冒域名檢測方法,其特徵在於,所述根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值,包括: 獲取所述兩個中文字符的Unicode編碼; 根據所述Unicode編碼,從點陣字庫中獲取分別與所述兩個中文字符對應的0-1矩陣; 根據所述0-1矩陣確定所述兩個中文字符的特徵向量V=(特徵值C,特徵值E,特徵值Cp,特徵值G,特徵值S),其中特徵值C為所述中文字符的連通域,特徵值E為所述中文字符的端點個數,特徵值Cp為所述中文字符的交點個數,特徵值G為所述中文字符的虧格數,特徵值S為所述中文字符的筆劃數; 根據所述兩個中文字符的特徵向量中相同特徵值的差值,確定所述兩個中文字符的字形相似度值。
5.根據權利要求1-4任一所述的仿冒域名檢測方法,其特徵在於,所述根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,包括: 初始化編輯距離矩陣:, ^0.1,..*,"0',i,...,e^tln -1 I
"Ul,iA.!,…,iA",.?.? + 1 D=…
—(.U」(*1.1 1.「 i^mUJ i"%^*+l,w+t J 其中,m為所述待檢測域名的關鍵詞的字符長度,η為所述目標域名的關鍵詞的字符長度,i,j,m,n均為正整數,且滿足0〈i彡m+l,0〈j彡n+1 ; 按照以下公式對所述編輯距離矩陣的各元素進行賦值: d0,0=0,di;0=i, d0;J=j, d ^ Imm(d,^ , , )+bsim(i, j),如丨4#,U

L/ —I 』 『i,卜 I y h,j X 其匕 其中,sim(i,j)為所述待檢測域名的關鍵詞中第i個中文字符和所述目標域名的關鍵詞的第j個中文字符組成的匹配對的相似度值; 將dm+1,n+1的值確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的編輯距離,並根據所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的編輯距離,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,其中所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的編輯距離與相似度值呈反比關係。
6.一種仿冒域名檢測設備,其特徵在於,包括: 獲取模塊,用於獲取待 檢測域名; 預處理模塊,用於將所述待檢測域名的關鍵詞的各中文字符,分別與預先獲取的目標域名的關鍵詞的各中文字符組成匹配對; 第一相似度計算模塊,用於根據各匹配對內兩個中文字符的語音和/或字形,確定所述各匹配對的相似度值; 第二相似度計算模塊,用於根據所述各匹配對的相似度值,確定所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值; 判定模塊,用於若所述待檢測域名的關鍵詞與所述目標域名的關鍵詞的相似度值,大於等於預設關鍵詞相似度閾值,則判定所述待檢測域名為所述目標域名的仿冒域名。
7.根據權利要求6所述的仿冒域名檢測設備,其特徵在於,所述第一相似度計算模塊具體包括: 語音相似度計算單元,用於計算所述匹配對內兩個中文字符的語音相似度值; 確定單元,用於若所述語音相似度值大於等於預設語音相似度閾值,則將所述語音相似度值確定為所述匹配對的相似度值; 字形相似度計算單元,用於若所述語音相似度值小於所述預設語音相似度閾值,則根據預設字形相似度算法,計算所述匹配對內兩個中文字符的字形相似度值; 所述確定單元還用於將所述字形相似度值確定為所述匹配對的相似度值。
8.根據權利要求7所述的仿冒域名檢測設備,其特徵在於,所述語音相似度計算單元具體用於: 獲取所述兩個中文字符的拼首序列字符串; 計算所述兩個中文字符的拼音序列字符串的編輯距離; 根據所述編輯距離確定所述兩個中文字符的語音相似度值。
9.根據權利要求7所述的仿冒域名檢測設備,其特徵在於,所述字形相似度計算單元具體用於: 獲取所述兩個中文字符的Unicode編碼; 根據所述Unicode編碼,從點陣字庫中獲取分別與所述兩個中文字符對應的0-1矩陣; 根據所述0-1矩陣確定所述兩個中文字符的特徵向量V=(特徵值C,特徵值E,特徵值Cp,特徵值G,特徵值S),其中特徵值C為所述中文字符的連通域,特徵值E為所述中文字符的端點個數,特徵值Cp為所述中文字符的交點個數,特徵值G為所述中文字符的虧格數,特徵值S為所述中文字符的筆劃數; 根據所述兩個中文字符的特徵向量中相同特徵值的差值,確定所述兩個中文字符的字形相似度值。
10.根據權利要求6-9任一所述的仿冒域名檢測設備,其特徵在於,所述第二相似度計算模塊具體用於: 初始化編輯距離矩陣:
【文檔編號】H04L29/06GK103428307SQ201310346713
【公開日】2013年12月4日 申請日期:2013年8月9日 優先權日:2013年8月9日
【發明者】李海靈, 洪博, 王利明 申請人:中國科學院計算機網絡信息中心

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀