新四季網

泛濫子域的識別方法和系統的製作方法

2023-05-12 03:28:06 1

泛濫子域的識別方法和系統的製作方法
【專利摘要】本發明實施例公開了一種泛濫子域的識別方法和系統,涉及計算機【技術領域】,應用於搜尋引擎,根據子域名的任一有效片段組的片段長度的離散度或集中度來識別泛濫子域,可有效提高泛濫子域識別程度。本發明實施例提供的方法包括:收集具有相同主域名的子域名;若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和右側域名部分分別相同的片段集合。
【專利說明】泛濫子域的識別方法和系統
【技術領域】
[0001]本發明涉及計算機【技術領域】,尤其涉及泛濫子域的識別方法和系統。
【背景技術】
[0002]計算機網絡技術的發展極大的提高了人們獲取信息的便利性,計算機網絡中存儲了海量的信息,為了使人們查找到自己所需的信息,搜尋引擎被廣泛使用,搜尋引擎對網站的收錄、質量控制是按照子域名為單位的。子域名是指根據業務的不同,站長在主域名的基礎上,擴展出的多個域名,例如bbs.163.com提供論壇服務,blog.163.com是網易博客的子域名。子域名可以任意取名,甚至可以是多級子域名,例如twocold.blog.sina.com.cn。子域名是由左側域名部分加主域名組合而成的,排除掉主域名部分,子域名剩下的部分按照符號」可以分割為多級片段。比如www.163.com可以分割「www」 一級片段,twocold.blog.sina.com.cn 可以分割成」 twocold」、「blog」 兩級片段。
[0003]但是有些站長會故意生成數量龐大的、且內容、質量是很接近的子域名,給搜尋引擎造成這個主域名的業務很龐大的假象,這種批量造出的子域名叫做泛濫子域,由於泛濫子域的內容、質量是很接近的,如果像對普通子域一樣對進行常規的更新、質量評估,則大大增加了搜尋引擎的負擔,所以,識別泛濫子域並採取相應的調度手段可以使資源分配更合理,且大大減小搜尋引擎的負擔。
[0004]現有技術常用的識別泛濫子域的方法是通過統計相同主域名包含的子域名的數量,當數量超過一定的閾值,則認為是泛濫子域。
[0005]發明人發現現有技術至少存在以下缺點:現有技術單純根據數量來判斷是否為泛濫子域,只能解決最嚴重的泛濫子域問題,對泛濫子域的識別程度低。

【發明內容】

[0006]本發明的實施例提供一種泛濫子域的識別方法和系統,根據子域名的任一有效片段組的片段長度的離散度或集中度進行泛濫子域的識別,可有效提高泛濫子域識別程度。
[0007]為達到上述目的,本發明實施例採用的技術方案是,
[0008]一方面,本發明實施例提供一種泛濫子域的識別方法,包括:
[0009]獲取具有相同主域名的子域名;
[0010]若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合。
[0011]優選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,包括:
[0012]獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;[0013]若所述平均片段數量小於第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0014]優選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為尚散分布,還包括:
[0015]若所述平均片段數量不小於所述第一離散度閾值,則統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0016]若所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述平均片段數量小於第二離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0017]優選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,包括:
[0018]獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0019]獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大於所述平均片段數量與調整因子乘積的片段長度為所述有效長度;
[0020]若所述有效長度數量與所述片段長度總數的比值小於第一集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
[0021]優選的,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,還包括:
[0022]若所述有效長度數量與所述片段長度總數的比值不小於所述第一集中度閾值,則統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0023]若所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述有效長度數量與所述片段長度總數的比值小於第二集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
[0024]優選的,所述方法還包括:
[0025]若判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段時,則將所述具有相同主域名的子域名的相鄰的至少兩有效片段組合併成一級片段;
[0026]根據所述合併後的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應的子域名識別為泛濫子域。
[0027]優選的,在若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域之前,所述方法還包括:
[0028]根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,不進行泛濫子域的識別。
[0029]優選的,所述方法還包括,設置更新周期,相應的,
[0030]所述收集具有相同主域名的子域名,包括:根據所述設置的更新周期,在每個更新周期內收集具有相同主域名的子域名;
[0031]所述若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,包括:根據所述設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域。
[0032]一方面,本發明實施例提供一種泛濫子域的識別系統,其特徵在於,包括:
[0033]獲取單元,用於獲取具有相同主域名的子域名;
[0034]判斷單元,用於判斷所述獲取單元獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合;
[0035]識別單元,用於在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布後,將所述任一有效片段組對應的子域名識別為泛濫子域。
[0036]優選的,所述判斷單元包括,包括:
[0037]獲取模塊,用於獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0038]第一判斷模塊,用於在確定所述獲取模塊獲取的所述平均片段數量小於第一離散度閾值後,判斷所述任一有效片段組的片段長度為離散分布。
[0039]優選的,所述判斷單元,還包括:
[0040]統計模塊,用於在所述第一判斷模塊判斷所述平均片段數量不小於所述第一離散度閾值後,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0041]第二判斷模塊,用於在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述第一判斷模塊確定所述平均片段數量小於第二離散度閾值後,判斷所述任一有效片段組的片段長度為離散分布。
[0042]優選的,所述判斷單元,包括:
[0043]第一獲取模塊,用於獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0044]第二獲取模塊,用於獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大於所述平均片段數量與調整因子乘積的片段長度為所述有效長度;
[0045]第一判斷模塊,用於在確定所述第二獲取模塊獲取的所述有效長度數量與所述片段長度總數的比值小於第一集中度閾值後,判斷所述任一有效片段組的片段長度為集中分布。
[0046]優選的,所述判斷單元,還包括:
[0047]統計模塊,用於在所述第一判斷模塊確定所述有效長度數量與所述片段長度總數的比值不小於所述第一集中度閾值後,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;[0048]第二判斷模塊,用於在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述第一判斷模塊確定所述有效長度數量與所述片段長度總數的比值小於第二集中度閾值後,判斷所述任一有效片段組的片段長度為集中分布。
[0049]優選的,所述系統還包括:
[0050]合併單元,用於在所述判斷單元判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布後,且所述具有相同主域名的子域名具有至少兩級片段後,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合併成一級片段;
[0051]所述判斷單元還用於,根據所述合併後的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布;
[0052]所述識別單元還用於,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布後,將所述新的有效片段組對應的子域名識別為泛濫子域。
[0053]優選的,所述系統還包括:
[0054]過濾單元,用於根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,以便於所述判斷單元和識別單元不針對符合所述豁免規則的片段或者子域名進行泛濫子域的識別。
[0055]優選的,所述系統還包括,更新周期設置單元,用於設置更新周期,相應的,
[0056]所述獲取單元還用於:根據所述更新周期設置單元設置的更新周期,在每個更新周期內獲取具有相同主域名的子域名;
[0057]所述判斷單元還用於:根據所述更新周期設置單元設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布;
[0058]所述識別單元還用於:根據所述更新周期設置單元設置的更新周期,在每個更新周期內,在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布後,將所述任一有效片段組對應的子域名識別為泛濫子域。
[0059]本發明實施例提供的泛濫子域的識別方法和系統,根據具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現有技術單純根據子域數量來判斷是否為泛濫子域,只能解決最嚴重的泛濫子域,對泛濫子域的識別程度低的問題。
【專利附圖】

【附圖說明】
[0060]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0061]圖1為本發明實施例提供的一種泛濫子域的識別方法流程圖;
[0062]圖2為本發明實施例提供的一種泛濫子域的識別系統圖;
[0063]圖3為本發明實施例提供的泛濫子域的識別系統圖中的判斷單元的一種結構圖;[0064]圖4為本發明實施例提供的泛濫子域的識別系統圖中的判斷單元的另一種結構圖;
[0065]圖5為本發明實施例提供的另一種泛濫子域的識別系統圖。
【具體實施方式】
[0066]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
[0067]本發明實施例提供了一種泛濫子域的識別方法,參見圖1,包括,
[0068]SlOl:獲取具有相同主域名的子域名;
[0069]示例性的,可以收集搜尋引擎在網絡上收錄的所有子域名,子域名可以以列表形式表示,也可以以其它形式表示,收集的所有子域名按照主域名進行分類,每一組具有相同主域名的子域名分別作為泛濫域名識別的數據源。本實施例以針對一個主域名包含的子域名為例進行泛濫域名識別的說明,所以下文出現的主域名的含義指同一個特定的主域名,其他主域名包含的子域名的泛濫域名識別過程和原理相同。
[0070]優選的,在步驟SlOl中,可以設定一個更新周期,在每個更新周期獲取具有相同主域名的子域名並進行更新。
[0071]S102:若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合。
[0072]示例性的,本實施例稱與主域名相鄰的片段為第一級片段,與第一級片段相鄰的為第二級片段,依次類推,例如,域名twocold.blog.sina.com.cn主域名為「sina.com.cn」,第一級片段為「blog」,第二級片段為「twocold」、「twocold」為第一級片段的左側域名部分,「sina.com.cn」為第一級片段的右側域名部分。有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合。
[0073]其中,當所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段的左側域名部分和右側域名部分分別相同;
[0074]以下述子域名的第二級片段為例進行說明,
[0075]www.cid_3cl48clcd8599f5e.profile, live, com
[0076]www.cid-fc56648fc658c405.profile, live, com
[0077]www.cid-f4bd27el68f86267.profile, live, com
[0078]www.51senv.space, live, com
[0079]上述域名的第二級片段包括「cid_3cl48clcd8599f5e」,「cid-fc56648fc658c405」,「cid_f4bd27el68f86267」 以及 「51senv」,其中「cid-3cl48clcd8599f5e」,「cid_fc56648fc658c405」,「cid_f4bd27el68f86267」 的左側域名部分和右側域名部分均相同,且屬於同一級片段,所以構成有效片段組,而片段「51senV」與片段「Cid-3C148ClCd8599f5e」等雖屬於同一級片段,但是右側域名部分不相同,所以不能和「cid-3cl48clcd8599f5e」等片段屬於同一有效片段組。
[0080]當所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段右側域名部分分別相同。
[0081]例如,當根據子域名的最高一級片段進行泛濫識別時,最高一級片段只有右側域名部分,所以,只要右側域名部分相同即可認為構成有效片段組,以下述子域名的第三級片段為例進行說明,
[0082]ihaz0.qh.gzszyl.g0.cn
[0083]fido0.qh.gzszyl.g0.cn
[0084]npvny.qh.gzszyl.g0.cn
[0085]tmtmk.ne.gzszyl.g0.cn
[0086]上述域名的第三級片段為最高一級片段,包括「ihazo」,「fidoo」,「npvny」以及「七!^1^」,其中「11^0」,「打(100」,「1^11/』的右側域名部分均相同,所以構成有效片段組,而片段「tmtmk」與片段「ihazo」等雖屬於同一級片段,但是右側域名部分不相同,所以不能和「ihazo」等片段屬於同一有效片段組。
[0087]具有相同主域名的子域名可以包含多個有效片段組,本實施例以根據第一有效片段組的片段長度的離散度或集中度進行泛濫識別為例進行說明,根據其他有效片段組的片段長度的離散度或集中度進行泛濫識別額度原理和過程相同。其中,有效片段組的片段長度的集中度:指的是有效片段組包含的片段長度,在分布上集中在少數幾個長度上的程度;有效片段組的片段長度的離散度:指的是有效片段組包含的片段長度的數量比較多,並且每個長度分布的域名數量比例很低的程度。
[0088]示例性的,根據第一有效片段組包含的片段總數量,以及每一個片段的片段長度可以統計第一有效片段組包含的不同的片段長度總數。
[0089]另外,在步驟S102中,可以設定一個更新周期,在每個更新周期中判斷第一有效片段組的片段長度是否為離散分布或者是否為集中分布。
[0090]下面分別簡單介紹判斷第一有效片段組的片段長度是否為離散分布和是否為集中分布的方法。
[0091]一、判斷第一有效片段組的片段長度是否為離散分布,可以包括:
[0092]a、獲取平均片段數量,其中,所述平均片段數量由所述有效片段組包含的片段總數量除以所述有效片段組包含的不同的片段長度總數得到;
[0093]示例性的,本實施例以第一有效片段組包含的片段總數量為1000為例進行說明;
[0094]每一個片段的片段長度是指每一個片段的包含的字符數,例如,
[0095]cid-3cl48clcd8599f5e.profile, live, com 的第二級片段的片段長度是 20 ;
[0096]www.thhhhshhh.live, com的第一級片段的片段長度是9 ;
[0097]www.live, com的第一級片段的片段長度是3 ;
[0098]第一有效 片段組包含的不同的片段長度總數指第一有效片段組包含多少種片段長度;平均片段數量指第一有效片段組的總數量與第一有效片段組包含的不同的片段長度總數的比值。
[0099]本實施例以第一片段包含4種片段長度為例進行說明,假設四種片段長度分別為:
[0100]片段長度(Ien) = 2,該片段長度包含的片段數量為500個,
[0101]Ien = 3,該片段長度包含的片段數量為200個;
[0102]Ien = 8,該片段長度包含的片段數量為250個;
[0103]Ien = 11,該片段長度包含的片段數量為50個。
[0104]那麼,平均片段數量為1000/4 = 250個。
[0105]b、若所述平均片段數量小於第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
[0106]示例性的,可以預先設置第一離散度閾值,第一離散度閾值的取值範圍可以通過根據現階段泛濫子域的離散程度特點進行確定,如果現階段經常出現的泛濫子域的離散程度出現新的趨勢,可對第一離散度閾值進行調整。其中現階段泛濫子域的離散程度特點可通過統計的方式獲取,此處不進行限定。
[0107]例如,第一離散度閾值可以取12-40,優選的可以取12。
[0108]當平均片段數量小於第一離散度閾值時,可以認為第一片段長度為離散分布。
[0109]例如,第一離散度閾值取40,當平均片段數量為250時,不能判斷第一片段長度為離散分布,當平均片段數量為25時,可以判斷第一片段長度為離散分布。
[0110]優選的,當只根據第一有效片段組的平均判斷數量判斷第一有效片段組的片段長度不為離散分布時,為了提高泛濫域名的識別程度,還可以結合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為離散分布,所以,還可以包括:
[0111]C、若平均片段數量不小於第一離散度閾值,則統計第一有效片段組包含分隔符的片段數量或者第一有效片段組的命名模式;
[0112]示例性的,假設第一離散度閾值取40,平均片段數量為250,不能判斷第一片段長度為離散分布,則進一步統計第一有效片段組包含分隔符的片段數量或者第一有效片段組的命名模式;
[0113]下面分別對統計第一有效片段組包含分隔符的片段數量和統計第一有效片段組的命名模式進行說明。
[0114]I)統計第一有效片段組包含分隔符的片段數量。
[0115]示例性的,分隔符可根據域名中允許出現的符號預先設定,例如,若域名中允許出現中劃線則分隔符可以預先設置為第一有效片段組包含分隔符的片段數量即為包含分隔符的片段的數量;若域名中可以出現等符號,則分隔符可以預先設置為等符號,第一有效片段組包含分隔符的片段數量即為包含分隔符」等符號的片段的數量和。
[0116]另外,可以預設分隔符閾值,以分析第一有效片段組包含分隔符的片段是否普遍存在,例如,預設分隔符閾值可以設置為60%,優選的,可以設置為80%。
[0117]例如,預設分隔符閾值設置為60%,當第一有效片段組包含分隔符的片段數量佔第一有效片段組總量的60%以上時,可以認為第一有效片段組包含分隔符的片段是普遍存在的,當第一有效片段組包含分隔符的片段數量佔第一有效片段組總量的不高於60%時,可以認為第一有效片段組包含分隔符的片段不是普遍存在的。
[0118]2)統計第一有效片段組的命名模式。
[0119]示例性的,可以預設命名模式,例如可以包含4種命名模式(全部是數字、全部是字母、全部是數字加字母、全部是子域加數字),當然根據域名命名規則的改變,預設的命名模式也可以進行更新,此處不進行限定。
[0120]示例性的,可以預設比例閾值,以判斷第一片段的命名模式是否統一,例如,預設比例閾值可以設置為60%,優選的,可以設置為80%。
[0121]例如,預設比例閾值設置為60%,當第一有效片段組包含的任何一種模式的片段數量佔第一有效片段組總量的60%以上時,可以認為第一有效片段組命名模式是統一的,當第一有效片段組包含的每一種模式的片段數量佔第一有效片段組總量均小於60%時,可以認為第一有效片段組的命名模式是不統一的。
[0122]d、若第一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者第一有效片段組的任意一種命名模式的比例大於預設比例閾值,且平均片段數量小於第二離散度閾值,則判斷第一有效片段組的片段長度為離散分布。
[0123]示例性的,當平均片段數量小於第二離散度閾值,且第一片段至少滿足包含分隔符的片段是普遍存在的、命名模式是統一的中的一種情況時,可以判斷第一有效片段組的片段長度為離散分布。其中,第一片段是否滿足包含分隔符的片段是普遍存在的、命名模式是統一的判斷同上述c所述,此處不再贅述。
[0124]第二離散度閾值可以預先設置,第二離散度閾值的取值範圍可以通過根據現階段泛濫子域的離散程度特點進行確定,例如可以為15-50。但是第二離散閾值應該大於第一離散閾值。例如,第一離散度閾值取40時,第二離散度閾值可以取50,優選的,第一離散度閾值取12時,第二離散度閾值可以取15。
[0125]二、判斷第一有效片段組的片段長度是否為集中分布,可以包括:
[0126]a、獲取平均片段數量,其中,所述平均片段數量由所述有效片段組包含的片段總數量除以所述有效片段組包含的不同的片段長度總數得到;
[0127]示例性的,此處仍以第一有效片段組的總數量為1000為例進行說明;假設第一片段包含4種片段長度,例如四種片段長度分別為:
[0128]片段長度(Ien) = 2,該片段長度包含的片段數量為500個,
[0129]Ien = 3,該片段長度包含的片段數量為200個;
[0130]Ien = 8,該片段長度包含的片段數量為250個;
[0131]Ien = 11,該片段長度包含的片段數量為50個。
[0132]那麼,平均片段數量為1000/4 = 250個。
[0133]b、獲取第一有效片段組包含的有效長度數量,其中,包含的片段數量大於所述平均片段數量與調整因子乘積的片段長度為所述有效長度;
[0134]示例性的,調整因子的取值範圍可以為0.9-1.5,優選的的取值為0.9。
[0135]例如,當調整因子為0.9時,平均片段數量與調整因子乘積為250*0.9 = 225,包含的片段數量大於225的片段長度有Ien = 2 (包含500個片段)和Ien = 8 (包含300個片段)。所以,有效長度數量為2。
[0136]C、若有效長度數量與片段長度總數的比值小於第一集中度閾值,則判斷所述第一有效片段組的片段長度為集中分布。
[0137]示例性的,可以預先設置第一集中度閾值,第一集中度閾值的取值範圍可以通過根據現階段泛濫子域的集中程度特點進行確定,如果現階段經常出現的泛濫子域的集中程度出現新的趨勢,可對第一集中度閾值進行調整。其中現階段泛濫子域的集中程度特點可通過統計的方式獲取,此處不進行限定。
[0138]例如,第一集中度閾值可以取0.45-0.6,優選的可以取0.45。
[0139]當有效長度數量與片段長度總數的比值小於第一集中度閾值時,可以認為第一片段長度為集中分布。
[0140]例如,當第一集中度閾值取0.45,有效長度數量為2,片段長度總數為4,則2/4 =
0.5,大於0.45,不能判斷第一片段長度為集中分布,當第一集中度閾值取0.6時,可以判斷第一片段長度為集中分布。
[0141]優選的,當根據有效長度數量與片段長度總數的比值判斷第一有效片段組的片段長度不為集中分布時,為了提高泛濫域名的識別程度,還可以結合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為集中分布,所以,還可以包括:
[0142]C、若所述有效長度數量與所述片段長度總數的比值不小於所述第一集中度閾值,則統計所述第一有效片段組包含分隔符的片段數量或者第一有效片段組的命名模式;
[0143]示例性的,分隔符的片段數量和命名模式的統計和應用同上所述,此處不再贅述。
[0144]d、若第一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者第一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述有效長度數量與所述片段長度總數的比值小於第二集中度閾值,則判斷第一有效片段組的片段長度為集中分布。
[0145]示例性的,當有效長度數量與所述片段長度總數的比值小於第二集中度閾值,且第一片段至少滿足包含分隔符的片段是普遍存在的、命名模式是統一的中的一種情況時,可以判斷第一有效片段組的片段長度為集中分布。
[0146]第二集中度閾值可以預先設置,第二集中度閾值的取值範圍可以通過根據現階段泛濫子域的集中程度特點進行確定,例如,第二集中度閾值的取值範圍可以為0.6-0.7,但是第二集中閾值應該大於第一集中閾值。例如,第一集中度閾值取0.6時,第二集中度閾值可以取0.7,優選的,第一集中度閾值取0.45時,第二集中度閾值可以取0.6。
[0147]優選的,為了提高識別的效率和可靠度,可以先根據第一級片段的有效片段組進行識別,然後將被識別為泛濫子域的子域名刪除後再根據第二級片段的有效片段組進行識另IJ,依次類推。
[0148]優選的,當子域名包含多級片段時,在利用上述方法根據每一個有效片段組均不能識別泛濫子域的情況下,為了提高識別程度,該方法還可以包括,
[0149]若判斷具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,則將所述具有相同主域名的子域名的相鄰的至少兩級片斷合併為一級片段;
[0150]示例性的,合併的步驟可以將片段間的」去除。去除」的步驟可以逐步加大,第一步去除一個」,然後嘗試識別,如果還是不能識別,則加大為兩個」,這樣依次進行。
[0151]例如,對於下述域名:
[0152]www.1haz0.qh.gzszyl.g0.cn
[0153]www.fido0.edu.gzszyl.g0.cn[0154]www.npvny.hb.gzszyl.g0.cn
[0155]www.tmtmk.ne.gzszyl.g0.cn
[0156]將第二級片段和第三級片段合併後,變為:
[0157]www.1hazoqh.gzszyl.g0.cn
[0158]www.fidooedu.gzszyl.g0.cn
[0159]www.npvnyhb.gzszyl.g0.cn
[0160]www.tmtmkne.gzszyl.g0.cn
[0161]www.tlekaf j.gzszyl.g0.cn
[0162]則得到的新的一級片段為上述合併後域名的第二級片段。
[0163]根據所述合併後的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應的子域名識別為泛濫子域。
[0164]示例性的,可根據上述合併後域名的第二級片段獲取新的有效片段組,根據新的有效片段組的片段長度分布進行泛濫子域的識別的原理和過程同上述方法,此處不再贅述。
[0165]優選的,在步驟S102之前,所述方法還包括:
[0166]判斷所述任一有效片段組的數量是否大於預設閾值,若大於預設閾值,則進行泛濫子域的識別。
[0167]示例性的,因為泛濫子域一般是批量的產生,所以數目比較大,所以為了減化識別的過程,可以設置一預設閾值,當某一有效片段組的數量大於該預設閾值時,採利用上述方法進行泛濫子域的識別。預設閾值的取值範圍可以根據現階段泛濫域名的數量特點進行設置,現階段泛濫域名的數量特點可以利用統計的方法獲取,例如,預設閾值的取值範圍可以為大於等於50,對於第一級片段的有效片段組,預設閾值可優選為500,對於第二級片段的有效片段組,預設閾值可優選為100。
[0168]優選的,步驟S102根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,不進行泛濫子域的識別。
[0169]示例性的,作為對重要子域名的保護,可以根據豁免規則可以根據實際需要進行設定,符合豁免規則的子域名,將不會被識別為泛濫域名。
[0170]例如,根據統計不同主域間的子域片段,將一些有含義的,或者是普遍存在的片段預存為豁免片段。例如「bbS」、「blog」、「WWW」等。
[0171]再例如,通過分析子域的質量,用戶訪問量,統計特別重要的子域名作為豁免子域。例如 qzone.163.com、bbs.163.com 等。
[0172]優選的,在步驟S102之後,還可以包括:將每一有效片段組對應的被識別的泛濫子域作為一個子域進行調度。
[0173]示例性的,因為泛濫子域的質量和內容差不多,所以可以將泛濫子域用一個虛擬子域進行調度,節約寬帶資源。
[0174]例如,可以保留有效片段組的左側域名部分和右側域名部分,將有效片段用表
/Jn ο
[0175]如,cid_3cl48clcd8599f5e.profile, live, com[0176]cid-fc56648fc658c405.profile, live, com
[0177]cid-f4bd27el68f86267.profile, live, com
[0178]等符合*.profile, live, com規則描述的子域名,可以虛擬為一個子域名:prifile.live, com。
[0179]本實施例提供的泛濫子域的識別方法,根據具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現有技術單純根據子域數量來判斷是否為泛濫子域,只能解決最嚴重的泛濫子域,對泛濫子域的識別程度低的問題。
[0180]本發明另一實施例提供一種泛濫子域的識別系統,應用於圖1所示的方法,參見圖2,該系統包括:
[0181]獲取單元201,用於獲取具有相同主域名的子域名;
[0182]示例性的,獲取單元201可以收集搜尋引擎在網絡上收錄的所有子域名,子域名可以以列表形式表示,也可以以其它形式表示,收集的所有子域名按照主域名進行分類,可以分別統計不同主域名包含的子域名,每一個主域名包含的子域名分別作為泛濫域名識別的數據源。本實施例以針對一個主域名包含的子域名為例進行泛濫域名識別的說明,其他主域名包含的子域名的泛濫域名識別過程和原理相同。
[0183]判斷單元202,用於判斷所述獲取單元201獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合;
[0184]示例性的,本實施例中有效片段組的含義同方法實施例,此處不再贅述。具有相同主域名的子域名可以包含多個有效片段組,本實施例以根據第一有效片段組的片段長度的離散度或集中度進行泛濫識別為例進行說明,根據其他有效片段組的片段長度的離散度或集中度進行泛濫識別額度原理和過程相同。
[0185]下面分兩種情況進行說明。
[0186]第一種情況,
[0187]所述判斷單元可以包括:
[0188]獲取模塊301,用於獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0189]示例性的,本實施例以第一有效片段組為例進行說明,假設第一有效片段組包含的片段總數量為1000 ;
[0190]每一個片段的片段長度是指每一個片段的包含的字符數,例如,
[0191]cid-3cl48clcd8599f5e.profile, live, com 的第二級片段的片段長度是 20 ;
[0192]www.thhhhshhh.live, com的第一級片段的片段長度是9 ;
[0193]www.live, com的第一級片段的片段長度是3 ;
[0194]第一有效片段組包含的不同的片段長度總數指第一有效片段組包含多少種片段長度;平均片段數量指第一有效片段組的總數量與第一有效片段組包含的不同的片段長度總數的比值。[0195]本實施例以第一片段包含4種片段長度為例進行說明,假設四種片段長度分別為:
[0196]片段長度(Ien) = 2,該片段長度包含的片段數量為500個,
[0197]Ien = 3,該片段長度包含的片段數量為200個;
[0198]Ien = 8,該片段長度包含的片段數量為250個;
[0199]Ien = 11,該片段長度包含的片段數量為50個。
[0200]那麼,平均片段數量為1000/4 = 250個。
[0201]第一判斷模塊302,用於在確定所述獲取模塊獲取的所述平均片段數量小於第一離散度閾值後,判斷所述任一有效片段組的片段長度為離散分布。
[0202]示例性的,系統可以預先設置第一離散度閾值,第一離散度閾值的取值範圍可以通過根據現階段泛濫子域的離散程度特點進行確定,如果現階段經常出現的泛濫子域的離散程度出現新的趨勢,可對第一離散度閾值進行調整。其中現階段泛濫子域的離散程度特點可通過統計的方式獲取,此處不進行限定。
[0203]例如,第一離散度閾值可以取12-40,優選的可以取12。
[0204]當平均片段數量小於第一離散度閾值時,可以認為第一片段長度為離散分布。
[0205]例如,第一離散度閾值取40,當平均片段數量為250時,不能判斷第一片段長度為離散分布,當平均片段數量為25時,可以判斷第一片段長度為離散分布。
[0206]統計模塊303,用於在所述第一判斷模塊302判斷所述平均片段數量不小於所述第一離散度閾值後,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0207]示例性的,當只根據第一有效片段組的平均片段數量判斷第一有效片段組的片段長度不為離散分布時,為了提高泛濫域名的識別程度,還可以結合第一有效片段組的命名信息輔助判斷第一有效片段組的片段長度為離散分布。
[0208]下面分別對統計第一有效片段組包含分隔符的片段數量和統計第一有效片段組的命名模式進行說明。
[0209]I)統計第一有效片段組包含分隔符的片段數量。
[0210]示例性的,分隔符可根據域名中允許出現的符號預先設定,例如,若域名中允許出現中劃線則分隔符可以預先設置為第一有效片段組包含分隔符的片段數量即為包含分隔符的片段的數量;若域名中可以出現等符號,則分隔符可以預先設置為等符號,第一有效片段組包含分隔符的片段數量即為包含分隔符」等符號的片段的數量和。
[0211]另外,可以預設分隔符閾值,以分析第一有效片段組包含分隔符的片段是否普遍存在,例如,預設分隔符閾值可以設置為60%,優選的,可以設置為80%。
[0212]例如,預設分隔符閾值設置為60%,當第一有效片段組包含分隔符的片段數量佔第一有效片段組總量的60%以上時,可以認為第一有效片段組包含分隔符的片段是普遍存在的,當第一有效片段組包含分隔符的片段數量佔第一有效片段組總量的不高於60%時,可以認為第一有效片段組包含分隔符的片段不是普遍存在的。
[0213]2)統計第一有效片段組的命名模式。
[0214]示例性的,可以預設命名模式,例如可以包含4種命名模式(全部是數字、全部是字母、全部是數字加字母、全部是子域加數字),當然根據域名命名規則的改變,預設的命名模式也可以進行更新,此處不進行限定。
[0215]示例性的,可以預設比例閾值,以判斷第一片段的命名模式是否統一,例如,預設比例閾值可以設置為60%,優選的,可以設置為80%。
[0216]例如,預設比例閾值設置為60%,當第一有效片段組包含的任何一種模式的片段數量佔第一有效片段組總量的60%以上時,可以認為第一有效片段組命名模式是統一的,當第一有效片段組包含的每一種模式的片段數量佔第一有效片段組總量均小於60%時,可以認為第一有效片段組的命名模式是不統一的。
[0217]第二判斷模塊304,用於在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述第一判斷模塊確定所述平均片段數量小於第二離散度閾值後,判斷所述任一有效片段組的片段長度為離散分布。
[0218]示例性的,系統可以預先設置第二離散度閾值,第二離散度閾值的取值範圍可以通過根據現階段泛濫子域的離散程度特點進行確定,例如可以為15-50。但是第二離散閾值應該大於第一離散閾值。例如,第一離散度閾值取40時,第二離散度閾值可以取50,優選的,第一離散度閾值取12時,第二離散度閾值可以取15。
[0219]第二種情況,參見圖4,
[0220]所述判斷單元,包括:
[0221]第一獲取模塊401,用於獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到;
[0222]示例性的,此處仍以第一有效片段組為例進行說明,假設第一有效片段組的總數量為1000 ;假設第一片段包含4種片段長度,例如四種片段長度分別為:
[0223]片段長度(Ien) = 2,該片段長度包含的片段數量為500個,
[0224]Ien = 3,該片段長度包含的片段數量為200個;
[0225]Ien = 8,該片段長度包含的片段數量為250個;
[0226]Ien = 11,該片段長度包含的片段數量為50個。
[0227]那麼,平均片段數量為1000/4 = 250個。
[0228]第二獲取模塊402,用於獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大於所述平均片段數量與調整因子乘積的片段長度為所述有效長度;
[0229]示例性的,調整因子的取值範圍可以為0.9-1.5,優選的的取值為0.9。
[0230]例如,當調整因子為0.9時,平均片段數量與調整因子乘積為250*0.9 = 225,包含的片段數量大於225的片段長度有Ien = 2 (包含500個片段)和Ien = 8 (包含300個片段)。所以,有效長度數量為2。
[0231]第一判斷模塊403,用於在確定所述第二獲取模塊獲取的所述有效長度數量與所述片段長度總數的比值小於第一集中度閾值後,判斷所述任一有效片段組的片段長度為集中分布。
[0232]示例性的,可以預先設置第一集中度閾值,第一集中度閾值的取值範圍可以通過根據現階段泛濫子域的集中程度特點進行確定,如果現階段經常出現的泛濫子域的集中程度出現新的趨勢,可對第一集中度閾值進行調整。其中現階段泛濫子域的集中程度特點可通過統計的方式獲取,此處不進行限定。
[0233]例如,第一集中度閾值可以取0.45-0.6,優選的可以取0.45。
[0234]當有效長度數量與片段長度總數的比值小於第一集中度閾值時,可以認為第一片段長度為集中分布。
[0235]例如,當第一集中度閾值取0.45,有效長度數量為2,片段長度總數為4,則2/4 =
0.5,大於0.45,不能判斷第一片段長度為集中分布,當第一集中度閾值取0.6時,可以判斷第一片段長度為集中分布。
[0236]統計模塊404,用於在所述第一判斷模塊403確定所述有效長度數量與所述片段長度總數的比值不小於所述第一集中度閾值後,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式;
[0237]示例性的,分隔符的片段數量和命名模式的統計和應用同第一種情況所述,此處不再贅述。
[0238]第二判斷模塊405,用於在確定所述統計模塊404統計的所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述第一判斷模塊403確定所述有效長度數量與所述片段長度總數的比值小於第二集中度閾值後,判斷所述任一有效片段組的片段長度為集中分布。
[0239]第二集中度閾值可以預先設置,第二集中度閾值的取值範圍可以通過根據現階段泛濫子域的集中程度特點進行確定,例如,第二集中度閾值的取值範圍可以為0.6-0.7,但是第二集中閾值應該大於第一集中閾值。例如,第一集中度閾值取0.6時,第二集中度閾值可以取0.7,優選的,第一集中度閾值取0.45時,第二集中度閾值可以取0.6。
[0240]識別單元203,用於在所述判斷單元202判斷所述任一有效片段組的片段長度為離散分布或集中分布後,將所述任一有效片段組對應的子域名識別為泛濫子域。
[0241]優選的,為了提高識別的效率和可靠度,判斷單元202與識別單元203可以先根據第一級片段的有效片段組進行識別,然後將被識別為泛濫子域的子域名刪除後再根據第二級片段的有效片段組進行識別,依次類推。
[0242]進一步的,參見圖5,
[0243]所述系統還包括:
[0244]合併單元204,用於在所述判斷單元202判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布後,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合併成一級片段;
[0245]示例性的,合併的步驟可以將片段間的」去除。去除」的步驟可以逐步加大,第一步去除一個」,然後嘗試識別,如果還是不能識別,則加大為兩個」,這樣依次進行。
[0246]例如,對於下述域名:
[0247]www.1haz0.qh.gzszyl.g0.cn
[0248]www.fido0.edu.gzszyl.g0.cn
[0249]www.npvny.hb.gzszyl.g0.cn
[0250]www.tmtmk.ne.gzszyl.g0.cn
[0251]將第二級片段和第三級片段合併後,變為:[0252]www.1hazoqh.gzszyl.g0.cn
[0253]www.fidooedu.gzszyl.g0.cn
[0254]www.npvnyhb.gzszyl.g0.cn
[0255]www.tmtmkne.gzszyl.g0.cn
[0256]則得到的新的一級片段為上述合併後域名的第二級片段。
[0257]相應的,所述判斷單元202還用於,根據所述合併後的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布;
[0258]所述識別單元203還用於,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布後,將所述新的有效片段組對應的子域名識別為泛濫子域。
[0259]比較單元205,用於比較所述任一有效片段組的數量是否大於預設閾值,以便於所述判斷單元202和識別單元203在所述比較單元205確定所述任一有效片段組的數量大於預設閾值後,進行泛濫子域的識別。
[0260]示例性的,因為泛濫子域一般是批量的產生,所以數目比較大,所以為了減化識別的過程,系統可以設置一預設閾值,當某一有效片段組的數量大於該預設閾值時,再進行泛濫子域的識別。預設閾值的取值範圍可以根據現階段泛濫域名的數量特點進行設置,現階段泛濫域名的數量特點可以利用統計的方法獲取,例如,預設閾值的取值範圍可以為大於等於50,對於第一級片段的有效片段組,預設閾值可優選為500,對於第二級片段的有效片段組,預設閾值可優選為100。
[0261]過濾單元206,用於根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,以便於所述判斷單元202和識別單元203不針對符合所述豁免規則的片段或者子域名進行泛濫子域的識別。
[0262]示例性的,作為對重要子域名的保護,可以根據豁免規則可以根據實際需要進行設定,符合豁免規則的子域名,將不會被識別為泛濫域名。
[0263]例如,根據統計不同主域間的子域片段,將一些有含義的,或者是普遍存在的片段預存為豁免片段。例如「bbS」、「blog」、「WWW」等。
[0264]再例如,通過分析子域的質量,用戶訪問量,統計特別重要的子域名作為豁免子域。例如 qzone.163.com、bbs.163.com 等。
[0265]更新周期設置單元207,用於設置更新周期,相應的,
[0266]所述獲取單元201還用於:根據所述更新周期設置單元207設置的更新周期,在每個更新周期內獲取具有相同主域名的子域名;
[0267]所述判斷單元202還用於:根據所述更新周期設置單元207設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布;
[0268]所述識別單元203還用於:根據所述更新周期設置單元207設置的更新周期,在每個更新周期內,在所述判斷單元202判斷所述任一有效片段組的片段長度為離散分布或集中分布後,將所述任一有效片段組對應的子域名識別為泛濫子域。
[0269]調度單元208,用於將所述識別單元203識別的每一有效片段組對應的泛濫子域作為一個子域進行調度。
[0270]示例性的,因為泛濫子域的質量和內容差不多,所以可以將泛濫子域用一個虛擬子域進行調度,節約寬帶資源。
[0271]例如,可以保留有效片段組的左側域名部分和右側域名部分,將有效片段用表
/Jn ο
[0272]如,cid-3cl48clcd8599f5e.profile, live, com,
[0273]cid-fc56648fc658c405.profile, live, com,
[0274]cid-f4bd27el68f86267.profile, live, com,
[0275]等符合*.profile, live, com規則描述的子域名,可以虛擬為一個子域名:prifile.live, com。
[0276]本實施例提供的泛濫子域的識別系統,通過判斷具有相同主域名的子域名的任一有效片段組的片段長度的離散度或者集中度來識別泛濫子域,若任一有效片段組的片段長度為離散分布或集中分布,則將該任一有效片段組對應的子域名識別為泛濫子域。提高了泛濫子域的識別程度,解決了現有技術單純根據子域數量來判斷是否為泛濫子域,只能解決最嚴重的泛濫子域,對泛濫子域的識別程度低的問題。
[0277]本領域普通技術人員可以理解實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬體來完成,前述的程序可以存儲於一計算機可讀取存儲介質中,該程序在執行時,執行包括上述方法實施例的步驟;而前述的存儲介質包括:R0M、RAM、磁碟或者光碟等各種可以存儲程序代碼的介質。
[0278]以上所述,僅為本發明的【具體實施方式】,但本發明的保護範圍並不局限於此,任何熟悉本【技術領域】的技術人員在本發明揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應以所述權利要求的保護範圍為準。
【權利要求】
1.一種泛濫子域的識別方法,其特徵在於,包括: 獲取具有相同主域名的子域名; 若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合。
2.根據權利要求1所述的泛濫子域的識別方法,其特徵在於, 當所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段的左側域名部分和右側域名部分分別相同; 當所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段右側域名部分分別相同。
3.根據權利要求1或2所述的泛濫子域的識別方法,其特徵在於,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,包括: 獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到; 若所述平均片段數量小於第一離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
4.根據權利要求3所述的泛濫`子域的識別方法,其特徵在於,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布,還包括: 若所述平均片段數量不小於所述第一離散度閾值,則統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式; 若所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述平均片段數量小於第二離散度閾值,則判斷所述任一有效片段組的片段長度為離散分布。
5.根據權利要求1或2所述的泛濫子域的識別方法,其特徵在於,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,包括: 獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到; 獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大於所述平均片段數量與調整因子乘積的片段長度為所述有效長度; 若所述有效長度數量與所述片段長度總數的比值小於第一集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
6.根據權利要求5所述的泛濫子域的識別方法,其特徵在於,所述判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為集中分布,還包括: 若所述有效長度數量與所述片段長度總數的比值不小於所述第一集中度閾值,則統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式; 若所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述有效長度數量與所述片段長度總數的比值小於第二集中度閾值,則判斷所述任一有效片段組的片段長度為集中分布。
7.根據權利要求1-6任一項所述的泛濫子域的識別方法,其特徵在於,所述方法還包括: 若判斷所述具有相同主域名的子域名的每一個有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段時,則將所述具有相同主域名的子域名的相鄰的至少兩級片斷合併為一級片段; 根據所述合併後的一級片段組獲取新的有效片段組,若判斷所述新的有效片段組的片段長度為離散分布或集中分布,則將所述新的有效片段組對應的子域名識別為泛濫子域。
8.根據權利要求7所述的泛濫子域的識別方法,其特徵在於,在若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域之前,所述方法還包括: 根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,不進行泛濫子域的識別。
9.根據權利要求8所述的泛濫子域的識別方法,其特徵在於,所述方法還包括,設置更新周期; 所述獲取具有相同主域名的子域名,包括:根據所述設置的更新周期,在每個更新周期內獲取具有相同主域名的子域名; 所述若判斷所述具有相同主·域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域,包括:根據所述設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度為離散分布或集中分布,則將所述任一有效片段組對應的子域名識別為泛濫子域。
10.一種泛濫子域的識別系統,其特徵在於,包括: 獲取單元,用於獲取具有相同主域名的子域名; 判斷單元,用於判斷所述獲取單元獲取的所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布,其中,所述有效片段組為:在所述具有相同主域名的子域名的同一級片段中,所述同一級片段的左側域名部分和/或右側域名部分分別相同的片段集合; 識別單元,用於在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布後,將所述任一有效片段組對應的子域名識別為泛濫子域。
11.根據權利要求10所述的泛濫子域的識別系統,其特徵在於, 當所述同一級片段不是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段的左側域名部分和右側域名部分分別相同; 當所述同一級片段是所述具有相同主域名的子域名的最高一級片段時,所述同一級片段的左側域名部分和/或右側域名部分分別相同包括:所述同一級片段右側域名部分分別相同。
12.根據權利要求10或11所述的泛濫子域的識別系統,其特徵在於,所述判斷單元,包括: 獲取模塊,用於獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到; 第一判斷模塊,用於在確定所述獲取模塊獲取的所述平均片段數量小於第一離散度閾值後,判斷所述任一有效片段組的片段長度為離散分布。
13.根據權利要求12所述的泛濫子域的識別系統,其特徵在於,所述判斷單元,還包括: 統計模塊,用於在所述第一判斷模塊判斷所述平均片段數量不小於所述第一離散度閾值後,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式; 第二判斷模塊,用於在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述第一判斷模塊確定所述平均片段數量小於第二離散度閾值後,判斷所述任一有效片段組的片段長度為離散分布。
14.根據權利要求10或11所述的泛濫子域的識別系統,其特徵在於,所述判斷單元,包括: 第一獲取模塊,用於獲取平均片段數量,其中,所述平均片段數量由所述任一有效片段組包含的片段總數量除以所述任一有效片段組包含的不同的片段長度總數得到; 第二獲取模塊,用於獲取所述任一有效片段組包含的有效長度數量,其中,包含的片段數量大於所述平均片段數量與調整因子乘積的片段長度為所述有效長度; 第一判斷模塊,用於在確定所述第二獲取模塊獲取的所述有效長度數量與所述片段長度總數的比值小於第一集中度閾值後,判斷所述任一有效片段組的片段長度為集中分布。
15.根據權利要求14所述的泛濫子域的識別系統,其特徵在於,所述判斷單元,還包括: 統計模塊,用於在所述第一判斷模塊確定所述有效長度數量與所述片段長度總數的比值不小於所述第一集中度閾值後,統計所述任一有效片段組包含分隔符的片段數量或者所述任一有效片段組的命名模式; 第二判斷模塊,用於在確定所述統計模塊統計的所述任一有效片段組包含分隔符的片段數量大於預設分隔符閾值或者所述任一有效片段組的任意一種命名模式的比例大於預設比例閾值,且所述第一判斷模塊確定所述有效長度數量與所述片段長度總數的比值小於第二集中度閾值後,判斷所述任一有效片段組的片段長度為集中分布。
16.根據權利要求15所述的泛濫子域的識別系統,其特徵在於,所述系統還包括: 合併單元,用於在所述判斷單元判斷所述具有相同主域名的子域名的每一有效片段組的片段長度均不為離散分布或集中分布,且所述具有相同主域名的子域名具有至少兩級片段後,將所述具有相同主域名的子域名的相鄰的至少兩級片斷合併成一級片段; 所述判斷單元還用於,根據所述合併後的一級片段獲取新的有效片段組,判斷所述新的有效片段組的片段長度是否為離散分布或集中分布; 所述識別單元還用於,在所述判斷單元判斷所述新的有效片段組的片段長度為離散分布或集中分布後,將所述新的有效片段組對應的子域名識別為泛濫子域。
17.根據權利要求16所述的泛濫子域的識別系統,其特徵在於,所述系統還包括: 過濾單元,用於根據預先設定的豁免規則,將符合所述豁免規則的片段或者子域名過濾,以便於所述判斷單元和識別單元不針對符合所述豁免規則的片段或者子域名進行泛濫子域的識別。
18.根據權利要求17所述的泛濫子域的識別系統,其特徵在於,所述系統還包括,更新周期設置單元,用於設置更新周期; 所述獲取單元還用於:根據所述更新周期設置單元設置的更新周期,在每個更新周期內獲取具有相同主域名的子域名; 所述判斷單元還用於:根據所述更新周期設置單元設置的更新周期,在每個更新周期內若判斷所述具有相同主域名的子域名的任一有效片段組的片段長度是否為離散分布或集中分布; 所述識別單元還用於:根據所述更新周期設置單元設置的更新周期,在每個更新周期內,在所述判斷單元判斷所述任一有效片段組的片段長度為離散分布或集中分布後,將所述任一有效片段組對應的子域名識別為泛濫子域。
【文檔編號】H04L29/12GK103581347SQ201210256109
【公開日】2014年2月12日 申請日期:2012年7月23日 優先權日:2012年7月23日
【發明者】李學凱, 張鋒 申請人:深圳市世紀光速信息技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀