新四季網

一種網際網路上鏡像和準鏡像網站的識別方法

2023-06-26 14:19:51

專利名稱:一種網際網路上鏡像和準鏡像網站的識別方法
技術領域:
本發明涉及計算機網絡技術,特別是涉及一種網際網路上鏡像和準鏡像網站的識別方法。
為了幫助人們快速準確的查找和定位信息,一種軟體系統搜尋引擎迅速發展了起來。在搜尋引擎系統可以根據用戶的查詢返回查詢結果之前,搜尋引擎系統一般是通過一個通常稱為網絡蜘蛛的程序來發現和抓取網際網路上的信息,並建立這些信息的索引。在搜尋引擎中用統一資源標識符(URL)來標識信息。常見的URL有如下的形式協議//網站/路徑例如http//www.baidu.com/about/baiduncn/index.htm,其中http表示這個信息資源要通過http協議來訪問,www.baidu.com表示信息資源所在的網站,/about/baiduncn/index.htm表示信息資源在網站的具體位置。在搜尋引擎抓取、索引和檢索信息時,只要信息單元的標識URL不同,就會被認為是不同的信息單元,即使這些信息單元的信息或內容是相同的。例如http//www.baidu.com/about/baiduncn/index.htm和http//baidu.com/about/baiduncn/index.htm是兩個不同的URL,但它們有相同的內容。
用不同的URL表示同一份內容有各方面的原因,有技術方面的,也有非技術方面的。例如有些網站可以用不同的名字來表示和訪問就是最主要的技術方面的原因,而將同樣的內容複製在不同的主機上或同一主機的不同的目錄上是比較常見的非技術原因。
搜尋引擎不僅因為重複的抓取處理同樣的信息,極大的浪費各種計算資源,而且因為檢索出重複的結果而極大的影響的檢索結果的質量,影響用戶的查找效率。實驗和統計表明,在某些情況下,檢索結果的重複率會達到50%以上。本發明的目的就是要開發一種簡單有效的方法來檢測這些信息重複問題。[現在方法]1,DNS方法在網際網路上域名伺服器(DNS)可以給出域名的IP位址和一些域名的別名。有些方法認為IP相同的域名和互為別名的域名就互為鏡像網站,但這類方法有一下問題1)很多域名伺服器DNS不進行別名配置,DNS提供別名的域名相對來說不多。因此很多鏡像網站不能檢測出來。
2)很多域名和IP沒有關係的網站提供相同或相似的內容。這些網站的重複不可能通過DNS方法來檢測。
3)域名伺服器認為互為別名的域名,在提供HTTP服務時並不一定也為別名而提供相同內容。這些因為HTTP伺服器可以獨立的解釋利用域名信息。
4)IP位址相同的域名也不能保證它們在提供HTTP服務時也為提供相同內容。很多主機提供虛擬主機服務,它們可以在一個IP或一組IP上建立很多網站,這些網站的內容沒有任何直接關係。2,URL分析法很多提供相同或相似內容的網站的域名有某種相似性,例如www.baidu.com和www.baidu.com.cn,人們很自然的想到了通過利用和分析這些網站的域名或URL的相似性來檢查鏡像網站。但這類方法有很嚴重的問題1)有很多網站名字相似但其內容不同。而URL方法可能會將它們判為鏡像網站。
2)而另外有一些網站,它們內容相同,但URL沒有任何相似性。URL方法則不能識別出這些鏡像網站。3,連通性方法基於網際網路中互相連結的特性,提供相同內容的網站中的連結必然相應的指向相同的內容。因此有的方法就是通過判定網站的連通性,即通過判定指出連結,是否相同來判定網站是否提供相同內容。但是這種方法有以下問題1)有些網站的指出連結是相同的,但其內容並不相同,而連通性方法會將它們判為提供相同內容的網站。
2)而另外有一些鏡像網站,內容基本相同,僅僅是某些相應連結不同。連通性方法檢測不出這一類的鏡像。
本發明的又一目的是提供一種方法,使得可以有針對性的發現一個或一組站點在網際網路上是否有其鏡像或準鏡像站點。
本發明的目的是這樣實現的通過含由內容獲取伺服器,相似性分析伺服器,配置和展示伺服器,網站信息資料庫四個部分組成的識別系統,執行互連網上鏡像和準鏡像網站的識別。該方法主要步驟包括對於一組已知網站,通過工具將其首頁獲取並判斷其相似程度,將相似程度大的網站歸為候選網站組,對候選網站組中的網站,採取使用工具在網站內抽樣的方式決定鏡像和準鏡像網站。
網站泛指在網際網路上提供服務的網站,可以包含WWW網站、FTP網站、BBS網站等。可使用的網站不限於上面列舉的網站,只要該網站的內容在網際網路上可訪問,網站上內容可比較,即為本方法適用網站。
一組已知網站包含兩種情況,其一是所有網站都是無特指網站,該方法發現這些網站之間的鏡像和準鏡像關係,即在給定的大量網站中找出所有的相似網站組合;其二是部分網站為特指網站,即用戶給定一些網站,該方法用於發現其他無特指網站和特指網站之間的鏡像和準鏡像關係,即從大量網站中尋找和給定網站相似的網站。這兩種情況實現了兩種不同的目的;第一種是在對一個團體根據某種標準分類,第二種是給定一個或幾個樣本,在團體中按照某種標準找到和這些樣本相似的個體。
所述的鏡像和準鏡像網站判定包含如下步驟a、獲取一組網站b、獲取該組網站中每個網站的首頁信息c、對所有的首頁進行相似度判定d、設定閾值,對所有的網站,按照首頁的相似程度選出候選網站組e、對於每個候選網站組,對網站組中每個網站上進行相同策略的內容抽樣f、對每個網站組中,對網站組內所有網站的內容抽樣進行相似度判定g、設定閾值,對每個網站組使用,使用網站組內網站內容抽樣的相似度,確定鏡像和準鏡行網站。
獲取首頁和網站內容的工具可以是大型搜尋引擎、可以是定向的網站內容下載的軟體等各種可以獲得網站內容的工具。
利用首頁的各種特徵,包括首頁長度、首頁各種字符比例、首頁各種多媒體信息數量特徵、首頁內容相似程度等各種可量化信息,綜合給出這些網站之間的兩兩相似度。
首頁內容相似程度比較包括各種現有以及將來會有內容的相似度算法,包括文本相似度的各種算法如向量空間模型算法;包括圖像相關度的各種算法;聲音相關度各種算法等。包括以後出現的各種算法和內容類型。
對每一個相似的網站組,對網站組內每個網站採用相同的方法進行相關信息抽樣。對抽樣信息採用與首頁內容相似程度相同的計算方法計算抽樣信息的相似度。並對這些相似度進行綜合,計算出該相似網站組中網站之間的兩兩相似度。並按照相似度決定鏡像和準鏡像網站。
對網站內容抽樣的方法可採用通過首頁可達到的內容的抽樣選取,或是其他任何可行的網站上可訪問內容的抽樣辦法。抽樣可以採取隨機抽樣法、有選擇抽樣法等所有抽樣方法。
按照網站間兩兩相似度,以及實際的需要,選擇合適的閾值。對於相似度超過閾值的網站,認為是準鏡像網站。如果閾值選擇為兩者必須完全相同才可以達到的值,這認為網站為鏡像網站。
在以上前提下,我們設計了網際網路上對鏡像和準鏡像WWW網站進行識別的系統。參考

圖1和圖2,該系統由內容獲取伺服器,相似性分析伺服器,配置和展示伺服器,網站信息資料庫四個部分組成。這四個部分由內部網互連,可以進行相互之間的通信。該系統中的內容獲取伺服器是一臺和Internet相聯接的伺服器,用於從WWW上獲取指定網站的信息;相似性分析伺服器是一臺計算伺服器,用於計算各種內容之間的相似程度,並依據給定閾值進行選取;配置和展示伺服器是一臺用於人機接口的伺服器,主要用於接受用戶的輸入參數和指令,用於輸出各種用戶需要的結果信息。
該系統中使用的伺服器可以各種品牌和配置的伺服器,例如可採用Dell、Compaq、IBM、聯想、方正等品牌的伺服器。相應伺服器上的作業系統也可以是多種選擇,如Window、Linux、Solaris等。對於資料庫,系統在設計上也沒有特指性,可以選用商業資料庫如DB2、Oracle、SQLServer等,也可以選擇免費的資料庫如MySQL等。
基於存在的硬體系統,我們可以實施軟體系統的設計。結合圖3,我們來展示一個對網際網路上鏡像和準鏡像網頁進行判定的系統。該系統由三個主要模塊組成,各個模塊間按照如下流程進行工作100配置和展示模塊,從用戶那裡得到用戶所期望進行鏡像網站判定的所有網站集合,並讓用戶對一些系統需要的閾值進行配置,如判定侯選鏡像站點組的閾值設定;判定(準)鏡像站點組的閾值設定等。
200獲取站點首頁並判定相關性模塊,利用內容獲取伺服器和相似性分析伺服器對用戶輸入的站點進行首頁獲取和相似性運算,獲得候選鏡像站點組。
300獲取抽樣內容並判定相似性模塊,對每個候選鏡像站點組,採用特定的抽樣算法獲得抽樣內容。利用內容獲取伺服器和相似性分析伺服器對用抽樣內容進行獲取和相似性運算,獲得(準)鏡像站點組。
400配置和展示模塊,按照用戶需要的模式,將這些(準)鏡像站點組輸出給用戶。
以上流程中,100和400由同一個配置和展示模塊模塊完成,用於本系統和用戶的溝通,我們可以採用通常使用的WWW下的伺服器+瀏覽器模式實現,其中伺服器可以採用流行的Apache或IIS等,瀏覽器可以採用IE或Netscape等。另外,我們也可以開發特定的服務端和客戶端程序,為本系統所使用。
以上流程中,200和300為本系統的關鍵流程,我們將在下面結合具體的流程圖進行進一步的闡述。
結合圖4,我們對流程200進行進一步的闡述其詳細流程210獲得一個站點,其數據來源是用戶通過配置輸入的待比較的站點。
220建立一條到該站點的連接,這裡的連接指網絡連接。
230按照HTTP協議獲取該站點首頁。
240關閉到該站點的連接。
250保存該首頁數據,將該數據保存到站點信息資料庫中,用作以後的相似度計算時使用。
260還有站點?如果還有,則跳轉到210,繼續獲取這些站點的首頁信息,否則,進行270。
270計算所有網站首頁的兩兩相似度,這裡的數據來源於站點信息資料庫。
280按照配置的閾值選取候選鏡性網站,這裡的閾值由配置時完成。按照270計算獲得的相似度和閾值,將兩兩相似度高於閾值的站點劃歸為一個候選鏡像站點組,這樣我們可以獲得多個候選鏡像站點組,將這些信息保存在站點信息資料庫中,留給以後使用。
對以上的步驟,210-260由內容獲取伺服器完成,270-280由相似性分析伺服器完成。
220-240為使用HTTP協議,在網際網路上獲取信息的過程。我們可以按照標準的網絡協議開發實現,也可以藉助現在已經存在的程序如Netants的網頁獲取模塊、百度搜尋引擎的搜集模塊等進行完成。
對於270中的首頁的兩兩相似性計算,我們可以採用進行文本相似性比較的經典方法——向量空間模型法。另外,我們也可以採用概率方法或多維曲面法。我們也可以進一步考慮頁面上的圖像或其他多媒體信息,採用相關的相似性方法進行比較。
對於流程200獲得的候選鏡像站點組,我們使用流程300進行進一步的判定,最終獲得我們期望的(準)鏡像站點的數據參見圖5305獲得一個站點組,其獲取來源是保存在站點內容資料庫中的候選鏡像站點組。
310選取該站點組的抽樣內容,由於我們處理的網頁信息,我們通過跟蹤主頁上超鏈的方式來進行抽樣,抽樣的數據是網頁或網頁上的其他信息。
315建立一條到該站點的連接320按照HTTP協議獲取這些抽樣內容325關閉到該站點的連接330保存這些抽樣內容,保存到站點信息資料庫中。
335還有站點?如果有,跳轉到315,繼續從網上抓取抽樣信息;否則,到340繼續執行。
340按照抽樣內容計算該站點組內相似性345按照配置的閾值選取(準)鏡性網站350保存(準)鏡像網站信息,這些信息被保存到網站信息資料庫中,以備以後使用。
355還有站點組?如果有,跳轉到305,繼續處理這些站點組;否則,結束整個流程。
以上流程中部分內容和流程200相似,就不再重複解釋。流程300中的重點步驟是310,即對候選鏡像站點組的內容抽樣。我們可以通過如下方式實現抽樣我們對其中的一個網站,對首頁上的超鏈隨機選取n個,對n個超鏈中,隨機對其中的m條進行一層或多層跟蹤,得到一定數量的超鏈k個。對於這k個超鏈,隨機抽取其中的p個作為網站間相似程度的抽樣超鏈。利用這些超鏈獲取的內容既為我們抽樣的內容。
對於320,由於抽樣是以一個站點為基準進行的,因此有可能在進行後繼站點上對應內容抓取時,出現該內容不存在的情況。此時,視為我們獲取到一個空內容。
以上是整個在搜尋引擎中使用本發明方法的實際流程。通過使用該方法,可以為搜尋引擎節約大量的帶寬資源;可以減輕被訪問站點的壓力,尤其是兩個鏡像網站保存在一臺計算機上時;可以節省搜尋引擎本身對資源的消耗,因為它排除了大量的重複信息;可以提高搜尋引擎的性能;可以為用戶提供質量更高的服務,因為它可以讓你在相同的顯示篇幅裡看到儘量多不同的信息。
作為以上實例的衍生結果,本方法也可以用於判定在大量的網站列表中是否存在一個或幾個指定網站的鏡像和準鏡像網站,即特指網站的鏡像和準鏡像判定。只需要將這些網站放入網站列表中,採用以上實例的步驟,可以得到所有鏡像和準鏡像網站組。如果這些鏡像和準鏡像網站組中包含了特指網站,則該特指網站在網站列表中有鏡像和準鏡像網站存在;如果沒有任何一個鏡像和準鏡像網站組包含特指網站,則該特指網站在網站列表中沒有鏡像和準鏡像網站。
權利要求
1.一種網際網路上鏡像和準鏡像網站的識別方法,該方法通過含由內容獲取伺服器,相似性分析伺服器,配置和展示伺服器,網站信息資料庫四個部分組成的識別系統,執行互連網上鏡像和準鏡像網站的識別,其特徵在於該方法的步驟包括對於一組已知網站,通過工具將其首頁獲取並判斷其相似程度,將相似程度大的網站歸為候選網站組,對候選網站組中的網站,採取使用工具在網站內抽樣的方式決定鏡像和準鏡像網站。
2.根據權利要求1所述的網際網路上鏡像和準鏡像網站的識別方法,其特徵在於網站泛指在網際網路上提供服務的網站,可以包含WWW網站、FTP網站、BBS網站,網站的內容在網際網路上可訪問、可比較的網站。
3.根據權利要求1所述的網際網路上鏡像和準鏡像網站的識別方法,其特徵在於當一組已知網站為所有網站都是無特指網站,則在給定的大量網站中找出所有的相似網站組合;當一組已知網站為有特指網站,即用戶給定一些網站,則從大量網站中尋找和給定網站相似的網站。
4.根據權利要求1所述的網際網路上鏡像和準鏡像網站的識別方法,其特徵在於所述的鏡像和準鏡像網站判定包含如下步驟a、獲取一組網站,b、獲取該組網站中每個網站的首頁信息,c、對所有的首頁進行相似度判定,d、設定閾值,對所有的網站,按照首頁的相似程度選出候選網站組,e、對於每個候選網站組,對網站組中每個網站上進行相同策略的內容抽樣,f、對每個網站組中,對網站組內所有網站的內容抽樣進行相似度判定,g、設定閾值,對每個網站組使用,使用網站組內網站內容抽樣的相似度,確定鏡像和準鏡行網站。
5.根據權利要求4所述的網際網路上鏡像和準鏡像網站的識別方法,其特徵在於獲取首頁和網站內容的工具可以是大型搜尋引擎、可以是定向的網站內容下載的軟體或各種可以獲得網站內容的工具。
6.根據權利要求4所述的網際網路上鏡像和準鏡像網站的識別方法,其特徵在於利用首頁的各種特徵,包括首頁長度、首頁各種字符比例、首頁各種多媒體信息數量特徵、首頁內容相似程度等各種可量化信息,綜合給出這些網站之間的兩兩相似度。
7.根據權利要求1所述的網際網路上鏡像和準鏡像網站的識別方法,其特徵在於對每一個相似的網站組,對網站組內每個網站採用相同的方法進行相關信息抽樣,對抽樣信息利用首頁特徵的方法計算抽樣信息的相似度。並對這些相似度進行綜合,計算出該相似網站組中網站之間的兩兩相似度,並按照相似度決定鏡像和準鏡像網站。
8.根據權利要求8所述的網際網路上鏡像和準鏡像網站的識別方法,其特徵在於對網站內容抽樣的方法可採用通過首頁可達到的內容的抽樣選取,或是其他任何可行的網站上可訪問內容的抽樣辦法,抽樣可以採取隨機抽樣法、有選擇抽樣法或所有抽樣方法。
9.據權利要求9所述的網際網路上鏡像和準鏡像網站的識別方法,其特徵在於按照網站間兩兩相似度,以及實際的需要,選擇合適的閾值,對於相似度超過閾值的網站,認為是準鏡像網站,如果閾值選擇為兩者必須完全相同才可以達到的值,認為網站為鏡像網站。
全文摘要
本發明為一種網際網路上鏡像和準鏡像網站的識別方法。該方法是通過對已知的大量網站首頁進行相似度判定,選取候選鏡像網站組;再通過對候選鏡像網站組中的網站上內容進行抽樣比較統計,通過設定相似度閾值的方法獲得鏡像和準鏡像網站。該方法對於需要大量採集網際網路上信息的系統(如搜尋引擎)具有十分重要的意義,可以避免這類系統對雷同信息的重複獲取,節省網絡資源和本地資源,提高系統服務的質量和效率。
文檔編號G06F17/30GK1435775SQ02100550
公開日2003年8月13日 申請日期2002年1月31日 優先權日2002年1月31日
發明者雷鳴, 徐海洋, 郭眈, 崔珊珊, 劉建國 申請人:百度在線網絡技術(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀