新四季網

在搜尋引擎中處理懸空網頁節點的方法和系統的製作方法

2023-05-23 07:26:11

專利名稱:在搜尋引擎中處理懸空網頁節點的方法和系統的製作方法
技術領域:
本發明涉及搜尋引擎技術,特別涉及一種在搜尋引擎中處理懸空網頁節點的方法和系統。
背景技術:
隨著網際網路的迅猛發展,搜尋引擎提供的導航服務已經成為網際網路上非常重要的網絡服務。搜尋引擎為用戶提供信息「檢索」服務,它使用搜索程序把網際網路上的所有信息歸類以幫助用戶在海量的網際網路信息中搜尋其所需要的信息。搜尋引擎的原理主要包括三步1)從網際網路上抓取網頁(crawler階段,爬取階段),2)建立索引資料庫,3)在索引資料庫中搜索排序。
其中,對搜索結果的排序要用到網頁等級值(pagerank),Pagerank用於指示對應網頁的連結廣泛度(Link Popularity),與用戶的搜索要求相匹配的網頁的pagerank越大,其在搜索結果頁面的排序往往越靠前。PageRank依賴於唯一的網絡法則,就是用大量的連結結構為依據為網頁計算得分。從本質上來說,一個從A頁到B頁的連結a,算A投B一票。高質量的網站會得到較高PageRank。
但是,目前網絡中存在大量的懸空網頁節點(Dangling節點),這樣的節點約佔整個網頁數目的6%左右,Dangling節點的存在會影響pagerank的有效計算。Dangling節點指那些只有入鏈、沒有出鏈(向外連結)的網頁(節點),例如一些非常有價值的doc文檔、pdf文檔等都是Dangling節點。Dangling節點的存在使得搜尋引擎中pagerank的計算出現了偏差。如果不處理Dangling節點,一方面導致pagerank的計算不能有效地進行,另一方面,可能導致具有Dangling節點的有價值的網頁的pagerank降低,影響網頁搜索排名,進而影響搜索結果的質量。
目前對於dangling節點的處理方法是在網絡中增加一個虛擬節點,所有的dangling節點都有一個到該虛擬節點的虛擬出鏈,該虛擬節點有到每個非dangling節點的虛擬出鏈,這樣,整個網頁就不存在dangling節點。其缺陷是①對dangling節點pagerank的分配不合理,從而影響了網頁搜索排序;②增加了過多的虛擬連結,影響pagerank的計算速度。

發明內容
本發明的目的在於提供一種在搜尋引擎中處理懸空網頁節點的方法和系統,可以克服現有技術的缺陷。
本發明的技術方案是在搜尋引擎中處理懸空網頁節點的方法,包括以下步驟A1,從網際網路上獲取網頁的同時獲取所述網頁的從屬網站信息;A2,判斷所述網頁是否為懸空網頁,如果是則在計算所述網頁的等級時執行步驟B1;B1,為所述懸空網頁增加到至少一個非懸空網頁的虛擬出鏈;所述非懸空網頁與所述懸空網頁從屬於同一個網站。
作為優選,步驟A2中,判斷所述網頁為懸空網頁時,為所述網頁做懸空網頁標記。
作為優選,步驟A2中,判斷所述網頁為非懸空網頁時,為所述網頁做非懸空網頁標記。
本發明還提供了一種在搜尋引擎中處理懸空網頁節點的系統,包括網頁抓取模塊,用於從網際網路上獲取網頁,同時獲得所述網頁的來源網站信息;分類模塊,用於將所述網頁分類為懸空網頁或非懸空網頁;虛擬連結建立模塊,用於為所述懸空網頁建立到至少一個非懸空網頁的虛擬出鏈;且所述非懸空網頁與所述懸空網頁從屬於一個網站。
作為優選,所述系統還包括存儲模塊,用於存儲所述網頁抓取模塊獲得的網頁和其來源網站信息。
作為優選,所述分類模塊還用於將分類為懸空網頁的網頁做懸空網頁標記,並保存。
作為優選,所述分類模塊在判斷所述網頁不是懸空網頁時,也為所述網頁做標記。
本發明的有益效果在於(1)通過為每個懸空網頁節點增加到其同屬站點的虛擬出鏈(站內虛擬連結),使得在pagerank計算中不存在dangling節點,有利於pagerank的計算;(2)增加站內虛擬連結符合pagerank的思想,使得dangling節點的pagerank計算合理化,使網頁搜索排序更加理想,提高搜尋引擎搜索結果的質量。


圖1是本發明在搜尋引擎中處理懸空網頁節點的系統的結構圖;圖2是本發明較佳實施例中在搜尋引擎中處理懸空網頁節點的方法的流程圖;圖3是本發明另一實施例中在搜尋引擎中處理懸空網頁節點的方法的流程圖。
具體實施例方式
下面根據附圖和具體實施例對本發明作進一步闡述。
如圖1所示,一種在搜尋引擎中處理懸空網頁節點(Dangling節點)的系統10包括網頁抓取模塊100、分類模塊101、存儲模塊102和虛擬連結建立模塊103。
其中,網頁抓取模塊100負責自動從網際網路獲取網頁和對應網頁的從屬網站信息,並將獲取到的信息發送到分類模塊101(或同時保存在存儲模塊102中)。一般的做法是網頁抓取模塊100通過能夠從網際網路上自動收集網頁的網絡蜘蛛程序,自動訪問網際網路,並沿著任何網頁中的所有URL(統一資源定位器)爬到其它網頁,重複這過程,並把爬過的所有網頁收集到存儲模塊102中。可通過網頁的URL和內部結構信息知道該網頁屬於哪個站點,從而得知哪些網頁屬於同一個站點。一般搜尋引擎中的自動信息搜集功能分兩種,一種是定期搜索,即每隔一段時間(比如28天),網頁抓取模塊100主動派出「蜘蛛」程序,對一定IP位址範圍內的網際網路站進行檢索,一旦發現新的網站,「蜘蛛」程序會自動提取網站的信息和網址加入存儲模塊102;另一種是提交網站搜索,即網站擁有者主動向搜尋引擎提交網址,搜尋引擎的網頁抓取模塊100會在一定時間內(2天到數月不等)定期對應網站派出「蜘蛛」程序,掃描網站並將有關信息存入存儲模塊102。
分類模塊101負責將網頁抓取模塊100獲得的網頁分為Dangling網頁和非Dangling網頁,並分別標以不同的標記,最後將做了標記的網頁及其來源網站信息保存到存儲模塊102中。分類模塊101可通過對網頁的原始碼進行分析以判斷對應網頁是否有向外連結來進行區分。本發明的其它實施例中,可只對Dangling網頁作標記,不對非Dangling網頁作標記。
虛擬連結建立模塊103負責在接收到計算Dangling網頁pagerank的命令後,為對應Dangling網頁建立到一個到非Dangling網頁的虛擬出鏈,且該非Dangling網頁與該Dangling網頁從屬於一個網站。虛擬連結建立模塊103可通過查詢存儲模塊102以獲得上述非Dangling網頁。本發明的其它實施例中,可為對應Dangling網頁建立到其同屬站點的兩個或兩個以上的非Dangling網頁的虛擬出鏈。這樣,在進行pagerank計算時就不存在Dangling網頁節點了。
由於從網頁A導向網頁B的連結被看作是頁面A對頁面B的支持投票,搜尋引擎根據這個投票數來判斷頁面的重要性。如果一個網頁A是dangling節點,而網頁B,C,D與網頁A是同屬一個站點的三個網頁,那麼增加網頁A到網頁B,網頁A到網頁C,網頁A到網頁D的三個虛擬連結並不影響pagerank的計算——因為網頁A,B,C,D屬於同一個站點,A給B,C,D的「投票」是理所當然的。正如為www.sky.com的某個網頁A增加虛擬連結鏈向www.sky.com的某個網頁B,是非常符合現有搜尋引擎的思想的。且,增加的虛擬連結的數量非常有限,有效地利用了Web所擁有的龐大連結構造的特性。
綜上所述,如圖2所示,本發明一個實施例中,在搜尋引擎中處理懸空網頁節點的方法包括以下步驟步驟S1,從網際網路上獲取網頁的同時獲取對應網頁的從屬網站信息。
步驟S2,判斷獲得的網頁是否為Dangling網頁,對Dangling網頁和非Dangling網頁分別標以不同的標記,並保存。
步驟S3,在計算Dangling網頁的等級(pagerank)前在存儲模塊中搜索,獲得與該Dangling網頁從屬於同一個網站的至少一個非Dangling網頁,並為該Dangling網頁增加到上述非Dangling網頁的虛擬出鏈。
如圖3所示,本發明另一個實施例中,在搜尋引擎中處理懸空網頁節點的方法包括以下步驟步驟S21,從網際網路上獲取網頁的同時獲取對應網頁的從屬網站信息,並保存。
步驟S22,在計算網頁的等級(pagerank)時,判斷該網頁是否為Dangling網頁,如果是執行步驟S23,否則執行步驟S25。
步驟S23,從存儲模塊中搜索,獲得與該Dangling網頁從屬於同一個網站的至少一個非Dangling網頁。
步驟S24,為該Dangling網頁增加到上述非Dangling網頁的虛擬出鏈。
步驟S25,計算該網頁的等級。
以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的權利要求範圍之內。
權利要求
1.在搜尋引擎中處理懸空網頁節點的方法,其特徵在於,包括以下步驟A1,從網際網路上獲取網頁的同時獲取所述網頁的從屬網站信息;A2,判斷所述網頁是否為懸空網頁,如果是則在計算所述網頁的等級時執行步驟B1;B1,為所述懸空網頁增加到至少一個非懸空網頁的虛擬出鏈;所述非懸空網頁與所述懸空網頁從屬於同一個網站。
2.根據權利要求1所述的在搜尋引擎中處理懸空網頁節點的方法,其特徵在於步驟A2中,判斷所述網頁為懸空網頁時,為所述網頁做懸空網頁標記。
3.根據權利要求1或2所述的在搜尋引擎中處理懸空網頁節點的方法,其特徵在於步驟A2中,判斷所述網頁為非懸空網頁時,為所述網頁做非懸空網頁標記。
4.在搜尋引擎中處理懸空網頁節點的系統,其特徵在於,包括網頁抓取模塊,用於從網際網路上獲取網頁,同時獲得所述網頁的來源網站信息;分類模塊,用於將所述網頁分類為懸空網頁或非懸空網頁;虛擬連結建立模塊,用於為所述懸空網頁建立到至少一個非懸空網頁的虛擬出鏈;且所述非懸空網頁與所述懸空網頁從屬於一個網站。
5.根據權利要求4所述的在搜尋引擎中處理懸空網頁節點的系統,其特徵在於所述系統還包括存儲模塊,用於存儲所述網頁抓取模塊獲得的網頁和其來源網站信息。
6.根據權利要求4或5所述的在搜尋引擎中處理懸空網頁節點的系統,其特徵在於所述分類模塊還用於將分類為懸空網頁的網頁做懸空網頁標記,並保存。
7.根據權利要求6所述的在搜尋引擎中處理懸空網頁節點的系統,其特徵在於所述分類模塊在判斷所述網頁不是懸空網頁時,也為所述網頁做標記。
全文摘要
本發明公開了一種在搜尋引擎中處理懸空網頁節點的方法,包括步驟從網際網路上獲取網頁的同時獲取所述網頁的從屬網站信息;判斷所述網頁是否為懸空網頁,如果是則在計算所述網頁的等級時執行步驟為所述懸空網頁增加到至少一個非懸空網頁的虛擬出鏈;該非懸空網頁與所述懸空網頁從屬於同一個網站。本發明還公開了一種在搜尋引擎中處理懸空網頁節點的系統。本發明通過為每個懸空網頁節點增加其站內虛擬連結,有利於pagerank的計算,使懸空節點的pagerank計算合理化,提高搜尋引擎搜索結果的質量。
文檔編號G06F17/30GK101079058SQ20071007359
公開日2007年11月28日 申請日期2007年3月21日 優先權日2007年3月21日
發明者文勖 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀