新四季網

一種Web新網頁推薦方法

2023-05-06 09:50:21

專利名稱:一種Web新網頁推薦方法
技術領域:
本發明涉及一種推薦Web新網頁的方法,尤其涉及一種針對搜尋引擎排名算法的弱點,在儘量不影響搜索結果質量的前提下,向用戶推薦高質量的新網頁的方法,屬於網際網路搜索技術領域。
背景技術:
當前,搜尋引擎已經漸漸成為人們獲取信息的主要方式之一。當搜尋引擎把查詢結果返回給用戶時,查詢結果的排列方式對結果被用戶關注和點擊的概率具有絕對的影響。那麼應該如何對結果合理排名呢?在結果與查詢關鍵詞的匹配度一樣的情況下,最理想的排名方案應該是按照結果頁面質量從高到低排列。然而頁面質量(page quality)是一個相當主觀的概念。它需要通過網絡用戶的主觀判斷而得到,但是首先人工的評判需要大量的人力物力財力,耗費大量的時間。其次,由於不同的個體對於同一個Web頁面的質量可能會得出不同的評價,使得人工網頁評價成為相當不實際的做法。在此背景下,搜尋引擎排名算法的設計者轉而考慮用一些客觀的易於被觀察和計算的特徵值來替代和近似估計一個網頁的重要性程度。因而,Web頁面流行度(page popularity)的概念被提出了。Web頁面流行度代表一個網頁被用戶喜歡的程度,可以用頁面獲得的inlink數或者點擊次數來計算。1998年S. Brin和L. Page等人提出了利用Web 連結結構圖來獲得頁面重要性的算法,即I^ageRank算法。I^ageRank算法很好地利用了「群體智慧」,使搜尋引擎的性能大為提高,是當前排名算法中的佼佼者。因此,I^ageRank算法目前仍然是絕大多數商業搜尋引擎的排名算法的基礎。基於網頁流行度的排名算法雖然能夠幫助網絡用戶搜尋有用的信息,但它同時也引發了一些弊端。Web是一個規模巨大、新舊頁面不斷更替的動態環境,其中每個新頁面都會經歷一個流行度從小到大,直到與其本身質量相一致的成長過程。當用網頁流行度來近似獲得網頁質量時,Web新頁面的質量往往被低估了。特別是當搜尋引擎開始主導用戶的瀏覽模式時,新頁面被訪問的概率大大下降,流行度的成長過程被大大的延長了。為了解決新網頁容易被搜尋引擎所忽視的問題,S. Pandey和S. Roy等人提出了一種amffling方法。該方法的本質是剝奪一個成熟頁面被展示的機會,而把這個機會讓給某個被隨機推薦出來的新頁面。由於amffling方法在選取被推薦的新頁面時採用的是隨機法,因此被推薦的新頁面的質量可能參差不齊,所以很可能造成一個質量不佳的新頁面佔據了良好的展示位置出現在結果集合中,卻沒有能為用戶帶來有用信息的局面。雖然 amffling方法在理論上對於新頁面提升認知度有一定作用,但實際應用的效果難以得到保障。在提高搜索結果時效性方面也有很多類似的技術。例如在專門針對新聞時事的搜尋引擎中,搜索結果通常都是按照頁面發布的時間或者時新度(freshness)排名的,因為新聞搜尋引擎的用戶更關注的是最新報導,根據結果時效性來對結果排名是最符合用戶需求的。頁面時效性對於新聞搜索排名是有實際意義的,但無法用於評價新網頁的質量,因此並不適合作為推薦普遍意義上的新頁面的衡量標準。

發明內容
本發明所要解決的技術問題在於提供一種Web新網頁推薦方法。該方法可以使新頁面有更多機會被用戶認知,有助於優化搜尋引擎的排名,提高用戶滿意度。為了實現上述的發明目的,本發明採用下述的技術方案一種Web新網頁推薦方法,其特徵在於包括如下步驟對於新網頁,首先確定所述新網頁出現在搜尋引擎返回結果中的推薦比例;然後估測新頁面的潛在質量,根據潛在質量的高低以預定的概率選取被推薦的新網頁;將被推薦的新網頁和搜尋引擎返回結果一起展示給用戶。其中,所述推薦比例為15% 20%。在估測新頁面的潛在質量時,使用的方法包括以下三種(1)使用新網頁當前的I^ageRank結果(簡稱Naive方法)(2)使用兄弟頁面I^geRank的均值(簡稱ASP方法)(3)使用兄弟頁面I^ageRank的中值(簡稱MSP方法)將被推薦的新網頁和搜尋引擎返回結果一起展示給用戶時,可以採用的頁面展示方法包括顯式展示法和隱式展示法,其中隱式展示法是將被推薦的新頁面與原來的10個結果混合在一起,沒有區分的展示給用戶;顯式展示法是將被推薦的新頁面以某種顯著的方式展示給用戶。本Web新網頁推薦方法可以在儘量不影響搜索結果質量的前提下,向搜尋引擎用戶推薦一些高質量的新頁面,使得它們獲得被關注和點擊的機會,在較短的時間內獲得較高的認知度,通過用戶的點擊對新頁面的質量進行自動評判,降低搜尋引擎對新頁面流行度演化過程的阻滯作用,使有價值的新頁面可以「健康」地成長。


下面結合附圖和具體實施方式
對本發明作進一步的詳細說明。圖1為三種估測網頁潛在質量的方法的對比試驗結果示意圖;圖2為本發明所提供的RankPro推薦方法從三個維度確定新網頁推薦方式的示意圖;圖3為攝影圖片網站實驗中,三種推薦方法在每個類別的POH值;圖4為攝影圖片網站實驗中,三種推薦方法在每個類別的AOR值。
具體實施例方式現有研究表明,頁面流行度並不總是與頁面本身的質量成正比,而是在開始時總是較低,隨著頁面的慢慢成熟,獲得較多的用戶關注和點擊之後逐漸成長,直到最終與頁面本身的質量一致。對於Web上每一個頁面,都存在這樣一個流行度成長的過程,這個過程同時也是頁面本身從一個新生頁面過渡到成熟頁面的過程。因此,用當前的網頁流行度對網頁進行排序,即使是高質量的新網頁,也會由於其流行度火候不足而受到壓制,排名靠後。把流行度位於不同起點上的新舊網頁混在一起進行排名,對新網頁是不公平的。同時,人們往往傾向於搜索較新的信息,這會降低搜索結果的用戶滿意度。再則,新頁面由於排名靠後,被訪問的機會很低,被認可的機會也就低了,其流行度的成長就會受到嚴重阻礙。從搜尋引擎的角度分析基於網頁流行度的排名算法存在的問題,需要考慮以下兩佔.(I)Web的動態性Web是一個動態的環境,不斷有網頁產生、更新和消亡,其連結結構也隨著不斷變化。這是毋庸置疑的,問題在於變化的速度和程度如何。如果Web上頁面更替很小很慢,那麼由於新網頁流行度和質量不匹配造成的搜索性能降低很小,沒有必要花很大的代價去尋找新的排名技術並整合到排名策略中;如果頁面更替頻繁,新頁面出現的速率很高,那麼搜索性能可提高的空間就很大。所以,Web的動態程度決定了是否有必要尋找新的排名方法。(2)搜尋引擎排名的影響當前主要的搜尋引擎回應用戶查詢的方式是返回一個URL的有序列表。如果用戶對返回結果排序的依賴比較小,那麼新網頁即使排得稍微靠後些,被訪問的可能性也不會降低太多,對搜索性能和新網頁流行度的成長不會造成太大影響;反之,如果用戶嚴重依賴結果的排名,那麼搜尋引擎就應該考慮對新網頁的排名進行一定的提升。現有研究和發明人所做的觀察實驗都表明Web頁面演化的速度相當快;搜尋引擎用戶對搜索結果的依賴很強,特別對於返回結果中排名比較靠前的,特別是前二、三十個結果最為關注,而排名靠後的頁面很難獲得點擊。鑑於Web頁面和搜尋引擎的上述特點,向用戶推薦高質量的新網頁需要考慮如下的三個問題 如何決定被推薦新頁面個數同原來搜索結果之間的推薦比例? 如何決定哪些新頁面應該被推薦? 被推薦頁面應以怎樣的方式與原排名結合併展示給搜尋引擎用戶?下面分別進行詳細的說明。1.推薦比例的確定推薦比例指的就是每十個返回結果要搭配多少個被推薦的新網頁一同展示給用戶。例如在amffling方法中,每10個返回結果,推薦一個新網頁展示給用戶,那麼 Shuffling方法的推薦比例為10%。我們認為推薦比例是影響推薦技術效果的重要因素之一。因為推薦比例直接影響被推薦頁面被用戶關注的概率。推薦比例越小,每次返回結果時被一起展示給用戶的新網頁的個數就越少。因此推薦比例至少應該大於10%,使得每次返回結果時,至少有一個Web 新頁面能夠被推薦給用戶。然而推薦比例並不是越大越好的。首先,當推薦比例過大時,會對原有搜索結果造成較大的影響,尤其是當被推薦頁面的質量不能得到保證時(如SmfTling方法採用隨機法選擇被推薦頁面),過大的推薦比例會使得整體的搜索質量下降。其次,當推薦比例過大時,頁面上呈現的結果個數過多,會造成用戶瀏覽頁面的負擔,繼而產生對推薦頁面的反感。通過實驗和計算,發明人認為15% 20%的推薦比例是比較適宜的。
2.被推薦頁面的選取被推薦頁面的選取是推薦方法的一個重要步驟。在本發明中,選取被推薦頁面的方法有以下兩種(1)隨機選取在候選集合中隨機挑選某些新頁面進行推薦。其優點在於,操作簡單,算法複雜度低。但是缺點顯而易見,那就是被推薦頁面的質量很不穩定,使得返回結果整體質量會受到影響。(2)根據潛在質量按概率挑選首先根據一定的方法估計新頁面的潛在質量(或者給出新頁面按質量從高到低的一個排序),然後根據潛在質量的高低以預先確定的概率進行選取。新頁面潛在質量估計方法的好壞對性能會有很大的影響。但無論如何,總有一些的信息(比如Web連結結構) 可以或多或少地提示一個新頁面的潛在質量的高低,總比隨機選取強。這種推薦方法的優點在於,被推薦頁面的質量相對有所保證,搜索結果的整體質量也相應得到保障,推薦頁面不會產生很大的噪音。但缺點在於需要較大的計算量,如果是需要實時推薦的話,可能會增加響應時間。在估測新頁面的潛在質量時,可用的方法包括以下三種(1)直接使用新網頁當前的I^ageRank結果(簡稱Naive方法)這種估計方法假設那些新網頁當前的I^ageRank就能夠比較好地反映新網頁將來的質量,至少能夠反映新網頁之間的相對質量。(2)兄弟頁面I^ageRank的均值(簡稱ASP方法)首先假設頁面的質量分布具有一定的局部性,具有同一父頁面或者祖先頁面的若干個頁面的質量存在一定的關聯,即頁面傾向於鏈向具有相似質量的頁面。當一個新的頁面被發布出來,如果它的兄弟網頁質量普遍高,那麼它很可能是一個高質量的網頁。這樣可以通過新頁面的兄弟頁面的質量來預測它本身的質量。基於以上假設,可以把與某一個新網頁具有相同父網頁的所有網頁的I^ageRank 的平均值作為它的質量的估計值。但是,如果個別父網頁有非常多的鏈出網頁,那麼這些網頁會對ASP值產生很大的偏移。為了消除這個影響,首先對每個網頁計算其子網頁 PageRank 的均值(theAverage of Children PageRank,簡稱 ACP 值),再通過 ACP 值計算 ASP值,以使得每個父網頁的權重等價。
權利要求
1.一種Web新網頁推薦方法,其特徵在於包括如下步驟對於新網頁,首先確定所述新網頁出現在搜尋引擎返回結果中的推薦比例;然後估測新頁面的潛在質量,根據潛在質量的高低以預定的概率選取被推薦的新網頁;將被推薦的新網頁和搜尋引擎返回結果一起展示給用戶。
2.如權利要求1所述的Web新網頁推薦方法,其特徵在於所述推薦比例為15% 20%。
3.如權利要求1所述的Web新網頁推薦方法,其特徵在於使用新網頁當前的I^geRank結果來估測新頁面的潛在質量。
4.如權利要求1所述的Web新網頁推薦方法,其特徵在於使用與某一個新網頁具有相同父網頁的所有兄弟網頁I^geRank的平均值來估測新頁面的潛在質量。
5.如權利要求4所述的Web新網頁推薦方法,其特徵在於所述平均值通過如下步驟獲得首先對每個網頁計算其子網頁I^ageRank的平均值,再通過子網頁I^ageRank的均值計算兄弟頁面I^ageRank的平均值。
6.如權利要求1所述的Web新網頁推薦方法,其特徵在於使用與某一個新網頁具有相同父網頁的所有兄弟網頁I^ageRank的中值來估測新頁面的潛在質量。
7.如權利要求1所述的Web新網頁推薦方法,其特徵在於在將被推薦的新網頁和搜尋引擎返回結果一起展示給用戶時,將被推薦的新頁面與原來搜尋引擎返回結果混合在一起,沒有區分地展示給用戶。
8.如權利要求1所述的Web新網頁推薦方法,其特徵在於在將被推薦的新網頁和搜尋引擎返回結果一起展示給用戶時,將被推薦的新頁面以顯著不同於原有搜尋引擎返回結果的方式展示給用戶。
全文摘要
本發明公開了一種Web新網頁推薦方法。在該方法中,對於新網頁,首先確定新網頁出現在搜尋引擎返回結果中的推薦比例;然後估測新頁面的潛在質量,根據潛在質量的高低以預定的概率選取被推薦的新網頁;將被推薦的新網頁和搜尋引擎返回結果一起展示給用戶。本發明可以在儘量不影響搜索結果質量的前提下,向搜尋引擎用戶推薦一些高質量的新頁面,使得它們獲得被關注和點擊的機會,在較短的時間內獲得較高的認知度,通過用戶的點擊對新頁面的質量進行自動評判,降低搜尋引擎對新頁面流行度演化過程的阻滯作用,使有價值的新頁面可以「健康」地成長。
文檔編號G06F17/30GK102236655SQ20101015597
公開日2011年11月9日 申請日期2010年4月26日 優先權日2010年4月26日
發明者張巖 申請人:北京大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀