新四季網

一種獲取網頁和用戶個性化特徵的方法

2023-09-22 23:09:25

一種獲取網頁和用戶個性化特徵的方法
【專利摘要】本發明提出了一種獲取網頁和用戶個性化特徵的方法。該方法首先在用戶提交的搜索查詢中提取關鍵詞,並由關鍵詞組成詞序列,然後根據用戶在搜索結果上點擊網頁的信號,應用特徵傳播算法更新被點擊網頁和詞序列的特徵。由於預先設置了部分網頁和詞序列的個性化特徵,因此特徵傳播算法能將特徵在網頁和詞序列之間進行擴散傳播。該方法解決了網頁和用戶個性化特徵的大範圍自動獲取和實時更新問題。該方法能夠根據用戶的個性化特徵來計算網頁的個性化特徵,進而實現了個性化的網頁檢索和排序。該方法提高了搜索結果的相關性和準確性,解決了在現有搜尋引擎中存在的搜索結果單一性問題。
【專利說明】一種獲取網頁和用戶個性化特徵的方法

【技術領域】
[0001] 本發明涉及網際網路領域,具體來說涉及一種獲取網頁和用戶個性化特徵的方法。

【背景技術】
[0002] 搜尋引擎的工作原理是從網際網路提取各個網站的信息,建立起資料庫,並檢索與 用戶查詢條件相匹配的記錄,按一定的排列順序返回搜索結果。雖然現代搜尋引擎已經取 得了巨大的成功,但是,它們也存在如下的缺點。
[0003] 第一是搜索結果的單一性問題。現有搜尋引擎假設不同的用戶對同一個網頁重要 程度的評價是相同的,因此,不同的用戶在同一個搜尋引擎中輸入相同的搜索關鍵詞,他們 所得到的搜索結果相同。而實際上不同領域內的用戶對同一個網頁的重要程度的評價通常 是不同的,而現有搜尋引擎沒有考慮到用戶的個體化差異。第二是現有搜尋引擎的信息服 務方式是被動的。搜尋引擎只有當用戶提交了搜索查詢後,才能提供信息服務,而不能根據 用戶的個性化特徵,主動推送與用戶個性化特徵相關的網頁信息。第三是現有搜尋引擎的 信息匹配模式過於簡單,導致搜索結果中含有大量的相關度低或者根本不相關的網頁。
[0004] 解決上述問題的一個有效方法是實現個性化搜索,而個性化搜索的關鍵是獲取網 頁和用戶的個性化特徵。通過網頁和用戶的個性化特徵,就能夠對現有搜尋引擎提供的搜 索結果進行二次過濾和篩選,進而提高搜索結果的相關性和準確性。


【發明內容】

[0005] 鑑於上述現有技術存在的問題,本發明的目的在於提供一種獲取網頁和用戶個性 化特徵的方法,並且根據所述個性化特徵來幫助用戶過濾和篩選其在網際網路上獲得的信 息。
[0006] 根據以上所述的目的,本發明提出了一種獲取網頁和用戶個性化特徵的方法,其 特徵在於,所述方法包括在接入網際網路的伺服器中執行如下步驟:
[0007] S1.獲取並存儲由用戶標識組成的用戶集U,由網頁標識組成的網頁集D,由詞序 列標識組成的詞序列集Q,以及由特徵標識組成的特徵集K ;
[0008] S2.為所述網頁集D中的多個網頁設置參數向量初始值,以及為所述詞序列集Q中 的多個詞序列設置參數向量初始值,參數向量初始值預設為零向量;
[0009] S3.接收任意用戶m(m e U)提交的搜索查詢,並在所述搜索查詢中提取關鍵詞,以 及根據所述關鍵詞合成詞序列s(s e Q);
[0010] S4.根據所述搜索查詢,獲取一組網頁H,並將其發送給所述用戶m;
[0011] S5.接收所述用戶m點擊所述一組網頁Η中的網頁η的信號;
[0012] S6.讀取所述網頁η的參數向量(dwnl,dwn2,. . .,dwnk,. . .,dWjJ,其中所述dWi表 示所述網頁η與特徵k(k e K)的相關度;
[0013] S7.讀取所述詞序列s的參數向量(qwsl,qws2, · · ·,qwsk,· · ·,qwsI),其中所述qwsk 表示所述詞序列s與特徵k(k e K)的相關度;
[0014] S8.應用如下特徵傳播算法,更新所述網頁η和所述詞序列s的參數向量:設更新 後所述網頁η的參數向量為(chC,dw n2% . . .,chC,. . .,ch〇,更新後所述詞序列s的參 數向量為(qwsl% qws2% · · · , qwsk% · · · , qwsI*),則所述算法包括:

【權利要求】
1. 一種獲取網頁和用戶個性化特徵的方法,其特徵在於,所述方法包括在接入網際網路 的伺服器中執行如下步驟:
51. 獲取並存儲由用戶標識組成的用戶集U,由網頁標識組成的網頁集D,由詞序列標 識組成的詞序列集Q,以及由特徵標識組成的特徵集K ;
52. 為所述網頁集D中的多個網頁設置參數向量初始值,以及為所述詞序列集Q中的多 個詞序列設置參數向量初始值,參數向量初始值預設為零向量;
53. 接收任意用戶m(m e U)提交的搜索查詢,並在所述搜索查詢中提取關鍵詞,以及根 據所述關鍵詞合成詞序列s(s e Q);
54. 根據所述搜索查詢,獲取一組網頁H,並將其發送給所述用戶m ;
55. 接收所述用戶m點擊所述一組網頁Η中的網頁η的信號;
56. 讀取所述網頁η的參數向量(dwnl,(kf . . . , dwnk,. . .,dWjJ,其中所述dWi表示所 述網頁η與特徵k(k e K)的相關度;
57. 讀取所述詞序列s的參數向量(qwsl,qws2, · · ·,qwsk,· · ·,qwsI),其中所述qwsk表示 所述詞序列s與特徵k(k e K)的相關度;
58. 應用如下特徵傳播算法,更新所述網頁η和所述詞序列s的參數向量:設更新後所 述網頁η的參數向量為(dwnl% dwn2% . . .,dw:,. . .,dw:),更新後所述詞序列s的參數向 量為(qwsi*,qws2*,· · ·,qwj,· · ·,qwsi*),則所述算法包括:

(對於每個 (對於每個 返回所述步驟S3; 其中,函數和f2都是增函數,所述λ i (s,n,k)為在所述特徵k下所述詞序列s對所 述網頁η的影響係數,所述λ 2 (n,s,k)為在所述特徵k下所述網頁η對所述詞序列s的影 響係數,且
,所述〇1^是由所述詞序列s的參數向量(qwsl,qw s2,..., qwsk,. . .,Φ〇中數值最大的Qs個分量所對應的特徵組成的集合,所述DKn是由所述網頁η 的參數向量(dwnl,dwn2. . .,dwnk,. . .,dWi)中數值最大的0"個分量所對應的特徵組成的集 合,且所述Qs和Dn為預設參數。
2. 根據權利要求1所述的方法,其特徵在於,在所述方法的一個應用實例中,所述特徵 傳播算法具體包括:
(對於每個 (對於每個 其中,函數gjqwj和g2(dwnk)均為增函數。
3. 根據權利要求2所述的方法,其特徵在於,在所述應用實例中,所述的


,其中σ i和σ 2為 預設正常數,所述q(k)和所述d(k)是與特徵k相關的預設正常數。
4. 根據權利要求1所述的方法,其特徵在於,所述方法還包括在執行所述特徵傳播算 法達到預設次數h後,在每個特徵k e K下,對第k個詞序列列向量(qwlk,qw2k,. . .,qwsk)進 行規範化處理的步驟,以及在執行所述特徵傳播算法達到預設次數〖2後,在每個特徵k e K 下,對第k個網頁列向量(dwlk, dw2k, . . . , dwNk)進行規範化處理的步驟。
5. 根據權利要求1所述的方法,其特徵在於,所述λ i (s,n,k)和所述λ 2 (n,s,k)分 別是所述網頁n的參數向量和所述詞序列s的參數向量的相似度的增函數。
6. 根據權利要求1所述的方法,其特徵在於,所述Ajs,n,k)正比於bjk),所述 A2(n,s,k)正比於b2(k),其中所述匕㈨和132(1〇是與特徵k相關的預設正常數。
7. 根據權利要求1所述的方法,其特徵在於,所述λΑ,ηΛ)和所述A2(n,s,k)分別 是所述用戶m點擊所述網頁集D的頻次的減函數,所述λ^&η,k)和所述λ 2(η,s,k)分 別是所述網頁η被訪問頻次的減函數。
8. 根據權利要求1所述的方法,其特徵在於,在所述方法的一個應用實例中,所述步驟 S4具體包括如下的個性化搜索的步驟:
541. 根據所述搜索查詢,在所述伺服器中檢索到一組網頁Ε ;
542. 讀取所述用戶m設置的查詢向量;
543. 根據所述查詢向量和所述一組網頁E中的每個網頁的參數向量,計算所述一組網 頁E中的每個網頁的個性化排序值;
544. 根據所述個性化排序值,對所述一組網頁E進行排序,並且根據排序結果選擇設 定數量的網頁,組成一組網頁Η ;
545. 將所述一組網頁Η發送給所述用戶m。
9. 根據權利要求1所述的方法,其特徵在於,所述方法還包括在所述步驟S2中為所述 用戶集U中的多個用戶設置參數向量初始值的步驟,在所述步驟S7中讀取所述用戶m的參 數向量(uw ml,uwm2, . . .,uwmk,. . .,uwmI)的步驟,以及在所述步驟S8中在返回所述步驟S3 之前,更新所述用戶m和所述詞序列s的參數向量的步驟:

(對於每個 (對於每彳 其中,所述uwmk表示所述用戶m與特徵k(k e K)的相關度,所述UW:是更新後的所述 uwmk,所述qwslT是更新後的所述qwsk%所述λ 3 (s,m,k)為在所述特徵k下所述詞序列s對 所述用戶m的影響係數,所述A 4(m,s,k)為在所述特徵k下所述用戶m對所述詞序列s的 影響係數,所述g 3(qwsk#)和g4(uwmk)都是增函數,所述UK m是由所述用戶m的參數向量(uwml, uwm2,. . .,uwmk,. . .,uwmI)中數值最大的Um個分量所對應的特徵組成的集合,所述Um為預設 常數。
10. 根據權利要求9所述的方法,其特徵在於,所述方法還包括在執行所述特徵傳播算 法達到預設次數t3後,在每個特徵k e K下,對第k個用戶列向量(uwlk,uw2k,...,uwg)進 行規範化處理的步驟。
【文檔編號】G06F17/30GK104050203SQ201310103667
【公開日】2014年9月17日 申請日期:2013年3月17日 優先權日:2013年3月17日
【發明者】祁勇 申請人:祁勇

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀