一種獲取網頁和用戶個性化特徵的方法
2023-09-22 23:09:25
一種獲取網頁和用戶個性化特徵的方法
【專利摘要】本發明提出了一種獲取網頁和用戶個性化特徵的方法。該方法首先在用戶提交的搜索查詢中提取關鍵詞,並由關鍵詞組成詞序列,然後根據用戶在搜索結果上點擊網頁的信號,應用特徵傳播算法更新被點擊網頁和詞序列的特徵。由於預先設置了部分網頁和詞序列的個性化特徵,因此特徵傳播算法能將特徵在網頁和詞序列之間進行擴散傳播。該方法解決了網頁和用戶個性化特徵的大範圍自動獲取和實時更新問題。該方法能夠根據用戶的個性化特徵來計算網頁的個性化特徵,進而實現了個性化的網頁檢索和排序。該方法提高了搜索結果的相關性和準確性,解決了在現有搜尋引擎中存在的搜索結果單一性問題。
【專利說明】一種獲取網頁和用戶個性化特徵的方法
【技術領域】
[0001] 本發明涉及網際網路領域,具體來說涉及一種獲取網頁和用戶個性化特徵的方法。
【背景技術】
[0002] 搜尋引擎的工作原理是從網際網路提取各個網站的信息,建立起資料庫,並檢索與 用戶查詢條件相匹配的記錄,按一定的排列順序返回搜索結果。雖然現代搜尋引擎已經取 得了巨大的成功,但是,它們也存在如下的缺點。
[0003] 第一是搜索結果的單一性問題。現有搜尋引擎假設不同的用戶對同一個網頁重要 程度的評價是相同的,因此,不同的用戶在同一個搜尋引擎中輸入相同的搜索關鍵詞,他們 所得到的搜索結果相同。而實際上不同領域內的用戶對同一個網頁的重要程度的評價通常 是不同的,而現有搜尋引擎沒有考慮到用戶的個體化差異。第二是現有搜尋引擎的信息服 務方式是被動的。搜尋引擎只有當用戶提交了搜索查詢後,才能提供信息服務,而不能根據 用戶的個性化特徵,主動推送與用戶個性化特徵相關的網頁信息。第三是現有搜尋引擎的 信息匹配模式過於簡單,導致搜索結果中含有大量的相關度低或者根本不相關的網頁。
[0004] 解決上述問題的一個有效方法是實現個性化搜索,而個性化搜索的關鍵是獲取網 頁和用戶的個性化特徵。通過網頁和用戶的個性化特徵,就能夠對現有搜尋引擎提供的搜 索結果進行二次過濾和篩選,進而提高搜索結果的相關性和準確性。
【發明內容】
[0005] 鑑於上述現有技術存在的問題,本發明的目的在於提供一種獲取網頁和用戶個性 化特徵的方法,並且根據所述個性化特徵來幫助用戶過濾和篩選其在網際網路上獲得的信 息。
[0006] 根據以上所述的目的,本發明提出了一種獲取網頁和用戶個性化特徵的方法,其 特徵在於,所述方法包括在接入網際網路的伺服器中執行如下步驟:
[0007] S1.獲取並存儲由用戶標識組成的用戶集U,由網頁標識組成的網頁集D,由詞序 列標識組成的詞序列集Q,以及由特徵標識組成的特徵集K ;
[0008] S2.為所述網頁集D中的多個網頁設置參數向量初始值,以及為所述詞序列集Q中 的多個詞序列設置參數向量初始值,參數向量初始值預設為零向量;
[0009] S3.接收任意用戶m(m e U)提交的搜索查詢,並在所述搜索查詢中提取關鍵詞,以 及根據所述關鍵詞合成詞序列s(s e Q);
[0010] S4.根據所述搜索查詢,獲取一組網頁H,並將其發送給所述用戶m;
[0011] S5.接收所述用戶m點擊所述一組網頁Η中的網頁η的信號;
[0012] S6.讀取所述網頁η的參數向量(dwnl,dwn2,. . .,dwnk,. . .,dWjJ,其中所述dWi表 示所述網頁η與特徵k(k e K)的相關度;
[0013] S7.讀取所述詞序列s的參數向量(qwsl,qws2, · · ·,qwsk,· · ·,qwsI),其中所述qwsk 表示所述詞序列s與特徵k(k e K)的相關度;
[0014] S8.應用如下特徵傳播算法,更新所述網頁η和所述詞序列s的參數向量:設更新 後所述網頁η的參數向量為(chC,dw n2% . . .,chC,. . .,ch〇,更新後所述詞序列s的參 數向量為(qwsl% qws2% · · · , qwsk% · · · , qwsI*),則所述算法包括:
【權利要求】
1. 一種獲取網頁和用戶個性化特徵的方法,其特徵在於,所述方法包括在接入網際網路 的伺服器中執行如下步驟:
51. 獲取並存儲由用戶標識組成的用戶集U,由網頁標識組成的網頁集D,由詞序列標 識組成的詞序列集Q,以及由特徵標識組成的特徵集K ;
52. 為所述網頁集D中的多個網頁設置參數向量初始值,以及為所述詞序列集Q中的多 個詞序列設置參數向量初始值,參數向量初始值預設為零向量;
53. 接收任意用戶m(m e U)提交的搜索查詢,並在所述搜索查詢中提取關鍵詞,以及根 據所述關鍵詞合成詞序列s(s e Q);
54. 根據所述搜索查詢,獲取一組網頁H,並將其發送給所述用戶m ;
55. 接收所述用戶m點擊所述一組網頁Η中的網頁η的信號;
56. 讀取所述網頁η的參數向量(dwnl,(kf . . . , dwnk,. . .,dWjJ,其中所述dWi表示所 述網頁η與特徵k(k e K)的相關度;
57. 讀取所述詞序列s的參數向量(qwsl,qws2, · · ·,qwsk,· · ·,qwsI),其中所述qwsk表示 所述詞序列s與特徵k(k e K)的相關度;
58. 應用如下特徵傳播算法,更新所述網頁η和所述詞序列s的參數向量:設更新後所 述網頁η的參數向量為(dwnl% dwn2% . . .,dw:,. . .,dw:),更新後所述詞序列s的參數向 量為(qwsi*,qws2*,· · ·,qwj,· · ·,qwsi*),則所述算法包括:
(對於每個 (對於每個 返回所述步驟S3; 其中,函數和f2都是增函數,所述λ i (s,n,k)為在所述特徵k下所述詞序列s對所 述網頁η的影響係數,所述λ 2 (n,s,k)為在所述特徵k下所述網頁η對所述詞序列s的影 響係數,且
,所述〇1^是由所述詞序列s的參數向量(qwsl,qw s2,..., qwsk,. . .,Φ〇中數值最大的Qs個分量所對應的特徵組成的集合,所述DKn是由所述網頁η 的參數向量(dwnl,dwn2. . .,dwnk,. . .,dWi)中數值最大的0"個分量所對應的特徵組成的集 合,且所述Qs和Dn為預設參數。
2. 根據權利要求1所述的方法,其特徵在於,在所述方法的一個應用實例中,所述特徵 傳播算法具體包括:
(對於每個 (對於每個 其中,函數gjqwj和g2(dwnk)均為增函數。
3. 根據權利要求2所述的方法,其特徵在於,在所述應用實例中,所述的
和
,其中σ i和σ 2為 預設正常數,所述q(k)和所述d(k)是與特徵k相關的預設正常數。
4. 根據權利要求1所述的方法,其特徵在於,所述方法還包括在執行所述特徵傳播算 法達到預設次數h後,在每個特徵k e K下,對第k個詞序列列向量(qwlk,qw2k,. . .,qwsk)進 行規範化處理的步驟,以及在執行所述特徵傳播算法達到預設次數〖2後,在每個特徵k e K 下,對第k個網頁列向量(dwlk, dw2k, . . . , dwNk)進行規範化處理的步驟。
5. 根據權利要求1所述的方法,其特徵在於,所述λ i (s,n,k)和所述λ 2 (n,s,k)分 別是所述網頁n的參數向量和所述詞序列s的參數向量的相似度的增函數。
6. 根據權利要求1所述的方法,其特徵在於,所述Ajs,n,k)正比於bjk),所述 A2(n,s,k)正比於b2(k),其中所述匕㈨和132(1〇是與特徵k相關的預設正常數。
7. 根據權利要求1所述的方法,其特徵在於,所述λΑ,ηΛ)和所述A2(n,s,k)分別 是所述用戶m點擊所述網頁集D的頻次的減函數,所述λ^&η,k)和所述λ 2(η,s,k)分 別是所述網頁η被訪問頻次的減函數。
8. 根據權利要求1所述的方法,其特徵在於,在所述方法的一個應用實例中,所述步驟 S4具體包括如下的個性化搜索的步驟:
541. 根據所述搜索查詢,在所述伺服器中檢索到一組網頁Ε ;
542. 讀取所述用戶m設置的查詢向量;
543. 根據所述查詢向量和所述一組網頁E中的每個網頁的參數向量,計算所述一組網 頁E中的每個網頁的個性化排序值;
544. 根據所述個性化排序值,對所述一組網頁E進行排序,並且根據排序結果選擇設 定數量的網頁,組成一組網頁Η ;
545. 將所述一組網頁Η發送給所述用戶m。
9. 根據權利要求1所述的方法,其特徵在於,所述方法還包括在所述步驟S2中為所述 用戶集U中的多個用戶設置參數向量初始值的步驟,在所述步驟S7中讀取所述用戶m的參 數向量(uw ml,uwm2, . . .,uwmk,. . .,uwmI)的步驟,以及在所述步驟S8中在返回所述步驟S3 之前,更新所述用戶m和所述詞序列s的參數向量的步驟:
(對於每個 (對於每彳 其中,所述uwmk表示所述用戶m與特徵k(k e K)的相關度,所述UW:是更新後的所述 uwmk,所述qwslT是更新後的所述qwsk%所述λ 3 (s,m,k)為在所述特徵k下所述詞序列s對 所述用戶m的影響係數,所述A 4(m,s,k)為在所述特徵k下所述用戶m對所述詞序列s的 影響係數,所述g 3(qwsk#)和g4(uwmk)都是增函數,所述UK m是由所述用戶m的參數向量(uwml, uwm2,. . .,uwmk,. . .,uwmI)中數值最大的Um個分量所對應的特徵組成的集合,所述Um為預設 常數。
10. 根據權利要求9所述的方法,其特徵在於,所述方法還包括在執行所述特徵傳播算 法達到預設次數t3後,在每個特徵k e K下,對第k個用戶列向量(uwlk,uw2k,...,uwg)進 行規範化處理的步驟。
【文檔編號】G06F17/30GK104050203SQ201310103667
【公開日】2014年9月17日 申請日期:2013年3月17日 優先權日:2013年3月17日
【發明者】祁勇 申請人:祁勇