一種面向網絡用戶的個性化文本排序及推薦方法
2023-07-06 08:59:01
一種面向網絡用戶的個性化文本排序及推薦方法
【專利摘要】本發明提供一種面向網絡用戶的個性化文本排序及推薦方法,所述個性化文本排序方法包括對於用戶的每條包括具有關鍵詞和運算符的表達式的興趣規則,執行以下步驟:1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重。2)、對於所述多個文本中的每個文本,計算該文本與該興趣規則對應的表達式樹的相似度;其中,表達式樹是根據興趣規則中包括的表達式建立的,表達式樹中的節點分為運算符節點和文本節點,文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重。3)、根據與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行排序。本發明能夠在稀疏用戶行為的場景下有效地將符合個性化需求的文本信息推薦給用戶。
【專利說明】一種面向網絡用戶的個性化文本排序及推薦方法
【技術領域】
[0001]本發明涉及信息檢索和過濾推薦【技術領域】,以及更具體地,涉及一種面向網絡用 戶的個性化文本排序及推薦方法。
【背景技術】
[0002] 網際網路時刻產生著海量的信息,新聞、論壇、博客等媒體不停地生成供用戶瀏覽的 網頁,這些網頁中承載了各種文本信息。一方面,網絡信息的豐富性與透明性為用戶提供 了前所未有的便利;另一方面,由於信息的數量過於龐大,因此給用戶查詢帶來了很大的困 難,其中大量的用戶不感興趣的信息或者垃圾信息將很多有意義的信息淹沒。目前,很多網 站通過將熱門信息推薦給用戶來提高服務質量。然而,熱門信息的量仍然非常大,並且所有 用戶接收到的信息是完全相同的。在現實中,由於不同的人對信息種類的需求不同,用戶希 望能夠將有限的精力用在閱讀自己關心的內容上,因此,按照用戶的興趣為不同用戶提供 不同的個性化文本,將用戶真正關心和感興趣的內容排在文本列表的前面推薦給用戶,能 夠極大地滿足用戶閱讀的效率和滿意度。
[0003] 當前,如何將個性化文本進行排序並推薦給用戶已受到廣泛的關注。其中一類是 基於內容過濾的方法,該方法將文本與用戶收藏的文本計算相似度,如果相似度大於某一 設定閾值,就將該文本推薦給用戶,其中被推薦的文本按照相似度來排序呈現。然而,這類 方法的相似度計算比較費時,同時用戶收藏的文本的質量、數量以及時效性也會制約相似 度計算的效果,因此採用這類方法對文本數量和質量的要求較高。另一類是協同過濾方法, 該方法根據最近鄰用戶的行為來推斷用戶的興趣。由於這類方法需要有大量的用戶群體, 因此對用戶數量以及用戶之間關係的要求較高。此外需要處理的信息往往是最新的,而此 時很少有近鄰用戶能夠提供有效的信息。現有方法中,可採用興趣規則來表示用戶的行為 興趣,根據規則構建trie樹來匹配文本,並且基於匹配結果進行文本排序以用於推薦。這 種方法容易推廣應用,但在計算排序時沒有考慮到規則中操作符的影響,且基於文本字符 串與trie樹的匹配也容易造成誤配。
[0004] 綜上所述,在用戶數量較小的個性化文本排序應用場景下,採用協同過濾的方法 是不適用的,而基於內容過濾的方法對用戶收藏的文本數量和質量的要求較高。因此,針對 稀疏用戶行為,如何實現有效的個性化文本排序及推薦是當前亟待解決的問題。其中,稀疏 用戶行為指的是用戶數量小(即用戶稀疏、難以尋找近鄰用戶)或者用戶行為稀疏(即沒 有大量的瀏覽、收藏等可以揭示用戶行為興趣的用戶行為)。
【發明內容】
[0005] 針對上述問題,本發明提供一種面向網絡用戶的個性化文本排序方法。對於用戶 的每條包括具有關鍵詞和運算符的表達式的興趣規則,所述方法包括以下步驟:
[0006] 步驟1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重;
[0007] 步驟2)、對於所述多個文本中的每個文本,計算該文本與該興趣規則對應的表達 式樹的相似度;其中,表達式樹是根據該興趣規則中包括的表達式建立的,表達式樹中的節 點分為運算符節點和文本節點,文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重;
[0008] 步驟3)、根據與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行 排序。
[0009] 上述方法中,步驟2)包括:
[0010] 對於所述多個文本中的每個文本,後序遍歷與該興趣規則對應的表達式樹,在遍 歷時根據如下方式計算每個節點的相似度分值:
[0011] 如果該節點N是文本節點,則其相似度分值計算如下:
[0012] f (N) = g(T(N))
[0013] 其中,T (N)表示節點N中的關鍵詞,g (T (N))表示關鍵詞τ (N)在該興趣規則中的 權重;
[0014] 如果該節點N是"&"運算符節點,則其相似度分值計算如下:
[0015]
【權利要求】
1. 一種面向網絡用戶的個性化文本排序方法,對於用戶的每條包括具有關鍵詞和運算 符的表達式的興趣規則,所述方法包括以下步驟: 步驟1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重; 步驟2)、對於所述多個文本中的每個文本,計算該文本與該興趣規則對應的表達式樹 的相似度;其中,表達式樹是根據該興趣規則中包括的表達式建立的,表達式樹中的節點分 為運算符節點和文本節點,文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重; 步驟3)、根據與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行排序。
2. 根據權利要求1所述的方法,其中,步驟2)包括: 對於所述多個文本中的每個文本,後序遍歷與該興趣規則對應的表達式樹,在遍歷時 根據如下方式計算每個節點的相似度分值: 如果該節點N是文本節點,則其相似度分值計算如下: f(N) = g(T(N)) 其中,T (N)表示節點N中的關鍵詞,g (T (N))表示關鍵詞T (N)在該興趣規則中的權重; 如果該節點N是"&"運算符節點,則其相似度分值計算如下: X/P(7V;.)(l-w(r(iV(r + Σ /P(iV,.) I" /(Λ,)= 1-包-^-己出- \ 卜1 J 其中,心...,乂表示節點N的子節點並且前m個是文本節點,p為正整數,T(Ni)表示 節點隊中的關鍵詞,《(以隊))表示關鍵詞T(Ni)在該文本中的權重,其中如果T(Ni)不是該 文本中的關鍵詞,則w(T(Ni) = 0 ; 如果該節點N是" | "運算符節點,則其相似度分值計算如下: (fn κ ? TJfP(N,)wp(T(Nl))+ £ fiN,) f{N)= ^τ^- Σ跑) V J 其中,&,. . .,NK表示節點N的子節點且前m個是文本節點,並且其中前m個是文本節 佔. 如果該節點N是運算符節點,則其相似度分值計算如下: f(N) = 1-峨) 其中,K為節點N的子節點; 在得到根節點的相似度分值後,將該根節點的相似度分值作為該文本與所述表達式樹 的相似度。
3. 根據權利要求2所述的方法,其中,p = 2。
4. 根據權利要求1-3中任何一個所述的方法,其中,將關鍵詞在興趣規則中出現的次 數除以該興趣規則中所有關鍵詞出現次數的最大值,來得到該關鍵詞在該興趣規則中的權 重。
5. 根據權利要求1-3中任何一個所述的方法,其中,在步驟2)中還包括:在得到該文 本與所述表達式樹的相似度後修正該相似度。
6. 根據權利要求5所述的方法,其中,修正該文本與所述表達式樹的相似度包括: 步驟a)、得到該文本的標題與所述表達式樹中的每個關鍵詞的最長公共子串以及該最 長公共子串的長度; 步驟b)、根據如下方式修正相似度: 如果相似度小於k並且所有最長公共子串的長度都小於η個漢字,則令該相似度為0, 其中k為小於1的正數且η為正整數; 如果相似度大於或等於k並且所有最長公共子串的長度都小於η個漢字,則將相似度 乘以小於1的正數1 ; 如果相似度小於k並且存在長度大於或等於η個漢字的最長公共子串,則在該文本的 關鍵詞中查找該最長公共子串;如果找到,則將具有該最長公共子串的該文本的關健詞替 換為對應的所述表達式樹中的關鍵詞;如果未找,則在該文本的關健詞中添加對應的所述 表達式樹中的關鍵詞,並且該關鍵詞在該文本中的權重為該文本的關鍵詞的權重的中值; 重新後序遍歷所述表達式樹,用根節點的相似度分值作為該文本與所述表達式樹的相似 度; 如果相似度大於或等於k並且存在長度大於或等於η個漢字的最長公共子串,則不修 改相似度。
7. 根據權利要求6所述的方法,其中,k = 0. 0001,η = 2, 1 = 0. 1。
8. 根據權利要求1-3中任何一個所述的方法,其中,在步驟2)之前還包括: 根據該興趣規則中包括的表達式建立對應的表達式樹的步驟。
9. 根據權利要求1-3中任何一個所述的方法,步驟1)中,在根據興趣規則建立對應的 表達式樹之前還要將該興趣規則中的空格替換為邏輯與運算符,以及將沒有運算符連接的 子句採用邏輯與運算符進行連接。
10. 根據權利要求1-3中任何一個所述的方法,在步驟1)中,對於每個文本所提取的關 鍵詞個數為10-30中的一個整數。
11. 一種面向網絡用戶的個性化文本推薦方法,包括: 步驟Α)、根據用戶的興趣規則請求,獲得採用如權利要求1-10中任何一個所述的排序 方法得到的與該興趣規則對應的排序的文本; 步驟Β)、將該排序的文本推薦給用戶。
【文檔編號】G06F17/30GK104298732SQ201410514028
【公開日】2015年1月21日 申請日期:2014年9月29日 優先權日:2014年9月29日
【發明者】程學旗, 杜慧, 張瑾, 黃康平, 餘智華, 劉悅, 劉瑋 申請人:中國科學院計算技術研究所