一種面向網絡用戶的個性化文本排序及推薦方法

2023-07-06 08:59:01 4

一種面向網絡用戶的個性化文本排序及推薦方法
【專利摘要】本發明提供一種面向網絡用戶的個性化文本排序及推薦方法，所述個性化文本排序方法包括對於用戶的每條包括具有關鍵詞和運算符的表達式的興趣規則，執行以下步驟：1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重。2)、對於所述多個文本中的每個文本，計算該文本與該興趣規則對應的表達式樹的相似度；其中，表達式樹是根據興趣規則中包括的表達式建立的，表達式樹中的節點分為運算符節點和文本節點，文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重。3)、根據與所述表達式樹的相似度大小，對所述多個文本中的每個文本進行排序。本發明能夠在稀疏用戶行為的場景下有效地將符合個性化需求的文本信息推薦給用戶。
【專利說明】一種面向網絡用戶的個性化文本排序及推薦方法

【技術領域】
[0001]本發明涉及信息檢索和過濾推薦【技術領域】，以及更具體地，涉及一種面向網絡用戶的個性化文本排序及推薦方法。

【背景技術】
[0002] 網際網路時刻產生著海量的信息，新聞、論壇、博客等媒體不停地生成供用戶瀏覽的網頁，這些網頁中承載了各種文本信息。一方面，網絡信息的豐富性與透明性為用戶提供了前所未有的便利；另一方面，由於信息的數量過於龐大，因此給用戶查詢帶來了很大的困難，其中大量的用戶不感興趣的信息或者垃圾信息將很多有意義的信息淹沒。目前，很多網站通過將熱門信息推薦給用戶來提高服務質量。然而，熱門信息的量仍然非常大，並且所有用戶接收到的信息是完全相同的。在現實中，由於不同的人對信息種類的需求不同，用戶希望能夠將有限的精力用在閱讀自己關心的內容上，因此，按照用戶的興趣為不同用戶提供不同的個性化文本，將用戶真正關心和感興趣的內容排在文本列表的前面推薦給用戶，能夠極大地滿足用戶閱讀的效率和滿意度。
[0003] 當前，如何將個性化文本進行排序並推薦給用戶已受到廣泛的關注。其中一類是基於內容過濾的方法，該方法將文本與用戶收藏的文本計算相似度，如果相似度大於某一設定閾值，就將該文本推薦給用戶，其中被推薦的文本按照相似度來排序呈現。然而，這類方法的相似度計算比較費時，同時用戶收藏的文本的質量、數量以及時效性也會制約相似度計算的效果，因此採用這類方法對文本數量和質量的要求較高。另一類是協同過濾方法，該方法根據最近鄰用戶的行為來推斷用戶的興趣。由於這類方法需要有大量的用戶群體，因此對用戶數量以及用戶之間關係的要求較高。此外需要處理的信息往往是最新的，而此時很少有近鄰用戶能夠提供有效的信息。現有方法中，可採用興趣規則來表示用戶的行為興趣，根據規則構建trie樹來匹配文本，並且基於匹配結果進行文本排序以用於推薦。這種方法容易推廣應用，但在計算排序時沒有考慮到規則中操作符的影響，且基於文本字符串與trie樹的匹配也容易造成誤配。
[0004] 綜上所述，在用戶數量較小的個性化文本排序應用場景下，採用協同過濾的方法是不適用的，而基於內容過濾的方法對用戶收藏的文本數量和質量的要求較高。因此，針對稀疏用戶行為，如何實現有效的個性化文本排序及推薦是當前亟待解決的問題。其中，稀疏用戶行為指的是用戶數量小（即用戶稀疏、難以尋找近鄰用戶）或者用戶行為稀疏（即沒有大量的瀏覽、收藏等可以揭示用戶行為興趣的用戶行為）。

【發明內容】

[0005] 針對上述問題，本發明提供一種面向網絡用戶的個性化文本排序方法。對於用戶的每條包括具有關鍵詞和運算符的表達式的興趣規則，所述方法包括以下步驟：
[0006] 步驟1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重；
[0007] 步驟2)、對於所述多個文本中的每個文本，計算該文本與該興趣規則對應的表達式樹的相似度；其中，表達式樹是根據該興趣規則中包括的表達式建立的，表達式樹中的節點分為運算符節點和文本節點，文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重；
[0008] 步驟3)、根據與所述表達式樹的相似度大小，對所述多個文本中的每個文本進行排序。
[0009] 上述方法中，步驟2)包括：
[0010] 對於所述多個文本中的每個文本，後序遍歷與該興趣規則對應的表達式樹，在遍歷時根據如下方式計算每個節點的相似度分值：
[0011] 如果該節點N是文本節點，則其相似度分值計算如下：
[0012] f (N) = g(T(N))
[0013] 其中，T (N)表示節點N中的關鍵詞，g (T (N))表示關鍵詞τ (N)在該興趣規則中的權重；
[0014] 如果該節點N是"&"運算符節點，則其相似度分值計算如下：
[0015]

【權利要求】
1. 一種面向網絡用戶的個性化文本排序方法，對於用戶的每條包括具有關鍵詞和運算符的表達式的興趣規則，所述方法包括以下步驟：步驟1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重；步驟2)、對於所述多個文本中的每個文本，計算該文本與該興趣規則對應的表達式樹的相似度；其中，表達式樹是根據該興趣規則中包括的表達式建立的，表達式樹中的節點分為運算符節點和文本節點，文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重；步驟3)、根據與所述表達式樹的相似度大小，對所述多個文本中的每個文本進行排序。
2. 根據權利要求1所述的方法，其中，步驟2)包括：對於所述多個文本中的每個文本，後序遍歷與該興趣規則對應的表達式樹，在遍歷時根據如下方式計算每個節點的相似度分值：如果該節點N是文本節點，則其相似度分值計算如下： f(N) = g(T(N)) 其中，T (N)表示節點N中的關鍵詞，g (T (N))表示關鍵詞T (N)在該興趣規則中的權重；如果該節點N是"&"運算符節點，則其相似度分值計算如下： X/P(7V;.)(l-w(r(iV(r + Σ /P(iV,.) I" /(Λ，）= 1-包-^-己出- \ 卜1 J 其中，心...，乂表示節點N的子節點並且前m個是文本節點，p為正整數，T(Ni)表示節點隊中的關鍵詞，《(以隊)）表示關鍵詞T(Ni)在該文本中的權重，其中如果T(Ni)不是該文本中的關鍵詞，則w(T(Ni) = 0 ; 如果該節點N是" | "運算符節點，則其相似度分值計算如下： (fn κ ? TJfP(N,)wp(T(Nl))+ ￡ fiN,) f{N)= ^τ^- Σ跑） V J 其中，&，. . .，NK表示節點N的子節點且前m個是文本節點，並且其中前m個是文本節佔. 如果該節點N是運算符節點，則其相似度分值計算如下： f(N) = 1-峨）其中，K為節點N的子節點；在得到根節點的相似度分值後，將該根節點的相似度分值作為該文本與所述表達式樹的相似度。
3. 根據權利要求2所述的方法，其中，p = 2。
4. 根據權利要求1-3中任何一個所述的方法，其中，將關鍵詞在興趣規則中出現的次數除以該興趣規則中所有關鍵詞出現次數的最大值，來得到該關鍵詞在該興趣規則中的權重。
5. 根據權利要求1-3中任何一個所述的方法，其中，在步驟2)中還包括：在得到該文本與所述表達式樹的相似度後修正該相似度。
6. 根據權利要求5所述的方法，其中，修正該文本與所述表達式樹的相似度包括：步驟a)、得到該文本的標題與所述表達式樹中的每個關鍵詞的最長公共子串以及該最長公共子串的長度；步驟b)、根據如下方式修正相似度：如果相似度小於k並且所有最長公共子串的長度都小於η個漢字，則令該相似度為0，其中k為小於1的正數且η為正整數；如果相似度大於或等於k並且所有最長公共子串的長度都小於η個漢字，則將相似度乘以小於1的正數1 ; 如果相似度小於k並且存在長度大於或等於η個漢字的最長公共子串，則在該文本的關鍵詞中查找該最長公共子串；如果找到，則將具有該最長公共子串的該文本的關健詞替換為對應的所述表達式樹中的關鍵詞；如果未找，則在該文本的關健詞中添加對應的所述表達式樹中的關鍵詞，並且該關鍵詞在該文本中的權重為該文本的關鍵詞的權重的中值；重新後序遍歷所述表達式樹，用根節點的相似度分值作為該文本與所述表達式樹的相似度；如果相似度大於或等於k並且存在長度大於或等於η個漢字的最長公共子串，則不修改相似度。
7. 根據權利要求6所述的方法，其中，k = 0. 0001，η = 2, 1 = 0. 1。
8. 根據權利要求1-3中任何一個所述的方法，其中，在步驟2)之前還包括：根據該興趣規則中包括的表達式建立對應的表達式樹的步驟。
9. 根據權利要求1-3中任何一個所述的方法，步驟1)中，在根據興趣規則建立對應的表達式樹之前還要將該興趣規則中的空格替換為邏輯與運算符，以及將沒有運算符連接的子句採用邏輯與運算符進行連接。
10. 根據權利要求1-3中任何一個所述的方法，在步驟1)中，對於每個文本所提取的關鍵詞個數為10-30中的一個整數。
11. 一種面向網絡用戶的個性化文本推薦方法，包括：步驟Α)、根據用戶的興趣規則請求，獲得採用如權利要求1-10中任何一個所述的排序方法得到的與該興趣規則對應的排序的文本；步驟Β)、將該排序的文本推薦給用戶。
【文檔編號】G06F17/30GK104298732SQ201410514028
【公開日】2015年1月21日申請日期:2014年9月29日優先權日:2014年9月29日
【發明者】程學旗, 杜慧, 張瑾, 黃康平, 餘智華, 劉悅, 劉瑋申請人:中國科學院計算技術研究所

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種面向網絡用戶的個性化文本排序及推薦方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法