新四季網

一種面向網絡用戶的個性化文本排序及推薦方法

2023-07-06 08:59:01

一種面向網絡用戶的個性化文本排序及推薦方法
【專利摘要】本發明提供一種面向網絡用戶的個性化文本排序及推薦方法,所述個性化文本排序方法包括對於用戶的每條包括具有關鍵詞和運算符的表達式的興趣規則,執行以下步驟:1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重。2)、對於所述多個文本中的每個文本,計算該文本與該興趣規則對應的表達式樹的相似度;其中,表達式樹是根據興趣規則中包括的表達式建立的,表達式樹中的節點分為運算符節點和文本節點,文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重。3)、根據與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行排序。本發明能夠在稀疏用戶行為的場景下有效地將符合個性化需求的文本信息推薦給用戶。
【專利說明】一種面向網絡用戶的個性化文本排序及推薦方法

【技術領域】
[0001]本發明涉及信息檢索和過濾推薦【技術領域】,以及更具體地,涉及一種面向網絡用 戶的個性化文本排序及推薦方法。

【背景技術】
[0002] 網際網路時刻產生著海量的信息,新聞、論壇、博客等媒體不停地生成供用戶瀏覽的 網頁,這些網頁中承載了各種文本信息。一方面,網絡信息的豐富性與透明性為用戶提供 了前所未有的便利;另一方面,由於信息的數量過於龐大,因此給用戶查詢帶來了很大的困 難,其中大量的用戶不感興趣的信息或者垃圾信息將很多有意義的信息淹沒。目前,很多網 站通過將熱門信息推薦給用戶來提高服務質量。然而,熱門信息的量仍然非常大,並且所有 用戶接收到的信息是完全相同的。在現實中,由於不同的人對信息種類的需求不同,用戶希 望能夠將有限的精力用在閱讀自己關心的內容上,因此,按照用戶的興趣為不同用戶提供 不同的個性化文本,將用戶真正關心和感興趣的內容排在文本列表的前面推薦給用戶,能 夠極大地滿足用戶閱讀的效率和滿意度。
[0003] 當前,如何將個性化文本進行排序並推薦給用戶已受到廣泛的關注。其中一類是 基於內容過濾的方法,該方法將文本與用戶收藏的文本計算相似度,如果相似度大於某一 設定閾值,就將該文本推薦給用戶,其中被推薦的文本按照相似度來排序呈現。然而,這類 方法的相似度計算比較費時,同時用戶收藏的文本的質量、數量以及時效性也會制約相似 度計算的效果,因此採用這類方法對文本數量和質量的要求較高。另一類是協同過濾方法, 該方法根據最近鄰用戶的行為來推斷用戶的興趣。由於這類方法需要有大量的用戶群體, 因此對用戶數量以及用戶之間關係的要求較高。此外需要處理的信息往往是最新的,而此 時很少有近鄰用戶能夠提供有效的信息。現有方法中,可採用興趣規則來表示用戶的行為 興趣,根據規則構建trie樹來匹配文本,並且基於匹配結果進行文本排序以用於推薦。這 種方法容易推廣應用,但在計算排序時沒有考慮到規則中操作符的影響,且基於文本字符 串與trie樹的匹配也容易造成誤配。
[0004] 綜上所述,在用戶數量較小的個性化文本排序應用場景下,採用協同過濾的方法 是不適用的,而基於內容過濾的方法對用戶收藏的文本數量和質量的要求較高。因此,針對 稀疏用戶行為,如何實現有效的個性化文本排序及推薦是當前亟待解決的問題。其中,稀疏 用戶行為指的是用戶數量小(即用戶稀疏、難以尋找近鄰用戶)或者用戶行為稀疏(即沒 有大量的瀏覽、收藏等可以揭示用戶行為興趣的用戶行為)。


【發明內容】

[0005] 針對上述問題,本發明提供一種面向網絡用戶的個性化文本排序方法。對於用戶 的每條包括具有關鍵詞和運算符的表達式的興趣規則,所述方法包括以下步驟:
[0006] 步驟1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重;
[0007] 步驟2)、對於所述多個文本中的每個文本,計算該文本與該興趣規則對應的表達 式樹的相似度;其中,表達式樹是根據該興趣規則中包括的表達式建立的,表達式樹中的節 點分為運算符節點和文本節點,文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重;
[0008] 步驟3)、根據與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行 排序。
[0009] 上述方法中,步驟2)包括:
[0010] 對於所述多個文本中的每個文本,後序遍歷與該興趣規則對應的表達式樹,在遍 歷時根據如下方式計算每個節點的相似度分值:
[0011] 如果該節點N是文本節點,則其相似度分值計算如下:
[0012] f (N) = g(T(N))
[0013] 其中,T (N)表示節點N中的關鍵詞,g (T (N))表示關鍵詞τ (N)在該興趣規則中的 權重;
[0014] 如果該節點N是"&"運算符節點,則其相似度分值計算如下:
[0015]

【權利要求】
1. 一種面向網絡用戶的個性化文本排序方法,對於用戶的每條包括具有關鍵詞和運算 符的表達式的興趣規則,所述方法包括以下步驟: 步驟1)、對於多個文本中的每個文本提取關鍵詞和該關鍵詞在該文本中的權重; 步驟2)、對於所述多個文本中的每個文本,計算該文本與該興趣規則對應的表達式樹 的相似度;其中,表達式樹是根據該興趣規則中包括的表達式建立的,表達式樹中的節點分 為運算符節點和文本節點,文本節點包括關鍵詞和該關鍵詞在該興趣規則中的權重; 步驟3)、根據與所述表達式樹的相似度大小,對所述多個文本中的每個文本進行排序。
2. 根據權利要求1所述的方法,其中,步驟2)包括: 對於所述多個文本中的每個文本,後序遍歷與該興趣規則對應的表達式樹,在遍歷時 根據如下方式計算每個節點的相似度分值: 如果該節點N是文本節點,則其相似度分值計算如下: f(N) = g(T(N)) 其中,T (N)表示節點N中的關鍵詞,g (T (N))表示關鍵詞T (N)在該興趣規則中的權重; 如果該節點N是"&"運算符節點,則其相似度分值計算如下: X/P(7V;.)(l-w(r(iV(r + Σ /P(iV,.) I" /(Λ,)= 1-包-^-己出- \ 卜1 J 其中,心...,乂表示節點N的子節點並且前m個是文本節點,p為正整數,T(Ni)表示 節點隊中的關鍵詞,《(以隊))表示關鍵詞T(Ni)在該文本中的權重,其中如果T(Ni)不是該 文本中的關鍵詞,則w(T(Ni) = 0 ; 如果該節點N是" | "運算符節點,則其相似度分值計算如下: (fn κ ? TJfP(N,)wp(T(Nl))+ £ fiN,) f{N)= ^τ^- Σ跑) V J 其中,&,. . .,NK表示節點N的子節點且前m個是文本節點,並且其中前m個是文本節 佔. 如果該節點N是運算符節點,則其相似度分值計算如下: f(N) = 1-峨) 其中,K為節點N的子節點; 在得到根節點的相似度分值後,將該根節點的相似度分值作為該文本與所述表達式樹 的相似度。
3. 根據權利要求2所述的方法,其中,p = 2。
4. 根據權利要求1-3中任何一個所述的方法,其中,將關鍵詞在興趣規則中出現的次 數除以該興趣規則中所有關鍵詞出現次數的最大值,來得到該關鍵詞在該興趣規則中的權 重。
5. 根據權利要求1-3中任何一個所述的方法,其中,在步驟2)中還包括:在得到該文 本與所述表達式樹的相似度後修正該相似度。
6. 根據權利要求5所述的方法,其中,修正該文本與所述表達式樹的相似度包括: 步驟a)、得到該文本的標題與所述表達式樹中的每個關鍵詞的最長公共子串以及該最 長公共子串的長度; 步驟b)、根據如下方式修正相似度: 如果相似度小於k並且所有最長公共子串的長度都小於η個漢字,則令該相似度為0, 其中k為小於1的正數且η為正整數; 如果相似度大於或等於k並且所有最長公共子串的長度都小於η個漢字,則將相似度 乘以小於1的正數1 ; 如果相似度小於k並且存在長度大於或等於η個漢字的最長公共子串,則在該文本的 關鍵詞中查找該最長公共子串;如果找到,則將具有該最長公共子串的該文本的關健詞替 換為對應的所述表達式樹中的關鍵詞;如果未找,則在該文本的關健詞中添加對應的所述 表達式樹中的關鍵詞,並且該關鍵詞在該文本中的權重為該文本的關鍵詞的權重的中值; 重新後序遍歷所述表達式樹,用根節點的相似度分值作為該文本與所述表達式樹的相似 度; 如果相似度大於或等於k並且存在長度大於或等於η個漢字的最長公共子串,則不修 改相似度。
7. 根據權利要求6所述的方法,其中,k = 0. 0001,η = 2, 1 = 0. 1。
8. 根據權利要求1-3中任何一個所述的方法,其中,在步驟2)之前還包括: 根據該興趣規則中包括的表達式建立對應的表達式樹的步驟。
9. 根據權利要求1-3中任何一個所述的方法,步驟1)中,在根據興趣規則建立對應的 表達式樹之前還要將該興趣規則中的空格替換為邏輯與運算符,以及將沒有運算符連接的 子句採用邏輯與運算符進行連接。
10. 根據權利要求1-3中任何一個所述的方法,在步驟1)中,對於每個文本所提取的關 鍵詞個數為10-30中的一個整數。
11. 一種面向網絡用戶的個性化文本推薦方法,包括: 步驟Α)、根據用戶的興趣規則請求,獲得採用如權利要求1-10中任何一個所述的排序 方法得到的與該興趣規則對應的排序的文本; 步驟Β)、將該排序的文本推薦給用戶。
【文檔編號】G06F17/30GK104298732SQ201410514028
【公開日】2015年1月21日 申請日期:2014年9月29日 優先權日:2014年9月29日
【發明者】程學旗, 杜慧, 張瑾, 黃康平, 餘智華, 劉悅, 劉瑋 申請人:中國科學院計算技術研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀