新四季網

一種基於重啟隨機遊走模型的活躍用戶群組推薦方法與流程

2023-05-08 14:21:11 2


本發明涉及推薦系統技術領域,特別是一種基於重啟隨機遊走模型的活躍用戶群組推薦方法。



背景技術:

隨著網際網路技術的飛速發展,網絡上的服務數量也隨之急劇增長.然而,這種增長遠遠超過個人或系統所能接受、處理和有效利用的範疇。在這種環境下,能夠針對不同用戶需求的推薦系統應運而生,推薦理論及其相關技術已成為學術界和工業界的一個熱門研究課題。

傳統的服務推薦系統如協同過濾技術普遍側重於向單個用戶進行推薦,但在現實生活的許多日常活動中,用戶是以群組形式出現的,例如出行旅遊、網上團購等。因此,群組推薦系統需要同時考慮所有用戶的傾向來進行推薦.另一方面,針對某單一用戶進行推薦容易產生效果不理想的情況,而需要將其放入到群組中,通過群組推薦往往能獲得良好效果,並能有效緩解新用戶引起的冷啟動問題.目前面向群組的推薦系統研究受到越來越多的關注,2011年acm推薦系統大會(recsys2011)以「為家庭群組推薦電影」為主題,舉辦了上下文感知電影推薦挑戰賽(camra2011),促進了群組推薦在電影、餐飲、旅遊等領域的推廣與應用.群組發現作為群組推薦的前提步驟,其群組劃分結果對推薦效果起重要作用.群組的內在相似度決定了群組推薦的精確度,高相似度群組的推薦效果能夠達到甚至超過單個用戶推薦的精度,且在群組規模增大時也具有良好的穩定性。

現有的群組推薦中,往往隨著群組規模的增大計算效率急劇下降,絕大部分計算消耗來自於不活躍的用戶,並且對於冷門項目的推薦也是亟待解決的問題。群組推薦中隨著群組規模的不斷增多,逐個分析單個用戶極大的浪費了時間和資源,並且無法保證完全涵蓋所有項目,及冷門項目得不到恰當的推薦。



技術實現要素:

本發明所要解決的技術問題是克服現有技術的不足而提供一種基於重啟隨機遊走模型的活躍用戶群組推薦方法,將活躍用戶作為群組推薦對象,並通過隨機遊走重啟模型為其推薦合適項目。

本發明為解決上述技術問題採用以下技術方案:

根據本發明提出的一種基於重啟隨機遊走模型的活躍用戶群組推薦方法,包括以下步驟:

步驟一、通過計算項目涵蓋率和群組傾向偏差獲得活躍用戶群組:將同時具有最大項目涵蓋率和最低群組傾向偏差的子集群組作為活躍用戶群組;

步驟二、構建相關度矩陣sgmg,其中,sgmg包含了活躍用戶群組與項目間的相關度矩陣sgm,每個活躍用戶群組包含對項目的選擇傾向,以及每個活躍用戶群組與每個用戶的相關度,並且每個用戶同樣具有對項目的選擇傾向值;然後將相關度矩陣sgmg正規化為ngmg,作為重啟隨機遊走模型的概率轉移矩陣;

步驟三、啟動重啟隨機遊走模型,獲得活躍用戶群組與項目的相關係數,以ngmg為概率轉移矩陣,對各個活躍用戶群組反覆迭代執行重啟隨機遊走過程,通過定義終止條件終止重啟隨機遊走;再對每個活躍用戶群組計算其穩定狀態概率矩陣直至收斂,以獲得活躍用戶群組與項目的相關度係數,最後將相關度係數最高的前k個項目推薦給活躍用戶群組。

作為本發明所述的一種基於重啟隨機遊走模型的活躍用戶群組推薦方法進一步優化方案,步驟一中獲得活躍用戶群組的具體流程如下:

步驟1.1、計算評分量化矩陣,定義用戶集合u:u={ui},0≤i≤|u|,項目集合p:p={pj},0≤j≤|p|,用戶和項目之間的互動信息用評分矩陣r量化,則有:

r={rij}|u|×|p|,rij≥0

其中,ui為第i個用戶且i為整數,pj為第j個項目且j為整數,rij為評分矩陣r的第i行j列的元素且rij為第i個用戶對第j個項目的互動信息評分數據,若rij=0代表ui和pj沒有互動,即ui的活動沒有涵蓋pj;

步驟1.2、計算項目涵蓋率,對於用戶集合u給定的子集u',u'的項目涵蓋集pu'定義為:

u'的項目涵蓋率cov(u')為p的子集pu'在p中所佔的比例,即:

步驟1.3、計算群組傾向偏差,用子集評分誤差err(u')來表示用戶子集和全體用戶之間的傾向偏差:

其中,avg(pj,u')表示用戶子集u'對第j個項目pj的平均評分;

步驟1.4、根據步驟1.2及1.3得到項目涵蓋率和群組傾向偏差獲取活躍用戶群組,活躍用戶群組cug是用戶集合u的一個子集,活躍用戶群組的大小為k,該子集滿足如下兩個條件,在用戶集合u所有大小為k的子集中,有:

作為本發明所述的一種基於重啟隨機遊走模型的活躍用戶群組推薦方法進一步優化方案,步驟二中構建相關度矩陣sgmg具體方法如下:

該相關度矩陣sgmg用以表示兩類項目間的相關係數:

其中,sgm為活躍用戶群組與項目間的相關度矩陣,smug由smu和sug相乘得到,smu為項目與活躍用戶群組的相關度矩陣,sug為用戶與活躍用戶群組的相關度矩陣;

ngmg是通過如下方法得到的:

活躍用戶群組及項目間的馬爾科夫過渡矩陣ngmg=col_norm(sgmg),其中col_norm(sgmg)表示正規化的sgmg,所以矩陣sgmg每一列和為1,然後正規化sgm和smug,則:

其中,ngmg即為正規化後的sgmg,ngm表示從活躍用戶群組到項目的概率轉移矩陣,nmug表示項目到活躍用戶群組的概率轉移矩陣。

作為本發明所述的一種基於重啟隨機遊走模型的活躍用戶群組推薦方法進一步優化方案,所述終止條件為:當λ2≤ε時終止重啟隨即遊走過程,ε為預設的閾值;

λ2是指步驟三中對各個活躍用戶群組反覆迭代執行重啟隨機遊走過程,所得到的所有結果的方差,λ2通過如下公式計算:

其中,g為活躍用戶群組數量,m為項目數量,μ為統計變量,從1開始至(g+m)結束,表示第μ個節點的第vth次向活躍用戶群組或項目遊走,第μ個節點的第(v+1)th次向活躍用戶群組或項目遊走,節點為活躍用戶群組和項目的抽象表示;

穩定狀態概率向量通過以下等式獲得:

其中,表示第一個活躍用戶群組的向量,表示最後一個項目的向量,對於第i個活躍用戶群組gi,執行公式(1)直至收斂,當公式(1)收斂時,公式(1)的結果是一個關於gi的(g+m)×1的向量。

作為本發明所述的一種基於重啟隨機遊走模型的活躍用戶群組推薦方法進一步優化方案,所述ε為0.28。

本發明採用以上技術方案與現有技術相比,具有以下技術效果:

(1)為用戶提供合適的群組推薦結果:在群組推薦中,由於用戶選擇的長尾效應導致冷門項目被熱門項目覆蓋,通過採用重啟隨機遊走模型挖掘包括冷門項目在內的,用戶、群組和項目間的相關關係,為活躍用戶群體提供包含冷門項目的群組推薦結果。

(2)降低群組推薦計算複雜度:由於網絡中用戶數量的急劇增加,群組推薦中用戶規模也隨之增大,通過定義活躍用戶群組來代替原有群組,有效屏蔽了不活躍用戶帶來的計算消耗,在保證項目覆蓋率的情況下,提高了計算效率節約了計算時間和資源。

附圖說明

圖1是挖掘活躍用戶群組的過程。

圖2是重啟隨機遊走的過程。

圖3是本發明整體流程圖。

具體實施方式

下面結合附圖對本發明的技術方案做進一步的詳細說明:

為了說明本發明所述的群組推薦方法,我們給出如下的最佳實例,詳細的闡述了一種基於重啟隨機遊走模型的活躍用戶群組推薦方法的實現過程。

下面給出一種基於重啟隨機遊走模型的活躍用戶群組推薦方法中的相關概念及具體描述:

(1)用戶群組:具有相似選擇傾向的用戶形成的集合。比如在線電影評論社區中的電影圈。

(2)選擇傾向值:用戶對某項目的傾向的量化值,不同應用場景量化方式有所不同。

(3)項目涵蓋率:推薦系統是一種利用用戶和項目的內容信息以及用戶項目之間的互動信息,向合適的用戶推薦合適的項目的信息過濾系統。

(4)活躍用戶群組:由於期望活躍用戶群組能夠充分反映全體用戶的傾向偏好,用子集評分誤差err(u')來表示用戶子集和全體用戶之間的傾向偏差:

其中avg(pj,u')表示用戶子集u'對項目pj的平均評分,顯然err(u')越小,子集u'越能充分反映全體用戶群組的偏好傾向。但是若cov(u')較小,則用戶子集u'不能充分涵蓋全體項目。因此,活躍用戶群組(activeusergroup,aug)是用戶集合u的一個子集,大小為k,它同時滿足如下兩個條件,在用戶集合u所有大小為k的子集中,有:

(5)重啟隨機遊走模型:隨機遊走(randomwalk)是一種數學統計模型,最早由pearson提出。隨機遊走由一連串的軌跡組成,每一步的運動都是隨機的,這種隨機過程可用馬爾科夫鍊表示,從一個點移動到另一個點的轉移概率與時間無關。重啟隨機遊走(randomwalkwithrestart,rwr)模型由grady提出,最早用於圖像分割。重啟隨機遊走是一種特殊類型的隨機遊走,當將要進行下一步移動時有兩種選擇:一種是以一定概率根據狀態轉移矩陣隨機地選擇下一個狀態,另一種是以一定的概率選擇任意點開始隨機遊走,主要用於計算圖中任意兩點間的結構性關係。

rwr的過程定義為:

其中c(0≤c≤1)為返回概率,為第i維為1的單位向量,為正規化後的圖節點加權鄰接矩陣,初始時j,[ri,j]為節點i相對於j的相關係數。則:

(6)評分融合:評分融合方法融合用戶的預測評分或推薦項目列表得到群組的預測評分或群組推薦列表。評分融合過程時根據用戶ux在群組gi中的相對權值w(ux,gi)和用戶ux對項目itemj的預測評分pred(ux,itemj)來計算群組gi對項目itemj的預測評分pred(gi,itemj):

具體步驟表述如下:

圖1是挖掘活躍用戶群組的過程,步驟1)通過計算項目涵蓋率傾向偏差和獲得活躍用戶群組,具體流程如下:

步驟1.1)計算評分量化矩陣,一般的,定義用戶集合u:u={ui},0≤i≤|u|,其中ui為單個用戶且i為整數,項目集合p:p={pj},0≤j≤|p|,其中pj為單個項目且j為整數;用戶和項目之間的互動信息用評分矩陣r量化,則有:

r={rij}|u|×|p|,rij≥0(6)

其中,ui為第i個用戶且i為整數,pj為第j個項目且j為整數,rij為評分矩陣r的第i行j列的元素且rij為第i個用戶對第j個項目的互動信息評分數據,若rij=0代表ui和pj沒有互動,即ui的活動沒有涵蓋pj;

步驟1.2)計算項目涵蓋率,對於用戶集合u給定的子集u',u'的項目涵蓋集pu'定義為:

u'的項目涵蓋率cov(u')為p的子集pu'在p中所佔的比例,即:

步驟1.3)計算群組傾向偏差,由於期望活躍用戶群組能夠充分反映全體用戶的傾向偏好,用子集評分誤差err(u')來表示用戶子集和全體用戶之間的傾向偏差:

其中,avg(pj,u')表示用戶子集u'對第j個項目pj的平均評分;

步驟1.4)獲取活躍用戶群組,根據步驟1.2及1.3得到項目涵蓋率和群組傾向偏差,活躍用戶群組(activeusergroup)是用戶集合u的一個子集,活躍用戶群組的大小為k,該子集滿足如下兩個條件,在用戶集合u所有大小為k的子集中,有:

圖2重啟隨機遊走的過程,步驟2)構建活躍群組與項目的相關性概率矩陣,具體方法如下:

首先構建相關度矩陣sgmg,該相關度矩陣用以表示兩類項目間的相關係數:

其中,sgm為活躍用戶群組與項目間的相關度矩陣,smug由smu和sug相乘得到,smu為項目與活躍用戶群組的相關度矩陣,sug為用戶與群組的相關度矩陣;

活躍用戶群組及項目間的馬爾科夫過渡矩陣ngmg=col_norm(sgmg),其中col_norm(sgmg)表示正規化的sgmg,所以矩陣sgmg每一列和為1,然後正規化sgm和smug,則:

其中,ngmg即為正規化後的sgmg,ngm表示從活躍用戶群組到項目的概率轉移矩陣,nmug表示項目到活躍用戶群組的概率轉移矩陣。

步驟3)啟動重啟隨機遊走模型,獲得活躍群組與項目的相關係數,具體方法如下:

一般的重啟隨機遊走過程可以反覆迭代執行,直到達到一個穩定的狀態,我們可以通過定義終止條件終止重啟隨機遊走,以期獲得對圖節點相關係數的精確估算。重啟隨機遊走所有結果的方差通過如下公式計算:

其中,g為活躍用戶群組數量,m為項目數量,μ為統計變量,從1開始至(g+m)結束,表示第μ個節點的第vth次向活躍用戶群組或項目遊走,第μ個節點的第(v+1)th次向活躍用戶群組或項目遊走,節點為活躍用戶群組和項目的抽象表示;

所述終止條件為:當λ2≤ε時終止重啟隨即遊走過程,ε為預設的閾值;

為了通過重啟隨機遊走模型獲得活躍用戶群組與項目間相關係數,我們應用轉移矩陣ngmg,因此穩定狀態概率向量通過以下等式獲得:

為了節約計算成本和存儲空間,修改後的等式為:

其中,g和分別表示第一個群組活躍用戶至最後一個項目的向量。對於每個活躍用戶群組gi,執行公式(15)直至收斂,當公式(15)收斂時,等式(15)的結果是一個關於gi的(g+m)×1的向量。活躍用戶群組gi和項目mj間的相關係數越高,則群組對該項目的偏好度越高。

圖3給出了一種基於重啟隨機遊走模型的活躍用戶群組推薦方法的整體流程。假設有一個電影評分數據系統,包含6020個用戶,以及5763部電影,其中包含了用戶的群組信息、評分信息、評分數量、電影及電影數量。具體步驟如下:

第一步:根據用戶對電影項目的評分,構建用戶和項目的評分量化矩陣。

第二步:計算項目涵蓋率,通過用戶群組的子集所涉及的評分項目與項目集合的比值計算用戶子集的項目涵蓋率。

第三步:計算群組傾向偏差,通過計算子集用戶群組對各項目的平均評分與群組對相應項目的平均評分的比值作為群組傾向偏差值。

第四步:根據第二步和第三步得到的項目涵蓋率和群組傾向偏差獲取活躍用戶群組,同時滿足的群組子集即為活躍用戶群組。

第五步:構建活躍用戶群組和項目間的相關度矩陣,為了提高計算效率和節約存儲成本,對相關度矩陣進行正規化。

第六步:啟動重啟隨機遊走。設定閾值,對每個活躍用戶群組節點進行迭代運算直至收斂。

第七步:通過重啟隨機遊走後得到的活躍用戶群組與項目的相關度係數,將相關度係數最高的前k個電影項目推薦給活躍用戶群組g。

以上內容是結合具體的優選實施方式對本發明所作的進一步詳細說明,不能認定本發明的具體實施只局限於這些說明。對於本發明所屬技術領域的普通技術人員來說,在不脫離本發明構思的前提下,還可以做出若干簡單推演或替代,都應當視為屬於本發明的保護範圍。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀