新四季網

基於統一概率模型的個性化用戶標籤建模與推薦方法

2023-09-18 15:56:50

專利名稱:基於統一概率模型的個性化用戶標籤建模與推薦方法
技術領域:
本發明屬於網際網路技術領域,尤其涉及社會標籤網站中個性化用戶標籤的學習理 解和推薦技術,具體為一種基於統一概率模型的個性化用戶標籤建模與推薦方法。
背景技術:
社會標籤(Social tagging)是Web2. 0的一個主要特性,它允許用戶自由地標註 各種資源,例如網頁、學術論文和多媒體資源。社會標籤可以幫助用戶分類整理和查詢各類 信息,同時,它對於很多實際應用都有很大的價值,包括網絡搜索、擴充查詢、個性化搜索、 網絡資源分類和聚類。隨著社會標籤網站的出現和快速發展,例如社會標籤網站(Flickr、 Picassa> YouTube、Plaxo)、t専客(Blogger、WordPress> Livejournal)、百禾鬥(ffikipedia、 PBWiki)、微博(Twitter、Jaiku),標籤系統毫無疑問成為組織大規模增長的社區數據的重 要手段之一。近來,標籤推薦成為社會標籤研究的一大熱點。標籤推薦就是與用戶共享的資源 推薦最相關的標籤。標籤推薦的作用主要有兩方面一是對於社會標籤網站來說,標籤推薦 可以擴大資源的標籤集,從而增加檢索資源時的索引集;二是對於用戶來說,與其他的推薦 系統類似,標籤推薦的目的是增強用戶在標註過程中的用戶體驗,縮短用戶的思考時間。實 際應用中的標籤推薦更為複雜和具有挑戰性。首先,實際社會標籤網站中資源受歡迎程度 滿足冪定律,這表明絕大部分的資源只被標註過1次或2次,所以很可能有某個資源只被一 個或沒有被任何用戶標註過。這種情況下,協同過濾便不再適用,所以需要進一步的探討網 絡資源之間的聯繫和標註在其他類似資源上的標籤。其次,不同的用戶會使用不同的標籤 標註同一個資源,這取決於個人習慣。因此,需要設計一個用戶個性化的標籤推薦系統來增 加用戶體驗,鼓勵用戶標註更多的資源。個性化標籤推薦將結合用戶的標註歷史進行推薦, 目的是針對每一特定的用戶,對特定的資源進行標籤推薦。目前的個性化標籤推薦主要有兩種方法⑴基於內容的方法;⑵基於圖結構的 方法。其中基於內容的方法通常從文本信息(網頁內容、學術論文、標籤和資源的描述)中 學習用戶的興趣,進而可以為新用戶和新資源進行推薦。基於圖結構的方法相比基於內容 的方法通常有更多的假設和約束條件,例如假設所有要被推薦的資源和用戶在過去的數據 中都已出現過。然而這種假設在實際應用中通常是無法滿足的。這是因為標籤推薦系統需 要在系統對網絡資源或用戶一無所知的情況下仍然可以做出合理的推薦。兩種方法相比, 基於內容的方法的優點在於它適用於新用戶和新資源,但這種方法的準確率不如基於圖結 構的方法。而基於圖結構的方法只適用於老用戶和老資源,雖然準確率高,但不能處理新用 戶和新資源的情況。為了充分利用社會標註系統的網絡結構信息,需要對用戶、資源和標籤之間的關 系進行建模。目前有許多研究在對社會標籤網絡進行建模。例如,社會標籤系統被描述成 一個由用戶、標籤和資源構成的結點組成的三元網絡。這個三元網絡被分解成一個二元網 絡和一個一元網絡來學習其中的潛在結構。有的研究者將社會標籤系統模擬成一個三元網絡,增加了社會維度(用戶),將傳統的二元網絡下的本體模型擴大至三元。有的研究者 提出了一個社會標籤網絡圖,其中標籤被視為連接異構領域不同資源的橋梁,設計了基於 這個網絡圖的半監督分類算法。這些方法都在一個網絡圖上研究社會標註系統。另一個 研究社會標註系統的方法是用一個生成模型來模擬社會標籤標註過程。例如,Wu等人設 計了一個概率生成模型,模型中,社會標籤系統中的三個實體(標籤、資源、用戶)被映射 到同一個概念空間,用一個多維向量表示這個概念空間,其中每一維對應一個知識類。另 夕卜,基於 LDA(Latent Dirichlet Allocation)禾口 PLSA(Probabilistic Latent Semantic Analysis)的層次貝葉斯模型也被用於模型社會標註。Web2. 0的興起帶動了對於標籤推薦的研究進展。有一些方法是基於用戶標註的 歷史信息。例如AutoTag是由Gilad Mishne特別為博客設計的標籤推薦系統。這個系統 首次採用了信息檢索方法來估計博客之間的相似性,並為要被推薦的博客尋找相似的博 客,並將標註在這些相似的博客上的標籤進行排序,排序依據使用頻率,最後得出推薦的標 籤。這個系統也考慮到用戶信息,使用的信息檢索方法較為簡單。另一個標籤推薦系統是 FolkRank算法,它利用社會標籤網絡中的圖結構信息。這個算法是著名算法PageRank的擴 展。有的研究者通過基於張量分解的方法學習標籤的排序,從而進行推薦。還有的研究者 利用張量降維的方法進行標籤推薦。上述的基於圖結構的方法依賴於較為緊密的社會標籤 網絡,除了這些方法,一些基於語義的方法也十分有效,例如有Wu等人設計的算法。然而, 這些方法都沒有考慮到用戶特定的興趣。Xu等人利用協同標註信息來進行標籤推薦。他們的推薦方法擬在推薦那些被大批 用戶標註在目標資源上的標籤,並且希望可以通過最小化所推薦的標籤的概念上的重複來 允許推薦出的標籤覆蓋資源的各個面,這個算法與Del. icio.us網站所使用的方法類似, 都不能處理新的資源。有的研究者設計P-tag算法自動地為網頁生成個性化的標籤。這些 自動生成的標籤不僅與網頁上的文本信息相關也與瀏覽者桌面上的文件內容相關。有的研 究者針對Flickr網站的標籤推薦問題,在Flickr網站上,每當一個用戶提交一副圖片和一 些標籤時,系統會自動顯示一個排了序的標籤候選集給用戶,這個標籤候選集是通過之前 用戶輸入的標籤和其他標籤共同出現的關係而生成的。但是這個方法依賴於用戶手工輸入 某些標籤,然後系統自動地進一步推薦其他標籤,不能完全應用於只有資源但沒有任何用 戶標註過的問題上。不僅如此,由於他們只考慮了共同出現的數據,所以可能會出現話題漂 移的問題。有人介紹了一種個性化的互動性的標籤推薦系統,同樣是在Flickr網站,系統 會特殊考慮用戶的標註數據來進行推薦。由於這個算法也依賴於標籤同現,所以也存在上 面方法的缺點。越來越多的研究者開始關注依賴於用戶的信息並且希望可以進一步地從他們的 標註行為中認識用戶並且理解他們潛在的興趣和偏好。有的研究者嘗試利用之前用戶的標 注信息來進行推薦。用戶之前使用過的標籤在很大程度上表明了用戶的偏好和興趣,且對 於推薦有很大的幫助。有的研究者分析用戶瀏覽網絡的行為來預測用戶對於某幅圖片應使 用的標籤。有的研究者使用一個基於層次化標籤聚類的方法進行個性化的標籤推薦。其他 一些研究者研究了實時高效的標籤推薦系統。還有的研究者設計了為文本搜索和數字圖書 館設計的自動標籤系統。由於問題空間巨大,因此效率和準確性一樣非常重要。在以上的設計的方法中,他們使用分割圖的方法來提高準確率同時降低算法複雜度。在實際應用中,數據集非常大且 用戶希望得到實時的推薦結果。因此,如何保證高效率地進行個性化的用戶推薦是這個領 域內的一大挑戰。同時,社會標註的動態特性也是另一個研究問題。

發明內容
(一)要解決的技術問題本發明要解決的技術問題在於,如何提供一種應用於網際網路中的個性化用戶標 籤建模與推薦方法,從而界定個性化的標籤標註行為,並通過用戶標註的歷史記錄對其標 注的某個資源的標籤進行預測。(二)技術方案為解決上述技術問題,本發明提供了一種基於統一概率模型的個性化用戶標籤建 模與推薦方法,基於統一概率模型的個性化用戶標籤建模與推薦方法,包括以下步驟S1、統計社會標籤網站上用戶的標註行為;S2、對用戶的標註問題進行形式化定義;S3、建立基於用戶標註的話題模型,其為一統一概率模型,稱為UdT模型;統一概 率模型是一種將所有模型化的任務都描述在一個模型中的概率模型。S4、建立基於所述UdT模型的標籤推薦系統的框架,所述框架是通過學習用戶的 興趣並且根據興趣中包含的語義信息來進行推薦;S5、驗證所述標籤推薦系統的框架。其中,所述步驟S2具體包括以下步驟S21、將用戶的標註行為形式化為一個三元組,所述三元組包括用戶、標籤和資源 三個元素;S22、形式化定義標註問題中的話題分布,具體來說,建立對應於用戶u e U的T維 話題分布向量0uERt,其中,向量0 的各項滿足
權利要求
1.一種基於統一概率模型的個性化用戶標籤建模與推薦方法,其特徵在於,包括以下 步驟51、統計社會標籤網站上用戶的標註行為;52、對用戶的標註問題進行形式化定義;53、建立基於用戶標註的話題模型,其為一統一概率模型,稱為UdT模型;54、建立基於所述UdT模型的標籤推薦系統的框架,所述框架是通過學習用戶的興趣 並且根據興趣中包含的語義信息來進行推薦;55、驗證所述標籤推薦系統的框架。
2.根據權利要求1所述的方法,其特徵在於,所述步驟S2具體包括以下步驟521、將用戶的標註行為形式化為一個三元組,所述三元組包括用戶、標籤和資源三個 元素;522、形式化定義標註問題中的話題分布,具體來說,建立對應於用戶ue U的T維話題 分布向量euGRT,其中,向量eu的各項滿足每一個元素0皿表示用戶11對話 題z感興趣的概率;並建立與涉及不同話題的文檔deD對應的T維話題分布向量0 GRT, 其中向量e的各項滿足H=l《=l,其中每一個元素e z表示文檔d涉及話題z的概率;523、建立基於用戶興趣的話題模型,其中,用戶興趣被描述成一個各種話題的組合, 對於不同話題的興趣有不同的概率,該模型用一個該用戶所使用的標籤t的多元正態分布 {p(t| 0J來表示,分布{p(t| 0J中概率值最大的標籤t在語義上代表了這個話題;524、建立文檔的話題模型,該文檔的話題模型由兩個正態分布組成單詞w的概率分 布{p(w| 9)}和標籤t的概率分布{p(t| e)},0表示文檔d的話題的多元正態分布。
3.根據權利要求2所述的方法,其特徵在於,所述步驟S3具體為估計UdT模型中的兩類未知參數(1)M個文檔的話題的分布e、基於用戶興趣的話題 分布eu,M個文檔的伯努利分布\和T個話題的單詞分布 ; (2)對於每一個標籤tdi,與 其相關的拋硬幣結果Sdi、分配的話題zdi,所述拋硬幣結果滿足伯努利分布\ ;對於文檔d 中的每一個單詞Wdi,與其相關的話題z' di ;對於用戶u使用過的每一個標籤tui,與其相關 的話題zui。
4.根據權利要求3所述的方法,其特徵在於,所述估計UdT模型中的兩類未知參數的方 法為首先估計(a)關於話題z的後驗分布,並利用它估計第一個生成過程中的話題分布 eu,然後估計(b)關於拋硬幣結果s和話題z的後驗分布,然後利用它得到第二個生成過 程中的參數0,X, 和V,其中V為單詞的分布,所述第一個生成過程用來模型化用戶 興趣的話題分布;所述第二個生成過程用來模型化標註的文檔的話題分布。
5.根據權利要求4所述的方法,其特徵在於,在步驟S4中,將UdT模型與語言模型相結 合來建立所述標籤推薦系統的框架。
6.根據權利要求5所述的方法,其特徵在於,所述將UdT模型與語言模型相結合的方法 如下首先將兩個模型計算出的分數歸一化,然後根據分數所佔的權重將兩種分數相加,從 而找到只在一個模型的候選集合中出現的標籤;或者先對利用UdT模型推薦的標籤進行排序,然後用信息檢索方法重新排序挑選排名前一定數量的標籤重新進行排序。
全文摘要
本發明公開了一種基於統一概率模型的個性化用戶標籤建模與推薦方法,包括以下步驟S1、統計社會標籤網站上用戶的標註行為;S2、對用戶的標註問題進行形式化定義;S3、建立基於用戶標註的話題模型,其為一統一概率模型,稱為UdT模型;S4、建立基於所述UdT模型的標籤推薦系統的框架,所述框架是通過學習用戶的興趣並且根據興趣中包含的語義信息來進行推薦;S5、驗證所述標籤推薦系統的框架。實驗結果表明本發明提出的方法可以有效地發掘用戶的興趣並且提高標籤推薦的準確率。
文檔編號G06F17/30GK102004774SQ201010546780
公開日2011年4月6日 申請日期2010年11月16日 優先權日2010年11月16日
發明者唐傑, 張寧 申請人:清華大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀