一種個性化內容推薦方法、平臺以及系統的製作方法
2023-08-12 10:15:46 1
專利名稱:一種個性化內容推薦方法、平臺以及系統的製作方法
技術領域:
本發明涉及無線網際網路技術領域,具體來說,涉及一種個性化內容推薦的方法和系統。
背景技術:
隨著移動網際網路時代的到來,用戶的需求也發展到了一個新的階段,體現為對貼心服務和個性化服務的追求。同時,隨著各種移動網際網路業務的極大豐富,「用戶尋找信息」的被動服務模式將逐步轉變為「信息尋找用戶」的主動服務模式。實現這種信息尋找用戶的核心技術就是個性化推薦技術(Personalized Recommendation Techniques)。推薦技術就是通過記錄和分析用戶瀏覽行為或者購買行為,發現用戶的興趣偏好,然後在海量資料庫中找到與之興趣相近的人群、內容或者商品,篩選和過濾這些信息,然後向該用戶推薦他可能會感興趣的內容或者商品。例如您瀏覽過一本編程的圖書,推薦技術就會關注很多其它同樣找編程圖書的用戶,記錄他們的搜索,瀏覽,點擊和購買行為,來確定哪些人與當前用戶具有同樣的興趣;然後,為當前用戶做出個性化的商品或內容推薦。個性化推薦技術在網際網路領域已經產生了巨大的商業價值,Amazon有35%以上的圖書收入來自系統提供的推薦;Netflix有60%以上的電影租賃收入來自系統的推薦,Google利用個性化推薦技術為每個用戶組織其新聞資訊,提升了 38%的點擊通過率;Apple的Genius的個性化音樂服務深受廣大用戶的喜愛。在個性化推薦領域,網頁這類文本內容的推薦又是一個非常重要的領域,尤其是在移動網際網路領域,瀏覽網頁(包括新聞資訊、博客等形式,客戶端、瀏覽器等方式)仍然是當前移動網際網路數據流量中的最主要的組成部分。手機能瀏覽到的網頁中,WAP網頁數量超過20億,部分終端還能直接訪問更豐富的Web網頁。同時,移動網際網路網網民超過3億,其中絕大部分有過資訊內容的瀏覽行為。如何從海量的信息中計算得到海量用戶可能感興趣的內容並推薦給他,是一個極具挑戰性的技術領域。現有技術主要有兩種技術方案比較流行,具體來說,包括(I)基於協同過濾的個性化推薦方法協同過濾算法是以被推薦對象Item為中心的個性化推薦算法,Item可以是網頁、圖書、音樂、視頻、實物等任意對象。根據機器學習理論,它屬於基於實例的學習範疇。與傳統的以用戶為中心的實例學習算法相比,它的主要差異在於為每個Item、而不是用戶構建近鄰集合,並產生最終的評分預測結果。協同過濾算法有很多種,但原理上基本上一致。因此下面以其中最為典型的SlopeOne算法來進行說明SlopeOne算法提出的主要目的有兩點1)解決基於實例的算法可伸縮性問題。在典型的產品評論、電子商務類網站中,以Item為中心構建近鄰集合相比於以用戶為中心的算法能夠顯著減少計算量和存儲開銷;2)提升預測準確性。一些文獻的經驗評估表明,相比於以用戶為中心的算法,此類算法預測準確性較高。需要指出的是,還有一類協同過濾算法,它們通過建立依賴關係來構建預測器,被稱為「基於模型的算法」。在基於模型的算法中,一般不顯著構建近鄰集合,而是通過訓練貝葉斯網絡、模糊聚類等方式來產生預測結果。它們的離線計算複雜度通常遠高於基於實例的算法,但存儲開銷和在線計算複雜度又遠低於後者。在實踐中,這兩類算法都有大規模應用的案例。其主要流程如圖I所示。(2)基於內容的個性化推薦算法基於內容的推薦(content-based recommendation)不需要依據用戶對項目的評價意見,而依據用戶已經選擇的產品內容信息計算用戶之間的相似性,送兩送行相應的推薦。隨著機器學習等技術的完善,當前的基於內容的推薦系統可以分別對用戶和內容建立配置文件,通過分析已經購買(或瀏覽)過的內容,建立或更新用戶的配置文件。系統可以比較出用戶與內容的相似度,並直接向用戶推薦與其配置文件最相似的產品。基於內容的推薦算法的根本在於信息獲取和信息過濾。因為在文本信息獲取與過濾方法的研究較為成熟,現有很多基於內容的推薦系統都是通過分析產品的文本信息進行推薦。在信息獲取中,表徵文本最常用的方法就TF-IDF方法,該方法的定義如下設有M個文本文件,關鍵詞h在Hii個文件中出現,設fu為關鍵詞h在文件Cli中出現的次數,那麼kj在文件4中的詞頻TFu定義為
權利要求
1.一種個性化內容推薦方法,包括 根據用戶的訪問數據生成用戶第一興趣列表; 對候選文件進行處理形成候選文件列表;其特徵在於,還包括 根據含有所述用戶第一興趣列表中的關鍵詞的其他用戶的興趣列表,對所述用戶第一興趣列表進行興趣擴散形成用戶第二興趣列表; 比較用戶第二興趣列表和候選文件列表之間的相似度,並從大到小排序將TOP-K個候選文件推薦給用戶。
2.根據權利要求I所述的個性化內容推薦方法,其特徵在於,所述根據含有所述用戶第一興趣列表中的關鍵詞的其他用戶的興趣列表,對所述用戶第一興趣列表進行興趣擴散形成用戶第二興趣列表,具體包括 分別計算用戶第一興趣列表中關鍵詞向其他所有用戶推薦關鍵詞的推薦能力; 根據所述關鍵詞的推薦能力形成興趣擴散矩陣; 根據所述興趣擴散矩陣對用戶第一興趣列表進行向量計算,形成用戶第二興趣列表。
3.根據權利要求I或2所述的個性化內容推薦方法,其特徵在於,所述根據用戶的訪問數據生成用戶第一興趣列表,具體包括 建立用戶集合Ui = K,U2,.. .,un},其中,用戶Ui的興趣列表採用向量空間模型表示 Pi = ((T1, Wil), (T2, wi2), . . . , (Tk, Wik)), 其中,Wij表示用戶Ui第一興趣列表中關鍵詞L對於用戶Ui的權重,k表示用戶Ui第一興趣列表之中所有關鍵詞的數量。
4.根據權利要求I或2所述的個性化內容推薦方法,其特徵在於,所述對候選文件進行處理形成候選文件列表,具體包括 建立候選文件集合D = {屯,d2,. . .,dn},其中,候選文件4的文件列表採用向量空間模型表示為 dj = KT1, Wlj), (T2, w2J), . . . , (Tk, wkJ)}, 其中,Wij表示文件七之中關鍵詞Ti在文件4之中的權值,k表示文件4之中關鍵詞的數量。
5.根據權利要求2所述的個性化內容推薦方法,其特徵在於,所述分別計算列表中任意關鍵詞向所有用戶推薦其他關鍵詞的推薦能力,具體包括 設定有N個用戶,按照下列表達式計算任一關鍵詞i相對於關鍵詞j對所有用戶的推薦能力
6.根據權利要求5所述的個性化內容推薦方法,其特徵在於,所述根據上述推薦能力形成興趣擴散矩陣,根據所述興趣擴散矩陣對用戶第一興趣列表進行向量計算,形成用戶第二興趣列表,具體包括 根據所述推薦能力Vu形成興趣擴散矩陣V = {ViJ.}; 按照下列表達式進行擴散形成所述用戶第二興趣列表
7.根據權利要求6所述的個性化內容推薦方法,其特徵在於,所述比較用戶第二興趣列表和候選文件列表之間的相似度,並從大到小排序將TOP-K個候選文件推薦給用戶,具體包括 基於夾角餘弦法計算所述第二興趣列表Pi'和候選文件列表4的相似性,具體包括 接著,根據值從大到小排序將Top-κ個文件推薦給用戶。
8.—種個性化內容推薦平臺,其特徵在於,包括 用戶興趣計算模塊,用於根據用戶的訪問數據生成用戶第一興趣列表; 候選文件預處理模塊,用於對候選文件進行處理形成候選文件列表; 用戶興趣擴散更新模塊,根據含有所述用戶第一興趣列表中的關鍵詞的其他用戶的興趣列表,對所述用戶第一興趣列表進行興趣擴散以形成用戶第二興趣列表; 推薦生成計算模塊,用於比較用戶第二興趣列表和候選文件列表之間的相似度,並從大到小排序將TOP-K個候選文件輸出給用戶。
9.根據權利要求8所述的個性化內容推薦平臺,其特徵在於,還包括有 用戶行為採集模塊,用於按周期從日誌伺服器之中同步用戶訪問數據; 候選文件採集模塊,用於按周期從內容資料庫之中同步候選文件。
10.一種個性化內容推薦系統,其特徵在於,包括 應用伺服器,用於接收採集並輸送用戶的訪問數據和候選文件給個性化平臺;個性化平臺,用於獲取來自於應用伺服器的用戶的訪問數據和候選文件以生成擴散後的用戶興趣列表和候選文件列表,並根據擴散後的用戶興趣列表以及候選文件列表的相似度,將TOP-K個候選文件推薦給用戶。
11.根據權利要求10所述的個性化內容推薦系統,其特徵在於,還設置有 日誌伺服器,用於接收從應用伺服器實時傳來的用戶訪問日誌並按周期遠程同步日誌數據到個性化推薦平臺之中; 內容資料庫,用於接收從應用伺服器實時提供的候選文件並按周期遠程同步所述候選文件到個性化推薦平臺之中。
12.根據權利要求10或11所述的個性化內容推薦系統,其特徵在於,還設有推薦接口伺服器,用於按周期遠程同步個性化推薦平臺輸出的推薦結果並實時提供推薦信息給所述應用伺服器。
全文摘要
本發明公開了一種個性化內容推薦方法,包括根據用戶的訪問數據以生成用戶第一興趣列表;對候選文件進行處理形成候選文件列表;根據含有所述用戶第一興趣列表中的關鍵詞的其他用戶的興趣列表,對所述用戶第一興趣列表進行興趣擴散以形成用戶第二興趣列表;比較用戶第二興趣列表和候選文件列表之間的相似度,並從大到小排序將TOP-K個候選文件推薦給用戶。本發明採取了上述技術方案以後,不需要用戶的評分轉換評分參與計算,而是通過用戶對內容的偏好度(關鍵詞權重)和關鍵詞在該用戶相關的群體中的流行度來計算某項內容推薦給用戶的可能性。此外,本發明還公開了一種個性化內容推薦平臺以及系統。
文檔編號G06F17/30GK102982042SQ20111026379
公開日2013年3月20日 申請日期2011年9月7日 優先權日2011年9月7日
發明者陶振武 申請人:中國移動通信集團公司