基於社交平臺的數據挖掘方法及裝置製造方法
2023-10-10 11:28:54 6
基於社交平臺的數據挖掘方法及裝置製造方法
【專利摘要】本發明公開了一種基於社交平臺的數據挖掘方法及裝置。其中,該方法包括:獲取資訊客戶端上已註冊用戶的興趣標籤字典和社交平臺中與資訊客戶端上已註冊用戶具有關注關係的第一對象;根據已註冊用戶具有關注關係的第一對象,確定與已註冊用戶對應的第一關注集合;根據已註冊用戶的興趣標籤字典和第一關注集合,構建興趣模型;獲取資訊客戶端上新註冊用戶在社交平臺中與其具有關注關係的第二對象,並讀取新註冊用戶與第二對象之間的關係信息;根據新註冊用戶具有關注關係的第二對象;將第二關注集合與興趣模型進行匹配,確定新註冊用戶的推薦興趣標籤。本發明解決了現有技術中因新註冊用戶沒有歷史瀏覽記錄,導致的無法提供有針對性的資訊的問題。
【專利說明】基於社交平臺的數據挖掘方法及裝置
【技術領域】
[0001]本發明涉及計算機領域,具體而言,涉及一種基於社交平臺的數據挖掘方法及裝置。
【背景技術】
[0002]目前,在計算機技術的發展和網際網路的逐漸普及,越來越多的人通過網際網路來獲取各種各樣的資訊。而相應的,網際網路上的資訊數量也隨著計算機技術的發展和網際網路的普及變得更加豐富起來。
[0003]近些年來,移動網際網路的快速發展,人們逐漸習慣通過移動終端上的資訊客戶端來獲取資訊內容。這種方式使得用戶在通過網絡進行獲取資訊的時間變得更加碎片化。在這種背景下,如何精準的為用戶提供有價值,且用戶感興趣的資訊信息變得更加重要。尤其,在為新用戶提供有價值且感興趣的資訊,成為了亟待解決的問題。
[0004]在現有的技術當中,推薦系統的冷啟動問題是資訊客戶端這類產品應用中的一個主要挑戰。其中,推薦系統的冷啟動問題是指對於新用戶系統缺乏足夠的數據來捕獲用戶的興趣並有效的推薦內容。這個問題在眾多解決方案中,有一類被廣泛使用的方法,就是鼓勵用戶用社交網絡(Social Network Service:SNS)帳號登陸推薦系統,例如:微博、騰訊QQ、人人網等社交帳號登陸。推薦系統可以利用用戶社交網絡平臺的信息(例如:關注關係,好友關係,興趣標籤,發布內容等)初始化用戶的興趣模型,從而進行有效推薦。
[0005]一方面,單純利用社交網絡平臺的公開數據用於內容推薦(公開數據例如:視頻,文章,圖片,音樂,遊戲,軟體,好友等)在實際應用中還有不少困難。例如:在社交網絡平臺的發布內容往往篇幅較短,且內容雜亂,用戶的標籤內容往往標新立異(例如:不睡懶覺會死星人、密集恐懼症晚期患者等),較難被機器學習算法理解,對改進推薦服務幫助有限。而對於在社交網絡上不活躍,社交關係薄弱的用戶來說,其社交網絡平臺上的公開數據在改進推薦效果上作用就更加有限。另一方面,對於比較成熟,用戶量較大的內容推薦服務商來說,在長期的運營過程中,往往已經積累了大量的用戶行為信息,例如:用戶點播的視頻,看過或評論過的文章。這部分數據如果能夠有效的和社交網絡公開數據融合使用,有可能極大的改進用戶的推薦效果。然而,現有的技術,基本將關注點都聚焦在利用社交網絡平臺提供的公開數據挖掘用戶興趣模型並進行推薦,此種方法實現的難度較大,且準確率較低。
[0006]針對現有技術中因新註冊用戶沒有歷史瀏覽記錄,導致的無法提供有針對性的資訊的問題,目前尚未提出有效的解決方案。
【發明內容】
[0007]本發明的主要目的在於提供一種基於社交平臺的數據挖掘方法及裝置,以解決現有技術中因新註冊用戶沒有歷史瀏覽記錄,導致的無法提供有針對性的資訊的問題。
[0008]為了實現上述目的,根據本發明實施例的一個方面,提供了一種基於社交平臺的數據挖掘方法。該方法包括:獲取資訊客戶端上已註冊用戶的興趣標籤字典;獲取社交平臺中與資訊客戶端上已註冊用戶具有關注關係的第一對象,並讀取已註冊用戶與第一對象之間的關係信息;根據已註冊用戶具有關注關係的第一對象,確定與已註冊用戶對應的第一關注集合;根據已註冊用戶的興趣標籤子典和弟一關注集合,構建興趣I旲型,其中,興趣模型用於表徵具有相同第一關注集合的已註冊用戶與興趣標籤的對應關係;獲取資訊客戶端上新註冊用戶在社交平臺中與其具有關注關係的第二對象,並讀取新註冊用戶與第二對象之間的關係信息;根據新註冊用戶具有關注關係的第二對象,確定與新註冊用戶的第二關注集合;將第二關注集合與興趣模型進行匹配,根據興趣模型確定新註冊用戶的推薦興趣標籤。
[0009]為了實現上述目的,根據本發明實施例的另一方面,提供了一種基於社交平臺的數據挖掘裝置,該裝置包括:第一獲取模塊,用於獲取資訊客戶端上已註冊用戶的興趣標籤字典;第二獲取模塊,用於獲取社交平臺中與資訊客戶端上已註冊用戶具有關注關係的第一對象,並讀取已註冊用戶與第一對象之間的關係信息;第一確定模塊,用於根據已註冊用戶具有關注關係的第一對象,確定與已註冊用戶對應的第一關注集合;第一處理模塊,用於根據已註冊用戶的興趣標籤字典和第一關注集合,構建興趣模型,其中,興趣模型用於表徵具有相同第一關注集合的已註冊用戶與興趣標籤的對應關係;第三獲取模塊,用於獲取資訊客戶端上新註冊用戶在社交平臺中與其具有關注關係的第二對象,並讀取新註冊用戶與第二對象之間的關係信息;第二確定模塊,用於根據新註冊用戶具有關注關係的第二對象,確定與新註冊用戶的第二關注集合;第二處理模塊,用於將第二關注集合與興趣模型進行匹配,根據興趣模型確定新註冊用戶的推薦興趣標籤。
[0010]根據發明實施例,通過獲取資訊客戶端上已註冊用戶的興趣標籤字典;獲取社交平臺中與資訊客戶端上已註冊用戶具有關注關係的第一對象,並讀取已註冊用戶與第一對象之間的關係信息;根據已註冊用戶具有關注關係的第一對象,確定與已註冊用戶對應的第一關注集合;根據已註冊用戶的興趣標籤字典和第一關注集合,構建興趣模型,其中,興趣模型用於表徵具有相同第一關注集合的已註冊用戶與興趣標籤的對應關係;獲取資訊客戶端上新註冊用戶在社交平臺中與其具有關注關係的第二對象,並讀取新註冊用戶與第二對象之間的關係信息;根據新註冊用戶具有關注關係的第二對象,確定與新註冊用戶的第二關注集合;將第二關注集合與興趣模型進行匹配,根據興趣模型確定新註冊用戶的推薦興趣標籤,解決了現有技術中因新註冊用戶沒有歷史瀏覽記錄,導致的無法提供有針對性的資訊的問題。實現了通過新註冊用戶在社交平臺的關注關係為用戶提供有針對性資訊的效果。
【專利附圖】
【附圖說明】
[0011]構成本申請的一部分的附圖用來提供對本發明的進一步理解,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:
[0012]圖1是根據本發明實施例一的基於社交平臺的數據挖掘的流程圖;
[0013]圖2是根據本發明實施例一的優選的基於社交平臺的數據挖掘的流程圖;
[0014]圖3是通過微博中關注集合對已註冊用戶進行匹配生成已註冊用戶集合的流程示意圖;
[0015]圖4是根據本發明實施例二的基於社交平臺的數據挖掘裝置的結構示意圖;
[0016]圖5是根據本發明實施例二的優選的基於社交平臺的數據挖掘裝置的結構示意圖;以及
[0017]圖6是根據本發明實施例二的優選的基於社交平臺的數據挖掘裝置的結構示意圖。
【具體實施方式】
[0018]需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。下面將參考附圖並結合實施例來詳細說明本發明。
[0019]為了使本【技術領域】的人員更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分的實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬於本發明保護的範圍。
[0020]需要說明的是,本發明的說明書和權利要求書及上述附圖中的術語「第一」、「第二」等是用於區別類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的數據在適當情況下可以互換,以便這裡描述的本發明的實施例。此外,術語「包括」和「具有」以及他們的任何變形,意圖在於覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限於清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對於這些過程、方法、產品或設備固有的其它步驟或單元。
[0021]實施例1
[0022]本發明實施例提供了一種基於社交平臺的數據挖掘方法。
[0023]圖1是根據本發明實施例一的基於社交平臺的數據挖掘方法的流程圖。如圖1所示,該方法包括步驟如下:
[0024]步驟SI I,獲取資訊客戶端上已註冊用戶的興趣標籤字典。
[0025]本申請上述步驟S11,通過對已註冊用戶的歷史瀏覽行為的收集,分析得到與每個已註冊用戶對應的興趣標籤字典。
[0026]步驟S13,獲取社交平臺中與資訊客戶端上已註冊用戶具有關注關係的第一對象,並讀取已註冊用戶與第一對象之間的關係信息。
[0027]本申請上述步驟S13,通過讀取已註冊用戶在社交平臺上的關注關係信息,確定與已註冊用戶有關注關係的對象。
[0028]在實際應用當中,關注關係可以是騰訊QQ軟體中的好友關係,也可以是微博中的關注關係,也可以是人人網中的朋友關係。
[0029]步驟S15,根據已註冊用戶具有關注關係的第一對象,確定與已註冊用戶對應的第一關注集合。
[0030]本申請上述步驟S15,通過分別對每個已註冊用戶有關注關係的第一對象進行整理,從而確定每個已註冊用戶的第一關注集合。
[0031 ] 步驟S17,根據已註冊用戶的興趣標籤字典和第一關注集合,構建興趣模型,其中,興趣模型用於表徵具有相同第一關注集合的已註冊用戶與興趣標籤的對應關係。
[0032]本申請上述步驟S17,通過對每個已註冊用戶的關注集合進行分析,將具有不同第一關注集合的已註冊用戶進行分類,分為與若干個第一關注集合分別對應的已註冊用戶集合,並通過已註冊用戶集合中的已註冊用戶的興趣標籤字典,生成與第一關注集合對應的用戶集合標籤字典。從而確定第一關注集合與興趣標籤的對應關係。
[0033]步驟S19,獲取資訊客戶端上新註冊用戶在社交平臺中與其具有關注關係的第二對象,並讀取新註冊用戶與第二對象之間的關係信息。
[0034]本申請上述步驟S19,通過讀取新註冊用戶在社交平臺上的關注關係信息,確定與新註冊用戶有關注關係的第二對象。
[0035]在實際應用當中,關注關係可以是騰訊QQ軟體中的好友關係,也可以是微博中的關注關係,也可以是人人網中的朋友關係。
[0036]步驟S21,根據新註冊用戶具有關注關係的第二對象,確定新註冊用戶的第二關注隹A
口 O
[0037]本申請上述步驟S21,通過對新註冊用戶有關注關係的第二對象進行整理,從而確定新註冊用戶的第二關注集合。
[0038]步驟S23,將第二關注集合與興趣模型進行匹配,根據興趣模型確定新註冊用戶的推薦興趣標籤。
[0039]本申請上述步驟S23,通過新註冊用戶的關注第二集合與興趣模型中的若干個第一關注集合進行匹配,得到與新註冊用戶的第二關注集合相匹配的第一關注集合,從而通過該第一關注集合確定新註冊用戶的興趣標籤。
[0040]具體的,通過步驟Sll至步驟S23,對在社交平臺中有相同第一關注集合的已註冊用戶進行分組,得到與該第一關注集合對應的已註冊用戶集合,根據對資訊客戶端上已註冊用戶的興趣標籤字典的獲取,得到與已註冊用戶集合對應的用戶集合標籤字典。這樣,就構建了一個擁有第一關注集合與用戶集合標籤字典對應關係的興趣模型。在獲取新註冊用戶的第二關注集合之後,直接通過第二關注集合與興趣模型中的第一關注集合進行匹配,就可以得到新註冊用戶的推薦興趣標籤。
[0041]在實際應用當中,一般可以認為社交平臺中的關係反映了用戶的興趣相似性。基於不同的假設,我們可以採用不同的方法在社交平臺上找到和一個用戶興趣相似的其它用戶。不同的假設適用於不同類型的社交平臺,比如,對於騰訊QQ,微信這種強調雙向交流的社交平臺可以假設好友之間的興趣是類似的。而對於微博這種強調單向關注的社交平臺可以假設擁有共同關注對象的用戶興趣是類似的,例如,兩個用戶都關注了雷軍、黃章,他們很可能都對智慧型手機感興趣。
[0042]社交平臺以微博為例,對在資訊客戶端上已註冊用戶的微博關注列表的內容進行篩選,篩選出粉絲數超過一定數值的關注對象或者篩選出粉絲數前幾名的關注對象構成一個第一關注集合。以相同的篩選方式,對所有已註冊用戶的微博關注列表進行篩選,得到與每個已註冊用戶對應的第一關注集合,將擁有相同的第一關注集合的已註冊用戶歸為若干個已註冊用戶集合,每個已註冊用戶集合具有不同的第一關注集合。通過收集已註冊用戶集合中的已註冊用戶的興趣標籤字典,得到與各個已註冊用戶集合對應的用戶集合標籤字典。當一個新註冊用戶註冊資訊客戶端後並授權資訊客戶端調用微博公開數據之後,對該新用戶的關注列表也進行同樣方式的篩選,將篩選後的第二關注集合與若干個已註冊用戶集合的第一關注集合進行匹配,從而確定新用戶所屬的已註冊用戶集合,得到該已註冊用戶集合對應的用戶集合標籤字典,即新註冊用戶的推薦興趣標籤。
[0043]綜上所述,本發明解決了現有技術中因新註冊用戶沒有歷史瀏覽記錄,導致的無法提供有針對性的資訊的問題。實現了通過新註冊用戶在社交平臺的關注關係為用戶提供有針對性資訊的效果。
[0044]優選的,本申請提供的優選實施例中如圖2所示,在步驟Sll獲取資訊客戶端上已註冊用戶的興趣標籤字典之前,方法包括:
[0045]步驟S101,獲取推薦資訊。
[0046]步驟S103,從推薦資訊的內容提取推薦資訊的興趣標籤。
[0047]步驟S105,獲取已註冊用戶的歷史行為數據,其中,歷史行為數據用於記錄已註冊用戶對推薦資訊的操作行為。
[0048]步驟S107,根據歷史行為數據,確定興趣標籤的標籤權重值。
[0049]步驟S109,根據標籤權重值,確定與已註冊用戶對應的興趣標籤字典。
[0050]具體的,通過步驟SlOl至步驟S109,對資訊客戶端中的所有推薦資訊的內容進行分析,根據推薦資訊的內容為每條推薦資訊提取興趣標籤。當已註冊用戶對推薦資訊進行操作時,記錄已註冊用戶的操作行為,根據對推薦資訊的操作行為,對與該條推薦資訊對應的興趣標籤進行加權計算,計算得出與已註冊用戶對應的興趣標籤的權重值。當標籤權重值大於閾值時,將該標籤加入到與該用戶對應的興趣標籤字典當中。
[0051]在實際應用當中,在資訊客戶端中的推薦服務對客戶端推薦的推薦資訊內容會打上興趣標籤,例如:針對內容的分類:科技、足球、籃球等,針對對應的人群的分類:技術宅、戶外愛好者、青少年等,針對內容的關鍵詞:iPhone,坦克大賽,拜仁慕尼黑等。這些興趣標籤有時是人工編輯的,有時是算法自動分析推薦資訊識別的。
[0052]在推薦服務可推薦的所有推薦資訊有興趣標籤的情況下,通過記錄已註冊用戶使用推薦服務的行為數據,例如:瀏覽內容,點擊/收藏/評論內容等,並根據與資訊內容對應的興趣標籤得到用戶的興趣標籤字典。這個興趣標籤字典描述了用戶有哪些興趣標籤,每個興趣標籤的權重是多少。這個興趣標籤字典可以作為興趣模型在後續步驟中使用。
[0053]具體的,興趣標籤的標籤權重值的計算方法可以包括:
[0054]首先,對於每種用戶動作act設定一個權重W,比如點擊記I分,瀏覽但是沒有點擊記-0.2分,收藏記5分。
[0055]給定一個用戶動作序列[actl, act2,…,act3],用戶的興趣標籤向量計算如下:
[0056]V = Σ iTi.wi ;
[0057]其中Ti代表第i個用戶動作的興趣標籤向量,Wi代表第i個用戶動作的權重。
[0058]優選的,本申請提供的優選實施例中,步驟S17根據已註冊用戶的興趣標籤字典和第一關注集合,構建興趣模型的步驟包括:
[0059]步驟S171,對第一關注集合進行篩選,得到與已註冊用戶對應的第三關注集合,其中,篩選方法至少包括:數據篩選法、指標篩選法、條件篩選法和信息篩選法。
[0060]步驟S173,通過第三關注集合對已註冊用戶進行匹配,生成已註冊用戶集合,其中,已註冊用戶集合包括擁有相同第三關注集合的已註冊用戶。
[0061]步驟S175,根據已註冊用戶集合中包含的已註冊用戶的興趣標籤字典,生成與已註冊用戶集合對應的用戶集合標籤字典。
[0062]具體的,通過步驟S171至步驟S175,首先對已註冊用戶的第一關注集合進行篩選,可以按關注數量和/或好友數量和/或活躍度等條件將第一關注集合進行篩選,將不活躍、好友少的用戶從第一關注集合中去除,生成經過篩選的第三關注集合。
[0063]將經過篩選的已註冊用戶通過第三關注集合進行匹配,將第三關注集合的匹配度大於預先設置的閾值或者第三關注集合完全相同的已註冊用戶劃分入相同的已註冊用戶集合。根據第三關注集合的內容差異,已註冊用戶集合可以由很多個。當然,第三關注集合也可以由人為定義,根據人為定義的第三關注集合,將已註冊用戶進行分組,分入不同的已註冊用戶集合當中。
[0064]根據已註冊用戶集合當中與各個已註冊用戶對應的興趣標籤字典的內容,生成與當前已註冊用戶集合對應的用戶集合標籤字典。
[0065]上述社交平臺以微博為例,如圖3所示,圖3是通過微博中關注集合對已註冊用戶進行匹配生成已註冊用戶集合的流程示意圖。
[0066]根據對已註冊用戶的關注列表進行獲取,以粉絲數量作為篩選條件,將關注列表中粉絲數量較少的用戶篩選過濾。根據篩選過的關注列表生成第三關注集合。當然,對於微博來說,也可以人為對第三關注集合進行定義。例如,將微博中的特定用戶按照用戶類別進行劃分,可以將李開復、雷軍、周鴻禕、李彥宏等計算機網際網路領域的用戶化為一個第三關注集合,可以講何炅、謝娜、戴軍等娛樂傳媒領域的用戶化為一個第三關注集合,還可以將魏剋星、李娜、劉翔等體育運動領域的用戶劃分為一個第三關注集合。
[0067]根據第三關注集合,將已註冊的用戶進行分類劃分,將擁有共同第三關注集合的已註冊用戶劃分到一個已註冊用戶集合當中,以達到類似興趣用戶群體的目的。
[0068]優選的,本申請提供的優選實施例中,步驟S175根據已註冊用戶集合中包含的已註冊用戶的興趣標籤字典,生成與已註冊用戶集合對應的用戶集合標籤字典的步驟包括:
[0069]步驟S1751,獲取資訊客戶端上已註冊用戶的第一用戶數量和已註冊用戶集合的第二用戶數量。
[0070]步驟S1753,根據標籤權重值和第一用戶數量,計算各個興趣標籤的權重分布平均值。
[0071 ] 步驟S1755,根據已註冊用戶集合中的已註冊用戶的標籤權重值和第二用戶數量,計算用戶集合興趣標籤字典中的各個興趣標籤的集合權重平均值。
[0072]步驟S1757,根據權重分布平均值和集合權重平均值,計算得出興趣標籤在用戶集合興趣標籤字典中的已註冊用戶集合權重值。
[0073]步驟S1759,依次將興趣標籤在用戶集合興趣標籤字典中的已註冊用戶集合權重值與預先設定的噪聲閾值進行比較。
[0074]當興趣標籤在用戶集合興趣標籤字典中的已註冊用戶集合權重值大於預先設定的噪聲閾值時,在用戶集合標籤字典中保留與已註冊用戶集合權重值對應的興趣標籤;
[0075]當興趣標籤在用戶集合興趣標籤字典中的已註冊用戶集合權重值小於或等於預先設定的噪聲閾值時,在用戶集合標籤字典中刪除與已註冊用戶集合權重值對應的興趣標籤。
[0076]具體的,步驟S1751至步驟S1759在實際應用當中,社交平臺以微博為例,在找到類似興趣用戶群體後,可以合併這些用戶個體的興趣標籤字典獲得群體興趣模型。最簡單方法就是把用戶標籤向量直接相加。但是在實際應用當中,發現這樣做的結果有很大噪聲,因為某些領域的微博大號關注者非常多,很多人僅僅是因為這個大號有名氣而關注,關注行為本身無法反映自身興趣,如果簡單的把這些用戶的興趣標籤向量加和,有意義的信號就容易被普遍興趣淹沒。舉個實際實驗中的例子,分析關注王興(美團網創始人)的微博用戶,我們發現權重最大的興趣標籤不是「網際網路」,「020」,而是「娛樂」,「社會新聞」。這是因為「娛樂」和「社會新聞」是普遍的興趣標籤,很多有這兩個標籤的用戶因為王興是美團網的創始人關注了他,但其實對「網際網路」和「020」沒那麼關注。最終我們如果不加區別的考慮所有這些用戶,就會得到「娛樂」和「社會新聞」權重比「網際網路」,「020」更高的結果。
[0077]如何去除背景噪聲是有效挖掘群體興趣的核心技術。在實踐中,我們首先需要統計全體站的已註冊用戶的權重分布平均值:
[0078]Vhase= ^Σνη
[0079]其中N表不所有註冊用戶的數量,Vn表不一個用戶的興趣標籤權重分布;
[0080]通過上述公式,進而求得全體用戶在興趣標籤i上的平均權重Vbase [i];
[0081]然後對關注關係中擁有某一相同條件的已註冊用戶集合,(比如:在微博中,所有關注集合中,關注「王興」的已註冊用戶的集合),給定這個已註冊用戶集合群體興趣標籤向量V,分別求得用於去除噪聲的已註冊用戶集合權重值V』:
[0082]V』 [i] = V[i]/Vbase[i];
[0083]其中V』 [i]表不興趣標籤i的已註冊用戶集合權重值,V[i]表不興趣標籤i的興趣標籤的集合權重平均值,Vbase[i]表示全體用戶在興趣標籤i上的平均權重。
[0084]通過對已註冊用戶集合權重值V』和預先設定的噪聲閾值進行比較,當已註冊用戶集合權重值V』小於該噪聲閾值時,證明此興趣標籤為噪聲標籤,應當從當前用戶集合標籤字典中剔除出去;而當已註冊用戶集合權重值V』大於等於該噪聲閾值時,判斷該興趣標籤為非噪聲標籤,將該標籤保留在當前的用戶集合標籤字典當中。
[0085]優選的,本申請提供的優選實施例中,在步驟S23將第二關注集合與興趣模型進行匹配,根據興趣模型確定新註冊用戶的推薦興趣標籤中,步驟包括:
[0086]步驟S231,對第二關注集合進行篩選,得到與新註冊用戶對應的第四關注集合,其中,篩選方法至少包括:數據篩選法、指標篩選法、條件篩選法和信息篩選法。
[0087]步驟S233,將第四關注集合與第三關注集進行匹配,確定與新註冊用戶對應的已註冊用戶集合。
[0088]步驟S235,根據與新註冊用戶對應的已註冊用戶集合的用戶集合標籤字典,確定新註冊用戶的推薦興趣標籤。
[0089]具體的,通過步驟S231至步驟S235,首先對新註冊用戶的第二關注集合進行篩選,可以按關注數量和/或好友數量和/或活躍度等條件將第二關注集合進行篩選,將不活躍、好友少的用戶從第二關注集合中去除,生成經過篩選的第四關注集合。其中,篩選的方法可以與步驟171中所使用的篩選方法相同,也可以使用其他篩選方法。只要可以達到優化第二關注集合的目的,對所使用的篩選方法不做限制。
[0090]然後將第四關注集合與各個第三關注集合進行匹配,當新註冊用戶的第四關注集合與第三關注集合的匹配度大於預先設置的閾值或者第三關注集合完全相同時,確定該新註冊用戶與該第三關注集合匹配。從而確定該新註冊用戶所屬的已註冊用戶集合。
[0091]根據新註冊所屬的已註冊用戶集合的用戶集合標籤字典,確定對該新用戶推薦的推薦標籤。
[0092]在實際應用當中,挖掘出一個與新註冊用戶興趣相似用戶群的群體興趣模型後,我們可以按照一定權重融合這個群體興趣模型和用戶個體興趣模型,然後根據融合後的興趣模型來推薦內容。具體來說,給定一個融合後的興趣模型(興趣標籤向量),我們可以按照每一個興趣標籤的權重等比例的推薦一些該標籤下最優質的內容。
[0093]需要說明的是,對於新用戶,我們沒有任何該用戶的站內動作數據,也就無從獲得其個體興趣模型。但是如果這個新用戶是用社交平臺的網絡帳號登陸資訊客戶端的,我們可以獲取該新註冊用戶社交平臺上的社交關係,通過挖掘他的站內興趣相似用戶群,通過利用這個群體興趣模型給用戶推薦內容,就可以實現有針對性的推薦資訊。實際中,這種做法比隨機推薦或者推薦最熱門的內容效果更好。
[0094]優選的,本申請提供的優選實施例中,在步驟S23將第二關注集合與興趣模型進行匹配,根據興趣模型確定新註冊用戶的推薦興趣標籤之後,方法還包括:
[0095]步驟S24,根據推薦興趣標籤,為新註冊用戶推送推薦資訊。
[0096]具體的,通過步驟S24,根據通過上述步驟為新註冊用戶確定的興趣標籤,向新註冊用戶推送與興趣標籤匹配的推薦資訊。
[0097]從技術方案可以看出,本發明有效的結合了社交網絡公開數據和推薦服務私有數據共同為用戶推薦內容。同僅使用社交網絡公開數據或推薦服務私有數據相比,融合兩種數據有助於更精準的推薦個性化內容。而且本發明提出的融合方法對於新用戶也可以利用兩種數據的融合(基於站內數據挖掘的站內用戶興趣模型通過社交關係轉移到新註冊的站外用戶身上),這個也是傳統方法無法達到的效果。
[0098]本發明的一個特點是越是擁有大量用戶的推薦服務商,這種方法的效果會越好。因為這樣的推薦服務商其用戶群體對於社交網絡用戶群體的覆蓋面會比較大,不至於出現任給一個社交帳號,其好友或者粉絲大部分都不是站內用戶,無法挖掘群體興趣的情況。這對今日頭條這樣擁有億級用戶的產品是一個顯著的競爭優勢,而對於一些較小的推薦產品則是一個技術壁壘。
[0099]實施例2
[0100]本發明實施例還提供了一種基於社交平臺的數據挖掘裝置,如圖4所示,該裝置包括:第一獲取模塊30、第二獲取模塊32、第一確定模塊34、第一處理模塊36、第三獲取模塊38、第二確定模塊40和第二處理模塊42。
[0101]其中,第一獲取模塊30,用於獲取資訊客戶端上已註冊用戶的興趣標籤字典。
[0102]本申請的第一獲取模塊30,用於通過對已註冊用戶的歷史瀏覽行為的收集,分析得到與每個已註冊用戶對應的興趣標籤字典。
[0103]第二獲取模塊32,用於獲取社交平臺中與資訊客戶端上已註冊用戶具有關注關係的第一對象,並讀取已註冊用戶與第一對象之間的關係信息。
[0104]本申請的第二獲取模塊32,用於通過讀取已註冊用戶在社交平臺上的關注關係信息,確定與已註冊用戶有關注關係的對象。
[0105]在實際應用當中,關注關係可以是騰訊QQ軟體中的好友關係,也可以是微博中的關注關係,也可以是人人網中的朋友關係。
[0106]第一確定模塊34,用於根據已註冊用戶具有關注關係的第一對象,確定與已註冊用戶對應的第一關注集合。
[0107]本申請的第一確定模塊34,用於通過分別對每個已註冊用戶有關注關係的第一對象進行整理,從而確定每個已註冊用戶的第一關注集合。
[0108]第一處理模塊36,用於根據已註冊用戶的興趣標籤字典和第一關注集合,構建興趣模型,其中,興趣模型用於表徵具有相同第一關注集合的已註冊用戶與興趣標籤的對應關係。
[0109]本申請的第一處理模塊36,用於通過對每個已註冊用戶的關注集合進行分析,將具有不同第一關注集合的已註冊用戶進行分類,分為與若干個第一關注集合分別對應的已註冊用戶集合,並通過已註冊用戶集合中的已註冊用戶的興趣標籤字典,生成與第一關注集合對應的用戶集合標籤字典。從而確定第一關注集合與興趣標籤的對應關係。
[0110]第三獲取模塊38,用於獲取資訊客戶端上新註冊用戶在社交平臺中與其具有關注關係的第二對象,並讀取新註冊用戶與第二對象之間的關係信息。
[0111]本申請的第三獲取模塊38,用於通過讀取新註冊用戶在社交平臺上的關注關係信息,確定與新註冊用戶有關注關係的第二對象。
[0112]在實際應用當中,關注關係可以是騰訊QQ軟體中的好友關係,也可以是微博中的關注關係,也可以是人人網中的朋友關係。
[0113]第二確定模塊40,用於根據新註冊用戶具有關注關係的第二對象,確定與新註冊用戶的第二關注集合。
[0114]本申請的第二確定模塊40,用於通過對新註冊用戶有關注關係的第二對象進行整理,從而確定新註冊用戶的第二關注集合。
[0115]第二處理模塊42,用於將第二關注集合與興趣模型進行匹配,根據興趣模型確定新註冊用戶的推薦興趣標籤。
[0116]本申請的第二處理模塊42,用於通過新註冊用戶的關注第二集合與興趣模型中的若干個第一關注集合進行匹配,得到與新註冊用戶的第二關注集合相匹配的第一關注集合,從而通過該第一關注集合確定新註冊用戶的興趣標籤。
[0117]具體的,通過第一獲取模塊30、第二獲取模塊32、第一確定模塊34、第一處理模塊36、第三獲取模塊38、第二確定模塊40和第二處理模塊42,對在社交平臺中有相同第一關注集合的已註冊用戶進行分組,得到與該第一關注集合對應的已註冊用戶集合,根據對資訊客戶端上已註冊用戶的興趣標籤字典的獲取,得到與已註冊用戶集合對應的用戶集合標籤字典。這樣,就構建了一個擁有第一關注集合與用戶集合標籤字典對應關係的興趣模型。在獲取新註冊用戶的第二關注集合之後,直接通過第二關注集合與興趣模型中的第一關注集合進行匹配,就可以得到新註冊用戶的推薦興趣標籤。
[0118]在實際應用當中,一般可以認為社交平臺中的關係反映了用戶的興趣相似性。基於不同的假設,我們可以採用不同的方法在社交平臺上找到和一個用戶興趣相似的其它用戶。不同的假設適用於不同類型的社交平臺,比如,對於騰訊QQ,微信這種強調雙向交流的社交平臺可以假設好友之間的興趣是類似的。而對於微博這種強調單向關注的社交平臺可以假設擁有共同關注對象的用戶興趣是類似的,例如,兩個用戶都關注了雷軍、黃章,他們很可能都對智慧型手機感興趣。
[0119]社交平臺以微博為例,對在資訊客戶端上已註冊用戶的微博關注列表的內容進行篩選,篩選出粉絲數超過一定數值的關注對象或者篩選出粉絲數前幾名的關注對象構成一個第一關注集合。以相同的篩選方式,對所有已註冊用戶的微博關注列表進行篩選,得到與每個已註冊用戶對應的第一關注集合,將擁有相同的第一關注集合的已註冊用戶歸為若干個已註冊用戶集合,每個已註冊用戶集合具有不同的第一關注集合。通過收集已註冊用戶集合中的已註冊用戶的興趣標籤字典,得到與各個已註冊用戶集合對應的用戶集合標籤字典。當一個新註冊用戶註冊資訊客戶端後並授權資訊客戶端調用微博公開數據之後,對該新用戶的關注列表也進行同樣方式的篩選,將篩選後的第二關注集合與若干個已註冊用戶集合的第一關注集合進行匹配,從而確定新用戶所屬的已註冊用戶集合,得到該已註冊用戶集合對應的用戶集合標籤字典,即新註冊用戶的推薦興趣標籤。
[0120]綜上所述,本發明解決了現有技術中因新註冊用戶沒有歷史瀏覽記錄,導致的無法提供有針對性的資訊的問題。實現了通過新註冊用戶在社交平臺的關注關係為用戶提供有針對性資訊的效果。
[0121]優選的,本申請提供的優選實施例中,如圖5所示,裝置還包括:第四獲取模塊281、提取模塊283、第五獲取模塊285、第三確定模塊287和第四確定模塊289。
[0122]其中,第四獲取模塊281,用於獲取推薦資訊。
[0123]提取模塊283,用於從推薦資訊的內容提取推薦資訊的興趣標籤。
[0124]第五獲取模塊285,用於獲取已註冊用戶的歷史行為數據,其中,歷史行為數據用於記錄已註冊用戶對推薦資訊的操作行為。
[0125]第三確定模塊287,用於根據歷史行為數據,確定興趣標籤的標籤權重值。
[0126]第四確定模塊289,用於根據標籤權重值,確定與已註冊用戶對應的興趣標籤字典。
[0127]具體的,通過第四獲取模塊281、提取模塊283、第五獲取模塊285、第三確定模塊287和第四確定模塊289,對資訊客戶端中的所有推薦資訊的內容進行分析,根據推薦資訊的內容為每條推薦資訊提取興趣標籤。當已註冊用戶對推薦資訊進行操作時,記錄已註冊用戶的操作行為,根據對推薦資訊的操作行為,對與該條推薦資訊對應的興趣標籤進行加權計算,計算得出與已註冊用戶對應的興趣標籤的權重值。當標籤權重值大於閾值時,將該標籤加入到與該用戶對應的興趣標籤字典當中。
[0128]在實際應用當中,在資訊客戶端中的推薦服務對客戶端推薦的推薦資訊內容會打上興趣標籤,例如:針對內容的分類:科技、足球、籃球等,針對對應的人群的分類:技術宅、戶外愛好者、青少年等,針對內容的關鍵詞:iPhone,坦克大賽,拜仁慕尼黑等。這些興趣標籤有時是人工編輯的,有時是算法自動分析推薦資訊識別的。
[0129]在推薦服務可推薦的所有推薦資訊有興趣標籤的情況下,通過記錄已註冊用戶使用推薦服務的行為數據,例如:瀏覽內容,點擊/收藏/評論內容等,並根據與資訊內容對應的興趣標籤得到用戶的興趣標籤字典。這個興趣標籤字典描述了用戶有哪些興趣標籤,每個興趣標籤的權重是多少。這個興趣標籤字典可以作為興趣模型在後續步驟中使用。
[0130]具體的,興趣標籤的標籤權重值的計算方法可以包括:
[0131]首先,對於每種用戶動作act設定一個權重W,比如點擊記I分,瀏覽但是沒有點擊記-0.2分,收藏記5分。
[0132]給定一個用戶動作序列[actl, act2,…,act3],用戶的興趣標籤向量計算如下:
[0133]V = E Ji.wi ;
[0134]其中Ti代表第i個用戶動作的興趣標籤向量,Wi代表第i個用戶動作的權重。
[0135]優選的,本申請提供的優選實施例中,第一處理模塊36,包括:第一子處理模塊361、子匹配模塊363和第一生成模塊365。
[0136]其中,第一子處理模塊361,用於對第一關注集合進行篩選,得到與已註冊用戶對應的第三關注集合,其中,篩選裝置至少包括:數據篩選法、指標篩選法、條件篩選法和信息篩選法。
[0137]子匹配模塊363,用於通過第三關注集合對已註冊用戶進行匹配,生成已註冊用戶集合,其中,已註冊用戶集合包括擁有相同第三關注集合的已註冊用戶。
[0138]第一生成模塊365,用於根據已註冊用戶集合中包含的已註冊用戶的興趣標籤字典,生成與已註冊用戶集合對應的用戶集合標籤字典。
[0139]具體的,通過第一子處理模塊361、子匹配模塊363和第一生成模塊365,首先對已註冊用戶的第一關注集合進行篩選,可以按關注數量和/或好友數量和/或活躍度等條件將第一關注集合進行篩選,將不活躍、好友少的用戶從第一關注集合中去除,生成經過篩選的第三關注集合。
[0140]將經過篩選的已註冊用戶通過第三關注集合進行匹配,將第三關注集合的匹配度大於預先設置的閾值或者第三關注集合完全相同的已註冊用戶劃分入相同的已註冊用戶集合。根據第三關注集合的內容差異,已註冊用戶集合可以由很多個。當然,第三關注集合也可以由人為定義,根據人為定義的第三關注集合,將已註冊用戶進行分組,分入不同的已註冊用戶集合當中。
[0141]根據已註冊用戶集合當中與各個已註冊用戶對應的興趣標籤字典的內容,生成與當前已註冊用戶集合對應的用戶集合標籤字典。
[0142]上述社交平臺以微博為例,如圖3所示,圖3是通過微博中關注集合對已註冊用戶進行匹配生成已註冊用戶集合的流程示意圖。
[0143]根據對已註冊用戶的關注列表進行獲取,以粉絲數量作為篩選條件,將關注列表中粉絲數量較少的用戶篩選過濾。根據篩選過的關注列表生成第三關注集合。當然,對於微博來說,也可以人為對第三關注集合進行定義。例如,將微博中的特定用戶按照用戶類別進行劃分,可以將李開復、雷軍、周鴻禕、李彥宏等計算機網際網路領域的用戶化為一個第三關注集合,可以講何炅、謝娜、戴軍等娛樂傳媒領域的用戶化為一個第三關注集合,還可以將魏剋星、李娜、劉翔等體育運動領域的用戶劃分為一個第三關注集合。
[0144]根據第三關注集合,將已註冊的用戶進行分類劃分,將擁有共同第三關注集合的已註冊用戶劃分到一個已註冊用戶集合當中,以達到類似興趣用戶群體的目的。
[0145]優選的,本申請提供的優選實施例中,第一生成模塊365,包括:第一子獲取模塊3651、第一子計算模塊3652、第二子計算模塊3653、第三子計算模塊3654和子判斷模塊3655。
[0146]其中,第一子獲取模塊3651,用於獲取資訊客戶端上已註冊用戶的第一用戶數量和已註冊用戶集合的第二用戶數量。
[0147]第一子計算模塊3652,用於根據標籤權重值和第一用戶數量,計算各個興趣標籤的權重分布平均值。
[0148]第二子計算模塊3653,用於根據已註冊用戶集合中的已註冊用戶的標籤權重值和第二用戶數量,計算用戶集合興趣標籤字典中的各個興趣標籤的集合權重平均值。
[0149]第三子計算模塊3654,用於根據權重分布平均值和集合權重平均值,計算得出興趣標籤在用戶集合興趣標籤字典中的已註冊用戶集合權重值。
[0150]子判斷模塊3655,用於依次將興趣標籤在用戶集合興趣標籤字典中的已註冊用戶集合權重值與預先設定的噪聲閾值進行比較。
[0151]當興趣標籤在用戶集合興趣標籤字典中的已註冊用戶集合權重值大於預先設定的噪聲閾值時,在用戶集合標籤字典中保留與已註冊用戶集合權重值對應的興趣標籤。
[0152]當興趣標籤在用戶集合興趣標籤字典中的已註冊用戶集合權重值小於或等於預先設定的噪聲閾值時,在用戶集合標籤字典中刪除與已註冊用戶集合權重值對應的興趣標籤。
[0153]具體的,通過第一生成模塊365,包括:第一子獲取模塊3651、第一子計算模塊3652、第二子計算模塊3653、第三子計算模塊3654和子判斷模塊3655在實際應用當中的應用,社交平臺以微博為例,在找到類似興趣用戶群體後,可以合併這些用戶個體的興趣標籤字典獲得群體興趣模型。最簡單方法就是把用戶標籤向量直接相加。但是在實際應用當中,發現這樣做的結果有很大噪聲,因為某些領域的微博大號關注者非常多,很多人僅僅是因為這個大號有名氣而關注,關注行為本身無法反映自身興趣,如果簡單的把這些用戶的興趣標籤向量加和,有意義的信號就容易被普遍興趣淹沒。舉個實際實驗中的例子,分析關注王興(美團網創始人)的微博用戶,我們發現權重最大的興趣標籤不是「網際網路」,「020」,而是「娛樂」,「社會新聞」。這是因為「娛樂」和「社會新聞」是普遍的興趣標籤,很多有這兩個標籤的用戶因為王興是美團網的創始人關注了他,但其實對「網際網路」和「020」沒那麼關注。最終我們如果不加區別的考慮所有這些用戶,就會得到「娛樂」和「社會新聞」權重比「網際網路」,「020」更高的結果。
[0154]如何去除背景噪聲是有效挖掘群體興趣的核心技術。在實踐中,我們首先需要統計全體站的已註冊用戶的權重分布平均值:
[0155]Vb =去Σ%;
[0156]其中N表不所有註冊用戶的數量,Vn表不一個用戶的興趣標籤權重分布;
[0157]通過上述公式,進而求得全體用戶在興趣標籤i上的平均權重Vbase[i];
[0158]然後對關注關係中擁有某一相同條件的已註冊用戶集合,(比如:在微博中,所有關注集合中,關注「王興」的已註冊用戶的集合),給定這個已註冊用戶集合群體興趣標籤向量V,分別求得用於去除噪聲的已註冊用戶集合權重值V』:
[0159]V』 [i] = V[i]/Vbase[i];
[0160]其中V』 [i]表不興趣標籤i的已註冊用戶集合權重值,V[i]表不興趣標籤i的興趣標籤的集合權重平均值,Vbase[i]表示全體用戶在興趣標籤i上的平均權重。
[0161]通過對已註冊用戶集合權重值V』和預先設定的噪聲閾值進行比較,當已註冊用戶集合權重值V』小於該噪聲閾值時,證明此興趣標籤為噪聲標籤,應當從當前用戶集合標籤字典中剔除出去;而當已註冊用戶集合權重值V』大於等於該噪聲閾值時,判斷該興趣標籤為非噪聲標籤,將該標籤保留在當前的用戶集合標籤字典當中。
[0162]通過對已註冊用戶集合權重值V』和預先設定的噪聲閾值進行比較,當已註冊用戶集合權重值V』小於該噪聲閾值時,證明此興趣標籤為噪聲標籤,應當從當前用戶集合標籤字典中剔除出去;而當已註冊用戶集合權重值V』大於等於該噪聲閾值時,判斷該興趣標籤為非噪聲標籤,將該標籤保留在當前的用戶集合標籤字典當中。
[0163]優選的,本申請提供的優選實施例中,第二處理模塊42,包括:第二子處理模塊421、第一子確定模塊423和第二子確定模塊425。
[0164]其中,第二子處理模塊421,用於對第二關注集合進行篩選,得到與新註冊用戶對應的第四關注集合,其中,篩選裝置至少包括:數據篩選法、指標篩選法、條件篩選法和信息篩選法。
[0165]第一子確定模塊423,用於將第四關注集合與第三關注集進行匹配,確定與新註冊用戶對應的已註冊用戶集合。
[0166]第二子確定模塊425,用於根據與新註冊用戶對應的已註冊用戶集合的用戶集合標籤字典,確定新註冊用戶的推薦興趣標籤。
[0167]具體的,通過第二子處理模塊421、第一子確定模塊423和第二子確定模塊425,首先對新註冊用戶的第二關注集合進行篩選,可以按關注數量和/或好友數量和/或活躍度等條件將第二關注集合進行篩選,將不活躍、好友少的用戶從第二關注集合中去除,生成經過篩選的第四關注集合。其中,篩選的方法可以與步驟171中所使用的篩選方法相同,也可以使用其他篩選方法。只要可以達到優化第二關注集合的目的,對所使用的篩選方法不做限制。
[0168]然後將第四關注集合與各個第三關注集合進行匹配,當新註冊用戶的第四關注集合與第三關注集合的匹配度大於預先設置的閾值或者第三關注集合完全相同時,確定該新註冊用戶與該第三關注集合匹配。從而確定該新註冊用戶所屬的已註冊用戶集合。
[0169]根據新註冊所屬的已註冊用戶集合的用戶集合標籤字典,確定對該新用戶推薦的推薦標籤。
[0170]在實際應用當中,挖掘出一個與新註冊用戶興趣相似用戶群的群體興趣模型後,我們可以按照一定權重融合這個群體興趣模型和用戶個體興趣模型,然後根據融合後的興趣模型來推薦內容。具體來說,給定一個融合後的興趣模型(興趣標籤向量),我們可以按照每一個興趣標籤的權重等比例的推薦一些該標籤下最優質的內容。
[0171 ] 需要說明的是,對於新用戶,我們沒有任何該用戶的站內動作數據,也就無從獲得其個體興趣模型。但是如果這個新用戶是用社交平臺的網絡帳號登陸資訊客戶端的,我們可以獲取該新註冊用戶社交平臺上的社交關係,通過挖掘他的站內興趣相似用戶群,通過利用這個群體興趣模型給用戶推薦內容,就可以實現有針對性的推薦資訊。實際中,這種做法比隨機推薦或者推薦最熱門的內容效果更好。
[0172]優選的,本申請提供的優選實施例中,如圖6所示,裝置還包括:推送模塊43。
[0173]其中,推送模塊43,用於根據推薦興趣標籤,為新註冊用戶推送推薦資訊。
[0174]具體的,通過推送模塊43,根據通過上述步驟為新註冊用戶確定的興趣標籤,向新註冊用戶推送與興趣標籤匹配的推薦資訊。
[0175]從技術方案可以看出,本發明有效的結合了社交網絡公開數據和推薦服務私有數據共同為用戶推薦內容。同僅使用社交網絡公開數據或推薦服務私有數據相比,融合兩種數據有助於更精準的推薦個性化內容。而且本發明提出的融合方法對於新用戶也可以利用兩種數據的融合(基於站內數據挖掘的站內用戶興趣模型通過社交關係轉移到新註冊的站外用戶身上),這個也是傳統方法無法達到的效果。
[0176]本發明的一個特點是越是擁有大量用戶的推薦服務商,這種方法的效果會越好。因為這樣的推薦服務商其用戶群體對於社交網絡用戶群體的覆蓋面會比較大,不至於出現任給一個社交帳號,其好友或者粉絲大部分都不是站內用戶,無法挖掘群體興趣的情況。這對今日頭條這樣擁有億級用戶的產品是一個顯著的競爭優勢,而對於一些較小的推薦產品則是一個技術壁魚。
[0177]需要說明的是,對於前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明並不受所描述的動作順序的限制,因為依據本發明,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作和模塊並不一定是本發明所必須的。
[0178]在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
[0179]在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置,可通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特徵可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
[0180]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0181]另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。
[0182]所述集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、移動終端、伺服器或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機存取存儲器(RAM, Random Access Memory)、移動硬碟、磁碟或者光碟等各種可以存儲程序代碼的介質。
[0183]以上所述僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
【權利要求】
1.一種基於社交平臺的數據挖掘方法,其特徵在於,包括: 獲取資訊客戶端上已註冊用戶的興趣標籤字典; 獲取社交平臺中與所述資訊客戶端上已註冊用戶具有關注關係的第一對象,並讀取所述已註冊用戶與所述第一對象之間的關係信息; 根據所述已註冊用戶具有關注關係的所述第一對象,確定與所述已註冊用戶對應的第一關注集合; 根據所述已註冊用戶的興趣標籤字典和所述第一關注集合,構建興趣模型,其中,所述興趣模型用於表徵具有相同所述第一關注集合的所述已註冊用戶與興趣標籤的對應關係; 獲取所述資訊客戶端上新註冊用戶在社交平臺中與其具有關注關係的第二對象,並讀取所述新註冊用戶與所述第二對象之間的關係信息; 根據所述新註冊用戶具有關注關係的所述第二對象,確定與所述新註冊用戶的第二關注集合; 將所述第二關注集合與所述興趣模型進行匹配,根據所述興趣模型確定所述新註冊用戶的推薦興趣標籤。
2.根據權利要求1所述的方法,其特徵在於,在所述獲取資訊客戶端上已註冊用戶的興趣標籤字典之前,所述方法包括: 獲取推薦資訊; 從所述推薦資訊的內容提取所述推薦資訊的所述興趣標籤; 獲取所述已註冊用戶的歷史行為數據,其中,所述歷史行為數據用於記錄所述已註冊用戶對所述推薦資訊的操作行為; 根據所述歷史行為數據,確定所述興趣標籤的標籤權重值; 根據所述標籤權重值,確定與所述已註冊用戶對應的所述興趣標籤字典。
3.根據權利要求2所述的方法,其特徵在於,所述根據所述已註冊用戶的興趣標籤字典和所述第一關注集合,構建興趣模型的步驟包括: 對所述第一關注集合進行篩選,得到與所述已註冊用戶對應的第三關注集合,其中,所述篩選方法至少包括:數據篩選法、指標篩選法、條件篩選法和信息篩選法; 通過所述第三關注集合對所述已註冊用戶進行匹配,生成已註冊用戶集合,其中,所述已註冊用戶集合包括擁有相同第三關注集合的所述已註冊用戶; 根據所述已註冊用戶集合中包含的所述已註冊用戶的所述興趣標籤字典,生成與所述已註冊用戶集合對應的用戶集合標籤字典。
4.根據權利要求3所述的方法,其特徵在於,所述根據所述已註冊用戶集合中包含的所述已註冊用戶的所述興趣標籤字典,生成與所述已註冊用戶集合對應的用戶集合標籤字典的步驟包括: 獲取所述資訊客戶端上已註冊用戶的第一用戶數量和所述已註冊用戶集合的第二用戶數量; 根據所述標籤權重值和所述第一用戶數量,計算各個所述興趣標籤的權重分布平均值; 根據所述已註冊用戶集合中的所述已註冊用戶的所述標籤權重值和所述第二用戶數量,計算所述用戶集合興趣標籤字典中的各個所述興趣標籤的集合權重平均值; 根據所述權重分布平均值和所述集合權重平均值,計算得出所述興趣標籤在所述用戶集合興趣標籤字典中的已註冊用戶集合權重值; 依次將所述興趣標籤在所述用戶集合興趣標籤字典中的所述已註冊用戶集合權重值與預先設定的噪聲閾值進行比較; 當所述興趣標籤在所述用戶集合興趣標籤字典中的所述已註冊用戶集合權重值大於預先設定的噪聲閾值時,在所述用戶集合標籤字典中保留與所述已註冊用戶集合權重值對應的興趣標籤; 當所述興趣標籤在所述用戶集合興趣標籤字典中的所述已註冊用戶集合權重值小於或等於預先設定的噪聲閾值時,在所述用戶集合標籤字典中刪除與所述已註冊用戶集合權重值對應的興趣標籤。
5.根據權利要求4所述的方法,其特徵在於,所述將所述第二關注集合與所述興趣模型進行匹配,根據所述興趣模型確定所述新註冊用戶的推薦興趣標籤的步驟包括: 對所述第二關注集合進行篩選,得到與所述新註冊用戶對應的第四關注集合,其中,所述篩選方法至少包括:數據篩選法、指標篩選法、條件篩選法和信息篩選法; 將所述第四關注集合與所述第三關注集進行匹配,確定與所述新註冊用戶對應的所述已註冊用戶集合; 根據與所述新註冊用戶對應的所述已註冊用戶集合的所述用戶集合標籤字典,確定所述新註冊用戶的所述推薦興趣標籤。
6.根據權利要求1至5中任意一項所述的方法,其特徵在於,在所述將所述第二關注集合與所述興趣模型進行匹配,根據所述興趣模型確定所述新註冊用戶的推薦興趣標籤之後,所述方法還包括: 根據所述推薦興趣標籤,為所述新註冊用戶推送所述推薦資訊。
7.一種基於社交平臺的數據挖掘裝置,其特徵在於,包括: 第一獲取模塊,用於獲取資訊客戶端上已註冊用戶的興趣標籤字典; 第二獲取模塊,用於獲取社交平臺中與所述資訊客戶端上已註冊用戶具有關注關係的第一對象,並讀取所述已註冊用戶與所述第一對象之間的關係信息; 第一確定模塊,用於根據所述已註冊用戶具有關注關係的所述第一對象,確定與所述已註冊用戶對應的第一關注集合; 第一處理模塊,用於根據所述已註冊用戶的興趣標籤字典和所述第一關注集合,構建興趣模型,其中,所述興趣模型用於表徵具有相同所述第一關注集合的所述已註冊用戶與興趣標籤的對應關係; 第三獲取模塊,用於獲取所述資訊客戶端上新註冊用戶在社交平臺中與其具有關注關係的第二對象,並讀取所述新註冊用戶與所述第二對象之間的關係信息; 第二確定模塊,用於根據所述新註冊用戶具有關注關係的所述第二對象,確定與所述新註冊用戶的第二關注集合; 第二處理模塊,用於將所述第二關注集合與所述興趣模型進行匹配,根據所述興趣模型確定所述新註冊用戶的推薦興趣標籤。
8.根據權利要求7所述的裝置,其特徵在於,所述裝置還包括: 第四獲取模塊,用於獲取推薦資訊; 提取模塊,用於從所述推薦資訊的內容提取所述推薦資訊的所述興趣標籤; 第五獲取模塊,用於獲取所述已註冊用戶的歷史行為數據,其中,所述歷史行為數據用於記錄所述已註冊用戶對所述推薦資訊的操作行為; 第三確定模塊,用於根據所述歷史行為數據,確定所述興趣標籤的標籤權重值; 第四確定模塊,用於根據所述標籤權重值,確定與所述已註冊用戶對應的所述興趣標籤字典。
9.根據權利要求8所述的裝置,其特徵在於,所述第一處理模塊,包括: 第一子處理模塊,用於對所述第一關注集合進行篩選,得到與所述已註冊用戶對應的第三關注集合,其中,所述篩選裝置至少包括:數據篩選法、指標篩選法、條件篩選法和信息篩選法; 子匹配模塊,用於通過所述第三關注集合對所述已註冊用戶進行匹配,生成已註冊用戶集合,其中,所述已註冊用戶集合包括擁有相同第三關注集合的所述已註冊用戶; 第一生成模塊,用於根據所述已註冊用戶集合中包含的所述已註冊用戶的所述興趣標籤字典,生成與所述已註冊用戶集合對應的用戶集合標籤字典。
10.根據權利要求9所述的裝置,其特徵在於,所述第一生成模塊,包括: 第一子獲取模塊,用於獲取所述資訊客戶端上已註冊用戶的第一用戶數量和所述已註冊用戶集合的第二用戶數量; 第一子計算模塊,用於根據所述標籤權重值和所述第一用戶數量,計算各個所述興趣標籤的權重分布平均值; 第二子計算模塊,用於根據所述已註冊用戶集合中的所述已註冊用戶的所述標籤權重值和所述第二用戶數量,計算所述用戶集合興趣標籤字典中的各個所述興趣標籤的集合權重平均值; 第三子計算模塊,用於根據所述權重分布平均值和所述集合權重平均值,計算得出所述興趣標籤在所述用戶集合興趣標籤字典中的已註冊用戶集合權重值; 子判斷模塊,用於依次將所述興趣標籤在所述用戶集合興趣標籤字典中的所述已註冊用戶集合權重值與預先設定的噪聲閾值進行比較; 當所述興趣標籤在所述用戶集合興趣標籤字典中的所述已註冊用戶集合權重值大於預先設定的噪聲閾值時,在所述用戶集合標籤字典中保留與所述已註冊用戶集合權重值對應的興趣標籤; 當所述興趣標籤在所述用戶集合興趣標籤字典中的所述已註冊用戶集合權重值小於或等於預先設定的噪聲閾值時,在所述用戶集合標籤字典中刪除與所述已註冊用戶集合權重值對應的興趣標籤。
11.根據權利要求10所述的裝置,其特徵在於,所述第二處理模塊,包括: 第二子處理模塊,用於對所述第二關注集合進行篩選,得到與所述新註冊用戶對應的第四關注集合,其中,所述篩選裝置至少包括:數據篩選法、指標篩選法、條件篩選法和信息篩選法; 第一子確定模塊,用於將所述第四關注集合與所述第三關注集進行匹配,確定與所述新註冊用戶對應的所述已註冊用戶集合; 第二子確定模塊,用於根據與所述新註冊用戶對應的所述已註冊用戶集合的所述用戶集合標籤字典,確定所述新註冊用戶的所述推薦興趣標籤。
12.根據權利要求7至11中任意一項所述的裝置,其特徵在於,所述裝置還包括: 推送模塊,用於根據所述推薦興趣標籤,為所述新註冊用戶推送所述推薦資訊。
【文檔編號】G06Q50/00GK104317959SQ201410645497
【公開日】2015年1月28日 申請日期:2014年11月10日 優先權日:2014年11月10日
【發明者】陳韜, 曹歡歡, 羅立新 申請人:北京字節跳動網絡技術有限公司