新四季網

一種基於標籤的社交網絡用戶興趣挖掘方法與裝置的製作方法

2023-05-17 13:11:51

專利名稱:一種基於標籤的社交網絡用戶興趣挖掘方法與裝置的製作方法
技術領域:
本發明涉及網際網路信息挖掘領域,特別涉及一種基於標籤的社交網絡用戶興趣挖掘方法與裝置。
背景技術:
現有的用戶興趣獲取和應用的方法主要分為如下幾個不同的體系I、關聯體系這個體系的方法利用用戶和實體之間產生的直接關聯,採用協同過濾等從眾方法,將用戶可能感興趣、但尚未發生關聯的實體和該用戶關聯起來。優點簡單明了,對從眾性的用戶和實體往往能夠取得不錯的判斷結果;
缺點不能對小眾用戶的興趣進行判斷;不能直接定義用戶的興趣,只能針對具體實體判斷用戶的喜好程度。2、實體標籤體系這個體系採用的技術手段是在實體出現的位置提供輸入,引導用戶對實體進行簡短描述,將這些簡短描述語收集並作為該實體的標籤。優點代價小,僅僅需要提供功能,標籤由用戶生成;缺點標籤無法規範,利用難度大;用戶大都不願填寫;對於單個實體,收集的標籤數量少,描述也不完整;無法直接對用戶興趣進行描述。3、分類體系這個體系設定一些用戶興趣的類目,在用戶註冊或首次使用產品的時候,要求用戶從中選擇幾個感興趣的類目,以此作為用戶興趣的判定;優點用戶牴觸小,能夠直接定義用戶興趣;缺點必須事先對實體同樣做分類映射,如果實體數量較多,會面臨映射代價大和精度低的問題;靈活性不夠,不能正確反映用戶興趣的變化;類目數量受到限制,不能對用戶興趣進行稍細緻的描述。

發明內容
本發明的目的是針對上述問題,提出一種以標籤為基礎的用戶興趣挖掘方法及裝置,在解決現有技術缺陷的基礎上能夠最大限度的挖掘社交網絡中用戶的興趣。為實現上述目的,本發明提供了一種基於標籤的社交網絡用戶興趣挖掘方法,包括收集用戶在社交網絡上的數據;根據數據生成標籤興趣列;所述標籤興趣列為所述數據中所有標籤及標籤對應地權重的集合;根據標籤興趣列進行用戶興趣信息推薦,實現了社交網絡用戶興趣挖掘。可選的,本發明一實施例中,所述根據標籤興趣列進行用戶興趣信息推薦包括所述標籤興趣列向量化得到標籤興趣向量;對標籤興趣向量進行抽象,獲取抽象結果;根據抽象結果進行用戶興趣信息推薦。可選的,本發明一實施例中,所述對標籤興趣向量進行抽象包括
按照標籤的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標籤的屬性映射關係將標籤興趣向量分為低級別抽象類目和高級別抽象類目,將標籤興趣向量中的標籤賦給相應的類目中,合併相應抽象類目中的標籤和相應權重,得到低級類目興趣向量和高級類目興趣向量;根據應用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標籤為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。可選的,本發明一實施例中,所述數據包括社交網絡上用戶生成的文字性數據和社交網絡上用戶與文字性內容的關聯關係數據。可選的,本發明一實施例中,所述根據數據生成標籤興趣列包括獲取所述社交網絡上用戶生成的文字性數據包含的所有標籤和每個標籤所對應地權重;將所述社交網絡上用戶與文字性內容的關聯關係數據轉換為用戶-關係鏈形式;合併用戶在所有內容上的標籤得到用戶的標籤興趣列。可選的,本發明一實施例中,該方法還包括對收集到的用戶在社交網絡上的所有 數據進行清洗。可選的,本發明一實施例中,所述清洗包括過濾廣告內容、對長篇文字僅取前500個字作為分析對象以及採用標籤主動匹配內容的方法過濾不良信息。可選的,本發明一實施例中,所述社交網絡上用戶生成的文字性數據分為標題和內容;採取字符串匹配算法獲取所述社交網絡上用戶生成的文字性數據中包含的所有標籤,根據每個標籤的出現次數作為該內容在該標籤上的權重。可選的,本發明一實施例中,所述標題和內容均包含同一標籤中,該標籤的權重為其在標題所得權重與在內容所得權重之和。可選的,本發明一實施例中,所述社交網絡上用戶生成的文字性數據表示為KTi, TFi), <Tj, TFj),…,};其中,Ti代表某個標籤,TFi代表標籤Ti在內容中的權重。可選的,本發明一實施例中,所述社交網絡上用戶與文字性內容的關聯關係數據的用戶-關係鍊表示為u_> (C1, C2, C3,…;其中,U代表某個用戶,Ci代表與用戶U有關聯關係的內容。可選的,本發明一實施例中,所述標籤興趣列表示為U-Xai, E TFi), ,…,}。可選的,本發明一實施例中,所述社交網絡上用戶與文字性內容的關聯關係數據中還包括時間權重WTi ;1!\表示用戶U在內容Ci上關聯關係確立的時間得分,則所述社交網絡上用戶與文字性內容的關聯關係數據的用戶-關係鍊表示為山->{〈(;,11\>,<Cj, WTj),…,};所述標籤興趣列表示為U-> KTi, Wi), ,…,};其中,W表示為詞頻和時間因素的權重。可選的,本發明一實施例中,所述標籤興趣向量表示為V-MS1, S2, -,Si, . . .,SJ,向量V表示用戶的興趣,Si代表該向量在標籤Ti維度上的坐標,如果用戶U擁有標籤Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標籤數。可選的,本發明一實施例中,所述標籤Ti在用戶U中出現次數為DFi,如果用戶U擁有標籤Ti,則Si的取值為WiZDFi ;否則,Si的取值為O。為實現上述目的,本發明還提供了一種基於標籤的社交網絡用戶興趣挖掘裝置,包括數據收集單元,用於收集用戶在社交網絡上的數據;標籤興趣列生成單元,用於根據數據生成標籤興趣列;所述標籤興趣列為所述數據中所有標籤及標籤對應地權重的集合;興趣挖掘單元,用於根據標籤興趣列進行用戶興趣信息推薦,實現了社交網絡用戶興趣挖掘。可選的,本發明一實施例中,所述標籤興趣列生成單元包括標籤興趣向量生成模塊,用於所述標籤興趣列向量化得到標籤興趣向量; 標籤興趣向量抽象模塊,用於對標籤興趣向量進行抽象,獲取抽象結果;興趣推薦模塊,用於根據抽象結果進行用戶興趣信息推薦。可選的,本發明一實施例中,所述標籤興趣向量抽象模塊按照標籤的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標籤的屬性映射關係將標籤興趣向量分為低級別抽象類目和高級別抽象類目,將標籤興趣向量中的標籤賦給相應的類目中,合併相應抽象類目中的標籤和相應權重,得到低級類目興趣向量和高級類目興趣向量;所述興趣推薦模塊根據應用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標籤為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。可選的,本發明一實施例中,所述數據收集單元收集的數據包括社交網絡上用戶生成的文字性數據和社交網絡上用戶與文字性內容的關聯關係數據。可選的,本發明一實施例中,所述標籤興趣列生成單元獲取所述社交網絡上用戶生成的文字性數據包含的所有標籤和每個標籤所對應地權重;將所述社交網絡上用戶與文字性內容的關聯關係數據轉換為用戶-關係鏈形式;合併用戶在所有內容上的標籤得到用戶的標籤興趣列。可選的,本發明一實施例中,該系統還包括用於對收集到的用戶在社交網絡上的所有數據進行清洗的數據清洗單元。可選的,本發明一實施例中,所述數據清洗單元進行清洗的內容包括過濾廣告內容、對長篇文字僅取前500個字作為分析對象以及採用標籤主動匹配內容的方法過濾不良信息。可選的,本發明一實施例中,所述數據收集單元收集的社交網絡上用戶生成的文字性數據分為標題和內容;採取字符串匹配算法獲取所述社交網絡上用戶生成的文字性數據中包含的所有標籤,根據每個標籤的出現次數作為該內容在該標籤上的權重。可選的,本發明一實施例中,所述標題和內容均包含同一標籤中,該標籤的權重為其在標題所得權重與在內容所得權重之和。可選的,本發明一實施例中,所述數據收集單元收集的社交網絡上用戶生成的文字性數據表示為KTi, TFi), <Tj, TFj),…,};其中,Ti代表某個標籤,TFi代表標籤Ti在內容中的權重。可選的,本發明一實施例中,所述數據收集單元收集的社交網絡上用戶與文字性內容的關聯關係數據表示為u_> (C1, C2, C3,…;其中,U代表某個用戶,Ci代表與用戶U有關聯關係的內容。可選的,本發明一實施例中,所述標籤興趣列生成單元獲取的標籤興趣列表示為U-Xai, E TFi), ,…,}。可選的,本發明一實施例中,所述數據收集單元收集的社交網絡上用戶與文字性內容的關聯關係數據中還包括時間權重WTi ;WTi表不用戶U在內容Ci上關聯關係確立的時間得分,則所述社交網絡上用戶與文字性內容的關聯關係數據的用戶-關係鍊表示為U-> Kci, WTi), ,…,};所述標籤興趣列表示為 U-> {〈Ti,Wi), <Tj, Wj),…,};其中,W表示為詞頻和時間因素的權重。可選的,本發明一實施例中,所述標籤興趣向量生成模塊獲取的標籤興趣向量表示為V-> (S1, S2,…,Si,. . .,SJ,向量V表示用戶的興趣,Si代表該向量在標籤Ti維度上的坐標,如果用戶U擁有標籤Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標籤數。可選的,本發明一實施例中,所述標籤Ti在用戶U中出現次數為DFi,如果用戶U擁有標籤Ti,則Si的取值為WiZDFi ;否則,Si的取值為O。
上述技術方案具有如下有益效果本技術方案建立了以「標籤興趣列」為基礎的文本內容分析和用戶興趣挖掘,能夠最大限度的挖掘社交網絡中用戶的興趣。


為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖I是本發明提出的一種基於標籤的社交網絡用戶興趣挖掘方法流程圖之一;圖2是本發明提出的一種基於標籤的社交網絡用戶興趣挖掘方法流程圖之二 ;圖3是本發明提出的一種基於標籤的社交網絡用戶興趣挖掘方法流程圖之三;圖4是本發明提出的一種基於標籤的社交網絡用戶興趣挖掘裝置框圖之一;圖5是本發明提出的一種基於標籤的社交網絡用戶興趣挖掘裝置框圖之二 ;圖6是本發明提出的一種基於標籤的社交網絡用戶興趣挖掘裝置中標籤興趣列生成單元框圖;圖7是本發明提出的一種基於標籤的社交網絡用戶興趣挖掘裝置應用案例框圖。
具體實施例方式下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。為解決現有興趣挖掘的缺點,提出了一種基於標籤的社交網絡用戶興趣挖掘方法,如圖I所示,為本發明提出的一種基於標籤的社交網絡用戶興趣挖掘方法流程圖之一。包括收集用戶在社交網絡上的數據、根據數據生成標籤興趣列及根據標籤興趣列進行用戶興趣信息推薦的基於標籤的社交網絡用戶興趣挖掘方法。具體的工作如圖I所示,為圖I是。包括步驟101 :收集用戶在社交網絡上的數據;步驟102 :根據數據生成標籤興趣列;所述標籤興趣列為所述數據中所有標籤及標籤對應地權重的集合;步驟103 :根據標籤興趣列進行用戶興趣信息推薦,實現了社交網絡用戶興趣挖掘。在圖I的基礎上,細化了如何根據標籤興趣列進行用戶興趣信息推薦。如圖2所示,圖2是本發明提出的一種基於標籤的社交網絡用戶興趣挖掘方法流程圖之二,包括步驟201 :收集用戶在社交網絡上的所有數據;其中,所述數據包括社交網絡上用戶生成的文字性數據和社交網絡上用戶與文字性內容的關聯關係數據。 在步驟201中,收集用戶在社交網絡上的數據,依賴這些數據完成用戶興趣的挖掘。這些數據又分為兩種社交網絡上用戶生成的文字性內容和社交網絡上用戶與文字性內容的關聯關係。前者是社交網絡的內容主體,後者是社交網絡信息流轉的路徑。舉例來說,用戶A在社交網絡上發布了一篇訪問權限公開的文章C,用戶B瀏覽並轉發了這篇文章,那麼,會收集內容P和關係A->C和B->C。在步驟201中收集數據時無需用戶直接參與,不會產生收集數據的困難。採用統一的方法完成了用戶興趣的挖掘和表述,達到方便後續各項產品對用戶興趣的應用,步驟202 :獲取所述社交網絡上用戶生成的文字性數據包含的所有標籤和每個標籤所對應地權重分;將所述社交網絡上用戶與文字性內容的關聯關係數據轉換為用戶-關係鏈形式;合併用戶在所有內容上的標籤得到用戶的標籤興趣列。對於所有的文字性內容,將其分為兩種標題(或其他簡短描述)和內容,而且二者的重要性完全不同。制定一個簡單規則來區分這種重要性,每個在標題中出現的標籤會比在內容中出現的標籤多得5倍的權重分數。針對每段文字內容,用一個快速的字符串匹配算法獲取其中包含的所有標籤,然後根據每個標籤的出現次數作為該內容在該標籤上的權重分。如果一個標籤同時在標題和內容中都包含,那麼該標籤的權重就是其在標題所得權重和在內容所得權重之和。這樣,一段內容就能夠由一系列的標籤和標籤權重來代表。例如,以Ti代表某個標籤,以TFi代表該標籤在內容中的權重,那麼,內容就可以用KTi, TFi), <Tj, TFj),…,}來表示。對於所有關係型數據,將其轉換為用戶-關係鏈的形式。例如,用U代表某個用戶,Ci代表某個內容,且關係數據中包含U-〉。」 u->c2、u->c3等內容,則用戶U的關係鍊表示為U-> (C1, C2, C3,}。進一步合併用戶U在所有內容上的標籤,就能得到用戶U的興趣標籤列,U-Xai, E TFi), ,…,}。用戶在社交網絡上可能有各種各樣的內容關聯,例如,照片、日記、討論等等,參照上述兩步,就都可以用統一的方法處理並且合併入用戶的興趣列。而且,可以針對專門類別的內容,單獨建立用戶興趣數據,以適應專門類別的應用需要。另外,考慮到用戶興趣並不是一成不變的,我們同樣引入了時間的概念。例如,以WTi代表用戶U在內容Ci上的時間權重(即關聯關係確立的時間得分),時間越久該值越小。上面的用戶U的關係鏈就要表示為U-> KCi, WTi),〈C」,ffTj>,…,}。進一步合併用戶U在所有內容上的標籤,就能得到用戶U的興趣標籤列,U-〉{〈Ti,Wi), ,…,}。其中,Wi是混合了詞頻和時間因素的權重。這樣能夠最大限度的挖掘社交網絡中的用戶的興趣,而且這種興趣是直接的、細化的、可變的。步驟202收集標籤的工作完成之後,後期僅僅需要少量維護。還有,由於未使用分詞等文本切分方法,可以有效避免由於切分誤差引入的錯誤,以及由此引發的額外工作量。步驟203 :將所述標籤興趣列向量化。為了便於後續處理和表述,我們將用戶的興趣表示為一個標籤空間中的向量V,例如,以V代表用戶U的興趣向量,Si代表該向量在標籤Ti維度上的坐標,則可以將上述用戶興趣標籤列轉化為興趣向量,V-> (S1, S2,…,Si,…,SJ,其中,n代表總標籤數,如果用戶U擁有標籤Ti,則Si的取值為Wi,否則,Si的取值為O。由此,所有用戶的興趣可以用統一的興趣向量進行描述和計算。另外,考慮到標籤本身的重要程度並不相同,我們用DFi代表標籤Ti在所有用戶中出現次數(每個用戶只記一次)。DF值越大,說明標籤的重要性越小,區分力越弱。由此,可以得到,上述興趣向量中,標籤Ti對應的坐標Si的取值,在用戶U擁有標籤Ti時,變為Wi/ DFi。步驟204 :將標籤興趣向量抽象化;即標籤的屬性為抽象類目,抽象類目是各種類目的集合,按照類目和標籤的屬性映射關係,將標籤興趣向量分為低級別抽象類目和高級別抽象類目,將標籤興趣向量中的標籤賦給相應的類目中,合併相應抽象類目中的標籤和相應權重,得到低級類目興趣向量和高級類目興趣向量;根據應用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標籤為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。用向量形式表現的用戶興趣擁有細緻、精確、可變等優點,但是過於細緻的表述形式在某些應用場合不能適應,尤其是無法讓人直觀的了解一個用戶的大體興趣偏好。因此,我們在I中描述標籤的定義時,提到了標籤屬性這個概念。標籤屬性代表了標籤所屬的抽象類目,是比標籤更加抽象的一個概念,我們提供了兩個級別的抽象,低級別的抽象共135個類目,更高一級的抽象為16個大類目。以CLk代表某個低級別抽象類目,以( 代表某個高級別的抽象類目。對於所有擁有屬性的標籤Ti,則有Ti-XXk, Ti-X^的關係存在。按照類目和標籤的屬性映射關係,將興趣向量V中所有標籤的坐標進行對應轉化,轉化的方法為,如果某個標籤Ti擁有類目CLk或CHp則將該標籤的坐標Si賦給相應的類目,如果該標籤擁有不只一個類目屬性,那麼將其坐標依次賦給所有類目。以低級別類目為例,可以得到一個新的關系列,VcLOKCLi, Si),〈CL」,Si),〈CL」,Sj),…,},注意,每個標籤可以同時屬於幾個不同的類目,每個類目下面也擁有大量不同的標籤。合併同一類目下的權重,則可以將標籤空間下的興趣向量轉化為低級類目空間下的興趣向量。同理,也可以生成高級類目下的興趣向量。至此,我們得到高級類目、低級類目、標籤等三個精細度級別的用戶興趣向量,可以根據應用場景的具體需要進行選擇使用。步驟204通過類目和標籤的關聯,很好的完成了用戶興趣的抽象,便於廣泛的應用。並且挖掘興趣的過程和結果對用戶透明,能夠發現用戶自身尚無意識到的興趣點,不依賴從眾數據,能夠發現小眾用戶的興趣。另外,該技術方案通過控制數據源,靈活的挖掘出各種垂直領域的用戶興趣,便於專門的應用。
方法中所用的標籤是採用人工和技術相結合的方法,從中文和英文(同樣的方法也可用於其他語種)中收集各種的實體名詞。收集的過程主要考慮如下因素獨特性、代表性、時新性。技術收集的方法保證了大量收集的需要,人工審核的方法確保了標籤的正確性。對於新的實體名詞,可以定期或隨時加入標籤庫,保證對於新型事件的識別。標籤在標籤庫中會被賦予兩個等級的屬性,例如,「圍棋」這個標籤就會有「非球類運動」和「體育運動」這樣一組兩級屬性,分別代表一個較低層次的興趣類目和一個較高層次的興趣類目。而且,一個標籤可以擁有數個屬性,分別對應不同的興趣類目。標籤的屬性由人工給出,保證了精度,而且並不是所有標籤都能有比較明確的所屬類目,所以,不是所有標籤都需要有屬性,這樣降低了人工工作量。在圖2基礎上,為了保證數據的準確性,進一步增加了數據清洗。如圖3所示,為本發明提出的一種基於標籤的社交網絡用戶興趣挖掘方法流程圖之三。
步驟201』 對採集到的數據進行清洗。對採集到的數據進行清洗,過濾了廣告內容。另外,對於長篇文字內容,也僅僅取其前500個字作為分析對象。由於我們採用標籤主動匹配內容的方式,所以等於自動完成了不良信息的過濾。本申請還提出了一種基於標籤的社交網絡用戶興趣挖掘裝置。如圖4所示,為本發明提出的一種基於標籤的社交網絡用戶興趣挖掘裝置框圖之一。包括數據收集單元41,用於收集用戶在社交網絡上的數據;標籤興趣列生成單元42,用於根據數據生成標籤興趣列;所述標籤興趣列為所述數據中所有標籤及標籤對應地權重的集合;興趣挖掘單元43,用於根據標籤興趣列進行用戶興趣信息推薦,實現了社交網絡用戶興趣挖掘。本發明一實施例中,該系統還包括用於對收集到的用戶在社交網絡上的所有數據進行清洗的數據清洗單元41』。如圖5所示,為本發明提出的一種基於標籤的社交網絡用戶興趣挖掘裝置框圖之二。數據清洗單元41』進行清洗的方法包括過濾廣告內容、對長篇文字僅取前500個字作為分析對象以及採用標籤主動匹配內容的方法過濾不良信息。如圖6所示,為本發明提出的一種基於標籤的社交網絡用戶興趣挖掘裝置中興趣挖掘單元43框圖,可知興趣挖掘單元43包括標籤興趣向量生成模塊431,用於標籤興趣列向量化得到標籤興趣向量;標籤興趣向量抽象模塊432,用於對標籤興趣向量進行抽象,獲取抽象結果;興趣推薦模塊433,用於根據抽象結果進行用戶興趣信息推薦。標籤興趣向量抽象模塊432按照標籤的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標籤的屬性映射關係將標籤興趣向量分為低級別抽象類目和高級別抽象類目,將標籤興趣向量中的標籤賦給相應的類目中,合併相應抽象類目中的標籤和相應權重,得到低級類目興趣向量和高級類目興趣向量;興趣推薦模塊433根據應用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標籤為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。本發明一實施例中,數據收集單元收集的數據包括社交網絡上用戶生成的文字性數據和社交網絡上用戶與文字性內容的關聯關係數據。標籤興趣列生成單元獲取所述社交網絡上用戶生成的文字性數據包含的所有標籤和每個標籤所對應地權重;將社交網絡上用戶與文字性內容的關聯關係數據轉換為用戶-關係鏈形式;合併用戶在所有內容上的標籤得到用戶的標籤興趣列。本發明一實施例中,所述數據收集單元收集的社交網絡上用戶生成的文字性數據分為標題和內容;採取字符串匹配算法獲取所述社交網絡上用戶生成的文字性數據中包含的所有標籤,根據每個標籤的出現次數作為該內容在該標籤上的權重。本發明一實施例中,所述標題和內容均包含同一標籤中,該標籤的權重為其在標題所得權重與在內容所得權重之和。本發明一實施例中,所述數據收集單元收集的社交網絡上用戶生成的文字性數據表示為KTi, TFi), <Tj, TFj),…,};其中,Ti代表某個標籤,TFi代表標籤Ti在內容中的權重。數據收集單元收集的社交網絡上用戶與文字性內容的關聯關係數據表示為U-XC11C21C3,};其中,U代表某個用戶,Ci代表與用戶U有關聯關係的內容。標籤興趣列 生成單元獲取的標籤興趣列表示為U-〉{〈Ti,E TFi), r",〈Tk,E TFk>}。本發明一實施例中,所述數據收集單元收集的社交網絡上用戶與文字性內容的關聯關係數據中還包括時間權重WTi ;WTi表不用戶U在內容Ci上關聯關係確立的時間得分,則所述社交網絡上用戶與文字性內容的關聯關係數據的用戶-關係鍊表示為U-> Kci, WTi), ,…,};所述標籤興趣列表示為 U-> {〈Ti,Wi), };其中,W表示為詞頻和時間因素的權重。本發明一實施例中,所述標籤興趣向量生成模塊獲取的標籤興趣向量表示為V-> (S1, S2,…,Si,. . .,SJ,向量V表示用戶的興趣,Si代表該向量在標籤Ti維度上的坐標,如果用戶U擁有標籤Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標籤數。本發明一實施例中,所述標籤Ti在用戶U中出現次數為DFi,如果用戶U擁有標籤Ti,則Si的取值為VDFi ;否則,Si的取值為O。如圖7所示,為本發明提出的一種基於標籤的社交網絡用戶興趣挖掘裝置應用案例框圖。該系統可以應用於開心網社區平臺。該系統能夠自動地從用戶參與過的信息流、添加過的組件、名人機構等各種包含文字的內容中挖掘用戶的興趣,並生成低級類目興趣向量和高級類目興趣向量,系統按照低級類目興趣向量、高級類目興趣向量和標籤為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。當前的網際網路應用中,最重要的資源就是用戶。對於用戶數據的分析,也一直是研究的熱點,而用戶興趣,則是重中之重。準確獲取用戶興趣數據,對許多網際網路服務有直接的幫助,例如用戶興趣可以直接服務於精準廣告投放,提升廣告轉化率;用戶興趣可以應用於一切推薦系統和產品,提高點擊率;用戶興趣可以應用於個性化搜索和其他服務,提高用戶滿意度;能夠涵蓋全部的用戶興趣挖掘方法和應用場景。以上所述的具體實施方式
,對本發明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的具體實施方式
而已,並不用於限定本發明的保護範圍,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。
權利要求
1.一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,包括 收集用戶在社交網絡上的數據; 根據數據生成標籤興趣列;所述標籤興趣列為所述數據中所有標籤及標籤對應地權重的集合; 根據標籤興趣列進行用戶興趣信息推薦,以實現社交網絡用戶興趣挖掘。
2.根據權利要求I所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述根據標籤興趣列進行用戶興趣信息推薦包括 所述標籤興趣列向量化得到標籤興趣向量;對標籤興趣向量進行抽象,獲取抽象結果;根據抽象結果進行用戶興趣信息推薦。
3.根據權利要求2所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述對標籤興趣向量進行抽象包括 按照標籤的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標籤的屬性映射關係將標籤興趣向量分為低級別抽象類目和高級別抽象類目,將標籤興趣向量中的標籤賦給相應的類目中,合併相應抽象類目中的標籤和相應權重,得到低級類目興趣向量和高級類目興趣向量;根據應用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標籤為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。
4.根據權利要求I所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述數據包括社交網絡上用戶生成的文字性數據和社交網絡上用戶與文字性內容的關聯關係數據。
5.根據權利要求4所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述根據數據生成標籤興趣列包括 獲取所述社交網絡上用戶生成的文字性數據包含的所有標籤和每個標籤所對應地權重;將所述社交網絡上用戶與文字性內容的關聯關係數據轉換為用戶-關係鏈形式;合併用戶在所有內容上的標籤得到用戶的標籤興趣列。
6.根據權利要求I 5任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,該方法還包括對收集到的用戶在社交網絡上的所有數據進行清洗。
7.根據權利要求6所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述清洗包括過濾廣告內容、對長篇文字僅取前500個字作為分析對象以及採用標籤主動匹配內容的方法過濾不良信息。
8.根據權利要求4飛任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述社交網絡上用戶生成的文字性數據分為標題和內容;採取字符串匹配算法獲取所述社交網絡上用戶生成的文字性數據中包含的所有標籤,根據每個標籤的出現次數作為該內容在該標籤上的權重。
9.根據權利要求8所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述標題和內容均包含同一標籤中,該標籤的權重為其在標題所得權重與在內容所得權重之和。
10.根據權利要求4飛任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述社交網絡上用戶生成的文字性數據表示為KTiJFACI^TFpr-,};其中,Ti代表某個標籤,TFi代表標籤Ti在內容中的權重。
11.根據權利要求4飛任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述社交網絡上用戶與文字性內容的關聯關係數據的用戶-關係鍊表示為:U-> (C1, C2, C3,…};其中,U代表某個用戶,Ci代表與用戶U有關聯關係的內容。
12.根據權利要求f5任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述標籤興趣列表示為U-> KTi, E TFi), ,...,〈Tk,E TFk>}。
13.根據權利要求4飛任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述社交網絡上用戶與文字性內容的關聯關係數據中還包括時間權重WTi ;1!\表示用戶U在內容Ci上關聯關係確立的時間得分,則所述社交網絡上用戶與文字性內容的關聯關係數據的用戶-關係鍊表示為山->{〈(;,11\>,<Cj, WTj),…,};所述標籤興趣列表示為U-MCTi, Wp,,…, };其中,W表示為詞頻和時間因素的權重。
14.根據權利要求2所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述標籤興趣向量表示為V-Ms1, S2,..., Si,..., Sj,向量V表示用戶的興趣,Si代表該向量在標籤Ti維度上的坐標,如果用戶U擁有標籤Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標籤數。
15.根據權利要求14所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述標籤Ti在用戶U中出現次數為DFi,如果用戶U擁有標籤Ti,則Si的取值為Wi/DFi ;否則,Si的取值為O。
16.一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,包括 數據收集單元,用於收集用戶在社交網絡上的數據; 標籤興趣列生成單元,用於根據數據生成標籤興趣列;所述標籤興趣列為所述數據中所有標籤及標籤對應地權重的集合; 興趣挖掘單元,用於根據標籤興趣列進行用戶興趣信息推薦,以實現社交網絡用戶興趣挖掘。
17.根據權利要求16所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述興趣挖掘單元包括 標籤興趣向量生成模塊,用於所述標籤興趣列向量化得到標籤興趣向量; 標籤興趣向量抽象模塊,用於對標籤興趣向量進行抽象,獲取抽象結果; 興趣推薦模塊,用於根據抽象結果進行用戶興趣信息推薦。
18.根據權利要求17所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述標籤興趣向量抽象模塊按照標籤的屬性為抽象類目、抽象類目是各種類目的集合這種類目和標籤的屬性映射關係將標籤興趣向量分為低級別抽象類目和高級別抽象類目,將標籤興趣向量中的標籤賦給相應的類目中,合併相應抽象類目中的標籤和相應權重,得到低級類目興趣向量和高級類目興趣向量;所述興趣推薦模塊根據應用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標籤為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。
19.根據權利要求16所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述數據收集單元收集的數據包括社交網絡上用戶生成的文字性數據和社交網絡上用戶與文字性內容的關聯關係數據。
20.根據權利要求19所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述標籤興趣列生成單元獲取所述社交網絡上用戶生成的文字性數據包含的所有標籤和每個標籤所對應地權重;將所述社交網絡上用戶與文字性內容的關聯關係數據轉換為用戶-關係鏈形式;合併用戶在所有內容上的標籤得到用戶的標籤興趣列。
21.根據權利要求16 20任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,該系統還包括用於對收集到的用戶在社交網絡上的所有數據進行清洗的數據清洗單元。
22.根據權利要求21所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述數據清洗單元進行清洗的內容包括過濾廣告內容、對長篇文字僅取前500個字作為分析對象以及採用標籤主動匹配內容的方法過濾不良信息。
23.根據權利要求1^20任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述數據收集單元收集的社交網絡上用戶生成的文字性數據分為標題和內容;採取字符串匹配算法獲取所述社交網絡上用戶生成的文字性數據中包含的所有標籤,根據每個標籤的出現次數作為該內容在該標籤上的權重。
24.根據權利要求23所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述標題和內容均包含同一標籤中,該標籤的權重為其在標題所得權重與在內容所得權重之和。
25.根據權利要求1^20任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述數據收集單元收集的社交網絡上用戶生成的文字性數據表示為KTi, TFi), <Tj, TFj),…,};其中,Ti代表某個標籤,TFi代表標籤Ti在內容中的權重。
26.根據權利要求1^20任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘方法,其特徵在於,所述數據收集單元收集的社交網絡上用戶與文字性內容的關聯關係數據表示為W-MCdC^C3,…};其中,U代表某個用戶,Ci代表與用戶U有關聯關係的內容。
27.根據權利要求16 20任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述標籤興趣列生成單元獲取的標籤興趣列表示為U-Xai, E TFi), ,…,}。
28.根據權利要求19 20任一權利要求所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述數據收集單元收集的社交網絡上用戶與文字性內容的關聯關係數據中還包括時間權重WTi ;WTi表不用戶U在內容Ci上關聯關係確立的時間得分,則所述社交網絡上用戶與文字性內容的關聯關係數據的用戶-關係鍊表示為U-> KCi, WTi), ,…,};所述標籤興趣列表示為 U-> {〈Ti,Wi), <Tj, Wj),…,};其中,W表示為詞頻和時間因素的權重。
29.根據權利要求17所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述標籤興趣向量生成模塊獲取的標籤興趣向量表示為V-Ms1, S2,…,Si,...,Sj,向量V表示用戶的興趣,Si代表該向量在標籤Ti維度上的坐標,如果用戶U擁有標籤Ti,則Si的取值為Wi,否則,Si的取值為0,n代表總標籤數。
30.根據權利要求29所述的一種基於標籤的社交網絡用戶興趣挖掘裝置,其特徵在於,所述標籤Ti在用戶U中出現次數為DFi,如果用戶U擁有標籤Ti,則Si的取值為Wi/DFi ;否則, Si的取值為O。
全文摘要
本發明涉及一種基於標籤的社交網絡用戶興趣挖掘方法與裝置,包括收集用戶在社交網絡上的所有數據;其中,所述數據包括社交網絡上用戶生成的文字性數據和社交網絡上用戶與文字性內容的關聯關係數據;獲取所述用戶生成的文字性數據包含的所有標籤和每個標籤所對應地權重分;將所述用戶與文字性內容的關聯關係數據轉換為用戶-關係鏈形式;合併用戶在所有內容上的標籤得到用戶的標籤興趣列;將所述標籤興趣列向量化;將標籤興趣向量抽象化得到低級類目興趣向量和高級類目興趣向量;根據應用場景的具體需要,按照低級類目興趣向量、高級類目興趣向量和標籤為社交網絡用戶提供相應的興趣信息,實現社交網絡用戶興趣挖掘。
文檔編號G06F17/30GK102867016SQ20121024958
公開日2013年1月9日 申請日期2012年7月18日 優先權日2012年7月18日
發明者薛曄偉, 馬振江, 伍星 申請人:北京開心人信息技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀