一種用戶行為數據的分析方法和裝置製造方法
2023-06-18 02:20:01 2
一種用戶行為數據的分析方法和裝置製造方法
【專利摘要】本發明實施例公開了一種用戶行為數據的分析方法和裝置,用於準確分析用戶行為,提高廣告推送對象的針對性。本發明實施例方法包括:獲取用戶註冊到數據源後在數據源中產生的行為數據,其中,數據源中包括註冊到數據源中的所有用戶各自產生的行為數據,行為數據為記錄用戶在數據源中的行為的數據信息;從用戶在數據源上產生的行為數據中提取用戶標籤,用戶標籤是用於表徵用戶的行為的信息;獲取預置的定向人群特徵,定向人群特徵為滿足定向特徵要求的人群所具有的特徵;根據用戶在數據源上產生的行為數據和用戶標籤從數據源的所有用戶中提取符合定向人群特徵的目標用戶群,目標用戶群包括符合定向人群特徵的多個用戶。
【專利說明】一種用戶行為數據的分析方法和裝置
【技術領域】
[0001] 本發明涉及計算機【技術領域】,尤其涉及一種用戶行為數據的分析方法和裝置。
【背景技術】
[0002] 用戶在數據源上註冊後,用戶在數據源上會進行各種行為,比如在A官網上發表 評論,在B官網上拍下寶貝並支付,數據源會保存用戶的行為類數據,為了準確描述用戶在 數據源中進行的相關行為,需要對用戶行為進行分析,通常需要先對用戶的註冊類數據和 行為類數據進行數據預處理,例如對註冊類數據和行為類數據進行過濾、轉換、集成等,從 預處理過的用戶數據中提取出用戶標籤(tag)。
[0003] 提取出的用戶標籤之後,可以根據用戶標籤與預先設定的興趣類別進行匹配,以 用戶標籤與預先設定的興趣類別的匹配度來反映分析出的用戶行為,廣告商可以根據分析 出的用戶行為向符合廣告商要求的用戶推送廣告,以宣傳產品或服務。常用的技術手段可 以是將提取出的用戶標籤與設定的標準興趣進行相似性匹配計算,以將用戶標籤歸類到最 準確的興趣類別下,從而分析出用戶行為,進而根據分析出的用戶行為向符合廣告商要求 的興趣類型的用戶推送廣告。
[0004] 但是現有技術中,用戶標籤的提取是基於用戶的註冊類數據和行為類數據進行 的,並且僅根據提取出的用戶標籤與設定的標準興趣就完成了相似度的計算,但是僅依靠 用戶標籤並不能完全反映出的用戶行為,這將導致在後續計算用戶標籤和標準興趣的相似 度時計算出的相似度不能準確的分析出用戶行為,並且不同種類的廣告商所希望廣告被推 送到的用戶群也是不同的,但是現有技術中所有興趣類型所匹配的用戶標籤並沒有任何差 另IJ,廣告商按照這樣分析出的用戶行為進行廣告推送,廣告推送對象的針對性不高。
【發明內容】
[0005] 本發明實施例提供了一種用戶行為數據的分析方法和裝置,用於準確分析用戶行 為,提高廣告推送對象的針對性。
[0006] 為解決上述技術問題,本發明實施例提供以下技術方案:
[0007] 第一方面,本發明實施例提供一種用戶行為數據的分析方法,包括:
[0008] 獲取用戶註冊到數據源後在所述數據源中產生的行為數據,其中,所述數據源中 包括註冊到所述數據源中的所有用戶各自產生的行為數據,所述行為數據為記錄用戶在所 述數據源中的行為的數據信息;
[0009] 從所述用戶在數據源上產生的行為數據中提取用戶標籤,所述用戶標籤是用於表 徵所述用戶的行為的信息;
[0010] 獲取預置的定向人群特徵,所述定向人群特徵為滿足定向特徵要求的人群所具有 的特徵;
[0011] 根據所述用戶在數據源上產生的行為數據和所述用戶標籤從所述數據源的所有 用戶中提取符合定向人群特徵的目標用戶群,所述目標用戶群包括符合定向人群特徵的多 個用戶。
[0012] 第二方面,本發明實施例還提供一種用戶行為數據的分析裝置,包括:
[0013] 數據獲取模塊,用於獲取用戶註冊到數據源後在所述數據源中產生的行為數據, 其中,所述數據源中包括註冊到所述數據源中的所有用戶各自產生的行為數據,所述行為 數據為記錄用戶在所述數據源中的行為的數據信息;
[0014] 標籤提取模塊,用於從所述用戶在數據源上產生的行為數據中提取用戶標籤,所 述用戶標籤是用於表徵所述用戶的行為的信息;
[0015] 特徵獲取模塊,用於獲取預置的定向人群特徵,所述定向人群特徵為滿足定向特 徵要求的人群所具有的特徵;
[0016] 用戶群提取模塊,用於根據所述用戶在數據源上產生的行為數據和所述用戶標籤 從所述數據源的所有用戶中提取符合定向人群特徵的目標用戶群,所述目標用戶群包括符 合定向人群特徵的多個用戶。
[0017] 從以上技術方案可以看出,本發明實施例具有以下優點:
[0018] 在本發明實施例中,首先獲取用戶註冊到數據源後在所述數據源中產生的行為數 據,從用戶在在數據源上產生的行為數據中提取用戶標籤,然後獲取預置的定向人群特徵, 最後根據用戶在數據源上產生的行為數據和上述用戶標籤從數據源的所有用戶中提取符 合定向人群特徵的目標用戶群,其中提取到的目標用戶群包括符合定向人群特徵的多個用 戶。由於可以根據用戶在數據源產生的行為數據和提取出的用戶標籤對數據源中的所有用 戶進行用戶行為分析,可以提高用戶行為分析的準確度,並且可以根據設定的定向人群特 徵從數據源中的所有用戶提取符合定向人群特徵要求的用戶,提取到的符合定向人群特徵 要求的所有用戶構成目標用戶群,由於可以根據不同的廣告商要求來設定定向人群特徵, 故不同廣告需求所提取出的目標用戶群也是不同的,在進行廣告推送時只針對符合定向人 群特徵的目標用戶群來推送,故提高了廣告推送對象的針對性。
【專利附圖】
【附圖說明】
[0019] 為了更清楚地說明本發明實施例中的技術方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於 本領域的技術人員來講,還可以根據這些附圖獲得其他的附圖。
[0020] 圖1為本發明實施例提供的一種用戶行為數據的分析方法的流程方框示意圖;
[0021] 圖2-a為本發明實施例提供的另一種用戶行為數據的分析方法的流程示意圖;
[0022] 圖2_b為本發明實施例提供的規則挖掘的實現方式流程示意圖;
[0023] 圖2-c為本發明實施例提供的模型訓練的實現方式流程示意圖;
[0024] 圖3_a為本發明實施例提供的一種用戶行為數據的分析裝置的組成結構示意圖;
[0025] 圖3_b為本發明實施例提供的另一種用戶行為數據的分析裝置的組成結構示意 圖;
[0026] 圖3-c為本發明實施例提供的另一種用戶行為數據的分析裝置的組成結構示意 圖;
[0027] 圖3-d為本發明實施例提供的另一種用戶行為數據的分析裝置的組成結構示意 圖;
[0028] 圖3_e為本發明實施例提供的另一種用戶行為數據的分析裝置的組成結構示意 圖;
[0029] 圖3_f為本發明實施例提供的另一種用戶行為數據的分析裝置的組成結構示意 圖;
[0030] 圖3_g為本發明實施例提供的另一種用戶行為數據的分析裝置的組成結構示意 圖;
[0031] 圖3_h為本發明實施例提供的另一種用戶行為數據的分析裝置的組成結構示意 圖;
[0032] 圖4為本發明實施例提供的用戶行為數據的分析方法應用於伺服器的組成結構 示意圖。
【具體實施方式】
[0033] 本發明實施例提供了一種用戶行為數據的分析方法和裝置,用於準確分析用戶行 為,提高廣告推送對象的針對性。
[0034] 為使得本發明的發明目的、特徵、優點能夠更加的明顯和易懂,下面將結合本發明 實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,下面所描述 的實施例僅僅是本發明一部分實施例,而非全部實施例。基於本發明中的實施例,本領域的 技術人員所獲得的所有其他實施例,都屬於本發明保護的範圍。
[0035] 本發明的說明書和權利要求書及上述附圖中的術語"第一"、"第二"等是用於區別 類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的術語在適當情 況下可以互換,這僅僅是描述本發明的實施例中對相同屬性的對象在描述時所採用的區分 方式。
[0036] 本發明的說明書和權利要求書及上述附圖中的術語"第一"、"第二"等是用於區別 類似的對象,而不必用於描述特定的順序或先後次序。應該理解這樣使用的術語在適當情 況下可以互換,這僅僅是描述本發明的實施例中對相同屬性的對象在描述時所採用的區分 方式。此外,術語"包括"和"具有"以及他們的任何變形,意圖在於覆蓋不排他的包含,以 便包含一系列單元的過程、方法、系統、產品或設備不必限於那些單元,而是可包括沒有清 楚地列出的或對於這些過程、方法、產品或設備固有的其它單元。
[0037] 以下分別進行詳細說明。
[0038] 本發明行動裝置的用戶行為數據的分析方法的一個實施例,可以包括:從用戶在 數據源上產生的行為數據中提取用戶標籤;根據所述用戶在數據源上產生的行為數據和所 述用戶標籤從所述數據源的所有用戶中提取符合定向人群特徵的目標用戶群,所述目標用 戶群包括符合定向人群特徵的多個用戶。
[0039] 請參閱圖1所示,本發明一個實施例提供的用戶行為數據的分析方法,可以包括 如下步驟:
[0040] 101、獲取用戶註冊到數據源後在所述數據源中產生的行為數據。
[0041] 其中,數據源包括註冊到所述數據源中的所有用戶各自產生的行為數據,行為數 據為記錄用戶在數據源中的行為的數據信息。
[0042] 在本發明實施例中,數據源(Data Source)是提供某種所需要數據的器件或原始 媒體,即數據的來源,在數據源中存儲了所有建立資料庫連接的信息,通過提供的數據源名 稱可以找到相應的資料庫,數據源記錄下註冊到該數據源的所有用戶的行為數據。
[0043] 用戶在數據源上註冊後,用戶在數據源上會進行各種行為,數據源會保存用戶的 行為數據,首先從用戶在數據源上產生的行為數據中提取用戶標籤,其中在一個數據源中 可以有多個用戶分別產生多個行為數據,並且一個用戶也可以在多個數據源中分別產生多 個行為數據,本發明實施例中,數據源的選取可以是一個也可以是多個,並且在選取了多個 數據源時還可以根據各個數據源中產生的數據類型以及數據真實性以及測評結果來為每 個數據源設置權重,則對用戶產生的行為數據就可以從選取的多個數據源來提取。
[0044] 102、從用戶在數據源上產生的行為數據中提取用戶標籤。
[0045] 其中,用戶標籤是用於表徵所述用戶的行為的信息。
[0046] 在本發明實施例中,用戶標籤可以反映用戶在數據源中的產生的行為數據,並且 對一個數據源中的多個行為數據也可以分別提取到多個用戶標籤,而一個用戶在多個數據 源中產生的多個行為數據也可以提取到多個用戶標籤,通過對用戶在數據源中產生行為數 據的提取可以得到用戶標籤,需要說明的是,本發明實施例中還可以根據用戶在數據源中 的註冊數據以及用戶在數據源中的行為數據來提取用戶標籤。
[0047] 在本發明的一些實施例中,可以對首先對用戶在數據源中的註冊數據和行為數據 進行數據預處理,例如可以對數據進行遷移,將數據從多個數據源遷移到hadoop集群上, 也可以對異常數據清洗,例如將亂碼等信息過濾掉,還可以對沒有任何意義的數據進行過 濾,還可以對數據進行轉換,例如字符集轉換成統一的編碼,對搜搜等源數據進行解碼,還 可以對數據進行集成,例如將所有數據源整理成統一的格式。
[0048] 在本發明的一些實施例中,可以對用戶在數據源上產生的行為數據進行分詞,從 中提取到關鍵詞作為用戶標籤。其中分詞指的是將一個漢字序列切分成一個一個單獨的 詞。目前的分詞方法效率都很高,單機版的算法對於50M的文件進行分詞,20分鐘內可完 成,Hadoop版的算法對於67G的文件進行分詞(約1億條記錄),在1小時15分鐘內可以完 成。
[0049] 本發明實施例中,對關鍵詞提取可以基於TFIDF改進算法進行的。主要思想是如 果某個詞或短語在用戶產生的行為數據中出現的頻率(TF,Term Frequency)高,並且在其 他行為數據中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來區分不 同特徵。另外通過逆向文件頻率(inverse document frequency, IDF)來一個詞語普遍重要 性的度量。對於用戶的某個行為數據內的高詞語頻率,以及該詞語在整個數據源中的低文 件頻率,可以產生出高權重的TFIDF,此時該詞語就可以選擇成為用戶行為數據的關鍵詞。
[0050] 103、獲取預置的定向人群特徵。
[0051] 其中,定向人群特徵為滿足定向特徵要求的人群所具有的特徵。
[0052] 在本發明實施例中,獲取預置的定向人群特徵即提取到對數據源中所有用戶進行 篩選的篩選標準,那麼對於篩選標準的不同,獲取到的定向人群特徵也是不同的,其中定向 人群特徵描述了滿足定向特徵要求的人群所應該具有的特徵。定向人群特徵的設定與本 發明實施例提供的用戶行為數據的分析方法需要具體應用到哪些領域也有關係,例如本發 明實施例提供的用戶行為數據的分析方法應用到廣告的推送中時,那麼對於不同的廣告商 提出不同的廣告推送對象需求時,可以設定滿足廣告商需求的定向人群特徵,例如,廣告商 為母嬰產品廠商,那麼針對母嬰產品廠商希望設定的定向人群特徵必定是母嬰類人群,如 果廣告商為遊戲產品廠商,那麼針對遊戲產品廠商設定的定向人特徵必定是喜歡遊戲類人 群,故本發明實施例中需要根據具體的應用場景來設定定向人群特徵。
[0053] 104、根據用戶在數據源上產生的行為數據和上述用戶標籤從數據源的所有用戶 中提取符合定向人群特徵的目標用戶群。
[0054] 其中,目標用戶群包括符合定向人群特徵的多個用戶。
[0055] 在本發明實施例中,從用戶在數據源上產生的行為數據中提取到用戶標籤之後, 使用用戶在數據源上產生的行為數據和提取出的用戶標籤就可以分析用戶行為,例如可以 通過用戶產生的行為數據和用戶標籤分析出用戶的興趣愛好體系、用戶的消費能力、感興 趣的電商甚至用戶的婚戀狀態。通過對行為數據結合提取出用戶標籤對用戶行為分析,可 以提高分析出數據源中各個用戶的用戶行為準確性,與現有技術中僅通過用戶標籤與標準 興趣的相似度來分析用戶行為相比,準確性更好,另外本發明實施例中可以根據用戶產生 的行為數據和用戶標籤按照設定的定向人群特徵來對數據源中的所有用戶進行分析,將符 合定向人群特徵的多個用戶納入到目標用戶群,那麼在不同的廣告商提出不同的廣告推送 對象需求時,可以設定滿足廣告商需求的定向人群特徵,以根據廣告商希望的定向人群特 徵來篩選出目標用戶群,那麼按這樣篩選出的目標用戶群來向用戶推送廣告,可以有更強 的廣告推送對象的針對性,也能夠及時迎合用戶本身的需要,從而實現廣告商和用戶的雙 贏。例如,廣告商為母嬰產品廠商,那麼母嬰產品廠商希望設定的定向人群特徵必定是母嬰 類人群,則本發明實施例中就可以按照設定的母嬰類人群特徵來數據源中所有用戶進行篩 選,從而提取到符合母嬰類人群特徵的目標用戶群,例如從數據源中提取用戶採購母嬰產 品的行為數據,從數據源中提取發布嬰幼兒照片行為數據,並且對這些行為數據以及產生 行為數據的用戶標籤進行用戶行為分析,可以分析出該用戶為女性、感興趣的電商類別是 母嬰產品,則將這些符合母嬰類人群特徵的用戶提取到目標用戶群,則當廣告商向提取出 的目標用戶群來推送母嬰產品及相關服務的廣告信息時,能夠有較高的針對性,同時對於 接收到廣告的用戶來說,其本身確實關注點就在母嬰相關服務上,則可以直接購買該廣告 類服務,而無需再去主動搜尋和母嬰類服務相關的信息,便於用戶的使用。
[0056] 需要說明的是,在本發明實施例中在從數據源的所有用戶中提取符合定向人群特 徵的目標用戶群時,可以按照本發明實際應用場景的需求有多種實現手段,接下來進行詳 細說明。
[0057] 在本發明的一些實施例中,根據用戶在數據源上產生的行為數據和用戶標籤從數 據源的所有用戶中提取符合定向人群特徵的目標用戶群,具體可以包括如下步驟:
[0058] A1、按照定向人群特徵的要求從數據源中已經劃分的類目中提取定向類目;
[0059] A2、統計數據源中用戶標籤符合定向類目的用戶行為次數;
[0060] A3、將數據源中用戶行為次數超過定向類目閾值的用戶提取到目標用戶群中,其 中,目標用戶群包括用戶行為次數超過定向類目閾值的所有用戶。
[0061] 其中,步驟A1至步驟A3描述的是通過規則挖掘的方式從數據源的所有用戶中提 取目標用戶群,步驟A1中,從數據源中已經劃分的類目中提取能夠滿足定向人群特徵的要 求的定向類目,即對於定向人群特徵的要求按照數據源中已經劃分的類目來設定定向類 目,其中可以選取一個數據源也可以選取多個數據源,根據定向人群特徵提取出的定向類 目可以是一個類目也可以是多個類目。在數據源中通常會已經劃分出固定的類目,例如騰 訊分析網就已經根據論壇的類型整理出專有的定向類目,在易迅、拍拍等數據源中也設定 專門的定向頻道,這些頻道中劃分有數碼、母嬰等類型。步驟A2中對數據源中的用戶標籤 按照定向類目進行統計,統計出用戶標籤符合定向類目的用戶行為次數,將各個用戶的行 為次數作為用戶符合定向人群的分值。步驟A3中設定有定向類目閾值,將統計出的各個 用戶的用戶行為次數與定向類目閾值進行比較,可以找出超過定向類目閾值的用戶行為次 數,將這些用戶行為次數對應的用戶提取到目標用戶群中。
[0062] 需要說明的是,在本發明實施例中,步驟A2統計數據源中用戶標籤符合定向類目 的用戶行為次數,具體可以包括:通過如下方式計算數據源中用戶標籤符合定向類目的用 戶行為次數number :
[0063]
【權利要求】
1. 一種用戶行為數據的分析方法,其特徵在於,包括: 獲取用戶註冊到數據源後在所述數據源中產生的行為數據,其中,所述數據源中包括 註冊到所述數據源中的所有用戶各自產生的行為數據,所述行為數據為記錄用戶在所述數 據源中的行為的數據信息; 從所述用戶在數據源上產生的行為數據中提取用戶標籤,所述用戶標籤是用於表徵所 述用戶的行為的信息; 獲取預置的定向人群特徵,所述定向人群特徵為滿足定向特徵要求的人群所具有的特 徵; 根據所述用戶在數據源上產生的行為數據和所述用戶標籤從所述數據源的所有用戶 中提取符合定向人群特徵的目標用戶群,所述目標用戶群包括符合定向人群特徵的多個用 戶。
2. 根據權利要求1所述的方法,其特徵在於,所述根據所述用戶在數據源上產生的行 為數據和所述用戶標籤從所述數據源的所有用戶中提取符合定向人群特徵的目標用戶群, 包括: 按照所述定向人群特徵的要求從所述數據源中已經劃分的類目中提取定向類目; 統計所述數據源中用戶標籤符合所述定向類目的用戶行為次數; 將所述數據源中用戶行為次數超過定向類目閾值的用戶提取到所述目標用戶群中,所 述目標用戶群包括用戶行為次數超過定向類目閾值的所有用戶。
3. 根據權利要求2所述的方法,其特徵在於,所述統計所述數據源中用戶標籤符合所 述定向類目的用戶行為次數,包括: 通過如下方式計算所述數據源中用戶標籤符合所述定向類目的用戶行為次數 number :
其中,共N個數據源,所述λ i為第i個數據源的權重,所述第i個數據源共Μ個定向 類目,所述count為用戶在每個數據源上的第j個定向類目下的用戶行為次數。
4. 根據權利要求1所述的方法,其特徵在於,所述根據所述用戶在數據源上產生的行 為數據和所述用戶標籤從所述數據源的所有用戶中提取符合定向人群特徵的目標用戶群, 包括: 按照所述定向人群特徵的要求獲取所述定向人群特徵具有的關鍵詞; 使用所述關鍵詞與提取出的所述用戶標籤進行匹配,計算出所述數據源中所有用戶標 籤與所述關鍵詞匹配成功的用戶行為次數; 根據所述數據源中所有用戶標籤與所述關鍵詞匹配成功的用戶行為次數、遺忘因子計 算所述數據源中每個用戶的定向人群分值; 將所述數據源中定向人群分值超過定向人群關聯閾值的用戶提取到所述目標用戶群 中,所述目標用戶群包括所述數據源中定向人群分值超過定向人群關聯閾值的所有用戶。
5. 根據權利要求4所述的方法,其特徵在於,所述按照所述定向人群特徵的要求獲取 所述定向人群特徵具有的關鍵詞之後,還包括: 根據獲取到所述關鍵詞獲取與所述關鍵詞有聯繫但不匹配所述定向人群特徵的過濾 詞; 所述使用所述關鍵詞與提取出的所述用戶標籤進行匹配,計算出所述數據源中所有用 戶標籤與所述關鍵詞匹配成功的用戶行為次數,包括: 使用所述關鍵詞、所述過濾詞分別與提取出的所述用戶標籤進行匹配; 計算所述數據源中所有用戶標籤與所述關鍵詞匹配成功且去除掉與所述過濾詞匹配 成功的用戶行為次數。
6. 根據權利要求4所述的方法,其特徵在於,所述根據所述數據源中所有用戶標籤與 所述關鍵詞匹配成功的用戶行為次數、遺忘因子計算所述數據源中每個用戶的定向人群分 值,包括: 通過如下方式計算所述數據源中每個用戶的定向人群分值score :
其中,共有N個數據源,所述λ i為第i個數據源的權重,所述Si為第i個數據 源中用戶標籤與所述關鍵詞匹配成功的用戶行為次數,所述F(X)為遺忘因子,所述
所述cur為計算所述score時的當前時間,所述est為用戶行為 產生的時間,所述hi為半衰期,所述begin_time為所述數據源中記錄的行為數據的起始時 間,所述end_time為所述數據源中記錄的行為數據的終止時間,所述γ為所述定向人群分 值的取值範圍控制參數,所述b為所述定向人群分值的增長速度控制參數。
7. 根據權利要求1所述的方法,其特徵在於,所述根據所述用戶在數據源上產生的行 為數據和所述用戶標籤從所述數據源的所有用戶中提取符合定向人群特徵的目標用戶群, 包括: 按照所述定向人群特徵從所述數據源中的所有用戶中選取訓練樣本集; 從所述訓練樣本集中的用戶標籤中提取行為特徵,所述行為特徵的特徵值為用於表徵 所述行為特徵的詞語的詞頻-逆向文件頻率TF-IDF ; 對所述行為特徵使用分類方法訓練分類模型; 使用所述分類模型對所述數據源中的所有用戶進行分類,得到所述目標用戶群,所述 目標用戶群包括經過所述分類模型篩選的所有用戶。
8. 根據權利要求7所述的方法,其特徵在於,所述TF-IDF通過如下方式計算:
其中,所述tf (t,d)為所述數據源中用戶行為次數,所述t為用於表徵所述行為特徵的 詞語,所述d為所述數據源中行為數據,所述N為所有用戶的用戶行為次數,所述ni為被選 取做訓練樣本集的用戶行為次數。
9. 根據權利要求1所述的方法,其特徵在於,所述根據所述用戶在數據源上產生的行 為數據和所述用戶標籤從所述數據源的所有用戶中提取符合定向人群特徵的目標用戶群 之後,還包括: 獲取所述目標用戶群中所有用戶的人群特徵分布; 將所述人群特徵分布中超過特徵分布範圍的所述目標用戶群中的用戶過濾掉,得到第 一修正目標用戶群,所述第一修正目標用戶群包括所述人群特徵分布中在所述特徵分布範 圍內的所述目標用戶群中的用戶。
10. 根據權利要求1所述的方法,其特徵在於,所述根據所述用戶在數據源上產生的行 為數據和所述用戶標籤從所述數據源的所有用戶中提取符合定向人群特徵的目標用戶群 之後,還包括: 對用戶在所述數據源上產生的行為數據進行更新; 按照更新後的行為數據對符合定向人群特徵的目標用戶群進行修正,得到第二修正目 標用戶群,所述第二修正目標用戶群包括從更新後的行為數據中提取到更新的用戶標籤以 及根據更新後的行為數據和更新的用戶標籤提取到的符合定向人群特徵的多個用戶。
11. 根據權利要求1所述的方法,其特徵在於,所述根據所述用戶在數據源上產生的行 為數據和所述用戶標籤從所述數據源的所有用戶中提取符合定向人群特徵的目標用戶群 之後,還包括: 對所述目標用戶群中多個用戶與所述定向人群特徵的關聯性進行驗證; 對所述目標用戶群中所述關聯性小於關聯性閾值的用戶對應的數據源中的行為數據 進行修正; 按照修正後的行為數據對符合定向人群特徵的目標用戶群進行修正,得到第三修正目 標用戶群,所述第三修正目標用戶群包括從修正後的行為數據中提取到修正的用戶標籤以 及根據修正後的行為數據和修正的用戶標籤提取到的符合定向人群特徵的多個用戶。
12. -種用戶行為數據的分析裝置,其特徵在於,包括: 數據獲取模塊,用於獲取用戶註冊到數據源後在所述數據源中產生的行為數據,其中, 所述數據源中包括註冊到所述數據源中的所有用戶各自產生的行為數據,所述行為數據為 記錄用戶在所述數據源中的行為的數據信息; 標籤提取模塊,用於從所述用戶在數據源上產生的行為數據中提取用戶標籤,所述用 戶標籤是用於表徵所述用戶的行為的信息; 特徵獲取模塊,用於獲取預置的定向人群特徵,所述定向人群特徵為滿足定向特徵要 求的人群所具有的特徵; 用戶群提取模塊,用於根據所述用戶在數據源上產生的行為數據和所述用戶標籤從所 述數據源的所有用戶中提取符合定向人群特徵的目標用戶群,所述目標用戶群包括符合定 向人群特徵的多個用戶。
13. 根據權利要求12所述的裝置,其特徵在於,所述用戶群提取模塊,包括: 定向類目提取子模塊,用於按照所述定向人群特徵的要求從所述數據源中已經劃分的 類目中提取定向類目; 第一用戶行為統計子模塊,用於統計所述數據源中用戶標籤符合所述定向類目的用戶 行為次數; 第一用戶群提取子模塊,用於將所述數據源中用戶行為次數超過定向類目閾值的用戶 提取到所述目標用戶群中,所述目標用戶群包括用戶行為次數超過定向類目閾值的所有用 戶。
14. 根據權利要求13所述的裝置,其特徵在於,所述第一用戶行為統計子模塊,具體用 於通過如下方式計算所述數據源中用戶標籤符合所述定向類目的用戶行為次數number :
其中,共N個數據源,所述λ i為第i個數據源的權重,所述第i個數據源共Μ個定向 類目,所述count為用戶在每個數據源上的第j個定向類目下的用戶行為次數。
15. 根據權利要求12所述的裝置,其特徵在於,所述用戶群提取模塊,包括: 關鍵詞獲取子模塊,用於按照所述定向人群特徵的要求獲取所述定向人群特徵具有的 關鍵詞; 第二用戶行為統計子模塊,用於使用所述關鍵詞與提取出的所述用戶標籤進行匹配, 計算出所述數據源中所有用戶標籤與所述關鍵詞匹配成功的用戶行為次數; 人群分值計算子模塊,用於根據所述數據源中所有用戶標籤與所述關鍵詞匹配成功的 用戶行為次數、遺忘因子計算所述數據源中每個用戶的定向人群分值; 第二用戶群提取子模塊,用於將所述數據源中定向人群分值超過定向人群關聯閾值的 用戶提取到所述目標用戶群中,所述目標用戶群包括所述數據源中定向人群分值超過定向 人群關聯閾值的所有用戶。
16. 根據權利要求15所述的裝置,其特徵在於,所述用戶群提取模塊,還包括:過濾詞 獲取子模塊,其中, 所述過濾詞獲取子模塊,用於根據獲取到所述關鍵詞獲取與所述關鍵詞有聯繫但不匹 配所述定向人群特徵的過濾詞; 所述第二用戶行為統計子模塊,具體用於使用所述關鍵詞、所述過濾詞分別與提取出 的所述用戶標籤進行匹配;計算所述數據源中所有用戶標籤與所述關鍵詞匹配成功且去除 掉與所述過濾詞匹配成功的用戶行為次數。
17. 根據權利要求15所述的裝置,其特徵在於,所述人群分值計算子模塊,用於通過如 下方式計算所述數據源中每個用戶的定向人群分值score :
其中,共有N個數據源,所述λ i為第i個數據源的權重,所述Si為第i個數據 源中用戶標籤與所述關鍵詞匹配成功的用戶行為次數,所述F(X)為遺忘因子,所述
,所述cur為計算所述score時的當前時間,所述est為用戶行為 產生的時間,所述hi為半衰期,所述begin_time為所述數據源中記錄的行為數據的起始時 間,所述end_time為所述數據源中記錄的行為數據的終止時間,所述γ為所述定向人群分 值的取值範圍控制參數,所述b為所述定向人群分值的增長速度控制參數。
18. 根據權利要求17所述的裝置,其特徵在於,所述用戶群提取模塊,包括: 樣本選取子模塊,用於按照所述定向人群特徵從所述數據源中的所有用戶中選取訓練 樣本集; 行為特徵提取子模塊,用於從所述訓練樣本集中的用戶標籤中提取行為特徵,所述行 為特徵的特徵值為用於表徵所述行為特徵的詞語的詞頻-逆向文件頻率TF-IDF ; 模型訓練子模塊,用於對所述行為特徵使用分類方法訓練分類模型; 用戶分類子模塊,用於使用所述分類模型對所述數據源中的所有用戶進行分類,得到 所述目標用戶群,所述目標用戶群包括經過所述分類模型篩選的所有用戶。
19. 根據權利要求18所述的裝置,其特徵在於,所述行為特徵提取子模塊提取到的行 為特徵的TFIDF通過如下方式計算:
其中,所述tf (t,d)為所述數據源中用戶行為次數,所述t為用於表徵所述行為特徵的 詞語,所述d為所述數據源中行為數據,所述N為所有用戶的用戶行為次數,所述ni為被選 取做訓練樣本集的用戶行為次數。
20. 根據權利要求12所述的裝置,其特徵在於,所述用戶行為數據的分析裝置,還包 括: 特徵分布獲取模塊,用於獲取所述目標用戶群中所有用戶的人群特徵分布; 第一用戶群修正模塊,用於將所述人群特徵分布中超過特徵分布範圍的所述目標用戶 群中的用戶過濾掉,得到第一修正目標用戶群,所述第一修正目標用戶群包括所述人群特 徵分布中在所述特徵分布範圍內的所述目標用戶群中的用戶。
21. 根據權利要求12所述的裝置,其特徵在於,所述用戶行為數據的分析裝置,還包 括: 行為數據更新模塊,用於對用戶在所述數據源上產生的行為數據進行更新; 第二用戶群修正模塊,用於按照更新後的行為數據對符合定向人群特徵的目標用戶群 進行修正,得到第二修正目標用戶群,所述第二修正目標用戶群包括從更新後的行為數據 中提取到更新的用戶標籤以及根據更新後的行為數據和更新的用戶標籤提取到的符合定 向人群特徵的多個用戶。
22. 根據權利要求12所述的裝置,其特徵在於,所述用戶行為數據的分析裝置,還包 括: 關聯性驗證模塊,用於對所述目標用戶群中多個用戶與所述定向人群特徵的關聯性進 行驗證; 行為數據修正模塊,用於對所述目標用戶群中所述關聯性小於關聯性閾值的用戶對應 的數據源中的行為數據進行修正; 第三用戶群修正模塊,用於按照修正後的行為數據對符合定向人群特徵的目標用戶群 進行修正,得到第三修正目標用戶群,所述第三修正目標用戶群包括從修正後的行為數據 中提取到修正的用戶標籤以及根據修正後的行為數據和修正的用戶標籤提取到的符合定 向人群特徵的多個用戶。
【文檔編號】G06Q30/02GK104090888SQ201310670424
【公開日】2014年10月8日 申請日期:2013年12月10日 優先權日:2013年12月10日
【發明者】宋亞娟, 李勇, 肖磊, 柳金晶, 王滔, 賴曉平, 王潔 申請人:深圳市騰訊計算機系統有限公司