一種人機互動構建用戶畫像聚類計算方法與流程
2023-05-10 19:35:21 1
本發明涉及用戶畫像領域,尤其涉及一種人機互動構建用戶畫像聚類計算方法。
背景技術:
用戶畫像,即用戶信息標籤化,就是通過收集與分析用戶社會屬性、生活習慣、行為等主要信息的數據之後,完美地抽象出一個用戶的全貌。用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。其中,屬性是進行用戶畫像所需要統計的維度,如性別下的男和女,年齡下的少年、青年、中年、老年,收入等級下的貧困,中低,中等,富裕等。
現有技術中用戶畫像方法主要有兩種:通過用戶的註冊信息直接畫出用戶畫像的方法;對用戶的行為進行監測,而後為用戶打上各種標籤,後臺工作人員利用個人經驗對所有標籤進行分析推導得出用戶畫像的方法。
但現有技術過於依賴後臺工作人員個人因素會導致得到的用戶畫像結果的差異性很大,同時也很難避免噪音標籤對用戶畫像的幹擾,而且也沒有考慮到標籤的時效性,導致最終得到的用戶畫像不夠精確。
技術實現要素:
本發明提供的人機互動構建用戶畫像聚類計算方法,通過精確計算行為分值,比較後確定其行為屬性,從而獲得用戶畫像,既保證了時效性,又能得到更加精確的用戶畫像。
本發明提供的技術方案為:
一種人機互動構建用戶畫像聚類計算方法,包括:
步驟一:獲取用戶發送的基於自然情景的語句,採用閾值語音降噪算法對輸入語句進行濾波降噪,並從用戶下達給機器人指令中提取代表用戶特徵的關鍵詞作為特徵標籤,並給每個特徵標籤賦予初始分值和初始加權值,全部特徵標籤的集合構成標籤資料庫;
步驟二:根據一段時間內為用戶打上的每一種標籤的數量、使用頻率和使用時間、利用推導規則從標籤推導出的屬性、推導規則的邏輯強度值,確定每一種標籤推導出的各種屬性的行為分值;
步驟三:將其中一種標籤推導出的其中一種屬性的行為分值與預定閾值進行對比,判斷是否能夠確定用戶屬性包含所述其中一種屬性,若否,則利用所述行為分值連同其他標籤下的對應於所述其中一種屬性的行為分值推算聯合行為屬性閾值,通過聯合行為屬性閾值判斷是否能夠確定用戶屬性包含所述其中一種屬性;
步驟四:通過多個語義化的用戶屬性來還原用戶的全貌,完成用戶畫像。
優選的是,所述用戶畫像信息為描述包括所述用戶個性、特點和行為特徵的信息。
優選的是,所述步驟二之前,還包括建立標籤規則庫:
提供標籤、屬性、以及標籤和屬性之間的推導規則;
根據所述標籤和屬性之間的推導規則的強弱設置相應的邏輯強度值。
優選的是,所述行為分值為:
其中,Ii為對應標記為i屬性的行為分值,Li0為初始分值,ωio為初始加權值,m為標籤數量,f為標籤使用頻率。
優選的是,還包括獲得並存儲終端的上報信息,包括:
獲得終端通過軟體開發包SDK方式傳輸的源上報信息,或者獲得終端通過JS代碼方式傳輸的源上報信息;
對所述源上報信息進行篩選獲得上報信息;
將所述上報信息與預設標識符關聯存儲。
優選的是,還包括:基於所述關聯存儲的標識信息,調整機器人的指令推送比重。
優選的是,所述步驟三中聯合行為屬性閾值為:
Ii為對應標籤為i屬性的行為分值,Ii+1為其他標籤為i+1屬性的行為分值
優選的是,所述語音降噪算法,包括:
a,通過端點檢測將語音幀區分為靜音幀和語音幀;
b,對於靜音幀,計算當前幀的功率譜值作為噪聲功率譜估計值,對於語音幀,計算語音噪聲功率譜估計值;
c,將語音幀的功率譜減去噪聲功率譜估計值,得到降噪後的語音功率譜;
d,根據降噪後的語音功率譜得出降噪後的語音幀。
優選的是,所述語音噪聲功率譜估計值計算公式為:
其中,I為噪聲功率譜能量;閾值n為噪音信號的幀號;j=1-5為轉換係數,e為自然常數;π為圓周率;fc為噪音信號的頻率;τ(t)=0.03t2+0.6t+0.1;t為分解尺度,1≤t≤4。
本發明的有益效果
本發明提供的人機互動構建用戶畫像聚類計算方法,通過精確計算行為分值,比較後確定其行為屬性,從而獲得用戶畫像,既保證了時效性,又能得到更加精確的用戶畫像。
附圖說明
圖1為本發明所述的人機互動構建用戶畫像聚類計算方法的流程圖。
具體實施方式
下面結合附圖對本發明做進一步的詳細說明,以令本領域技術人員參照說明書文字能夠據以實施。
如圖1所示,本發明提供的人機互動構建用戶畫像聚類計算方法,包括以下步驟:
步驟一:檢測用戶行為,並從用戶下達給機器人指令中提取代表用戶特徵的關鍵詞作為特徵標籤,並給每個特徵標籤賦予初始分值Li0和初始加權值ωio,全部特徵標籤的集合構成標籤資料庫;
步驟二:根據一段時間內為用戶打上的每一種標籤的數量m、使用頻率f和使用時間t、利用推導規則從標籤推導出的屬性、推導規則的邏輯強度值,確定每一種標籤推導出的各種屬性的行為分值;
其中,Ii為對應標記為i屬性的行為分值,Li0為初始分值,ωio為初始加權值,m為標籤數量,f為標籤使用頻率;
步驟三:將其中一種標籤推導出的其中一種屬性的行為分值與預定閾值進行對比,
當時,則判斷是否能夠確定用戶屬性包含該屬性;
當時,則利用所述行為分值連同其他標籤下的對應於所述其中一種屬性的行為分值推算聯合行為屬性閾值,其中
為聯合屬性行為閾值,Ii為對應標籤為i屬性的行為分值,Ii+1為其他標籤為i+1屬性的行為分值,
當時,確定用戶屬性包含所述該屬性,若否則不包含該屬性,其中為聯合屬性行為閾值平均值,
步驟四:通過多個語義化的用戶屬性來還原用戶的全貌,完成用戶畫像。優選的是,所述用戶畫像信息為描述包括所述用戶個性、特點和行為特徵的信息。
在另一實施例中,步驟S200之前,還包括建立標籤規則庫;提供標籤、屬性、以及標籤和屬性之間的推導規則;根據所述標籤和屬性之間的推導規則的強弱設置相應的邏輯強度值。
在另一實施例中,還包括獲得並存儲終端的上報信息,包括:獲得終端通過軟體開發包SDK方式傳輸的源上報信息,或者獲得終端通過JS代碼方式傳輸的源上報信息;對源上報信息進行篩選獲得上報信息;將上報信息與預設標識符關聯存儲,並關聯存儲的標識信息,調整機器人的指令推送比重。
實施以人際交互式用戶畫像計算過程為例,作進一步說明:
首先,檢測用戶行為,並從用戶下達給機器人指令中提取代表用戶特徵的關鍵詞作為特徵標籤,並給每個特徵標籤賦予初始分值Li0和初始加權值ωio,全部特徵標籤的集合構成標籤資料庫;標籤群還可以是由多個子標籤群構成,不同的子標籤群與不同維度的屬性相對應,例如:用戶年齡子標籤群與用戶年齡維度屬性相對應、用戶消指令喜好子標籤群與用戶指令喜好維度屬性相對應等,由用戶各個不同維度的屬性共同構成了用戶畫像;
然後,根據一段時間內為用戶打上的標籤「恐龍」的數量m、使用頻率f和使用時間t、利用推導規則從標籤「恐龍」推導出的屬性為「兒童」、,確定標籤「恐龍」推導出屬性「兒童」的行為分值Ii,並將其與預定閾值進行對比,當時,則確定用戶為兒童。
噹噹對應於用戶年齡屬性下的的標籤「恐龍」的參考值小於或等於閾值時,則引入用戶的同樣對應於兒童的標籤「機器人」作為第二標籤,
用標籤「恐龍」推導出屬性「兒童」的行為分值Ii連同「機器人」推導出屬性「兒童」的行為分值Ii+1推算聯合行為屬性閾值
當時,確定用戶屬性包含兒童屬性,若否,則不包含該屬性,其中為聯合屬性行為閾值平均值。
若時,則引入第三標籤「皮球」共同確定屬性,且確定用戶為兒童;若屬性參考疊加值仍小於預定閾值,則依次類推,引入用戶的對應於兒童的新的標籤作為第四標籤、第五標籤…,直到所述各標籤的參照值加權求和所得的值大於閾值,則確定用戶為兒童。
在另一實施例中,閾值語音降噪算法,包括:
a,通過端點檢測將語音幀區分為靜音幀和語音幀;
b,對於靜音幀,計算當前幀的功率譜值作為噪聲功率譜估計值,對於語音幀,計算語音噪聲功率譜估計值;
c,將語音幀的功率譜減去噪聲功率譜估計值,得到降噪後的語音功率譜;
d,根據降噪後的語音功率譜得出降噪後的語音幀。
語音噪聲功率譜估計值計算公式為:
其中,I為噪聲功率譜能量;閾值n為噪音信號的幀號;j=1-5為轉換係數,e為自然常數;π為圓周率;fc為噪音信號的頻率;τ(t)=0.03t2+0.6t+0.1;t為分解尺度,1≤t≤4。
通過多個語義化的用戶屬性來還原用戶的全貌,完成用戶畫像,用戶畫像信息為描述包括所述用戶個性、特點和行為特徵的信息。
本發明提供的人機互動構建用戶畫像聚類計算方法,通過精確計算行為分值,比較後確定其行為屬性,從而獲得用戶畫像,既保證了時效性,又能得到更加精確的用戶畫像。
儘管本發明的實施方案已公開如上,但其並不僅僅限於說明書和實施方式中所列運用,它完全可以被適用於各種適合本發明的領域,對於熟悉本領域的人員而言,可容易地實現另外的修改,因此在不背離權利要求及等同範圍所限定的一般概念下,本發明並不限於特定的細節和這裡示出與描述的圖例。