一種基於車聯網數據的時空維度用戶畫像分析方法與流程
2023-05-30 03:35:01 1
本發明屬於車聯網信息技術領域,具體涉及一種基於車聯網數據的時空維度用戶畫像分析方法。
背景技術:
隨著移動網際網路和物聯網技術的發展,越來越多的車輛通過前裝或後裝的方式加入了車聯網的陣營,並產生了大量的基於車輛位置的數據,然而這些數據的價值還有待進行更多維度、更深層次的挖掘。相關領域,國內外對於車聯網數據的使用主要集中在使用車聯網數據對不良駕駛行為的識別和預警,以及駕駛行為的經濟性研究,而在基於車聯網時空數據對用戶行為進行深度挖掘的工作才剛剛起步。相關方面如中國發明專利申請201410531377.x公開的「基於物聯網大數據平臺的用戶智能畫像方法」,是通過物聯網信息中心採集用戶數據對用戶進行定性和定量的分析,從而識別核心和規模較大的用戶。又如201210074506.8公開的「基於手機定位數據的居民出行特徵參數的獲取方法」,是通過手機定位數據匹配到交通小區,這種方法對地圖信息的依賴性強,且需要完備的交通小區信息。並且在該專利中也給出了判斷居住地和工作地的簡單方法,從而去判斷用戶的出行特徵。
技術實現要素:
為了解決上述問題,本發明提供一種基於車聯網數據的時空維度用戶畫像分析方法,所述方法通過車聯網時空數據的描述方法,得到車主在出行習慣方面的畫像,進行對車主的出行規律度描述、運營性質車輛識別、自駕遊喜好程度描述、社交喜好判斷等方面的應用,通過對車主的用戶畫像豐富保險行業中從人因素的風險因子庫,通過對特定車主身份的識別為行業用戶提供實現精準營銷、改善用戶體驗的數據基礎;
進一步地,所述方法包括:
s1:obd數據採集;
s2:對s1採集的obd數據進行清洗;
s3:對s2清洗完的數據進行描述性統計;
s4:對s3中的行程起點和終點坐標進行聚類;
s5:對s4對車聯網數據的時間維度描述;
s6:對s5車聯網數據的空間維度描述;
進一步地,所述s1中obd數據採集具體為:通過obd盒子,對車輛can總線進行訪問實時採集數據,所述數據具體為時間數據、gps數據和車況數據;
進一步地,所述s2中數據清洗具體為基於obd採集數據時的工作狀態所生成的位掩碼,位掩碼表示記錄中所有欄位的有效性,「1」標誌為有效,「0」標誌為無效,查找並分析其餘的異常數據,對該數據出現的規律性進行分析,提出合理的清除數據或者修改異常數據的措施;
進一步地,所述s3中描述性統計具體為對行程的統計表和對車主的統計表,所述統計表統計指標包括:行程起點、終點坐標、行程開始時間、結束時間、行程持續時間、行程結束停車時間和行程裡程長度;
進一步地,所述s4中終點聚類具體為以車主的家或公司形成點密度較大的核心分布區域,將屬於所述核心分布區域進行定位點編號;
進一步地,所述s5中對時間維度描述具體為將時間以較小的間隔離散化,記錄車主在觀測期內的所有行程,得到以下稀疏矩陣,
矩陣中的第一列為日期(yymmdd),第二列為星期(1\2\3\4\5\6\7),其餘十二列為一天的12個時段。對應的12個時段內的標號,表示該車主行程起點和終點的編號;
進一步地,所述s6中對車聯網數據的空間維度描述具體為將車主每天的行程看作是一條連續聚類點組成的序列,將車主所有的行程並列在一起,其中,層級表示為車主在觀測日期內的最長行程長度,模塊的寬度表示該層級中到達該聚類點次數的佔比,所有聚類點帶有一個詳細行程表,記錄:到達次數、到達次數佔比、到達行程開始時間、到達行程結束時間、出發行程開始時間、出發行程結束時間;
本發明的有益效果如下:
1)如同為自駕遊愛好者推薦興趣相投的夥伴,使用車聯網的用戶畫像技術可以為更多的車主提供豐富多樣的社交屬性;
2)可以直觀地描述車主在空間維度的出行習慣,同時描述車主在時間維度的變化規律。同時結合對聚類點屬性的反饋,可以判斷車主的出行習慣;
說明書附圖
圖1為本發明s6中所述車聯網數據的空間維度描述圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細描述。應當理解,此處所描述的具體實施例僅僅用於解釋本發明,並不用於限定本發明。相反,本發明涵蓋任何由權利要求定義的在本發明的精髓和範圍上做的替代、修改、等效方法以及方案。進一步,為了使公眾對本發明有更好的了解,在下文對本發明的細節描述中,詳盡描述了一些特定的細節部分。對本領域技術人員來說沒有這些細節部分的描述也可以完全理解本發明。
下面結合附圖和具體實施例對本發明作進一步說明,但不作為對本發明的限定。下面為本發明的舉出最佳實施例:
一種基於車聯網數據的時空維度用戶畫像分析方法,所述方法通過車聯網時空數據的描述方法,得到車主在出行習慣方面的畫像,進行對車主的出行規律度描述、運營性質車輛識別、自駕遊喜好程度描述、社交喜好判斷等方面的應用,通過對車主的用戶畫像豐富保險行業中從人因素的風險因子庫,通過對特定車主身份的識別為行業用戶提供實現精準營銷、改善用戶體驗的數據基礎,所述方法包括:
s1:obd數據採集;
s2:對s1採集的obd數據進行清洗;
s3:對s2清洗完的數據進行描述性統計;
s4:對s3中的行程起點和終點坐標進行聚類;
s5:對s4對車聯網數據的時間維度描述;
s6:對s5車聯網數據的空間維度描述,所述s1中obd數據採集具體為:通過obd盒子,對車輛can總線進行訪問實時採集數據,所述數據具體為時間數據、gps數據和車況數據。
所述s2中數據清洗具體為基於obd採集數據時的工作狀態所生成的位掩碼,位掩碼表示記錄中所有欄位的有效性,「1」標誌為有效,「0」標誌為無效,查找並分析其餘的異常數據,對該數據出現的規律性進行分析,提出合理的清除數據或者修改異常數據的措施。
所述s3中描述性統計具體為對行程的統計表和對車主的統計表,所述統計表統計指標包括:行程起點、終點坐標、行程開始時間、結束時間、行程持續時間、行程結束停車時間和行程裡程長度,所述s4中終點聚類具體為以車主的家或公司形成點密度較大的核心分布區域,將屬於所述核心分布區域進行定位點編號,所述s5中對時間維度描述具體為將時間以較小的間隔離散化,記錄車主在觀測期內的所有行程,得到以下稀疏矩陣,
矩陣中的第一列為日期(yymmdd),第二列為星期(1\2\3\4\5\6\7),其餘十二列為一天的12個時段。對應的12個時段內的標號,表示該車主行程起點和終點的編號,所述s6中對車聯網數據的空間維度描述具體為將車主每天的行程看作是一條連續聚類點組成的序列,將車主所有的行程並列在一起,如圖1所示,
其中,層級表示為車主在觀測日期內的最長行程長度,模塊的寬度表示該層級中到達該聚類點次數的佔比,所有聚類點帶有一個詳細行程表,記錄:到達次數、到達次數佔比、到達行程開始時間、到達行程結束時間、出發行程開始時間、出發行程結束時間。
本發明所述的方法應用於以下模塊:
1)obd數據採集模塊
基於obd盒子,對車輛can總線進行訪問實時採集數據。本專利中主要指採集到的時間數據、gps數據、車況數據等。
2)數據描述性統計模塊
將obd採集到的數據發往伺服器,並對這些數據進行清洗以及描述性的統計。
需要特別強調的是,在進行車主駐留點的聚類方法及屬性分析前應當對車主身份及其他敏感信息(如vin碼、設備id等)進行哈希加密,防止對車主產生不良影響。
另外,在整個數據處理過程中,要儘量保證數據安全。
數據清洗的主要工作有:
基於obd採集數據時的工作狀態所生成的位掩碼(fieldmask),根據位掩碼判斷數據的初始有效性;
其次,查找並分析其餘的異常數據,例如終端失靈導致的異常數據,對該數據出現的規律性進行分析,提出合理的清除數據或者修改異常數據的措施,例如卡曼濾波、滑動均值濾波的方法;
最後,接下來對數據進行描述性統計工作,主要包括對行程的統計表和對車主的統計表。針對於本專利的統計表統計指標主要包括:行程起點、終點坐標、行程開始時間、結束時間、行程持續時間、行程結束停車時間、行程裡程長度等。
3)車主行程起點、終點聚類
由於gps的定位點本身具有一定的定位誤差,同時很多車主在到達家或公司之後車輛的停放位置也並不固定,所以一般來說會在車主的家或公司形成點密度較大的核心分布區域。這些區域我們稱為車主的核心點,這些核心點是我們挖掘車主行為習慣的重要依據。因此,首先將屬於這些核心點的定位點編號。
在對用戶的行程的起點和終點聚類並編號後,除去因為硬體故障造成的行程中斷跳躍之外,車主的整體行程是連續的。並且我們可以通過對聚類點時間及空間維度進行分析,確定聚類點的時間及空間屬性。
4)對車聯網數據的時間維度描述
將時間以較小的間隔離散化,並記錄車主在觀測期內的所有行程,可得到一個稀疏矩陣,例如,以兩小時為單位,某車主在一周的觀測期內的行為可以表示為如下稀疏矩陣:
其次,查找並分析其餘的異常數據,例如終端失靈導致的異常數據,對該數據出現的規律性進行分析,提出合理的清除數據或者修改異常數據的措施,例如卡曼濾波、滑動均值濾波的方法;
最後,接下來對數據進行描述性統計工作,主要包括對行程的統計表和對車主的統計表。針對於本專利的統計表統計指標主要包括:行程起點、終點坐標、行程開始時間、結束時間、行程持續時間、行程結束停車時間、行程裡程長度等。
實施例1:車主出行規律度描述
車主出行的規律性是研究車主行為畫像的重要組成部分,並且也是行業用戶的重點關注,理論上,車主的行為習慣越規律,發生事故的概率越低。
為了描述車主的出行規律度,我們採用時間、空間兩個維度去分析車主的行為。通過本發明所述的分析方法,對車主出行數據的時間、空間描述,大部分車主在節假日和工作日中的出行規律有明顯區別,故將其分開考慮。
在描述時間規律度(工作日/節假日)時,考慮以下2個指標:
a)車主每天第一個行程的開始時間;
b)車主每天最後一個行程的結束時間。
可以理解為,這兩個時間分別代表了車主的離家和回家時間點。用這兩個指標描述車主在時間維度上的規律度。使用這兩個指標的方差來表示其規律度。
方差越小,說明車主離家或回家的時間越穩定,行為越規律。
在描述空間規律度(工作日/節假日)時,考慮以下6個指標:
a)每天第一個行程終點的種類數量,數值越小說明規律度越高;
b)每天第一個行程終點最高頻點的佔比,數值越大說明規律度越高;
c)每天最後一個行程的起點的種類數量,數值越小說明規律度越高;
d)每天最後一個行程的起點最高頻點的佔比,數值越大說明規律度越高;
e)每天第一個行程起點、最後一個行程終點最高頻點的佔比,一般來講,第一個行程起點或最後一個行程終點對應著車主的「家」,因此,在規律度中需要考慮被認為是車主「家」地點的最高頻點佔比。數值越大說明規律度越高;
f)每天的平均行程數,數值越小說明規律度越高;
在獲得以上8個特徵後,構建層次分析法模型,選取適當的權重,得到最終的車主規律度,其中節假日和非節假日的規律度時分開的。可以將其基於時間長度做加權平均。公式如下:
車主規律度=[(工作日時間規律度+工作日空間規律度)/2*工作日天數+(節假日時間規律度+節假日空間規律度)/2*節假日天數)]/(工作日天數+節假日天數)
實施例2:運營性質車輛識別
隨著共享出行模式的不斷普及,越來越多的非運營車輛轉化為運營車輛,具有運營車輛屬性,但按照非運營車輛購買車輛保險,對保險公司對於承保車輛風險判斷出現錯誤,提高了賠付風險。通過車聯網數據對車主進行用戶畫像分析,判斷並識別運營性質車輛,從而降低保險公司的承保風險。
應用本發明所述分析方法,首先進行指標提取,選取14項指標,包括:車主出行規律度描述中所包含的8個指標、車主的主要路徑重複度、車輛白天\夜晚的停放\行駛時長、在交通樞紐(包括機場、火車站、地鐵站、長途汽車站等)附近的停車頻率等。
選取已進行過問卷調查,並標記好身份的車主作為訓練對象,建立bp神經網絡。
bp神經網絡是一種多層前饋神經網絡,可以實現從輸入到輸出的任意非線性映射,具有良好的自組織、自適應和較強的魯棒性的特點。bp神經網絡能學習和存貯大量的輸入-輸出模式映射關係,而無需事前揭示描述這種映射關係的數學方程。使用的學習規則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小,結束學習。具體步驟如下:
a)構建輸入向量和輸出值。輸入向量為十四項指標,輸出值為其對應的身份標記(1為運營車輛,0為正常車輛);
b)將數據輸入已經構建好的神經網絡中,網絡結構14×10×1的網絡拓撲結構,神經元函數為sigmoid特徵函數;
c)使用採集處理後的數據分為兩部分,訓練數據和檢驗數據,將訓練數據作為輸入訓練神經網絡,取學習率η=0.3,誤差標準ε=0.005,得到訓練好的神經網絡;
d)選擇檢驗數據作為輸入,判斷神經網絡預測模型得到的結果的準確性。
若要將模型用於實際的生產中時,要考慮模型的不斷學習優化過程,以達到更加準確的識別效果。
實施例3:用於自駕遊喜好程度描述
隨著生活節奏的不斷加快,越來越多的人喜歡在節假日到郊區或更遠的地方自駕遊。這樣的行為無形之中提高了車輛的事故風險,如果將這部分人識別出來,一方面,為其提供更加完備的保險服務以及周到的道路救援服務,可以極大的提高品牌效應和車主忠誠度。另一方面,可以為其提供針對性的維修保養等汽車後服務,並可以為其推薦興趣相投的自駕遊愛好者或者組建自駕遊俱樂部。
首先進行指標選取,選取3項指標,包括:節假日外出行程比例、節假日外出行程平均長度,外出行程終點附近的poi屬性為景點的比例。
採用的計算方法為topsis(techniquefororderpreferencebysimilaritytoanidealsolution)法,其基本原理,是通過檢測評價對象與最優解、最劣解的距離來進行排序,若評價對象最靠近最優解同時又最遠離最劣解,則為最好;否則不為最優。其中最優解的各指標值都達到各評價指標的最優值。最劣解的各指標值都達到各評價指標的最差值。
實施例4:社交喜好判斷
如同為自駕遊愛好者推薦興趣相投的夥伴,使用車聯網的用戶畫像技術可以為更多的車主提供豐富多樣的社交屬性,例如,可以通過計算識別出來的車主家庭住址和工作地址,為車主推薦附近的順風車,從而為限行日的車主提供了更多的出行選擇。
以上所述的實施例,只是本發明較優選的具體實施方式的一種,本領域的技術人員在本發明技術方案範圍內進行的通常變化和替換都應包含在本發明的保護範圍內。