新四季網

一種基於車聯網數據的時空維度用戶畫像分析方法與流程

2023-05-30 03:35:01

本發明屬於車聯網信息技術領域,具體涉及一種基於車聯網數據的時空維度用戶畫像分析方法。



背景技術:

隨著移動網際網路和物聯網技術的發展,越來越多的車輛通過前裝或後裝的方式加入了車聯網的陣營,並產生了大量的基於車輛位置的數據,然而這些數據的價值還有待進行更多維度、更深層次的挖掘。相關領域,國內外對於車聯網數據的使用主要集中在使用車聯網數據對不良駕駛行為的識別和預警,以及駕駛行為的經濟性研究,而在基於車聯網時空數據對用戶行為進行深度挖掘的工作才剛剛起步。相關方面如中國發明專利申請201410531377.x公開的「基於物聯網大數據平臺的用戶智能畫像方法」,是通過物聯網信息中心採集用戶數據對用戶進行定性和定量的分析,從而識別核心和規模較大的用戶。又如201210074506.8公開的「基於手機定位數據的居民出行特徵參數的獲取方法」,是通過手機定位數據匹配到交通小區,這種方法對地圖信息的依賴性強,且需要完備的交通小區信息。並且在該專利中也給出了判斷居住地和工作地的簡單方法,從而去判斷用戶的出行特徵。



技術實現要素:

為了解決上述問題,本發明提供一種基於車聯網數據的時空維度用戶畫像分析方法,所述方法通過車聯網時空數據的描述方法,得到車主在出行習慣方面的畫像,進行對車主的出行規律度描述、運營性質車輛識別、自駕遊喜好程度描述、社交喜好判斷等方面的應用,通過對車主的用戶畫像豐富保險行業中從人因素的風險因子庫,通過對特定車主身份的識別為行業用戶提供實現精準營銷、改善用戶體驗的數據基礎;

進一步地,所述方法包括:

s1:obd數據採集;

s2:對s1採集的obd數據進行清洗;

s3:對s2清洗完的數據進行描述性統計;

s4:對s3中的行程起點和終點坐標進行聚類;

s5:對s4對車聯網數據的時間維度描述;

s6:對s5車聯網數據的空間維度描述;

進一步地,所述s1中obd數據採集具體為:通過obd盒子,對車輛can總線進行訪問實時採集數據,所述數據具體為時間數據、gps數據和車況數據;

進一步地,所述s2中數據清洗具體為基於obd採集數據時的工作狀態所生成的位掩碼,位掩碼表示記錄中所有欄位的有效性,「1」標誌為有效,「0」標誌為無效,查找並分析其餘的異常數據,對該數據出現的規律性進行分析,提出合理的清除數據或者修改異常數據的措施;

進一步地,所述s3中描述性統計具體為對行程的統計表和對車主的統計表,所述統計表統計指標包括:行程起點、終點坐標、行程開始時間、結束時間、行程持續時間、行程結束停車時間和行程裡程長度;

進一步地,所述s4中終點聚類具體為以車主的家或公司形成點密度較大的核心分布區域,將屬於所述核心分布區域進行定位點編號;

進一步地,所述s5中對時間維度描述具體為將時間以較小的間隔離散化,記錄車主在觀測期內的所有行程,得到以下稀疏矩陣,

矩陣中的第一列為日期(yymmdd),第二列為星期(1\2\3\4\5\6\7),其餘十二列為一天的12個時段。對應的12個時段內的標號,表示該車主行程起點和終點的編號;

進一步地,所述s6中對車聯網數據的空間維度描述具體為將車主每天的行程看作是一條連續聚類點組成的序列,將車主所有的行程並列在一起,其中,層級表示為車主在觀測日期內的最長行程長度,模塊的寬度表示該層級中到達該聚類點次數的佔比,所有聚類點帶有一個詳細行程表,記錄:到達次數、到達次數佔比、到達行程開始時間、到達行程結束時間、出發行程開始時間、出發行程結束時間;

本發明的有益效果如下:

1)如同為自駕遊愛好者推薦興趣相投的夥伴,使用車聯網的用戶畫像技術可以為更多的車主提供豐富多樣的社交屬性;

2)可以直觀地描述車主在空間維度的出行習慣,同時描述車主在時間維度的變化規律。同時結合對聚類點屬性的反饋,可以判斷車主的出行習慣;

說明書附圖

圖1為本發明s6中所述車聯網數據的空間維度描述圖。

具體實施方式

為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細描述。應當理解,此處所描述的具體實施例僅僅用於解釋本發明,並不用於限定本發明。相反,本發明涵蓋任何由權利要求定義的在本發明的精髓和範圍上做的替代、修改、等效方法以及方案。進一步,為了使公眾對本發明有更好的了解,在下文對本發明的細節描述中,詳盡描述了一些特定的細節部分。對本領域技術人員來說沒有這些細節部分的描述也可以完全理解本發明。

下面結合附圖和具體實施例對本發明作進一步說明,但不作為對本發明的限定。下面為本發明的舉出最佳實施例:

一種基於車聯網數據的時空維度用戶畫像分析方法,所述方法通過車聯網時空數據的描述方法,得到車主在出行習慣方面的畫像,進行對車主的出行規律度描述、運營性質車輛識別、自駕遊喜好程度描述、社交喜好判斷等方面的應用,通過對車主的用戶畫像豐富保險行業中從人因素的風險因子庫,通過對特定車主身份的識別為行業用戶提供實現精準營銷、改善用戶體驗的數據基礎,所述方法包括:

s1:obd數據採集;

s2:對s1採集的obd數據進行清洗;

s3:對s2清洗完的數據進行描述性統計;

s4:對s3中的行程起點和終點坐標進行聚類;

s5:對s4對車聯網數據的時間維度描述;

s6:對s5車聯網數據的空間維度描述,所述s1中obd數據採集具體為:通過obd盒子,對車輛can總線進行訪問實時採集數據,所述數據具體為時間數據、gps數據和車況數據。

所述s2中數據清洗具體為基於obd採集數據時的工作狀態所生成的位掩碼,位掩碼表示記錄中所有欄位的有效性,「1」標誌為有效,「0」標誌為無效,查找並分析其餘的異常數據,對該數據出現的規律性進行分析,提出合理的清除數據或者修改異常數據的措施。

所述s3中描述性統計具體為對行程的統計表和對車主的統計表,所述統計表統計指標包括:行程起點、終點坐標、行程開始時間、結束時間、行程持續時間、行程結束停車時間和行程裡程長度,所述s4中終點聚類具體為以車主的家或公司形成點密度較大的核心分布區域,將屬於所述核心分布區域進行定位點編號,所述s5中對時間維度描述具體為將時間以較小的間隔離散化,記錄車主在觀測期內的所有行程,得到以下稀疏矩陣,

矩陣中的第一列為日期(yymmdd),第二列為星期(1\2\3\4\5\6\7),其餘十二列為一天的12個時段。對應的12個時段內的標號,表示該車主行程起點和終點的編號,所述s6中對車聯網數據的空間維度描述具體為將車主每天的行程看作是一條連續聚類點組成的序列,將車主所有的行程並列在一起,如圖1所示,

其中,層級表示為車主在觀測日期內的最長行程長度,模塊的寬度表示該層級中到達該聚類點次數的佔比,所有聚類點帶有一個詳細行程表,記錄:到達次數、到達次數佔比、到達行程開始時間、到達行程結束時間、出發行程開始時間、出發行程結束時間。

本發明所述的方法應用於以下模塊:

1)obd數據採集模塊

基於obd盒子,對車輛can總線進行訪問實時採集數據。本專利中主要指採集到的時間數據、gps數據、車況數據等。

2)數據描述性統計模塊

將obd採集到的數據發往伺服器,並對這些數據進行清洗以及描述性的統計。

需要特別強調的是,在進行車主駐留點的聚類方法及屬性分析前應當對車主身份及其他敏感信息(如vin碼、設備id等)進行哈希加密,防止對車主產生不良影響。

另外,在整個數據處理過程中,要儘量保證數據安全。

數據清洗的主要工作有:

基於obd採集數據時的工作狀態所生成的位掩碼(fieldmask),根據位掩碼判斷數據的初始有效性;

其次,查找並分析其餘的異常數據,例如終端失靈導致的異常數據,對該數據出現的規律性進行分析,提出合理的清除數據或者修改異常數據的措施,例如卡曼濾波、滑動均值濾波的方法;

最後,接下來對數據進行描述性統計工作,主要包括對行程的統計表和對車主的統計表。針對於本專利的統計表統計指標主要包括:行程起點、終點坐標、行程開始時間、結束時間、行程持續時間、行程結束停車時間、行程裡程長度等。

3)車主行程起點、終點聚類

由於gps的定位點本身具有一定的定位誤差,同時很多車主在到達家或公司之後車輛的停放位置也並不固定,所以一般來說會在車主的家或公司形成點密度較大的核心分布區域。這些區域我們稱為車主的核心點,這些核心點是我們挖掘車主行為習慣的重要依據。因此,首先將屬於這些核心點的定位點編號。

在對用戶的行程的起點和終點聚類並編號後,除去因為硬體故障造成的行程中斷跳躍之外,車主的整體行程是連續的。並且我們可以通過對聚類點時間及空間維度進行分析,確定聚類點的時間及空間屬性。

4)對車聯網數據的時間維度描述

將時間以較小的間隔離散化,並記錄車主在觀測期內的所有行程,可得到一個稀疏矩陣,例如,以兩小時為單位,某車主在一周的觀測期內的行為可以表示為如下稀疏矩陣:

其次,查找並分析其餘的異常數據,例如終端失靈導致的異常數據,對該數據出現的規律性進行分析,提出合理的清除數據或者修改異常數據的措施,例如卡曼濾波、滑動均值濾波的方法;

最後,接下來對數據進行描述性統計工作,主要包括對行程的統計表和對車主的統計表。針對於本專利的統計表統計指標主要包括:行程起點、終點坐標、行程開始時間、結束時間、行程持續時間、行程結束停車時間、行程裡程長度等。

實施例1:車主出行規律度描述

車主出行的規律性是研究車主行為畫像的重要組成部分,並且也是行業用戶的重點關注,理論上,車主的行為習慣越規律,發生事故的概率越低。

為了描述車主的出行規律度,我們採用時間、空間兩個維度去分析車主的行為。通過本發明所述的分析方法,對車主出行數據的時間、空間描述,大部分車主在節假日和工作日中的出行規律有明顯區別,故將其分開考慮。

在描述時間規律度(工作日/節假日)時,考慮以下2個指標:

a)車主每天第一個行程的開始時間;

b)車主每天最後一個行程的結束時間。

可以理解為,這兩個時間分別代表了車主的離家和回家時間點。用這兩個指標描述車主在時間維度上的規律度。使用這兩個指標的方差來表示其規律度。

方差越小,說明車主離家或回家的時間越穩定,行為越規律。

在描述空間規律度(工作日/節假日)時,考慮以下6個指標:

a)每天第一個行程終點的種類數量,數值越小說明規律度越高;

b)每天第一個行程終點最高頻點的佔比,數值越大說明規律度越高;

c)每天最後一個行程的起點的種類數量,數值越小說明規律度越高;

d)每天最後一個行程的起點最高頻點的佔比,數值越大說明規律度越高;

e)每天第一個行程起點、最後一個行程終點最高頻點的佔比,一般來講,第一個行程起點或最後一個行程終點對應著車主的「家」,因此,在規律度中需要考慮被認為是車主「家」地點的最高頻點佔比。數值越大說明規律度越高;

f)每天的平均行程數,數值越小說明規律度越高;

在獲得以上8個特徵後,構建層次分析法模型,選取適當的權重,得到最終的車主規律度,其中節假日和非節假日的規律度時分開的。可以將其基於時間長度做加權平均。公式如下:

車主規律度=[(工作日時間規律度+工作日空間規律度)/2*工作日天數+(節假日時間規律度+節假日空間規律度)/2*節假日天數)]/(工作日天數+節假日天數)

實施例2:運營性質車輛識別

隨著共享出行模式的不斷普及,越來越多的非運營車輛轉化為運營車輛,具有運營車輛屬性,但按照非運營車輛購買車輛保險,對保險公司對於承保車輛風險判斷出現錯誤,提高了賠付風險。通過車聯網數據對車主進行用戶畫像分析,判斷並識別運營性質車輛,從而降低保險公司的承保風險。

應用本發明所述分析方法,首先進行指標提取,選取14項指標,包括:車主出行規律度描述中所包含的8個指標、車主的主要路徑重複度、車輛白天\夜晚的停放\行駛時長、在交通樞紐(包括機場、火車站、地鐵站、長途汽車站等)附近的停車頻率等。

選取已進行過問卷調查,並標記好身份的車主作為訓練對象,建立bp神經網絡。

bp神經網絡是一種多層前饋神經網絡,可以實現從輸入到輸出的任意非線性映射,具有良好的自組織、自適應和較強的魯棒性的特點。bp神經網絡能學習和存貯大量的輸入-輸出模式映射關係,而無需事前揭示描述這種映射關係的數學方程。使用的學習規則是使用最速下降法,通過反向傳播來不斷調整網絡的權值和閾值,使網絡的誤差平方和最小,結束學習。具體步驟如下:

a)構建輸入向量和輸出值。輸入向量為十四項指標,輸出值為其對應的身份標記(1為運營車輛,0為正常車輛);

b)將數據輸入已經構建好的神經網絡中,網絡結構14×10×1的網絡拓撲結構,神經元函數為sigmoid特徵函數;

c)使用採集處理後的數據分為兩部分,訓練數據和檢驗數據,將訓練數據作為輸入訓練神經網絡,取學習率η=0.3,誤差標準ε=0.005,得到訓練好的神經網絡;

d)選擇檢驗數據作為輸入,判斷神經網絡預測模型得到的結果的準確性。

若要將模型用於實際的生產中時,要考慮模型的不斷學習優化過程,以達到更加準確的識別效果。

實施例3:用於自駕遊喜好程度描述

隨著生活節奏的不斷加快,越來越多的人喜歡在節假日到郊區或更遠的地方自駕遊。這樣的行為無形之中提高了車輛的事故風險,如果將這部分人識別出來,一方面,為其提供更加完備的保險服務以及周到的道路救援服務,可以極大的提高品牌效應和車主忠誠度。另一方面,可以為其提供針對性的維修保養等汽車後服務,並可以為其推薦興趣相投的自駕遊愛好者或者組建自駕遊俱樂部。

首先進行指標選取,選取3項指標,包括:節假日外出行程比例、節假日外出行程平均長度,外出行程終點附近的poi屬性為景點的比例。

採用的計算方法為topsis(techniquefororderpreferencebysimilaritytoanidealsolution)法,其基本原理,是通過檢測評價對象與最優解、最劣解的距離來進行排序,若評價對象最靠近最優解同時又最遠離最劣解,則為最好;否則不為最優。其中最優解的各指標值都達到各評價指標的最優值。最劣解的各指標值都達到各評價指標的最差值。

實施例4:社交喜好判斷

如同為自駕遊愛好者推薦興趣相投的夥伴,使用車聯網的用戶畫像技術可以為更多的車主提供豐富多樣的社交屬性,例如,可以通過計算識別出來的車主家庭住址和工作地址,為車主推薦附近的順風車,從而為限行日的車主提供了更多的出行選擇。

以上所述的實施例,只是本發明較優選的具體實施方式的一種,本領域的技術人員在本發明技術方案範圍內進行的通常變化和替換都應包含在本發明的保護範圍內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀