一種生存風險的大數據分析方法及系統與流程
2023-05-26 16:42:36 3

本發明屬於風險分析預測技術領域,具體涉及一種生存風險的大數據分析方法及系統。
背景技術:
目前的生存風險分析主要有兩種,一種是疾病風險分析,一種是意外風險分析。保險公司根據對生存風險的分析制定保險產品。
疾病風險分析是有關患病可能程度的分析,它與家庭健康管理、飲食營養、運動、習慣、心理、環境有很大的關係。以抑鬱症為例:生活快節奏、緊張、信息量空前巨大、社會關係複雜、作息方式變化、消費取向差異、在公平的理念下不公平的事實拉大、溺愛等原因,都使心理疾病逐漸增多並惡化。
Philip J BatterhamEmail等2009年在BMC上發表了一篇用決策樹的方法分析預測抑鬱症風險的文獻綜述。對參與者進行了長達4年的調查、測試,初期症狀的抑鬱症成為最為強烈抑鬱症的風險。然而,症狀類別中也出現了大範圍的風險狀況。
現有技術中自我評價和問卷調查是驗證心理疾病的主要方法,它能夠計算被測試者的心理特徵。心理疾病又不同於常見的身體疾病,投保人在進行心理測試的時候,會出現一些偏差或缺漏,在這種情況下,心理疾病風險得不到準確的分析。澳大利亞保險業曾被指歧視心理疾病患者,因為保險公司沒有辦法精確地對心理疾病問題的進行評估,從而建立可靠的資料庫。保險公司無法為他們無法評估的風險定價,並沒有能力評估某些心理疾病復發的可能性。
現有意外風險分析,主要是依靠簡單的調查問卷,包括投保人的年齡、性別、職業等,幾乎不涉及關乎意外風險的要素調查,比如投保人的活動區域、出行方式等,統一化投保人的意外風險。
以交通意外事故預測分析技術為例,現有的分析技術中比較有代表性的是道路交通事故灰色預測模型,比如基於灰色預測理論的GM(1,1)模型,
設道路交通事故原始數據序列X(0)(t)={X(0)(1),X(0)(2),X(0)(3),…X(0)(n)},運用灰色系統理論可以建立道路交通事故GM(1,1)模型
設式中Y(t)為t時刻GM(1,1)模型求得的道路交通事故預測值,曲線較好地反映了道路交通事故原始數據列的總體變化趨勢。
基於灰色預測理論的GM(1,1)模型,分別對道路交通事故的死亡人數、交通事故量進行預測,其結果是可信的。它尤其適合於交通事故預測這樣"小樣本"的隨機不確定問題。但是由於數據量的局限性,導致預測的結果偏差較大,因此不能達到高精準預測的目的。
當今社會,大數據是一把雙刃劍,一方面傳統行業正在面臨大數據的衝擊,另一方面大數據也為保險業帶來了新的商業價值。眾所周知,保險公司等金融企業能夠準確評估風險是至關重要的,換言之,風險降低1%也會給企業帶來豐厚的利潤。
在沒有大數據之前,商業數據往往來源於一些被動的調查表格及滯後的統計數據。大數據時代出現之後,海量數據的即時採集和處理成為可能。利用大數據分析結果歸納和演繹出事物的發展規律,可以幫助保險業進行精準營銷,即按照客戶需要設計保險產品,使更多的群眾享受到合理的金融服務。這對於企業精準評估客戶風險等級、合理定價保險產品、提升客戶滿意度、防止客戶流失是非常重要的。
例如,本公司的在先技術,申請號201610457015.X的中國發明專利申請中,涉及一種大數據風險分析方法。該發明結合大數據,利用機器學習算法模型分析被保人的日常行為習慣,預測出被保人罹患疾病或發生意外的可能性,從而更為人性化地制定相應的保費標準。進一步對新模型的可行性進行了研究,首先是建立了新模型賠償率和預測準確率的關係式,發現了預測準確率和賠償率的負相關關係,並且當預測準確率大於50%時,新模型賠償率將低於原模型賠償率。並用MATLAB對模型進行可視化分析。然後進行了新模型盈利分析,建立了低風險客戶的折扣、預測準確率以及盈利的三維關係,更為直觀地得到新模型下增加的盈利空間。
然而上述大數據中,所述結合大數據的方法如下:先運用Hadoop平臺完成對原始數據的預處理以及特徵工程的訓練,然後利用邏輯回歸等二分類算法訓練機器學習模型,最後採用AUC方法對所述機器學習模型進行評價。上述過程較為複雜,計算速度不快。
技術實現要素:
為解決以上問題,本發明在大數據的背景下,依託現有數據的優勢,結合用戶的上網數據、定位信息、通話記錄等,更為精準的分析了用戶的疾病風險和意外風險。疾病風險分析部分,針對現在容易被忽視但隱患極大的心理疾病風險,通過結合用戶的網絡行為特徵,更全面更精準的評估用戶的潛在心理疾病風險。意外風險部分,主要分析了用戶的交通事故風險,結合用戶的定位信息、搜索記錄、上網記錄等數據,分析用戶的出行習慣,從而確定其發生交通意外事故的風險。總之,本發明彌補了保險行業分析人類風險數據不足的現狀,為保險公司設計更為人性化的保險產品提供了思路。
具體的,根據本發明的一個方面,本發明提供了一種生存風險的大數據分析方法,所述方法包括如下步驟:
收集和分析與用戶相關的網際網路大數據信息;
根據上述網際網路大數據信息建立生存風險計算模型;
根據所述模型的計算結果預測用戶面臨的生存風險。
進一步,如權利要求1所述的生存風險的大數據分析方法,收集和分析與用戶相關的網際網路大數據信息的方法為:通過爬蟲採集用戶訪問社交網站的記錄,進行頁面分析並下載上述記錄的數據,並結合自我評價、問卷調查計算出的心理特徵參數,分析用戶的網絡行為特徵,進行分類得到特徵向量。
進一步,如權利要求1所述的生存風險的大數據分析方法,所述生存風險計算模型為最小二乘支持向量機模型,對心理疾病風險進行分析,是基於網絡數據分析的心理特徵狀態計算模型。
進一步,如權利要求1所述的生存風險的大數據分析方法,所述最小二乘支持向量機是通過最小化誤差對的平方和尋找數據的最佳函數匹配。
進一步,如權利要求1所述的生存風險的大數據分析方法,收集和分析與用戶相關的網際網路大數據信息的方法為:收集和分析用戶在網際網路上記錄的駕駛相關信息。
進一步,如權利要求1所述的生存風險的大數據分析方法,所述駕駛相關信息包括用戶的駕駛時間、路線、位置,分析上述駕駛相關信息,從而確定是否是超速和/或疲勞駕駛。
進一步,如權利要求1所述的生存風險的大數據分析方法,所述生存風險計算模型為邏輯回歸模型。
根據本發明的另一個方面,本發明還提供了一種生存風險的大數據分析系統,所述系統包括如下模塊:
數據收集模塊,用於收集和分析與用戶相關的網際網路大數據信息。
模型建立模塊,用於根據上述網際網路大數據信息建立生存風險計算模型。
風險預測模塊,用於根據所述模型的計算結果預測用戶面臨的生存風險。
本發明的有益效果如下:傳統的疾病風險分析由於外界的發病率統計資料不完整,只能進行粗略的風險判斷和分析。反觀,大數據挖掘卻是全面性、廣泛性地進行所有狀況的分析,精確地識別潛在風險,進而得出一份更完整的健康風險預測報告。大數據挖掘能進行精準的疾病預測,準確的預防方案,確實掌握自身的危險因子。
對於意外風險來說,道路交通事故預測對於探究道路交通事故的發生規律,分析現有道路交通條件下交通事故的未來發展趨勢以及道路交通控制等具有重要意義。利用大數據技術分析意外風險,大大提高了預測精度,可以對潛在的風險提前進行預防,具有重大的社會效益和經濟效益。
同時利用大數據分析預測疾病和意外風險,為保險風險評估與定價帶來了前所未有的創新,並極大地豐富了保險風險因子,有力的推進了傳統保險行業數據提取的提升。
附圖說明
圖1為本發明生存風險的大數據分析方法的流程圖。
圖2為本發明生存風險的大數據分析系統的模塊圖。
圖3為疾病風險的大數據採集流程圖。
圖4是一個戶外活動者的發帖記錄、外出旅遊頻率以及外出旅遊時出行方式的概率圖。
具體實施方式
下面結合附圖和實施例對本發明進行詳細的描述。
用戶和網際網路、移動、社交網絡等工具的頻繁交互會產生海量的數據,比如,通話記錄、上網時間、上網內容、定位信息等。這些數據可以統稱為與用戶相關的網際網路大數據信息。如下表1所示:
如圖1所示,本發明所提供的生存風險的大數據分析方法,包括如下步驟:
S110、收集和分析與用戶相關的網際網路大數據信息。
S120、根據上述網際網路大數據信息建立生存風險計算模型。
S130、根據所述模型的計算結果預測用戶面臨的生存風險。
如圖2所示,本發明所提供的生存風險的大數據分析系統200,包括如下模塊:
數據收集模塊210,用於收集和分析與用戶相關的網際網路大數據信息。
模型建立模塊220,用於根據上述網際網路大數據信息建立生存風險計算模型。
風險預測模塊230,用於根據所述模型的計算結果預測用戶面臨的生存風險。
下面根據上述方法和系統分別用於對疾病風險和意外風險進行大數據分析。本發明以抑鬱症和交通意外風險為例,分析大數據模式在傳統模式的基礎下,通過海量數據進行新的風險評估。
實施例1:抑鬱症風險分析
步驟一、數據採集和分析
通過計算機技術的發展,網絡用戶的在線操作痕跡都可以通過網絡伺服器以網絡日誌的形式實時地記錄下來,而這種記錄提供了一種自然發生並且內容極其豐富核數量極其龐大的人類行為的數據。通過爬蟲採集和分析這些網絡數據,從而實時計算到用戶的心理特徵。大數據進行數據採集的方法如圖3所示,通過爬蟲採集用戶通過PC端、手機、PAD端訪問社交網站的記錄,進行頁面分析並下載上述記錄的數據,並結合自我評價、問卷調查計算出的心理特徵參數,分析用戶的網絡行為特徵,進行分類得到特徵向量。這些社交網絡包括但不限於微博、微信、知乎、Facebook等。
具體而言,對於抑鬱症的各項相關數據的提取過程如下:
1.心理健康狀態:
心理測試問卷調查是最常見的一種心理預估方法,而問卷內容有一系列的心理健康症狀構成,被測試者通過問卷問題測試出心理風險的趨勢,一般來說分數越高就代表著被測試者的某種心理健康問題越嚴重。
2.網絡行為特徵:
本發明通過爬蟲採集,分析出用戶的網絡行為特徵,進行分類。例如:用戶的信息類特徵:被分析者的個人信息(性別,年齡等);用戶的隱私設置類特徵:是否有個人隱私保護偏好;用戶社會關係網類特徵:描述了被測試者在網絡平臺上的人際互動情況;用戶發表言論類的特徵:是否有偏激,厭世,激進類的發表言論,或者對別人不同的觀點進行攻擊,甚至辱罵、報復這類的行為。
本發明通過社交媒體的不同數據,對用戶的抑鬱症傾向進行識別,結合心理健康狀態調查,識別出抑鬱症患者風險指數,並建立模型。
在分析過程中發現,抑鬱傾向的用戶與普通用戶存在很大的區別:
1.時間
登錄社交網站的時間存在明顯差異,抑鬱傾向的用戶登錄時間更偏向晚上11時之後,其夜間活躍度比普通用戶平均高出約30%。
2.關鍵詞
抑鬱傾向的用戶社交網站的關鍵詞中有較多「死」、「抑鬱症」、「生命」、「痛苦」等負能量字眼。其中60%為女性,40%為男性。
3.音樂
抑鬱傾向的用戶分享或者喜歡的音樂多數偏向於黑暗、悲傷、憂鬱等類型,並會無數次重複聽。
4.色彩
哈佛數據科學家通過對Instagram用戶分析發現:普通的用戶會把暗色、灰色把負面情緒聯繫起來,而且更偏愛明亮、鮮豔的顏色,與之相反,抑鬱傾向的用戶更偏愛暗色、灰色。
5.照片
同時數據科學家發現,和普通的用戶相比,抑鬱傾向的用戶更傾向於不使用任何濾鏡。如果使用濾鏡,「Inkwell濾鏡」是他們的最愛,這個濾鏡把照片變成黑白。相反,普通的用戶最喜歡Valencia濾鏡,它主要用來調亮照片的色彩。
6.關注人群
抑鬱症傾向的用戶除了喜歡用小號來表達痛苦情緒,還有群落聚集趨勢,他們會同時關注很多其他同類人群,有的甚至會習慣每天到已經自殺的用戶社交網站上評論『今天你還好嗎?』等。
當然社交網絡也可以為抑鬱症患者推送正面的信息,美國Allied Health World的一項調查數據顯示,接近25%的用戶能找到與自己「同病相憐」的人,希望從他們那裡獲得鼓勵。如果模型能發現並滿足這類需求,對於抑鬱症的治療也是有正面意義的。
步驟二、數據建模:本發明運用最小二乘支持向量機模型對心理疾病風險進行分析,建立基於網絡數據分析的心理特徵狀態計算模型,從而驗證基於網絡數據分析的心理疾病的計算方法的可行性。
最小二乘支持向量機是通過最小化誤差對的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據,並使得這些求得的數據與實際數據之間的誤差的平法和最小,用函數表示為:
最小二乘支持向量機它保持了支持向量機的所有優點,並通過一定的變換,簡化了支持向量機的算法。其推導過程為:
設給定一個有l個數據的訓練(xiyi),x∈Rn,y∈R,i=1,2,…l,其中xi是輸入數據,yi為對應的輸出數據。
最小二乘法的目標優化函數為:
s,t,yi=wTφ(xi)+b+ei,i=1,2…l
其中,φ(·):Rn→Rnk為核空間映射函數;w為權值向量;ei為誤差變量,b為偏置量;y為調整參數因子。
定義拉格朗日函數:
式中,αi為拉格朗日乘子。對各個變量進行求偏導得到:
通過消去w和e,求解的優化問題轉化為求解線性方程:
其中,
,式中a,b可通過上面式子求得,存在映射函數φ
和核函數K(xj,xk),使得φ(xj)Tφ(xk)=K(xj,xk)
用於函數估計的LS-SVM為:
步驟三、根據所述模型的計算結果可以很容易的預測用戶面臨的心理疾病例如抑鬱症的風險。
實施例2:意外風險分析
舉個例子,一個極限運動愛好者,發生意外事故的概率比普通人大很多,問題是,如何判斷用戶是否是極限運動愛好者呢?
步驟一、收集和分析用戶在網際網路上記錄的駕駛相關信息。例如,用戶通過手機上的高德地圖App進行實時導航,該手機上網後,高德地圖可以實時記錄用戶的駕駛相關信息。通過用戶的即時定位信息分析用戶的駕駛時間、路線、位置等駕駛相關信息,從而確定是否是超速和/或疲勞駕駛。
下面說明如何利用現有數據來進行用戶意外風險分析。
1.行駛裡程大
俗話說「常在河邊走哪有不溼鞋」,大量資料顯示,隨著車輛行駛裡程的增加,發生交通事故的概率會顯著上升。並且,南開大學的學者研究也表明,交通事故損失額與公路裡程數之間存在顯著正相關關係。
鑑於歐美等發達國家的保險公司資料庫中已有行駛裡程數的統計數據,美國加州大學伯克利分校的學者Edlin(1998)對單位裡程的車險保費進行了研究,其研究結果表明,機動車輛保險成本對行駛裡程數的彈性係數在1.42到1.85的範圍內。也就是說,機動車輛行駛裡程數每增加1%,保險成本將增加1.42%到1.85%。
結合用戶的定位信息以及速度,可以判斷用戶的行程裡程數,而不用受限於用戶是否開車。
2.超速駕駛
交規中規定駕駛車輛超速50%時,一次性記12分,說明超速駕駛的嚴重性,十次事故九次快,更是直接說明了超速駕駛的危害。
根據一個超速用戶的駕駛出行記錄做出的隨著時間推移平均速度的變化圖,該用戶在凌晨4點到6點之間保持平均車速在120km/h以上,因此判斷此人發生交通事故的概率將是正常駕駛者的10倍以上。
3.疲勞駕駛
資料顯示,2007年,我國直接由疲勞駕駛造成的事故數為3349起,死亡1768人。2002年澳大利亞交通安全委員會支持的一項專門針對疲勞駕駛的研究表明,約20%的道路交通事故由疲勞駕駛造成,且這些交通事故大都是造成人員傷亡的重大交通事故。由此可見,疲勞駕駛是造成重大交通事故的罪魁禍首之一。
研究表明,連續駕駛時間小於4小時時,事故發生率在1%以下;當連續駕駛10小時後,疲勞駕駛導致的事故發生率上升到了5%,當連續駕駛12小時時,疲勞駕駛導致的事故發生率上升到了10%;而當連續駕駛17小時時,疲勞駕駛導致的事故發生率上升到了25%,是連續駕駛10小時的5倍。
上面是一個典型的案例分析。類似於上面分析超速駕駛用戶的情況,我們結合用戶的即時定位信息可以分析出用戶每天的駕駛時間、位置以及持續駕駛的天數,從而確定該用戶是否具有疲勞駕駛習慣。
綜上,以上分析了導致交通意外事故的幾種因素,可見利用現有的大數據優勢,可以更精準地預測用戶的交通事意外風險。
如圖4所示,是一個戶外活動者的發帖記錄、外出旅遊頻率以及外出旅遊時出行方式的概率圖,可以看出該用戶關於外出遊玩的記錄佔據發帖紀錄的13%,並且一年中有大約150天都在外出旅遊,可見該用戶是一個典型的戶外愛好者,並且其選擇的出遊方式多為自駕遊,眾所周知,火車和飛機發生意外的概率是非常小的,而自駕發生意外事故的概率就大得多。並且該用戶35%的出遊地點為山區,而山區發生意外事故要比平原地區高得多,綜上判斷該用戶是一個意外事故的高風險用戶。
步驟二、綜合以上研究成果建立了邏輯回歸模型,判斷用戶的風險類型。
設f(x)=θ0+θ1x1+…θnxn=θTx,xi(i=1,2...n)是特徵向量(用戶是否超速、疲勞駕駛、酒駕、行駛裡程大等行為習慣),θ為參數。轉換成Logistic模型,Logistic函數形式如下:
則預測函數為
P(y=1|x;θ)=hθ(x)
P(y=0|x;θ)=1-hθ(x)
即當hθ(x)>0.5時,駕駛人為高風險用戶;當hθ(x)<0.5時,駕駛人為低風險用戶。
構造成本函數,
利用最大似然估計推導得到損失函數的表達式,
J(θ)取得最小值時的θ為要求的最優參數。下面利用梯度下降法求J(θ)的最小值。
根據梯度下降法知θ的更新過程:
上式中α為學習步長,對上式求偏導,
最終的θ更新過程為:至此,得到了最優參數θ,從而可以求得hθ(x),相應地完成了對用戶的分類。
步驟三、根據所述模型的計算結果可以很容易的預測用戶面臨的交通意外風險。
本發明以保險業中的疾病風險和意外風險為例,來說明大數據背景下的風險分析較傳統風險分析方式的優勢。對於傳統的分析方法和大數據下的分析方法比較如下表2所示:
表2
可見,使用本發明的生存風險的大數據分析方法,可以更加準確預測保險用戶的生存風險,為保險業制定保險產品提供了極大幫助。
本發明結合現有數據,更加全面地分析客戶的生存風險,彌補傳統分析方法所帶來的弊端,精準的評估出客戶風險等級。比如,經常熬夜泡吧的用戶,發生疾病的概率會遠遠高於作息正常的用戶;經常超速駕駛的用戶,發生交通事故的概率會遠遠高於安全駕駛的用戶。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發明的精神和範圍。這樣,倘若對本發明的這些修改和變型屬於本發明權利要求及其同等技術的範圍之內,則本發明也意圖包含這些改動和變型在內。