新四季網

個人信用風險評估方法及系統與流程

2023-06-01 22:41:41 2


本發明涉及計算機技術領域,特別涉及一種個人信用風險評估方法及系統。



背景技術:

伴隨著我國經濟轉型對刺激消費、擴大內需、調整經濟發展結構的迫切需求,以及居民收入和消費能力的提升,我國消費信貸市場取得了快速的發展。然而在p2p(個人對個人)在線信貸中投資人承受著巨大的信用風險。其一,多數p2p在線信貸在借貸過程中都沒有抵押,借款人一旦毀約,會導致投資方遭受巨大的損失;其二,投資人對借款人的信息認知來自於p2p在線信貸平臺,存在信息不對稱的因素。所以,借款人的信用風險評估是p2p在線信貸中至關重要的一個環節,其嚴重影響著一個平臺的生命周期。因此,一個穩定、高效的信用風險評估體系顯得尤為重要。

目前,國際上通用的信用評估要素主要為「5c」、「5p」和「lapp」,主流商業銀行將客戶的數據通過一些評分體系,如美國的fico評分系統,對用戶數據進行分析,量化用戶的信用評估指標,最後根據不同的權重進行加權得到信用評分。p2p在線信貸由於對用戶提供的信息要求並不嚴格,一般只擁有其基本資產信息、學歷、年齡、身份等信息,然後通過第三方的認證平臺對借款人進行信息認證,然後評定借款人的信用等級,供投資人進行參考。

由於從p2p在線信貸平臺獲得的數據樣本是有限的、非均衡的,所以,利用現有的在線信貸風險評估系統對p2p信貸用戶進行分類,其精度較低,難以實現個人信用風險的準確評估。



技術實現要素:

本發明提供了一種個人信用風險評估方法,包括以下步驟:

s100、獲取p2p有效客戶的數據將其作為原始數據集;

s200、採用bootstrap法(自助法)從所述原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹;

s300、將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林;

s400、利用所述隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對所述p2p客戶的個人信用風險進行評估。

其中,步驟s300中,將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林,包括以下步驟:

s310、對每個節點隨機選擇m個評價指標作為待選特徵集,m為整數;

s320、在所述待選特徵集中選擇m(m<m)個評價指標計算其分裂值φ(α):

φ(α)=β1ginidivide(s)-β2giniratio(a)

其中,ginidivide(s)為:

s1,s2為樣本集s分隔成的兩個子集;

gini(s1)為cart算法劃分度量:

giniratio(a)為改進的c4.5算法中的信息增益率:

s330、比較每個評價指標的分裂值φ(α),將分裂值φ(α)最小的評價指標作為節點分裂特徵,並在待選特徵集中刪除該評價指標;

s340、檢查節點的分支所覆蓋的樣本是否屬於同一類;如不屬於同一類,則根據該分裂特徵將其分為兩個子集,在兩個子集中分別依次執行步驟s310至s340;如屬於同一類,則生成子節點,輸出分類結果。

基於同一發明構思,本發明還提供一種個人信用風險評估系統,包括原始數據獲取模塊、數據抽取模塊、隨機森林生成模塊以及分類模塊;

所述原始數據獲取模塊,用於獲取p2p有效客戶的數據將其作為原始數據集;

所述數據抽取模塊,用於採用bootstrap法從所述原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹;

所述隨機森林生成模塊,用於將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林;

所述分類模塊,用於利用所述隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對所述p2p客戶的個人信用風險進行評估。

作為一種可實施方式,所述隨機森林生成模塊包括選取單元、計算單元、比較單元以及檢查單元;

所述選取單元,用於對每個節點隨機選擇m個評價指標作為待選特徵集,m為整數;

所述計算單元,用於在所述待選特徵集中選擇m(m<m)個評價指標計算其分裂值φ(α):

φ(α)=β1ginidivide(s)-β2giniratio(a)

其中,ginidivide(s)為:

s1,s2為樣本集s分隔成的兩個子集;

gini(s1)為cart算法劃分度量:

giniratio(a)為改進的c4.5算法中的信息增益率:

所述比較單元,用於比較每個評價指標的分裂值φ(α),將分裂值φ(α)最小的評價指標作為節點分裂特徵,並在待選特徵集中刪除該評價指標;

所述檢查單元,用於檢查節點的分支所覆蓋的樣本是否屬於同一類;如不屬於同一類,則根據該分裂特徵將其分為兩個子集,在兩個子集中分別依次執行選取單元、計算單元、比較單元的動作;如屬於同一類,則生成子節點,輸出分類結果。

本發明相比於現有技術的有益效果在於:

本發明提供的個人信用風險評估方法及系統,通過獲取p2p有效客戶的數據將其作為原始數據集,採用bootstrap法從原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹,進而將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林,最後利用隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對p2p客戶的個人信用風險進行評估。本發明通過改進的隨機森林法能夠大大提高用戶分類的準確度。

附圖說明

圖1為本發明一實施例提供的個人信用風險評估方法的流程示意圖;

圖2為圖1所示的個人信用風險評估方法的原理示意圖;

圖3為圖1所示的個人信用風險評估方法中的步驟s300的一實施方式的流程示意圖;

圖4為本發明另一實施例提供的個人信用風險評估系統的原理示意圖。

具體實施方式

以下結合附圖,對本發明上述的和另外的技術特徵和優點進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明的部分實施例,而不是全部實施例。

隨機森林算法具有極高的準確率、以及對非均衡樣本和噪聲良好的容忍度,所以本發明將隨機森林方法引入p2p在線信貸風險評估中。隨機森林方法建模思想是利用bootstrap方法從原始的樣本集中隨機抽取獲得多個子樣本集,對每個子樣本集進行決策樹建模,然後根據投票法對多棵決策樹的預測結果進行投票來確定隨機森林的預測結果。

請參閱圖1和圖2,本發明一實施例提供的個人信用風險評估方法,本發明提供了一種個人信用風險評估方法,包括以下步驟:

s100、獲取p2p有效客戶的數據將其作為原始數據集;

s200、採用自助法從原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹;

s300、將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林;

s400、利用隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對p2p客戶的個人信用風險進行評估。

作為一種可實施方式,步驟s300中,將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林,包括以下步驟:

s310、對每個節點隨機選擇m個評價指標作為待選特徵集,m為整數;

s320、在待選特徵集中選擇m(m<m)個評價指標計算其分裂值φ(α):

φ(α)=β1ginidivide(s)-β2giniratio(a)

其中,ginidivide(s)為:

s1,s2為樣本集s分隔成的兩個子集;

gini(s1)為cart算法劃分度量:

giniratio(a)為改進的c4.5算法中的信息增益率:

s330、比較每個評價指標的分裂值φ(α),將分裂值φ(α)最小的評價指標作為節點分裂特徵,並在待選特徵集中刪除該評價指標;

s340、檢查節點的分支所覆蓋的樣本是否屬於同一類;如不屬於同一類,則根據該分裂特徵將其分為a、b兩個子集,在a、b兩個子集中分別依次執行步驟s310至s340;如屬於同一類,則生成子節點,輸出分類結果。

參見圖3,本發明另一實施例提供的個人信用風險評估方法,步驟s300中的將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,可以通過以下步驟實現:

s301、隨機選擇m個評價指標得到待選特徵集;

s302、在待選特徵集中選擇n個評價指標並計算其分裂值;

s303、將分裂值最小的評價指標作為節點分裂特徵;

s304、在待選特徵集中刪除該評價指標;

s305、判斷節點的分支所覆蓋的樣本是否屬於同一類,若否,則返回步驟s302;

s306、若是,則生成子節點,輸出分類結果。

基於同一發明構思,本發明還提供一種個人信用風險評估系統,該系統與上述方法的原理相同,系統的實施可參照上述方法實現,重複之處不再冗述。

參見圖4,本發明提供的個人信用風險評估系統包括原始數據獲取模塊100、數據抽取模塊200、隨機森林生成模塊300以及分類模塊400。其中,原始數據獲取模塊100用於獲取p2p有效客戶的數據將其作為原始數據集;數據抽取模塊200用於採用bootstrap法從原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹;隨機森林生成模塊300用於將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林;分類模塊400用於利用隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對p2p客戶的個人信用風險進行評估。

作為一種可實施方式,隨機森林生成模塊300包括選取單元、計算單元、比較單元以及檢查單元。其中:

選取單元用於對每個節點隨機選擇m個評價指標作為待選特徵集,m為整數。

計算單元用於在待選特徵集中選擇m(m<m)個評價指標計算其分裂值φ(α):

φ(α)=β1ginidivide(s)-β2giniratio(a)

其中,ginidivide(s)為:

s1,s2為樣本集s分隔成的兩個子集;

gini(s1)為cart算法劃分度量:

giniratio(a)為改進的c4.5算法中的信息增益率:

比較單元用於比較每個評價指標的分裂值φ(α),將分裂值φ(α)最小的評價指標作為節點分裂特徵,並在待選特徵集中刪除該評價指標。

檢查單元用於檢查節點的分支所覆蓋的樣本是否屬於同一類;如不屬於同一類,則根據該分裂特徵將其分為兩個子集,在兩個子集中分別依次執行選取單元、計算單元、比較單元的動作;如屬於同一類,則生成子節點,輸出分類結果。

本發明提供的個人信用風險評估方法及系統,通過獲取p2p有效客戶的數據將其作為原始數據集,採用bootstrap法從所述原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹,進而將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林,最後利用所述隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對所述p2p客戶的個人信用風險進行評估。本發明通過改進的隨機森林法能夠大大提高用戶分類的準確度。

以上所述的具體實施例,對本發明的目的、技術方案和有益效果進行了進一步的詳細說明,應當理解,以上所述僅為本發明的具體實施例而已,並不用於限定本發明的保護範圍。特別指出,對於本領域技術人員來說,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀