個人信用風險評估方法及系統與流程
2023-06-01 22:41:41 2

本發明涉及計算機技術領域,特別涉及一種個人信用風險評估方法及系統。
背景技術:
伴隨著我國經濟轉型對刺激消費、擴大內需、調整經濟發展結構的迫切需求,以及居民收入和消費能力的提升,我國消費信貸市場取得了快速的發展。然而在p2p(個人對個人)在線信貸中投資人承受著巨大的信用風險。其一,多數p2p在線信貸在借貸過程中都沒有抵押,借款人一旦毀約,會導致投資方遭受巨大的損失;其二,投資人對借款人的信息認知來自於p2p在線信貸平臺,存在信息不對稱的因素。所以,借款人的信用風險評估是p2p在線信貸中至關重要的一個環節,其嚴重影響著一個平臺的生命周期。因此,一個穩定、高效的信用風險評估體系顯得尤為重要。
目前,國際上通用的信用評估要素主要為「5c」、「5p」和「lapp」,主流商業銀行將客戶的數據通過一些評分體系,如美國的fico評分系統,對用戶數據進行分析,量化用戶的信用評估指標,最後根據不同的權重進行加權得到信用評分。p2p在線信貸由於對用戶提供的信息要求並不嚴格,一般只擁有其基本資產信息、學歷、年齡、身份等信息,然後通過第三方的認證平臺對借款人進行信息認證,然後評定借款人的信用等級,供投資人進行參考。
由於從p2p在線信貸平臺獲得的數據樣本是有限的、非均衡的,所以,利用現有的在線信貸風險評估系統對p2p信貸用戶進行分類,其精度較低,難以實現個人信用風險的準確評估。
技術實現要素:
本發明提供了一種個人信用風險評估方法,包括以下步驟:
s100、獲取p2p有效客戶的數據將其作為原始數據集;
s200、採用bootstrap法(自助法)從所述原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹;
s300、將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林;
s400、利用所述隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對所述p2p客戶的個人信用風險進行評估。
其中,步驟s300中,將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林,包括以下步驟:
s310、對每個節點隨機選擇m個評價指標作為待選特徵集,m為整數;
s320、在所述待選特徵集中選擇m(m<m)個評價指標計算其分裂值φ(α):
φ(α)=β1ginidivide(s)-β2giniratio(a)
其中,ginidivide(s)為:
s1,s2為樣本集s分隔成的兩個子集;
gini(s1)為cart算法劃分度量:
giniratio(a)為改進的c4.5算法中的信息增益率:
s330、比較每個評價指標的分裂值φ(α),將分裂值φ(α)最小的評價指標作為節點分裂特徵,並在待選特徵集中刪除該評價指標;
s340、檢查節點的分支所覆蓋的樣本是否屬於同一類;如不屬於同一類,則根據該分裂特徵將其分為兩個子集,在兩個子集中分別依次執行步驟s310至s340;如屬於同一類,則生成子節點,輸出分類結果。
基於同一發明構思,本發明還提供一種個人信用風險評估系統,包括原始數據獲取模塊、數據抽取模塊、隨機森林生成模塊以及分類模塊;
所述原始數據獲取模塊,用於獲取p2p有效客戶的數據將其作為原始數據集;
所述數據抽取模塊,用於採用bootstrap法從所述原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹;
所述隨機森林生成模塊,用於將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林;
所述分類模塊,用於利用所述隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對所述p2p客戶的個人信用風險進行評估。
作為一種可實施方式,所述隨機森林生成模塊包括選取單元、計算單元、比較單元以及檢查單元;
所述選取單元,用於對每個節點隨機選擇m個評價指標作為待選特徵集,m為整數;
所述計算單元,用於在所述待選特徵集中選擇m(m<m)個評價指標計算其分裂值φ(α):
φ(α)=β1ginidivide(s)-β2giniratio(a)
其中,ginidivide(s)為:
s1,s2為樣本集s分隔成的兩個子集;
gini(s1)為cart算法劃分度量:
giniratio(a)為改進的c4.5算法中的信息增益率:
所述比較單元,用於比較每個評價指標的分裂值φ(α),將分裂值φ(α)最小的評價指標作為節點分裂特徵,並在待選特徵集中刪除該評價指標;
所述檢查單元,用於檢查節點的分支所覆蓋的樣本是否屬於同一類;如不屬於同一類,則根據該分裂特徵將其分為兩個子集,在兩個子集中分別依次執行選取單元、計算單元、比較單元的動作;如屬於同一類,則生成子節點,輸出分類結果。
本發明相比於現有技術的有益效果在於:
本發明提供的個人信用風險評估方法及系統,通過獲取p2p有效客戶的數據將其作為原始數據集,採用bootstrap法從原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹,進而將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林,最後利用隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對p2p客戶的個人信用風險進行評估。本發明通過改進的隨機森林法能夠大大提高用戶分類的準確度。
附圖說明
圖1為本發明一實施例提供的個人信用風險評估方法的流程示意圖;
圖2為圖1所示的個人信用風險評估方法的原理示意圖;
圖3為圖1所示的個人信用風險評估方法中的步驟s300的一實施方式的流程示意圖;
圖4為本發明另一實施例提供的個人信用風險評估系統的原理示意圖。
具體實施方式
以下結合附圖,對本發明上述的和另外的技術特徵和優點進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明的部分實施例,而不是全部實施例。
隨機森林算法具有極高的準確率、以及對非均衡樣本和噪聲良好的容忍度,所以本發明將隨機森林方法引入p2p在線信貸風險評估中。隨機森林方法建模思想是利用bootstrap方法從原始的樣本集中隨機抽取獲得多個子樣本集,對每個子樣本集進行決策樹建模,然後根據投票法對多棵決策樹的預測結果進行投票來確定隨機森林的預測結果。
請參閱圖1和圖2,本發明一實施例提供的個人信用風險評估方法,本發明提供了一種個人信用風險評估方法,包括以下步驟:
s100、獲取p2p有效客戶的數據將其作為原始數據集;
s200、採用自助法從原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹;
s300、將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林;
s400、利用隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對p2p客戶的個人信用風險進行評估。
作為一種可實施方式,步驟s300中,將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林,包括以下步驟:
s310、對每個節點隨機選擇m個評價指標作為待選特徵集,m為整數;
s320、在待選特徵集中選擇m(m<m)個評價指標計算其分裂值φ(α):
φ(α)=β1ginidivide(s)-β2giniratio(a)
其中,ginidivide(s)為:
s1,s2為樣本集s分隔成的兩個子集;
gini(s1)為cart算法劃分度量:
giniratio(a)為改進的c4.5算法中的信息增益率:
s330、比較每個評價指標的分裂值φ(α),將分裂值φ(α)最小的評價指標作為節點分裂特徵,並在待選特徵集中刪除該評價指標;
s340、檢查節點的分支所覆蓋的樣本是否屬於同一類;如不屬於同一類,則根據該分裂特徵將其分為a、b兩個子集,在a、b兩個子集中分別依次執行步驟s310至s340;如屬於同一類,則生成子節點,輸出分類結果。
參見圖3,本發明另一實施例提供的個人信用風險評估方法,步驟s300中的將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,可以通過以下步驟實現:
s301、隨機選擇m個評價指標得到待選特徵集;
s302、在待選特徵集中選擇n個評價指標並計算其分裂值;
s303、將分裂值最小的評價指標作為節點分裂特徵;
s304、在待選特徵集中刪除該評價指標;
s305、判斷節點的分支所覆蓋的樣本是否屬於同一類,若否,則返回步驟s302;
s306、若是,則生成子節點,輸出分類結果。
基於同一發明構思,本發明還提供一種個人信用風險評估系統,該系統與上述方法的原理相同,系統的實施可參照上述方法實現,重複之處不再冗述。
參見圖4,本發明提供的個人信用風險評估系統包括原始數據獲取模塊100、數據抽取模塊200、隨機森林生成模塊300以及分類模塊400。其中,原始數據獲取模塊100用於獲取p2p有效客戶的數據將其作為原始數據集;數據抽取模塊200用於採用bootstrap法從原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹;隨機森林生成模塊300用於將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林;分類模塊400用於利用隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對p2p客戶的個人信用風險進行評估。
作為一種可實施方式,隨機森林生成模塊300包括選取單元、計算單元、比較單元以及檢查單元。其中:
選取單元用於對每個節點隨機選擇m個評價指標作為待選特徵集,m為整數。
計算單元用於在待選特徵集中選擇m(m<m)個評價指標計算其分裂值φ(α):
φ(α)=β1ginidivide(s)-β2giniratio(a)
其中,ginidivide(s)為:
s1,s2為樣本集s分隔成的兩個子集;
gini(s1)為cart算法劃分度量:
giniratio(a)為改進的c4.5算法中的信息增益率:
比較單元用於比較每個評價指標的分裂值φ(α),將分裂值φ(α)最小的評價指標作為節點分裂特徵,並在待選特徵集中刪除該評價指標。
檢查單元用於檢查節點的分支所覆蓋的樣本是否屬於同一類;如不屬於同一類,則根據該分裂特徵將其分為兩個子集,在兩個子集中分別依次執行選取單元、計算單元、比較單元的動作;如屬於同一類,則生成子節點,輸出分類結果。
本發明提供的個人信用風險評估方法及系統,通過獲取p2p有效客戶的數據將其作為原始數據集,採用bootstrap法從所述原始數據集中有放回地隨機抽取n個樣本數據集,並建n棵分類樹,進而將抽取的n個樣本數據集放到相應的分類樹中,每棵分類樹輸出一個結果,根據所有的分類樹的數據結果生成隨機森林,最後利用所述隨機森林對p2p客戶數據進行判別和分類,並根據判別和分類結果對所述p2p客戶的個人信用風險進行評估。本發明通過改進的隨機森林法能夠大大提高用戶分類的準確度。
以上所述的具體實施例,對本發明的目的、技術方案和有益效果進行了進一步的詳細說明,應當理解,以上所述僅為本發明的具體實施例而已,並不用於限定本發明的保護範圍。特別指出,對於本領域技術人員來說,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。