一種基於文本分析的信用風險評估方法及裝置與流程
2023-07-16 07:53:31 2
本發明涉及網際網路金融領域,尤其涉及一種基於文本分析的信用風險評估方法及裝置。
背景技術:
:計算機和網絡跟隨著時代的發展而得到快速普及,網際網路在不知不覺中已經和人們的生活中各個方面有著極其密切的關係。近年來,網際網路的影響也逐步擴散到金融領域,網際網路金融也就逐漸的進入了大眾視野。理論上任意和金融有關聯的使用網絡在線上辦理的業務都算是網際網路金融。一般有以下6種常見的分類,它們分別是是大數據金融、第三方支付、P2P網貸、眾籌、信息化金融機構和網際網路金融門戶。作為網際網路金融行業的一個新興領域——P2P網貸,正在以驚人的速度增長並受到廣泛關注,機遇與挑戰也隨之同時出現。由於我國特殊的歷史背景,P2P網貸在我國的發展速度尤為迅速,規模也比較大。中國的金融領域在一定程度上存在著金融管制,大量中小企業和個人越來越多樣的金融需求已經不滿足於現有金融服務,便促成了P2P網貸的快速發展。正因為如此,P2P網貸創新太快,監管缺失等問題很容易出現以金額和期限錯配,非法集資以及流動性陷阱等為代表的系統性風險,在支付方面仍然還沒有完善的認證體系制度,資金缺少監管等問題,面臨著交易欺詐,隱私洩露等風險;在融資方面,信用風險問題也隨著提高社會資金運用效率的提升而突顯出來。技術實現要素:有鑑於此,本發明實施例為解決現有技術中存在的至少一個問題而提供一種基於文本分析的信用風險評估方法及裝置,能夠有效地對借款人的信用風險 進行評估,從而為投資人在投資時提供重要的決策依據。本發明實施例的技術方案是這樣實現的:第一方面,本發明實施例提供一種基於文本分析的信用風險評估方法,所述方法包括:獲取借款人的文本;對所述文本進行分析,得到基本語言特徵,所述基本語言特徵用於預測借款人是否會違約;將所述基本語言特徵輸入到預設的信用風險評估模型,得到從所述信用風險評估模型輸出的所述借款人的信用風險值;輸出所述借款人的信用風險值。第二方面,本發明實施例提供一種基於文本分析的信用風險評估裝置,所述裝置包括第一獲取單元、分析單元、處理單元和輸出單元,其中:所述第一獲取單元,用於獲取借款人的文本;所述分析單元,用於對所述文本進行分析,得到基本語言特徵,所述基本語言特徵用於預測借款人是否違約;所述處理單元,用於將所述基本語言特徵輸入到預設的信用風險評估模型,得到從所述信用風險評估模型輸出的所述借款人的信用風險值;所述輸出單元,用於輸出所述借款人的信用風險值。本發明實施例提供一種基於文本分析的信用風險評估方法及裝置,其中,獲取借款人的文本;對所述文本進行分析,得到基本語言特徵,所述基本語言特徵用於預測借款人是否會違約;將所述基本語言特徵輸入到預設的信用風險評估模型,得到從所述信用風險評估模型輸出的所述借款人的信用風險值;輸出所述借款人的信用風險值;如此,能夠有效地對借款人的信用風險進行評估,從而為投資人在投資時提供重要的決策依據。附圖說明圖1為本發明實施例一基於文本分析的信用風險評估方法的實現流程示意 圖;圖2為本發明實施例中抽象文本特徵與基本語言特徵之間的關係示意圖;圖3為本發明實施例描述特徵選擇的一般流程示意圖;圖4-1為本發明實施例財務特徵與文本特徵的信用評估效果對比結果示意圖;圖4-2為本發明實施例財務特徵與財務+文本特徵的信用效果對比結果示意圖;圖4-3為本發明實施例中不同文本特徵對信用評估的影響的示意圖;圖5-1為本發明實施例中基於多個分類器的信用風險評估系統的架構示意圖;圖5-2為本發明實施例中結合不同數量的分類器的性能對比圖;圖6為本發明實施例六基於文本分析的信用風險評估裝置的組成結構示意圖。具體實施方式下面先來簡單地介紹一下本發明實施例所涉及的各種專業詞彙:P2P網貸的一般流程通常是P2P網貸公司作為一個展現雙方借貸信息的中間展示平臺存在,投資人和借款人通過自由競價進行網上交易,從而公司在交易成功時賺取相應的服務費用。P2P網貸的一般流程也可以簡單描述為,在網絡上通過個人對個人這樣的一種方式進行的貸款交易,借入人到期需要償還本金同時需要支付給借出人利息,而借出人在獲取收益的同時需要承擔本金償還不到位的風險。信用是個體、團體以及商品之間在交易中產生的一種雙方互相信任的生產及社會關係,它是社會經濟發展的必然產物,是市場經濟中不可缺少的一環。在P2P網貸中,無論是中小企業還是個人,其信用水平都是投資人考慮是否對其投資的重要決策。信用評估也叫做資信評級,作為信用體系構建中的重要角色,是按照一定 的指標和方法對企業或者個人進行全面了解,從收集的信息中科學、客觀地對其信用水平做出全面的評估,主要出發點即為了得到受考察借款人具有多大的違約概率,判斷其能否按時完成約定好的事情,在P2P借貸中即為按時還清借到的款項。信用評估從根本上將是數據挖掘中的分類問題,它是將屬於同種類別的總體按照不同的特徵分成兩個或者若干個不同的子集。一般情況下,在借貸信用評估中,將貸款者分類為可信的「好」用戶和存在信用風險的「壞」用戶,也即分類中的正例和負例。通過歷史的信用數據對這兩種類別進行分類,以幫助投資人了解此次投資的潛在風險。徵信數據,進行信用評估的過程中會使用到各種各樣的數據來幫助進行定性定量分析或者訓練模型,這類數據被稱為徵信數據。根據數據的不同可以分為結構化數據和非結構化數據,比如社交網絡的評論,用戶上傳的音視頻//用戶填寫的申請,這些數據以文本、圖片、音頻、視頻等數據格式存在,都是非結構化數據。以是否容易被感知和接受為依據,將金融領域中的數據劃成軟信息和硬信息兩種。硬信息是指精準的,符合邏輯並具有可追溯性的信息,也即可以被直接證實的信息,它們可以量化並記錄在文檔中,能夠準確的進行傳遞,如財務報表、工資水平等。而相反軟信息則是指由信息供給者主觀給出且無法直接被其他人證實的信息。在本發明實施例中,使用20060101-20081231日期間Prosper平臺生成的28853條貸款記錄作為訓練數據。當借款人通過P2P貸平臺進行借款申請時,借款人需要填寫貸款申請描述。申請描述作為一種由借款人主觀編寫的文本信息,與借款人的財務信息一起作為訓練數據,可以研究其影響信用的特徵有哪些並且通過調整由這些特徵訓練的模型,進行形成一個有效的信用風險評估系統。下面結合附圖和具體實施例對本發明的技術方案進一步詳細闡述。在本發明實施例中,將通過借款人的文本特徵來評估貸款的信用風險。具體地,從全球最大的P2P網貸平臺上獲取相關的數據(借款人的文本描述),然後利用機器學習方法和統計方法從借款人的文本描述中提取借款人的六大抽 象文本特徵,接著利用這六大抽象文本特徵來評估借款人的還款意願和還款能力,其中這六大特徵包括主觀性、欺騙性、文本的可讀性、情感、用戶的個性特點和思維方式。P2P網貸的信用風險評估由還款意願和還款能力兩個因素決定,其中還款能力作為一個主要因素,是指借款人是否能夠按時還款,其中按時還款取決於借款人的經濟狀態。而作為從屬因素的還款意願,取決於借款人的想法和觀念。實施例一本發明實施例提供一種基於文本分析的信用風險評估方法,該方法應用於計算設備,在具體實施例的過程中,所述計算設備可以為個人計算機、伺服器、工控機、筆記本電腦等具有信息處理能力的電子設備。該方法所實現的功能可以通過計算設備中的處理器調用程序代碼來實現,當然程序代碼可以保存在計算機存儲介質中,可見,該計算設備至少包括處理器和存儲介質。圖1為本發明實施例一基於文本分析的信用風險評估方法的實現流程示意圖,如圖1所示,該方法包括:步驟S101,獲取借款人的文本;這裡,所述文本可以為借款人寫的有關借款事項的任何文字,例如借款人對貸款人寫的申請書等都可以作為本發明實施例中借款人的文本。步驟S102,對所述文本進行分析,得到基本語言特徵,所述基本語言特徵用於預測借款人是否違約;這裡,在具體實施的過程中,可以採用自然語言處理的相關方法從所述文本中抽取基本語言特徵,所述自然語言處理的相關方法,例如話題模型方法,其中自然語言處理的相關方法即是以自動化機器作為工具,通過可計算的方法從詞語、句子、段落、文檔等不同的粒度進行識別、傳輸、儲存、理解等加工的方法和理論。它可以對文本進行詞語切分,詞性標註,結構分析甚至意義理解等處理,從而從不同方面獲取更多的可以表示文本的特徵。這裡,所述基本語言特徵至少包括文本的統計特徵、詞性特徵、情感特徵、實體特徵和時態特徵;其中所述統計特徵包括句子特徵、單詞特徵和標點特徵, 其中:所述句子特徵至少包括:句子總數、平均句長、最大句長、疑問句數量比例;所述單詞特徵至少包括:平均詞長、最長詞單詞種類數量、單詞總數、單詞平均出現次數和單詞出現最大次數;所述標點特徵至少包括:問號數量比例和感嘆號數量比例。步驟S103,將所述基本語言特徵輸入到預設的信用風險評估模型,得到從所述信用風險評估模型輸出的所述借款人的信用風險值;這裡,所述信用風險評估模型是預先建立好的,下面對信用風險評估模塊的具體建立過程進行描述。在本發明實施例中,所述信用風險評估模型可以為一個簡單的分類器,也可以為多個分類器組成的信用風險評估系統,其中,一個分類器可以看作是某一個領域或方面的專家系統,而由多個分類器組成的信用風險評估系統又可以看作是混合專家系統。步驟S104,輸出所述借款人的信用風險值。本發明實施例中,所述方法還包括:步驟S100,建立所述信用風險評估模型,包括:步驟S111,獲取訓練數據;這裡,所述訓練數據是關於借款人進行借款的文本。步驟S112,對所述訓練數據進行分析,得到所述訓練數據的基本語言特徵;這裡,所述步驟S112與上述的步驟S102相似,本發明將在以下的實施例中進行具體說明。步驟S113,將所述基本語言特徵作為參數,採用機器學習方法建立不同的抽象文本特徵對應的分類器;這裡,所述抽象文本特徵包括欺騙性、主觀性、情感、文本的可讀性、個性特點和思維方式。所述機器學習方法包括:人工神經網絡方法、支持向量機方法、決策樹方法、貝葉斯方法、隨機森林方法、邏輯回歸方法。在具體實施的過程中,還可以採用不同的機器學習方法建立同一所述抽象文本特徵對應的分類器;例如,以欺騙性為例,可以建立人工神經網絡方法的分類器,建立貝葉斯方法的分類器,建立隨機森林方法的分類;然後將準確率最高的分類器作 為所述抽象文本特徵所對應的分類器。這裡,所述將所述基本語言特徵作為參數,包括:根據所述基本語言特徵與所述抽象文本特徵之間的關係,將所述基本語言特徵輸入到每一所述抽象文本特徵對應的分類器。這裡,所述關係可以參見圖2所示,主觀性對應於詞性特徵和情感特徵,欺騙性對應於詞性特徵、情感特徵、實體特徵和時態特徵;可讀性對應於統計特徵、情感對應於情感特徵,個性特點對應於統計特徵、詞性特徵、情感特徵、實體特徵和時態特徵;思維方式對應於詞性特徵和實體特徵。步驟S114,將所述分類器作為基礎分類器,使用決策樹算法進行決策融合形成信用風險評估模型。這裡,將所述抽象文本特徵對應的分類器作為基礎分類器,使用決策樹算法進行決策融合形成信用風險評估模型。本發明實施例中,所述建立所述信用風險評估模型,還包括:根據斷句的標點符號對所述訓練數據進行分割,對分割後的訓練數據進行統計得到統計特徵。這裡,所述斷句的標點符號至少包括句號、問號、嘆號。本發明實施例提供一種基於文本分析的信用風險評估方法及裝置,其中,獲取借款人的文本;對所述文本進行分析,得到基本語言特徵,所述基本語言特徵用於預測借款人是否違約;將所述基本語言特徵輸入到預設的信用風險評估模型,得到從所述信用風險評估模型輸出的所述借款人的信用風險值;輸出所述借款人的信用風險值;如此,能夠有效地對借款人的信用風險進行評估,從而為投資人在投資時提供重要的決策依據。實施例二本實施例介紹一下實施例一中的抽象文本特徵與基本語言特徵,圖2為本發明實施例中抽象文本特徵與基本語言特徵之間的關係示意圖,如圖2所示,為了從借款人的文本信息中挖掘有用信息,首先從文本信息中識別各種抽象文 本特徵,其中所述抽象文本特徵用於描述借款人的各個方面;然後根據所述抽象文本特徵構建和組合基本語言特徵。2.1.抽象文本特徵抽象文本特徵是根據心理學和語言學等知識,從文本描述中識別出用於信用風險評估的六大抽象文本特徵,這六大抽象文本特徵包括欺騙性、主觀性、情感、文本的可讀性、個性特點和思維方式。1)欺騙性欺騙性用於識別欺騙者與誠實者,本實施例中從四個維度來定義欺騙性,分別是認知負荷、內部想像力、分解性以及消極情緒。欺騙者不僅僅偽造不存在的事實還需要避免被揭露,因此他們常常不得不花費更多的認知資源,產生較高的認知負荷來闡述簡單的故事。通常使用具體性和凝聚性來度量認知負荷的大小。其中具體性可以由Coh-Metrixprogram從MRCPsycholinguisticDatabase獲得,而凝聚性往往與連接詞的數量有著密切關係。研究證明,存在欺騙的描述文本具有高的具體性和很低的凝聚性。內部想像力與實體詞和時態詞的使用有關。一般來說,從實踐經驗的事件描述包含更多的信息,如時間(如「今天」、「昨天」和「本月」)和地點(如「這裡」、「有」和「大街」),這些都不是內部想像力。分解性與人稱代詞的使用有關,為了使分解假故事,欺騙者總是使用更多的詞彙的第三人(像「她」和「他」)來描述故事。消極情緒和情緒詞的使用相關,因為內疚的增加引起的撒謊,欺騙者總是使用比誠實者更多的消極詞彙。2)主觀性主觀性是文本挖掘的一種,它用來評估文本的主客觀情況或者傾向,是關於客觀世界的信息多還是側重於個人的感覺。研究證明,包含客觀信息多的文本更容易違約拖欠。貸款者在提供一系列關於借貸情況的客觀信息後,信用高的借款者在文本描述中更加側重於解釋借款的用途,從而涉及到更多的主觀信息,而存在違約風險的借款者不願意更多的涉及不愉快的事實,在描述時則使 用大量客觀信息。因此,主觀性與詞彙的主觀性等情感特徵以及反映人思想見解的實體特徵,情態動詞的使用,數詞、形容詞以及副詞的使用情況等都有很密切的聯繫。3)情感情感也即對借款者文本描述的情感方向進行一個方向性的把握,通過對文本進行處理,判斷借款者是積極還是消極,友好與否等,從深層次了解借款者的觀點、情緒以及態度。通過對情感基本特徵的組合分析,從而形成一個對於文本更加全面立體的情感方面的認知。借款者對待生活越積極樂觀越擁有更高的信用度,反之亦然。4)個性特點人與人之間最基本的不同就是他們各自的性格特點,性格特點包括行為、氣質、情緒以及內在的精神。性格特徵的培養是一個長期、穩定的過程,影響著個體行為的很多不同方面,比如樂於分享、積極向上的性格的人比吝嗇、悲觀的人違約風險更低。而在性格上越重要的差別越容易體現在單個詞中,在文本中語言學特徵也會如實反映出個體性格的特點。性格特點可以從五個維度來定義,也就是被人們熟知的BigFive。第一個就是外向性,外向的人更願意與人溝通,傾向於使用短句子詞彙種類少,文本中多用動詞、代詞、副詞以及感嘆詞等,文本的情感也多是積極樂觀,包含更多的社會詞彙等等。在眾多內外向性格特點的影響因素中,可以採用formality的度量方式挑選最重要的維度進行計算:F=(nounfreq+adjectivefreq+prepositionfreq+articlefre-pronounfreq-verbfreq-adverbfreq-interjectionfreq+100)/2研究發現每個維度與語言學特徵都存在著微小但是重要的聯繫。神經質的群體喜歡使用更多的第一人稱單數來表達,他們的文本中有更多的消極詞彙和少量的積極詞彙。而相反,情緒穩定的人積極詞彙使用更多,也更常用冠詞。具有嚴謹性的人儘量避免使用否定詞、消極詞彙和情態動詞。從開放性的人的文本中可以找到更多的長詞和不確定詞,他們更不習慣於使用第一人稱單數和 過去時態來表述。最後,宜人性描述了人們是否易於相處的方面,發誓咒罵詞彙、消極詞彙和憤怒詞彙更多的人往往更難以相處。可見,性格特點與語言學特徵有著密切的聯繫,它不僅與詞的本身特徵有關(如詞長、詞的種類),還可以體現在詞的情感傾向(積極、消極)、詞性(形容詞、動詞)、時態(第三人稱、過去式)以及詞的具體含義(社會詞彙)等方面。5)思維方式在文本信息中,除了包含了內容詞彙,也即有著明確含義的用來表述文本思想的詞彙外,還存在大量的功能詞彙。功能詞彙反映了作者溝通的方式而非描述的實際內容,它與作者的所處的社會環境與心理真實世界更加吻合,隨著事情的發展與作者認知的變化,使用的功能詞彙也會發生相應的變化。首先感知複雜性描述了在論證時的豐富度,也即相互矛盾的方案間的差異度以及不同解決方法間的整合性,通常用排除詞彙和連詞表示。喜歡講真實故事的人更傾向於使用排除詞。描述複雜具體信息的時候,多數人會增加介詞、感知詞以及長詞的使用。原因詞彙和見解詞彙這兩種感知機制經常出現在描述過去的事件當中,能夠反映出對已經發生過的事情的思考。如果一個人對所描述的事情不確定,那麼更喜歡使用不確定詞彙和補充詞來進行緩衝,過多使用不確定性詞彙表明故事的真實性存在著質疑。因此,思維方式與詞性和描述原因、見解等感知實體詞有著一定的聯繫,可以從這兩種基本特徵中組合抽象出作者的思維方式,來更加形象的反映出作者在寫描述文本時的真實意圖。6)文本的可讀性文本的可讀性是一項衡量文本的比較傳統的指標,反映著作者的教育程度、社會地位等,已經用在了商品反饋、購買意圖、社會媒體信息評論等領域中,它的寫作方式影響著讀者理解文本的難易程度。從三個維度上來衡量文本的的可讀性,分別是詞彙種類、詞彙易讀性和詞彙複雜性。首先介紹詞彙種類,如果一個文本使用了更少的詞彙種類,那麼它應該更容易閱讀。通常使用公式(1),一個不依賴於文本長度的對於詞彙豐富度的測 量公式。公式(1)中,N是文本的長度,V(i,N)表示某類詞出現了i次,詞彙易讀性和詞彙複雜性也與文本句子的長度,詞彙長度以及詞彙種類等有著密切關係。研究證明,文本的可讀性較高的文本所對應的貸款不會違約的概率更大。如果一個人接受過良好的教育並且有著穩定的高收入,他所寫的借款描述會更加清晰可讀,對應的信用度也就越好。2.2.基本語言特徵抽象文本特徵可以從實際抽象意義角度反映作者違約意圖以及信用習慣,但是卻沒有辦法從文本特徵中直接抽取。因此,根據抽象文本特徵的意義以及影響抽象文本特徵的文本特徵因素,統計概括為5種基本語言特徵,這些特徵可以通過機器學習方法和統計方法直接從文本中得到,從而使用這些特徵表示抽象文本特徵,最終得到與還款意願的內在關係,作為預測是否違約的特徵。1)統計特徵文本特徵從直觀上來講,最容易從中抽取到的部分是可以經過統計直接得到的,比如文本中出現的句子數量、單詞數量、單詞長度等等,這些特徵容易統計計算,並且可以從不同程度上反映出寫作者的寫作態度,甚至生活態度。比如句子的長度可以從一定程度上反映出文本的可讀性,在文本中存在的句子越長,越不容易被閱讀,表達的意思也越晦澀。此外,對於同一個統計對象,比如單詞、數量和種類也代表著不同的含義,單詞數量表示文本的長度,而單詞種類表示的是文本中使用的詞彙量,反映了單詞使用的多樣化。抽取這些特徵的方法有很多,本發明實施例採用統計方法,該方法具有簡單、易行的特點。首先,如果要統計文本中有關句子的特徵,那麼一定要對文本進行分句。根據英文中常見的用於斷句的標點符號來進行分割識別,比如句號、問號、嘆號等,其中重點處理引號和括號的問題。其次,每個句子進行分 詞,統計有關單詞的特徵。目前,抽取了17個簡單統計特徵,這兩個特徵粒度分別表示句子特徵和單詞特徵;在表2-1中具體列出了每個特徵的意思。表2-1文本簡單統計特徵2)詞性特徵在本發明實施例中,採用最大熵模型對單詞進行詞性標註,也即給每個詞分配一個詞性類別,例如副詞、連詞等等。最大熵模型的關鍵問題在於特徵選擇,選取的特徵直接影響著標註的準確性。在文本中相鄰位置單詞間的詞性都相互影響,詞性也與單詞本身的後綴、相鄰詞有關。因此,綜合選擇文本中單詞的上下文特徵和單詞本身的特徵,形成最大熵特徵模板,如表2-2所示:表2-2最大熵模型訓練特徵模板特徵編號特徵類型特徵模板1Generalwi=X&ti=T2Generalti-1=T1&ti=T3Generalti-1=T1&ti-2=T2&ti=T4Generalwi+1=X1&ti=T5Rarewi的後綴S,|S|<5&ti=T6Rarewi的前綴P,1<|P|<5&ti=T7Rarewi包含數字&ti=T8Rarewi包含大寫字母&ti=T9Rarewi包含連字符&ti=T其中,wi、wi+1、ti、ti-1、ti-2分別表示為當前詞、前一個詞、當前詞性、前詞詞性、前前詞詞性。一般(General)特徵適用於每個詞,只有當單詞與稀 有(rare)特徵類型描述的模板相吻合時,才加入rare特徵。最大熵模型訓練語料來自於PennTreebank,並且參照其提供的詞性標註結果標籤。在本實施例中使用到的詞性特徵主要對象為單詞級別,因此得到單詞級別的詞性特徵一共有36種。由於得到的詞性分類太過詳細,比如名詞單數與名詞複數屬於不同類,形容詞的比較級和形容詞也屬於兩個不同類等等,將這些詞性類別整理合併成了12個詞性大類,並且計算了每一類的數量與具體包含種類,如表2-3、表2-4所示。表2-3經過組合形成的文本詞性特徵表2-4無組合的文本詞性特徵3)情感特徵除了文本本身直觀統計的特徵和詞性特徵外,由於最終目的是考察文本對 於信用評估的作用,也即寫作者是否存在違約風險,因此還需要抽取有關於寫作者情感傾向的特徵,這些特徵會直接反映出寫作者的人生態度和價值觀念,也在很大程度上能夠反映出違約的風險。考慮到機器學習的方法進行訓練積極/消極等情感需要大量標註和訓練成本,並且標註時需要對語言詞性分類知識的專業了解和掌握,因此本發明實施例中採用情感詞典的方法抽取情感特徵,選用GeneralInquirer分類詞典,根據分類詞典中不同類別下對應的單詞與實驗文本單詞的對應來統計情感極性詞語的個數及種類。GeneralInquirer詞典中的分類信息來源於theHarvardIV-4dictionary、theLasswellvaluedictionary等四個方面,一共156個。根據是否與寫作者的態度觀念有關,最終選擇了15個特徵,如表2-5所示:表2-5文本情感特徵4)實體特徵實體特徵一般具有著某些實際意義,比如時間、空間以及因果目標等。研究表明,對於真實事件的描述文本比憑藉想像力隨意捏造的事件描述包含著更多的空間和時間信息。在判斷是否違約的時候,可以通過判斷包含實體信息的情況來辨別真實與偽造的文本描述的區別。同樣使用的是GeneralInquirer分類詞典,根據分類詞典中不同類別下對應的單詞與實驗文本單詞的對應來統計實體詞語的個數及種類。最終,得到9個實體特徵,如表2-6所示:表2-6文本實體特徵5)時態特徵時態特徵從兩方面進行提取。由於PennTreebank標註語料同樣標註了動詞的過去式、現在式以及將來時等時態屬性,因此可以使用最大熵模型對文本進行訓練,得到時態特徵。另一方面,使用常用的英語中表示過去、現在以及未來等時間的短語詞典,查找句子中與之對應的詞,判斷句子當前描述的事件發生的時間。最終,結合句子的動詞以及時間狀語得到句子的時態特徵。實施例三本發明實施例介紹實施例一中的自然語言處理方法和機器學習方法。3.1、自然語言處理方法在P2P平臺借貸過程中,借款人提交的借款理由描述等文本信息對信用評估的影響。這些用戶文本信息通常是由自然語言組成,也即人們日常使用的口頭語或者書面語。自然語言與計算機語言和數字有著明顯的不同,它不能被計算機直接表示和理解,也不能直接用於計算,但是自然語言由語法,詞語,句子等多種元素組成因而又包含著大量信息,能夠反映出一個人的性格,感情以及其他複雜情緒。因此,需要採用簡單統計方法或者自然語言處理方法對文本進行處理分析,從文本中抽取可以代表其某個維度的信息並且可以量化表示的特徵,從而使得計算機可以使用這些特徵進行計算,再進行下一步的處理。在對文本的處理中,除了簡單的對單詞句子等進行統計外,自然語言處理方法被使用的越來越廣泛。自然語言處理方法即是以自動化機器作為工具,通過可計算的方法從詞語、句子、段落、文檔等不同的粒度進行識別、傳輸、儲存、理解等加工的方法和理論。它可以對文本進行詞語切分,詞性標註,結構分析甚至意義理解等處理,從而從不同方面獲取更多的可以表示文本的特徵。1)詞性標註詞性也叫做詞類,指詞彙基本的語法屬性,通常根據詞的形態、功能以及包含的語法意義進行劃分。詞性標註是給某種語言的詞標註上其所屬的詞類,是一項在自然語言處理方法中基礎並且重要的工作之一,方法通常分為基於規 則的方法和基於統計的方法,基於規則的詞性標註需要先通過查字典給句中各詞標記所有可能的詞類標記,再應用規則逐步刪除錯誤的標記,最終得到正確的結果。詞性標註的例子如下:例句:Theleadpaintisunsafe.標註結果:The/Detlead/Npaint/Nis/Vunsafe/Adj.熵描述了變量取值的不確定性,熵值與這種不確定性呈正相關,取值越大,該隨機變量也就越接近均勻分布。在沒有獲得分布的全部信息時,根據最大熵原則,應該選取在滿足現有分布的前提下取值越大的分布,也就是平均分布。根據最大熵原則進行統計建模,是在對分布不了解的情況下能夠做出的最佳的選擇,因為任意非最大熵原則進行的選擇都代表主觀加入了非分布信息。最大熵原則由E.T.Jaynes在1957年提出,在許多領域有著廣泛的應用。最大熵方法通過特徵表示樣本數據中的已知知識,通過增加其他條件使特徵的模型期望與觀察期望保持一致,從而就變成了最值問題。在構造最大熵模型時,關注於選擇哪些有用的特徵即可,無需考慮怎樣使用。最大熵方法的一般陳述如下:存在樣本數據O,O={(m1,n1),(m2,n2),…,(ml,ml)},其中mi∈M,ni∈N,求解模型分布p(m,n),使得該分布滿足一下兩個條件:(1)p(m,n)能使熵H(p)最大化,即p*=argmaxH(p);(2)p(m,n)服從樣本數據中已知的統計數據;求解最大熵模型也就等價於求解下列約束最優化問題:p*=argmaxH(p)其中,1≤j≤kΣx,yp(x,y)=1,等式兩邊分別為模型期望和觀察期望最大熵模型對特徵的相關性沒有要求並且不存在過擬合的問題。從實現的簡單性和分類的效果綜合考慮,本實施例採用最大熵模型對文本進行詞性標註。2)情感人們在評論、寫文章、提交申請時所寫的文本內容包含著大量關於作者的感情色彩和傾向性,能夠從一定程度上反映出作者的性格特點和生活態度。比如積極、消極,又比如認可或者否定等等。情感簡單來講,就是從人們文字性的非結構化數據中判斷出隱含在其中的感情傾向。文本作為一種非結構化數據,是很難被自動理解和處理的。因此在進行情感時,通常會把詞句、段落、文檔等單獨抽取出來從不同層面進行分析,將文本轉換為結構化數據。根據其挖掘內容又可以分為意見抽取、意見挖掘、情感挖掘和主觀分析。本實施例主要關注於挖掘文本中的情感傾向,抽取其中的情感詞彙,判斷文本作者的情感態度。在進行情感時,一方面可以利用較為流行並且成熟的開放的情感詞典資源,它們通常會根據詞性或者感情色彩等不同依據將詞語劃分為不同情感類別,從而給每個詞從不同角度標上標籤,進行全面的描述,同時也能夠反映出不同類別的情感詞規律。另一面,作為一種分類問題,能夠使用機器學習中的分類算法進行處理,從而得到文本的態度傾向。3.2.機器學習機器學習從字面上理解即為讓機器向人一樣理解學習,它能夠從數據集中受到啟發,彰顯數據背後的真實意義。本實施例研究的內容是文本對於信用評估的作用,需要從文本中挖掘的特徵集合中判斷借款人的信用水平,很難從這些原始文本數據,甚至特徵集合中直觀的獲取所需信息,因此需要藉助機器學習算法處理這些無序的數據,將其變成能夠被計算機識別處理的量化特徵,通過構造某種模型,將使用這些特徵表示的文本作為輸入數據,從而得到借款人的信用水平最可能所屬的類別。機器學習的主要任務就是分類和回歸,與本實施例的任務正好一致。分類就是根據特徵信息對某一實例進行判斷其歸屬的類別。回歸則是通過給定的數據點形成一個最優擬合曲線。它們都屬於有監督的學習,必須知道預測什麼,即目標變量的分類信息,數據常常分為訓練集和測試集。實施例四在P2P平臺借款人提交的文本信息中的語言特徵能否提高信用評估的準確性,能否利用這些語言特徵預測出可用值是研究的重要內容。文本包含大量豐富的關於寫作者自身的信息,除了語義內容,寫作方式、寫作習慣等也可以反映出寫作者的性格特徵,甚至信用水平。但是通常來講,文本中包含的語法、語義以及情感傾向是不能直接被計算機表示和處理的,因此需要識別出這些特徵,並且將這些特徵進行量化,從而在文本分析中使用。為了對借貸文本中的語言特徵有一個全面綜合的理解,提出了解釋和預測互相補充的兩個步驟,一方面,通過對相關語言學和心理學文獻的總結以及計量經濟學模型的應用,研究不同語言信息在預示潛在風險中的作用,選擇合適的特徵以進行預測;另一方面,採用了常見的幾種機器學習的方法使用這些語言特徵對信用進行評估,並且分析結果,發掘揭露這些語言信息的預測能力。基於前述對抽象文本特徵以及基本語言特徵的介紹,本發明實施例介紹一下實驗過程及實驗結果4.1實驗過程財務相關特徵分為兩種,一種是基本財務特徵,用戶在註冊和貸款申請時需要填寫的財務相關信息,另一種是信用特徵,需要根據用戶的歷史信貸記錄或者向專門的機構進行購買的信用特徵。將實驗數據進行處理得到財務特徵數據和上述提到的文本特徵數據,財務特徵作為對照標準,文本特徵數據加上基本財務特徵以及文本特徵與財務特徵合併後的數據進行實驗,觀察信用評估模型的效果,研究文本特徵對信用評估的作用。本實施例採用了機器學習常見的五種基本分類學習算法,分別是決策樹、樸素貝葉斯、邏輯回歸、神經網絡以及隨機森林,通過使用不同機器學習模型探索在信用評估中使用文本特徵的分類效果。1)實驗數據,本實施例中的實驗數據可以參見數據描述。2)數據預處理和歸一化由於抽取的文本不能直接利用,因此需要首先對文本進行預處理。從資料庫中下載的Listing數據不能直接使用,它不是純文本格式,而需要從xml格式中抽出。其他兩個文本中同樣包含了xml標籤,因此在抽取特徵之前,將標籤等與文本無關內容過濾掉。借貸記錄中的每一個條目的取值範圍大不相同,比如貸款收入比在0到1之間,貸款數目又在幾千之上,統計的詞性、詞彙特徵等數目也是在幾個到幾百個之間浮動,這些特徵值得差異太大容易造成權重失衡,因此在抽取特徵後,將每種特徵數據變換到同一個範圍中,也即歸一化。本實驗使用簡單的最大最小處理方法,也即離差標準化,對原始數據進行線性變換,使結果值都映射到0和1之間。轉換函數如下:其中,max表示最大,min表示最小,x為需要計算的實際數據。3)特徵選擇當訓練機器學習模型時輸入的特徵過於多,不僅會延長訓練模型的事件,還常常會出現分類效果反而下降的情況。這是由於在輸入的大量特徵中,可能存在不相關的特徵或者特徵間存在依賴關係,也就是所謂的引入噪聲。當引入的噪聲大於增加特徵帶來的提升效果時,分類結果的正確率反而出現下降。特徵選擇的提出就是解決這類問題,是指從當前抽取的M個特徵集合中剔除不相關特徵或者冗餘特徵,只保留對分類具有幫助的特徵子集,以降低數據集維度。圖3為本發明實施例描述特徵選擇的一般流程示意圖,如圖3所示,首先需要設定初始的子集。其次,使用具體的搜索算法確定特徵子集。本實驗主要採用完全搜索類的最優優先搜索方法。特徵子集的個數從1開始,使用窮舉法,計算每次新加入一個特徵後的子集分類效果,然後使用評價函數來對該子集的分類效果進行判斷。本實驗採用封裝器的評價方法,它會根據分類器的不同而選出不同的特徵子集,也即對樣本進行試分類,用分類器的錯誤率作為 衡量指標,因此分類效果較好。4)模型訓練使用機器學習算法訓練數據並且使用模型預測,通常遵循以下的步驟。1)準備輸入數據。也即本實施例前面提到的抽取文本特徵和loan特徵,當然訓練數據也需要包含已經分好類的目標變量。2)訓練算法。機器學習算法從這一步才開始真正學習,將處理後得到的格式化數據輸入到算法中,從中抽取知識或者信息,形成可以用來預測的模型,也即得到相應的模型參數。3)測試算法。在使用模型之前,必須測試算法工作的效果。本實施例使用的機器學習算法均屬於監督學習,使用已知的用於評估的目標變量值與預測值的關係來進行評測,如果輸出結果不滿意,再對模型進行改正加以測試。本實施例採用了五種常見的機器學習分類器。1)決策樹分類器,採用信息增益比的度量方式,每次選擇信息增益比最高的特徵進行劃分數據。置信因數設置為0.005對決策樹進行裁剪。2)邏輯回歸分類器,使用Sigmoid函數,並且使用隨機梯度上升法來確定最佳回歸係數。3)神經網絡分類器,實驗採用反向傳播神經網絡,激活函數為Sigmoid函數。4)隨機森林分類器,選擇100棵樹作為分類器構成。5)樸素貝葉斯分類器。5)交叉驗證訓練好機器學習模型後還要對模型的正確率進行驗證,本實施例實驗中採用的是五折交叉驗證。交叉驗證是一種在數據量不夠大的情況下隨機將數據樣本切割成較小子集的實用方法。首先在把其中一個子集作為訓練樣本來訓練分類器,其他子集作為測試集來驗證此分類器的正確率等指標。五折交叉驗證即將數據集劃分為五份,每次選取一份作為測試集,剩下的四份作為訓練集,從而進行五次實驗,將這些實驗所得的正確率進行平均作為對算法準確性的估計。6)評價指標本實施例對於文本對信用評估的影響主要採用正確率的評價方式,正確率即表示為在已經有還款違約記錄的測試數據上,本實施例使用算法進行分類的結果與原違約記錄結果相同的個數佔整個實驗數據數量的百分比。4.2實驗結果在前面介紹了實驗抽取的文本特徵和實驗過程後,下面將介紹從不同方面做過的多次實驗及相應的實驗結果,並對最終的實驗結果做了比較和分析。1)文本特徵對信用評估分類效果的影響為了研究文本特徵對信用評估分類效果的影響,本實施例使用財務特徵數據、文本特徵數據以及財務和文本特徵結合的數據分別作為輸入數據訓練模型並測試,以財務特徵數據作為控制變量進行對照。採用了上述提到的五種分類器,計算分類器模型對信用風險評估的準確率。由於增加特徵會帶來噪聲問題,因此考慮到特徵數量過多會引起特徵過載,從而導致分類效果降低的問題,在進行模型訓練之前對特徵數據進行了特徵選擇。再與財務特徵分類的結果進行對比。三種特徵數據在五種分類器模型上的最終預測結果表6-2所示。首先將單獨使用文本特徵進行預測的分類結果與單獨使用財務特徵預測的分類結果進行比較,從數據中發現,對於大多數的分類器模型而言,使用文本特徵預測的正確率雖然比使用財務特徵預測的正確率有所降低,但是數值比較接近,相差不大。特別地,經過特徵選擇後使用隨機森林預測的正確率為67.42%,比財務特徵的預測正確率還要高0.1%左右;使用神經網絡的預測結果為67.83%,與財務特徵預測的結果68.37%的差值相差在0.5%以內。另一方面,財務和文本特徵的預測結果均比單獨使用財務特徵的預測結果有了不同程度的提升。在當前時期的P2P網貸中,一些與借款人相關的信用評級和歷史數據、資產數據等與借款相關的客觀性可量化數據都沒有完全公開,甚至有些數據需要進行購買才可以獲得。另一方面,現有的個人信用評估體系還尚未完善,很多借款人不存在足夠的財務特徵數據來進行信用評估。因此,財務特徵獲取存在成本高,來源少的問題。相比於財務特徵,文本特徵的獲取就容易的多。在借款人申請貸款的時候,使用對借款的申請描述作為研究對象抽取文本特徵,從而對借款人進行信用評估,在成本較低和獲取容易的情況下,文本特徵可以代替財務特徵進行信用風險評估,並且能夠得到差別不大的在可接受範圍內的評 估效果。分類結果數據的對比情況可以直觀的表示為圖4-1。此外,將在財務特徵中加入文本特徵的分類結果與只使用財務特徵進行分類的結果進行對比如圖4-2所示:不難發現,在五種分類器模型中對於所有分類器模型而言,加入文本特徵後的分類正確率都有不同程度的提升。也即說明,本實施例提取的文本特徵不但可以用來代替財務特徵作為一種準確率稍差但是成本低的信用評估方式,而且在財務特徵中加入文本特徵後,信用風險的預測準確率也有一定的提升。其中,加入文本特徵後,分類正確率最高能夠到70.6%,並且使用隨機森林分類器能夠提升3%。除了使用單分類器進行分類預測之外,本實施例又引入了多分類器集成的概念,探索通過集成進一步提升分類的正確率。2)文本特徵的數量以及種類對信用評估分類效果的影響根據前面的實驗結果,文本特徵在信用評估中可以在某種程度上替代財務特徵,並且加入文本特徵後能夠提升信用評估的效果。因此進一步探索文本特徵的數量以及不同種類的文本特徵對信用評估分類效果是否有影響。使用logistic分類器和隨機森林分類器分別對listing借款描述文本的不同特徵進行訓練,並且與單純使用控制變量財務貸款本身特徵的分類結果進行對比。如圖4-3所示,實驗結果數據分析顯示,對於邏輯回歸分類器來講,雖然加入統計特徵簡單統計文本特徵後邏輯回歸分類器的正確率會有稍微降低,但是加入情感特徵和詞性特徵後,正確率都會有所增加,其中加入情感特徵後效果提升最好,而加入所有文本特徵後,分類的正確率有著明顯提升,提高了0.5個百分點。而對於隨機森林分類器,加入文本特徵後準確率有了顯著提升,最高提升了約為3%,同樣證明了文本特徵可以提高信用評估分類的準確率,但是加入全部特徵後的結果比單獨加入文本統計特徵、情感特徵和詞性特徵後的結果稍微降低了一些。特徵數量增加後準確率沒有如預期的提高,有可能是在增加數量的同時,噪聲也隨之增多,使得分類效果有所降低。因此,從數據中可以看出文本特徵能夠提高信用評估的準確率,並且文本特徵越多對信用評估越有幫助。實施例五基於多個分類器集成設計一個信用風險評估系統,如圖5-1所示。首先,建立七個基本分類器,這七個基本分類器包括六個文本分析的分類器,這六個文本分析的分類器對應於六個抽象文本特徵,而這個六個抽象文本特徵用於表徵借款人的各個不同方面,例如,主觀性、欺騙性、文本的可讀性、情感、用戶的個性特點和思維方式。每一個分類器將輸入作為基本語言特徵,而且能夠預測借款人是否會不履行還款,然後採用融合系統集成七個分類器的輸出。邏輯回歸用於欺騙性分類器、主觀性分類器和個性特點分類器;隨機森林用於可讀性分類器、情感分類器和基本的貸款分類器;多層感知器是用於思維方式分類器;決策樹用於融合的結果不同的分類器。5.1實驗數據本實施例中的實驗數據來源於Prosper網站,Prosper網站擁有大量的用戶,是非常著名的P2P在線服務平臺。在Prosper網站提供的數據中,提取了2006年到2008年的借貸記錄,因為在這一時期的借貸行為到目前為止都已經有了最終還款結果,無論是違約或者按時還款。經過統計,這三年內一共有可用的結果明確的借貸記錄28853條。Prosper對於還款記錄狀態分為current、late、paid、charge-off、defaulted、repurchased以及cancelled七個狀態,由於實驗數據均為已經完成的記錄,所以不存在current和late兩個狀態。然後將數據劃分為違約和未違約兩類,其中違約包括charge-off和defaulted兩類,一共是9937條,則未違約的包含餘下幾類,一共18916條,違約與未違約記錄之比大約為1:1.92。首先,從Prosper的資料庫的借款記錄中抽取了描述貸款的8個基本loan特徵,這些特徵是可以量化的結構化特徵,比如貸款收入比、網站評級、借款數目等。由於loan本身的特徵都是由數值直接進行描述的,大多與借款人的還款能力、財富水平相關,因此將這些特徵作為實驗的控制變量,描述了還款的能力。這些特徵分別如表5-1所示:表5-1財務貸款特徵其次,在借款人申請時,有三種文本申請描述可以被使用。一個是借款人提交的描述自身情況和借款原因的listing表中的description項,它是借款人親自填寫的對於此次貸款的一個詳細描述。剩下兩個是在註冊用戶表Member中的description和endorsement,它們分別描述了借款人自身情況和關於借款人的推薦書。本實施例中使用listing表中的description文本,主要關注於借款人自身對於借款的描述,從而挖掘出借款人的信用狀況。從文本中根據上述的特徵選擇和抽取方法,抽取了70個底層特徵和組合形成了6個抽象文本特徵,則最終輸入到模型的特徵構成一個特徵網絡,上層特徵由底層特徵表示,並代表著底層特徵的抽象含義,逐步表達借款者的信用水平。5.2分類器下面介紹一下本發明實施例所涉及的機器學習分類器。1)決策樹分類器,採用信息增益比的度量方式,每次選擇信息增益比最高的特徵進行劃分數據,置信因數設置為0.005對決策樹進行裁剪;2)邏輯回歸分類器,使用Sigmoid函數,並且使用隨機梯度上升法來確定最佳回歸係數;3)神經網絡分類器,實驗採用反向傳播神經網絡,激活函數為sigmoid函數;4)隨機森林分類器,選擇100棵樹作為分類器構成;5)樸素貝葉斯分類器。5.3、實驗1文本特徵對信用評估分類效果的影響為了研究文本特徵對信用評估分類效果的影響,本實施例中使用財務特徵數據、文本特徵數據以及財務和文本特徵結合的數據分別作為輸入數據訓練模 型並測試,以財務特徵數據作為控制變量進行對照。採用了上述提到的五種分類器,計算分類器模型對信用風險評估的準確率。由於增加特徵會帶來噪聲問題,因此考慮到特徵數量過多會引起特徵過載,從而導致分類效果降低的問題,在進行模型訓練之前對特徵數據進行了特徵選擇。再與loan特徵分類的結果進行對比。三種特徵數據在五種分類器模型上的最終預測結果表5-2所示。首先,將單獨使用文本特徵進行預測的分類結果與單獨使用財務特徵預測的分類結果進行比較,從數據中可以發現,對於大多數的分類器模型而言,使用文本特徵預測的正確率雖然比使用財務特徵預測的正確率有所降低,但是數值比較接近,相差不大。特別地,經過特徵選擇後使用隨機森林預測的正確率為67.42%,比財務特徵的預測正確率還要高0.1%左右;使用神經網絡的預測結果為67.83%,與財務特徵預測的結果68.37%的差值相差在0.5%以內。另一方面,財務和文本特徵的預測結果均比單獨使用財務特徵的預測結果有了不同程度的提升。表5-2使用單分類器在不同特徵數據上的結果BayesLogistic決策樹神經網絡隨機森林財務特徵69.26%70.19%69.85%68.37%67.3%文本特徵67.3%67.60%68.7%67.83%67.42%財務+文本69.69%70.6%70.54%69.2%70.22%5.4、實驗2在本實驗中,評估通過結合多個分類器的性能,在每個分類器只考慮一個方面的知識。除了基於基本貸款功能的分類器,有六種文本分類器,使用的文本特性來描述借款人的不同方面,包括文本的可讀性、欺騙性、主體性、情緒、個性特點和思維方式。圖5-2為本發明實施例中結合不同數量的分類器的性能對比圖,如圖5-2所示,將六種單獨使用文本特徵的分類器和使用財務特徵的分類器分別使用邏輯回歸、隨機森林和神經網絡三種分類器對數據獨立進行訓練得到分類結果, 選擇每種分類器的某一個分類結果當作第二層分類器的輸入,最終通過上層分類器的訓練得到最終分類效果。最終得到當上層分類器使用決策樹,並且七個分類器底層分別採用相應分類器(欺騙性:邏輯回歸;文本的可讀性:隨機森林;情感:隨機森林;思維方式:神經網絡;主觀性:邏輯回歸;個性特點:邏輯回歸;財務分析:隨機森林)時,分類效果,正確率為71.35%,相比於財務分析最高的正確率70.19提升了高於1%,相比於單分類器最高正確率70.6%提升了0.75%。同時還可以看到,隨著加入文本分類器數目的增多,正確率也在上升,並且都比財務分析和單分類器在listing上的效果好。通過以上對每種多分類器集成方法效果的具體分析得出:經過多分類器集成後預測效果相比於單個分類器的預測效果能夠有一定的提升。最後,選擇每個多分類器集成算法中可以得到的最高的準確率作為算法的結果,與原始的財務特徵數據的效果進行對比,可以得到不同多分類器集成算法的對比結果數據。在上述的多分類器集成算法中,可以看到,使用不同的多分類器集成算法會帶來不同幅度的分類正確率的提升。Boosting和bagging是基於相同分類器的決策融合,它們的分類效果比使用不同分類器的決策融合效果稍微差一些,但是從方差可以看出來,分類效果更加穩定。使用不同的分類器作為基分類器,也就是決策融合的決策提供者各不相同,可以使最終的結果考慮到不同的方面,在不同的情形下都適用,得到的最終結果也越正確。也即正確的結果可以經過不同算法的檢驗,使用的算法類型越多,錯誤的結果被識別出得機率越大。數據顯示,基於加權和簡單投票的多分類器集成算法的分類準確率相比於其他幾種決策融合的提升是比較高的。這種使用不同基分類器的並行集成算法考慮到不同基分類器的分類能力,賦予它們不同的權重,從而得到更加準確的預測的結果。混合分類器從不同解決問題的角度出發,經過最後決策融合後多樣性的體現更加明顯,效果也是在本實施例中實現的多分類器集成方法中最好。綜合以上所有實驗結果可以分析得到,使用財務+文本特徵單個分類器能達到的最高準確率為使用邏輯回歸預測,為70.6%,使用財務特徵單獨預測能達 到的最高正確率為使用神經網絡分類器,預測結果為70.19%。而經過多分類器集成後,不管採用哪一種算法,相比較使用財務特徵的預測效果都有顯著提升,混合分類器的提升幅度超過1個百分點,相比較於單分類器使用文本+財務特徵的預測效果也有一定的提升,並且由於多分類器集成是綜合了多個分類器的結果而做出的決策融合,因此多分類器集成的結果也具有更高的可靠性和穩定性。因此,多分類器集成方法在信用評估的信用分類中,有著重要的作用。5.5、討論實驗1的結果表明,不同分類器在文本特性的性能接近傳統貸款特徵,傳統貸款特徵包括FICO分數和DTI(債務收入比率)。收集和驗證成本FICO分數和DTI是相對高。此外,包括在線P2P貸款的一個目標是提供服務的人沒有商業信用記錄,即沒有FICO分數。在這些情況下,它是一個很好的選擇使用文本分析來評估信用風險。實驗1和實驗2的結果表明,添加文本特性可以提高整個信用風險評估系統的性能。直接基於隨機森林的文本特性添加到現有的系統可能會增加其精度,從67%至70%。通過結合多個文本分類器和基本貸款分類器可以進一步提高精度為71%。所有這些表明,文本信息是對傳統財務信息來源一個很好的互補信息來源。金融特徵如DTI關注評估借款人的還款能力,文本特徵關注評估借款人的還款意願。5.6、結論在本實施例中採用文本分析和整體學習評估網絡P2P貸款的信用風險。首先,設計一個包括六個抽象文本特性的概念模型,其中六個抽象文本特性用於從不同方面的探索借款人的思想。然後,設計一個基於七個分類器的整體信用風險評價體系,這七個分類器中包括對應於6個抽象文本功能的6個文本分析的分類器和一個傳統的信用分析的分類器。實驗結果表明,不同分類器的表現在文本功能接近那些傳統的金融特徵包括FICO分數和DTI。因此,當傳統的金融信息在逐漸消失的時候文本信息是一個很好的選擇。 此外,添加文本特性可以提高整個信用風險評估系統的性能,這意味著文本信息是對傳統財務信息來源的一個很好的互補信息來源,當文本信息與傳統信息相結合時,能夠提升信用風險評估的性能。實施例六基於前述的實施例,本發明實施例再提供一種基於文本分析的信用風險評估裝置,該裝置包括的第一獲取單元、分析單元、處理單元、輸出單元和建立單元,以及各單元所包括的各模塊,都可以通過計算設備中的處理器來實現;當然也可通過具體的邏輯電路實現;在具體實施例的過程中,處理器可以為中央處理器(CPU)、微處理器(MPU)、數位訊號處理器(DSP)或現場可編程門陣列(FPGA)等。圖6為本發明實施例六基於文本分析的信用風險評估裝置的組成結構示意圖,如圖6所示,該裝置600包括第一獲取單元601、分析單元602、處理單元603和輸出單元604,其中:所述第一獲取單元601,用於獲取借款人的文本;所述分析單元602,用於對所述文本進行分析,得到基本語言特徵,所述基本語言特徵用於預測借款人是否違約;所述處理單元603,用於將所述基本語言特徵輸入到預設的信用風險評估模型,得到從所述信用風險評估模型輸出的所述借款人的信用風險值;所述輸出單元604,用於輸出所述借款人的信用風險值。本發明實施例中,所述裝置還包括:建立單元,用於建立所述信用風險評估模型,所述建立單元進一步包括獲取模塊、分析模塊、建立模塊和融合模塊,其中:所述獲取模塊,用於獲取訓練數據;所述分析模塊,用於對所述訓練數據進行分析,得到所述訓練數據的基本語言特徵;所述第一建立模塊,用於將所述基本語言特徵作為參數,採用機器學習方 法建立不同的抽象文本特徵對應的分類器;所述融合模塊,用於將所述分類器作為基礎分類器,使用決策樹算法進行決策融合形成信用風險評估模型。本發明實施例中,所述建立模塊中的將所述基本語言特徵作為參數,包括:根據所述基本語言特徵與所述抽象文本特徵之間的關係,將所述基本語言特徵輸入到每一所述抽象文本特徵對應的分類器。本發明實施例中,所述建立單元,還包括分割模塊和統計模塊,其中所述分割模塊,用於根據斷句的標點符號對所述訓練數據進行分割,所述統計模塊,用於對分割後的訓練數據進行統計得到統計特徵。本發明實施例中,所述建立單元,還包括第二建立模塊和確定模塊,其中:所述第二建立模塊,用於採用不同的機器學習方法建立同一所述抽象文本特徵對應的分類器;所述確定模塊,用於將準確率最高的分類器確定為所述抽象文本特徵所對應的分類器。這裡需要指出的是:以上裝置實施例的描述,與上述方法實施例的描述是類似的,具有同方法實施例相似的有益效果,因此不做贅述。對於本發明裝置實施例中未披露的技術細節,請參照本發明方法實施例的描述而理解,為節約篇幅,因此不再贅述。應理解,說明書通篇中提到的「一個實施例」或「一實施例」意味著與實施例有關的特定特徵、結構或特性包括在本發明的至少一個實施例中。因此,在整個說明書各處出現的「在一個實施例中」或「在一實施例中」未必一定指相同的實施例。此外,這些特定的特徵、結構或特性可以任意適合的方式結合在一個或多個實施例中。應理解,在本發明的各種實施例中,上述各過程的序號的大小並不意味著執行順序的先後,各過程的執行順序應以其功能和內在邏輯確定,而不應對本發明實施例的實施過程構成任何限定。上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。需要說明的是,在本實施例中,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。在本申請所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現。以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,如:多個單元或組件可以結合,或可以集成到另一個系統,或一些特徵可以忽略,或不執行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過一些接口,設備或單元的間接耦合或通信連接,可以是電性的、機械的或其它形式的。上述作為分離部件說明的單元可以是、或也可以不是物理上分開的,作為單元顯示的部件可以是、或也可以不是物理單元;既可以位於一個地方,也可以分布到多個網絡單元上;可以根據實際的需要選擇其中的部分或全部單元來實現本實施例方案的目的。另外,在本發明各實施例中的各功能單元可以全部集成在一個處理單元中,也可以是各單元分別單獨作為一個單元,也可以兩個或兩個以上單元集成在一個單元中;上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。本領域普通技術人員可以理解:實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬體來完成,前述的程序可以存儲於計算機可讀取存儲介質中,該程序在執行時,執行包括上述方法實施例的步驟;而前述的存儲介質包括:移動存儲設備、只讀存儲器(ReadOnlyMemory,ROM)、磁碟或者光碟等各種可以存儲程序代碼的介質。或者,本發明上述集成的單元如果以軟體功能模塊的形式實現並作為獨立 的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本發明實施例的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機、伺服器、或者網絡設備等)執行本發明各個實施例所述方法的全部或部分。而前述的存儲介質包括:移動存儲設備、ROM、磁碟或者光碟等各種可以存儲程序代碼的介質。以上所述,僅為本發明的具體實施方式,但本發明的保護範圍並不局限於此,任何熟悉本
技術領域:
的技術人員在本發明揭露的技術範圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應以所述權利要求的保護範圍為準。當前第1頁1 2 3