基於權重學習和多特徵抽取的多情緒分類方法及裝置與流程
2023-05-23 06:58:46
本發明涉及計算機應用機器學習
技術領域:
,特別涉及一種基於權重學習和多特徵抽取的多情緒分類方法及裝置。
背景技術:
:微博作為一個已有廣大群眾基礎的網絡社交平臺,有對社會熱點話題敏銳,數據資源豐富多樣等特點。新浪微博作為流行的中文社交網絡平臺,其用戶評論信息對學業界和工業界來說都是寶貴的研究資料。近年來多項關於新浪微博評論的創新研究發表。微博用戶信息分析在用戶觀點挖掘以及標籤推薦、用戶情緒分析等應用上存在著巨大的挖掘潛力。相關技術中,分類系統著重研究微博用戶的情緒分析。情緒分析對於線上用戶對於產品的反饋、話題的流行、輿論的分析有著的輔助作用,並廣泛應用於執法部門監控、正向輿論導向、產品使用分析、流行趨勢預測等具體應用領域。結合新浪微博的流行應用平臺,能十分有效地反應用戶的對於某具體事物的具體觀點,具有實時性、話題敏感性和多變性的特點。情感分析作為自然語言處理的重要組成部分,也是人工智慧中的一個重要研究領域。微博用戶信息分析蘊含的極大的研究價值仍表明,這是個值得探索的領域。情緒分析作為自然語言處理乃至文本處理的重要組成部分,對其基於微博用戶評論的情緒分類是十分必要和具有應用價值的。為了實現基於微博用戶評論信息的層次情緒分類,需要解決三個方面的主要難題:1)短文本詞性特徵和句法特徵的抽取。2)詞性特徵與句法特徵的融合。技術實現要素:本發明旨在至少在一定程度上解決相關技術中的技術問題之一。為此,本發明的一個目的在於提出一種基於權重學習和多特徵抽取的多情緒分類方法,該方法可以有效地對微博用戶進行層次情緒分類,簡單易實現。本發明的另一個目的在於提出一種基於權重學習和多特徵抽取的多情緒分類裝置。為達到上述目的,本發明一方面實施例提出了一種基於權重學習和多特徵抽取的多情緒分類方法,包括以下步驟:從網際網路上獲取多條用戶發布的微博文本;對所述多條微博文本進行預處理,以抽取多個詞性特徵詞和多個句法特徵詞;通過權重學習融合所述多個詞性特徵詞和多個句法特徵詞,以得到句子信息;根據所述句子信息訓練情緒分類體系中每個節點的二分類器,以構建所述情緒分類體系,並通過所述分類體系實現情緒分類;根據分類結果得到所述多條用戶發布的微博文本的情緒分類信息。本發明實施例的基於權重學習和多特徵抽取的多情緒分類方法,針對微博文本的內容,通過抽取詞性和句法特徵抽取,並且通過學習權重的方法融合了詞性和句法特徵,符合文本特點的模塊引用提高了分類的準確性,獲得了較好的分類結果,通過利用抽取出的詞性特徵和依存句法特徵,並使用權重融合詞性特徵和依存句法特徵,從而對微博用戶情緒細進行分類,有效地對微博用戶進行層次情緒分類,簡單易實現。另外,根據本發明上述實施例的基於權重學習和多特徵抽取的多情緒分類方法還可以具有以下附加的技術特徵:進一步地,在本發明的一個實施例中,所述對所述多條微博文本進行預處理為對微博文本進行分詞、詞性標註和句法依存分析。進一步地,在本發明的一個實施例中,根據名詞、動詞、形容詞和副詞抽取所述多個詞性特徵詞,並且根據句法結構特徵抽取所述多個句法特徵,其中,所述句法結構特徵包括動補結構、關聯結構、後附加結構、定中結構、動賓結構、主謂結構、狀中結構、並列結構和核心。進一步地,在本發明的一個實施例中,在詞性抽取中,否定詞與後一個詞集合成一個詞,以進行詞向量表示之後再進行抽取。進一步地,在本發明的一個實施例中,所述通過權重學習融合所述多個詞性特徵詞和多個句法特徵詞進一步包括:運用權重和閾值將所述多個詞性特徵詞的預測值和所述多個句法特徵詞的預測值相融合,以得到所述句子信息。為達到上述目的,本發明另一方面實施例提出了一種基於權重學習和多特徵抽取的多情緒分類裝置,包括:獲取模塊,用於從網際網路上獲取多條用戶發布的微博文本;抽取模塊,用於對所述多條微博文本進行預處理,以抽取多個詞性特徵詞和多個句法特徵詞;融合模塊,用於通過權重學習融合所述多個詞性特徵詞和多個句法特徵詞,以得到句子信息;構建模塊,用於根據所述句子信息訓練情緒分類體系中每個節點的二分類器,以構建所述情緒分類體系,並通過所述分類體系實現情緒分類;分類模塊,用於根據分類結果得到所述多條用戶發布的微博文本的情緒分類信息。本發明實施例的基於權重學習和多特徵抽取的多情緒分類裝置,針對微博文本的內容,通過抽取詞性和句法特徵抽取,並且通過學習權重的方法融合了詞性和句法特徵,符合文本特點的模塊引用提高了分類的準確性,獲得了較好的分類結果,通過利用抽取出的詞性特徵和依存句法特徵,並使用權重融合詞性特徵和依存句法特徵,從而對微博用戶情緒細進行分類,有效地對微博用戶進行層次情緒分類,簡單易實現。另外,根據本發明上述實施例的基於權重學習和多特徵抽取的多情緒分類裝置還可以具有以下附加的技術特徵:進一步地,在本發明的一個實施例中,所述對所述多條微博文本進行預處理為對微博文本進行分詞、詞性標註和句法依存分析。進一步地,在本發明的一個實施例中,根據名詞、動詞、形容詞和副詞抽取所述多個詞性特徵詞,並且根據句法結構特徵抽取所述多個句法特徵,其中,所述句法結構特徵包括動補結構、關聯結構、後附加結構、定中結構、動賓結構、主謂結構、狀中結構、並列結構和核心。進一步地,在本發明的一個實施例中,在詞性抽取中,否定詞與後一個詞集合成一個詞,以進行詞向量表示之後再進行抽取。進一步地,在本發明的一個實施例中,所述融合模塊具體用於運用權重和閾值將所述多個詞性特徵詞的預測值和所述多個句法特徵詞的預測值相融合,以得到所述句子信息。本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。附圖說明本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:圖1為根據本發明實施例的基於權重學習和多特徵抽取的多情緒分類方法的流程圖;圖2為根據本發明一個實施例的基於權重學習和多特徵抽取的多情緒分類方法的流程圖;圖3為根據本發明一個實施例的求權重最優解的算法流程圖;圖4為根據本發明一個實施例的求閾值最優解的算法流程圖;圖5為根據本發明實施例的基於權重學習和多特徵抽取的多情緒分類裝置的結構示意圖。具體實施方式下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用於解釋本發明,而不能理解為對本發明的限制。下面參照附圖描述根據本發明實施例提出的基於權重學習和多特徵抽取的多情緒分類方法及裝置,首先將參照附圖描述根據本發明實施例提出的基於權重學習和多特徵抽取的多情緒分類方法。圖1是本發明實施例的基於權重學習和多特徵抽取的多情緒分類方法的流程圖。如圖1所示,該基於權重學習和多特徵抽取的多情緒分類方法包括以下步驟:在步驟S101中,從網際網路上獲取多條用戶發布的微博文本。在步驟S102中,對多條微博文本進行預處理,以抽取多個詞性特徵詞和多個句法特徵詞。其中,在本發明的一個實施例中,對多條微博文本進行預處理為對微博文本進行分詞、詞性標註和句法依存分析。進一步地,在本發明的一個實施例中,根據名詞、動詞、形容詞和副詞抽取多個詞性特徵詞,並且根據句法結構特徵抽取多個句法特徵,其中,句法結構特徵包括動補結構、關聯結構、後附加結構、定中結構、動賓結構、主謂結構、狀中結構、並列結構和核心。另外,在本發明的一個實施例中,在詞性抽取中,否定詞與後一個詞集合成一個詞,以進行詞向量表示之後再進行抽取。需要說明的是,句子中有很多不同的特徵可以體現句子的結構,其中詞性特徵和句法特徵可以同時體現作者的某些情緒特徵,這些情緒特徵可以顯示該句子是什麼情感,便可以間接知道筆者對於某件事的看法觀點或者筆者此時的心情等信息。就現在的大部分研究而言,研究者往往著重於研究詞性層面特徵的學習,而忽視了句法層面的信息。本模塊主要是抽取詞性特徵:名詞,形容詞,副詞和動詞;以及句法依存特徵:狀中結構,後附加結構,定中結構,動賓結構,主謂結構,並列結構,動補結構,關聯結構和核心等。運用這些特徵來表示句子的信息。其中如果有否定詞「不」,要將「不」與後面那個詞合為一個詞,並用新的詞向量來表示。其主要流程可以用以下幾個步驟說明:S1:運用哈工大LTP-Cloud將語料中的每個句子進行分詞,詞性標註和句法依存分析;S2:運用word2vec學習分詞後的數據集,用詞向量表示每句話;S3:分別抽取詞性特徵和句法結構特徵。在步驟S103中,通過權重學習融合多個詞性特徵詞和多個句法特徵詞,以得到句子信息。進一步地,在本發明的一個實施例中,通過權重學習融合多個詞性特徵詞和多個句法特徵詞進一步包括:運用權重和閾值將多個詞性特徵詞的預測值和多個句法特徵詞的預測值相融合,以得到句子信息。需要說明的是,對於詞性特徵和句法特徵,每一句話有不同的向量表示方式。同時,這兩種特徵不是某個包含某個的關係,而是交集的關係。因此,如何將這兩種不同的表示方式融合為一個並且可以運用到學習和預測中去是一個需要解決的問題。就融合而言,權重學習是一個好的方法。舉例而言,可以通過運用布爾變量進行權重區間的分值的求解,來求得最優權重g。相同的,詞性特徵和句法特徵在求取權重最優解時可以看作是布爾變量,而最終預測的值可以看作是權重區間的分值。這種方法簡單易操作,便於實驗的進行和改進。其中w的最優解為正確率最高情況下求出的,且最後求出的c值通過與閾值的對比可以判斷是否是特定的情緒,用此來計算準確率等評判標準。在步驟S104中,根據句子信息訓練情緒分類體系中每個節點的二分類器,以構建情緒分類體系,並通過分類體系實現情緒分類。在步驟S105中,根據分類結果得到多條用戶發布的微博文本的情緒分類信息。舉例而言,在本發明的實施例中,如圖2所示,可以運用實驗室原先的數據進行實驗。由於數據存在於後臺系統中,需要用於模型訓練要先根據數據特點進行數據預處理,其中包括詞向量的訓練,句子處理,如分詞,詞性標註和句法依存分析。學習分詞後的數據集,用詞向量表示每句話。通過這樣的初步處理,我們就可以得到後期實驗可用的處理後的數據集。進一步地,對於不同的特徵,抽取方法也不同。對於詞性特徵而言,名詞,動詞,形容詞和副詞可以很好地體現一個人的情緒;而對於句法特徵而言,比較能表現情緒如表1所示,抽取出之後便能夠作為句子的信息來進行學習和預測。其中,表1為句法特徵表。表1句法結構特徵標籤表示動補結構CMP關聯結構CNJ後附加結構RAD定中結構ATT動賓結構VOB主謂結構SBV狀中結構ADV並列結構COO核心HED其中要注意的一點是關於否定詞「不」的處理,否定詞「不」會使得句子表現出與形容詞相反的意思。在詞性抽取中,應該將「不」與後面的詞集合成一個詞,進行詞向量表示之後再進行抽取;在句法結構抽取中,應將「不」與後面的形容詞或者動詞集合成一個詞,進行詞向量表示之後再進行抽取。例如,「我非常高興。」這句話中的「非常」為副詞,「高興」為形容詞,兩個合起來為狀中結構,可以加深筆者對於高興這個情緒;「我們有昂揚的鬥志。」這句話中,「昂揚」和「的」構成了後附加結構,同時「昂揚」和「鬥志」構成了定中結構,運用了「昂揚」來修飾「鬥志」,對句子進行了分析;「我們迎來了新的一年。」這句話中「我們」與「迎來」構成了主謂結構,同時「迎來」與「一年」構成了動賓結構,表示了行動發出者是誰以及發出的動作;「我們畫了雄鷹,松鼠和麻雀。」這句話中,「雄鷹」,「松鼠」和「麻雀」為並列結構,表示該句中的多個主體;「球員對這個判罰不滿」這句話中,「判罰」和「不滿」構成動補關係,表示主體的態度,體很好地體現了主體的情緒;核心詞由於每個句子差異性比較大,但是都是比較重要的詞語,所以也能夠很好地表現句子的一些信息,所以也把這個信息進行了抽取。進一步地,運用權重和閾值將詞性特徵的預測值和句法依存結構特徵的預測值相融合,用來表示句子的總體信息。對於兩個不同特徵學習的數據集而言,給每個特徵一個係數,即權重w,再運用公式:w*a+(1-w)*b=c(0<=w<=1),求得w的最優解,其中初始閾值設為0,評價函數為正確分類的百分比,w的最優解為分類正確率最大值時的w值。首先,將數據分成三組:訓練組,學習組和測試組,其中訓練組佔總數據的70%,學習組佔10%,測試組佔20%。運用SVMPerf對訓練組進行學習後,分別對學習組和測試組進行預測,令詞性特徵預測值為a,句法結構特徵預測值為b,在初始閾值為0的情況下,運用上述公式對w進行從0到1的遍歷,後一個w與前一個w的值相差0.01,可以求得某句在不同w值下的預測值c,這裡的c包含了該句話的詞性特徵和句法特徵,達到了本研究想要將詞性結構和句法結構相融合的目的。若c的值大於初始閾值0且該句話原本手動標註為正,或者c小於初始閾值0且原本手動標註為負,則認為分類正確,反之,則不正確。運用上述方法求得正確率最大值後的w值即為權重最優解。運用測試組來檢驗該權重是否有效。將上述方法得出的權重最優解再運用測試組的a、b值進行計算,得到測試組的c值,此時的c為該句話的預測值。對閾值從-5到5進行遍歷,前一個閾值和後一個閾值香腸0.01.若c大於閾值並且該句話原本的手動標註為正,或者c小於閾值並且原本的手動標誌位負,則認為分類正確,反之,則錯誤。將分類正確率作為評價函數,最優閾值為正確率最大情況下的閾值,如圖3和圖4所示。最後,可以使用層次分類框架對微博用戶情緒進行分類。對於多分類情緒問題,可以運用一對一分類方法,由於有6種情緒需要進行分類,所以設置15個二分類器,對不同的一對情緒進行學習分類,最後運用投票的方式進行最終分類,可以求出整個數據集的分類正確率。同時由於數據的不平衡性,可以將6類情緒進行分層,數據過少的兩種情緒做二分類,另外四種情緒做多分類,這樣求出的正確率是最高的。根據本發明實施例的基於權重學習和多特徵抽取的多情緒分類方法,針對微博文本的內容,通過抽取詞性和句法特徵抽取,並且通過學習權重的方法融合了詞性和句法特徵,符合文本特點的模塊引用提高了分類的準確性,獲得了較好的分類結果,通過利用抽取出的詞性特徵和依存句法特徵,並使用權重融合詞性特徵和依存句法特徵,從而對微博用戶情緒細進行分類,有效地對微博用戶進行層次情緒分類,簡單易實現。其次參照附圖描述根據本發明實施例提出的基於權重學習和多特徵抽取的多情緒分類裝置。圖5是本發明實施例的基於權重學習和多特徵抽取的多情緒分類裝置的結構示意圖。如圖5所示,該基於權重學習和多特徵抽取的多情緒分類裝置10包括:獲取模塊100、抽取模塊200、融合模塊300、構建模塊400和分類模塊500。其中,獲取模塊100用於從網際網路上獲取多條用戶發布的微博文本。抽取模塊200用於對多條微博文本進行預處理,以抽取多個詞性特徵詞和多個句法特徵詞。融合模塊300用於通過權重學習融合多個詞性特徵詞和多個句法特徵詞,以得到句子信息。構建模塊400用於根據句子信息訓練情緒分類體系中每個節點的二分類器,以構建情緒分類體系,並通過分類體系實現情緒分類。分類模塊500用於根據分類結果得到多條用戶發布的微博文本的情緒分類信息。本發明實施例的分類裝置10可以利用抽取出的詞性特徵和依存句法特徵,並使用權重融合詞性特徵和依存句法特徵,從而對微博用戶情緒細進行分類,有效地對微博用戶進行層次情緒分類。進一步地,在本發明的一個實施例中,對多條微博文本進行預處理為對微博文本進行分詞、詞性標註和句法依存分析。進一步地,在本發明的一個實施例中,根據名詞、動詞、形容詞和副詞抽取多個詞性特徵詞,並且根據句法結構特徵抽取多個句法特徵,其中,句法結構特徵包括動補結構、關聯結構、後附加結構、定中結構、動賓結構、主謂結構、狀中結構、並列結構和核心。進一步地,在本發明的一個實施例中,在詞性抽取中,否定詞與後一個詞集合成一個詞,以進行詞向量表示之後再進行抽取。進一步地,在本發明的一個實施例中,融合模塊300具體用於運用權重和閾值將多個詞性特徵詞的預測值和多個句法特徵詞的預測值相融合,以得到句子信息。需要說明的是,前述對基於權重學習和多特徵抽取的多情緒分類方法實施例的解釋說明也適用於該實施例的基於權重學習和多特徵抽取的多情緒分類裝置,此處不再贅述。根據本發明實施例的基於權重學習和多特徵抽取的多情緒分類裝置,針對微博文本的內容,通過抽取詞性和句法特徵抽取,並且通過學習權重的方法融合了詞性和句法特徵,符合文本特點的模塊引用提高了分類的準確性,獲得了較好的分類結果,通過利用抽取出的詞性特徵和依存句法特徵,並使用權重融合詞性特徵和依存句法特徵,從而對微博用戶情緒細進行分類,有效地對微博用戶進行層次情緒分類,簡單易實現。在本發明的描述中,需要理解的是,術語「中心」、「縱向」、「橫向」、「長度」、「寬度」、「厚度」、「上」、「下」、「前」、「後」、「左」、「右」、「豎直」、「水平」、「頂」、「底」「內」、「外」、「順時針」、「逆時針」、「軸向」、「徑向」、「周向」等指示的方位或位置關係為基於附圖所示的方位或位置關係,僅是為了便於描述本發明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本發明的限制。此外,術語「第一」、「第二」僅用於描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特徵的數量。由此,限定有「第一」、「第二」的特徵可以明示或者隱含地包括至少一個該特徵。在本發明的描述中,「多個」的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。在本發明中,除非另有明確的規定和限定,術語「安裝」、「相連」、「連接」、「固定」等術語應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或成一體;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通或兩個元件的相互作用關係,除非另有明確的限定。對於本領域的普通技術人員而言,可以根據具體情況理解上述術語在本發明中的具體含義。在本發明中,除非另有明確的規定和限定,第一特徵在第二特徵「上」或「下」可以是第一和第二特徵直接接觸,或第一和第二特徵通過中間媒介間接接觸。而且,第一特徵在第二特徵「之上」、「上方」和「上面」可是第一特徵在第二特徵正上方或斜上方,或僅僅表示第一特徵水平高度高於第二特徵。第一特徵在第二特徵「之下」、「下方」和「下面」可以是第一特徵在第二特徵正下方或斜下方,或僅僅表示第一特徵水平高度小於第二特徵。在本說明書的描述中,參考術語「一個實施例」、「一些實施例」、「示例」、「具體示例」、或「一些示例」等的描述意指結合該實施例或示例描述的具體特徵、結構、材料或者特點包含於本發明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特徵、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特徵進行結合和組合。儘管上面已經示出和描述了本發明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發明的限制,本領域的普通技術人員在本發明的範圍內可以對上述實施例進行變化、修改、替換和變型。當前第1頁1 2 3