新四季網

情感傾向性分析的方法及裝置與流程

2023-06-14 15:48:10 2


本發明涉及網際網路技術領域,尤其涉及一種情感傾向性分析的方法及裝置。



背景技術:

所謂情感傾向性分析,就是對文本內容中的主觀性信息進行分析,挖掘文本所表達的觀點和態度。由於每個人的立場、出發點各有不同,因此不同網民看待同一事物的信念、意見、情緒存在很大差異。在論壇、博客等反映草根觀點的網絡媒體上,這種差異通常表現的尤為明顯。因此,為了有效了解網民對政策、時事的觀點態度,需要對網絡上的文本內容(例如留言)進行情感傾向性分析,定性分析出文本內容傳遞的觀點態度是正向情感、負向情感還是中性情感。

現有技術主要採用詞語匹配的方法進行情感傾向性分析。這種方法通過分詞與詞性組合的方式識別短語、句子的情感傾向性,然後通過對短語、句子的情感傾向性的累加獲得整個文本的總體情感傾向性。詞語匹配的方法需要人工對分詞與詞性組合的規則進行設定。人工設定的規則數量有限,往往難以覆蓋所有的語言現象,為改善這種方式的缺陷,目前還出現了一種機器學習的分析方式。該方式能夠由計算機基於給定情感傾向性的文本語料自動學習訓練出情感分析規則,只要文本語料的樣本空間足夠大,就能夠訓練出足夠多的情感分析規則。由於規則的設定無需人工介入,因此目前主流市場上大多採用機器學習的方式進行情感傾向性分析。

在實際應用中發明人發現,現有的機器學習方式會找出整個文本中的情感詞,以及對情感詞的傾向方向及傾向程度分別做出貢獻的否定副詞(例如幾乎沒有、不是、絕非等)和程度副詞(例如一點、非常、特別等),然後根據情感詞與副詞的結合生成情感分析規則,並根據該規則對目標文本進行情感傾向性分析。這種方式僅僅定性考慮了文本中是否存在情感詞和副詞,但是並沒有考慮情感詞與副詞之間的關係。舉例而言,對於文本「調 控房價的政策還是起作用的,沒有因施政範圍過小而受到影響。」現有的學習方式著眼於文本內容整體找出情感詞「起作用」和否定副詞「沒有」,然後將兩者結合獲得「沒有起作用」的情感分析規則,顯然這與該文本實際要表達的情感方向完全相反。可以看出,現有的機器學習方式容易生成錯誤的情感分析規則,由此影響情感傾向性分析結果的準確性。



技術實現要素:

本發明提供了一種情感傾向性分析的方法及裝置,能夠解決因情感分析規則錯誤導致的情感傾向性分析結果不準確的問題。

為解決上述技術問題,一方面,本發明提供了一種情感傾向性分析的方法,該方法包括:

識別學習文本中的主觀句,所述學習文本中的句子對應有用於記錄情感傾向性的標註語料;

識別所述主觀句中的情感詞;

在所述主觀句中查找對所述情感詞做出傾向性貢獻的搭配詞;

將所述情感詞與所述搭配詞的組合,結合所述主觀句的標註語料,生成情感傾向性分析規則;

通過所述情感傾向性分析規則對目標文本中的句子進行規則匹配,獲得所述目標文本的情感傾向性結果。

另一方面,本發明還提供了一種情感傾向性分析的裝置,該裝置包括:

識別單元,用於識別學習文本中的主觀句,所述學習文本中的句子對應有用於記錄情感傾向性的標註語料;

所述識別單元還用於識別所述主觀句中的情感詞;

查找單元,用於在所述主觀句中查找對所述情感詞做出傾向性貢獻的搭配詞;

生成單元,用於將所述情感詞與所述搭配詞的組合,結合所述主觀句的標註語料,生成情感傾向性分析規則;

匹配單元,用於通過所述情感傾向性分析規則對目標文本中的句子進行規則匹配,獲得所述目標文本的情感傾向性結果。

本發明提供的情感傾向性分析的方法及裝置,能夠從學習文本中識別 出表達態度、觀點或立場的主觀句,然後識別主觀句中帶有主觀色彩的情感詞,在主觀句中查找諸如程度副詞、否定副詞等對情感詞的情感傾向做出貢獻的搭配詞,並將情感詞與搭配詞的組合結合主觀句的標註語料,生成針對語句的情感傾向性分析規則,最後通過情感傾向性分析規則對目標文本中的句子進行規則匹配,獲得目標文本的情感傾向性結果。與現有技術相比,本發明能夠對主觀句內的情感詞和搭配詞進行組合,而非將整篇文本中的情感詞和搭配詞進行組合。由於句子內的情感詞和搭配詞之間的關聯程度較強,或者說基於一般的語言習慣而言,一個句子中的搭配詞通常用於修飾該句中的情感詞,因此機器學習獲得的情感傾向性分析規則更為準確,使用這種規則進行情感傾向性分析可以大大提高分析結果的準確度。

上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。

附圖說明

通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明了。附圖僅用於示出優選實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:

圖1示出了本發明實施例提供的一種情感傾向性分析的方法流程圖;

圖2示出了本發明實施例提供的另一種情感傾向性分析的方法流程圖;

圖3示出了本發明實施例提供的一種情感傾向性分析的裝置的組成框圖;

圖4示出了本發明實施例提供的另一種情感傾向性分析的裝置的組成框圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這裡闡述的實施例所限制。相反,提供這些實施例是為了能夠更 透徹地理解本公開,並且能夠將本公開的範圍完整的傳達給本領域的技術人員。

為解決現有技術中,基於機器學習方式獲得的情感傾向性分析規則不準確的問題,本發明實施例提供了一種情感傾向性分析的方法,該方法可以通過對機器學習算法的改進,獲得更為準確的情感傾向性分析規則,並能夠通過對該規則的使用提升情感傾向性分析結果的準確性。如圖1所示,該方法包括:

101、識別學習文本中的主觀句,學習文本中的句子對應有用於記錄情感傾向性的標註語料。

本實施例中的學習文本為機器學習所使用的樣本數據,該學習文本在使用前通過人工方式添加有標註語料,用於記錄句子的情感傾向性。例如,對於某文本「這項政策制定的非常好。」,其標註語料可以為「正向情感」。

本實施例中,學習文本中的標註語料包括針對自然句記錄的標註語料,例如「這項政策制定的非常好。(正向情感)」,也包括針對標點句記錄的標註語料,例如「這項政策出臺的本意是好的(正向情感),但是並不被社會所認可(負向情感)。」,還可以包括針對短語、詞、字的標註語料。其中,所謂自然句是指以句號、感嘆號、問號等符號做結尾的完整語句,所謂標點句則是指以逗號、頓號、分號等符號做結尾的非完整語句。通常情況下,自然句由標點句組成。實際應用中,標註語料一般不添加到文本內容中,而是以配置信息等其他獨立於文本內容的形式與文本內容進行關聯,上述示例中標註語料的添加形式僅為便於理解之用,不作為對實際標註形式的具體限定。

情感傾向性的表達通常由兩個維度的指標組合而成,其一為定性性質的傾向方向指標,例如正向情感、負向情感、中性情感;其二為定量性質的傾向程度指標,例如通過連續或離散的數值區分「一般」、「還行」、「好」、「很好」、「非常好」等不同程度的情感表達。一般情況下,標註語料中至少需要包含傾向方向指標,用於對語句的情感傾向進行最基本的定性標註。為便於方案的理解,本實施例後續及後續實施例將僅以定性分析情感傾向性為例進行說明。

在對學習文本進行學習時,首先要從文本中識別提取出包含觀點、立場、態度等感情色彩的主觀句,而對於不包含情感色彩的客觀句(例如陳述句)則無需進行提取。主觀句在一般情況下是以自然句的形式體現的。從語言習慣上講,肯定句、否定句屬於典型的主觀句,但這並不代表主觀句僅由上述兩種句式組成。

在本實施例的一種實現方式中,可以通過最大熵模型、二值分類、支持向量機(Support Vector Machine,簡稱SVM)、決策樹等算法對學習文本中的句子進行分析,並由此識別出文本中包含的主觀句。應當說明的是,上述枚舉的幾種算法屬於能夠實現識別主觀句功能的算法,並不代表實際應用中僅能通過上述幾種算法對主觀句進行識別。

102、識別主觀句中的情感詞。

所謂情感詞是指能夠表達主觀情感色彩的詞語。從詞性上看,情感詞通常以形容詞、動詞居多,例如「愉快」、「甜蜜」、「喜歡」、「認同」等;從句式結構上,情感詞則多以謂語形式出現,例如「我喜歡你」、「你怕他」等。知網庫給出了中英文情感分析用詞語集(http://www.keenage.com/html/c_bulletin_2007.htm),該詞語集是示例性的,不作為對本實施例涉及的情感詞範圍的封閉式限定。

在識別情感詞時,首先通過預設算法對主觀句進行分詞,將句子拆分成詞語或短語,然後通過情感詞典從這些詞語或短語中查找情感詞。實際應用中,分詞使用的算法包括但不限於是條件隨機場(Conditional Random Fields,簡稱CRF)算法、最大熵模型算法、最短路徑算法。在查找情感詞時,從分詞後的第一個詞語開始遍歷,依次將每個詞語與情感詞典中記錄的標準情感詞進行比對,如果與某個標準情感詞比對一致,則表示該詞語屬於情感詞;如果情感詞典中沒有與該詞一致的標準情感詞,則表示該詞語不屬於情感詞。

示例性的,對於語句「我挺喜歡我自己」,分詞後得到「我」、「挺」、「喜歡」、「我」和「自己」共5個詞語,將這5個詞語分別與情感詞典進行比對後獲得情感詞「喜歡」。

103、在主觀句中查找對情感詞做出傾向性貢獻的搭配詞。

所謂搭配詞是指能夠與其他詞語進行組合從而實現修飾功能的詞語,理論上講,任何詞性的詞語均可以作為搭配詞使用。本實施例中的搭配詞主要是指對動詞、形容詞等詞性的情感詞進行修飾的副詞,包括但不限於是:時間副詞、頻率副詞、方式副詞、程度副詞、疑問副詞、連接副詞、關係副詞、表順序的副詞、肯定副詞、否定副詞。這其中,以程度副詞、肯定副詞和否定副詞的使用最為典型。例如,表程度的副詞可以是「我非常喜歡你」,表肯定的副詞可以是「你這樣做是對的」,表否定的副詞可以是「這種行為不應得到讚揚」。

104、將情感詞與搭配詞的組合,結合主觀句的標註語料,生成情感傾向性分析規則。

在找到主觀句中的情感詞和搭配詞之後,將兩者的組合作為分析規則的比對依據,同時將主觀句的標註語料作為分析規則的結論標準,生成情感傾向性分析規則。

105、通過情感傾向性分析規則對目標文本中的句子進行規則匹配,獲得目標文本的情感傾向性結果。

在通過機器學習獲得分析規則後,就可以執行本步驟對作為分析對象的目標文本進行情感識別了。例如對於語句「我們熱烈歡迎你」,其情感詞為「歡迎」,搭配詞為「熱烈」、標註語料為「正向情感」,那麼提取出來的情感傾向性分析規則可以是「歡迎+熱烈+正向情感」。在使用該規則對目標文本中的語句「您的到來一定會受到與會人員的熱烈歡迎」進行情感傾向性分析時,目標文本中包含「歡迎+熱烈」的搭配組合,可以確定目標文本與該規則的比對依據相匹配,由此將結論標準「正向情感」作為目標文本的情感傾向性分析結果。

通常實際文本中會包含大量語句,在進行識別時,需要將這些語句依次與分析規則中的搭配組合進行匹配,如果匹配結果一致則得到該句的情感傾向性結果,如果比對不一致則對下一語句進行匹配。在對所有語句完成規則匹配後,將各個語句的情感傾向性結果進行加總(不限於是算數求和),從而獲得整個目標文本的情感傾向性分析結果。

實際應用中情感傾向性有正負之分,在對各個語句的分析結果進行加 總時,會存在不同情感傾向正負抵消的情況。由於本實施例的最終目的在於對目標文本整體進行情感傾向性分析,因此這種抵消也在客觀事實上反映出了目標文本整體的情感傾向趨勢,所以不會對分析結果的正確性造成影響。

需要說明的是,在進行機器學習時,學習文檔的樣本空間通常很大,因此獲得的分析規則的數量也會較多。在與分析規則進行匹配時,一個目標語句通常與所有分析規則依次進行匹配,只要能夠與某一分析規則匹配上,那麼就能獲得對應該分析規則的分析結果。

現有技術中,情感詞和副詞是以文檔整體為基礎進行的提取和組合,這種方式忽視了情感詞和副詞之間的關聯關係,當情感詞和副詞間距較遠,特別是兩者位於不同的句子甚至段落中時,現有方案容易錯誤判斷副詞對情感詞的修飾作用,進而獲得錯誤的情感傾向性分析規則。例如對於下述文本:

「a、人民群眾始終是革命的主體,在這個非常時期尤其如是。……n、「四人幫」是反人民、反社會的害群之馬,支持「四人幫」絕對不會得到好下場。……x、堅定不移的堅持黨的領導,才是順應人民、順應社會、順應時代的正確選擇。」

根據文本整體提取的副詞為「非常」和「不」,情感詞為「好」和「正確」。按照現有的規則生成方式可能獲得「非常好」、「不正確」這樣的組合規則。可以看出,副詞「非常」位於句子a中,用於修飾名詞「時期」,而非修飾句子n中的情感詞「好」;副詞「不」則位於句子n中,用於修飾情感詞「好」,但不是用於修飾句子x中的情感詞「正確」。由於現有技術知識以文本整體為範疇進行詞語提取,沒有考慮到情感詞與副詞之間的搭配關係,因此會獲得諸如「非常好」、「不正確」這樣與文本原意不相稱,甚至意思完全相反的錯誤規則。

而本實施例提供的情感傾向性分析的方法,僅對主觀句中的情感詞和副詞進行提取和組合,詞語之間的組合不受其他句子中無關情感表達的詞語的影響。並且本實施例的方法僅限對屬於同一個句子中的情感詞和副詞進行組合,而不會將位於不同的主觀句中的情感詞及副詞進行機械搭配。 由於中文的語言習慣一般是使用一個句子表達一個主題相對集中和完整的意思,因此在句子內提取並組合情感詞和副詞,通常是符合語句表達的原意的。在上述示例中,本實施例從句子n中提取的分析規則為「不好」、從句子x中提取的分析規則為「正確」。通過示例可以看出,相對現有技術而言,本實施例提供的方法能夠提高情感傾向性分析規則準確性,並進而提高情感傾向性分析結果的準確度。

進一步的,作為對圖1所示方法的細化和擴展,本發明實施例還提供了一種情感傾向性分析的方法。如圖2所示,該方法包括:

201、識別學習文本中的主觀句。

本步驟的實現方式與圖1步驟101的實現方式相同,此處不再贅述。

202、根據標點符號將主觀句拆分為主觀標點句。

在本實施例中,為進一步提升訓練分析規則的準確性,需要將主觀句拆分為一個或多個主觀標點句,並通過後續步驟分別對不同的主觀標點句進行情感詞、副詞提取。實際應用中,拆分出的主觀標點句的數量主要由主觀句的具體內容決定。例如對於主觀句「不管你喜不喜歡我反正我喜歡你。」,其屬於不可拆分的一個主觀句;而對於主觀句「我喜歡你,你喜歡我嗎?」,則能夠拆分成「我喜歡你」和「你喜歡我嗎」兩個主觀標點句。

在執行本步驟時,從主觀句字符串的第一個字符開始遍歷,當檢測到一個標點句符號時(例如逗號、頓號、分號等),將該標點句符號以前的字符序列識別為一個主觀標點句。然後繼續進行遍歷和識別,直至檢測到自然句符號(例如句號、嘆號、問號等),將自然句符號以前、前一標點句符號之後的字符序列識別為一個主觀標點句,完成主觀標點句的拆分。

203、對主觀標點句進行分詞處理。

情感詞和搭配詞本質上屬於詞語,而拆分獲得的主觀標點句則為字符串。在查找情感詞及搭配詞之前,首先需要對主觀標點句進行分詞,按照語言習慣將字符串形式的主觀標點句拆分為由一個或多個詞語組成的分詞序列。示例性的,對於主觀標點句「被告人丁建設犯搶劫罪,」,分詞後可獲得分詞序列「被告人丁建設犯搶劫罪」。

實際應用中,考慮到分詞結果的準確性,在分詞方式上還可以根據實 際需要選擇正向匹配算法或逆向匹配算法進行分詞。正向/逆向匹配算法獲得的分詞結果不同,可以通過結果後驗的方式判斷兩種匹配算法的準確性,並擇優使用。

實際應用中,分詞結果還可能受到一些特殊名詞的影響,例如對於上述示例,獲得的分詞序列可能為「被告人丁建設犯搶劫罪」。一般情況下,可以通過一些修正算法對錯誤的分詞序列進行修正,或者在多個不同的分詞序列中選擇正確的分詞序列。當然,對分詞結果的修正或選擇不屬於本方案的重點,本實施例對此不作過多介紹。

204、識別主觀標點句中的情感詞。

依次將分詞序列中的詞語與情感詞典進行對照,判斷其是否為情感詞。

在完成情感詞的識別之後,就可以查找搭配詞了。為提高搭配詞與情感詞關聯的準確性,本實施例進一步細化了搭配詞查找範圍的粒度,著眼於主觀標點句進行搭配詞查找。同時,考慮到主觀標點句之間、主觀句之間可能存在能夠影響情感詞的情感方向或程度的連接副詞(例如表遞進、轉折、因果等關係的副詞),為了對主觀句中的情感意圖進行最大程度的還原,本實施例後續還會從主觀標點句之間和主觀句之間兩個層次,進行搭配詞的查找。

首先執行步驟205,查找主觀標點句內的搭配詞。

205、在主觀標點句中,查找對主觀標點句中的情感詞做出傾向性貢獻的搭配詞。

本步驟中的搭配詞是指與情感詞位於同一主觀標點句內的搭配詞。所謂做出傾向性貢獻是指能夠對情感詞的情感方向或情感程度產生影響。例如,「不喜歡」中的「不」屬於左右情感方向的否定副詞;「非常喜歡」中的「非常」屬於決定情感程度的程度副詞。

在查找搭配詞時,首先從主觀標點句對應的分詞序列中提取可能與情感詞組合使用的所有詞語,並將這些詞語分別與情感詞進行組合,獲得多個詞語組合。然後通過預定的算法從多個詞語組合中選擇出作為分析規則的情感詞與搭配詞的詞語組合。例如,對於分詞序列「我很喜歡這本書」而言,與情感詞「喜歡」有關的詞語組合包括「我喜歡」、「喜歡這本書」、 「很喜歡」、「我很喜歡」、「很喜歡這本書」、「我喜歡書」等。

實際應用中,可以使用bigram算法獲取上述所指的詞語組合。bigram算法用於識別兩個相鄰的詞語組合,這種詞語組合是由兩個詞語組成的,並且這兩個詞語在分詞序列中必須相鄰,且先後順序不變。考慮到實際應用中詞語組合中的詞語數量可能多於兩個「例如「喜歡這本書」」,為避免bigram算法對詞語組合數量的限制,還可以替代使用N-gram算法獲取詞語組合。N-gram算法不對詞語組合中的詞語數量進行限制,因此能夠涵蓋更多的詞語組合情況。但是N-gram算法也存在弊端,即N-gram算法同樣要求多個詞語在分詞序列中必須相鄰,且先後順序不變,這就導致上述示例中諸如「我喜歡書」這樣的詞語組合無法被獲取到。為解決此問題,還可以進一步考慮採用Skip-gram算法對N-gram算法進行替代。Skip-gram算法不對詞語組合中的詞語數量進行限制,同時也不限定詞語之間的位置關係和先後順序,因此能夠最大程度獲得所有的詞語組合。

在獲得多個詞語組合後,可以通過詞熵或詞語基頻規則從中篩選出有用的詞語組合,作為情感傾向性分析規則使用,即篩選出包含副詞並且副詞對情感詞產生貢獻的詞語組合。在上述示例中,「很喜歡」、「我很喜歡」、「很喜歡這本書」等詞語組合可以用作情感傾向性分析規則。

206、在主觀句中,查找對主觀標點句中的情感詞做出傾向性貢獻、並且位於相鄰的主觀標點句中的搭配詞。

在查找到同一個主觀標點句中的情感詞搭配詞組合之後,執行步驟206,進一步查找主觀標點句之間的情感詞搭配詞組合,即情感詞位於一個主觀標點句中、而搭配詞位於另一個相鄰主觀標點句中的情況。下面以示例的形式對執行步驟206的必要性進行簡單說明。

主觀句「我喜歡這本書(a),但是……(b)」是由兩個主觀標點句組成,其中,句(a)中包含情感詞「喜歡」,句(b)中包含轉折副詞「但是」。如果僅著眼於句(a)判斷情感傾向性,則忽視了句(b)中「但是」對「喜歡」的轉折修飾作用,容易對主觀句真實的情感傾向性判斷錯誤。因此,除了對主觀標點句內的搭配詞外,還需要進一步查找相鄰主觀標點句中的搭配詞。

與步驟205類似的,在查找相鄰主觀標點句中的搭配詞時,同樣先通過Skip-gram算法獲得詞語組合,然後基於詞熵或詞語基頻規則篩選有用的詞語組合。但是與步驟205不同的是,本步驟中生成詞語組合的範圍是主觀句內,即考慮了相鄰主觀標點句的情況。在上述示例中,通過步驟206獲得的詞語組合為「喜歡但是」。

207、查找對主觀句中的情感詞做出傾向性貢獻、並且位於相鄰的主觀句中的搭配詞。

考慮到相鄰主觀句之間也有可能存在諸如「但是」、「因此」等副詞,因此可以進一步執行步驟207,查找情感詞位於一個主觀句中、而搭配詞位於相鄰主觀句中的詞語組合。

步驟207的實現方式與步驟206的實現方式相同,區別在於詞語組合的查找範圍由相鄰主觀標點句之間擴大到相鄰主觀句之間,本實施例不再對步驟207的實現方式進行重複性說明。

需要說明的是,對步驟205至步驟207執行順序的限定僅為便於說明,實際應用中,可以任意排列三個步驟的執行順序,或者同時執行步驟205至步驟207。

208、將情感詞與搭配詞的組合,結合主觀句的標註語料,生成情感傾向性分析規則。

通過步驟205至步驟207的執行,分別獲得主觀標點句內的詞語搭配組合、相鄰主觀標點句之間的詞語搭配組合以及相鄰主觀句之間的詞語搭配組合。然後分別結合三者各自的對應的標註語料,獲得不同類型的情感傾向性分析規則。具體的:

將主觀標點句中的情感詞與搭配詞的組合,結合主觀標點句的標註語料,生成標點句分析規則。

將主觀標點句中的情感詞與同一主觀句中相鄰主觀標點句中的搭配詞的組合,結合相鄰的兩個主觀標點句的標註語料,生成主觀句分析規則。該標註語料可以是相鄰主觀標點句中任一主觀標點句對應的標註語料,也可以是兩個相鄰主觀標點句各自對應的標準語料的結合。

將主觀句中的情感詞與相鄰主觀句中的搭配詞的組合,結合相鄰的兩 個主觀句的標註語料,生成句間分析規則。該標註語料可以是相鄰主觀句中任一主觀句對應的標註語料,也可以是兩個相鄰主觀句各自對應的標準語料的結合。

209、通過情感傾向性分析規則對目標文本中的句子進行規則匹配,獲得目標文本的情感傾向性結果。

在進行規則匹配時,需要將目標文本拆分成標點句和自然句。以標點句對應上述標點句分析規則進行匹配,以自然句對應上述主觀句分析規則或句間分析規則進行匹配,獲得多個分析結果。然後將多個分析結果進行匯總,獲得整個目標文本對應的情感傾向性分析結果。

進一步的,作為對圖1或圖2所示方法的實現,本發明實施例還提供了一種情感傾向性分析的裝置。本裝置實施例與前述方法實施例對應,能夠實現前述方法實施例中的全部內容。為便於閱讀,本裝置實施例僅對前述方法實施例中的內容進行概要性描述,不對方法實施例中的細節內容進行逐一贅述。如圖3所示,該裝置包括:識別單元31、查找單元32、生成單元33以及匹配單元34。其中,

識別單元31,用於識別學習文本中的主觀句,學習文本中的句子對應有用於記錄情感傾向性的標註語料;

識別單元31還用於識別主觀句中的情感詞;

查找單元32,用於在主觀句中查找對情感詞做出傾向性貢獻的搭配詞;

生成單元33,用於將情感詞與搭配詞的組合,結合主觀句的標註語料,生成情感傾向性分析規則;

匹配單元34,用於通過情感傾向性分析規則對目標文本中的句子進行規則匹配,獲得目標文本的情感傾向性結果。

進一步的,如圖4所示,該裝置進一步包括:

拆分單元35,用於在識別主觀句中的情感詞之前,根據標點符號將主觀句拆分為主觀標點句;

識別單元31用於識別主觀標點句中的情感詞。

進一步的,如圖4所示,查找單元32包括:

第一查找模塊321,用於在主觀標點句中,查找對主觀標點句中的情感 詞做出傾向性貢獻的搭配詞;

第二查找模塊322,用於在主觀句中,查找對主觀標點句中的情感詞做出傾向性貢獻、並且位於相鄰的主觀標點句中的搭配詞。

進一步的,如圖4所示,查找單元32進一步包括:

第三查找模塊323,用於查找對主觀句中的情感詞做出傾向性貢獻、並且位於相鄰的主觀句中的搭配詞。

進一步的,如圖4所示,生成單元33,包括:

第一生成模塊331,用於將主觀標點句中的情感詞與搭配詞的組合,結合主觀標點句的標註語料,生成標點句分析規則;

第二生成模塊332,用於將主觀標點句中的情感詞與同一主觀句中相鄰主觀標點句中的搭配詞的組合,結合相鄰的兩個主觀標點句的標註語料,生成主觀句分析規則;

第三生成模塊333,用於將主觀句中的情感詞與相鄰主觀句中的搭配詞的組合,結合相鄰的兩個主觀句的標註語料,生成句間分析規則。

本實施例提供的情感傾向性分析的裝置,能夠從學習文本中識別出表達態度、觀點或立場的主觀句,然後識別主觀句中帶有主觀色彩的情感詞,在主觀句中查找諸如程度副詞、否定副詞等對情感詞的情感傾向做出貢獻的搭配詞,並將情感詞與搭配詞的組合結合主觀句的標註語料,生成針對語句的情感傾向性分析規則,最後通過情感傾向性分析規則對目標文本中的句子進行規則匹配,獲得目標文本的情感傾向性結果。與現有技術相比,本實施例能夠對主觀句內的情感詞和搭配詞進行組合,而非將整篇文本中的情感詞和搭配詞進行組合。由於句子內的情感詞和搭配詞之間的關聯程度較強,或者說基於一般的語言習慣而言,一個句子中的搭配詞通常用於修飾該句中的情感詞,因此機器學習獲得的情感傾向性分析規則更為準確,使用這種規則進行情感傾向性分析可以大大提高分析結果的準確度。

本實施例中的情感傾向性分析的裝置包括處理器和存儲器,上述識別單元31、查找單元32、生成單元33以及匹配單元34等均作為程序單元存儲在存儲器中,由處理器執行存儲在存儲器中的上述程序單元來實現相應的功能。

處理器中包含內核,由內核去存儲器中調取相應的程序單元。內核可以設置一個或以上,通過調整內核參數來提高情感傾向性分析規則的準確性,並由此提高情感傾向性分析的準確性。

存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或快閃記憶體(flash RAM),存儲器包括至少一個存儲晶片。

本申請還提供了一種電腦程式產品,當在數據處理設備上執行時,適於執行初始化有如下方法步驟的程序代碼:識別學習文本中的主觀句,學習文本中的句子對應有用於記錄情感傾向性的標註語料;識別主觀句中的情感詞;在主觀句中查找對情感詞做出傾向性貢獻的搭配詞;

將情感詞與搭配詞的組合,結合主觀句的標註語料,生成情感傾向性分析規則;通過情感傾向性分析規則對目標文本中的句子進行規則匹配,獲得目標文本的情感傾向性結果。

本領域內的技術人員應明白,本申請的實施例可提供為方法、系統、或電腦程式產品。因此,本申請可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本申請可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限於磁碟存儲器、CD-ROM、光學存儲器等)上實施的電腦程式產品的形式。

本申請是參照根據本申請實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些電腦程式指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存 儲器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些電腦程式指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網絡接口和內存。

存儲器可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或快閃記憶體(flash RAM)。存儲器是計算機可讀介質的示例。

計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限於相變內存(PRAM)、靜態隨機存取存儲器(SRAM)、動態隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內存技術、只讀光碟只讀存儲器(CD-ROM)、數字多功能光碟(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁碟存儲或其他磁性存儲設備或任何其他非傳輸介質,可用於存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括暫存電腦可讀媒體(transitory media),如調製的數據信號和載波。

以上僅為本申請的實施例而已,並不用於限制本申請。對於本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀