新四季網

一種屬性情感詞向量的深度學習方法與流程

2023-05-30 03:29:06

本發明涉及到網際網路產品評論的情感分析,涉及採用深度學習技術獲得產品屬性情感詞向量表達,涉及將屬性和情感信息融入到傳統語義詞向量表達的方法。



背景技術:

隨著網際網路和電子商務的快速發展,網上購物對人們消費模式產生巨大的影響。各種電商平臺,如淘寶、京東、一號店等涵蓋了成千上萬種的產品。在沒有接觸實際產品的情況下選購產品,用戶的產品評論信息具有很高的參考價值,但對成千上萬條評論進行逐條瀏覽或者通過人工規則進行歸納都很費時費力,應用自然語言處理和機器學習的方法對產品評論進行深度自動挖掘,呈現簡明直觀的「大家印象」在很大程度上可以改善和提升用戶體驗。正是因為產品評論挖掘有著強大的現實應用意義和重要的科學研究價值,情感分析(sentimentanalysis,sa)成為越來越多的研究者和工業界的興趣焦點。傳統的產品情感分析通常採用分步法:(1)第一步是屬性抽取,即採用傳統自然語言處理技術,從用戶評論中抽取產品(服飾,數碼,食品等)的屬性描述(質量,顏色,解析度,口感等)片段;(2)第二步是情感分析,即根據已構建好的情感詞典和由專家人工設計的自然語言特徵,採用機器學習算法構建情感分類(正面或負面)的模型系統進行預測。這種分步的策略面臨三個主要問題:(1)產品屬性的數量須提前確定,然而產品類型成千上萬,屬性描述更是千變萬化,因而屬性抽取系統的遷移性較差;(2)情感詞典須預先人工設定,然而部分情感詞的極性是可變的,固定情感詞典無法正確判斷基於不同屬性上下文的情感詞的正確極性;(3)傳統情感分析中只有正面和負面情感極性,缺乏針對產品屬性的細粒度情感分析。此外,分步法中產品屬性抽取產生的誤差,也會傳播併疊加到後續情感分析中。

表1列出從天貓電商平臺上採集到的手機產品的用戶評論原始數據,其中用戶評論中的黑體下劃線文本與「大家印象」標籤相對應。例如第一條用戶評論中「雙攝像頭拍照效果確實不錯」的內容與「像素很好」這個「大家印象」標籤對應起來。

表1天貓電商平臺上關於手機產品的用戶評論與對應「大家印象」標籤的示例表



技術實現要素:

本發明的目的是針對現有技術的不足而提出的一種自動學習產品的屬性情感詞向量的方法,該方法採用深度學習技術,將產品的屬性和情感信息融入到詞向量特徵的自動學習中,獲得屬性情感詞向量(aspect-basedsentimentwordvector,aswv)特徵。該方法不需要採用傳統自然語言處理技術進行產品屬性詞的抽取,避免了屬性抽取的誤差傳播,也克服了情感詞只能具有單一情感極性的束縛。

實現本發明目的的具體技術方案是:

一種屬性情感詞向量的深度學習方法,該方法包括如下步驟:

步驟一:將電子商務網站產品評論的「大家印象」標籤作為屬性情感標籤自動標註產品評論數據集,初始化詞向量;

步驟二:提出深度學習模型aswv將評論中蘊含的屬性情感信息融入到詞向量的訓練過程,獲得屬性情感詞向量;

步驟三:如果未滿足迭代停止條件,則將屬性情感誤差反向傳播更新屬性情感詞向量;

步驟四:輸出屬性情感詞向量,構建細粒度的產品評論情感分析系統。

所述步驟一中自動標註產品評論數據集,初始化詞向量,包括如下步驟:

步驟a1:將淘寶和京東電子商務網站產品評論的「大家印象」標籤作為屬性情感標籤,自動標註產品評論數據集;

步驟a2:在自動標註數據集上採用谷歌word2vec框架中的skip-gram模型或者cbow模型訓練得到預訓練的傳統語義詞向量字典;

步驟a3:通過查表,將產品評論句子中的詞初始化為詞向量。

所述步驟二中提出深度學習模型aswv將評論中蘊含的屬性情感信息融入到詞向量的訓練過程中,包括如下步驟:

步驟b1:採用傳統神經網絡語言模型(如word2vec框架中的skip-gram模型或cbow模型)訓練蘊含語義信息的詞向量表示;

步驟b2:採用深度學習模型(如cnn,rnn或lstm模型)學習蘊含屬性情感信息的詞向量表示;

步驟b3:融合步驟b1學習的語義信息與步驟b2學習的屬性情感信息,訓練深度學習模型aswv,獲得屬性情感詞向量。

所述步驟三中反向傳播更新屬性情感詞向量,包括如下步驟:

步驟c1:檢查迭代停止條件,如果滿足條件,跳到本方法的步驟四,否則將屬性情感誤差後向傳播更新屬性情感詞向量。

所述步驟四中輸出屬性情感詞向量,構建細粒度的產品評論情感分析系統,包括如下步驟:

步驟d1:輸出屬性情感詞向量;

步驟d2:將得到的屬性情感詞向量直接作為深度神經網絡模型的輸入層構建端到端的產品評論情感分析系統;

步驟d3:將得到的屬性情感詞向量結合傳統自然語言處理特徵,採用機器學習算法構建產品評論的情感極性分類和情感強度預測系統。

本發明與現有技術不同之處:⑴、本方法不需要傳統自然語言處理技術進行產品屬性詞的抽取,從而避免了屬性詞抽取誤差的傳播和疊加。⑵、本方法不需要預先設定固定的情感詞典,同時克服了情感詞只能具有單一情感極性的束縛。⑶、本方法採用深度學習技術,將產品的屬性和情感信息融入到詞向量的自動學習中獲得屬性情感詞向量特徵,不需要傳統自然語言處理技術中人工設計特徵的方法,實現針對產品屬性的細粒度的情感極性和情感強度分析。⑷、本方法利用產品評論的「大家印象」標籤作為訓練數據集的屬性情感標籤,放鬆對標註數據的要求,降低了人工成本,提高了系統的遷移性。

本發明的有益效果包括:本發明提出採用深度學習技術將產品的屬性情感信息融入到詞向量特徵的自動學習中,從而自動獲得產品的屬性情感詞向量特徵。該方法不需要傳統自然語言處理進行人工設計特徵,避免了傳統自然語言處理方法的分步策略所造成的誤差傳播和疊加,也克服了情感詞只能具有單一情感極性的束縛。該方法獲得的屬性情感詞向量是個低維度連續數值型的向量,可以與傳統自然語言處理特徵相結合,採用機器學習算法構建產品評論的情感極性分類和情感強度預測系統,也可以作為深度神經網絡模型的輸入層構建端到端的產品評論情感分析系統。

附圖說明

圖1為本發明的流程圖。

具體實施方式

結合以下具體實施例和附圖,對本發明作進一步的詳細說明。實施本發明的過程、條件、實驗方法等,除以下專門提及的內容之外,均為本領域的普遍知識和公知常識,本發明沒有特別限制內容。

本發明中所涉及的專業術語的定義如下:

詞向量(wordvector):使用低維連續性數值的向量表示文本中的每個詞。

語言模型(languagemodel):輸入一個長度為n的字符串序列s=(wd1,wd2,wd3,…wdn),每個wd是一個詞(word),計算字符串序列s是自然語言的概率p(s),即概率p(wd1,wd2,wd3,…wdn)。常見的神經網絡語言模型有collobret提出的c&w模型,和谷歌提出的word2vec框架,採用這些神經網絡模型進行語言模型訓練,同時獲得文本中每個詞的詞向量表達。

深度學習模型(deeplearningmodel):深度學習模型分為三個部分,即輸入層,隱藏層,輸出層。其中,隱藏層可以擴展成為多層結構,相鄰兩層之間的神經元相互連接,層內部神經元沒有連接。常用的深度學習模型有卷積神經網絡模型(convolutionalneuralnetwork,cnn)、循環神經網絡模型(recurrentneuralnetwork,rnn)、長短期記憶神經網絡模型(long-shorttermmemory,lstm)等。

屬性情感(aspect-basedsentiment):屬性是評論類文本的一部分,用來表徵產品固有的性質,例如在評論文本「手機音質很贊」中,「手機」是產品,「音質」為產品的屬性,「很贊」是對該屬性的情感表達。

訓練語言模型獲得的詞向量特徵表達蘊含了語義和語法信息,但缺乏屬性和情感信息,因此,為了將產品的屬性和情感信息融入到詞向量特徵的自動學習中,獲得屬性情感詞向量特徵,本發明的第一步驟利用淘寶和京東電子商務網站產品評論的「大家印象」標籤作為屬性情感標籤去自動標註產品評論數據集,雖然自動標註的質量不如人工標註高,存在噪音,但大大降低了人工成本,可以低成本獲得足夠大量的標註訓練數據樣本。在該數據集上採用谷歌word2vec框架中的skip-gram模型或者cbow模型訓練語言模型獲得預訓練的詞向量字典,通過查表,將產品評論句子中的詞初始化為詞向量,初始化過程描述如下:

步驟a1:使用產品屬性情感標籤l={l1,l2,…,lk}自動標註產品評論數據集中所有的句子s={s1,s2,…,sn},每個句子為字符串序列si={wd1,wd2,…,wdn};

步驟a2:使用skip-gram模型或cbow模型在產品評論數據集上訓練語言模型獲得預訓練的詞向量字典;

步驟a3:通過查表初始化詞向量得到si={w1,w2,…,wn}。

第一步驟中通過語言模型訓練獲得的詞向量只包含語義和語法信息,沒有蘊含屬性和情感信息。本發明的第二步驟提出融入屬性情感信息的詞向量學習模型aswv,該模型採用本發明第一步驟中獲得的預訓練的詞向量作為輸入層,將產品評論的「大家印象」標籤當做屬性情感標籤,通過神經網絡模型將評論中蘊含的屬性情感信息融入到詞向量的訓練過程中,生成屬性情感詞向量(aspect-basedsentimentwordvector,aswv),其中語義信息採用神經網絡語言模型訓練得到(如word2vec框架中的skip-gram模型或cbow模型),屬性情感信息採用深度學習模型(如cnn,rnn或lstm模型)學習得到。該詞向量學習模型aswv的訓練過程描述如下:

輸入:產品評論句子詞向量si={w1,w2,…,wn},產品屬性情感類標li,語言學習模型和深度學習模型及相關參數

輸出:屬性情感詞向量

過程:

步驟b1:將目標詞(word)作為語言模型的輸入,訓練得到蘊含語義信息的詞向量表示

(1)以word2vec框架中的skip-gram模型為例,對於序列si,該模型通過使用中心詞wij預測上下文c,從而計算si是自然語言的最大後驗概率p(si),計算公式如下:

其中p(c|wij;θsem)表示上下文c在中心詞為wij,參數為θsem的條件下出現的概率。

(2)使用層次softmax算法或者負抽樣算法訓練模型參數,訓練語言模型的損失函數定義為:

其中,n表示數據集的樣本數量,θsem為訓練語言模型的參數。

步驟b2:將帶有屬性情感標籤的目標詞(word)作為深度學習模型的輸入,學習蘊含屬性情感信息的詞向量表示。以cnn模型為例,訓練過程描述如下:

(1)輸入句子詞向量si={w1,w2,…,wn};

(2)卷積層將輸入的詞向量進行卷積操作,計算公式如下:

cj=f(utwj-h+1:j+b)(3)

其中,f為非線性函數,如雙曲正切激活函數(hyperbolictangent)、s型曲線激活函數(sigmoid)等,b為偏置項,u表示窗口大小為h的卷積濾波器,w(j-h+1:j)表示文本si中的第j-h+1個詞到第j個詞(共h個詞)的詞向量。濾波器數量為m,在大小為h的滑動窗口下,得到m個特徵值序列c={c1,c2,…,cm},其中每個特徵值序列ci=[c1,c2,…,cn-h+1],ci∈rn-h+1,i=[1,…,m]。

(3)為了提取重要特徵和控制輸出的一致性,池化層將這m個特徵值序列c進行池化操作得到一個m維的特徵向量

(4)然後,softmax層將這個m維特徵向量z進行概率預測,計算公式為:

其中,θsen是softmax層中用於預測類標的k*m的矩陣,θsenl和θsenk分別表示θsen矩陣中對應l類和k類的參數向量。

預測文本s1屬於各個屬性情感標籤的概率分布,對應概率值最高的標籤類標即為預測類標。屬性情感信息的訓練學習是個有監督的學習過程,訓練的損失函數為:

其中,l∈rk,使用one-of-k編碼,k為樣本類標數,θsenj表示θsen矩陣中對應j類的參數向量。

步驟b3:為了將步驟b1學習的語義信息和步驟b2學習的屬性情感信息進行融合,該深度學習模型aswv的損失函數計算如下:

本發明的第三步驟是對第二步驟中的屬性情感詞向量模型進行訓練和學習,為了對步驟b3中的損失函數(6)求導,將詞向量的語義和屬性情感誤差進行反向傳播(backpropagation),在更新該模型參數的同時,也更新輸入層的詞向量。直到loss(θsem;θsen)小於閾值θt,則停止更新,獲得訓練好的屬性情感詞向量。

最終,本發明的第四步驟輸出訓練好的屬性情感詞向量,從而自動獲得產品的屬性情感詞向量特徵,該特徵可以與傳統自然語言處理特徵相結合,採用機器學習算法構建產品評論的情感極性和強度分析系統,也可以作為深度神經網絡模型的輸入層構建端到端的產品評論情感分析系統。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀