新四季網

網購評論的分析處理方法與流程

2023-07-09 03:19:31

本發明涉及網絡技術領域,具體地說,是涉及一種網購評論的分析處理方法。

背景技術:
隨著信息技術的進一步發展,網際網路已經成為當今社會人們獲取信息的重要渠道。網際網路快捷、方便的特性,以及強大的交互能力,為人們交流思想、闡明觀點、發表意見提供了新的平臺。由於受到網際網路迅猛發展的影響,一個嶄新的領域應運而生----電子商務。電子商務是在全球各地廣泛的商業貿易活動中,在網際網路開放的網絡環境下,基於瀏覽器或伺服器應用方式,買賣雙方不謀面地進行各種商貿活動,實現消費者的網上購物、商戶之間的網上交易和在線電子支付以及各種商務活動、交易活動、金融活動和相關的綜合服務活動的一種新型的商業運營模式。正因為電子商務是不謀面的商貿活動,所交易的商品並不能直觀地展現在購買者面前,只能以文字描述或圖片的形式展現,所以當人們通過網絡購物後,會對所購買的商品做出評價,從而反映出商品的質量好壞、商品特徵或實用性等信息,這樣的評價對其他的購買者有著重要的參考作用。在現有技術中,為了方便購物者獲得商品的客觀的評價信息,往往採用特定的評論分析方法,但是,當前的評論分析方法只是僅僅針對評論的自然語言本身進行處理。舉例來說,某些商品的評論並不能突出地反應該商品的特性信息,如「暫時還沒有發現任何缺點」,這樣的評論不能明顯的看出商品的好壞、實用性等信息,所以,單從評論的自然語言本身進行分析處理,並不能篩選出對用戶最有參考價值的商品評論觀點。因此,如何篩選出對用戶最有參考價值的商品評論觀點,便成為亟待解決的技術問題。

技術實現要素:
本發明所要解決的技術問題是提供一種網購評論的分析處理方法,以解決現有技術中評論分析方法對評論的自然語言本身進行分析處理,無法達到篩選出對用戶最有參考價值的商品評論觀點。為解決上述技術問題,本發明提供了一種網購評論的分析處理方法,其特徵在於,包括:從某商品的網購評論中提取出的觀點詞和特徵詞,將所述觀點詞和特徵詞組成特徵觀點對;根據提取出的所述觀點詞確定所述觀點詞的情感傾向;根據所述情感傾向和所述特徵觀點對,計算出每個特徵在該商品上的情感分布函數v,以及每個特徵在該商品所屬小類上的情感分布函數vC;根據v和vC的偏差得到該商品上不同特徵詞的分數,將分數值最高和/或最低的多個特徵詞作為該商品的優缺點評論。優選地,其中,所述從某商品的網購評論中提取出的觀點詞和特徵詞,進一步為:對某商品的網購評論中以形容詞為主出現的詞彙的比例和頻率進行統計,將統計值最高的一個或多個詞彙作為觀點詞,以及通過設置的條件從某商品的網購評論中選取出以名詞為主的詞彙進行統計,將統計值最高的一個或多個詞彙作為特徵詞。優選地,其中,所述通過設置的條件從某商品的網購評論中選取出以名詞為主的詞彙進行統計,將統計值最高的一個或多個詞彙作為特徵詞,進一步為:從某商品的網購評論中的選取出名詞或詞組為主的詞彙,計算每個詞彙在該商品所在小類的支持度值,以及該小類所屬大類的支持度值;通過設置的條件將符合條件的名詞或詞組為主的詞彙作為特徵詞。優選地,其中,所述通過設置的條件將符合條件的名詞或詞組為主的詞彙作為特徵詞,進一步包括:通過設置的最低小類的支持度的閾值、最低大類的支持度的閾值、以及停用詞表,判斷選取出的名詞或詞組為主的詞彙在該商品所在小類的支持度值是否大於最低小類的支持度的閾值,或者,判斷選取出的名詞或詞組為主的詞彙在該商品所在小類所屬大類的支持度值是否大於最低大類的支持度的閾值,當上述條件之一滿足時,判斷該名詞或詞組為主的詞彙是否出現在所述停用詞表中,如沒有出現,則將該名詞或詞組為主的詞彙作為特徵詞。優選地,其中,所述根據提取出的所述觀點詞確定所述觀點詞的情感傾向,進一步為:根據設置所述觀點詞的情感傾向向量,對提取出的所述觀點詞確定其情感傾向值,如該觀點詞的情感傾向值高於設置的判斷方向值,且通過否定詞表中的否定詞並沒有出現在該觀點詞前/後時,則該觀點詞的情感傾向為正向;如低於設置的的判斷方向值,或通過否定詞表中的否定詞判斷出在該觀點詞前/後出現時,則該觀點詞的情感傾向為負向。優選地,其中,所述根據v和vC的偏差得到該商品上不同特徵詞的分數,進一步為:根據v和vC的偏差通過1-cos(v,vC)的方式得到該商品上不同特徵詞的分數。優選地,其中,進一步為:根據v和vC的偏差通過(1-cos(v,vC))*log2(pos+neu+neg+1)的方式得到該商品上不同特徵詞的分數。與現有技術相比,本發明所述的一種網購評論的分析處理方法,達到了如下效果:1)本發明採用評論的平均值偏差理論,實現有效篩選出對用戶最有參考價值的商品評論觀點。2)本發明可直接篩選出用戶最關心的商品有別於其他同類商品的賣點(優點)和缺點,極大增加了參考信息的價值。附圖說明此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用於解釋本發明,並不構成對本發明的不當限定。在附圖中:圖1為本發明實施例所述的一種網購評論的分析處理方法的流程示意框圖。具體實施方式如在說明書及權利要求當中使用了某些詞彙來指稱特定組件。本領域技術人員應可理解,硬體製造商可能會用不同名詞來稱呼同一個組件。本說明書及權利要求並不以名稱的差異來作為區分組件的方式,而是以組件在功能上的差異來作為區分的準則。如在通篇說明書及權利要求當中所提及的「包含」為一開放式用語,故應解釋成「包含但不限定於」。「大致」是指在可接受的誤差範圍內,本領域技術人員能夠在一定誤差範圍內解決所述技術問題,基本達到所述技術效果。此外,「耦接」一詞在此包含任何直接及間接的電性耦接手段。因此,若文中描述一第一裝置耦接於一第二裝置,則代表所述第一裝置可直接電性耦接於所述第二裝置,或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書後續描述為實施本發明的較佳實施方式,然所述描述乃以說明本發明的一般原則為目的,並非用以限定本發明的範圍。本發明的保護範圍當視所附權利要求所界定者為準。以下結合附圖對本發明作進一步詳細說明,但不作為對本發明的限定。如圖1所示,是本發明實施例所述的一種網購評論的分析處理方法流程,包括:步驟101,從某商品的網購評論中提取出的觀點詞和特徵詞,將所述觀點詞和特徵詞組成特徵觀點對;步驟102,根據提取出的所述觀點詞確定所述觀點詞的情感傾向;步驟103,根據所述情感傾向和所述特徵觀點對,計算出每個特徵在該商品上的情感分布函數v(v=;其中pos、neu、neg、分別表示該特徵在好評、中評、差評中被提及次數的期望值),以及每個特徵在該商品所屬小類上的情感分布函數vC(vC=);步驟104,根據v和vC的偏差(本發明實際上採用的是平均值偏差理論來操作)得到該商品上不同特徵詞的分數(該特徵詞的分數也就是屬性分數,後續不再贅述),將分數值最高和/或最低的多個特徵詞作為該商品的優缺點評論。其中,進一步地,對於步驟101來說,其中從某商品的網購評論中提取出的觀點詞和特徵詞,這一過程具體為:對某商品的網購評論中以形容詞為主出現的詞彙的比例和頻率進行統計,將統計值最高的一個或多個詞彙作為觀點詞,以及通過設置的條件從某商品的網購評論中選取出以名詞為主的詞彙進行統計,將統計值最高的一個或多個詞彙作為特徵詞。其中,對某商品的網購評論中以形容詞為主出現的詞彙的比例和頻率進行統計,將統計值最高的一個或多個詞彙作為觀點詞。這一過程中對以形容詞為主出現的詞彙的比例和頻率進行統計,在本實施例中主要是統計正面評論中出現的比例和頻率,通過設定的規則(所謂設定的規則主要是通過一些篩選工具篩選出表達意義明確的詞彙作為後續用到的觀點詞)判斷出以形容詞為主出現的詞彙,將統計值最高的一個或多個詞彙作為觀點詞。其中,通過設置的條件從某商品的網購評論中選取出以名詞為主的詞彙進行統計,將統計值最高的一個或多個詞彙作為特徵詞。這一過程中在本實施例中具體為:1)從某商品的網購評論中的選取出名詞或詞組為主的詞彙,計算每個詞彙在該商品所在小類的支持度值(即有百分之多少的評論提到了這個詞),以及該小類所屬大類的支持度值;2)通過設置的條件(即最低小類的支持度的閾值、最低大類的支持度的閾值、以及停用詞表)將符合條件的名詞或詞組為主的詞彙作為特徵詞;(即通過設置的最低小類的支持度的閾值、最低大類的支持度的閾值、以及停用詞表,判斷選取出的名詞或詞組為主的詞彙在該商品所在小類的支持度值是否大於最低小類的支持度的閾值,或者,判斷選取出的名詞或詞組為主的詞彙在該商品所在小類所屬大類的支持度值是否大於最低大類的支持度的閾值,當上述條件之一滿足時,判斷該名詞或詞組為主的詞彙是否出現在所述停用詞表中,如沒有出現,則將該名詞或詞組為主的詞彙作為特徵詞)。這裡所述的停用詞表,為全局手工維護的一個停用詞表。這個停用詞表雖然是人工維護的,本實施例主要是挑出現頻率高的詞不能體現特徵的詞或詞組作為停用詞放入停用詞表,其實量並不大(目前本實施例只有100多個,本領域技術人員經過統計在全部網購商品上,停用詞不會超過500個左右)。對於上述「選取出的名詞或詞組為主的詞彙在該商品所在小類的支持度值是否大於最低小類的支持度的閾值,或者,選取出的名詞或詞組為主的詞彙在該商品所在小類所屬大類的支持度值是否大於最低大類的支持度的閾值」之所以採用或的條件,是為了每個小類既可以穩定地從大類中繼承一些常用屬性,又可以具有一些自己具有的特殊屬性。進一步地,對於步驟101來說,其中,將所述觀點詞和特徵詞組成特徵觀點對;這一過程具體為:根據所述特徵詞所在位置,查找其之後或之前的詞或詞組中是否提及所述觀點詞,如提及則將所述觀點詞與所述特徵詞合併後組成特徵觀點對。進一步地,對於步驟102,根據提取出的所述觀點詞確定所述觀點詞的情感傾向;這一過程具體為:1)設置所述觀點詞的情感傾向向量(A)為A=/,其中,#pos代表好評數量,#neu代表中評數量,#neg代表差評數量;2)根據設置的所述觀點詞的情感傾向向量,對提取出的所述觀點詞確定其情感傾向值,如該觀點詞的情感傾向值高於設置的判斷方向值,且通過否定詞表中的否定詞並沒有出現在該觀點詞前/後時,則該觀點詞的情感傾向為正向;如低於設置的的判斷方向值,或通過否定詞表中的否定詞判斷出在該觀點詞前/後出現時,則該觀點詞的情感傾向為負向;(本實施例中0.5以上是正向,以下是負向。但實際當中,由於數據中負向評論質量比較差(許多評論例如都是:「暫時還沒有發現任何缺點」),因此這個閾值(設置的判斷方向值)要偏高一點,一般來說0.7以上是正向,以下是負向)。其中,所述否定詞表中的否定詞的初始設置,一般是通過先把所有觀點詞的前一個詞都收集出來,作為候選否定詞。對於每個候選否定詞,計算其平均否定強度,並按這個值排序。從平均否定強度比較高的否定詞中挑出作為否定詞表的否定詞。進一步地,對於步驟104來說,根據v和vC的偏差可以通過1-cos(v,vC)的方式得到該商品上不同特徵詞的分數,由於光用這個計算會導致結果傾向於選出現次數少的屬性。當然為了更準確的得到該商品上不同特徵詞的分數,一般採用(1-cos(v,vC))*log2(pos+neu+neg+1),這裡主要是希望選出現次數比較多的屬性(熱門屬性)。本發明實施例通過上述方法,可以直接從海量的商品評論中,輕鬆的摘取出任何一個商品的最突出的優點和缺點評論(例如:5個優點和3個缺點),從而獲得該商品的一個概觀認識,給網購用戶提供有價值的參考信息。與現有技術相比,本發明所述的一種網購評論的分析處理方法,達到了如下效果:1)本發明採用評論的平均值偏差理論,實現有效篩選出對用戶最有參考價值的商品評論觀點。2)本發明可直接篩選出用戶最關心的商品有別於其他同類商品的賣點(優點)和缺點,極大增加了參考信息的價值。上述說明示出並描述了本發明的若干優選實施例,但如前所述,應當理解本發明並非局限於本文所披露的形式,不應看作是對其他實施例的排除,而可用於各種其他組合、修改和環境,並能夠在本文所述發明構想範圍內,通過上述教導或相關領域的技術或知識進行改動。而本領域人員所進行的改動和變化不脫離本發明的精神和範圍,則都應在本發明所附權利要求的保護範圍內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀