一種數據分析方法及裝置與流程
2024-03-23 21:48:05 1

本發明涉及數據分析技術領域,尤其涉及一種數據分析方法及裝置。
背景技術:
對於服務型企業,尤其是網際網路企業來說,通過分析用戶的評論信息能夠及時掌握產品的不足以及了解用戶需求。根據用戶對產品的評論信息,尤其是用戶對產品的負面評論信息對產品進行改進和維護,是提升產品用戶體驗的最佳途徑。
在現有技術中,服務型企業普遍重視對用戶評論數據的分析,以便從中發現產品問題。常用的分析方法是:獲取用戶評論數據,對獲取的用戶評論數據進行文本挖掘,從中查找得到用戶對產品故障的評論信息。在用戶對產品故障的評論數據中,有用戶對產品故障的正面或中性評論數據,也有用戶對產品故障的負面評論數據。其中,對用戶對產品故障的負面評論數據進行分析,很容易得到對產品改進有益的信息;相反,對用戶的正面或中性評論數據進行分析,很難得到對產品改進有益的信息。而在現有技術中,並沒有區分用戶評論的屬性,對所有的用戶評論數據都進行分析,其分析效率較低。
技術實現要素:
基於上述現有技術的缺陷和不足,本發明提出一種數據分析方法及裝置,採用該方法及裝置,能夠辨別用戶評論數據是否為負面評論數據,從而使得對用戶的評論數據進行分析挖掘時,更具有針對性,提高了數據分析效率。
一種數據分析方法,包括:
獲取評論數據;
將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據;其中,所述報障詞典為設定數量的表徵產品故障的評論詞的集合;
如果所述評論數據是表徵產品故障的評論數據,則進一步對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據;
如果所述評論數據是負面評論數據,則存儲所述評論數據。
優選地,所述將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據,包括:
對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞;
分別將所述組成所述評論數據的各個分詞與報障詞典中的評論詞進行對比;
如果所述組成所述評論數據的各個分詞中的任意一個分詞,與所述報障詞典中的任意一個評論詞相同,則判斷所述評論數據是表徵產品故障的評論數據;
如果所述組成所述評論數據的各個分詞中的每一個分詞,均與所述報障詞典中的每一個評論詞不同,則判斷所述評論數據不是表徵產品故障的評論數據。
優選地,所述對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞,包括:
調用中文分詞工具包對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞。
優選地,所述對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據,包括:
調用設定的情感分析模型,對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據。
優選地,在獲取評論數據之後,在將所述評論數據與報障詞典中的數據進行對比,判斷所述評論數據是否是表徵產品故障的評論數據之前,該方法還包括:
對所述評論數據進行審核,判斷所述評論數據是否滿足設定的審核標準;
如果所述評論數據不滿足設定的審核標準,則將所述評論數據刪除。
一種數據分析裝置,包括:
數據獲取單元,用於獲取評論數據;
第一處理單元,用於將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據;其中,所述報障詞典為設定數量的表徵產品故障的評論詞的集合;
第二處理單元,用於在所述第一處理單元判斷所述評論數據是表徵產品故障的評論數據時,進一步對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據;
數據處理單元,用於在所述第二處理單元判斷所述評論數據是負面評論數據時,存儲所述評論數據。
優選地,所述第一處理單元,包括:
分詞處理單元,用於對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞;
判斷處理單元,用於分別將所述組成所述評論數據的各個分詞與報障詞典中的評論詞進行對比;
如果所述組成所述評論數據的各個分詞中的任意一個分詞,與所述報障詞典中的任意一個評論詞相同,則判斷所述評論數據是表徵產品故障的評論數據;
如果所述組成所述評論數據的各個分詞中的每一個分詞,均與所述報障詞典中的每一個評論詞不同,則判斷所述評論數據不是表徵產品故障的評論數據。
優選地,所述分詞處理單元對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞時,具體用於:
調用中文分詞工具包對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞。
優選地,所述第二處理單元對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據時,具體用於:
調用設定的情感分析模型,對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據。
優選地,該裝置還包括:
審核處理單元,用於對所述評論數據進行審核,判斷所述評論數據是否滿足設定的審核標準;
如果所述評論數據不滿足設定的審核標準,則將所述評論數據刪除。
本發明提出的數據分析方法,包括:獲取評論數據;將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據;其中,所述報障詞典為預先設置的,設定數量的表徵產品故障的評論詞的集合;如果所述評論數據是表徵產品故障的評論數據,則進一步對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據;如果所述評論數據是負面評論數據,則存儲所述評論數據。採用上述數據分析方法,能夠辨別用戶評論數據是否為負面評論數據,從而使得對用戶的評論數據進行分析挖掘時,更具有針對性,提高了數據分析效率。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。
圖1是本發明實施例提供的一種數據分析方法的流程示意圖;
圖2是本發明實施例提供的另一種數據分析方法的流程示意圖;
圖3是本發明實施例提供的一種訓練情感學習模型的流程示意圖;
圖4是本發明實施例提供的另一種數據分析方法的流程示意圖;
圖5是本發明實施例提供的一種數據分析裝置的結構示意圖;
圖6是本發明實施例提供的另一種數據分析裝置的結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
本發明實施例公開了一種數據分析方法,參見圖1所示,該方法包括:
s101、獲取評論數據;
具體的,本發明實施例優先從網際網路平臺內部的評論審核系統獲取評論數據。如果網際網路平臺沒有該系統,則直接從評論接收伺服器獲取評論數據,或者對接第三方社交平臺獲取評論數據。上述評論可以是用戶發送的任意內容的評論信息,具體可以是對於影視內容的評論信息,對於用戶言論的評論信息,或者對於設備的評論信息。例如:「表演到位」、「視頻太卡」、「說得沒錯」、「電腦播放流程」等評論信息。
s102、將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據;其中,所述報障詞典為設定數量的表徵產品故障的評論詞的集合;
具體的,上述報障詞典,實際上為預先構建的與產品故障有關的評論關鍵詞集合。在報障詞典中的評論關鍵詞,是針對某一產品來說,比較常見故障的評論關鍵詞。
例如,對於視頻播放軟體來說,按照本發明實施例技術方案,可以構建對應該視頻播放軟體的報障詞典,其中包含常見故障的評論關鍵詞:不同步|卡飛|網很慢|網太慢|都卡|卡的跟狗一樣|太卡|老是卡|網絡卡|又卡了|卡住了|卡了|視頻卡|卡掉了|網好卡|網速卡|卡一下|很卡|還卡|有點卡|好卡|真卡|那麼卡|又卡|這麼卡|網卡|卡到不行|卡了|為什麼卡|沒網絡|緩衝中|卡死|網速|都不能看|怎麼看不了|不能播放|沒聲音|為什麼錯誤|出錯|慢不想看|不能緩存|播放出錯|播放錯誤|音效差|播放失敗|網絡好慢|卡嗎|卡啊|卡的|卡成這樣|卡在了|不卡|就卡|卡卡卡|集不能看|卡呀|有卡了|卡尼瑪|卡頓|卡沒了|也卡|真尼瑪卡|卡翔|更卡|電腦卡|卡成狗|卡一下|卡爆|超級卡|一卡一卡|非常卡|能不卡嗎|那麼卡|卡毛線|網不好|卡啊啊啊|真幾把卡|好雞巴卡|別卡|卡的一筆|還卡了|卡噸|爛網|卡了一下|卡起了|卡到爆|老卡|老是卡|卡卡頓頓|各種卡|不要卡|卡你妹|你們卡不|卡屏|卡得|還是卡|彈幕卡|播放都出錯|網絡不好|版本問題|網絡異常|設備問題。
在本發明實施例技術方案中,獲取評論數據後,將評論數據與報障詞典中的評論關鍵詞進行對比,如果評論數據與報障詞典中的任意一個評論關鍵詞相同,則可以認定該評論數據是表徵產品故障的評論數據;如果在評論詞典中,沒有與該評論數據相同的評論關鍵詞,則可以認定該評論數據不是表徵產品故障的評論數據。
如果所述評論數據是表徵產品故障的評論數據,則執行步驟s103、進一步對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據;
具體的,由於負面評論數據更明確地表達出用戶對產品的不滿,通過用戶的負面評論數據,可以直接地了解產品缺陷。解決用戶負面評論數據所表現出的產品問題,能夠最快速地提升用戶體驗。因此,在本發明實施例技術方案中,在確認用戶評論數據是表徵產品故障的評論數據後,進一步對該評論數據進行情感分析處理,判斷該評論數據是否是負面評論數據。
如果所述評論數據是負面評論數據,則執行步驟s104、存儲所述評論數據。
具體的,如果確認獲取的評論數據是負面評論數據,則將該評論數據進行存儲;如果確認獲取的評論數據不是負面評論數據,則將該評論數據刪除。進一步地,在存儲負面評論數據後,可以進一步對負面評論數據進行統計分析處理,或者將存儲的負面評論數據發送給相關業務方,由相關業務方進行分析處理。
本發明提出的數據分析方法,包括:獲取評論數據;將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據;其中,所述報障詞典為預先設置的,設定數量的表徵產品故障的評論詞的集合;如果所述評論數據是表徵產品故障的評論數據,則進一步對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據;如果所述評論數據是負面評論數據,則存儲所述評論數據。採用上述數據分析方法,能夠辨別用戶評論數據是否為負面評論數據,從而使得對用戶的評論數據進行分析挖掘時,更具有針對性,提高了數據分析效率。
可選的,在本發明的另一個實施例中,參見圖2所示,所述將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據,包括:
s202、對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞;
具體的,用戶對產品的評論可能是短詞語,也可能是長句,字數不定。為了便於識別用戶評論數據,本發明實施例將獲取的用戶評論數據進行分詞處理,將用戶評論數據分成最小詞語單元,得到組成該評論數據的各個分詞。
s203、分別將所述組成所述評論數據的各個分詞與報障詞典中的評論詞進行對比;
如果所述組成所述評論數據的各個分詞中的任意一個分詞,與所述報障詞典中的任意一個評論詞相同,則執行步驟s204、判斷所述評論數據是表徵產品故障的評論數據;
如果所述組成所述評論數據的各個分詞中的每一個分詞,均與所述報障詞典中的每一個評論詞不同,則執行步驟s205、判斷所述評論數據不是表徵產品故障的評論數據。
具體的,在得到組成用戶評論數據的各個分詞後,將各個分詞與報障詞典中的評論詞分別進行對比,如果在組成用戶評論數據的各個分詞中,有任意一個分詞與報障詞典中的某一個評論詞相同,則可以判斷該用戶評論數據是表徵產品故障的評論數據;相反,如果組成用戶評論數據的各個分詞中的每一個分詞均與報障詞典中的每一個評論詞不同,則可以判斷該用戶評論數據不是表徵產品故障的評論數據。具體的,在對比組成用戶評論數據的各個分詞與報障詞典中的評論詞時,可以選取任意一種數據匹配方法。對於組成用戶評論數據的分詞中的任意一個分詞與報障詞典中的某一個評論詞來說,如果這個分詞與這個評論詞能夠達到設定的匹配度,則認為兩者相同;相反,則認為兩者不同。
本實施例中的步驟s201、s206、s207分別對應圖1所示的方法實施例中的步驟s101、s103、s104,其具體內容請參見對應圖1所示的方法實施例的內容,此處不再贅述。
可選的,在本發明的另一個實施例中,所述對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞,包括:
調用中文分詞工具包對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞。
具體的,在數據處理領域,已具備成熟的分詞工具,選取任意一種分詞工具,都可以實現對上述用戶評論數據的分詞處理。例如,可以採用python的第三方中文分詞工具包jieba對上述評論數據進行分詞處理。需要說明的是,在現有技術中,存在多種分詞工具,任意一種可以將上述評論數據分解為組成上述評論數據的各個分詞的分詞工具,都可以被本發明實施例所採用,本發明實施例不做嚴格限定。在實施本發明實施例技術方案時,將選取的中文分詞工具包作為調用程序,進行用戶評論數據分詞處理時,直接調用選取的中文分詞工具包即可。
可選的,在本發明的另一個實施例中,所述對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據,包括:
調用設定的情感分析模型,對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據。
具體的,上述設定的情感分析模型,為訓練成熟的情感分析模型,也就是在人工處理的基礎上,事先訓練成熟的情感學習模型,該模型能夠自動識別輸入的用戶評論數據的情感正負性。
對上述情感學習模型的訓練過程如圖3所示。其大體過程是,由人工標註大量(可以根據精確度需求設定數量)評論數據的情感正負性,或者根據第三方提供的情感標註詞典,通過特徵工程,使情感學習模型進行學習,從而具備識別評論數據情感正負性的能力。具體的,上述情感學習模型目前採用了兩種特徵工程的方法:(1)基於第三方提供的情感標註詞典,統計每條評論中正面詞的個數和負面詞的個數,作為機器學習的特徵維度;(2)基於歷史(一周)評論數據,構建評論詞詞典,結合經典的詞袋模型,統計每條評論中這些評論詞輸出的次數,也作為機器學習的特徵維度。對於文本分析,目前主流的機器學習模型都是基於樸素貝葉斯模型的。在本發明實施例中,也採用樸素貝葉斯模型,這是因為評論數據的特徵具有極強的稀疏性,這在一定程度上保證了各個特徵之間相互獨立假設的成立。
在對上述情感學習模型訓練成熟後,將其作為本發明實施例技術方案的一個調用程序,在需要對用戶評論數據進行情感分析處理時,直接調用該程序即可。進一步的,還可以在線下對上述情感學習模型進行訓練,然後通過應用程式編程接口(applicationprogramminginterface,api)的方式部署到線上環境,用於對用戶評論數據的情感分析處理。
可選的,在本發明的另一個實施例中,參見圖4所示,在執行步驟s401、獲取評論數據之後,在執行步驟s404、將所述評論數據與報障詞典中的數據進行對比,判斷所述評論數據是否是表徵產品故障的評論數據之前,該方法還包括:
s402、對所述評論數據進行審核,判斷所述評論數據是否滿足設定的審核標準;
如果所述評論數據不滿足設定的審核標準,則執行步驟s403、將所述評論數據刪除。
具體的,如果本發明實施例所獲取的用戶評論數據不是經過審核的用戶評論數據,本發明實施例技術方案進一步對獲取的用戶評論數據進行審核處理,如果審核確認獲取的用戶評論數據不是滿足審核標準的用戶評論數據,則將獲取的用戶評論數據刪除。具體的審核標準,可以根據實際需求進行設定。在獲取用戶評論數據後,對用戶評論數據進行審核,可以避免對明顯沒有分析價值的評論數據進行更進一步的分析處理,從而避免造成工作量的浪費。
本實施例中的步驟s401、s404~s406分別對應圖1所示的方法實施例中的步驟s101、s102~s104,其具體內容請參見對應圖1所示的方法實施例的內容,此處不再贅述。
本發明實施例還公開了一種數據分析裝置,參見圖5所示,該裝置包括:
數據獲取單元501,用於獲取評論數據;
第一處理單元502,用於將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據;其中,所述報障詞典為設定數量的表徵產品故障的評論詞的集合;
第二處理單元503,用於在所述第一處理單元判斷所述評論數據是表徵產品故障的評論數據時,進一步對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據;
數據處理單元504,用於在所述第二處理單元判斷所述評論數據是負面評論數據時,存儲所述評論數據。
具體的,本實施例中各個單元的具體工作內容,請參見對應的方法實施例的內容,此處不再贅述。
本發明提出的數據分析裝置,在對用戶評論數據進行分析時,首先由數據獲取單元501獲取評論數據;然後第一處理單元502將所述評論數據與報障詞典中的評論詞進行對比,判斷所述評論數據是否是表徵產品故障的評論數據;其中,所述報障詞典為預先設置的,設定數量的表徵產品故障的評論詞的集合;如果所述評論數據是表徵產品故障的評論數據,則第二處理單元503進一步對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據;如果所述評論數據是負面評論數據,則數據處理單元504存儲所述評論數據。採用上述數據分析裝置,能夠辨別用戶評論數據是否為負面評論數據,從而使得對用戶的評論數據進行分析挖掘時,更具有針對性,提高了數據分析效率。
可選的,在本發明的另一個實施例中,參見圖6所示,第一處理單元502,包括:
分詞處理單元5021,用於對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞;
判斷處理單元5022,用於分別將所述組成所述評論數據的各個分詞與報障詞典中的評論詞進行對比;
如果所述組成所述評論數據的各個分詞中的任意一個分詞,與所述報障詞典中的任意一個評論詞相同,則判斷所述評論數據是表徵產品故障的評論數據;
如果所述組成所述評論數據的各個分詞中的每一個分詞,均與所述報障詞典中的每一個評論詞不同,則判斷所述評論數據不是表徵產品故障的評論數據。
具體的,本實施例中各個單元的具體工作內容,請參見對應的方法實施例的內容,此處不再贅述。
可選的,在本發明的另一個實施例中,分詞處理單元5021對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞時,具體用於:
調用中文分詞工具包對所述評論數據進行分詞處理,得到組成所述評論數據的各個分詞。
具體的,本實施例中分詞處理單元5021的具體工作內容,請參見對應的方法實施例的內容,此處不再贅述。
可選的,在本發明的另一個實施例中,第二處理單元503對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據時,具體用於:
調用設定的情感分析模型,對所述評論數據進行情感分析處理,判斷所述評論數據是否是負面評論數據。
具體的,本實施例中第二處理單元503的具體工作內容,請參見對應的方法實施例的內容,此處不再贅述。
可選的,在本發明的另一個實施例中,該裝置還包括:
審核處理單元505,用於對所述評論數據進行審核,判斷所述評論數據是否滿足設定的審核標準;
如果所述評論數據不滿足設定的審核標準,則將所述評論數據刪除。
具體的,本實施例中審核處理單元505的具體工作內容,請參見對應的方法實施例的內容,此處不再贅述。
對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。對這些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發明的精神或範圍的情況下,在其它實施例中實現。因此,本發明將不會被限制於本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的範圍。