一種微博輿情風險研判的方法與流程
2023-05-30 03:04:41
本發明涉及數據挖掘技術領域,尤其涉及一種微博輿情風險研判的方法。
背景技術:
在日常生活中,突然事件頻繁發生,用戶越來越習慣於利用社交網絡(例如微博、論壇、twitter、facebook等)來發明自己的觀點或情感。在某個事件發生後,廣大群眾會通過各種途徑了解到真相,隨之而來的是大量的評論,這些評論中包括支持與反對,理性與感性,熱情或冷漠,當評論中某一種評論或者某幾種評論佔據較大的比例後,這一種或幾種評論會成對大眾的觀點具有導向作用,甚至可以讓整個事件的走向起到重要作用。負面輿論在網上發酵連帶引發的危機和事故就是輿情風險,網際網路高度發達的今天,微博已經成為一種至關重要的社交平臺,大多數人對網上的信息缺乏客觀的判斷能力,常以先入為主的心態看待事物,因此,對於輿情的分析非常重要,輿情風險一旦出現,在短期內,將會把輿情的中心人物或者企業推向風口浪尖,會對中心人物或企業產生非常不利的影響,因此,對於微博輿情風險的研判是對避免輿情風險發生具有決定性的作用。現有的微博輿情風險研判的方法不具有及時性,且容易將風險較低的信息漏掉,跟進不及時的缺點,導致無法對微博輿情風險進行準確研判。
技術實現要素:
本發明的目的在於:為解決現有方法無法準確對微博輿情風險進行研判的問題,本發明提供一種微博輿情風險研判的方法。
本發明的具體內容如下:
一種微博輿情風險研判的方法,所述方法先通過爬蟲採集大量微博數據,再先後通過敏感話題的識別、情感模型、影響力模型、傳播模型的分析,根據這幾個模型的輸出情況,決定是否預警或者是進入下一個模型進行分析。
具體地,包括如下步驟:
s1:提取源信息話題關鍵字,若涉及敏感話題則發出預警,若不涉及敏感話題,則進入情感模型進行分析。
s2:通過情感模型對信息進行情感分析,若為非負面情緒,則結束流程;若負面程度高則發出預警;若負面程度不高,則進入影響力模型進行分析。
s3:影響力模型首先會判斷該信息的作者是否在維護的名單中,如果在則立即預警,否則將會進行影響力分析;進入影響力分析後,如果輸出的影響力值大於或等於預先設定的閾值,則立即預警,否則將會進入傳播模型進行分析。
s4:傳播模型首先會判斷該信息已有的轉發參與者中是否有大v用戶,如果有則立即預警,否則會進行傳播加權分析;進行傳播加權分析後得到傳播風險值,如果輸出的傳播風險值大於預先設定的閾值,則立即預警,否則將會把信息輸入到動態監控池中,動態監控池會對信息進行時效判斷,把當前時間與信息爬取入庫的時間差作為條件進行判斷,在一定時間的短周期內,將該信息重新輸入到傳播模型進行分析;在短周期內,評論與轉發的和的絕對增量超過一定數量則預警:如果超過一定時間沒有觸發預警,則停止對其監控,結束流程。
進一步地,s1中,對於敏感話題的判斷是將源信息的話題關鍵字與提前建立且人工維護的一套詞庫進行判斷。
優選地,所述情緒分析模型為基於循環神經網絡的情感模型,具體包括:訓練數據的準備、語音模型的構造和情感的識別。
具體地,所述訓練數據的準備的具體過程為:從網際網路應用爬取各類用戶的評價數據,如應用商店軟體的評價,電商網站購物的評價,電影的評價等,並把訓練數據分為兩類,負面情感數據和非負面情感數據。
具體地,語言模型的構造以大量文本作為語料,採用無監督方式訓練基於循環神經網絡的語言模型。
具體地,所述情感識別的具體方法為:將輸入文本以字或詞的形式表示,經過訓練好的模型預測,最後得到識別為負面情感和非負面情感的概率,再選擇概率值大的作為最終情感的輸出,其中,負面情緒和非負面情緒的概率加起來為1,負面程度高是指其概率超過0.8以上。
具體地,s3中,影響力分析採用組合量化的方法來量化得出影響力值,影響力=認證佔比*權重*+關注佔比*權重+粉絲佔比*權重+近一周微博發布數量佔比*權限+近一周每條微博平均評論數佔比*權重+近一周每條微博平均轉發數*權重。
具體地,s4中,傳播風險=轉發量佔比*權重*+點讚數佔比*權重+評論數佔比*權重。
具體地,s4中,動態監控池中的具體判斷過程為:如果超過24小時沒有觸發預警,則停止對其監控;在4小時內,每5分鐘作為周期,將該信息重新輸入到傳播模型進行分析;在24小時內,每5分鐘時間內,評論+轉發的絕對增量超過30則預警。
採用本發明的技術方案後,有益效果如下:(1)本發明包含敏感話題的識別、情感模型、影響力模型、傳播模型,充分考慮了每一種情況,經過模型一層一層地深入分析,保障輿情風險高的信息立即預警;(2)設有動態監控池對未報警的信息在有效時間內進行持續跟進,保證了風險較低的信息也不漏掉,避免了風險較低的信息隨著時間的推移風險變大而漏掉的情況;(3)本發明在影響力模型和傳播模型中,均採用了權重的思想,考慮得較為全面,通過自行設置權值,使得數據可以隨著事件的不同而更加靈活,準確性高。
附圖說明
圖1為本發明的流程框圖。
具體實施方式
本說明書中公開的所有特徵,除了互相排斥的特徵和/或步驟以外,均可以以任何方式組合。
下面結合附圖對本發明作詳細說明。
一種微博輿情風險研判的方法,先通過爬蟲採集大量微博數據,再先後通過敏感話題的識別、情感模型、影響力模型、傳播模型的分析,根據這幾個模型的輸出情況,決定是否預警或者是進入下一個模型進行分析。包括如下步驟:
s1:提取源信息話題關鍵字,將源信息的話題關鍵字與提前建立且人工維護的一套詞庫進行判斷,若涉及敏感話題則發出預警,若不涉及敏感話題,則進入情感模型進行分析。
s2:通過情感模型對信息進行情感分析,若為非負面情緒,則結束流程;若負面程度高則發出預警;若負面程度不高,則進入影響力模型進行分析;情緒分析模型為基於循環神經網絡的情感模型,具體包括:訓練數據的準備,即從網際網路應用爬取各類用戶的評價數據,如應用商店軟體的評價,電商網站購物的評價,電影的評價等,並把訓練數據分為兩類,負面情感數據和非負面情感數據;還包括語言模型的構造,即以大量文本作為語料,採用無監督方式訓練基於循環神經網絡的語言模型;還包括情感的識別,即將輸入文本以字或詞的形式表示,經過訓練好的模型預測,最後得到識別為負面情感和非負面情感的概率,再選擇概率值大的作為最終情感的輸出,其中,負面情緒和非負面情緒的概率加起來為1,負面程度高是指其概率超過0.8以上。
s3:影響力模型首先會判斷該信息的作者是否在維護的名單中,如果在則立即預警,否則將會進行影響力分析;進入影響力分析後,具體地,影響力分析採用組合量化的方法來量化得出影響力值:影響力=認證佔比*權重*+關注佔比*權重+粉絲佔比*權重+近一周微博發布數量佔比*權限+近一周每條微博平均評論數佔比*權重+近一周每條微博平均轉發數*權重,具體的權重值如表1所示,如果輸出的影響力值大於或等於預先設定閾值,則立即預警,否則將會進入傳播模型進行分析。
表1
s4:傳播模型首先會判斷該信息已有的轉發參與者中是否有大v用戶,如果有則立即預警,否則會進行傳播加權分析;進行傳播加權分析後得到傳播風險值,傳播風險=轉發量佔比*權重*+點讚數佔比*權重+評論數佔比*權重,其中具體的權重值如表2所示。
如果輸出的傳播風險值大於預先設定的閾值,則立即預警,否則將會把信息輸入到動態監控池中;然後動態監控池會對信息進行時效判斷,把當前時間與信息爬取入庫的時間差作為條件進行判斷,如果超過24小時沒有觸發預警,則停止對其監控;在4小時內,每5分鐘作為周期,將該信息重新輸入到傳播模型進行分析;在24小時內,每5分鐘時間內,評論+轉發的絕對增量超過30則預警。
表2
本發明不局限於上述具體實施例,應當理解,本領域的普通技術人員無需創造性勞動就可以根據本發明的構思做出諸多修改和變化。總之,凡本技術領域中技術人員依本發明的構思在現有技術的基礎上通過邏輯分析、推理或者有限的實驗可以得到的技術方案,皆應在由權利要求書所確定的保護範圍內。