一種直播平臺綜合狀態感知和內容實時監管方法及系統與流程
2023-05-16 00:42:56

本發明涉及網際網路直播平臺監管技術領域,尤其涉及一種直播平臺綜合狀態感知和內容實時監管方法及系統。
背景技術:
網絡視頻直播是當前最熱門的移動網際網路應用,直播平臺由於直播間的大量增加導致實時數據量巨大,目前各個直播平臺針對直播內容的監管,大多採取人工審核的方法,由於通過人工觀看多個屏幕(甚至100個以上),所以效率低下。另外,由於直播內容種類繁多,並且違規直播與正常直播界限模糊,傳統視頻圖像機器識別技術對直播間進行內容審核是否違規,存在大量漏報誤報情況,並且對新出現的尚未進入違規樣本庫的違規種類不能識別。同時,由於直播的實時性監管要求較高,視頻圖像識別由於需要圖像採集並查詢違規圖像識別庫進行識別,因而通常延遲高,導致監管延遲。
2016年是直播元年,出現了大量直播平臺(例如陌陌、鬥魚、映客等),形成了「百播」大戰。
直播成為了一種新的移動網際網路生態,從原來單純的遊戲直播,涉足到購物、旅遊、廣告、自媒體、教育、社交等各個用途。
直播平臺內容監管,目前各大平臺主要採取以下幾種:
1.人工審核方式。由於直播內容數據量巨大,人工審核需要同時觀看幾十上百個房間效率太低,人眼疲勞,分神等,不可能做到快速反應兼顧所有直播間;
2.通過機器識別圖像內容。直播內容種類繁多,機器識別對特徵明顯違規直播間檢測效果較好,但是,直播檢測的實時性要求較高,簡單機器特徵匹配延遲較高,且目前違規直播間,更多的是打擦邊球,這類違規直播無明顯特徵,機器不能辨別正常直播與違規直播圖像,往往會造成大量漏報情況。及時可以識別,也需要上傳到一個識別庫進行識別,從而導致延遲,且上傳圖片導致大量的帶寬消耗和計算消耗,使得直播平臺不堪重負。
3.大多對圖像的監控多,對文字的監控少。目前對於彈幕的監控較少,沒有過濾機制,只有人工管理的「踢人」和「禁言」機制。
此外,一旦出現內容問題,輕則導致直播平臺的關閉,重則可能導致嚴重的社會影響。
技術實現要素:
本發明要解決的技術問題在於針對現有技術中直播平臺數據量巨大,採用人工監管的方式效率低下的缺陷,提供一種直播平臺綜合狀態感知和內容實時監管方法及系統。
本發明解決其技術問題所採用的技術方案是:
本發明提供一種直播平臺綜合狀態感知和內容實時監管方法,包括以下步驟:
根據直播間的歷史流量數據為每個直播間設置流量動態閾值,實時獲取直播間的當前流量數據,結合當前流量數據的變化率和流量動態閾值得到直播間的流量可疑值;
根據直播間的歷史彈幕數據提取違規彈幕庫,根據各違規彈幕的出現頻率設置對應的權重;實時獲取直播間的當前彈幕數據,將其與違規彈幕庫進行模糊匹配,根據匹配到的違規彈幕與對應權重得到直播間的彈幕可疑值;
對直播視頻進行場景分割,並對分割後的直播視頻進行場景突變檢測,根據場景突變的程度得到直播間的場景突變可疑值;
綜合分析流量可疑值、彈幕可疑值和場景突變可疑值得到可疑直播間,管理員查看可疑直播間判斷該直播間是否違規;並根據違規判斷的結果對流量動態閾值和違規彈幕庫進行更新。
進一步地,本發明的方法中計算得到直播間的流量可疑值的方法為:
步驟一、建立直播間不同時間段的正常流量數據的預測模型:
p(t)=a[d(t)-p(t-1)]+p(t-1)
其中,p(t)是時刻t的正常流程數據的預測值,p(t-1)為時刻t-1的理論預測值,d(t)是時刻t的實際流量數據的觀測值,a是加權常數;
步驟二、實時獲取時刻t的實際流量數據的觀測值d(t),根據預測模型計算時刻t的正常流量數據的預測值p(t),並計算直播時觀測值變化率的標準差:
其中,δ表示標準差,即流量動態閾值,n為某一直播間正常直播的總天數,隨著天數的增加,n是一個逐漸增大的值,所以閾值δ是動態改變的,d(t)i該直播間正常直播的第i天t時刻的觀測值,u為n天正常直播t時刻的平均值。
步驟三、若直播間某時刻|p(t)-d(t)|>δ,判斷該直播間發生流量異常,並返回該直播間的流量可疑值c1=|p(t)-d(t)|-δ。
進一步地,本發明的方法中對流量動態閾值進行更新的方法為:
管理員查看可疑直播間判斷該直播間是否違規,若違規,則不更新流量動態閾值;若不違規,則自動修改加權常數a,使滿足:
a』[d(t)-p(t-1)]+p(t-1)=p[t]-d[t]=δ
其中,a』為修改後的加權常數。
進一步地,本發明的方法中計算得到直播間的彈幕可疑值的方法為:
步驟一、獲取直播間的歷史彈幕數據,從歷史彈幕數據中提取違規彈幕數據組成違規彈幕庫,根據不同違規彈幕的出現頻率,設置不同的權重;
步驟二、實時獲取各個直播間的彈幕數據,將彈幕數據轉換成拼音後進行模糊匹配;
步驟三、將匹配到的違規彈幕乘以對應的權重並累加,得到該直播間的可疑彈幕能量:
其中,e為可疑彈幕能量,ni為第i個違規彈幕出現的次數,wi為第i個違規彈幕對應的權重,k為違規彈幕的數量;
若e>x,x為出現彈幕異常的最小敏感彈幕能量值,則判斷該直播間出現彈幕異常,返回彈幕可疑值c2=e-x。
進一步地,本發明的方法中更新違規彈幕庫的方法為:
管理員查看可疑直播間判斷該直播間是否違規,若違規,將直播間出現的違規彈幕添加到違規彈幕庫中,並更新彈幕對應的權重。
進一步地,本發明的方法中計算得到直播間的場景突變可疑值的方法為:
步驟一、獲取各個直播間的url,解析各個直播間的直播視頻的地址;
步驟二、對直播視頻等間隔的進行場景分割,提取分割後的直播視頻中的圖像;
步驟三、比較相鄰幀圖像的相似度,檢測是否發生場景突變,若發生場景突變,返回場景突變可疑值。
進一步地,本發明的方法中進行綜合分析得到可疑直播間的方法為:
設流量可疑值為c1,彈幕可疑值為c2,場景突變可疑值為c3,設置對應的權重分別為w1、w2和w3,直播間的總可疑值c=c1*w1+c2*w2+c3*w3,總可疑值的閾值為cm,cm的計算公式為:
其中,ci為歷史數據中違規直播的總可疑值,n為出現違規直播的次數;
若總可疑值c大於閾值cm,則判斷該直播間為可疑直播間。
進一步地,本發明的方法還包括對流量可疑值、彈幕可疑值和場景突變可疑值的權重進行更新的方法:
管理員查看可疑直播間判斷該直播間是否違規,若不違規,則表示發生誤報,對流量可疑值、彈幕可疑值和場景突變可疑值的權重進行修正;若違規,將新的違規直播間的可疑值加入閾值cm的計算中:
本發明提供一種直播平臺綜合狀態感知和內容實時監管系統,包括以下單元:
流量監控單元,用於根據直播間的歷史流量數據為每個直播間設置流量動態閾值,實時獲取直播間的當前流量數據,結合當前流量數據的變化率和流量動態閾值得到直播間的流量可疑值;
彈幕監控單元,用於根據直播間的歷史彈幕數據提取違規彈幕庫,根據各違規彈幕的出現頻率設置對應的權重;實時獲取直播間的當前彈幕數據,將其與違規彈幕庫進行模糊匹配,根據匹配到的違規彈幕與對應權重得到直播間的彈幕可疑值;
場景突變監控單元,用於對直播視頻進行場景分割,並對分割後的直播視頻進行場景突變檢測,根據場景突變的程度得到直播間的場景突變可疑值;
綜合分析單元,用於綜合分析流量可疑值、彈幕可疑值和場景突變可疑值得到可疑直播間,管理員查看可疑直播間判斷該直播間是否違規;並根據違規判斷的結果對流量動態閾值和違規彈幕庫進行更新。
本發明產生的有益效果是:直播平臺綜合狀態感知和內容實時監管方法及系統,綜合狀態感知多重指標檢測,根據反饋情況自動學習更新,準確度逐步提高,能適應不同直播平臺的複雜環境,並且對新出現的違規類型的能有效監控,精確檢測出直播平臺海量數據中的違規內容。
附圖說明
下面將結合附圖及實施例對本發明作進一步說明,附圖中:
圖1是本發明實施例的系統總體結構示意圖;
圖2是本發明實施例的異常流量監控功能模塊的詳細流程圖;
圖3是本發明實施例的基於模糊匹配的敏感文字感知功能模塊的詳細流程圖;
圖4是本發明實施例的基於幀差的直播間狀態感知與分析功能模塊詳細流程圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,並不用於限定本發明。
如圖1所示,本發明實施例的直播平臺綜合狀態感知和內容實時監管方法,包括以下步驟:
根據直播間的歷史流量數據為每個直播間設置流量動態閾值,實時獲取直播間的當前流量數據,結合當前流量數據的變化率和流量動態閾值得到直播間的流量可疑值;
其中計算得到直播間的流量可疑值的方法為:
步驟一、建立直播間不同時間段的正常流量數據的預測模型:
p(t)=a[d(t)-p(t-1)]+p(t-1)
其中,p(t)是時刻t的正常流程數據的預測值,p(t-1)由歷史流量數據獲得,p(t-1)為t-1時刻的理論預測值,這裡的歷史數據是,同一天前一時刻(t-1)的數據,這個步驟只涉及到一天內的數據,而後面的計算δ是涉及到不同天同一時刻。d(t)是時刻t的實際流量數據的觀測值,a是加權常數,加權常數是控制前一時刻預測值p(t-1)對當前預測值p(t)的影響;
步驟二、實時獲取時刻t的實際流量數據的觀測值d(t),根據預測模型計算時刻t的正常流量數據的預測值p(t),並計算直播時觀測值變化率的標準差:
其中,δ表示標準差,即流量動態閾值,n為某一直播間正常直播的總天數,隨著天數的增加,n是一個逐漸增大的值,所以閾值δ是動態改變的,d(t)i該直播間正常直播的第i天t時刻的觀測值,u為n天正常直播t時刻的平均值。
步驟三、若直播間某時刻|p(t)-d(t)|>δ,判斷該直播間發生流量異常,並返回該直播間的流量可疑值c1=|p(t)-d(t)|-δ。
其中對流量動態閾值進行更新的方法為:
管理員查看可疑直播間判斷該直播間是否違規,若違規,則不更新流量動態閾值;若不違規,則自動修改加權常數a,使滿足:
a』[d(t)-p(t-1)]+p(t-1)=p[t]-d[t]=δ
其中,a』為修改後的加權常數。
根據直播間的歷史彈幕數據提取違規彈幕庫,根據各違規彈幕的出現頻率設置對應的權重;實時獲取直播間的當前彈幕數據,將其與違規彈幕庫進行模糊匹配,根據匹配到的違規彈幕與對應權重得到直播間的彈幕可疑值;
其中計算得到直播間的彈幕可疑值的方法為:
步驟一、獲取直播間的歷史彈幕數據,從歷史彈幕數據中提取違規彈幕數據組成違規彈幕庫,根據不同違規彈幕的出現頻率,設置不同的權重;
步驟二、實時獲取各個直播間的彈幕數據,將彈幕數據轉換成拼音後進行模糊匹配;
步驟三、將匹配到的違規彈幕乘以對應的權重並累加,得到該直播間的可疑彈幕能量:
其中,e為可疑彈幕能量,ni為第i個違規彈幕出現的次數,wi為第i個違規彈幕對應的權重,k為違規彈幕的數量;
若e>x,x為出現彈幕異常的最小敏感彈幕能量值,則判斷該直播間出現彈幕異常,返回彈幕可疑值c2=e-x。
其中更新違規彈幕庫的方法為:
管理員查看可疑直播間判斷該直播間是否違規,若違規,將直播間出現的違規彈幕添加到違規彈幕庫中,並更新彈幕對應的權重。
對直播視頻進行場景分割,並對分割後的直播視頻進行場景突變檢測,根據場景突變的程度得到直播間的場景突變可疑值;
其中計算得到直播間的場景突變可疑值的方法為:
步驟一、獲取各個直播間的url,解析各個直播間的直播視頻的地址;
步驟二、對直播視頻等間隔的進行場景分割,提取分割後的直播視頻中的圖像;
步驟三、比較相鄰幀圖像的相似度,檢測是否發生場景突變,若發生場景突變,返回場景突變可疑值。
綜合分析流量可疑值、彈幕可疑值和場景突變可疑值得到可疑直播間,管理員查看可疑直播間判斷該直播間是否違規;並根據違規判斷的結果對流量動態閾值和違規彈幕庫進行更新。
其中進行綜合分析得到可疑直播間的方法為:
設流量可疑值為c1,彈幕可疑值為c2,場景突變可疑值為c3,設置對應的權重分別為w1、w2和w3,直播間的總可疑值c=c1*w1+c2*w2+c3*w3,總可疑值的閾值為cm,cm的計算公式為:
其中,ci為歷史數據中違規直播的總可疑值,n為出現違規直播的次數;
若總可疑值c大於閾值cm,則判斷該直播間為可疑直播間。
該方法還包括對流量可疑值、彈幕可疑值和場景突變可疑值的權重進行更新的方法:
管理員查看可疑直播間判斷該直播間是否違規,若不違規,則表示發生誤報,對流量可疑值、彈幕可疑值和場景突變可疑值的權重進行修正;若違規,將新的違規直播間的可疑值加入閾值cm的計算中:
本發明實施例的直播平臺綜合狀態感知和內容實時監管系統,用於實現本發明實施例的直播平臺綜合狀態感知和內容實時監管方法,包括以下單元:
流量監控單元,用於根據直播間的歷史流量數據為每個直播間設置流量動態閾值,實時獲取直播間的當前流量數據,結合當前流量數據的變化率和流量動態閾值得到直播間的流量可疑值;
彈幕監控單元,用於根據直播間的歷史彈幕數據提取違規彈幕庫,根據各違規彈幕的出現頻率設置對應的權重;實時獲取直播間的當前彈幕數據,將其與違規彈幕庫進行模糊匹配,根據匹配到的違規彈幕與對應權重得到直播間的彈幕可疑值;
場景突變監控單元,用於對直播視頻進行場景分割,並對分割後的直播視頻進行場景突變檢測,根據場景突變的程度得到直播間的場景突變可疑值;
綜合分析單元,用於綜合分析流量可疑值、彈幕可疑值和場景突變可疑值得到可疑直播間,管理員查看可疑直播間判斷該直播間是否違規;並根據違規判斷的結果對流量動態閾值和違規彈幕庫進行更新。
在本發明的另一個具體實施例中:
針對目前網絡直播平臺監管困難的問題,本系統採用多重智能監測技術,智能識別違規直播房間。
1)自適應閾值異常流量檢測方法
當一個直播間正常直播時,該直播間流量變化(房間在線人數、彈幕數、當前網絡流量數、ip接入請求數、轉發數等)範圍總是固定在一個確定的範圍內,當發生違規直播時,直播間當前觀看人數往往會發生突變,彈幕數量也增多,從而導致直播間流量發生異常。可以通過檢測異常流量的房間,間接定位違規直播房間。其中一個關鍵問題就是閾值的設置,傳統方案為所有直播間設置一個固定閾值,不同時間段平臺整體流量變化率不同,不同直播間本身屬性不同。設置同一固定閾值會產生大量誤報漏報情況。
本發明提出了一種動態閾值方案,為每個直播間不同時間段自動設置專屬動態閾值,大大提高了檢測的準確性。
該方法包括:
1.由於直播平臺整體是動態變化的,本系統建立了一種根據最近觀測值,逐漸刷新該直播間,每天正常直播的模型,該刷新機制結合當天該時段的變化率,和之前正常直播的變化率,並且並且歷史數據起主要作用:
p(t)=a[d(t)-p(t-1)]+p(t-1)
2.本系統自動獲取直播平臺所有直播房間的房間號(roomid)和當前時間(t),根據該變化率的觀測值d(t),計算出該直播間該時間段對應值預測p(t),然後計算該直播間該時間段,之前正常直播時變化率觀測值的標準差:
3.當|p(t)-d(t)|>δ,本系統會認為該直播間可能發生異常,系統返回一個可疑值c1給綜合分析系統。
c1=|p(t)-d(t)|
模塊4)綜合分析之後,該直播間的房間號會被提交給管理員,管理員審查若該直播間為違規直播間,則系統繼續正常運行;若管理員反應該直播間為正常直播間,則自動修改參數a,使:
a』[d(t)-p(t-1)]+p(t-1)=p[t]-d[t]=δ
2)敏感彈幕模糊感知方法
網絡直播平臺相比傳統電視多媒體相比,最大的區別就是用戶可以發送彈幕,發生違規直播時彈幕數量、彈幕內容與正常直播間都會有較大不同。抓取並檢測異常彈幕內容,屬於文字操作,計算快,延遲低,同時採用模糊匹配擴大監管範圍,定位異常直播間。
我們提出了一種彈幕感知方法,該方法包括:
1.本系統首先統計了違規直播出現時直播房間的彈幕,統計了一個出現違規直播的可能關鍵詞列表,根據不同彈幕出現的頻率不同,設置不同的權重(wi)。
2.系統模擬多個客戶端連接直播平臺彈幕伺服器,同時獲取所有直播房間彈幕流。
3.對敏感彈幕信息進行模糊匹配,包含關鍵詞的彈幕信息,或是包含與關鍵詞相似的彈幕,都會被本系統檢測到。匹配過程首先把彈幕信息轉換成拼音,然後進行匹配。有效防止了最常見的同音字繞過和插入無關字符來避開系統檢測。
4.用匹配到的彈幕數量乘以該可疑彈幕的權重(n*wi),累加得到該直播間整體的可疑彈幕能量(e):
當e>x時(x為出現違規直播時的最小敏感彈幕能量和),定位該直播間的房間號,返回可疑值c2(c2=e-x)給分析系統,並對發送彈幕的用戶的相關信息進行本地保存。
5.模塊4)綜合分析之後,發現違規直播房間後,本系統自動對彈幕庫擴展,並按出現頻率分配不同權重。
3)幀差分析直播間狀態感知方法
當一個直播間發生違規直播時,該直播間與正常直播相比必定發生了明顯的場景切換,本系統該模塊通過對直播視頻流進行場景分割,減少了需要檢測的視頻和圖像數量,以及減少了需要檢測的圖像比特數,快速定位那些場景突變的直播間,根據變化的程度返回不同的可疑值c3,給分析系統。
具體包括:
1.本系統首先自動從直播平臺首頁獲取各個房間url,然後解析出各個房間的真實視頻流地址。
2.從視頻流中等間隔的獲取直播間截圖,對於捕獲的截圖本地保存(當違規直播產生不良影響時,該截圖可以作為追究責任的證據)。
3.本系統通過比較相鄰幀截圖相似度,來判斷場景的變化,當相鄰幀的幀差大於閾值k時,本系統認為直播間發生了場景的變化。
4)綜合分析模塊
跟據以上三個模塊的返回值c1.c2.c3得到該直播間總的可疑值cm(c=c1*w1+c2*w2+c3*w3),總的可疑值超過預設值cm時,提交該直播間房間號給管理員,其中:
其中,ci為歷史數據中違規直播的總可疑值,n為出現違規直播的次數;
管理員查看直播間歷史截圖信息,和當前直播內容,判斷該直播間是否違規。管理員確認後,反饋信息給本系統,若該直播間沒有進行違規直播,即本系統發生誤報,本系統自動對各個模塊可疑值權重進行調整,使c1*w1+c2*w2+c3*w3=cm。
管理員確認違規之後,cm計算過程加入最新違規直播間總的可疑能量。
根據反饋信息自動學習更新,使本系統在不同直播平臺的不同環境都能有著很好的準確度。
發明整體設計的過程中,鑑於直播內容種類繁多,預設對比圖不可能涵蓋所有類型的違規直播,機器識別誤報漏報率太大,重點放在監控違規直播出現的間接因素,三重檢測,自動學習,在不斷的反饋與學習的過程中,使監控過程中的漏報率大大降低,迅速精準定位違規直播間,提交給平臺管理人員,讓違規直播間在產生不良影響之前,對該直播間進行封禁。
應當理解的是,對本領域普通技術人員來說,可以根據上述說明加以改進或變換,而所有這些改進和變換都應屬於本發明所附權利要求的保護範圍。