一種基於深度神經網絡的人群情緒異常檢測和定位方法與流程
2023-10-09 09:58:39
本發明涉及一種計算機視覺技術領域,尤其是一種基於深度神經網絡的人群情緒異常檢測和定位方法。
背景技術:
隨著社會的持續穩定發展和人民群眾物質文化生活水平的不斷提高,城市人群聚集區域的娛樂活動、商業活動等越來越被公眾關注,這些活動往往場地空間有限且參與人數眾多,一旦發生異常情況,極易對廣大人民群眾的生命和財產安全產生嚴重危害,為了儘早的發現異常情況,及時採取措施,主要藉助城市中廣泛存在的監控設備,通過監控設備進行異常情況的檢測和定位;
異常檢測主要分為兩類:整體異常檢測和局部異常檢測,整體異常指的是由場景中的所有個體引發的異常,整體異常檢測的任務是檢測異常事件,並確定異常事件的起始和終止位置,以及它們之間的過渡;
局部異常是指由某個個體引發的異常,這個個體可能有別於其他正常的個體,局部異常檢測的任務是檢測異常事件,並定位異常發生的位置。
異常檢測根據對異常的不同定義而有所區別,通常對於異常的定義會與具體發生的事件關聯起來,而人群情緒異常的定義是指人群中整體或個體出現的不正常情緒變化,即對於異常的檢測並不與具體的異常事件直接關聯。例如,當人群恐慌事件發生時,人群整體上從中性情緒到恐慌情緒的變化,就是一種人群情緒異常情況,需要關注的是情緒的異常變化情況,而不需要知道具體的異常事件;
對於情緒的定義,在研究中普遍採用ekman的離散情緒模型,它將情緒分為高興、憤怒、厭惡、恐懼、悲傷、驚奇六類,為了更有效地刻畫情緒的變化,在這基礎上我們增加了焦慮情緒及中性情緒,
而對於目前來說,監控設備遠沒有達到智能監控的程度,仍需要大量的工作人員來監測異常情況,對異常情況進行反饋,通過對監控視頻異常情況的分析,不僅需要大量工作人員,而且分析結果也不準確,而且反饋具有遲延性,往往在異常情況出現時,才能發現異常情況,極其不利於工作人的監控以及對異常情況的處理。
技術實現要素:
針對現有技術的不足,本發明提供一種基於深度神經網絡的人群情緒異常檢測和定位方法,從而解決現有人群異常檢測技術中存在的異常定義與具體異常事件直接關聯而導致的檢測局限性問題。
本發明的技術方案為:一種基於深度神經網絡的人群情緒異常檢測和定位方法,其特徵在於,包括以下步驟:
s1)、數據獲取:通過監控設備獲取視頻數據作為訓練視頻數據;
s2、利用視頻關鍵幀提取技術從訓練視頻數據中提取視頻關鍵幀數據;
s3)、數據處理:利用人臉檢測技術從視頻關鍵幀數據中獲取每一幀的人臉圖像數據,並檢測人臉圖像中的人臉特徵點,根據人臉特徵點對齊人臉圖像後,按照不同個體對人臉圖像進行分組,對分組後的人臉圖像數據按視頻關鍵幀順序排序;
s4)、人臉情緒識別模型的構建:對對齊、分組、排序處理後的人臉圖像數據進行情緒標記,並將情緒標註後的人臉圖像數據輸入到訓練好的基於卷積神經網絡的人臉情緒識別模型中,並根據人臉圖像數據調整模型全連接層權重,從而得到訓練好的基於監控視頻數據的人臉情緒識別模型
s5)、構建人群情緒檢測和定位模型:將人臉情緒識別模型的全連接層輸出的特徵按時間維度組合成時序特徵,並將時序特徵輸入長短期記憶循環神經網絡模型中,構建並訓練得到整體的人群情緒檢測和定位模型;
s6)、異常情緒檢測和定位:重新從監控設備中獲取視頻數據作為監測視頻數據,按照步驟s2、s3對監測視頻數據進行預處理,利用訓練好的人群情緒檢測和定位模型,獲取監測視頻數據中人群情緒異常檢測和定位結果並反饋給監控設備工作人員。
上述技術方案中,步驟s4)中,所述的情緒標記包括高興、憤怒、厭惡、恐懼、悲傷、驚奇、焦慮、中性。
上述技術方案中,步驟s4)中,所述的基於卷積神經網絡的人臉情緒識別模型的構建包括以下步驟:
s401)、獲取公開的人臉圖像數據集作為訓練樣本集,並對人臉表情數據集進行人臉對齊,以及進行人臉圖像情緒標記;
s402)、將預處理後的訓練樣本集中的每一張人臉圖像轉換為灰度圖像,由灰度圖像轉換為像素矩陣x=[xij]m×n,其中,xij表示圖像的第i行第j列的像素值,m為圖像的高(以像素為單位),n為圖像的寬(以像素為單位);
s403)、對所有灰度圖像的像素矩陣進行去均值處理,其計算式為:
s404)、將去均值處理後的像素矩陣x輸入到卷積神經網絡模型中;
s405)、對輸入卷積層的灰度圖像的像素矩陣進行卷積計算,計算式為:
其中,i為輸入特徵圖的索引,j為輸出特徵圖的索引,nin為輸入特徵圖個數,l為網絡層的索引,表示第l層網絡的第j個輸出特徵圖,表示第l層網絡的第i個輸入特徵圖對應的卷積核,為偏置;
使用下採樣函數down對上一層輸出的特徵圖進行下採樣,計算式為:
其中,為偏置;
獲取網絡結構中最後的下採樣層輸出的一系列特徵圖將每一個特徵圖中的像素依次取出,拼接成一個向量,向量形式為:
s406)、將拼接後的向量rl作為全連接層的輸入,其計算式為:xl=f(wlrl+bl),
其中,wl表示第l層的權重矩陣,bl表示第l層的偏置;
s407)、將全連接層輸出的向量xl,經激活函數計算得到最後的預測值yi,其計算式為:
yi=g(uxl+c),
其中,u為權重矩陣,c為偏置;
s408)、使用交叉熵損失函數,計算預測值yi與真實值的損失函數值,並最小化損失函數值,其計算式為:
其中,i為人臉圖像數據的索引,j為人臉圖像數據所屬8類情緒標識的索引;
s408)、通過隨機梯度下降法,調整網絡權重k、w、u和偏置a、β、b、c,根據更新後的網絡權重k、w、u和偏置a、β、b、c,重新計算上述損失函數值,不斷迭代直至損失函數值不再減小或到達設定的迭代次數,得到訓練好的基於卷積神經網絡的人臉情緒識別模型;
上述技術方案中,步驟s6)中,異常情緒檢測和定位還包括以下步驟:
s601)、通過情緒異常檢測和定位模型,獲取人群情緒的預測結果是否異常;
s602)、若預測結果標識為異常,利用人臉情緒識別模型,輸出監測視頻數據中存在異常的個體對應的情緒變化情況;
s603)、根據監測視頻數據中具體人群中個體情緒異常情況,根據出現異常的個體數,從而判定當前視頻人群異常檢測結果屬於整體異常還是局部異常情況。
本發明的有益效果為:設計合理,通過模型能夠得到人群情緒異常與人群異常之間的關係,避免了人群異常與具體異常事件相關聯而導致的檢測局限性問題,另外,模型採用了混合的深度神經網絡結構模型,避免了視頻數據特徵提取與異常檢測和定位任務分開執行的情況,從而進一步提高了視頻人群情緒異常檢測和定位的效率;並且能夠通過以人群情緒異常的檢測和定位以個體情緒作為基礎,實現整體異常和局部異常的統一處理,從而進一步提高了檢測的準確性。
附圖說明
圖1為本發明的流程示意圖。
具體實施方式
下面結合附圖對本發明的具體實施方式作進一步說明:
如圖1所示,一種基於深度神經網絡的人群情緒異常檢測和定位方法,其特徵在於,包括以下步驟:
s1)、數據獲取:通過監控設備獲取視頻數據作為訓練視頻數據;
s2、利用視頻關鍵幀提取技術從訓練視頻數據中提取視頻關鍵幀數據;
s3)、數據處理:利用人臉檢測技術從視頻關鍵幀數據中獲取每一幀的人臉圖像數據,並檢測人臉圖像中的人臉特徵點,根據人臉特徵點對齊人臉圖像後,按照不同個體對人臉圖像進行分組,對分組後的人臉圖像數據按視頻關鍵幀順序排序;
s4)、人臉情緒識別模型的構建:對對齊、分組、排序處理後的人臉圖像數據進行情緒標記,並將情緒標註後的人臉圖像數據輸入到訓練好的基於卷積神經網絡的人臉情緒識別模型中,並根據人臉圖像數據調整模型全連接層權重,從而得到訓練好的基於監控視頻數據的人臉情緒識別模型;
s5)、構建人群情緒檢測和定位模型:將人臉情緒識別模型的全連接層輸出的特徵按時間維度組合成時序特徵,並將時序特徵輸入長短期記憶循環神經網絡模型中,構建並訓練得到整體的人群情緒檢測和定位模型;
s6)、異常情緒檢測和定位:重新從監控設備中獲取視頻數據作為監測視頻數據,按照步驟s2、s3對監測視頻數據進行預處理,利用訓練好的人群情緒檢測和定位模型,獲取監測視頻數據中人群情緒異常檢測和定位結果並反饋給監控設備工作人員。
上述技術方案中,步驟s4)中,所述的情緒標記包括高興、憤怒、厭惡、恐懼、悲傷、驚奇、焦慮、中性。
上述技術方案中,步驟s4)中,所述的基於卷積神經網絡的人臉情緒識別模型包括以下步驟:
s401)、獲取公開的人臉圖像數據集作為訓練樣本集,並對人臉表情數據集進行人臉對齊,以及進行人臉圖像情緒標記;
s402)、將預處理後的訓練樣本集中的每一張人臉圖像轉換為灰度圖像,由灰度圖像轉換為像素矩陣x=[xij]m×n,其中,xij表示圖像的第i行第j列的像素值,m為圖像的高(以像素為單位),n為圖像的寬(以像素為單位);
s403)、對所有灰度圖像的像素矩陣進行去均值處理,其計算式為:
s404)、將去均值處理後的像素矩陣x輸入到卷積神經網絡模型中;
s405)、對輸入卷積層的灰度圖像的像素矩陣進行卷積計算,計算式為:
其中,i為輸入特徵圖的索引,j為輸出特徵圖的索引,nin為輸入特徵圖個數,l為網絡層的索引,表示第l層網絡的第j個輸出特徵圖,表示第l層網絡的第i個輸入特徵圖對應的卷積核,為偏置;
使用下採樣函數down對上一層輸出的特徵圖進行下採樣,計算式為:
其中,為偏置;
獲取網絡結構中最後的下採樣層輸出的一系列特徵圖將每一個特徵圖中的像素依次取出,拼接成一個向量,向量形式為:
s406)、將拼接後的向量rl作為全連接層的輸入,其計算式為:xl=f(wlrl+bl),
其中,wl表示第l層的權重矩陣,bl表示第l層的偏置;
s407)、將全連接層輸出的向量xl,經激活函數計算得到最後的預測值yi,其計算式為:
yi=g(uxl+c),
其中,u為權重矩陣,c為偏置;
s408)、使用交叉熵損失函數,計算預測值yi與真實值的損失函數值,並最小化損失函數值,其計算式為:
其中,i為人臉圖像數據的索引,j為人臉圖像數據所屬8類情緒標識的索引;
s408)、通過隨機梯度下降法,調整網絡權重k、w、u和偏置a、β、b、c,根據更新後的網絡權重k、w、u和偏置a、β、b、c,重新計算上述損失函數值,不斷迭代直至損失函數值不再減小或到達設定的迭代次數,得到訓練好的基於卷積神經網絡的人臉情緒識別模型;
上述技術方案中,步驟s6)中,異常情緒檢測和定位還包括以下步驟:
s601)、通過情緒異常檢測和定位模型,獲取人群情緒的預測結果是否異常;
s602)、若預測結果標識為異常,利用人臉情緒識別模型,輸出監測視頻數據中存在異常的個體對應的情緒變化情況;
s603)、根據監測視頻數據中具體人群中個體情緒異常情況,根據出現異常的個體數情況從而判定當前視頻人群異常檢測結果屬於整體異常還是局部異常情況,若出現異常的個體數超過檢測到的個體數的50%,則判定當前視頻人群異常檢測結果屬於整體異常。
上述實施例和說明書中描述的只是說明本發明的原理和最佳實施例,在不脫離本發明精神和範圍的前提下,本發明還會有各種變化和改進,這些變化和改進都落入要求保護的本發明範圍內。