基於事件驅動的仿生目標識別系統的製作方法
2023-06-06 21:17:51 2

本發明涉及圖像處理技術領域,尤其涉及一種基於AER圖像傳感器的後端仿生處理系統,具有實時、高速、並行、精確的優勢,實現目標識別追蹤的智能視覺圖像應用。
背景技術:
視覺傳感器廣泛應用於科學研究、國防安全、工業生產和日常生活等領域。視覺傳感技術結合圖像處理和網絡技術,承載了物聯網中絕大部分的信息獲取任務,日益成為關係到科研、國防、生產和生活等各個領域實現智能化的重要基礎和技術支撐。而計算機視覺技術在對視覺信息的感知和處理過程中具有廣泛的應用,運動物體識別的研究價值日漸凸現。它在交通監控、周界防護、虛擬實境、人機互動及移動機器人導航等領域都有著廣泛的應用。在智能監控系統中,對運動目標實現無人檢測、監控是當今研究的熱點問題,涉及到圖像獲取、圖像處理、模式識別和人工智慧等多領域的核心技術。
傳統的目標識別系統包括圖像採集和後端處理系統,參考圖1,圖像採集多採用CMOS圖像傳感器採集圖像,後端處理系統包括預處理、特徵提取形狀及識別過程。後端處理系統讀取圖像信息後,首先採用平滑濾波對圖像進行預處理,而圖像信息處理的方法有很多,對於仿生目標識別,最初的提取特徵算法有背景差分法、幀間差分法、光流法、數學形態學法等,識別過程通過BP神經網絡等簡單網絡進行分類,從而最終實現的識別功能。
傳統的目標識別系統往往存在一些不足。如:圖像傳感器將採集到的數據串行向後傳輸,存在嚴重的帶寬限制;後端處理系統對圖像處理時也是逐個像素串行處理的,由於串行傳輸和串行處理的限制,傳統目標識別系統的處理速度遠遠無法滿足高速實時性需求。另外,傳統目標識別算法雖然操作簡單,但處理步驟繁多,考慮到目標形狀的多樣性,形狀模型集和計算非常複雜,不能達到目標追蹤的實時輸出,且面對複雜目標和背景噪聲幹擾大的圖像時,提取結果也不夠理想。因此,設計一種實時、高速的目標識別系統是十分必要的。
技術實現要素:
為克服現有技術的不足,針對傳統圖像採集及後端視覺處理系統所存在的問題,本發明旨在提供一種基於事件驅動的仿生目標識別系統。該系統實時採集並處理從AER圖像傳感器採集到的圖像信息,在後端仿生視覺系統處理階段始終採用基於事件的處理方式,實現目標識別功能並提供目標位置參數等信息。為此,本發明採用的技術方案是,基於事件驅動的仿生目標識別系統,包括基於地址-事件表示AER(Address-Event Representation)的圖像傳感器、後端仿生處理系統,AER圖像傳感器作為運動物體的信息採集源,採集到的圖像數據並行輸入到後端仿生處理系統中;後端仿生處理系統包括特徵提取模塊和目標識別模塊,特徵提取模塊採用基於事件驅動的特徵提取算法對輸入的圖像數據進行處理;基於事件驅動的目標識別模塊採用脈衝神經網絡SNN(Spiking Neural Network)對特徵提取模塊的輸出進行處理,提取出運動目標,計算目標位置參數,以便實時顯示出處理結果。
特徵提取模塊分為卷積處理和最大值競爭模塊,並行的卷積處理模塊提取不同方向、不同角度的特徵信息,並傳輸給最大值競爭模塊,通過獲取最明顯的特徵中心,來進一步除去冗餘信息,提取最具代表性的特徵;並行的卷積處理模塊由b個二維平面組成,也就是子模塊,每個子模塊尺寸與像素陣列相同,卷積處理過程為:選取m×n大小的Gabor卷積核,對接收到的時間標籤進行卷積,提取不同方向、不同尺度下的目標特徵信息,Gabor濾波器的頻率和方向表示接近人類視覺系統對於頻率和方向的表示,表達式為:
X=xcosθ+ysinθ (2)
Y=-xsinθ+ycosθ (3)
其中,θ是濾波器的方向,σ是高斯包絡在x軸和y軸上的標準差,λ表示復正弦函數的波長,γ為縱橫比,x和y分別為在x軸和y軸上的坐標位置,卷積的具體操作是依照傳輸順序依次讀取時間標籤,並以每個時間標籤所攜帶的位置坐標信息為中心,將卷積核上的數值加到子模塊的坐標位置及其鄰域內,鄰域範圍與卷積核尺寸相同,初始時被累加的子模塊上所有位置不賦值或默認為0;
最大值競爭模塊則是在時間標籤全部通過卷積處理模塊後,分別對卷積處理模塊中各個子模塊進行處理,將卷積處理模塊中各個子模塊得到的響應即數值與其鄰域內所用響應進行比較,只有絕對值最大的響應即峰值響應才能被提取出來,從而得到最終的特徵提取結果。
目標識別模塊選取帶洩漏的積分觸發LIF(leaky integrate-and-fire)神經元結合尖峰時間相關可塑性STDP(spike-Timing-dependent plasticity)規則,將特徵提取模塊與目標識別模塊進行全連接,b個子模塊的每個坐標位置都與脈衝神經網絡的輸入一一對應,使特徵信息傳入神經網絡輸入層中,脈衝神經網絡含有a個輸入層,c個隱含層,d個輸出層,隱含層節點個數為e個,輸出層節點個數即目標神經元個數與設定可識別目標種類一致;通過在神經網絡中反覆的訓練學習,最終輸出目標類別並提供目標位置參數信息。
目標識別模塊挑選特徵提取模塊中峰值響應最大的p個輸入到神經網絡進行訓練,首先經過時間優先脈衝神經元的轉換,將響應轉換為時間,響應越大,時間越小,越快傳輸到膜中,具體為挑選出所有輸入中最大的響應R,設置最後一個神經元輸入時間為T,則每個輸入脈衝ri根據公式4計算其輸入時間ti:
而神經網絡中激活函數K為:
τm和τs分別代表膜積分的衰退時間常數和突觸脈衝的衰退時間常數,V0為標準化的突觸後電位,t為當前時間,ti為第i個輸入突觸的激發時間,各突觸後電位PSP(postsynaptic potential)權重為ωi,Vrest為休眠時神經元的膜勢能,最終得到的任意時間神經元的膜勢能為:
隨著時間的推移,突觸後電位PSP(postsynaptic potential)即K(t)不斷疊加,使膜勢能V(t)不斷升高,當達到閾值時則被觸發並產生輸出,在訓練過程中,需要不斷調節權值ωi使應該觸發的點觸發,不應該觸發的點休眠,測試過程直接統計哪類目標神經元被觸發即可,從而確定最終的目標分類。
本發明的特點及有益效果是:
在圖像信息採集及目標識別基礎上提出基於事件驅動的仿生目標識別系統,突破了原有圖像處理基於「幀」的串行處理模式,完善了基於AER方式仿生視覺系統的模型架構,減少處理數據量及冗餘信息,大幅度提升視覺系統的等效處理幀頻,滿足了高速實時性的需求。
附圖說明:
圖1傳統目標識別系統流程圖。
圖2特徵提取模塊示意圖。
圖3神經網絡示意圖。
圖4基於AER方式仿生視覺系統架構圖。
具體實施方式
本發明的構思是:利用人眼對運動物體敏感的特質,模仿視覺系統的工作機制,減小傳輸數據量及並行傳輸數據可以提高系統的運行速度,達到實時性需求。本發明選用基於地址-事件表示(Address-Event Representation,AER)的圖像傳感器作為運動物體的信息採集源,並將採集到的圖像數據並行輸入到後端仿生處理系統中;後端系統對接收的原始圖像數據進行快速並行計算處理,提取出運動目標,計算目標位置參數,並實時顯示出處理結果。後端仿生處理系統包含兩大模塊,特徵提取模塊和目標識別模塊。
特徵提取模塊的輸入數據由具有N×N像素陣列的AER圖像傳感器提供,其中N為自然數,數據產生時附帶時間標籤,時間標籤僅包含時間信息和位置坐標信息,基於事件驅動的特徵提取算法對依次輸入的時間標籤進行處理。
基於事件驅動的特徵提取模塊的工作過程如下,分為卷積處理和最大值競爭模塊,參考圖2。並行的卷積處理模塊提取不同方向、不同角度的特徵信息,並傳輸給最大值競爭模塊,通過獲取最明顯的特徵中心,來進一步除去冗餘信息,提取最具代表性的特徵。並行的卷積處理模塊由多個二維平面組成,也就是子模塊,本發明定義該模塊含有b個子模塊,每個子模塊尺寸與像素陣列相同,參考圖3,卷積處理主要方法為:選取m×n大小的Gabor卷積核(不同子模塊的m、n數值可能不同),對接收到的時間標籤進行卷積,提取不同方向、不同尺度下的目標特徵信息,Gabor濾波器的頻率和方向表示接近人類視覺系統對於頻率和方向的表示,表達式為:
X=xcosθ+ysinθ (2)
Y=-xsinθ+ycosθ (3)
其中,θ是濾波器的方向,σ是高斯包絡在x軸和y軸上的標準差,λ表示復正弦函數的波長,γ為縱橫比,x和y分別為在x軸和y軸上的坐標位置。卷積的具體操作是依照傳輸順序依次讀取時間標籤,並以每個時間標籤所攜帶的位置坐標信息為中心,將卷積核上的數值加到子模塊的坐標位置及其鄰域內,鄰域範圍與卷積核尺寸相同。初始時被累加的子模塊上所有位置不賦值或默認為0。
最大值競爭模塊則是在時間標籤全部通過卷積處理模塊後,分別對卷積處理模塊中各個子模塊進行處理,將卷積處理模塊中各個子模塊得到的響應(即數值)與其鄰域內所用響應進行比較,只有絕對值最大的響應即峰值響應才能被提取出來,從而得到最終的特徵提取結果。
基於事件驅動的目標識別模塊選取脈衝神經網絡(Spiking Neural Network,SNN)對圖像進行處理。脈衝神經網絡為第三類神經網絡,引入了時間的概念,可以很好的描述時間和空間上的行為。目標識別模塊選取帶洩漏的積分觸發(leaky integrate-and-fire,LIF)神經元結合尖峰時間相關可塑性(spike-Timing-dependent plasticity,STDP)規則。將特徵提取模塊與目標識別模塊進行全連接,b個子模塊的每個坐標位置都與脈衝神經網絡的輸入一一對應,使特徵信息傳入神經網絡輸入層中,脈衝神經網絡含有a個輸入層,c個隱含層,d個輸出層,隱含層節點個數為e個,輸出層節點個數(即目標神經元個數)與設定可識別目標種類一致。通過在神經網絡中反覆的訓練學習,最終輸出目標類別並提供目標位置參數等信息。
挑選特徵提取模塊中峰值響應最大的p個輸入到神經網絡進行訓練,首先經過時間優先脈衝神經元的轉換,將響應轉換為時間,響應越大,時間越小,越快傳輸到膜中。具體方法為挑選出所有輸入中最大的響應R,設置最後一個神經元輸入時間為T,則每個輸入脈衝ri可根據公式4計算其輸入時間ti:
而神經網絡中激活函數K為:
τm和τs分別代表膜積分的衰退時間常數和突觸脈衝的衰退時間常數,V0為標準化的突觸後電位。t為當前時間,ti為第i個輸入突觸的激發時間。各突觸後電位(postsynaptic potential,PSP)權重為ωi,Vrest為休眠時神經元的膜勢能,最終得到的任意時間神經元的膜勢能為:
隨著時間的推移,突觸後電位(postsynaptic potential,PSP)即K(t)不斷疊加,使膜勢能V(t)不斷升高,當達到閾值時則被觸發並產生輸出。在訓練過程中,需要不斷調節權值ωi使應該觸發的點觸發,不應該觸發的點休眠。測試過程直接統計哪類目標神經元被觸發即可,從而確定最終的目標分類。
基於事件驅動的仿生目標識別系統可通過Matlab編程得到,也可通過編寫Verilog代碼在FPGA等硬體中實現或進行布局布線生成版圖。
本發明的一個實例如圖4所示,是基於本實施例視覺圖像處理系統的高速目標識別追蹤算法流程。本發明所提出的運動物體識別算法支持三類運動的識別:平行移動、下蹲、跳起。首先利用AER圖像傳感器捕獲光強變化的像素點,像素陣列選用128×128解析度,特徵提取模塊含有16個卷積核,角度為、、、,尺寸為3×3,5×5,7×7,9×9。脈衝神經網絡含有1個輸入層,無隱含層,1個輸出層,隱含層節點個數為3個,挑選特徵提取模塊中100個最大的峰值響應輸入到神經網絡進行訓練,設置最後一個神經元輸入時間為1,τm和τs分別設為0.1和0.025,V0設為1,Vrest設為0,脈衝神經網絡經過充分的訓練學習完成之後就是識別過程,注意到待識別動作中的一種特殊情況(即沒有待識別區域的「空白」手勢),神經網絡將輸出空。