一種基於聲傳遞函數的聲源定位方法與流程
2023-09-20 08:27:00 4

本發明屬於信號處理技術領域,涉及麥克風陣列和聲源定位,具體涉及一種基於聲傳遞函數的聲源定位方法。
背景技術:
聲源定位在許多領域有重要的應用,比如自動語音識別、機器人以及計算聽覺場景分析等。對人而言,即使在複雜環境中,聽者依然能順利定位目標聲源,其主要利用的定位線索有雙耳時間差(interauraltimedifference,itd)和雙耳強度差(interauralleveldifference,ild)。研究人員將上述定位線索應用於麥克風陣列的聲源的定位問題中,提出了許多聲源定位方法。
一些定位方法僅利用時間定位線索。這類方法首先估計由聲源發出的信號到達各麥克風的時間差,即到達時間差(timedifferenceofarrival,tdoa),之後將tdoa信息映射到空間位置。tdoa可通過gcc(generalizedcross-correlation)、gcc-phat(generalizedcross-correlationphasedtransform)、srp(steeredresponsepower)以及srp-phat-(steeredresponsepowerphasedtransform)等方法計算得到。tdoa與空間位置的映射關係則由麥克風陣列的位置、形狀等因素決定。也有一些研究人員使用時間線索以及強度線索共同定位聲源,raspaud等人建立了通道間時間差和強度差與聲源位置之間的參數模型,根據估計得到的時間差和強度差確定目標聲源的位置。
傳遞函數刻畫了包含了時間差、強度差等定位線索,因此一些研究人員試圖利用傳遞函數實現聲源定位。keyrouz等人提出了一種基於雙麥克風的聲源定位方法,其基本思想為若且唯若使用與聲源方位對應的傳遞函數對記錄信號做逆濾波時兩個通道的逆濾波結果相同,即匹配濾波。該方法首先使用狀態空間求逆法(state-spaceinversionmethod)計算所有可能聲源位置的傳遞函數的逆,逐個使用傳遞函數的逆對記錄信號做濾波操作,計算逆濾波結果的通道間相似性,最終將聲源定位至使相關係數最大的傳遞函數對應的空間位置。由於傳遞函數的逆的計算量過大且可能存在誤差,macdonal將反卷積過程變換為卷積過程,提出新的基於傳遞函數的聲源定位算法。當只有兩個麥克風時,對於每一個候選的聲源位置,該方法將每個麥克風的記錄信號與另一個麥克風的傳遞函數卷積,之後計算卷積結果間的相關性,使相關性達到最大的傳遞函數對應的空間位置即為定位輸出結果。當麥克風個數較多時,該方法還需要將麥克風成對分組。
聲源定位任務的一個主要挑戰是如何在噪聲幹擾下定位目標聲源,即如何提高定位方法的魯棒性。麥克風陣列接收到的聲音信號通常可看作由經傳遞函數濾波的聲源信號與噪聲幹擾共同組成,即麥克風陣列接收信號的信噪比由聲源、噪聲以及傳遞函數共同決定,且傳遞函數僅與聲源位置有關,因此可將傳遞函數作為信噪比的先驗知識引入到聲源定位任務中,而現有的基於傳遞函數的聲源定位方法並未考慮到這一點。
技術實現要素:
本發明提出了一種基於聲傳遞函數的聲源定位方法,在已知所有可能聲源位置到麥克風的傳遞函數時,該方法可以根據聲傳遞函數獲取相應麥克風記錄信號信噪比的先驗信息並將該先驗信息用於聲源定位。
本發明所提的基於傳遞函數的聲源定位方法的基本思想是,使用聲傳遞函數對麥克風記錄信號做逆濾波,根據逆濾波結果的通道間相似性即可定位目標聲源。當考慮噪聲幹擾時,記錄信號不同頻率處的信噪比由聲源和噪聲的頻譜分布以及傳遞函數共同決定。若聲源和噪聲固定,記錄信號的信噪比則正比於傳遞函數的幅度。由於,傳遞函數可能存在極小值點,即在某些頻率處的幅度遠小於其平均值,可以推測記錄信號在這些頻率點上的信噪比較差。因此,在已知所有可能聲源位置的傳遞函數的基礎上,可根據傳遞函數的頻譜模式估計記錄信號中信噪比很低的頻點並將該頻點在定位之前濾除,提高聲源定位方法的魯棒性。本發明的主要創新之處在於其能根據傳遞函數的頻譜模式估計記錄信號中信噪比較差的頻段並將其濾除,從而提高了定位的魯棒性。
本發明提出的基於傳遞函數的聲源定位方法的基本框架如圖1所示,其中主要包括以下幾個部分:
計算頻域二值掩模對於每個聲源方位,根據聲源到所有麥克風的傳遞函數估計記錄信號中信噪比較低的頻點,並使用0-1二值向量對每個頻點進行表示,得到每個聲源的頻域二值掩模,其中,『1』表示該頻點的信噪比較高;『0』表示該頻點的信噪比較差;
逆濾波依次使用各個待選聲源位置的傳遞函數對記錄信號做逆濾波,逆濾波過程中需要根據與聲源位置對應傳遞函數的頻域二值掩模濾除信噪比較差的頻點,逆濾波在頻域進行;
通道間相似性計算使用皮爾遜相關係數計算逆濾波結果的通道間相似性;
決策器根據通道間相似性的計算結果估計聲源位置,其基本思路是將聲源定位至使通道間相似性最大的傳遞函數所對應的空間位置。
與現有技術相比,本發明的積極效果為:
根據傳遞函數提取記錄信號信噪比的先驗信息並將該先驗信息用於聲源定位,提高了定位方法的魯棒性。
附圖說明
圖1是基於傳遞函數的聲源定位方法的基本框圖;
圖2是實驗所用球模型以及麥克風分布示意圖;
圖3是聲源為白噪聲時本文所提方法與基線在不同聲源方位下的定位指向圖;其中,實線為本發明方法,虛線為srp-phat方法;
(a)聲源水平角為60°,(b)聲源水平角為180°,(c)聲源水平角為300°;
圖4是聲源為語音時本文所提方法與基線在不同聲源方位下的定位指向圖;其中,實線為本發明方法,虛線為srp-phat方法;
(a)聲源水平角為60°,(b)聲源水平角為180°,(c)聲源水平角為300°;
圖5是聲源為音樂時本文所提方法與基線在不同聲源方位下的定位指向圖;其中,實線為本發明方法,虛線為srp-phat方法;
(a)聲源水平角為60°,(b)聲源水平角為180°,(c)聲源水平角為300°;
圖6是本發明所提方法與基線在不同信噪比下的平均定位偏差;
(a)聲源為白噪聲,(b)聲源為語音,(c)聲源為音樂。
具體實施方式
下面參照本發明的附圖,更詳細地描述本發明的具體實施方法。
1.頻域二值掩模計算
假設聲源位於ps處,麥克風陣列由m個麥克風組成,麥克風m(1≤m≤m)的空間位置為pm,ps到pm的傳遞函數已知並表示為麥克風m記錄的信號rm可表示為:
其中,nm表示麥克風m的記錄信號中包含的噪聲,k表示頻率。記錄信號rm的信噪比可表示為
由公式(2)可知,記錄信號的信噪比由聲源、噪聲以及傳遞函數共同決定。若不考慮聲源與噪聲信號的頻譜分布,記錄信號的信噪比則正比於傳遞函數的幅度。由於散射體的特性,傳遞函數可能在某些頻率處出現零點或較小值,導致記錄信號在對應頻率處的信噪比較低。對於每個聲源位置,可根據傳遞函數的幅頻曲線估計記錄信號在各頻率處的信噪比情況,並使用0-1二值向量標識出信噪比較低的頻點,即頻域二值掩模(spectralbinarymasker,bsm)。
聲源位置ps對應的頻域二值掩模的具體計算步驟如下:
a)對每個麥克風的傳遞函數做最大值歸一化,得到歸一化傳遞函數
b)搜索m個歸一化傳遞函數在每個頻點處的幅度最小值並組成向量v
c)使用設定閾值t將向量v二值化,即可得到
2.逆濾波
逆濾波實現了系統輸出到輸入的映射,其關鍵是找出系統的衝激響應h的逆h-1,使得
h*h-1=δ(n)(7)
其中,δ(n)為單位衝激響應。h-1的求解可在時域或頻域進行。在時域上,h-1可通過求解差分方程得到,而該方法會得到結果存在不穩定等問題。一些數值優化的方法也可用於求解h-1,如最小均方差(lms)以及最小方差(ls)等。頻域上,h-1可由下式計算得到
其中,dft和idft分別表示離散傅立葉變換及其反變化。相比時域的計算方法,頻域計算的複雜度更低,因此本發明採用該方法計算傳遞函數的逆,因此逆濾波過程可表示為:
為了濾除sm中信噪比較差的頻率,將頻域二值掩模應用於上述逆濾波過程,即麥克風m記錄信號的逆濾波結果可表示為:
由於傳遞函數幅度較小甚至出現零點的頻率的bsm為0,在逆濾波過程引入bsm除可以濾除信噪比較差的頻率外,還解決了(9)中由於分母的幅度過低而使逆濾波結果不穩定的問題。
3.一致性檢測
使用傳遞函數對記錄信號做逆濾波之後,本發明使用皮爾遜相關係數計算逆濾波結果的通道間一致性,即相似程度。
由於相關係數僅適用於通道數為2的情況,對於多通道信號,本發明使用所有通道組合的相關係數的和作為其相似性度量準則,即:
4.決策器
使用不同方位對應的傳遞函數對記錄信號作逆濾波並計算逆濾波結果的通道間一致性後,聲源即可被定位到使一致性最大的傳遞函數對應的聲源方位,即
定位方法的定位性能評價
本發明使用傳遞函數生成仿真信號,分別在安靜和噪聲條件下測試所提定位方法在仿真信號上的定位性能。定位性能的評價指標包括指向性以及抗噪性能。實驗使用phat-spr作為基線。聲源信號分別選用白噪聲、語音以及音樂。噪聲情況下的信噪比變化範圍為-40db至40db。
1.傳遞函數
實驗使用剛性球作為散射體,其表面水平均勻分布有6個麥克風,如圖2所示。球半徑為8.75cm。聲源與麥克風位於同一水平面內,與球中心的距離恆定為16m。麥克風的水平角θ在5°到360°內變化,變化步長為5°。傳遞函數由duda等人給出的球模型計算得到。
2.信號仿真
實驗使用聲源卷積傳遞函數生成仿真信號,聲源信號共有三種:白噪聲、英語女聲以及帶伴奏音樂。語音中的靜音會干擾實驗,因此在實驗前手動切成其中的靜音段,其他兩個聲源保持不變。實驗向仿真信號各通道中加入同等強度的白噪聲,各通道間白噪聲相互獨立,信噪比等於仿真信號強度最大的通道的信噪比。信號的採樣率為48khz,幀長為0.43ms。每種條件(聲源位置、聲源類型)下,統計本發明所提方法與phat-spr在十幀信號上的定位結果。
3.實驗結果
噪聲情況下,本發明所提方法與基線均能準確定位聲源。圖3-圖5給出了聲源水平角度分別為60°,180°,300°時兩種定位方法的指向圖。如圖3所示,當聲源為白噪聲時,兩種方法的定位結果均具有較好的指向性;當聲源變為窄帶信號,如語音(圖4)和音樂(圖5),phat-spr指向圖的主瓣寬度明顯增大,而本發明所提方法的指向性基本保持不變。
同時,實驗統計了不同信噪比下兩種方法的平均定位偏差。如圖6(a)所示,聲源為白噪聲時,本發明所提方法稍好於基線。信噪比在-14db附近,兩種方法的定位偏差迅速降低至0°。聲源為語音或音樂時,本發明所提方法的性能並未達到預期,其主要原因是語音和音樂的能量主要集中在低頻部分,逆濾波結果的高頻部分的信噪比較差。對於語音和音樂信號,將聲源信號能量分布的先驗知識應用於頻域二值掩模,捨棄1khz以上的頻點。實驗結果如圖6(b)、(c)所示,當信噪比較低時,本發明所提方法的定位偏差明顯小於基線,具有更好的魯棒性。