新四季網

生成音頻模型的方法、設備和檢測場景類別的方法、設備的製作方法

2023-05-05 02:14:56 4

專利名稱:生成音頻模型的方法、設備和檢測場景類別的方法、設備的製作方法
技術領域:
本發明涉及音頻識別技術,更具體地,涉及生成場景音頻模型的方法和設備,以及檢測音頻所源於的場景的類別的方法和設備。
背景技術:
音頻識別技術允許從採集自特定場景的音頻信號中識別指示場景類別的信息。例如對於採集自海灘的音頻信號,從中識別出該音頻信號是採集自海灘的。音頻識別技術通常涉及兩個階段的處理。一個階段是訓練階段,另一個階段是檢測階段。在訓練階段,採集包含源於特定場景的音頻信號並且標記上相應的場景信息,從而獲得訓練樣本集。從訓練樣本集的每個樣本中提取出特徵,從而獲得特徵集。採用例如混合高斯模型、隱馬爾科夫模型等等的建模方法對特徵集進行建模,從而得到場景音頻模型。在檢測階段,從作為檢測對象的音頻信號中提取特徵,並且用通過訓練得到的場景音頻模型確定音頻信號是否採集自相應類別的場景。採集自場景的音頻信號會包含幹擾噪聲。幹擾噪聲會對訓練和檢測帶來不利的影響。為了弱化幹擾噪聲的影響,通常增加訓練樣本的數量。這增大了訓練的成本。另一個措施是通過譜減法來進行音頻增強。例如在MBerouti的「Enhancement of Speech Corrupted by Acoustic Noise」,[C], ICASSP,19791208-211中提出了一種譜減法來進行音頻增強,以處理寬帶噪聲,其中採用調節噪聲功率譜大小的係數和增強語音功率譜的最小值的限制, 從而提高了譜減法的性能。但其修正係數和最小值根據經驗確定,適應性較差。譜減法雖然在一定程度上能出去除部分的幹擾噪聲,但是也會同時去除一些有用的譜特徵。因此,也會對場景音頻模型的訓練帶來一些負面的影響。

發明內容
本發明的一個實施例是一種生成場景音頻模型的設備,包括幅度譜計算裝置,針對同一類別的場景音頻的多個樣本中的每個樣本,計算所述樣本的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區間的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區間所述一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於所述一對頻率區間的幅度譜之間的頻率區間;噪聲估計裝置,通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上所述樣本的每個分段的噪聲功率; 濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除; 特徵提取裝置,從經過所述濾波裝置處理的所述幅度譜中提取音頻特徵;和訓練裝置,根據所提取的音頻特徵訓練出場景音頻模型。本發明的一個實施例是一種生成場景音頻模型的方法,包括針對同一類別的場景音頻的多個樣本中的每個樣本,計算所述樣本的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區間的幅度譜;在每個幀的幅度譜中識別滿足下述條件的一對頻率區間所述一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於所述一對頻率區間的幅度譜之間的頻率區間;通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上所述樣本的每個分段的噪聲功率;通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除;從經過所述濾波裝置處理的所述幅度譜中提取音頻特徵;和根據所提取的音頻特徵訓練出場景音頻模型。本發明的一個實施例是一種檢測音頻所源於的場景的類別的設備,包括幅度譜計算裝置,計算輸入音頻的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區間的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區間所述一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於所述一對頻率區間的幅度譜之間的頻率區間;噪聲估計裝置,通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上所述輸入音頻的每個分段的噪聲功率;濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除;特徵提取裝置,從經過所述濾波裝置處理的所述幅度譜中提取音頻特徵;和檢測裝置,利用場景音頻模型,根據所提取的音頻特徵檢測所述輸入音頻所源於的場景的類別。本發明的一個實施例是一種檢測音頻所源於的場景的類別的方法,包括計算輸入音頻的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區間的幅度譜;在每個幀的幅度譜中識別滿足下述條件的一對頻率區間所述一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於所述一對頻率區間的幅度譜之間的頻率區間; 通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上所述輸入音頻的每個分段的噪聲功率;通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除;從經過所述濾波裝置處理的所述幅度譜中提取音頻特徵;和利用場景音頻模型,根據所提取的音頻特徵檢測所述輸入音頻所源於的場景的類別。


參照下面結合附圖對本發明實施例的說明,會更加容易地理解本發明的以上和其它目的、特點和優點。在附圖中,相同的或對應的技術特徵或部件將採用相同或對應的附圖標記來表示。在附圖中不必依照比例繪製出單元的尺寸和相對位置。圖1是示出根據本發明一個實施例的生成場景音頻模型的設備的示例性結構的框圖。圖2是示出幅度譜計算裝置計算的幀的幅度譜的示例的示意圖。圖3是示出幅度譜計算裝置計算的分段的各個幀的幅度譜的示例的示意圖。圖4是示出在幀的幅度譜中尋找突變的方法的示例的示意圖。圖5是示出根據本發明一個實施例的生成場景音頻模型的方法的示例性過程的流程圖。圖6是示出根據本發明一個實施例的檢測音頻所源於的場景的類別的設備的示例性結構的框圖。
圖7是示出根據本發明一個實施例的檢測音頻所源於的場景的類別的方法的示例性過程的流程圖。圖8是示出其中實現本發明的計算機的示例性結構的框圖。
具體實施例方式本文中所用的術語,僅僅是為了描述特定的實施例,而不意圖限定本發明。本文中所用的單數形式的「一」和「該」,旨在也包括複數形式,除非上下文中明確地另行指出。還要知道,「包含」一詞在本說明書中使用時,說明存在所指出的特徵、整體、步驟、操作、單元和/或組件,但是並不排除存在或增加一個或多個其它特徵、整體、步驟、操作、單元和/或組件,以及/或者它們的組合。以下參照按照本發明實施例的方法、設備的流程圖和/或框圖描述本發明。應當注意,為了清楚的目的,附圖和說明中省略了與本發明無關的、本領域普通技術人員已知的部件和處理的表示和描述。流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由電腦程式指令實現。這些電腦程式指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器,從而生產出一種機器,使得通過計算機或其它可編程數據處理裝置執行的這些指令,產生實現流程圖和/或框圖中的方框中規定的功能/操作的裝置。也可以把這些電腦程式指令存儲在能指令計算機或其它可編程數據處理裝置以特定方式工作的計算機可讀介質中,這樣,存儲在計算機可讀介質中的指令產生一個包括實現流程圖和/或框圖中的方框中規定的功能/操作的指令裝置(instruction means) 的製造品。也可以把電腦程式指令加載到計算機或其它可編程數據處理裝置上,使得在計算機或其它可編程數據處理裝置上執行一系列操作步驟,以產生計算機實現的過程,從而在計算機或其它可編程裝置上執行的指令就提供實現流程圖和/或框圖中的方框中規定的功能/操作的過程。應當明白,附圖中的流程圖和框圖,圖示了按照本發明各種實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中, 方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如,兩個接連地表示的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基於硬體的系統來實現,或者可以用專用硬體與計算機指令的組合來實現。圖1是示出根據本發明一個實施例的生成場景音頻模型的設備100的示例性結構的框圖,其中一個場景音頻模型用於檢測同一類別的特定場景。如圖1所示,設備100包括幅度譜計算裝置101、突變識別裝置102、噪聲估計裝置 103、濾波裝置104、特徵提取裝置105和訓練裝置106。在開始訓練之前,從同一類別的特定場景採集多個音頻樣本(下文中簡稱為樣本)。幅度譜計算裝置101針對同一類別的場景音頻的多個樣本中的每個樣本,計算該樣本的每個分段的每個幀的幅度譜107,其中每個幀的幅度譜107包括各個頻率區間的幅度譜。樣本通常被採集為時域上的音頻流。幅度譜計算裝置101可以將樣本的音頻流劃分為具有相同時間間隔的音頻流片段(下文中簡稱為分段)。分段的時間間隔例如可以為 0. 5秒。進一步地,幅度譜計算裝置101可以將每個分段劃分為多個具有相同時間間隔的幀。幀的時間間隔例如可以為10到20毫秒。應當明白,上述分段和幀的具體時間間隔僅僅是示例。可以根據訓練和檢測成本的限制、檢測性能的要求等因素來確定相適應的分段和幀時間間隔。幅度譜計算裝置101可以通過利用傅立葉變換將幀從時域變換到頻域來獲得幀的幅度譜107。進一步地,幅度譜計算裝置101可以將樣本的頻域劃分為多個寬度相同或不同的頻率區間。例如,假設樣本的頻域為0 8kHz,可以將該頻域劃分為512個寬度相同的頻率區間,每個頻率區間的寬度為16Hz。應當明白,上述頻率區間的具體劃分僅僅是示例。 可以根據場景音頻的頻域特性來確定頻率區間的劃分。相應地,幅度譜計算裝置101可以獲得表徵頻率區間內各頻率的幅度譜的概況的幅度譜,以作為該頻率區間的幅度譜。可以通過各種方式來獲得表徵頻率區間內各頻率的幅度譜的概況的幅度譜。例如,表徵頻率區間內各頻率的幅度譜的概況的幅度譜可以是頻率區間內各頻率的幅度譜的均值、頻率區間內最大幅度譜和最小幅度譜的中值、頻率區間內最大幅度譜、最小幅度譜或頻率區間內最大幅度譜和最小幅度譜之間的任意幅度譜,等等。圖2是示出幅度譜計算裝置101計算的幀的幅度譜的示例的示意圖。如圖2所示, 縱座標軸表示幅度譜,橫座標軸表示頻率區間。幀的幅度譜包括各個頻率區間1至η的相應幅度譜。圖3是示出幅度譜計算裝置101計算的分段的各個幀的幅度譜的示例的示意圖。 如圖3所示,對於每個頻率區間1至η,縱座標軸表示幅度譜,橫座標軸表示分段的各個幀。 不同頻率區間的相同橫座標位置的幅度譜構成相應幀的幅度譜,例如粗線框內的各個幅度譜構成幀5的幅度譜。回到圖1,突變識別裝置102在每個幀的幅度譜中識別滿足下述條件的一對頻率區間這一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於這一對頻率區間的幅度譜之間的頻率區間。上述條件也稱為突變條件。上述一對頻率區間的幅度譜從低到高的變化也稱為突變。可以通過各種方法來找到這樣的一對頻率區間。圖4是示出在幀的幅度譜中尋找突變的方法的示例的示意圖。如圖4所示,可以將幀的幅度譜中各個頻率區間的幅度譜從左至右按照從小到大的順序排序,其中頻率區間A的幅度譜最小,頻率區間B的幅度譜最大。可以評估在通過排序獲得的頻率區間的序列中各個相鄰頻率區間的幅度譜之差是否超過預定程度。如果超過預定程度,則將該相鄰頻率區間識別為滿足條件的一對頻率區間。可以根據各種準則來確定一對頻率區間的幅度譜之差超過預定程度。例如,可以在一對頻率區間的幅度譜之差超過預定閾值的情況下,確定幅度譜之差超過預定程度。例如,可以在或一對頻率區間的幅度譜之差與幀的幅度譜中的最大幅度譜的比值超過預定閾值的情況下,確定幅度譜之差超過預定程度。在圖4所示的示例中,頻率區間xl和χ2的幅度譜之差超過預定程度,因而被識別為滿足條件的一對頻率區間。
回到圖1,噪聲估計裝置103通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間(例如,圖4所示的頻率區間xl和x2)的幅度譜中的較大幅度譜(例如,圖4所示的頻率區間X2的幅度譜)的頻率區間(例如,圖4所示的頻率區間x2左邊的頻率區間) 的音頻信號識別為噪聲,估計在每個頻率區間上樣本的每個分段的噪聲功率。如上所述,噪聲估計裝置103能夠將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲。因此,對於同一頻率區間,如果該頻率區間在一個幀的幅度譜中的幅度譜小於在該幀的幅度譜中識別的一對頻率區間的幅度譜中的較大幅度譜,則能夠確定這個幀中在該頻率區間上的噪聲功率。例如,在圖3所示的例子中,假設在幀5的幅度譜中,頻率區間3和2是所識別的一對頻率區間,頻率區間2的幅度譜是較大的幅度譜,並且頻率區間1的幅度譜小於頻率區間2的幅度譜,則能夠根據頻率區間1在幀5的幅度譜確定幀5中在頻率區間1上的噪聲功率。每個頻率區間上的噪聲通常具有在時域上保持基本穩定的特性。在能夠確定相同頻率區間上分段的部分幀的噪聲功率的情況下,根據這樣的特性,能夠估計出整個分段中相同頻率區間上的噪聲功率。這允許通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜,即該噪聲功率的估計所基於的分段的頻率區間的幅度譜中。可以通過各種方法來根據上述特性估計噪聲功率。例如,如果一個分段被劃分為 Nframe個幀,並且有Nbel。w個幀的頻率區間F的音頻信號被識別為噪聲,那麼估計的噪聲可以
是 Abelow/Nbelow,其中 A
below 是這Ntel。w個幀的頻率區間F的幅度譜之和。濾波裝置104通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜,即該噪聲功率的估計所基於的分段的頻率區間的幅度譜中去除。特徵提取裝置105從經過濾波裝置104處理的幅度譜中提取音頻特徵。訓練裝置106根據所提取的音頻特徵訓練出場景音頻模型。圖5是示出根據本發明一個實施例的生成場景音頻模型的方法500的示例性過程的流程圖,其中一個場景音頻模型用於檢測同一類別的特定場景。如圖5所示,方法500從步驟501開始。在步驟503,針對同一類別的場景音頻的多個樣本中的當前樣本,計算該樣本的當前分段的當前幀的幅度譜,其中幀的幅度譜包括各個頻率區間的幅度譜。樣本通常被採集為時域上的音頻流。可以將樣本的音頻流劃分為具有相同時間間隔的分段。分段的時間間隔例如可以為0.5秒。進一步地,可以將每個分段劃分為多個具有相同時間間隔的幀。幀的時間間隔例如可以為10到20毫秒。應當明白,上述分段和幀的具體時間間隔僅僅是示例。可以根據訓練和檢測成本的限制、檢測性能的要求等因素來確定相適應的分段和幀時間間隔。可以通過利用傅立葉變換將幀從時域變換到頻域來獲得幀的幅度譜。進一步地, 可以將樣本的頻域劃分為多個寬度相同或不同的頻率區間。例如,假設樣本的頻域為0 8kHz,可以將該頻域劃分為512個寬度相同的頻率區間,每個頻率區間的寬度為16Hz。應當明白,上述頻率區間的具體劃分僅僅是示例。可以根據場景音頻的頻域特性來確定頻率區間的劃分。相應地,可以獲得表徵頻率區間內各頻率的幅度譜的概況的幅度譜,以作為該頻率區間的幅度譜。可以通過各種方式來獲得表徵頻率區間內各頻率的幅度譜的概況的幅度譜。例如,表徵頻率區間內各頻率的幅度譜的概況的幅度譜可以是頻率區間內各頻率的幅度譜的均值、頻率區間內最大幅度譜和最小幅度譜的中值、頻率區間內最大幅度譜、最小幅度譜或頻率區間內最大幅度譜和最小幅度譜之間的任意幅度譜,等等。在步驟505,在當前幀的幅度譜中識別滿足下述條件的一對頻率區間這一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於這一對頻率區間的幅度譜之間的頻率區間。可以根據各種準則來確定一對頻率區間的幅度譜之差超過預定程度。例如,可以在一對頻率區間的幅度譜之差超過預定閾值的情況下,確定幅度譜之差超過預定程度。例如,可以在或一對頻率區間的幅度譜之差與幀的幅度譜中的最大幅度譜的比值超過預定閾值的情況下,確定幅度譜之差超過預定程度。在步驟507,確定是否計算了當前分段的所有幀的幅度譜。如果是,則方法500前進到步驟509,否則返回步驟503計算下一幀的幅度譜。在步驟509,通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上樣本的當前分段的噪聲功率。如上所述,能夠將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲。因此,對於同一頻率區間,如果該頻率區間在一個幀的幅度譜中的幅度譜小於在該幀的幅度譜中識別的一對頻率區間的幅度譜中的較大幅度譜,則能夠確定這個幀中在該頻率區間上的噪聲功率。每個頻率區間上的噪聲通常具有在時域上保持基本穩定的特性。在能夠確定相同頻率區間上分段的部分幀的噪聲功率的情況下,根據這樣的特性,能夠估計出整個分段中相同頻率區間上的噪聲功率。這允許通過譜減法從分段中去除所估計的噪聲功率。可以通過各種方法來根據上述特性估計噪聲功率。例如,如果一個分段被劃分為 Nframe個幀,並且有Nbel。w個幀的頻率區間F的音頻信號被識別為噪聲,那麼估計的噪聲可以
是 Abelow/Nbelow,其中 A
below 是這Ntel。w個幀的頻率區間F的幅度譜之和。在步驟511,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜,即該噪聲功率的估計所基於的分段的頻率區間的幅度譜中去除。在步驟513,確定是否對當前樣本的所有分段的幅度譜進行了濾波處理。如果是, 則方法500前進到步驟515,否則返回步驟503計算當前樣本的下一分段的各個幀的幅度
■i並曰O在步驟515,確定是否對所有樣本的幅度譜進行了濾波處理。如果是,則方法500 前進到步驟517,否則返回步驟503計算下一樣本的分段的幀的幅度譜。在步驟517,從經過步驟511處理的幅度譜中提取音頻特徵。在步驟519,根據所提取的音頻特徵訓練出場景音頻模型。方法在步驟521結束。發明人通過觀察發現,在噪聲與信號並存的情況下,信號加噪聲的幅度譜要比噪聲的幅度譜大很多。在本發明的上述和下面要描述的實施例中,通過找到幀的幅度譜中的突變並且將幅度譜低於突變後的幅度譜的頻率區間識別為噪聲信號主導的頻率區間,能夠更加準確地估計噪聲。相應地,經過濾波的場景音頻能夠保留更加能夠表徵場景音頻的譜特徵。
因而,能夠去除幹擾噪聲的影響,同時也能夠保留有用譜特徵,從而保證模型訓練和檢測的高性能。在一個幀的幅度譜中,也可能識別不出滿足條件的一對頻率區間。在這樣的情況下,在結合圖1描述的設備和結合圖5描述的方法的進一步的實施例中,在噪聲估計裝置 103和步驟509的處理中,可以簡單地不將該幀的所有頻率區間的音頻信號估計為噪聲,也可以根據已知的譜減法來估計該幀的所有頻率區間上的噪聲功率。在一個幀的幅度譜中,也可能存在多對滿足突變條件的頻率區間。將幅度譜較低的突變涉及的頻率區間識別為一對頻率區間,會使得較少的頻率區間被識別為噪聲信號主導的(也就是說,較多的頻率區間被識別為音頻信號主導的)。將幅度譜較高的突變涉及的頻率區間識別為一對頻率區間,會使得較多的頻率區間被識別為噪聲信號主導的(也就是說,較少的頻率區間被識別為音頻信號主導的)。過多或過少的頻率區間被識別為噪聲信號主導的都不符合實際情況。在結合圖1描述的設備和結合圖5描述的方法的進一步的實施例中,在突變識別裝置102和步驟505的處理中,可以在存在滿足突變條件的多對頻率區間的情況下,選擇這樣的一對頻率區間在相應幀的幅度譜中,幅度譜小於該對頻率區間的幅度譜中的較大幅度譜的頻率區間的比例接近預定值。預定值可以根據經驗來確定,也可以通過對場景音頻進行分析來獲得。在一個優選實施例中,預定值可以是50 %至70 %的範圍內的值,例如50%、60%或70%。在前面的實施例中,通過將分段的各幀的幅度譜中幅度譜小於滿足突變條件的一對頻率區間的幅度譜中的較大幅度譜的頻率區間識別為噪聲主導的。然而也可能存在即使識別出滿足突變條件的一對頻率區間,但幅度譜大於該對頻率區間的幅度譜中的較小幅度譜的頻率區間實際是噪聲主導的情形。在這樣的情況下,幅度譜大於該對頻率區間的幅度譜中的較小幅度譜的頻率區間的數目越多,則對噪聲功率的估計的誤差就越大。在結合圖1描述的設備和結合圖5描述的方法的進一步的實施例中,在噪聲估計裝置103和步驟 509的處理中,對於每個頻率區間,如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較高,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較低;如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較低,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較高。在一個分段的Nframe個幀中,通常認為如果同一頻率區間上音頻信號是居主導地位的,那麼在Nftanre個幀的幅度譜中該頻率區間的幅度譜大於相應的所識別的一對頻率區間的幅度譜中的較大幅度譜的次數應在一個最低限之上。可以通過次數與Nftame的比值,或者次數與各個頻率區間的相應次數的最大值的比值是否超過一個閾值來確定是否在最低限之上。如果比值超過閾值,則確定次數較高,否則確定次數較低。如果確定次數較高,那麼在相應頻率區間上音頻信號居主導地位的可能性就越高 (噪聲居主導地位的可能性就越低)。相應地,可以把該頻率區間上的噪聲功率估計得相對較低。估計得相對較低是指如果將該頻率區間上的噪聲功率估計為S,那麼考慮到該頻率區間上音頻信號居主導地位的可能性更高,那麼將噪聲功率估計S降低一個程度。次數越高, 那麼該程度就越大。如果確定次數較低,那麼在相應頻率區間上音頻信號居主導地位的可能性就越低(噪聲居主導地位的可能性就越高)。相應地,可以把該頻率區間上的噪聲功率估計得相對較低。估計得相對較低是指如果將該頻率區間上的噪聲功率估計為S,那麼考慮到該頻率區間上噪聲信號居主導地位的可能性更高,那麼將噪聲功率估計S增大一個程度。次數越高,那麼該程度就越大。在一個進一步的實施例中,每個頻率區間η上每個樣本的每個分段的噪聲功率 NoiseAvgSpec[η]可以被估計為
『 overAvgSpec
(η) > 0.9 · Max_NoverAvgSpec
NxNoiseA vgSpec[n]=-N frame(1 I NoverAvgSpec^n)) Max_NoverAvgSpec NxN frame(1 NoverAVgspec (η)) Max_NoverAvgSpec
』否則其中,Nx表示該分段的各個幀的幅度譜中幅度譜小於所識別的相應一對頻率區間的幅度譜中的較大幅度譜的頻率區間的幅度譜之和,NoverAvgSpec(n)表示該分段的各個幀的幅度譜中頻率區間η的幅度譜大於所識別的相應一對頻率區間的幅度譜中的較大幅度譜的次數之和,MAX_NoverAvgSpec表示各個頻率區間i針對該分段的N。VCTAvgSpe。⑴中的最大值。圖6是示出根據本發明一個實施例的檢測音頻所源於的場景的類別的設備600的示例性結構的框圖。如圖6所示,設備600包括幅度譜計算裝置601、突變識別裝置602、噪聲估計裝置 603、濾波裝置604、特徵提取裝置605和檢測裝置606。幅度譜計算裝置601計算輸入音頻的每個分段的每個幀的幅度譜107,其中每個幀的幅度譜107包括各個頻率區間的幅度譜。幅度譜計算裝置601可以將輸入音頻的音頻流劃分為具有相同時間間隔的分段。 分段的時間間隔例如可以為0. 5秒。進一步地,幅度譜計算裝置601可以將每個分段劃分為多個具有相同時間間隔的幀。幀的時間間隔例如可以為10到20毫秒。應當明白,上述分段和幀的具體時間間隔僅僅是示例。可以根據訓練和檢測成本的限制、檢測性能的要求等因素來確定相適應的分段和幀時間間隔。幅度譜計算裝置601可以通過利用傅立葉變換將幀從時域變換到頻域來獲得幀的幅度譜107。進一步地,幅度譜計算裝置101可以將輸入音頻的頻域劃分為多個寬度相同或不同的頻率區間。例如,假設輸入音頻的頻域為0 8kHz,可以將該頻域劃分為512 個寬度相同的頻率區間,每個頻率區間的寬度為16Hz。應當明白,上述頻率區間的具體劃分僅僅是示例。可以根據場景音頻的頻域特性來確定頻率區間的劃分。相應地,幅度譜計算裝置601可以獲得表徵頻率區間內各頻率的幅度譜的概況的幅度譜,以作為該頻率區間的幅度譜。可以通過各種方式來獲得表徵頻率區間內各頻率的幅度譜的概況的幅度譜。例如,表徵頻率區間內各頻率的幅度譜的概況的幅度譜可以是頻率區間內各頻率的幅度譜的均值、頻率區間內最大幅度譜和最小幅度譜的中值、頻率區間內最大幅度譜、最小幅度譜或頻率區間內最大幅度譜和最小幅度譜之間的任意幅度譜,等等。突變識別裝置602在每個幀的幅度譜中識別滿足下述條件的一對頻率區間這一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於這一對頻率區間的幅度譜之間的頻率區間。上述條件也稱為突變條件。上述一對頻率區間的幅度譜從低到高的變化也稱為突變。可以根據各種準則來確定一對頻率區間的幅度譜之差超過預定程度。例如,可以在一對頻率區間的幅度譜之差超過預定閾值的情況下,確定幅度譜之差超過預定程度。例如,可以在或一對頻率區間的幅度譜之差與幀的幅度譜中的最大幅度譜的比值超過預定閾值的情況下,確定幅度譜之差超過預定程度。噪聲估計裝置603通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上輸入音頻的每個分段的噪聲功率。如上所述,噪聲估計裝置603能夠將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲。因此,對於同一頻率區間,如果該頻率區間在一個幀的幅度譜中的幅度譜小於在該幀的幅度譜中識別的一對頻率區間的幅度譜中的較大幅度譜,則能夠確定這個幀中在該頻率區間上的噪聲功率。每個頻率區間上的噪聲通常具有在時域上保持基本穩定的特性。在能夠確定相同頻率區間上分段的部分幀的噪聲功率的情況下,根據這樣的特性,能夠估計出整個分段中相同頻率區間上的噪聲功率。這允許通過譜減法從分段中去除所估計的噪聲功率。可以通過各種方法來根據上述特性估計噪聲功率。例如,如果一個分段被劃分為 Nframe個幀,並且有Nbel。w個幀的頻率區間F的音頻信號被識別為噪聲,那麼估計的噪聲可以是 Abelow/Nbelow,其中 A
below 是這Ntel。w個幀的頻率區間F的幅度譜之和。濾波裝置604通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜,即該噪聲功率的估計所基於的分段的頻率區間的幅度譜中去除。特徵提取裝置605從經過濾波裝置604處理的幅度譜中提取音頻特徵。檢測裝置606利用場景音頻模型,根據所提取的音頻特徵檢測輸入音頻所源於的場景的類別。圖7是示出根據本發明一個實施例的檢測音頻所源於的場景的類別的方法的示例性過程的流程圖。如圖7所示,方法700從步驟701開始。在步驟703,計算輸入音頻的每個分段的每個幀的幅度譜,其中幀的幅度譜包括各個頻率區間的幅度譜。可以將輸入音頻的音頻流劃分為具有相同時間間隔的分段。分段的時間間隔例如可以為0. 5秒。進一步地,可以將每個分段劃分為多個具有相同時間間隔的幀。幀的時間間隔例如可以為10到20毫秒。應當明白,上述分段和幀的具體時間間隔僅僅是示例。可以根據訓練和檢測成本的限制、檢測性能的要求等因素來確定相適應的分段和幀時間間隔。可以通過利用傅立葉變換將幀從時域變換到頻域來獲得幀的幅度譜。進一步地, 可以將輸入音頻的頻域劃分為多個寬度相同或不同的頻率區間。例如,假設輸入音頻的頻域為0 8kHz,可以將該頻域劃分為512個寬度相同的頻率區間,每個頻率區間的寬度為 16Hz。應當明白,上述頻率區間的具體劃分僅僅是示例。可以根據場景音頻的頻域特性來確定頻率區間的劃分。相應地,可以獲得表徵頻率區間內各頻率的幅度譜的概況的幅度譜, 以作為該頻率區間的幅度譜。可以通過各種方式來獲得表徵頻率區間內各頻率的幅度譜的概況的幅度譜。例如,表徵頻率區間內各頻率的幅度譜的概況的幅度譜可以是頻率區間內各頻率的幅度譜的均值、頻率區間內最大幅度譜和最小幅度譜的中值、頻率區間內最大幅度譜、最小幅度譜或頻率區間內最大幅度譜和最小幅度譜之間的任意幅度譜,等等。在步驟705,在當前幀的幅度譜中識別滿足下述條件的一對頻率區間這一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於這一對頻率區間的幅度譜之間的頻率區間。可以根據各種準則來確定一對頻率區間的幅度譜之差超過預定程度。例如,可以在一對頻率區間的幅度譜之差超過預定閾值的情況下,確定幅度譜之差超過預定程度。例如,可以在或一對頻率區間的幅度譜之差與幀的幅度譜中的最大幅度譜的比值超過預定閾值的情況下,確定幅度譜之差超過預定程度。在步驟707,確定是否計算了當前分段的所有幀的幅度譜。如果是,則方法700前進到步驟709,否則返回步驟703計算下一幀的幅度譜。在步驟709,通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上輸入音頻的當前分段的噪聲功率。如上所述,能夠將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲。因此,對於同一頻率區間,如果該頻率區間在一個幀的幅度譜中的幅度譜小於在該幀的幅度譜中識別的一對頻率區間的幅度譜中的較大幅度譜,則能夠確定這個幀中在該頻率區間上的噪聲功率。每個頻率區間上的噪聲通常具有在時域上保持基本穩定的特性。在能夠確定相同頻率區間上分段的部分幀的噪聲功率的情況下,根據這樣的特性,能夠估計出整個分段中相同頻率區間上的噪聲功率。這允許通過譜減法從分段中去除所估計的噪聲功率。可以通過各種方法來根據上述特性估計噪聲功率。例如,如果一個分段被劃分為 Nframe個幀,並且有Nbel。w個幀的頻率區間F的音頻信號被識別為噪聲,那麼估計的噪聲可以
是 Abelow/Nbelow,其中 A
below 是這Ntel。w個幀的頻率區間F的幅度譜之和。在步驟711,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜,即該噪聲功率的估計所基於的分段的頻率區間的幅度譜中去除
在步驟713,確定是否對輸入音頻的所有分段的幅度譜進行了濾波處理。如果是, 則方法700前進到步驟715,否則返回步驟703計算輸入音頻的下一分段的各個幀的幅度
■i並曰O在步驟715,從經過步驟711處理的幅度譜中提取音頻特徵。在步驟717,利用場景音頻模型,根據所提取的音頻特徵檢測輸入音頻所源於的場景的類別。方法在步驟719結束。發明人通過觀察發現,在噪聲與信號並存的情況下,信號加噪聲的幅度譜要比噪聲的幅度譜大很多。在本發明的上述和下面要描述的實施例中,通過找到幀的幅度譜中的突變並且將幅度譜低於突變後的幅度譜的頻率區間識別為噪聲信號主導的頻率區間,能夠更加準確地估計噪聲。相應地,經過濾波的場景音頻能夠保留更加能夠表徵場景音頻的譜特徵。
因而,能夠去除幹擾噪聲的影響,同時也能夠保留有用譜特徵,從而保證模型訓練和檢測的高性能。在一個幀的幅度譜中,也可能識別不出滿足條件的一對頻率區間。在這樣的情況下,在結合圖6描述的設備和結合圖7描述的方法的進一步的實施例中,在噪聲估計裝置 603和步驟709的處理中,可以簡單地不將該幀的所有頻率區間的音頻信號估計為噪聲,也可以根據已知的譜減法來估計該幀的所有頻率區間上的噪聲功率。在一個幀的幅度譜中,也可能存在多對滿足突變條件的頻率區間。將幅度譜較低的突變涉及的頻率區間識別為一對頻率區間,會使得較少的頻率區間被識別為噪聲信號主導的(也就是說,較多的頻率區間被識別為音頻信號主導的)。將幅度譜較高的突變涉及的頻率區間識別為一對頻率區間,會使得較多的頻率區間被識別為噪聲信號主導的(也就是說,較少的頻率區間被識別為音頻信號主導的)。過多或過少的頻率區間被識別為噪聲信號主導的都不符合實際情況。在結合圖6描述的設備和結合圖7描述的方法的進一步的實施例中,在突變識別裝置602和步驟705的處理中,可以在存在滿足突變條件的多對頻率區間的情況下,選擇這樣的一對頻率區間在相應幀的幅度譜中,幅度譜小於該對頻率區間的幅度譜中的較大幅度譜的頻率區間的比例接近預定值。預定值可以根據經驗來確定,也可以通過對場景音頻進行分析來獲得。在一個優選實施例中,預定值可以是50 %至70 %的範圍內的值,例如50%、60%或70%。在前面的實施例中,通過將分段的各幀的幅度譜中幅度譜小於滿足突變條件的一對頻率區間的幅度譜中的較大幅度譜的頻率區間識別為噪聲主導的。然而也可能存在即使識別出滿足突變條件的一對頻率區間,但幅度譜大於該對頻率區間的幅度譜中的較小幅度譜的頻率區間實際是噪聲主導的情形。在這樣的情況下,幅度譜大於該對頻率區間的幅度譜中的較小幅度譜的頻率區間的數目越多,則對噪聲功率的估計的誤差就越大。在結合圖6描述的設備和結合圖7描述的方法的進一步的實施例中,在噪聲估計裝置603和步驟 709的處理中,對於每個頻率區間,如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較高,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較低;如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較低,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較高。在一個分段的Nframe個幀中,通常認為如果同一頻率區間上音頻信號是居主導地位的,那麼在Nftame個幀的幅度譜中該頻率區間F的幅度譜大於相應的所識別的一對頻率區間的幅度譜中的較低幅度譜的次數應在一個最低限之上。可以通過次數與Nftame的比值,或者次數與各個頻率區間的相應次數的最大值的比值是否超過一個閾值來確定是否在最低限之上。如果比值超過閾值,則確定次數較高,否則確定次數較低。如果確定次數較高,那麼在相應頻率區間上音頻信號居主導地位的可能性就越高 (噪聲居主導地位的可能性就越低)。相應地,可以把該頻率區間上的噪聲功率估計得相對較低。估計得相對較低是指如果將該頻率區間上的噪聲功率估計為S,那麼考慮到該頻率區間上音頻信號居主導地位的可能性更高,那麼將噪聲功率估計S降低一個程度。次數越高, 那麼該程度就越大。如果確定次數較低,那麼在相應頻率區間上音頻信號居主導地位的可能性就越低(噪聲居主導地位的可能性就越高)。相應地,可以把該頻率區間上的噪聲功率估計得相對較低。估計得相對較低是指如果將該頻率區間上的噪聲功率估計為S,那麼考慮到該頻率區間上噪聲信號居主導地位的可能性更高,那麼將噪聲功率估計S增大一個程度。次數越高,那麼該程度就越大。在一個進一步的實施例中,每個頻率區間η上每個樣本的每個分段的噪聲功率 NoiseAvgSpec[η]可以被估計為
權利要求
1.一種生成場景音頻模型的設備,包括幅度譜計算裝置,針對同一類別的場景音頻的多個樣本中的每個樣本,計算所述樣本的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區間的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區間所述一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於所述一對頻率區間的幅度譜之間的頻率區間;噪聲估計裝置,通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上所述樣本的每個分段的噪聲功率;濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除;特徵提取裝置,從經過所述濾波裝置處理的幅度譜中提取音頻特徵;和訓練裝置,根據所提取的音頻特徵訓練出場景音頻模型。
2.如權利要求1所述的設備,其中所述突變識別裝置進一步被配置為在存在滿足所述條件的多對頻率區間的情況下,選擇這樣的一對頻率區間在每個幀的幅度譜中,幅度譜小於該對頻率區間的幅度譜中的較大幅度譜的頻率區間的比例接近預定值。
3.如權利要求2所述的設備,其中所述預定值在50%至70%的範圍內。
4.如權利要求1所述的設備,其中所述噪聲估計裝置進一步被配置為對於每個頻率區間,如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較高,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較低,並且如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較低,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較高。
5.如權利要求4所述的設備,其中每個頻率區間η上每個樣本的每個分段的噪聲功率 NoiseAvgSpec[η]為Γ, overA VgSpec(n)>0.9-Max_NoverAvgSpecNxNoiseA vgSpec[n]=『Nfiame-OI I ^overAvgSpec (n)) Max_NoverAvgSpec NxNfiame-ONoverAvgSpec(n)) Max_NoverAvgSpec,否則其中,Nx表示所述分段的各個幀的幅度譜中幅度譜小於所識別的相應一對頻率區間的幅度譜中的較大幅度譜的頻率區間的幅度譜之和,NoverAvgSpec (η)表示所述分段的各個幀的幅度譜中頻率區間η的幅度譜大於所識別的相應一對頻率區間的幅度譜中的較大幅度譜的次數之和,MAX_NoverAvgSpec表示各個頻率區間η針對所述分段的N。VCTAvgSpe。(n)中的最大值。
6.如權利要求1所述的設備,其中所述幅度譜之差超過預定程度包括所述差超過預定閾值,或所述差與所述幀的幅度譜中的最大幅度譜的比值超過預定閾值。
7.—種生成場景音頻模型的方法,包括針對同一類別的場景音頻的多個樣本中的每個樣本,計算所述樣本的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區間的幅度譜;在每個幀的幅度譜中識別滿足下述條件的一對頻率區間所述一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於所述一對頻率區間的幅度譜之間的頻率區間;通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上所述樣本的每個分段的噪聲功率;通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除;從經過所述濾波裝置處理的所述幅度譜中提取音頻特徵;和根據所提取的音頻特徵訓練出場景音頻模型。
8.如權利要求7所述的方法,其中所述一對頻率區間的識別包括在存在滿足所述條件的多對頻率區間的情況下,選擇這樣的一對頻率區間在每個幀的幅度譜中,幅度譜小於該對頻率區間的幅度譜中的較大幅度譜的頻率區間的比例接近預定值。
9.如權利要求8所述的方法,其中所述預定值在50%至70%的範圍內。
10.如權利要求7所述的方法,其中所述估計包括對於每個頻率區間,如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較高,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較低,並且如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較低,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較高。
11.如權利要求10所述的方法,其中每個頻率區間η上每個樣本的每個分段的噪聲功率 NoiseAvgSpec [η]為『 OverAvgSpec(n)>0.9-Max_NoverAvgSpecNxNoiseAvgSpec[n] = ·Nftame-OL I NoverAvgSpec (η)) Max_NoverAvgSpec NxNframe -0NoverAvgSpec (η)) Max—NoverAvgSpec,否則其中,Nx表示所述分段的各個幀的幅度譜中幅度譜小於所識別的相應一對頻率區間的幅度譜中的較大幅度譜的頻率區間的幅度譜之和,NoverAvgSpec (η)表示所述分段的各個幀的幅度譜中頻率區間η的幅度譜大於所識別的相應一對頻率區間的幅度譜中的較大幅度譜的次數之和,MAX_NoverAvgSpec表示各個頻率區間η針對所述分段的N。VCTAvgSpe。(n)中的最大值。
12.如權利要求7所述的方法,其中所述幅度譜之差超過預定程度包括所述差超過預定閾值,或所述差與所述幀的幅度譜中的最大幅度譜的比值超過預定閾值。
13.—種檢測音頻所源於的場景的類別的設備,包括幅度譜計算裝置,計算輸入音頻的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區間的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區間所述一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於所述一對頻率區間的幅度譜之間的頻率區間;噪聲估計裝置,通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上所述輸入音頻的每個分段的噪聲功率;濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除;特徵提取裝置,從經過所述濾波裝置處理的所述幅度譜中提取音頻特徵;和檢測裝置,利用場景音頻模型,根據所提取的音頻特徵檢測所述輸入音頻所源於的場景的類別。
14.如權利要求13所述的設備,其中所述突變識別裝置進一步被配置為在存在滿足所述條件的多對頻率區間的情況下,選擇這樣的一對頻率區間在每個幀的幅度譜中,幅度譜小於該對頻率區間的幅度譜中的較大幅度譜的頻率區間的比例接近預定值。
15.如權利要求14所述的設備,其中所述預定值在50%至70%的範圍內。
16.如權利要求13所述的設備,其中所述噪聲估計裝置進一步被配置為對於每個頻率區間,如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較高,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較低,並且如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較低,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較高。
17.如權利要求16所述的設備,其中每個頻率區間η上每個分段的噪聲功率 NoiseAvgSpec[η]為NxNoiseAvgSpec[n] 二 『Nframe.(I ι NoverAvgSpec (n)) MaX_N overAvgSpec NxNftame ·(][ ^overAvgSpec (11)) Max_N overAvgSpecOverAvgSpec,否則其中,Nx表示所述分段的各個幀的幅度譜中幅度譜小於所識別的相應一對頻率區間的幅度譜中的較大幅度譜的頻率區間的幅度譜之和,NoverAvgSpec (η)表示所述分段的各個幀的幅度譜中頻率區間η的幅度譜大於所識別的相應一對頻率區間的幅度譜中的較大幅度譜的次數之和,MAX_NoverAvgSpec表示各個頻率區間η針對所述分段的N。VCTAvgSpe。(n)中的最大值。
18.如權利要求13所述的設備,其中所述幅度譜之差超過預定程度包括所述差超過預定閾值,或所述差與所述幀的幅度譜中的最大幅度譜的比值超過預定閾值。
19.一種檢測音頻所源於的場景的類別的方法,包括計算輸入音頻的每個分段的每個幀的幅度譜,其中所述每個幀的幅度譜包括各個頻率區間的幅度譜;在每個幀的幅度譜中識別滿足下述條件的一對頻率區間所述一對頻率區間的幅度譜之差超過預定程度,並且不存在幅度譜介於所述一對頻率區間的幅度譜之間的頻率區間;通過將每個幀的幅度譜中幅度譜小於所識別的一對頻率區間的幅度譜中的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計在每個頻率區間上所述輸入音頻的每個分段的噪聲功率;通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除;從經過所述濾波裝置處理的所述幅度譜中提取音頻特徵;和利用場景音頻模型,根據所提取的音頻特徵檢測所述輸入音頻所源於的場景的類別。
20.如權利要求19所述的方法,其中所述一對頻率區間的識別包括在存在滿足所述條件的多對頻率區間的情況下,選擇這樣的一對頻率區間在每個幀的幅度譜中,幅度譜小於該對頻率區間的幅度譜中的較大幅度譜的頻率區間的比例接近預定值。
21.如權利要求20所述的方法,其中所述預定值在50%至70%的範圍內。
22.如權利要求19所述的方法,其中所述估計包括對於每個頻率區間,如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較高,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較低,並且如果在每個分段的各個幀的幅度譜中,該頻率區間的幅度譜大於所識別的一對頻率區間的幅度譜中的較大幅度譜的次數較低,則隨著所述次數的增加,將該分段的噪聲功率估計得相對較高。
23.如權利要求22所述的方法,其中每個頻率區間η上每個分段的噪聲功率 NoiseAvgSpec[η]為
24.如權利要求19所述的方法,其中所述幅度譜之差超過預定程度包括所述差超過預定閾值,或所述差與所述幀的幅度譜中的最大幅度譜的比值超過預定閾值。
全文摘要
生成音頻模型的方法、設備和檢測場景類別的方法、設備。檢測音頻所源於的場景的類別的設備包含幅度譜計算裝置,計算音頻的每個分段的每個幀的幅度譜;突變識別裝置,在每個幀的幅度譜中識別滿足下述條件的一對頻率區間其幅度譜之差超過預定程度,且不存在介於其間的幅度譜;噪聲估計裝置,通過將幅度譜小於所識別的一對頻率區間的較大幅度譜的頻率區間的音頻信號識別為噪聲,估計每個頻率區間上每個分段的噪聲功率;濾波裝置,通過譜減法把所估計的噪聲功率從相應分段的相應頻率區間的幅度譜中去除;特徵提取裝置,從濾波的幅度譜中提取音頻特徵;和檢測裝置,利用場景音頻模型,根據音頻特徵檢測輸入音頻所源於的場景的類別。
文檔編號G10L15/02GK102411930SQ20101029248
公開日2012年4月11日 申請日期2010年9月21日 優先權日2010年9月21日
發明者劉昆 申請人:索尼公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀