有效內容分類及響度估計的製作方法

2023-10-30 17:39:12 2

有效內容分類及響度估計的製作方法
【專利摘要】有效內容分類及響度估計。本文獻涉及用於對音頻信號進行編碼的方法及系統。該方法包括確定音頻信號的頻譜表示。確定頻譜表示步驟可以包括確定音頻信號的改進型離散餘弦變換（MDCT）係數或正交鏡像濾波器（QMF）濾波器組表示。所述方法還包括：使用所確定頻譜表示來對音頻信號進行編碼；基於所確定頻譜表示將音頻信號的部分分類成話音或非話音。最終，基於所述話音部分來確定音頻信號的響度度量。
【專利說明】有效內容分類及響度估計
【技術領域】
[0001]本文涉及用於音頻信號的有效內容分類以及響度估計的方法及系統。具體地，涉及音頻編碼器內的有效內容分類和柵控響度估計。
【背景技術】
[0002]例如PDA、智慧型手機、行動電話和可攜式媒體播放器等可攜式手持設備通常包括音頻和/或視頻渲染能力並且已經變為重要的娛樂平臺。無線或有線傳輸能力不斷滲透至這樣的設備向前推動了其發展。由於如高效高級音頻編碼(HE-AAC)格式等媒體傳輸和/或存儲協議的支持，媒體內容可以持續地被下載並且被存儲至可攜式手持設備，從而提供實際上數量幾乎不受限制的媒體內容。
[0003]HE-AAC是定義作為IS0/IEC14496-3中的MPEG-4音頻框架的用於數字音頻的有損數據壓縮方案。它是針對如流音頻等低比特率應用而優化了的低複雜度AACXAAC LC)的擴展。HE-AAC版本I輪廓(HE-AAC vl)使用頻帶複製(SBR)來增強頻域的壓縮效率。HE-AAC版本2框架(HE-AAC v2)將SBR與參數立體聲(PS)耦合來增強立體聲信號的壓縮效率。它是AAC+編解碼器的標準化和提升版本。
[0004]隨著數字廣播的引入，建立了時變元數據的概念，時變元數據使得能夠控制接收端處的增益值以針對具體的收聽環境來裁剪內容。一個示例是在Dolby Digital中包括的元數據，該元數據包括關於對白的一般響度歸一信息(「對白歸一」)。應當注意，貫穿本說明書及權利要求，對Dolby Digital的引用應當理解為包含Dolby Digital編碼系統和DolbyDigital Plus編碼系統兩者。
[0005]確保跨越不同內容類型和媒介格式的響度水平的一致性的一種可能是響度歸一化。響度歸一化的先決條件是信號響度的估計。在ITU-R BS.1770-1推薦標準中提出了一種響度估計方法。
[0006]ITU-R BS.1770-1推薦標準是一種在將人類聽力的心理聲學模型考慮在內的同時測量數字音頻文件的響度的方法。其提出了使用用於對收聽效果(head effect)進行建模的濾波器和高通濾波器來預處理每個聲道的音頻信號。然後，在測量間隔上估計經濾波後的信號的功率。對於多聲道音頻信號，響度被計算為所有聲道的估計功率值的加權和的對數。
[0007]ITU-R BS.1770-1推薦標準的一個缺點是所有信號類型被平等處理。長時間的靜默會降低響度結果，但是該靜默不會影響主觀的響度印象。這樣的停頓的示例可以是兩首歌曲之間的靜默。
[0008]圓滿解決該問題的簡單而有效的方法是僅將主觀上明顯的信號部分考慮在內。該方法稱為柵控。信號部分的明顯性可以基於最小能量、響度水平閾值或其他準則來確定。不同柵控方法的示例是靜默柵控、自適應閾值柵控和話音柵控。
[0009]對於柵控，通常對音頻信號執行離散傅立葉變換(DFT)和其他操作。但是，這引起不期望的附加處理工作。此外，為了對響度計算進行柵控而將音頻信號分成不同類的分類方法通常不完美，因此導致了影響響度計算的誤分類。
[0010]因此，需要改善了的音頻分類以增強柵控和響度計算。此外，期望減小柵控中的計
算工作。

【發明內容】

[0011]本申請涉及對數字音頻信號中的話音/非話音段(segment)的檢測。該檢測結果可以用於計算數字音頻信號的響度水平。通常，話音/非話音段檢測依賴於從數字音頻信號中提取的多個特徵的聚集。換言之，許多準則被使用以決定數字音頻信號段是話音還是非話音段。
[0012]通常，這些特徵中的至少一些基於計算段的頻譜。對於計算頻譜，可以使用給編碼系統施加高的計算負擔的DFT。但是，近來的研究顯示例如可以通過替代地使用改進型離散餘弦變換(MDCT)數據來避免使用DFT的顯式的頻譜計算。即，可以使用MDCT係數來確定基於對數字音頻信號段的頻譜的計算的特徵。這在產生MDCT數據的同時對數字音頻信號進行編碼的數字音頻信號編碼器的情況下尤其有利。在該情況下，來自編碼方案的MDCT數據可以用於話音/非話音檢測，從而避免數字音頻信號段的DFT。以此，由於已經可用的MDCT數據被重複使用(這使得對數字音頻信號段的DFT多餘)，所以總體計算複雜度被減小。應當注意，儘管在上述示例中MDCT數據可以有利地用於避免對數字音頻信號段的DFT，但是編碼器中的任意變換表示可以被用作頻譜表示。從而，該變換表示可以例如是MDST (改進的離散正弦變換)或MLT (改進的重疊變換)的實部或虛部。此外，頻譜表示可以包括音頻信號的正交鏡像濾波器QMF濾波器組表示。
[0013]在編碼方案產生比例因子帶能量的情況下，比例因子帶能量可以被用於基於頻譜傾斜對特徵進行確定。此外，如果編碼方案針對數字音頻信號段(例如，針對一個或多個塊)產生能量值，則替代顯式計算該能量本身，基於時域中上述段的能量的能量特徵可以使用該信息。
[0014]此外，如果頻帶複製(SBR)數據可獲得，則SBR有效負載量可以被有利地用作信號開始的指示，並且話音/非話音的信號分類可以基於提供節奏信息的、SBR有效負載量的經處理版本。因此，已經可用的SRB數據可以進一步用於對基於節奏的特徵進行確定以對數字音頻信號中的話音/非話音段進行檢測。
[0015]一般來講，如在下面進一步詳細描述的所提出的信息的重複使用減小了系統的總體計算複雜度，從而提供了協同效應。
[0016]根據一個方面，描述了一種用於對音頻信號進行編碼的方法。該方法包括確定了音頻信號的頻譜表示。確定頻譜表示可以包括確定MDCT (改進型離散餘弦變換)係數。一般地，編碼器中的任意變換表示可以用作頻譜表示。該變換表示可以例如是MDST (改進的離散正弦變換)或MLT (改進的重疊變換)的實部或虛部。此外，頻譜表示可以包括音頻信號的正交鏡像濾波器QMF濾波器組表示。
[0017]該方法還包括使用所確定的頻譜表示來對音頻信號進行編碼。音頻信號的部分可以基於所確定的頻譜表示被分類為話音或非話音，並且音頻信號的響度度量可以基於所分類的話音部分來確定，而忽略所標識的非話音部分。因此，關注於音頻信號的柵控度量是根據還用於編碼音頻信號的頻譜表示來確定。沒有針對響度估計而計算單獨的音頻信號的頻譜表示，因此編碼器中用於計算柵控響度度量的工作減小。
[0018]該方法還包括根據MDCT係數來確定偽頻譜。話音/非話音部分的分類可以至少部分地基於所確定的偽頻譜的值。從MDCT係數推導的偽頻譜可以用作對DFT頻譜的近似，DFT頻譜一般在響度估計中用於話音部分的分類。可替代地，MDCT係數可以直接用作話音/非話音分類的特徵。
[0019]該方法還可以包括確定頻譜通量方差。因為已經顯示出了頻譜通量方差是話音/非話音分類的良好特徵，所以話音/非話音部分的分類可以至少部分地基於所確定的頻譜通量方差。頻譜通量方差可以根據偽頻譜來確定。此外，頻譜通量方差可以根據MDCT係數來確定並且被證明是有用的分類特徵。
[0020]該方法還包括根據MDCT係數來確定比例因子帶能量。話音/非話音部分的分類可以至少部分地基於所確定的比例因子帶能量。比例因子帶能量通常用在對音頻信號進行編碼的編碼器中。此處，比例因子帶能量被推薦標準作為音頻信號的話音/非話音部分的分類的特徵。
[0021]該方法還包括根據比例因子帶能量來確定平均頻譜傾斜。話音/非話音部分的分類可以至少部分地基於平均頻譜傾斜。因此，提出基於比例因子帶能量來計算用於話音分類的平均頻譜傾斜特徵，其是一種非常有效的計算方法並且不需要附加頻譜信號表示的計
笪
ο
[0022]該方法還可以包括確定音頻信號的塊的能量值。該方法可以通過基於塊能量確定音頻信號的瞬態來繼續並且響應地確定音頻信號的編碼塊長度。此外，基於能量的特徵基於塊能量來確定。話音/非話音部分的分類可以至少部分地基於基於能量的特徵。因此，出於決定用於編碼音頻信號(塊切換)的適當塊大小的目的而在編碼器中計算的能量值被直接用於計算基於能量的分類特徵如停頓計數度量、短節奏和長節奏度量等。
[0023]話音/非話音部分的分類可以基於機器學習算法，尤其是AdaBoost算法。當然，也可以使用其他機器學習算法如神經網絡。
[0024]該方法還可以包括基於話音數據和非話音數據的機器學習算法的訓練，從而調節機器學習算法的參數以最小化誤差函數。在訓練期間，機器學習算法學習各個特徵的重要度，例如頻譜通量或平均頻譜傾斜，並且修改其用於評估分類期間的特徵的內部權重。
[0025]該頻譜表示可以針對短塊和/或長塊來確定。如AAC編碼器等許多編碼器針對編碼音頻信號使用不同的塊長度，並且具有基於輸入信號在不同的塊長度之間切換的能力以相對於輸入信號的屬性來調節塊長度。該方法還包括將短塊表示與用於與預定數量個短塊對應的長塊表示的幀進行校準，從而將所述預定數量個短塊的MDCT係數重新排序成長塊的幀。換言之，短塊被轉換成長塊。因為用於分類和響度計算的後續模塊僅需要處理一種塊類型，所以這可以是有益的。此外，其允許在分類和響度的計算中基於長塊的固定時間結構。
[0026]在頻譜表示包括音頻信號的正交鏡像濾波器組表示的情況下，該方法可以包括使用所確定的頻譜表示來對音頻信號的頻帶複製`參數進行編碼，並且基於所確定頻譜表示來將音頻信號的部分分類為話音或非話音。然後，基於話音部分的音頻信號的柵控度量可以被確定。類似於上述情況，這允許基於還用於編碼音頻信號的頻譜表示的柵控響度計算，這裡是針對基於高頻重構或頻帶複製技術對信號的高頻部分進行編碼。[0027]該方法還可以包括使用所確定的頻譜表示將音頻信號編碼到比特流中並且將所確定的響度度量編碼到該比特流中。因此，描述了一種編碼器，其有效地計算如對白歸一或程序參考水平等響度度量並且將其與音頻信號編碼在一起。
[0028]音頻信號可以是多聲道信號，並且該方法還可以包括下混合多聲道音頻信號並且對經下混合的信號執行分類步驟。這使得能夠基於單聲道信號計進行信號分類和/或響度測量的計算。
[0029]該方法還可以包括下採樣音頻信號並且對經下採樣的信號執行分類步驟。因此，基於經下採樣的信號進行信號分類和/或響度測量的計算進一步減少了所需的計算工作。
[0030]根據另一個方面，公開了一種執行上述方法的系統，具體地為用於將音頻信號編碼到比特流中的音頻編碼器。音頻信號可以根據HE-AAC、MP3、AAC、Dolby Digital或DolbyDigital Plus之一來編碼，或根據基於AAC的任何其他編解碼器來編碼，或者根據基於上述變換的任何其他編解碼器來編碼。
[0031 ] 該系統可以包括:MDCT計算單元，其基於改進型離散餘弦變換MDCT係數來確定音頻信號的頻譜表示；和或包括正交鏡像濾波器QMF濾波器組的SBR計算單元，其確定頻帶複製或高頻重構的頻譜表示。
[0032]根據一個方面，描述了一種用於對音頻信號的話音部分進行分類的方法。音頻信號可以包括話音信號和/或其他非話音信號。該分類用於確定音頻信號是否為話音和/或音頻信號的哪些部分為話音信號。該分類可以有益地用於音頻信號的柵控響度度量的計算中。由於頻帶複製(SBR)有效負載是信號開始的良好指示，所以信號分類可以基於提供了節奏信息的SBR有效負載的經處理版本。
[0033]該方法可以包括確定與音頻信號的時間間隔的頻帶複製數據量相關聯的有效負載量的步驟。頻帶複製有效負載量可以用作音頻信號頻譜變化的指示，從而提供節奏信息。有效負載量可以包括SBR包絡數據、時間/頻率(T/F)網格數據、音調分量數據和噪聲本底數據或其任意組合。具體地，這些分量連同SBR包絡數據的任意組合也是可能的。
[0034]通常，有效負載量確定步驟是當確定音頻信號的頻帶複製數據時在對音頻信號進行編碼期間進行。在該情況下，與頻帶複製數據量相關聯的有效負載量可以直接從編碼器的頻帶複製組件中接收。頻帶複製有效負載量可以指示由頻帶複製組件在音頻信號的時間間隔上生成的頻帶複製數據量。換言之，有效負載量表示該時間間隔的要被包括在編碼比特流中的頻帶複製數據量。
[0035]包括所生成的頻帶複製數據的音頻信號優選地被編碼在比特流中以便存儲或傳輸。該編碼比特流例如可以是HE-AAC比特流或mp3PR0比特流。其他比特流也可以並且位於本領域技術人員可以獲得的範圍內。
[0036]該方法可以包括針對音頻信號的連續時間間隔重複上面的確定步驟的另外步驟，從而確定有效負載量序列。
[0037]在另外的步驟中，該方法可以在有效負載量序列中標識周期。這可以通過在有效負載量序列中標識尖峰或重現圖形來完成。周期的標識可以通過對有效負載量序列進行頻譜分析來完成，其可以生成一組功率值和相應的頻率。可以通過確定該組功率值中的有關的最大值以及通過將周期選擇為相應的頻率來在有效負載量序列中確定該周期。在一種實施方式中，絕對最大值被確定。[0038]通常沿著有效負載量序列的時間軸來進行頻譜分析。此外，通常是對有效負載量序列的多個子序列執行頻譜分析，從而生成多個功率值集合。例如，子序列可以覆蓋特定長度(例如2秒)音頻信號。此外，子序列可以例如以50%彼此交疊。同樣地，可以獲得多個功率值集合，其中每個功率值集合對應於音頻信號的某一摘錄(excerpt)。通過對上述多個功率值集合進行平均可以獲得對於完整音頻信號的總體功率值集合。應當理解，詞語「平均」涵蓋了如計算平均值或確定中值等各種類型的數學運算。即，可以通過計算多個功率值集合的平均功率值集合或中間功率值集合來獲得總體的功率值集合。在一種實施方式中，進行頻譜分析包括進行頻率變換，如傅立葉變換(FT)或快速傅立葉變換(FFT)。
[0039]功率值集合可以提交至進一步的處理。在一種實施方式中，將功率值乘以與它們的對應頻率的人類感知偏好相關聯的權重。例如，這樣的感知權重可以對與人類所更頻繁地檢測到的節拍對應的頻率進行強調，而對與人類不太頻繁地檢測到的節拍對應的頻率進行削弱。
[0040]接著，該方法可以包括對音頻信號的包括話音信號或非話音信號的至少一部分進行分類的步驟。該分類優選地基於所提取的節奏信息。所提取的節奏信息在任何種類的分類器中可能與其他特徵一起用作針對音頻信號的部分作出話音/非話音判定的特徵。
[0041]話音/非話音分類則可以用於音頻信號的柵控響度的計算，響度的計算限於音頻信號的話音部分。因此，提供了在感知上更加準確的響度，其僅考慮音頻信號的感知相關話音部分而忽略非話音部分。響度數據可以被包括到編碼比特流中。
[0042]該方法可以包括提供音頻信號的響度值的步驟。響度相關值還可以稱為調整信息。用於確定響度值的步驟或算法可以是一組音頻信號操作以確定表示音頻信號的感知響度(即，感知能量)的響度相關值。這樣的步驟或算法可以是測量音頻節目響度的ITU-RBS.1770-1算法和/或重播增益響度計算方案。在一種實施方式中，響度是根據忽略音頻信號的靜默和/或非話音時間段的ITU-R BS.1770-1算法來確定。
[0043]該分類可以使用從SBR有效負載中提取的節奏信息作為在將話音信號與非話音信號區分開的機器學習算法如AdaBoost算法中的特徵。當然，也可以使用其他機器學習算法如神經網絡。為了最大限度地使用節奏信息，分類器針對訓練數據進行訓練以將話音信號與非話音信號區分開。該分類器可以使用所提取的節奏信息作為分類的輸入信號並且調節其內部參數(例如，權重)以減小對訓練數據的誤差度量。所提出的節奏信息可以與如在HE-AAC編碼器中使用的「經典」特徵等其他特徵一起由分類器使用。機器學習算法可以確定對為分類提供的特徵進行組合的權重。
[0044]在一種實施方式中，音頻信號由沿著時間軸的連續子帶係數塊序列來表示。這樣的子帶係數例如可以是如在 MP3、AAC、HE-AAC、Dolby Digital 和 Dolby Digital Plus 編解碼器的情況下的MDCT係數。
[0045]在一種實施方式中，音頻信號由包括頻帶複製數據和沿著時間軸的多個連續幀的編碼比特流來表示。例如，編碼比特流可以是HE-AAC或mp3PR0比特流。
[0046]該方法可以包括將響度相關值存儲在與音頻信號相關聯的元數據中。該元數據可以具有預定語法或格式。在一種實施方式中，預定格式使用重播增益語法。可替代地或另外地，預定格式可以與iTunes風格的元數據或ID3v2標籤兼容。在另一種實施方式中，根據MPEG標準IS014496-3，響度相關值可以作為填充元素例如「節目參考水平」參數在DolbyPluse或HE-AAC比特流中傳輸。
[0047]該方法可以包括將元數據提供給媒體播放器的步驟。元數據可以隨著音頻信號一起被提供。在一種實施方式中，音頻信號和元數據可以存儲在一個或更多個文件中。上述文件可以存儲在例如隨機存取存儲器(RAM)或光碟等存儲介質中。在一種實施方式中，音頻信號和元數據例如可以位於如HE-AAC等媒體比特流內而被傳輸至媒體播放器中。
[0048]根據另外的方面，描述了一種軟體程序，其適於在處理器上執行並且當在計算設備上執行時適於執行在本文獻中概括的方法步驟。
[0049]根據另一個方面，描述了一種存儲介質，其包括適於在處理器上執行並且當在計算設備上執行時適於執行在本文獻中概括的方法步驟的軟體程序。
[0050]根據另一個方面，描述了一種電腦程式，其包括當在計算機上被執行時執行用於執行在本文獻中概括的方法步驟的可執行指令。
[0051]根據另一個方面，描述了一種配置成對音頻信號的話音部分進行分類的系統。該系統包括:用於對與音頻信號的時間間隔上的頻帶複製數據量相關聯的有效負載量進行確定的裝置；用於針對音頻信號的連續時間間隔重複上述確定步驟從而確定有效負載量序列的裝置；用於標識有效負載量序列中的周期的裝置；和/或用於從所標識的周期中提取音頻信號的節奏信息的裝置。該系統還可以包括用於基於所提取的節奏信息對包括話音或非話音的音頻信號的至少一部分進行分類的裝置。此外，提供了用於基於對音頻信號的話音和非話音部分的分類來確定音頻信號的響度數據的裝置。具體地，響度數據的確定可以限於音頻信號的如由分類裝置標識的話音部分。
[0052]根據另一個方面，描述了一種用於生成包括音頻信號的元數據的編碼比特流的方法。該方法可以包括將音頻信號編碼為有效負載數據序列從而生成編碼比特流的步驟。例如，音頻信號可以被編碼為AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus比特流。該方法可以包括確定與音頻信號的響度相關聯的元數據並且將該元數據插入編碼比特流中的步驟。優選地，響度數據僅針對音頻信號的如由分類器基於音頻信號的節奏信息確定的話音部分來確定。應當注意，音頻信號的節奏信息可以根據本文獻中概括的任何方法來確定。
[0053]根據另外的方面，描述了音頻信號的包括元數據的編碼比特流。編碼比特流可以是AAC、MP3、AAC、Dolby Digital或Dolby Digital Plus比特流。該元數據可以包括表示音頻信號的柵控響度度量的數據，柵控響度度量是由在本文獻中概括的任何分類器從音頻信號的話音部分推導的。
[0054]根據一個方面，描述了一種被配置為生成包括音頻信號的元數據的編碼比特流的音頻編碼器。該編碼器可以包括:用於將音頻信號編碼為有效負載數據序列從而產生編碼比特流的裝置；用於確定音頻信號的響度元數據的裝置；以及用於將該元數據插入到編碼比特流中的裝置。以與上面概括的方法類似的方法，編碼器可以依賴於針對音頻信號計算的頻帶複製數據(具體地為插入到比特流中的頻帶複製數據的有效負載量)，其作為確定音頻信號的節奏信息的基礎。節奏信息然可以用於將音頻信號分類成話音部分和非話音部分以柵控響度估計。
[0055]應當注意，根據另外的方面，描述了用於對音頻信號的編碼比特流進行解碼的相應方法以及被配置成對音頻信號的編碼比特流進行解碼的解碼器。該方法和解碼器被配置成從編碼比特流中提取相應的元數據，尤其是與節奏信息相關聯的元數據。
[0056]初步的複雜度分析顯示:所提出的話音/非話音分類方法相比較現有技術而言潛在的複雜度降低是明顯的。根據假設所提出的實施不需要重取樣器並且不使用單獨的頻譜分析的理論方法，該節省高至98%。
[0057]應當注意，在本文獻中描述的實施方式和方面可以按照許多不同的方式來組合。具體地，應當注意，在系統環境下概括的方面和特徵還適應於相應的方法環境，同樣在方法環境下概括的方面和特徵也適應於相應的系統環境。此外，應當注意，本文獻的公開內容還涵蓋除了由從屬權利要求中的回引顯式地給出的權利要求組合以外的其他權利要求組合，即，權利要求及其技術特徵可以按照任何次序和任何格式來組合。
【專利附圖】

【附圖說明】
[0058]將參考附圖通過不限制本發明的範圍和精神的示意性示例來描述本發明，其中:
[0059]圖1示意性地示出了使用來自輸入音頻信號的響度水平信息來產生經編碼的輸出音頻信號的系統；
[0060]圖2示意性地示出了根據輸入音頻信號來對響度水平信息進行估計的系統；
[0061]圖3示意性地示出了使用來自音頻編碼器的信息來對來自輸入音頻信號的響度水平信息進行估計的系統；
[0062]圖4示出了對短塊的MDCT係數進行交錯的示例；
[0063]圖5a示出了通過不同的頻譜變換生成的示例音頻信號的頻譜表示；
[0064]圖5b示出了通過不同的頻譜變換計算的示例音頻信號的頻譜通量；
[0065]圖6示出了加權函數的示例；以及
[0066]圖7示出了示例SBR有效負載數據序列和結果的調製頻譜。
【具體實施方式】
[0067]下述實施方式對於節奏特徵提取、話音分類和響度估計的方法與系統的原理僅僅為示意性的。應當理解，本文所描述的布置和細節的修改和變型對於本領域其他技術人員是顯而易見的。因此，意欲僅由後附專利權利要求的範圍進行限制，而不由本文的實施方式的描述和說明所呈現的具體細節進行限制。
[0068]一種以恆定感知水平提供音頻輸出的方法將要限定目標輸出水平(要以該目標輸出水平渲染音頻內容)。這樣的目標輸出水平例如可以是-1ldBFS (相對於全刻度(FullScale)的分貝)。具體地，目標輸出水平可以取決於當前的收聽環境。此外，可以確定音頻內容的實際響度水平，也稱作參考水平。優選地隨著媒體內容一起來提供響度水平，例如，作為結合媒體內容提供的元數據。為了對處於目標輸出水平的音頻內容進行渲染，可以在回放期間應用匹配增益值。匹配增益值可以被確定為目標輸出水平與實際的響度水平之間的差。
[0069]如在上面已經指示出的,用於流處理和廣播的系統(如Dolby Digital)通常依賴將包括「對白歸一」值的元數據傳輸到解碼設備，「對白歸一」值指示當前節目的響度水平。「對白歸一」值對於不同的節目通常是不同的。鑑於「對白歸一」值是在編碼器處確定的事實，因此使得內容擁有者能夠控制長至解碼器的完整信號鏈。此外，由於不需要在解碼器處確定當前節目的響度值，所以解碼設備上的計算複雜度可以減小。替代地，響度值被提供在與當前節目相關聯的元數據中。
[0070]將元數據與音頻信號包括在一起使得在用戶收聽體驗上有明顯的提升。對於愉快的用戶體驗，一般期望不同節目的總體聲音水平或響度一致。但是不同節目的、一般源自不同的源的音頻信號由不同的生產商者掌控並且可以包括範圍從話音對白到音樂再到具有低頻效果的電影配樂的多樣內容。聲音水平變化的該可能性使得在回放期間跨越各種節目維持相同的總體聲音水平成為挑戰。具體來講，不期望收聽者從一個節目切換至另一個節目時由於不同節目的感知聲音水平的差異而感覺需要調節回放音量以將一個節目相對於另一個節目調得較響亮或較安靜。改變音頻信號以在節目之間維持一致聲音水平的技術一般已知為信號調整。在對白音頻軌道的環境下，與感知聲音水平相關的度量(measure)已知為對白水平，其基於音頻信號的平均加權水平。經常使用「對白歸一」參數來指定對白水平，該參數表示關於數字全刻度的分貝(dB )水平。
[0071]在音頻編碼中，在像AC-3或HE-AAC等編解碼器中發展的大量元數據類型包括動態範圍壓縮和響度描述。例如，AC-3使用被稱作「對白歸一」的值來提供編碼音頻信號的響度信息。在HE-AAC中，等同的值被稱為「節目參考水平」，其包括在數據流元素中。回放設備讀取響度值並且相應地通過增益因子來調節輸出信號。該方式不改變原始的音頻信號。元數據模型因此被稱為非破壞性模型。
[0072]下面，描述用於將音頻信號分類成話音和非話音部分的方法。該分類然後可以用於如根據ITU-R推薦標準BS.1770-1 (該文獻通過引用合併於此)來對響度估計的計算進行柵控。響度計算則可以關注於包含話音內容的音頻部分，例如以確定插入到編碼比特流中的「對白歸一」值(例如根據HE-AAC格式)。另一方面，音頻的分類應該儘可能地正確以實現良好的響度估計。另一方面，響度計算以及尤其是話音/非話音分類應該是有效的並且儘可能對編碼器施加很小的計算負擔。因此，根據本文的一個方面，提出替代重新計算用於響度估計的類似值，而將響度計算以及尤其是話音/非話音分類結合到編碼器運算中並且使用現有的計算和已經產生的數據。
[0073]如已經提到的，將響度估計的計算限於音頻信號的話音部分是有益的。話音的以下特徵中的一些對於將話音與其他類型區分開至關重要。話音是語音和非語音部分(也已知為摩擦噪聲和元音)的組合。摩擦噪聲可以分成兩個子類。像「k」和「t」等聲音非常短暫而像「s」和「f」等聲音具有像頻譜的噪聲。話音的語音和非語音部分與單詞以及句子之間的短中斷導致了音頻信號的持續變換的頻譜。音樂另一方面在頻譜中具有慢得多並且相當小的波動。觀察信號的頻譜幅度，還可以觀察到具有很小能量的非常短的部分。這些短的中斷是話音內容的指示。
[0074]由於信號中的話音內容在感知上的相關性，提出識別話音部分並且僅根據信號的這些部分計算響度。該話音響度值可以用於所描述的元數據類型中的任意一種。
[0075]根據實施方式，用於計算柵控音量度量的系統具有4個組件。第一個組件與信號預處理相關並且包括重採樣器和混合器。在對來自輸入信號的單聲道信號進行下混合之後，以16kHz對該信號進行重採樣。第二個組件計算涵蓋信號的不同標準的7個特徵，其對於標識話音是很有用的。這7個特徵可以分類為兩組:如頻譜通量等頻譜特徵和如停頓計數和過零率等時域特徵。第三個組件是被稱作AdaBoost的機器學習算法，其基於這7個特徵的特徵向量來作出二元判定。通過16kHz的採樣頻率基於單聲道信號來計算每個特徵。時間解析度可以針對每個特徵來單獨設置以實現最佳的可能結果。因此，每個特徵可以具有其自己的塊長度。在該情況下，塊是通過該特徵處理的特定量的時間樣本。最後一個組件計算涉及初始採樣速率的響度測量結果，其遵循ITU-R推薦標準。使用來自分類器的當前信號狀態(話音/其他)每0.5秒更新響度測量結果。從而，可以計算話音和總體響度。
[0076]上述響度測量結果可以應用在例如HE-AAC編碼方案中，其包括包含有MDCT濾波器組的AAC核心編碼器。SBR編碼器用於低比特率並且包含QMF濾波器組。根據一種實施方式，由MDCT濾波器組和/或QMF濾波器組提供的頻譜表示用於信號分類。話音/其他分類可以置於AAC核心中(緊在MDCT濾波器組之後)。時間信號和MDCT係數可以在此處提取。這也是窗切換的地方，其計算由128個樣本構成的塊中的信號能量。包括具體頻帶的能量的比例因子帶可以用於估計所需的信號量化的準確度。
[0077]圖1示意性地示出了使用來自所輸入的音頻信號的響度水平信息來產生編碼輸出音頻信號的系統100 ;該系統包括編碼器101和響度估計模塊102。此外，該系統包括柵控模塊103。
[0078]編碼器101從信號源接收音頻信號。例如，信號源可以是電子設備，其將音頻數據存儲在電子設備的存儲器中。音頻信號可以包括一個或更多個聲道。例如，音頻信號可以是單聲道音頻信號、立體聲音頻信號或5 (.1)聲道音頻信號。音頻信號可以包括話音、音樂或任何類型的音頻信號內容。
[0079]此外，音頻信號可以以任何適合的格式存儲在電子設備的存儲器中。例如，音頻信號可以存儲在WAV、AIFF、AU或原始的缺少題頭的PCM文件中。可替代地，音頻信號可以存儲在 FLAC、Monkey’s Audio (文件名擴展 APE)、WavPack (文件名擴展 WV)、Shorten、TTA、ATRAC、Advanced Lossless、Apple Lossless (文件名擴展 m4a)、MPEG-4SLS、MPEG-4ALS、MPEG-4DST、Windows Media Audio Lossless (WMA Lossless)和 SHN 文件中。此外，音頻信號可以存儲在 MP3、Vorbis、Musepack、AAC、ATRAC 和 Windows Media Audio Lossy (WMAlossy)文件中。
[0080]音頻信號可以通過有線或無線連接從信號源傳輸至系統100。可替代地，信號源可以是該系統的一部分，即，系統100可以寄宿在還存儲了音頻文件的計算機上。寄宿系統100的計算機可以是通過例如網際網路或接入網等有線或無線網絡連接至其他計算機的臺式計算機或伺服器。
[0081]編碼器101可以根據具體的編碼技術來對音頻信號進行編碼。具體的編碼技術可以是DD+。可替代地，具體的編碼技術可以是先進音頻編碼(ACC)。再此外，具體的編碼技術可以是高效ACC (HE-AAC)。HE-AAC編碼技術可以基於AAC編碼技術和SBR編碼技術。AAC編碼技術可以至少部分地基於MDCT濾波器組。SBR編碼技術可以至少部分地基於正交鏡像濾波器(QMF)濾波器組。
[0082]響度估計模塊102根據具體的響度估計技術來對音頻信號的響度進行估計。具體的響度估計技術可以遵循ITU-R BS.1770-1推薦標準。可替代地，具體的響度估計技術可以遵循由David Robinson給出的回放增益建議(Replay Gain proposal)(參見http://www.replaygain.0rg/)。當具體的響度估計遵循ITU-R BS.1770-1推薦標準時,可以對輸入音頻信號的包括非靜默的內容的段估計響度。例如，可以對包括話音的輸入音頻信號的段估計響度。在此，響度估計模塊可以從柵控模塊103接收柵控信號，該信號指示響度估計模塊是否應該基於當前音頻輸入樣本來估計響度。例如，柵控模塊103可以將信號提供(例如，發送)給響度估計模塊102，該信號指示音頻信號的當前樣本或部分包括話音。該信號可以是包括單個比特的數位訊號。例如，如果比特為高，則信號可以指示當前音頻樣本包括話音並且要由用於估計輸入音頻信號的響度的響度估計模塊102進行處理。如果比特為低，則信號可以指示當前音頻信號不包括話音並且不會由用於估計輸入音頻信號的響度的響度估計模塊102進行處理。
[0083]柵控模塊103按照不同的內容種類對輸入音頻信號進行分類。例如，柵控模塊103可以按照非靜默和靜默，或者話音和非話音部分來對輸入音頻信號進行分類。對於將輸入音頻信號分類成話音和非話音段，柵控模塊103可以採用如圖2所示的各種技術，圖2示意性示出了用於根據輸入音頻信號估計響度水平信息的系統200。例如，柵控模塊103可以包括用於特徵計算的以下子模塊中的一個或更多個。
[0084]便於以下討論，簡單地對詞語「特徵」、「塊」和「幀」進行說明。特徵是從信號提取某些特性的度量，其能夠指示具體類在信號中的存在，例如，信號中的話音部分。每個特徵可以以兩個處理水平來操作。簡訊號摘錄是以塊為單位來處理的。特徵的長期估計是以長度為2秒的幀來作出的。塊是用於計算每個特徵的低水平信息的數據量。其保存信號的時間樣本或頻譜數據。在以下等式中M被定義為塊大小。幀是基於特定量的塊的長期度量。更新率通常為0.5秒，時間窗為2秒。在以下等式中N被定義為幀大小。
[0085]柵控模塊103可以包括頻譜通量方差(SFV)子模塊203。SFV子模塊203工作在變換域並且適於將話音信號的頻譜快速變化考慮在內。作為頻譜中的通量的度量，F1U)被計算為幀t的頻譜通量的均方I2範數(其中M是幀中的塊的數量):
[0086]
【權利要求】
1.一種用於對音頻信號進行編碼的方法，所述方法包括: 確定所述音頻信號的頻譜表示，確定頻譜表示包括確定改進型離散餘弦變換MDCT係數；使用所確定的頻譜表示對所述音頻信號進行編碼；基於所確定的頻譜表示，將所述音頻信號的部分分類成話音或非話音；以及基於所述話音部分，確定用於所述音頻信號的響度度量。
2.根據權利要求1所述的方法，其中所述確定頻譜表示包括確定改進型離散餘弦變換MDCT係數。
3.根據權利要求1或2所述的方法，其中所述確定頻譜表示包括確定正交鏡像濾波器QMF濾波器組表不。
4.根據權利要求2所述的方法，還包括: 根據所述MDCT係數確定偽頻譜；其中話音/非話音部分的分類至少部分地基於所確定的偽頻譜的值。
5.根據任一前述權利要求所述的方法，還包括: 確定頻譜通量方差；其中話音/非話音部分的分類至少部分地基於所確定的頻譜通量方差。
6.根據任一前述權利要求所述的方法，還包括: 根據所述MDCT係數確定比例因子帶能量；其中話音/非話音部分的分類至少部分地基於所確定的比例因子帶能量。
7.根據權利要求6所述的方法，還包括: 根據所述比例因子帶能量確定平均頻譜傾斜；其中話音/非話音部分的分類至少部分地基於所述平均頻譜傾斜。
8.根據任一前述權利要求所述的方法，還包括: 確定用於由所述音頻信號構成的塊的能量值；基於塊能量確定基於能量的特徵；其中話音/非話音部分的分類至少部分地基於所述基於能量的特徵。
9.根據任一前述權利要求所述的方法，其中話音/非話音部分的分類基於機器學習算法，具體是AdaBoost算法。
10.根據權利要求9所述的方法，還包括: 基於話音數據和非話音數據對所述機器學習算法進行訓練，從而調節所述機器學習算法的參數以使誤差函數最小化。
11.根據任一前述權利要求所述的方法，其中所述頻譜表示是針對短塊和/或長塊而確定的，所述方法還包括: 將短塊表示和用於與預定數量個短塊相對應的長塊表示的幀進行校準，從而將所述預定數量個短塊的MDCT係數重排為用於長塊的幀。
12.根據任一前述權利要求所述的方法，還包括: 使用所確定的頻譜表示將所述音頻信號編碼到比特流中；以及將所確定的響度度量編碼到所述比特流中。
13.根據任一前述權利要求所述的方法，其中所述音頻信號是多聲道信號，所述方法還包括: 對所述多聲道音頻信號進行下混合，並且對下混合後的信號執行所述分類步驟。
14.根據任一前述權利要求所述的方法，還包括: 對所述音頻信號進行下採樣，並且對下採樣的信號執行所述分類步驟。
15.根據任一前述權利要求所述的方法，其中所述音頻信號根據HE-AAC、MP3、AAC、Dolby Digital 或 Dolby Digital Plus 之一來編碼。
16.一種基於節奏信息來對音頻信號的話音部分進行分類的方法，所述方法包括: 確定與頻帶複製數據量相關聯的有效負載量，所述頻帶複製數據量和所述音頻信號的時間間隔相關聯；針對所述音頻信號的連續時間間隔重複所述確定步驟，從而確定有效負載量序列；標識所述有效負載量序列中的周期；根據所標識的周期，提取所述音頻信號的節奏信息；以及基於所提取的節奏信息，對所述音頻信號的、包括話音或非話音的至少一部分進行分類。
17.根據權利要求16所述的方法，還包括: 確定所述音頻信號的頻帶複製數據；將包括所述頻帶複製數據的所述音頻信號編碼在比特流中。
18.根據權利要求17所述的方法，還包括: 確定所述音頻信號的響度數據，所述確定限於所述音頻信號的、由所述分類步驟確定的話音部分；將所述響度數據包括在編碼後的比特流中。
19.根據權利要求16至18中任一項所述的方法，其中標識周期包括: 標識所述有效負載量序列中的尖峰的周期。
20.根據權利要求16至19中任一項所述的方法，其中標識周期包括: 對所述有效負載量序列進行頻譜分析，從而生成功率值集合和相應的頻率；以及通過確定所述功率值集合中的相對最大值並且通過選擇所述有效負載量序列中的周期作為所述相應的頻率，對所述周期進行標識。
21.根據權利要求20所述的方法，其中執行頻譜分析包括: 對所述有效負載量序列的多個子序列執行頻譜分析，從而產生多個功率值集合；以及對所述多個功率值集合進行平均。
22.根據權利要求20至21中任一項所述的方法，其中執行頻譜分析包括執行傅立葉變換。
23.根據權利要求16至22中任一項所述的方法，其中對所述音頻信號的、包括話音或非話音的至少一部分進行分類包括: 使用所提取的節奏信息作為機器學習算法中的特徵，以將話音信號與非話音信號進行區分。
24.根據權利要求16至23中任一項所述的方法，其中對所述音頻信號的、包括話音或非話音的至少一部分進行分類包括: 基於訓練數據對分類器進行訓練以將話音信號與非話音信號進行區分，所述分類器使用所提取的節奏信息作為用於分類的輸入特徵。
25.根據權利要求17至24中任一項所述的方法，其中對所述音頻信號進行編碼包括:使用HE-AAC、MP3PR0或例如USAC (MPEG-D統一話音與音頻編碼器)的任意其他基於頻帶複製(SBR)的編碼器之一來生成所述編碼比特流的有效負載數據序列。
26.一種軟體程序，所述軟體程序適於在處理器上執行，並且當在計算設備上執行所述軟體程序時所述軟體程序適於執行根據權利要求1至25中任一項所述的方法步驟。
27.一種存儲介質，所述存儲介質包括軟體程序，所述軟體程序適於在處理器上執行，並且當在計算設備上執行所述軟體程序時所述軟體程序適於執行根據權利要求1至25中任一項所述的方法步驟。
28.一種電腦程式產品，所述電腦程式產品包括可執行指令，當在計算機上執行所述可執行指令時，所述可執行指令用於執行根據權利要求1至25中任一項所述的方法。
29.一種用於對音頻信號進行編碼的系統，所述系統包括: 用於確定所述音頻信號的頻譜表示的裝置；用於使用所確定的頻譜表示來對所述音頻信號進行編碼的裝置；用於基於所確定的頻譜表示將所述音頻信號的部分分類成話音或非話音的裝置；以及用於基於所述話音部分確定所述音頻信號的響度度量的裝置。
30.一種被配置成對音頻信號的話音部分進行分類的系統，所述系統包括: 用於對和頻帶複製數據量相關聯的有效負載量進行確定的裝置，所述頻帶複製數據量與所述音頻信號的時間間隔相關聯；用於針對所述音頻信號的連續時間間隔重複所述確定步驟從而確定有效負載量序列的裝置；用於對所述有效負載量序列中的周期進行標識的裝置；用於根據所標識的周期提取所述音頻信號的節奏信息的裝置；以及用於基於所述提取的節奏信息，對所述音頻信號的、包括話音或非話音的至少一部分進行分類的裝置。
31.一種被配置為生成編碼比特流的音頻編碼器，所述編碼比特流包括音頻信號的元數據，所述編碼器包括: 用於將所述音頻信號編碼到所述比特流中的裝置；被配置成執行根據權利要求16至25中任一項所述的方法的、對音頻信號的話音部分進行分類的裝置；用於確定所述音頻信號的響度數據的裝置；用於確定與所述音頻信號的響度數據相關聯的元數據的裝置；以及用於將所述元數據插入到所述編碼比特流的裝置。
【文檔編號】G10L19/16GK103582913SQ201280020099
【公開日】2014年2月12日申請日期:2012年4月27日優先權日:2011年4月28日
【發明者】哈拉爾德·蒙特, 阿里希特·比斯瓦斯, 羅爾夫·邁斯納申請人:杜比國際公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

有效內容分類及響度估計的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法