新四季網

用於在單個回放模式中結合響度測量的系統的製作方法

2023-09-22 20:41:15 1

專利名稱:用於在單個回放模式中結合響度測量的系統的製作方法
技術領域:
本文獻涉及多媒體數據的處理,特別涉及多媒體數據(例如音頻文件或者比特流)的編碼、傳輸、解碼和呈現。特別地,本文獻涉及多媒體播放器中的響度控制的實現方式。
背景技術:
在電影產業中通過指定保證電影院之間並且對於不同的內容的一致的回放水平的SMPTE (電影與電視工程師學會)推薦(recommendation)來解決音頻內容的變化的混合和回放水平的問題。SMPTE推薦確保音頻內容以對於消費者愉快的一致的水平被再現。廣播中的情形更有挑戰性,因為用戶的各自的回放系統不由技師控制並且因為用於廣播的分發渠道和網絡更複雜。隨著數字廣播的引入,產業建立了使得能夠控制接收端處的增益值以便對於特定的聽音環境裁剪內容的隨時間變化的元數據的概念。一個示例是包括在Dolby Digital內的元數據,其包括用於對話的一般的響度標準化 (normalization)信息(「dialnorm」)以及用於減少程序的動態範圍的增益字(「dynrng」和「compr」)。應當注意,在整個此說明書期間並且在權利要求中,對Dolby Digital的提及應該被理解為包括Dolby Digital和Dolby Digital Plus編碼系統兩者。這種系統對於其中與聽音環境有關的接收器處的操作模式和收聽偏好被指定的情形是特別有效的。通過示例的方式,dialnorm標準允許對於Dolby Digital指定所謂的「線路模式(line mode)」和「RF模式」。「RF模式」被設計用於其中解碼的程序打算供通過電視機上的RF輸入(諸如通過機頂盒的天線輸出)傳送使用的峰值限制情形。「線路模式」提供比「RF模式」少的動態範圍的壓縮,並且還允許在家庭解碼器內的低電平提升(boost)和高電平削減(cut)參數的用戶調節。提升和削減區域的「按比例縮放(scaling)」或者調節允許用戶針對他們的特定的聽音環境自定義音頻再現。這些技術也是當今的音頻/視頻盤(像DVD和藍光)的部分。對於音頻內容的重要的分發渠道仍然是包含16比特PCM數據而沒有任何元數據的CD。典型地用於CD的峰值標準化據說是對於已經引起具有高平均音頻電平的音頻內容的減少的動態範圍的所謂的「響度戰爭(loudness war)」的主要原因。然而,消費者行為在近年間改變,編碼的內容(例如,具有數據減少的格式(諸如mp3 )的內容)對於內容分發和存儲而言變得更流行和重要。這種格式允許內容擁有者和音頻愛好者可以利用的幾乎無限的動態範圍。另外,行動電話、智慧型電話和其它可攜式電子設備作為個人的媒體播放器的越來越流行已經產生了在設計滿足在各種收聽條件之下的最好的音頻質量和一致的音頻拉平(leveling)的客戶預期的高質量回放設備時的新的挑戰。個人的音樂收藏中的大量的內容(通常超過數千的文件)以及音頻格式的寬的範圍(諸如mp3、HE-AAC, 0GG、WMA和DolbyDigital)進一步使提供具有一致的音頻拉平的音頻回放設備的問題複雜化。

發明內容
本文獻解決在電子設備(例如媒體播放器)中使用標準化的響度值提供一致的音頻拉平的問題。特別強調這種設備的挑戰,即特別是變化的聽音環境(其影響期望的輸出水平)以及最大動態範圍容限和寬範圍的不同的源和格式的音頻內容(其使得難以以相同的期望的輸出水平回放所有內容)。此外,可以考慮諸如可攜式媒體播放器中的標準化的響度值的與編解碼器無關的(codec-agnostic)可應用性和計算複雜性之類的方面。另外,解決方案應該對於呈現的內容是非破壞性的,即在解碼階段之前的實際的PCM信號或者有效載荷應該保持不變。用於解決後一問題的可能的途徑是使用與多媒體文件或者比特流一起被存儲和/或發送的元數據。根據一個方面,描述了用於將響度有關的數據提供給媒體播放器的方法。媒體播放器可以是例如行動電話、智慧型電話、mp3播放器、膝上型計算機或者個人的媒體播放器。響度有關的數據可以是與音頻信號關聯的響度值或者響度有關值。音頻信號可以作為樣本被存儲在媒體文件(例如mp3文件、WMA文件或者iTunes媒體文件)中。可替代地或者另外,音頻信號可以作為比特流(例如AAC、HE_AAC、Dolby Pulse或者Dolby Digital比特流)被 提供。該方法可以包括提供與音頻信號關聯的第一響度有關值的步驟,其中第一響度有關值已經根據第一過程(procedure)或算法被確定。響度有關值也可以被稱為拉平信息。用於確定響度有關值的過程或算法可以是為了確定表示音頻信號的感知的響度(即感知的能量)的響度有關值的一組對音頻信號的操作。這種過程或算法可以是用於測量音頻節目(programme)響度的ITU-R BS. 1770算法和/或回放增益(Replay Gain)響度計算方案。在一個實施例中,第一過程可以是ITU-R BS. 1770算法並且第一響度有關值可以是BS. 1770響度值。應當注意,還可以使用ITU-R BS. 1770算法的變體(例如,不考慮音頻信號的靜音時段(silence period)的變體)。該方法可以包括使用包括可逆關係的模型將第一響度有關值轉換成第二響度有關值的步驟,其中第二響度有關值與用於確定響度有關值的第二過程關聯。在一個實施例中,第二過程可以是回放增益響度計算方案。在這種情況下,第二響度值可以是回放增益調節值,即,將音頻信號放大或者衰減到預定的輸出水平的增益值。典型地,在通過從第一響度有關值轉換來推導時的第二響度有關值是根據第二過程或算法針對音頻信號而確定的響度有關值的估計量。這是由於如下的事實,即包括可逆關係的模型可以是在由第一和第二過程確定的響度有關值之間的實際關係的近似。可逆關係可以是在對數空間中測量(例如以dB測量)的第一響度有關值和第二響度有關值之間的線性關係。這種可逆關係可以通過確定與對應的多個音頻信號關聯的多個第一響度有關值而獲得,其中多個第一響度有關值根據第一過程而被確定。此外,與對應的多個音頻信號關聯的多個第二響度有關值可以被確定,其中多個第二響度有關值根據第二過程被確定。包括一個或更多個模型參數的模型可以被擬合到多對第一和第二響度有關值。通過使用誤差最小化方案(例如使用最小均方誤差準則、總最小二乘方誤差準則或者最小絕對偏差誤差準則),該模型可以被擬合併且模型參數可以被確定,由此得到可逆關係。在一個實施例中,可以使用中值(median)誤差準則。通過示例的方式,模型參數可以被確定為使得第二響度有關值的估計誤差的中值可以是零。可逆關係還可以通過使用線性回歸來被確定。該方法可以包括將第二響度有關值存儲在與音頻信號關聯的元數據中的步驟。元數據可以具有預定的語法(syntax)或者格式。在一個實施例中,預定的格式使用回放增益語法。可替代地或者另外,預定的格式可以是遵從iTunes樣式元數據或者ID3v2標籤的。在另一實施例中,根據MPEG標準ISO 14496-3,第一響度有關值可以在Dolby Pulse或者HE-AAC比特流中作為填充元素(Fill Element)(例如作為「程序基準水平(programreference level)」 參數)被傳輸。該方法可以包括將元數據提供給媒體播放器的步驟。元數據可以與音頻信號一起被提供。在一個實施例中,音頻信號和元數據可以被存儲在一個或更多個文件中。文件可以被存儲在存儲介質(例如隨機訪問存儲器(RAM)或者光碟)上。在一個實施例中,音頻信號和元數據可以例如在媒體比特流(諸如HE-AAC)內被傳輸到媒體播放器。如上面概述的,用於確定響度有關值的第一和/或第二過程可以是用於測量音頻節目響度的ITU-R BS. 1770算法和/或回放增益響度計算方案。典型地,第一和第二過程是不同的。第一和/或第二過程可以包括根據人類響度感知例如使用A加權和/或K加權來處理音頻信號的步驟。此外,該過程可以包括確定處理後的音頻信號的一個或更多個部 分的能量的步驟。另外,該過程可以包括將能量偏離(offset)以便確定響度有關值的步驟。這種偏離可以被執行以便將響度有關值標準化到滿刻度(Full Scale) (FS)。可替代地或者另外,可以通過利用目標能量偏離能量來推導增益值。換句話說,增益值可以被確定為在能量和目標能量之間的偏離量。該增益值也可以被稱為響度有關值。在一個實施例中,可逆關係可以是一次或者二次的多項式。特別地,可逆關係可以由L2=A-BL1給出,其中L2是對數空間(例如dB)中的第二響度有關值,L1是對數空間(例如dB)中的第一響度有關值,並且A和B是實數,其中-17 SAS -15和/或-O. 7彡B彡-O. 9。可以將A和B取為在上述區間內的任意實數。特別地,-16. I彡A彡15.9或-16. OKAS 15. 99 或 Α=-16· 00。特別地,-O. 80 彡 B 彡-O. 82 或-O. 811 彡 B 彡-O. 813或 B=-O. 812。可替代地,B可以被限制為B=-L O。在該情況下,通過常數因子(constantfactor)來對在對於第一和第二響度有關值的功率測量之間的關係建模。此外,A可以被設定為-19 彡 A 彡-18,或-18. 4 彡 A 彡-18. 3,或-18. 31 彡 A 彡-18. 29 或 Α=_18· 30 或A=-18. 10 或 Α=-18. 00。可逆關係可以由L2 = A+BL^CLi2給出,其中L2是對數空間中(例如dB中)測量的第二響度有關值,L1是對數空間中(例如dB中)測量的第一響度有關值,並且A、B和C是實數。可替代地或者另外,可逆關係可以被分段成第一和/或第二響度有關值的區間,並且可以針對多個區間確定分別的可逆關係。可逆關係的參數可以通過使用分段的線性回歸來被確定。通過示例的方式,整個可逆關係可以被分段成多個區間[L1^, L1J其中t=l,...,NT,其中Nt是區間或者段的總數(Ντ>0)。對於區間[Lm,!^)中的每一個,可以確定不同的可逆關係,例如,一次或者二次的多項式。此外,使得整個可逆關係在多個區間的邊界處連續可以是有利的。將第一響度有關值轉換成第二響度有關值的步驟可以進一步包括如果音頻信號是單聲道信號,則將第一響度有關值偏離了預定值的步驟。在一個實施例中,可逆關係涉及立體聲音頻信號。在這種情況下,對於單聲道音頻信號的對應的可逆關係可以通過在應用可逆關係之前將第一響度有關值偏離了預定值來獲得。預定值可以是3dBFS。用於將響度數據提供給媒體播放器的方法可以進一步包括從元數據中提取第二響度有關值的步驟和/或使用第二響度有關值來呈現音頻信號的步驟。音頻信號可以以目標輸出水平被呈現。在這種情況下,呈現的步驟可以包括根據第二響度有關值的音頻信號的放大或者衰減。換句話說,第二響度有關值或者由目標輸出水平和第二響度有關值導出的值(例如與在目標輸出水平和第二響度有關值之間的差對應的值)可以被應用於音頻信號的樣本。該方法可以進一步包括使用可逆關係將第二響度有關值轉換成第一響度有關值的步驟。特別地,可以使用可逆關係的逆(inver se)。在這種情況下,媒體播放器可以通過使用第一響度有關值來呈現音頻文件。如上面概述的,呈現的步驟可以包括將第一響度有關值或者由第一響度有關值導出的值應用於音頻信號的樣本的步驟。另外,呈現的步驟可以包括控制響度處理後的音頻信號的動態範圍的步驟。此外,呈現的步驟可以包括限制響度處理後的音頻信號以避免限幅(clip)。根據另一個方面,描述了被配置為將響度有關的數據提供給媒體播放器的系統。該系統可以包括響度編碼器,所述響度編碼器被配置為提供與音頻信號關聯的第一響度有關值,其中第一響度有關值已經根據第一過程被確定。響度編碼器可以進一步被配置為通過使用包括可逆關係的模型來將第一響度有關值轉換成第二響度有關值,其中第二響度有關值與用於確定響度有關值的第二過程關聯。另外,響度編碼器可以被配置為將第二響度有關值存儲在與音頻信號關聯的元數據中。該系統可以包括傳輸介質,被配置為將元數據提供給媒體播放器。這種傳輸介質可以是無線的或者有線的傳輸介質。此外,傳輸介質可以是存儲介質,諸如RAM或者光碟。該系統可以包括媒體播放器,該媒體播放器被配置為從元數據中提取第二響度有關值;並且基於第二響度有關值呈現音頻信號。另外,媒體播放器可以被配置為通過使用可逆關係來將第二響度有關值轉換成第一響度有關值;並且通過使用第一響度有關值來呈現首頻 目號。根據另一個方面,描述了響度編碼器。該響度編碼器可以被配置為提供與音頻信號關聯的第一響度有關值;其中第一響度有關值已經根據第一過程被確定;通過使用包括可逆關係的模型將第一響度有關值轉換成第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯;和/或將第二響度有關值存儲在與音頻信號關聯的元數據中。根據又一個方面,描述了媒體播放器。該媒體播放器可以被配置為從與音頻信號關聯的元數據中提取第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯。此外,媒體播放器可以被配置為通過使用包括可逆關係的模型來將第二響度有關值轉換成第一響度有關值;其中第一響度有關值已經根據第一過程被確定。另外,媒體播放器可以被配置為通過使用第一響度有關值來呈現音頻信號。根據又一個方面,描述了用於使用第一響度有關值在媒體播放器處呈現音頻信號的方法。該方法可以包括在媒體播放器處接收與音頻信號關聯的元數據的步驟。該方法可以進行到從與音頻信號關聯的元數據中提取第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯。可以通過使用包括可逆關係的模型來將第二響度有關值轉換成第一響度有關值;其中第一響度有關值已經根據第一過程被確定。最終,該方法可以包括使用第一響度有關值呈現音頻信號的步驟。在一個實施例中,在對應的響度編碼器處通過使用可逆關係由第一響度有關值的轉換來推導第二響度有關值。特別地,可以通過使用可逆關係根據ITU-R BS. 1770響度值來確定第二響度有關值。在另一實施例中,第二響度有關值可以對應於直接使用第二過程確定的響度有關值。特別地,第二響度有關值可以對應於通過傳統(legacy)裝置計算的回放增益調節值。根據另一個方面,描述了用於確定用於將第一響度有關值轉換成第二響度有關值的可逆關係的方法。該方法可以包括確定與對應的多個音頻信號關聯的多個第一響度有關值的步驟,其中多個第一響度有關值根據第一過程被確定。該方法可以進一步包括確定與對應的多個音頻信號關聯的多個第二響度有關值的步驟,其中多個第二響度有關值根據第二過程被確定。另外,該方法可以包括提供包括模型參數的用於可逆關係的模型的步驟。另 夕卜,該方法可以包括通過使用適當的誤差最小化準則(諸如最小均方誤差)將模型擬合到多個第一和第二響度有關值來確定模型參數的步驟,由此得到可逆關係。根據又一個方面,描述了適合於在處理器上執行的軟體程序。該軟體程序可以進一步適合於在計算裝置上被執行時執行根據在本文獻中概述的任何方面的方法。根據另一個方面,描述了包括適合於在處理器上執行的軟體程序的存儲介質。該軟體程序可以進一步適合於在計算裝置上被執行時執行根據在本文獻中概述的任何方面的方法。根據又一個方面,描述了電腦程式產品。該電腦程式產品可以包括用於在計算裝置上被執行時執行根據在本文獻中概述的任何方面的方法的可執行指令。應當注意,包括如在本專利申請中概述的它們的優選實施例的方法和系統可以被獨立使用或者與本文獻中公開的其它方法和系統結合地使用。此外,可以任意地結合在本專利申請中概述的方法和系統的所有方面。特別地,權利要求的特徵可以以任意方式彼此
彡口口


下面以示例性的方式參考

本發明,其中圖Ia示出設立用於BS. 1770響度的示例測量;圖Ib示出應用於回放增益和ITU-R BS. 1770的示例頻率加權曲線;圖2a示出音樂文件的示例資料庫的風格的分布;圖2b示出對於圖2a的示例資料庫的不同的風格的平均BS. 1770響度和標準偏差;圖2c示出對於圖2a的示例資料庫提供的年份信息的分布;圖2d示出平均BS. 1770響度和標準偏差對比對於圖2a的示例資料庫的年份信息;圖2e示出回放增益調節值對比對於圖2a的示例資料庫的BS. 1770響度值;圖2f示出對於圖2a的示例資料庫的對於在BS. 1770響度和回放增益響度之間的轉換編碼誤差的示例直方圖;圖2g示出修改的回放增益調節值對比對於圖2a的示例資料庫的BS. 1770響度值;圖3是在媒體播放器內的示例解碼器的示意性框圖;圖4是在音頻製作或者傳輸地點處的示例編碼裝置的示意性框圖;以及圖5不出不例編碼和解碼系統的框圖。
具體實施例方式用於將音頻輸出提供在恆定的感知水平處的途徑在於,限定目標輸出水平,要以該目標輸出水平呈現音頻內容。這種目標輸出水平例如可以是-IldBFS (相對於滿刻度的分貝)。特別地,目標輸出水平可以取決於當前的聽音環境。此外,可以確定音頻內容的實際響度水平(也被稱為基準水平)。響度水平優選地與媒體內容一起被提供,例如作為連同媒體內容一起提供的元數據。為了以目標輸出水平呈現音頻內容,可以在回放期間應用匹配的增益值。匹配的增益值可以被確定作為在目標輸出水平和實際響度水平之間的差。 此外,在內容需要被提升以便匹配目標輸出水平的情況下(B卩,在要應用正的匹配的增益的情況下)應該考慮潛在的限幅。此外,如果在與媒體內容關聯的元數據中提供實際響度水平或者基準水平,則必須解決傳統媒體內容的處理,即不包括需要的元數據的媒體內容的處理。如上面已經指出的,用於流式傳播(streaming)和廣播像例如Dolby Digital的系統典型地依賴於將包括指示當前程序的響度水平的「dialnorm」值的元數據傳輸到解碼裝置。「dialnorm」值對於不同的程序可以是不同的。鑑於在編碼器處確定「dialnorm」值或者多個「dialnorm」值這一事實,使得內容擁有者能夠控制直到實際解碼器的整個的信號鏈。此外,解碼裝置上的計算複雜性可以被降低,因為不需要在解碼器處確定對於當前程序的響度值。作為替代,在與當前程序關聯的元數據中提供響度值。對於基於文件的系統,即,對於涉及媒體文件而不是媒體比特流的系統,響度值或者基準水平對於給定的文件典型地不改變。換句話說,以每個文件為基礎地確定響度值。在一個實施例中,響度水平被編碼成有效載荷,即,實際媒體內容被修改,以便滿足一定的目標輸出水平。另一方面,已經設計了對於每個文件依賴單個響度值的媒體文件系統,其中響度值可以作為與媒體內容關聯的附加的元數據被存儲。用於這種媒體文件系統的示例基於所謂的「回放增益」舉措(initiative)以及在http://www. replaygain. org上規定的對應的「回放增益」格式。該網際網路站點的公開內容以其在本文獻的優先權日時公開的版本通過參考被併入。回放增益格式已經被實現在各種媒體播放器上,由此使得媒體播放器能夠對包括與回放增益格式對應的元數據的媒體文件執行響度調節。回放增益格式定義用於指定與特定的媒體文件關聯的多個參數的預定的回放增益語法。可能的參數可以是每個媒體音軌(track)的回放增益調節值或者每個唱片(album)的媒體音軌的回放增益調節值。第一參數指定用於媒體文件的響度值,而第二參數指定用於唱片(即,用於一組媒體音軌)的共同的響度值。另外的參數可以是每個音軌的回放增益峰值信號振幅和/或每個唱片的回放增益峰值信號振幅。這些參數分別指定音軌或者唱片的最大絕對振幅。回放增益舉措也指定用於確定用於特定的音軌或者唱片的上述參數的過程,即用於參數的語義(semantics)被指定。通過使用在http://www. replaygain. org上概述的過程確定回放增益調節值(即響度有關值)。回放增益調節值被假定為將音樂響度調節到在立體聲揚聲器之上回放的在_20dBFS處的粉紅噪聲(pink noise)的響度。關聯的聲壓水平(即預定目標輸出水平)是83dB SPL0回放增益峰值信號振幅通過確定媒體文件的最大絕對振幅來被確定。然而,應當注意,這些過程(特別地,與響度值的確定有關的過程)的感知理據(perceptual motivation)可能是有問題的,並且優選的是應用已經被普遍接受是感知上有意義的過程。因此,存在定義用於音頻內容的適當的感知上相關的參數的問題。特別地,必須解決確定媒體文件或者一組媒體文件的相同地滿足不同用戶的感知的響度水平的問題。事實上,響度是高度主觀的量,並且通常不存在將在所有時間都滿足所有收聽者(或者即使單個收聽者)的單個響度水平。由Dolby Laboratories執行的研究得出結論,即使在音頻節目已經被一組人「通過耳朵」 「標準化」時,「標準化的」節目也沒有在百分之百的時間完全地滿足不同組的收聽者。然而,用於測量音頻程序響度以及真實的峰值音頻水平的方法已經被指定為推薦ITU-R BS. 1770。該推薦通過參考被併入。指定的用於測量音頻響度的方法已經被廣泛接受並且它可以被用作用於不同源和格式的多媒體內容的共同的響度測量。因 而,可以確保不同的編碼工具一致地表現。這將增大消費者的滿意度,因為來自不同源的內容將類似地表現。應當注意,ITU-R BS. 1770沒有定義預定目標響度或者目標輸出水平,並且它對用戶開放以便基於響度測量推導適當的增益。BS. 1770算法已經被檢驗為對於不同的內容(談話,音樂和電影)並且對於單聲道、立體聲和5. 0/5. I多聲道同樣地正確地預測響度。另外,與利用濾波器組分析和模型掩蔽的更複雜的心理聲學模型(例如Zwicker模型)相比,計算複雜性較低。總之,所謂的回放增益舉措指定用於將響度數據與特定的媒體文件關聯的回放增益格式。該格式已經被各種媒體播放器廣泛地接受。回放增益舉措還指定用於計算回放增益調節值以便在各音軌和/或唱片之間將響度標準化的算法或者過程。鑑於已經在推薦BS. 1770中被考慮的外延的(extensive)心理聲學和生理的專門知識(know how),然而,預期的是在使用在推薦BS. 1770中指定的響度測量時可以實現更高程度的感知的滿意度。假定上面的考慮,提出的是,基於如在ITU-R推薦BS. 1770中定義的響度測量並且通過將如等同的或對應的回放增益調節值的這種響度值作為元數據與媒體文件一起傳送,來在媒體播放器中執行響度標準化。換句話說,提出基於ITU-R BS. 1770測量響度。另外,為了支持現有的回放增益元數據並且維持與兩種類型的拉平信息一致的拉平,描述了在回放增益與ITU-R BS. 1770響度之間的轉換。為了實現該目標,兩種拉平途徑(即回放增益和ITU-R BS. 1770)通過利用統計上相關的音樂資料庫被調查。在下文中,概述根據推薦ITU-R BS. 1770的關於響度測量的某些方面。圖Ia示出響度測量算法100的各個組分的框圖。該框圖示出用於五個主聲道(左、中心、右、左環繞和右環繞)的輸入;這允許監視包括從一個到五個聲道的媒體文件。對於具有小於五個通道的媒體文件,不會使用一些輸入。低頻效果(LFE)聲道典型地未被包括在響度測量中。算法的第一階段對信號應用前置濾波101,如ITU-R BS. 1770-1的圖2所示。前置濾波考慮收聽者的頭的音響效果,其中該頭被建模作為剛性球。前置濾波器101由ITU-RBS. 1770-1的圖3中示出的濾波器限定,具有在ITU-R BS. 1770-1的表I中指定的係數。算法的第二階段102應用RLB加權曲線,RLB加權曲線由如ITU-R BS. 1770-1的圖4所示的高通濾波器組成,其中RLB加權曲線被指定作為二階濾波器,如ITU-R BS. 1770-1的圖3所示,具有在ITU-R BS. 1770-1的表2中指定的係數。隨後,使用單元103中的ITU-R BS. 1770-1的公式(I)測量在測量區間T中的每一個聲道的均方能量。最終,能量值被加權(附圖標記104),並且對於不同的聲道的加權的能量值被疊加(附圖標記105)以便得到在相應的測量區間T中的媒體文件的響度值。加權104被稱為K加權。此外,響度確定可以包括加權的能量值的和的偏離。因此,根據ITU-RBS. 1770-1確定的響度值可以被稱為相對於正常滿刻度K加權的響度(LKFS)。總之,ITU-R BS. 1770推薦以下步驟來確定BS. 1770響度(I)利用修正的低頻B曲線(RLB)並且與球形頭近似濾波器串聯地對所有聲道濾波(單元101和102) ; (2)計算相對於滿刻度的對於每個聲道的長期功率(單元103) ; (3)如果存在,則通過因子1.41(I. 5dB)增大環繞聲道功率(單元104) ; (4)將所有聲道功率相加,轉換成dB並且添加
O.69IdB的校準水平(單元105)。結果是以LKFS給出的響度。校準水平確保單聲道的滿刻度正弦波被分配-3. OlLKFS的響度。 用於確定在回放增益舉措中使用的增益值的算法不同於根據ITU-R BS. 1770-1的響度測量。通過使用利用平均等響度濾波器(或更精確地,對逆平均響度曲線的IIR濾波器(無限脈衝響應濾波器)近似,如在http://www. replaygain. org/處概述的)的預處理,確定增益值。隨後,對於各個音頻信號的50ms時間間隔計算RMS (均方根)能量值。不同的RMS能量按數值順序被排序並且僅僅5%的具有最高RMS能量的時間間隔被考慮用於估計音頻信號的整個感知的響度。最終,可以通過根據在兩個揚聲器之上回放的在_20dBFS處的粉紅噪聲基準信號校準回放增益調節值使得用回放增益調節值呈現的音頻信號被呈現在83dB SPL (聲壓水平)的平均回放水平處,來確定音頻文件的回放增益調節值。該校準根據在SMPTE推薦中定義的校準來執行。總之,對於回放增益調節值的確定,提出以下步驟(I)利用平均等響度濾波器對所有聲道濾波;(2)對於50ms長度的不相重疊的塊計算相對於滿刻度的功率,並且在聲道上求平均值;(3)對於每個音軌計算所有塊中的5%中超過的塊功率並且通過轉換成dB來推導響度。最終,回放增益調節值被計算作為在目標響度與其中目標響度基於粉紅噪聲基準信號[-25. 5dB響度]的測量的響度之間的差。因而,增益值被獲得作為回放增益調節值。兩種拉平途徑(即ITU-R BS. 1770和回放增益)測量頻率加權的功率。在兩種拉平途徑之間的主要區別是濾波器特性以及由其推導響度的統計的功率分析。ITU-R BS. 1770應用具有高通濾波器特性的頻率加權曲線110,而回放增益頻率加權曲線120具有如圖Ib所示的帶通濾波器特性。在ITU-R BS. 1770中,在整個音樂音軌(潛在地包括典型地對主觀響度沒有貢獻的靜音)上對能量求平均值。在由發明人執行的調查中,優選地從測量中排除靜音時段。因而,可以使用修改的ITU-R BS. 1770算法。出於此目的,可以使用一個或更多個準則檢測靜音時段。根據第一準則,在音頻信號的靜音時段期間音頻信號的(絕對)峰值水平不超過(絕對)峰值閾值。在一個實施例中,這種峰值閾值可以是_60dBFS或-70dBFS。根據另外的準貝U,在音頻信號的靜音時段期間音頻信號的能量可以不超過能量閾值。在一個實施例中,這種能量閾值可以是-70LKFS。另外的準則可以是靜音時段的最小和/或最大持續時間。因而,如果第一和/或第二準則滿足音頻信號的最小和/或最大持續時間,可以檢測靜音時段。典型的最小持續時間可以是200msec或lsec,其中典型的最大持續時間可以是400msec或 IOsec0因而,用於確定響度有關值的第一或第二過程可以是對於響度有關值的確定排除了音頻信號的靜音時段的修改的ITU-R BS. 1770算法。可以如上面概述地確定音頻信號的靜音時段。靜音時段的排除也可以被稱為靜音門控(silence gating),其中由靜音時段的最小持續時間和最大持續時間給出的時間間隔可以被稱為靜音門(silence gate)。因而,修改的ITU-R BS. 1770算法也可以被稱為使用靜音門控的ITU-R BS. 1770算法。在更一般的方面,可以說用於確定響度有關值的過程可以或可以不考慮靜音門控。然而,由於音樂數據通常沒有表現出顯著量的靜音,因此靜音的影響有限。另一方面,回放增益測量所有幀功率中的僅僅5%超過其的幀功率,其接近絕對最大幀功率,S卩,回放增益對於特定的音樂文件確定接近最大功率。鑑於使用不同的過程或算法確定回放增益調節值和ITU-R BS. 1770響度值的這一事實,對於特定的媒體文件在兩個值之間的關係是高度複雜的。然而,基於在該文獻中概述 的本發明人的分析,可以確定在兩個過程與它們的結果得到的響度有關值之間的有意義的關係。如將示出的,在回放增益中應用的接近最大功率測量和在ITU-R BS. 1770中應用的長期功率對在回放增益調節值和BS. 1770響度值之間的關係具有顯著的影響。此外,將示出在來自不同的功率測量方案的結果之間的關係取決於特定的音樂文件的動態範圍。如上所指出,建議傳遞根據ITU-R BS. 1770-1的響度值作為等同的或對應的回放增益調節值。在該上下文中,建議基於統計上導出的關係(例如線性方程)來將回放增益語義與BS. 1770響度結果匹配。這可以通過對於統計上相關的數量的聲音或音頻文件(例如具有mp3和m4a格式)確定BS. 1770響度值和回放增益調節值來實現。隨後,可以確定在BS. 1770響度值和回放增益調節值之間的確定的和優選地可逆的關係。這種關係可以是多項式,例如,一次或二次的多項式,其通過使用適當的誤差最小化準則與多對BS. 1770響度值和回放增益調節值匹配。在一個實施例中,該關係可以是通過使用最小均方誤差準則或其它誤差準則(諸如總最小二乘方誤差準則或最小絕對偏差誤差準則)確定的在對數空間中的線性方程。線性回歸技術可以被用來確定該關係。在一個實施例中,統計上相關的音樂資料庫由來源於不同的私人的音樂收藏的21220個立體聲文件組成。壓縮格式是在32和48kHz之間的各個比特率和採樣率處的mp3和AAC。對於所有文件計算回放增益調節值。在不考慮靜音時段的情況下計算根據ITU-RBS. 1770的響度,其中在相對於滿刻度的最大峰值水平保持在_60dBFS以下持續多於一秒時識別靜音。平均起來僅僅O. 6%的音頻軌道持續時間被識別為靜音,這指示靜音的影響相對較小。具有較低響度值的文件似乎具有比更響的文件高的程度的靜音時段(在-5LKFS處的O. 3%靜音時段對比在-30LKFS處的I. 2%靜音時段)。圖2a示出在根據ID3元數據的示例資料庫中的音樂風格的分布。基於上述示例音樂資料庫,已經發現在各風格之間一般存在在5-10LKFS範圍內的適度的響度變化。然而古典樂和談話內容與其它風格相比具有尤其低的響度,如可以在圖2b中看到的。根據ID3元數據,所有音樂文件中的大約一半沒有早於2001年,如可以在圖2c中看到的。如上面已經指出的,存在從1990年代早期直到今日增大響度的趨勢。這可以在圖2d中被看出。如果將分析限制到2009年的非常新的音樂文件,則平均響度在-8. 5LKFS 處。圖2e示出其中對於上述的音樂資料庫的多對的回放增益調節值和BS. 1770響度值已經被繪製的圖示。已經通過使用擬合到多個數據對的最小二乘方直線(一次多項式)而獲得了線210。該線在對數空間(dB)中具有-O. 81的斜度。在對數空間中與-I. O不同的斜度指示在兩種基本的功率測量之間的非線性關係。虛線220表示在斜度在對數空間中被限制在-I. O時的最小二乘解,使得在不同的功率測量之間的關係通過常數因子被線性地建模。線性回歸可以被應用於確定可以被用來將回放增益調節值轉換成ITU-R BS. 1770響度值並且反之亦然的關係。虛線220表示直線擬合,其中斜度在dB空間中被限制在-1.0,具有-18. 3dB的偏離量(附圖標記221)。在沒有該限制的情況下,在dB空間中的最佳的斜度是-O. 81並且最佳的偏離量為-16. OdB,如由實線210表示的(附圖標記211)。 換句話說,建議使用如下的公式確定回放增益調節值的估計量Replay Gain =-16. 00-0. 812*BS1770,(I)其中Replay Gain』是在dB中測量的回放增益調節值ReplayGain的估計量,並且BS1770是對於相同的媒體文件以dB (或LKFS)測量的BS. 1770響度值。已經通過將均方誤差準則和dB空間中的線性關係應用於統計上相關的多對BS. 1770響度值和回放增益調節值來推導公式(I ),其中每一對值根據同一個媒體文件被確定。可替代地,斜度可以在dB空間中被限制到-I. O。在這種情況下,可以使用如下的公式來確定對於回放增益調節值的估計值Replay Gain =-18. 3-1. 0*BS1770,(2)。應當注意,在可替代的實施例中,斜度可以在dB空間中被限制到-I. 0,並且一次多項式的偏離可以在dB空間中在具有-I. O的預定義的斜度的情況下被擬合為使得對於當前使用的資料庫回放增益估計誤差的中值是O. OdB。通過使用該誤差準則,可以確定可逆關係,使得具有正估計誤差的測量的數據點的數量等於具有負估計誤差的數據點的數量。通過使用基於誤差準則的該中值,可以對於調查的資料庫獲得-18. I的偏離量,即Replay Gain』 =-18. 1-1. 0*BS1770。應當注意,在某些情況下,修改先前的公式以便使用-18. O而不是-18. I的偏離量可以是有利的,即Replay Gain』=_18· 0-1. 0*BS1770。在BS. 1770響度值和回放增益調節值之間的關係的估計誤差被定義為Error=Replay Gain』-Replay Gain (dB)。對於上述的測量的該Error的絕對值的統計特徵值被提供在表I中。
公式⑴ 公式⑵
RMS 17041732
Mean O. 78I. 0權利要求
1.一種用於將響度有關的數據提供給媒體播放器的方法,所述方法包括如下步驟 -提供與音頻信號關聯的第一響度有關值;其中第一響度有關值已經根據第一過程被確定; -通過使用包括可逆關係的模型來將第一響度有關值轉換成第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯; -將第二響度有關值存儲在與音頻信號關聯的元數據中;以及 -將元數據提供給媒體播放器。
2.根據權利要求I所述的方法,其中第一和/或第二過程包括 -根據人類響度感知來處理音頻信號; -確定處理後的音頻信號的部分的能量;以及 -將能量偏離以便確定響度有關值。
3.根據權利要求2所述的方法,其中 -第一過程是用於測量音頻節目響度的ITU-R BS. 1770算法;以及-第二過程是回放增益響度計算方案;並且其中回放增益響度計算方案進一步包括根據響度有關值計算增益值,該增益值是第二響度有關值。
4.根據前面任一權利要求所述的方法,其中可逆關係是一次或者二次的多項式。
5.根據權利要求4所述的方法,其中可逆關係由以下給出L2=A+BL1 其中L2是以dB方式測量的第二響度有關值,L1是以dB方式測量的第一響度有關值,並且A和B是實數。
6.根據權利要求5所述的方法,其中-17彡A彡-15並且-O.7彡B彡-O. 9。
7.根據權利要求6所述的方法,其中-16.I ^ 15. 9並且-O. 80 ^ B ^ -O. 82。
8.根據權利要求7所述的方法,其中-16.01彡A彡15. 99並且-O. 811彡B彡-O. 813。
9.根據權利要8所述的方法,其中A=-16.00並且B=-O. 812。
10.根據權利要求5所述的方法,其中B=-LO。
11.根據權利要求10所述的方法,其中-19SAS -18,或者-18. AS -18. 3,或者-18. 31 彡 A 彡-18. 29,或者 Α=_18· 30,或者 Α=_18· 10,或者 Α=_18· 00。
12.根據權利要求4所述的方法,其中可逆關係由以下給出L2 = A+BLi+CLi2 其中L2是以dB方式測量的第二響度有關值,L1是以dB方式測量的第一響度有關值,並且A、B和C是實數。
13.根據前面任一權利要求所述的方法,其中 -包括第二響度有關值的元數據具有預定的格式; -該預定的格式使用回放增益語法;和/或 -該預定的格式包括iTunes樣式元數據或者ID3v2標籤。
14.根據前面任一權利要求所述的方法,其中 -可逆關係已經基於對於多個音頻信號的多個計算出的第一和第二響度有關值而被確定; -可逆關係已經通過使用線性回歸被確定;-可逆關係已經通過使用分段的線性回歸被確定;和/或 -可逆關係已經通過使用誤差最小化方案被確定。
15.根據權利要求14所述的方法,其中在對數空間中測量的第一響度有關值和第二響度有關值之間的可逆關係是線性關係。
16.根據前面任一權利要求所述的方法,其中將元數據提供給媒體播放器的步驟包括將音頻信號和元數據傳輸給媒體播放器。
17.根據前面任一權利要求所述的方法,進一步包括 -從元數據中提取第二響度有關值;以及 -通過使用第二響度有關值來呈現音頻信號。
18.根據權利要求17所述的方法,進一步包括 -通過使用可逆關係將第二響度有關值轉換成第一響度有關值;以及 -通過使用第一響度有關值來呈現音頻文件。
19.根據權利要求17或者18中的任何一個所述的方法,其中呈現的步驟包括 -將由第一或者第二響度有關值導出的值應用於音頻信號的樣本;和/或 -控制響度處理後的音頻信號的動態範圍;和/或 -限制響度處理後的音頻信號以避免限幅。
20.根據前面任一權利要求所述的方法,其中音頻信號以作為下列中的一種的媒體格式被表不mp3> AAC> HE-AAC> OGG> WMA、Dolby Digital、Dolby Digital Plus 或 DolbyPulse。
21.根據前面任一權利要求所述的方法,其中將第一響度有關值轉換成第二響度有關值的步驟進一步包括,如果音頻信號是單聲道信號則將第一響度有關值以預定值進行偏離。
22.一種被配置為將響度有關的數據提供給媒體播放器的系統,所述系統包括 -響度編碼器,被配置為 -提供與音頻信號關聯的第一響度有關值;其中第一響度有關值已經根據第一過程被確定; -通過使用包括可逆關係的模型來將第一響度有關值轉換成第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯;以及-將第二響度有關值存儲在與音頻信號關聯的元數據中; -傳輸介質,被配置為將元數據提供給媒體播放器; -媒體播放器,被配置為 -從元數據中提取第二響度有關值;以及 -基於第二響度有關值來呈現音頻信號。
23.根據權利要求22所述的系統,其中媒體播放器進一步被配置為 -通過使用可逆關係將第二響度有關值轉換成第一響度有關值;以及 -通過使用第一響度有關值來呈現音頻信號。
24.一種響度編碼器,被配置為 -提供與音頻信號關聯的第一響度有關值;其中第一響度有關值已經根據第一過程被確定;-通過使用包括可逆關係的模型來將第一響度有關值轉換成第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯;以及-將第二響度有關值存儲在與音頻信號關聯的元數據中。
25.一種媒體播放器,被配置為 -從與音頻信號關聯的元數據中提取第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯; -通過使用包括可逆關係的模型來將第二響度有關值轉換成第一響度有關值;其中第一響度有關值已經根據第一過程被確定;以及-通過使用第一響度有關值來呈現音頻信號。
26.根據權利要求25所述的媒體播放器,所述媒體播放器為下列中的一種行動電話、 智慧型電話、mp3播放器、膝上型計算機或者個人媒體播放器。
27.一種用於使用第一響度有關值在媒體播放器處呈現音頻信號的方法,所述方法包括如下步驟 -在媒體播放器處接收與音頻信號關聯的元數據; -從與音頻信號關聯的元數據中提取第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯; -通過使用包括可逆關係的模型來將第二響度有關值轉換成第一響度有關值;其中第一響度有關值已經根據第一過程被確定;以及-通過使用第一響度有關值來呈現音頻信號。
28.一種用於確定用於將第一響度有關值轉換成第二響度有關值的可逆關係的方法,所述方法包括如下步驟 -確定與對應的多個音頻信號關聯的多個第一響度有關值,其中多個第一響度有關值根據第一過程被確定; -確定與對應的多個音頻信號關聯的多個第二響度有關值,其中多個第二響度有關值根據第二過程被確定; -提供包括一個或更多個模型參數的用於可逆關係的模型;以及-通過使用誤差最小化方案將模型擬合到多個第一和第二響度有關值來確定模型參數,由此得到可逆關係。
29.一種適合於在處理器上執行的軟體程序,用於在計算裝置上被執行時執行權利要求I到21、27、28中的任一個的方法步驟。
30.一種包括適合於在處理器上執行的軟體程序的存儲介質,所述軟體程序用於在計算裝置上被執行時執行權利要求I到21、27、28中的任一個的方法步驟。
31.一種電腦程式產品,包括用於在計算裝置上被執行時執行權利要求I到21、27、28中的任一個的方法的可執行指令。
全文摘要
本發明涉及多媒體數據的處理,特別涉及多媒體數據(例如音頻文件或者比特流)的編碼、傳輸、解碼和呈現。特別地,本發明涉及多媒體播放器中的響度控制的實現方式。描述了用於將響度有關的數據提供給媒體播放器的方法。該方法包括如下步驟提供與音頻信號關聯的第一響度有關值;其中第一響度有關值已經根據第一過程被確定;通過使用可逆關係來將第一響度有關值轉換成第二響度有關值;其中第二響度有關值與用於確定響度有關值的第二過程關聯;將第二響度有關值存儲在與音頻信號關聯的元數據中;以及將元數據提供給媒體播放器。
文檔編號H03G9/00GK102792588SQ201180013060
公開日2012年11月21日 申請日期2011年3月7日 優先權日2010年3月10日
發明者H·H·蒙德特, J·C·瑞德米勒, M·沃爾特斯, M·舒格 申請人:杜比國際公司, 杜比實驗室特許公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀