新四季網

使用節目信息或子流結構元數據的音頻編碼器和解碼器的製造方法

2023-06-05 05:07:56 2

使用節目信息或子流結構元數據的音頻編碼器和解碼器的製造方法
【專利摘要】一種用於包括通過將子流結構元數據(SSM)和/或節目信息元數據(PIM)以及音頻數據包括在比特流中來生成編碼音頻比特流的設備和方法。其他方面是用於對這樣的比特流進行解碼的設備和方法,以及被配置成(例如,被編程成)執行該方法的任意實施方式或包括存儲根據該方法的任意實施方式而生成的音頻比特流的至少一個幀的緩衝存儲器的音頻處理單元(例如,編碼器、解碼器或後處理器)。
【專利說明】使用節目信息或子流結構元數據的音頻編碼器和解碼器

【技術領域】
[0001] 本發明涉及音頻信號處理,以及更具體地,涉及具有指示與由比特流所指示的音 頻內容有關的子流結構和/或節目信息的元數據的音頻數據比特流的編碼和解碼。本發明 的一些實施方式以被稱為杜比數字(AC-3)、杜比數字+ (增強的AC-3或E-AC-3)或杜比E 的格式中的一種格式生成或解碼音頻數據。

【背景技術】
[0002] 杜比、杜比數字、杜比數字+、和杜比E是杜比實驗室特許公司的商標。杜比實驗室 提供分別被稱為杜比數字和杜比數字+的AC-3和E-AC-3的專有實現。
[0003] 音頻數據處理單元通常以盲方式(blind fashion)操作並且不關注在數據被接 收之前發生的音頻數據的處理歷史。這可以在這樣的處理框架中工作:其中單個實體進 行各種目標媒體渲染裝置的所有的音頻數據處理和編碼而目標媒體渲染裝置進行編碼音 頻數據的所有的解碼和渲染。然而,該盲處理在多個音頻處理單元跨多樣化的網絡被散布 (scatter)或串聯(S卩,鏈)放置並且期望它們最佳地執行其相應類型的音頻處理的情形下 不能很好地(或完全不)工作。例如,一些音頻數據可能針對高性能媒體系統被編碼,並且可 能需要被轉換成適合於沿著媒體處理鏈的行動裝置的簡化形式。因此,音頻處理單元可能 不必要地對音頻數據執行已經被執行過的類型的處理。例如,音量校平(leveling)單元可 能對輸入音頻片斷執行處理,不管以前是否已經對輸入音頻片斷執行了相同的或相似的音 量校平。因此,即使當不必要時,音量校平單元也可能執行校平。該不必要的處理還可能導 致當渲染音頻數據的內容時具體特徵的退化和/或消除。


【發明內容】

[0004] 在一類實施方式中,本發明是能夠對編碼比特流進行解碼的音頻處理單元,該編 碼比特流包括比特流的至少一個幀的至少一個段中的子流結構元數據和/或節目信息元 數據(可選地還包括其他元數據,例如,響度處理狀態元數據)以及幀的至少一個其他段中 的音頻數據。在本文中,子流結構元數據(或"SSM")表示編碼比特流(或編碼比特流的集合) 的元數據,其指示編碼比特流的音頻內容的子流結構,並且"節目信息元數據"(或"PM") 表示編碼音頻比特流的元數據,其指示至少一個音頻節目(例如,兩個或更多個音頻節目), 其中節目信息元數據指示至少一個所述節目的音頻內容的至少一個屬性或特性(例如,指 示對節目的音頻數據執行的處理的類型或參數的元數據,或指示節目的哪些通道是活動通 道(active channel)的元數據)。
[0005] 在典型的情況(例如,其中編碼比特流為AC-3或E-AC-3比特流)下,節目信息元數 據(PIM)指示實際上不能在比特流的其他部分中攜帶的節目信息。例如,PIM可以指示在編 碼(例如,AC-3或E-AC-3編碼)之前對PCM音頻所應用的處理,音頻節目的哪些頻帶已經使 用具體的音頻編碼技術被編碼以及用於在比特流中創建動態範圍壓縮(DRC)數據的壓縮配 置文件(profile)。
[0006] 在另一類實施方式中,方法包括在比特流的每個幀(或至少一些幀中的每個幀)中 將編碼音頻數據與SSM和/或PIM復用的步驟。在典型的解碼中,解碼器從比特流中提取 SSM和/或PM (包括通過對SSM和/或PM以及音頻數據進行分析和去復用),並且對音 頻數據進行處理以生成解碼音頻數據的流(以及在某些情況下還執行音頻數據的自適應處 理)。在一些實施方式中,解碼音頻數據以及SSM和/或PM從解碼器被轉發至後處理器, 該後處理器被配置成使用SSM和/或PM對解碼音頻數據執行自適應處理。
[0007] 在一類實施方式中,本發明的編碼方法生成包括音頻數據段(例如,圖4所示的幀 的ABO至AB5段或圖7所示的幀的段ABO至AB5中的全部或一些)的編碼音頻比特流(例如, AC-3或E-AC-3比特流),音頻數據段包括編碼音頻數據以及與音頻數據段時分復用的元數 據段(包括SSM和/或PIM,可選地還包括其他元數據)。在一些實施方式中,每個元數據段 (在本文中有時稱為"容器")具有包括元數據段報頭(可選地還包括其他強制性的或"核心" 元素)、以及在元數據段報頭之後的一個或更多個元數據有效載荷。如果存在,SIM被包括在 元數據有效載荷之一中(由有效載荷報頭標識,並且通常具有第一類型的格式)。如果存在, PM被包括在元數據有效載荷中的另一個中(由有效載荷報頭標識,並且通常具有第二類型 的格式)。類似地,元數據的每個其他類型(如果存在)被包括在元數據有效載荷中的另一個 中(由有效載荷報頭標識,並且通常具有特定於元數據的類型的格式)。示例性格式允許在 除了比特流的解碼期間之外的時間(例如,由解碼之後的後處理器,或由被配置成在不執行 對編碼比特流的完全解碼的情況下識別元數據的處理器)對SSM、PIM或其他元數據的方便 的訪問,並且允許在比特流的解碼期間(例如,子流識別的)方便的和高效的誤差檢測和校 正。例如,在不以示例性格式訪問SSM的情況下,解碼器可能錯誤地識別與節目相關聯的子 流的正確數量。元數據段中的一個元數據有效載荷可以包括SSM,元數據段中的另一元數據 有效載荷可以包括PM,並且可選地,元數據段中的至少一個其他元數據有效載荷可以包括 其他元數據(例如,響度處理狀態元數據或"LPSM")。

【專利附圖】

【附圖說明】
[0008] 圖1是可以被配置成執行本發明的方法的實施方式的系統的實施方式的框圖。
[0009] 圖2是作為本發明的音頻處理單元的實施方式的編碼器的框圖。
[0010] 圖3是作為本發明的音頻處理單元的實施方式的解碼器以及作為本發明的音頻 處理單元的另一實施方式的耦接至解碼器的後處理器的框圖。
[0011] 圖4是包括被劃分成的段的AC-3幀的圖。
[0012] 圖5是包括被劃分成的段的AC-3幀的同步信息(SI)段的圖。
[0013] 圖6是包括被劃分成的段的AC-3幀的比特流信息(BSI)段的圖。
[0014] 圖7是包括被劃分成的段的E-AC-3幀的圖。
[0015] 圖8是根據本發明的實施方式生成的包括元數據段報頭的編碼比特流的元數據 段的圖,元數據段報頭包括容器同步字(在圖8中標識為"容器同步")以及版本和鍵ID值, 之後是多個元數據有效載荷以及保護位。
[0016] 符號和術語
[0017] 貫穿包括權利要求在內的本公開內容,"對"信號或數據執行操作(例如,對信號或 數據進行濾波、縮放、變換或施加增益)的表達用於廣義上表示對信號或數據、或對信號或 數據的已處理版本(例如,對在對信號執行操作之前已經經歷了初步濾波或預處理的信號 的版本)直接執行操作。
[0018] 貫穿包括權利要求在內的本公開內容,"系統"的表達用於廣義上表示設備、系統 或子系統。例如,實現解碼器的子系統可以稱為解碼器系統,並且包括這樣的子系統的系統 (例如,響應於多個輸入生成X個輸出信號的系統,在該系統中,子系統生成M個輸入並且其 他X - M個輸入從外部源接收)也可以稱為解碼器系統。
[0019] 貫穿包括權利要求在內的本公開內容,術語"處理器"用於廣義上表示可編程或以 其他方式可配置成(例如,使用軟體或固件)對數據(例如,音頻數據或視頻數據或其他圖像 數據)執行操作的系統或裝置。處理器的示例包括現場可編程門陣列(或其他可配置的集成 電路或晶片組)、被編程和/或被以其他方式配置成對音頻數據或其他聲音數據執行流水線 處理的數位訊號處理器、可編程的通用處理器或計算機以及可編程的微處理器晶片或晶片 組。
[0020] 貫穿包括權利要求在內的本公開內容,"音頻處理器"和"音頻處理單元"的表達用 於可交換地廣義上表示被配置成對音頻數據進行處理的系統。音頻處理單元的示例包括但 不限於編碼器(例如,代碼轉換器)、解碼器、編解碼器、預處理系統、後處理系統以及比特流 處理系統(有時稱為比特流處理工具)。
[0021] 貫穿包括權利要求在內的本公開內容,(編碼音頻比特流的)"元數據"的表達指代 與比特流的相應的音頻數據分離的且不同的數據。
[0022] 貫穿包括權利要求在內的本公開內容,"子流結構元數據"(或"SSM")的表達表示 編碼音頻比特流(或編碼音頻比特流集)的元數據,其指示編碼比特流的音頻內容的子流結 構。
[0023] 貫穿包括權利要求在內的本公開內容,"節目信息元數據"(或"PM")的表達表示 編碼音頻比特流的元數據,該編碼音頻比特流指示至少一個音頻節目(例如,兩個或更多個 音頻節目),其中所述元數據指示至少一個所述節目的音頻內容的至少一個屬性或特性(例 如,指示對節目的音頻數據執行的處理的類型或參數的元數據、或表示節目的哪些通道是 活動通道的元數據)。
[0024] 貫穿包括權利要求在內的本公開內容,"處理狀態元數據"的表達(例如,如在"響 度處理狀態元數據"的表達中)指代與比特流的音頻數據相關聯的(編碼音頻比特流的)元 數據,指示相應的(相關聯的)音頻數據的處理狀態(例如,已經對音頻數據執行了什麼類型 的處理),並且通常還指示音頻數據的至少一個特徵或特性。處理狀態元數據與音頻數據的 關聯是時間同步的。從而,當前的(最新接收或更新的)處理狀態元數據指示相應的音頻數 據同時包括所指示的類型的音頻數據處理的結果。在一些情況下,處理狀態元數據可以包 括處理歷史和/或用於所指示的類型的處理中的和/或從所指示的類型的處理中得到的參 數中的一些或全部。另外,處理狀態元數據可以包括相應的音頻數據的已經從音頻數據中 計算或提取的至少一個特徵或特性。處理狀態元數據還可以包括與相應的音頻數據的任何 處理無關的或不是從相應的音頻數據的任何處理中得到的其他元數據。例如,第三方數據、 跟蹤信息、標識符、所有權或標準信息、用戶注釋數據、用戶偏好數據等可以通過具體的音 頻處理單元被添加以傳遞至其他音頻處理單元。
[0025] 貫穿包括權利要求在內的本公開內容,"響度處理狀態元數據"(或"LPSM")的表 達表示處理狀態元數據,處理狀態元數據指示相應的音頻數據的響度處理狀態(例如,已經 對音頻數據執行了什麼類型的響度處理),並且通常還指示相應的音頻數據的至少一個特 徵或特性(例如,響度)。響度處理狀態元數據可以包括不是(即,當單獨考慮時)響度處理狀 態元數據的數據(例如,其他元數據)。
[0026] 貫穿包括權利要求在內的本公開內容,"通道"(或"音頻通道")的表達表示單通 道音頻信號。
[0027] 貫穿包括權利要求在內的本公開內容,"音頻節目"的表達表示一個或更多個音頻 通道的集合以及可選地還表示相關聯的元數據(例如,描述期望的空間音頻表示的元數據、 和/或PM、和/或SSM、和/或LPSM、和/或節目邊界元數據)。
[0028] 貫穿包括權利要求在內的本公開內容,"節目邊界元數據"的表達表示編碼音頻比 特流的元數據,其中編碼音頻比特流指示至少一個音頻節目(例如,兩個或更多個節目),並 且節目邊界元數據指示至少一個所述音頻節目的至少一個邊界(開始和/或結束)在比特流 中的位置。例如,(指示音頻節目的編碼音頻比特流的)節目邊界元數據可以包括指示節目 的開始的位置(例如,比特流的第"N"幀的開始,或比特流的第"N"幀的第"M"個樣本位置) 的元數據,以及指示節目的結束的位置(例如,比特流的第"J"幀的開始,或比特流的第"J" 幀的第"K"個樣本位置)的額外元數據。
[0029] 貫穿包括權利要求在內的本公開內容,術語"耦接"或"被耦接"用於表示直接或 間接連接。從而,如果第一設備耦接至第二設備,該連接可以是通過直接連接,或經由其他 設備和連接的通過間接連接。

【具體實施方式】
[0030] 典型的音頻數據流包括音頻內容(例如,音頻內容的一個或更多個通道)和指示音 頻內容的至少一個特性的元數據兩者。例如,在AC-3比特流中,存在具體意在用於改變被 傳送至收聽環境的節目的聲音的若干音頻元數據參數。元數據參數中的一個為DIALN0RM 參數,其意在指示音頻節目中的對白的平均電平,並且用於確定音頻回放信號電平。
[0031] 在包括一系列不同的音頻節目段(每個具有不同的DIALN0RM參數)的比特流的回 放期間,AC-3解碼器使用每個段的DIALN0RM參數執行一種類型的響度處理,在該響度處理 中AC-3解碼器修改回放電平或響度,使得該系列段的對白的感知的響度處於一致的電平。 一系列編碼音頻項目中的每個編碼音頻段(項目)將(通常)具有不同的DIALN0RM參數,並 且解碼器將對項目中的每個項目的電平進行縮放,使得每個項目的對白的回放電平或響度 相同或非常相似,儘管這會要求在回放期間對項目中的不同的項目應用不同量的增益。
[0032] DIALN0RM通常由用戶設置而不是自動生成的,然而如果用戶沒有設置值則存在默 認的DIALN0RM值。例如,內容創建者可以使用AC-3編碼器外部的裝置進行響度測量,然後 將該結果(指示音頻節目的口語對白的響度)傳送至編碼器以設置DIALN0RM值。從而,依賴 於內容創建者正確地設置DIALN0RM參數。
[0033] 對於為什麼AC-3比特流中的DIALN0RM參數會是錯誤的,存在幾個不同的原因。第 一,如果DIALN0RM值不是由內容創建者設置的,那麼每個AC-3編碼器具有在比特流的生成 期間使用的默認的DIALN0RM值。該默認值可能與音頻的實際對白響度顯著不同。第二,即 使內容創建者測量響度並且相應地設置DIALN0RM值,可能已經使用不符合推薦的AC-3響 度測量方法的響度測量算法或計量器,產生不正確的DIALNORM值。第三,即使已經使用由 內容創建者正確測量和設置的DIALN0RM值創建了 AC-3比特流,該AC-3比特流可能在比特 流的傳輸和/或存儲期間已經被改變成錯誤值。例如,這在使用錯誤的DIALNORM元數據信 息解碼、修改然後重新編碼AC-3比特流的電視廣播應用中並非是不常見的。從而,包括在 AC-3比特流中的DIALNORM值可能是錯誤的或不準確的,因此可能對收聽體驗的質量有消 極的影響。
[0034] 此外,DIALNORM參數不指示相應的音頻數據的響度處理狀態(例如,已經對音頻數 據執行了什麼類型的響度處理)。響度處理狀態元數據(以其在本發明的一些實施方式中被 提供的格式)有助於以尤其高效的方式便利於音頻比特流的自適應響度處理和/或音頻內 容的響度處理狀態和響度的有效性的驗證。
[0035] 儘管本發明不限於使用AC-3比特流、E-AC-3比特流或杜比E比特流,為了方便, 將在生成、解碼或以其他方式處理這樣的比特流的實施方式中對其進行描述。
[0036] AC-3編碼比特流包括元數據和音頻內容的1至6個通道。音頻內容是已經使用感 知音頻編碼壓縮的音頻數據。元數據包括意在用於改變被傳送至收聽環境的節目的聲音的 若干音頻元數據參數。
[0037] AC-3編碼音頻比特流的每幀包含關於數字音頻的1536個樣本的音頻內容和元數 據。對於48kHz的採樣率,這表示32毫秒的數字音頻或音頻的每秒31. 25幀的速率。
[0038] 取決於幀是否分別包含1塊、2塊、3塊或6塊音頻數據,E-AC-3編碼音頻比特流的 每幀包含關於數字音頻的256、512、768或1536個樣本的音頻數據和元數據。對於48kHz的 採樣率,這分別表示5. 333、10. 667、16或32毫秒的數字音頻或分別表示音頻的每秒189. 9、 93. 75、62· 5或3L 25幀的速率。
[0039] 如圖4所示,每個AC-3幀被劃分成部分(段),包括:包含(如圖5所示)同步字(SW) 和兩個誤差校正字中的第一個誤差校正字(CRCl)的同步信息(SI)部分;包含大部分元數 據的比特流信息(BSI)部分;包含數據壓縮音頻內容(以及還可以包括元數據)的6個音頻 塊(ΑΒ0至AB5);包含在壓縮音頻內容之後剩餘的任意未使用的位的無用位段(W)(也稱為 "跳過欄位;可以包含更多元數據的輔助(AUX)信息部分;以及兩個誤差校正字中的第二 個誤差校正字(CRC2)。
[0040] 如圖7所示,每個E-AC-3幀被劃分成部分(段),包括:包含(如圖5所示)同步字 (SW)的同步信息(SI)部分;包含大部分元數據的比特流信息(BSI)部分;包含數據壓縮音 頻內容(以及還可以包括元數據)的6個音頻塊(ABO至AB5);包含在壓縮音頻內容之後剩 餘的任意未使用的位的無用位段(W)(也稱為"跳過欄位")(儘管僅示出了一個無用位段, 不同的無用位段或跳過欄位段通常可以在每個音頻塊之後);可以包含更多元數據的輔助 (AUX)信息部分;以及誤差校正字(CRC)。
[0041] 在AC-3 (或E-AC-3)比特流中,存在具體意在用於改變被傳送至收聽環境的節目 的聲音的若干音頻元數據參數。元數據參數中的一個為DIALNORM參數,該DIALNORM參數 被包括在BSI段中。
[0042] 如圖6所示,AC-3幀的BSI段包括指示節目的DIALNORM值的5位參數 ("DIALNORM")。如果AC-3幀的音頻編碼模式("acmod")為0,則包括指示在同一 AC-3幀中 攜帶的第二音頻節目的5位參數DIALNORM值的5位參數("DIALN0RM2"),指示使用雙單通 道或"1+1"通道配置。
[0043] BSI段還包括指示在"addbsie"位之後額外的比特流信息的存在(或不存在) 的標誌(" addbsie ")、指示在" addbsi 1 "值之後任何額外的比特流信息的長度的參數 ("addbsil")、以及在"addbsil"值之後高達64位的額外的比特流信息("addbsi")。
[0044] BSI段包括在圖6中沒有具體示出的其他元數據值。
[0045] 根據一類實施方式,編碼比特流指示音頻內容的多個子流。在一些情況下,子流指 示多通道節目的音頻內容,並且子流中的每個指示節目的通道中的一個或更多個。在其他 情況下,編碼音頻比特流的多個子流指示若干音頻節目--通常為"主"音頻節目(可以是 多通道節目)和至少一個其他音頻節目(例如,為關於主音頻節目的評論的節目)--的音 頻內容。
[0046] 指示至少一個音頻節目的編碼音頻比特流需要包括音頻內容的至少一個"獨立" 子流。獨立子流指示音頻節目的至少一個通道(例如,獨立子流可以指示常規的5. 1通道音 頻節目的5個全音域通道)。在本文中,該音頻節目稱為"主"節目。
[0047] 在一些類型的實施方式中,編碼音頻比特流指示兩個或更多個音頻節目("主"節 目和至少一個其他音頻節目)。在這樣的情況下,比特流包括兩個或更多個獨立子流:指示 主節目的至少一個通道的第一獨立子流;以及指示另一音頻節目(與主節目不同的節目)的 至少一個通道的至少一個其他獨立子流。每個獨立子流可以獨立地被解碼,並且解碼器可 以操作以僅對編碼比特流的獨立子流的子集(不是全部)進行解碼。
[0048] 在指示兩個獨立子流的編碼音頻比特流的典型示例中,獨立子流中的一個指示多 通道主節目的標準格式揚聲器通道(例如,5. 1通道主節目的左、右、中、左環繞、右環繞全音 域揚聲器通道),而另一獨立子流指示關於主節目的單通道音頻評論(例如,導演關於電影 的評論,其中主節目是電影的聲帶(soundtrack))。在指示多個獨立子流的編碼音頻比特流 的另一示例中,獨立子流中的一個指示包括第一語言的對白的多通道主節目(例如,5. 1通 道主節目)的標準格式揚聲器通道(例如,主節目的揚聲器通道中的一個可以指示對白),而 每個其他獨立子流指示對白的單通道翻譯(翻譯成不同的語言)。
[0049] 可選地,指示主節目(可選地還指示至少一個其他音頻節目)的編碼音頻比特流包 括音頻內容的至少一個"從屬"子流。每個從屬子流與比特流的一個獨立子流相關聯,並且 指示其內容由相關聯的獨立子流指示的節目(例如,主節目)的至少一個額外的通道(即,從 屬子流指示節目的不是由相關聯的獨立子流指示的至少一個通道,而相關聯的獨立子流指 示節目的至少一個通道)。
[0050] 在包括獨立子流(指示主節目的至少一個通道)的編碼比特流的示例中,比特流還 包括指示主節目的一個或更多個額外的揚聲器通道的(與獨立子流相關聯的)從屬子流。這 樣的額外的揚聲器通道對由獨立子流指示的主節目通道來說是額外的。例如,如果獨立子 流指示7. 1通道主節目的左、右、中、左環繞、右環繞全音域揚聲器通道,那麼從屬子流可以 指示主節目的其他兩個全音域揚聲器通道。
[0051 ] 根據E-AC-3標準,E-AC-3比特流必須指示至少一個獨立子流(例如,單個AC-3比 特流),並且可以指示高達8個獨立子流。E-AC-3比特流的每個獨立子流可以與高達8個從 屬子流相關聯。
[0052] E-AC-3比特流包括指示比特流的子流結構的元數據。例如,E-AC-3比特流的比 特流信息(BSI)部分中的"chanmap"欄位確定由比特流的從屬子流指示的節目通道的通 道映射。然而,指示子流結構的元數據常規地以如下格式包括在E-AC-3比特流中:該格式 使得便於僅由E-AC-3解碼器訪問和使用(在編碼E-AC-3比特流的解碼期間);不便於在解 碼之後(例如,由後處理器)或解碼之前(例如,由被配置成識別元數據的處理器)訪問和使 用。而且,存在以下風險:解碼器可能使用常規地包括的元數據錯誤地識別常規的E-AC-3 編碼比特流的子流,並且在本發明之前還不知道如何以這樣的格式在編碼比特流(例如,編 碼E-AC-3比特流)中包括子流結構元數據,使得允許在比特流的解碼期間方便和高效的檢 測和校正子流識別中的誤差。
[0053] E-AC-3比特流還可以包括關於音頻節目的音頻內容的元數據。例如,指示音頻 節目的E-AC-3比特流包括指示已經使用譜擴展處理(以及通道耦合編碼)以對節目的內 容進行編碼的最小頻率和最大頻率的元數據。然而,這樣的元數據通常以如下格式包括在 E-AC-3比特流中,該格式使得便於僅由E-AC-3解碼器訪問和使用(在編碼E-AC-3比特流的 解碼期間);不便於在解碼之後(例如,由後處理器)或解碼之前(例如,由被配置成識別元數 據的處理器)訪問和使用。而且,這樣的元數據不以如下的格式包括在E-AC-3比特流中,該 格式允許在比特流的解碼期間這樣的元數據的識別的方便和高效的誤差檢測和誤差校正。
[0054] 根據本發明的典型的實施方式,PM和/或SSM (以及可選地還有其他元數據,例 如,響度處理狀態元數據或"LPSM")被嵌入在音頻比特流的元數據段的一個或更多個保留 欄位(或槽(slot))中,該音頻比特流還包括其他段(音頻數據段)中的音頻數據。通常,t匕 特流的每個幀的至少一個段包括P頂或SSM,並且幀的至少一個其他段包括相應的音頻數 據(即,其數據結構由SSM指示的和/或其至少一個特性或屬性由PIM指示的音頻數據)。
[0055] 在一類實施方式中,每個元數據段為可以包含一個或更多個元數據有效載荷的數 據結構(在本文中有時稱為容器)。每個有效載荷包括報頭以提供存在於有效載荷中的元數 據的類型的明確的指示,其中報頭包括具體的有效載荷標識符(或有效載荷配置數據)。有 效載荷在容器內的順序未被定義,使得有效載荷可以以任何順序存儲並且分析器必須能夠 對整個容器進行分析以提取相關的有效載荷而忽略不相關的或不支持的有效載荷。圖8(下 面將要描述的)說明這樣的容器和容器內的有效載荷的結構。
[0056] 當兩個或更多個音頻處理單元需要貫穿該處理鏈(或內容生命周期)彼此合作工 作時,音頻數據處理鏈中的通信元數據(例如,SSM和/或PIM和/或LPSM)尤其有用。在 音頻比特流中不包括元數據的情況下,例如,當在鏈中利用兩個或更多個音頻編解碼器並 且在媒體消耗裝置的比特流路徑(或比特流的音頻內容的渲染點)期間多於一次地應用單 端音量時,可以出現若干媒體處理問題,例如質量、電平和空間退化。
[0057] 根據本發明的一些實施方式,嵌入在音頻比特流中的響度處理狀態元數據(LPSM) 可以被認證和驗證,例如以使得響度調整實體能夠證明特定節目的響度是否已經在指定的 範圍內以及相應的音頻數據本身是否未被修改(由此確保符合可適用的調節)。包括在包 括響度處理狀態元數據的數據塊中的響度值可以被讀出以對此進行驗證,而不再次計算響 度。響應於LPSM,管理結構可以確定相應的音頻內容符合(如由LPSM指示的)響度法定的 和/或管理的要求(例如,在商業廣告響度緩解法下公布的規則,也稱為"CALM"法)而不需 要計算音頻內容的響度。
[0058] 圖1為示例性音頻處理鏈(音頻數據處理系統)的框圖,在音頻處理鏈中,系統的 元件中的一個或更多個可以根據本發明的實施方式被配置。系統包括如所示耦接在一起的 以下元件:預處理單元、編碼器、信號分析和元數據校正單元、代碼轉換器、解碼器和後處理 單元。在所示的系統的變型中,省略元件中的一個或更多個,或包括額外的音頻數據處理單 J Li 〇
[0059] 在一些實現中,圖1的預處理單元被配置成接收包括音頻內容的PCM (時域)樣本 作為輸入,並且輸出經處理PCM樣本。編碼器可以被配置成接收PCM樣本作為輸入,並且輸 出指示音頻內容的編碼的(例如,壓縮的)音頻比特流。指示音頻內容的比特流的數據在本 文中有時被稱為"音頻數據"。如果編碼器根據本發明的典型實施方式被配置,那麼從編碼 器輸出的音頻比特流包括P頂和/或SSM (可選地還包括響度處理狀態元數據和/或其他 元數據)以及音頻數據。
[0060] 圖1的信號分析和元數據校正單元可以接收一個或更多個編碼音頻比特流作為 輸入,並且通過執行信號分析(例如,使用編碼音頻比特流中的節目邊界元數據)來確定(例 如,驗證)每個編碼音頻比特流中的元數據(例如,處理狀態元數據)是否正確。如果信號分 析和元數據校正單元發現所包括的元數據是無效的,那麼通常使用從信號分析中獲得的正 確值替代錯誤值。從而,從信號分析和元數據校正單元輸出的每個編碼音頻比特流可以包 括校正的(或未校正的)處理狀態元數據以及編碼音頻數據。
[0061] 圖1的代碼轉換器可以接收編碼音頻比特流作為輸入,並且作為響應(例如,通過 對輸入流進行解碼並且以不同的編碼格式對解碼流進行重新編碼)輸出修改的(例如,不同 編碼的)音頻比特流。如果代碼轉換器根據本發明的典型的實施方式被配置,那麼從代碼轉 換器輸出的音頻比特流包括SSM和/或PM (通常還包括其他元數據)以及編碼音頻數據。 元數據可以已經被包括在輸入比特流中。
[0062] 圖1的解碼器可以接收編碼的(例如,壓縮的)音頻比特流作為輸入,並且輸出(作 為響應)解碼PCM音頻樣本流。如果解碼器根據本發明的典型的實施方式被配置,那麼在典 型的操作中,解碼器的輸出是或包括下列中的任一個:
[0063] 音頻樣本流,以及從輸入的編碼比特流中提取的SSM和/或PM(通常還有其他元 數據)的至少一個相應的流;或
[0064] 音頻樣本流,以及根據從輸入編碼比特流中提取的SSM和/或PM(通常還有其他 元數據,例如LPSM)所確定的控制位的相應的流;或
[0065] 音頻樣本流,但沒有元數據或根據元數據確定的控制位的相應的流。在最後一種 情下,解碼器可以從輸入編碼比特流中提取元數據,並且對所提取的元數據執行至少一種 操作(例如,驗證),即使沒有輸出所提取的元數據或根據元數據確定的控制位。
[0066] 通過根據本發明的典型的實施方式配置圖1的後處理單元,後處理單元被配置成 接收解碼的PCM音頻樣本流,並且使用與樣本一起接收的SSM和/或PM(通常還有其他元 數據,例如LPSM),或根據與樣本一起接收的元數據確定的控制位對其執行後處理(例如,音 頻內容的音量校平)。後處理單元還通常被配置成對經後處理音頻內容進行渲染用於由一 個或更多個揚聲器回放。
[0067] 本發明的典型的實施方式提供增強的音頻處理鏈,其中音頻處理單元(例如,編碼 器、解碼器、代碼轉換器以及預處理單元和後處理單元)根據由通過音頻處理單元分別接收 的元數據所指示的媒體數據的同時期的狀態來修改待應用於音頻數據的其相應的處理。
[0068] 輸入到圖1系統的任何音頻處理單元(例如,圖1的編碼器或代碼轉換器)的音頻 數據可以包括SSM和/或PM (可選地還包括其他元數據)以及音頻數據(例如,編碼音頻 數據)。該元數據可以根據本發明的實施方式已經通過圖1系統的另一元件(或另一源,在 圖1中未示出)而被包括在輸入音頻中。接收輸入音頻(具有元數據)的處理單元可以被配 置成對元數據執行至少一種操作(例如,驗證),或響應於元數據(例如,輸入音頻的自適應 處理),並且還通常將元數據、元數據的經處理的版本、或根據元數據確定的控制位包括在 其輸出音頻中。
[0069] 本發明的音頻處理單元(或音頻處理器)的典型的實施方式被配置成基於由對應 於音頻數據的元數據所指示的音頻數據的狀態來執行音頻數據的自適應處理。在一些實施 方式中,自適應處理是(或包括)響度處理(如果元數據指示還未對音頻數據執行響度處理 或與響度處理類似的處理),而不是(且不包括)響度處理(如果元數據指示已經對音頻數據 執行了這樣的響度處理或與響度處理類似的處理)。在一些實施方式中,自適應處理是或包 括(例如,在元數據驗證子單元中執行的)元數據驗證以確保音頻處理單元基於由元數據所 指示的音頻數據的狀態來執行音頻數據的其他自適應處理。在一些實施方式中,該驗證確 定與音頻數據相關聯(例如,包括在具有音頻數據的比特流中)的元數據的可靠性。例如, 如果驗證元數據是可靠的,那麼來自一種先前執行的音頻處理的結果可以被重新使用並且 可以避免新執行相同類型的音頻處理。另一方面,如果發現元數據已經被篡改(或以其他 方式不可靠),那麼據稱先前執行的一種類型的媒體處理(如由不可靠的元數據指示的)可 以由音頻處理單元重複,和/或可以由音頻處理單元對元數據和/或音頻數據執行其他處 理。如果該單元確定元數據是有效的(例如,基於所提取的加密值與參考加密值的匹配),音 頻處理單元還可以被配置成用信號向增強的媒體處理鏈下遊的其他音頻處理單元通知元 數據(例如,存在於媒體比特流中)是有效的。
[0070] 圖2是作為本發明的音頻處理單元的實施方式的編碼器(100)的框圖。編碼器100 的任何部件或元件可以以硬體或軟體或硬體與軟體的組合被實現為一個或更多個處理和/ 或一個或更多個電路(例如,ASIC、FPGA或其他集成電路)。編碼器100包括如所示地連接 的幀緩衝器110、分析器111、解碼器101、音頻狀態驗證器102、響度處理級103、音頻流選擇 級104、編碼器105、填充器/格式器級107、元數據生成級106、對白響度測量子系統108以 及幀緩衝器109。編碼器100通常還包括其他處理元件(未示出)。
[0071] 編碼器100 (為代碼轉換器)被配置成包括通過使用包括在輸入比特流中的響度 處理狀態元數據執行自適應和自動的響度處理來將輸入音頻比特流(例如,可以是AC-3比 特流、E-AC-3比特流或杜比E比特流中的一個)轉換成編碼輸出音頻比特流(例如,可以是 AC-3比特流、E-AC-3比特流或杜比E比特流中的另一個)。例如,編碼器100可以被配置成 將(通常用在生產和廣播設備中,但不用在接收已經被廣播的音頻節目的消費者設備中的 格式的)輸入杜比E比特流轉換成AC-3或E-AC-3格式的(適合於廣播至消費者設備的)編 碼輸出音頻比特流。
[0072] 圖2的系統還包括編碼音頻傳送子系統150 (其存儲和/或傳送從編碼器100輸 出的編碼比特流)和解碼器152。從編碼器100輸出的編碼音頻比特流可以由子系統150 (例如,以DVD或藍光光碟格式)存儲,或由子系統150 (可以實現傳輸線路或網絡)傳輸,或 可以由子系統150存儲和傳輸。解碼器152被配置成包括通過從比特流的每個幀中提取元 數據(PIM和/或SSM、以及可選地還有響度處理狀態元數據和/或其他元數據)(以及可選 地還從比特流中提取節目邊界元數據)以及生成解碼音頻數據,對經由子系統150接收的 (由編碼器100生成的)編碼音頻比特流進行解碼。通常,解碼器152被配置成使用PM和 /或SSM和/或LPSM (可選地還使用節目邊界元數據)對解碼音頻數據執行自適應處理,和 /或將解碼音頻數據和元數據轉發至被配置成使用元數據對解碼音頻數據執行自適應處理 的後處理器。通常,解碼器152包括存儲(例如,以非暫態方式)從子系統150中接收的編碼 音頻比特流的緩衝器。
[0073] 編碼器100和解碼器152的各種實現被配置成執行本發明的方法的不同的實施方 式。
[0074] 幀緩衝器110是耦接以接收編碼輸入音頻比特流的緩衝存儲器。在操作中,緩衝 器110存儲(例如,以非暫態方式)編碼音頻比特流的至少一個幀,並且編碼音頻比特流的幀 的序列被從緩衝器110設定到分析器111。
[0075] 將分析器111耦接並配置成從包括這樣的元數據的編碼輸入音頻的每個幀中提 取PM和/或SSM、以及響度處理狀態元數據(LPSM)、以及可選地還有節目邊界元數據(和 /或其他元數據),至少將LPSM (以及可選地還有節目邊界元數據和/或其他元數據)設定 到音頻狀態驗證器102、響度處理級103、級106和子系統108,以從編碼輸入音頻中提取音 頻數據並且將音頻數據設定到解碼器101。編碼器100的解碼器101被配置成對音頻數據 進行解碼以生成解碼音頻數據,並且將解碼音頻數據設定到響度處理級103、音頻流選擇級 104、子系統108以及通常還設定到狀態驗證器102。
[0076] 狀態驗證器102被配置成對設定到其的LPSM (可選地其他元數據)進行認證和 驗證。在一些實施方式中,LPSM是(或包括在)數據塊(中),數據塊已經包括在輸入比特 流中(例如,根據本發明的實施方式)。塊可以包括加密散列(基於散列的消息認證代碼或 "HMAC")用於對LPSM (可選地還有其他元數據)和/或(從解碼器101提供至驗證器102的) 基本的音頻數據進行處理。在這些實施方式中,數據塊可以被數字地標記,使得下遊的音頻 處理單元可以相對容易地認證和驗證處理狀態元數據。
[0077] 例如,HMAC用於生成摘要,並且包括在本發明的比特流中的保護值可以包括該摘 要。該摘要可以關於AC-3幀被如下生成 :
[0078] 1.在AC-3數據和LPSM被編碼之後,幀數據字節(連接的幀數據#1和幀數據#2) 和LPSM數據字節用作哈希函數HMAC的輸入。沒有考慮可以存在於輔助數據欄位內的其他 數據用於計算摘要。這樣的其他數據可以是既不屬於AC-3數據也不屬於LPSM數據的字節。 可以不考慮包括在LPSM中的保護位用於計算HMAC摘要。
[0079] 2.在計算摘要之後,被寫入比特流中的為保護位保留的欄位中。
[0080] 3.生成完整的AC-3幀的最後步驟是CRC校驗的計算。這被寫在幀的結束處並且 考慮屬於該幀的所有的數據,包括LPSM位。
[0081] 包括但不限於一個或更多個非HMAC加密方法中的任意一個的其他加密方法可以 用於LPSM和/或其他元數據(例如,在驗證器102中)的驗證,以確保元數據和/或基本音 頻數據的安全的傳輸和接收。例如,可以在接收本發明的音頻比特流的實施方式的每個音 頻處理單元中執行驗證(使用這樣的加密方法),以確定包括在該比特流中的元數據和相應 的音頻數據是否已經經歷(和/或已經產生)具體的處理(由元數據指示的)並且在這樣的 具體的處理執行之後是否未被修改。
[0082] 狀態驗證器102將控制數據設定到音頻流選擇級104、元數據生成器106以及對白 響度測量子系統108,以表示驗證操作的結果。響應於控制數據,級104可以選擇(以及傳遞 至編碼器105) :
[0083] 響度處理級103的經自適應處理的輸出(例如,當LPSM指示從解碼器101輸出的 音頻數據沒有經歷特定類型的響度處理,以及來自驗證器102的控制位指示LPSM有效時); 或
[0084] 從解碼器102輸出的音頻數據(例如,當LPSM指示從解碼器101輸出的音頻數據 已經經歷將由級103執行的特定類型的響度處理,並且來自驗證器102的控制位指示LPSM 有效時)。
[0085] 編碼器100的級103被配置成基於由通過解碼器101所提取的LPSM指示的一個 或更多個音頻數據特性,對從解碼器101輸出的解碼音頻數據執行自適應響度處理。級103 可以是自適應變換域實時響度和動態範圍控制處理器。級103可以接收用戶輸入(例如,用 戶目標響度/動態範圍值或對白歸一化值)、或其他元數據輸入(例如,一種或更多種類型的 第三方數據、跟蹤信息、標識符、所有權或標準信息、用戶注釋數據、用戶偏好數據等)和/或 其他輸入(例如,來自指紋識別處理),並且使用這樣的輸入以對從解碼器101輸出的解碼音 頻數據進行處理。級103可以對指示(由通過分析器111提取的節目邊界元數據所表示的) 單個音頻節目的(從解碼器101輸出的)解碼音頻數據執行自適應響度處理,並且可以響應 於接收到指示由通過分析器111提取的節目邊界元數據所指示的不同的音頻節目的(從解 碼器101輸出的)解碼音頻數據將響度處理復位。
[0086] 當來自驗證器102的控制位指示LPSM無效時,對白響度測量子系統108可以操作 以使用由解碼器101提取的LPSM (和/或其他元數據)來確定表示對白(或其他語音)的(來 自解碼器101的)解碼音頻的段的響度。當來自驗證器102的控制位指示LPSM有效時,當 LPSM指示(來自解碼器101的)解碼音頻的對白(或其他語音)段的先前確定的響度時,可以 禁止對白響度測量子系統108的操作。子系統108可以對表示(通過分析器111所提取的 節目邊界元數據所指示的)單個音頻節目的解碼音頻數據執行響度測量,並且可以響應於 接收到表示由這樣的節目邊界元數據所指示的不同的音頻節目的解碼音頻數據將響度處 理復位。
[0087] 存在有用的工具(例如,杜比LM100響度計)用於方便地和容易地對音頻內容中的 對白的電平進行測量。本發明的APU (例如,編碼器100的級108)的一些實施方式被實現 以包括這樣的工具(或執行這樣的工具的功能)來對音頻比特流(例如,從編碼器100的解碼 器101設定到級108的解碼AC-3比特流)的音頻內容的平均對白響度進行測量。
[0088] 如果級108被實現成對音頻數據的真實平均對白響度進行測量,那麼測量可以包 括將主要包含語音的音頻內容的段分離的步驟。然後,根據響度測量算法來處理主要為語 音的音頻段。對於根據AC-3比特流解碼的音頻數據,該算法可以是標準的K加權響度測量 (根據國際標準ITU-R BS1770)。可替代地,可以使用其他響度測量(例如,基於響度的心理 聲學模型的那些測量)。
[0089] 語音段的分離不是測量音頻數據的平均對白響度所必需的。然而,它提高測量的 準確度,並且通常提供來自聽者感知的較滿意的結果。因為不是所有的音頻內容包含對 白(語音),整個音頻內容的響度測量可以提供語音已經存在的音頻的對白電平的足夠的近 似。
[0090] 元數據生成器106生成(和/或傳遞至級107)要由級107包括在待從編碼器100 輸出的編碼比特流中。元數據生成器106可以將由編碼器101和/或分析器111提取的 LPSM (可選地還有UM和/或PM和/或節目邊界元數據和/或其他元數據)傳遞至級107 (例如,當來自驗證器102的控制位指示LPSM和/或其他元數據有效時),或生成新的UM和 /或PIM和/或LPSM和/或節目邊界元數據和/或其他元數據並且將新的元數據設定到級 107 (例如,當來自驗證器102的控制位指示由解碼器101提取的元數據無效時),或可以將 由解碼器101和/或分析器111提取的元數據與新生成的元數據的組合設定到級107。元 數據生成器106可以將由子系統108生成的響度數據以及指示由子系統108執行的響度處 理的類型的至少一個值包括在LPSM中,將LPSM設定到級107以用於包括在待從編碼器100 輸出的編碼比特流中。
[0091] 元數據生成器106可以生成用於待被包括在編碼比特流和/或待被包括在編碼比 特流中的基本音頻數據中的LPSM (可選地還有其他元數據)的解密、認證或驗證中的至少 一個的控制位(可以由基於散列的消息認證代碼或"HMAC"組成或包括基於散列的消息認證 代碼或"HMAC")。元數據生成器106可以向級107提供這樣的保護位以用於包括在編碼比 特流中。
[0092] 在典型的操作中,對白響度測量子系統108對從解碼器101輸出的音頻數據進行 處理以響應於音頻數據生成響度值(例如,選通的和未選通的對白響度值)和動態範圍值。 響應於這些值,元數據生成器106可以生成響度處理狀態元數據(LPSM)以用於(由填充器/ 格式器107)包括在待從編碼器100輸出的編碼比特流中。
[0093] 另外,可選地,或可替代地,編碼器100的子系統106和/或108可以執行音頻數據 的額外的分析以生成指示音頻數據的至少一個特性的元數據以用於包括在待從級107輸 出的編碼比特流中。
[0094] 編碼器105對從選擇級104輸出的音頻數據進行編碼(例如,通過對其執行壓縮), 並且將編碼的音頻設定到級107以用於包括在待從級107輸出的編碼比特流中。
[0095] 級107將來自編碼器105的編碼音頻和來自生成器106的元數據(包括PM和/ 或SSM)進行復用以生成待從級107中輸出的編碼比特流,優選地使得編碼比特流具有由本 發明的優選實施方式指定的格式。
[0096] 幀緩衝器109為存儲(例如,以非暫態方式)從級107輸出的編碼音頻比特流的至 少一個幀的緩衝存儲器,然後編碼音頻比特流的一系列幀被從緩衝器109作為來自編碼器 100的輸出設定至傳送系統150。
[0097] 由元數據生成器106生成並且由級107包括在編碼比特流中的LPSM通常指示相 應音頻數據的響度處理狀態(例如,已經對音頻數據執行什麼類型的響度處理)以及相應音 頻數據的響度(例如,測量的對白響度、選通和/或未選通的響度、和/或動態範圍)。
[0098] 在本文中,對音頻數據執行的響度和/或電平測量的"選通"是指超過閾值的計算 值被包括在最終測量(例如,在最終測量的值中忽略低於_60dBFS的短期響度值)中的特定 電平或響度閾值。絕對值的選通是指固定的電平或響度,而相對值的選通是指依賴於當前 "未選通的"測量值的值。
[0099] 在編碼器100的一些實現中,緩存在存儲器109 (以及輸出至傳送系統150)的編 碼比特流為AC-3比特流或E-AC-3比特流,並且包括音頻數據段(例如,圖4中所示的幀的 ABO至AB5段)和元數據段,其中音頻數據段指示音頻數據,並且元數據段中的至少一些中 的每個包括PIM和/或SSM (以及可選地其他元數據)。級107將元數據段(包括元數據) 插入到下面的格式的比特流中。包括PIM和/或SSM的元數據段中的每個元數據段被包括 在比特流的無用位段(例如,圖4或圖7中所示的無用位段"W")中,或比特流的幀的比特流 信息("BSI")段的"addbsi"欄位中,或比特流的幀的結束處的輔助數據欄位(例如,圖4或 圖7中所示的AUX段)。比特流的幀可以包括一個或兩個元數據段,每個元數據段包括元數 據,並且如果幀包括兩個元數據段,一個可以存在於幀的addbsi欄位中而另一個存在於幀 的AUX欄位中。
[0100] 在一些實施方式中,由級107插入的每個元數據段(在本文中有時稱為"容器")具 有包括元數據段報頭(可選地還包括其他強制的或"核心"元素)以及在元數據段報頭之後 的一個或更多個元數據有效載荷的格式。如果存在,SIM被包括在元數據有效載荷中的一個 有效載荷(由有效載荷報頭標識,並且通常具有第一類型的格式)中。如果存在,PM被包括 在元數據有效載荷中的另一個有效載荷(由有效載荷報頭標識,並且通常具有第二類型的 格式)中。類似地,元數據的每個其他類型(如果存在)被包括在元數據有效載荷中的另一有 效載荷(由有效載荷報頭標識,並且通常具有針對元數據的類型的格式)中。示例性格式使 得能夠在除了解碼期間之外的時間便於訪問(例如,由解碼之後的後處理器、或由被配置成 在沒有對編碼比特流執行完全解碼的情況下識別元數據的處理器)SSM、PIM和其他元數據, 並且允許在比特流的解碼期間(例如,子流識別的)方便和高效的誤差檢測和校正。例如,在 不以示例性格式訪問SSM的情況下,解碼器可能錯誤地識別與節目相關聯的子流的正確數 量。元數據段中的一個元數據有效載荷可以包括SSM,元數據段中的另一個元數據有效載荷 可以包括PIM,以及可選地,元數據段中的至少一個其他元數據有效載荷可以包括其他元數 據(例如,響度處理狀態元數據或"LPSM")。
[0101] 在一些實施方式中,(由級107)包括在編碼比特流(例如,指示至少一個音頻節目 的E-AC-3比特流)的幀中的子流結構元數據(SSM)有效載荷包括下面的格式的SSM :
[0102] 有效載荷報頭,通常包括至少一個識別值(例如,指示SSM格式版本的2位值,以及 可選地長度、周期、計數和子流相關聯值);以及在報頭之後:
[0103] 指示由比特流指示的節目的獨立子流的數量的獨立子流元數據;以及
[0104] 從屬子流元數據,其指示:節目的每個獨立子流是否具有至少一個相關聯的從屬 子流(即,至少一個從屬子流是否與所述每個獨立子流相關聯),以及如果是這樣,與節目的 每個獨立子流相關聯的從屬子流的數量。
[0105] 預期的是,編碼比特流的獨立子流可以指示音頻節目的揚聲器通道集(例如,5. 1 揚聲器通道音頻節目的揚聲器通道),以及一個或更多個從屬子流中的每個(與獨立子流相 關聯,由從屬子流元數據指示)可以指示節目的目標通道。然而,編碼比特流的獨立比特流 通常指示節目的揚聲器通道集,並且與獨立子流相關聯的每個從屬子流(由從屬子流元數 據指示)指示節目的至少一個額外的揚聲器通道。
[0106] 在一些實施方式中,(由級107)包括在編碼比特流(例如,指示至少一個音頻節目 的E-AC-3比特流)的幀中的節目信息元數據(PM)有效載荷具有下面的格式:
[0107] 有效載荷報頭,通常包括至少一個標識值(例如,指示PM格式版本的值,以及可 選地長度、周期、計數和子流相關聯值);以及在報頭之後的下面格式的PIM :
[0108] 指示音頻節目的每個靜音通道和每個非靜音通道(即,節目的哪些通道包含音頻 信息,而哪些通道(如果有)僅包含靜音(通常關於幀的持續時間))的活動通道元數據。在 編碼比特流是AC-3或E-AC-3比特流的實施方式中,比特流的幀中的活動通道元數據可以 結合比特流的額外的元數據(例如,幀的音頻編碼模式("acmod")欄位,以及,如果存在,幀 或相關聯的從屬子流幀中的chanmap欄位)以確定節目的哪些通道包含音頻信息而哪些通 道包含靜音。AC-3或E-AC-3幀的"acmod"欄位指示由幀的音頻內容指示的音頻節目的全 音域通道的數量(例如,節目是I. 0通道單通道節目、2. 0通道立體聲節目、還是包括L、R、C、 Ls、Rs全音域通道的節目),或者幀指示兩個獨立的I. 0通道單通道節目。E-AC-3比特流的 "chanmap"欄位指示由比特流指示的從屬子流的通道映射。活動通道元數據可以有助於實 現解碼器的上混合(在後處理器中)下遊,例如以在解碼器的輸出處將音頻添加至包含靜音 的通道;
[0109] 指示節目是否被下混合(在編碼之前或在編碼期間)以及如果節目被下混合則被 應用的下混合的類型的下混合處理狀態元數據。下混合處理狀態元數據可以有助於實現解 碼器的上混合(在後處理器中)下遊,例如以使用最匹配被應用的下混合的類型的參數對節 目的音頻內容進行上混合。在編碼比特流是AC-3或E-AC-3比特流的實施方式中,下混合 處理狀態元數據可以結合幀的音頻編碼模型("acmod")欄位以確定應用於節目的通道的下 混合(如果有)的類型;
[0110] 指示在編碼之前或在編碼期間節目是否被上混合(例如,從較小數量的通道)以及 如果節目被上混合則所應用的上混合的類型的上混合處理狀態元數據。上混合處理狀態元 數據可以有助於實現解碼器的下混合(在後處理器中)下遊,例如以與應用於節目的上混合 (例如,杜比定向邏輯、或杜比定向邏輯II電影模式、或杜比定向邏輯II音樂模式、或杜比專 業上混合器)的類型一致的方式對節目的音頻內容進行下混合。在編碼比特流是E-AC-3比 特流的實施方式中,上混合處理狀態元數據可以結合其他元數據(例如,幀的"strmtyp"字 段的值)以確定應用於節目的通道的上混合(如果有)的類型。(E-AC-3比特流的幀的BSI 欄位中的)"strmtyp"欄位的值指示幀的音頻內容是否屬於獨立流(其確定節目)或(包括 多個子流或與多個子流相關聯的節目的)獨立子流,從而可以獨立於由E-AC-3比特流指示 的任何其他子流被編碼,或幀的音頻內容是否屬於(包括多個子流或與多個子流相關聯的 節目的)從屬子流,從而必須結合與其相關聯的獨立子流被解碼;以及
[0111] 預處理狀態元數據,其指示:是否對幀的音頻內容執行了預處理(在生成編碼比特 流的音頻內容的編碼之前),以及如果對幀音頻內容執行了預處理則被執行的預處理的類 型。
[0112] 在一些實現中,預處理狀態元數據指示:
[0113] 是否應用環繞衰減(例如,在編碼之前,音頻節目的環繞通道是否被衰減3dB),
[0114] 是否(例如,在編碼之前,對音頻節目的環繞通道Ls和Rs通道)應用90°相移,
[0115] 在編碼之前,是否對音頻節目的LFE通道應用低通濾波器,
[0116] 在生成期間,是否監視節目的LFE通道的電平以及如果監視了節目的LFE通道的 電平則LFE通道的監視的電平相對於節目的全音域音頻通道的電平,
[0117] 是否應當對節目的解碼音頻內容的每個塊執行(例如,在解碼器中)動態範圍壓縮 以及如果應當對節目的解碼音頻內容的每個塊執行動態範圍壓縮則待被執行的動態範圍 壓縮的類型(和/或參數)(例如,該類型的預處理狀態元數據可以指示以下壓縮配置文件 類型中的哪個由編碼器假定以生成被包括在編碼比特流中的動態範圍壓縮控制值:電影標 準、電影光線、音樂標準、音樂光線或語音。或者,該類型的預處理狀態元數據可以指示應當 以由被包括在編碼比特流中的動態範圍壓縮控制值確定的方式對節目的解碼音頻內容的 每個幀執行重動態範圍壓縮(" compr "壓縮)),
[0118] 是否使用譜擴展和/或通道耦合編碼以對特定頻率範圍的節目內容進行編碼,以 及如果使用譜擴展和/或通道耦合編碼以對特定頻率範圍的節目內容進行編碼則對其執 行譜擴展編碼的內容的頻率分量的最小頻率和最大頻率,以及對其執行通道耦合編碼的內 容的頻率分量的最小頻率和最大頻率。該類型的預處理狀態元數據信息可以有助於執行解 碼器的均衡(在後處理器中)下遊。通道耦合信息和譜擴展信息兩者都有助於在代碼轉換操 作和應用期間優化質量。例如,編碼器可以基於參數例如譜擴展和通道耦合信息的狀態優 化其行為(包括預處理步驟例如頭戴式耳機虛擬、上混合等的自適應)。而且,編碼器可以基 於進入的(並且認證的)元數據的狀態來動態地修改其耦合參數和譜擴展參數以匹配最佳 值和/或將其耦合和譜擴展參數修改成最佳值,以及
[0119] 對白增強調整範圍數據是否包括在編碼比特流中,以及如果對白增強調整範圍數 據包括在編碼比特流中,則在相對於音頻節目中的非對白內容的電平調整對白內容的電平 的對白增強處理(例如,在解碼器的後處理器下遊)的執行期間可得到的調整的範圍。
[0120] 在一些實現中,額外的預處理狀態元數據(例如,指示頭戴式耳機相關的參數的元 數據)被包括在(由級107)待從編碼器100輸出的編碼比特流的PIM有效載荷中。
[0121] 在一些實現中,(由級107)包括在編碼比特流(例如,指示至少一個音頻節目的 E-AC-3比特流)的幀中的LPSM有效載荷包括下面的格式的LPSM :
[0122] 報頭(通常包括標識LPSM有效載荷的開始的同步字,在同步字之後的至少一個標 識值,例如,在下面的表2中表示的LPSM格式版本、長度、周期、計數和子流關聯值);以及
[0123] 在報頭之後的:
[0124] 指示相應音頻數據指示對白或不指示對白(例如,相應音頻數據的哪些通道指示 對白)的至少一個對白指示值(例如,表2的參數"對白通道");
[0125] 指示相應的音頻內容是否符合響度調整的所指示的集合的至少一個響度調整符 合值(例如,表2的參數"響度調整類型");
[0126] 指示已經對相應音頻數據執行的響度處理的至少一種類型的至少一個響度處理 值(例如,表2的參數"對白選通響度校正標誌"、"響度校正類型"中的一個或更多個);以及
[0127] 指示相應音頻數據的至少一個響度(例如,峰值或平均響度)特性的至少一個響度 值(例如,表2的參數"ITU相對選通響度"、"ITU語音選通響度"、"ITU (EBU3341)短期3s 響度"和"真實峰值"中的一個或更多個)。
[0128] 在一些實現中,包含PM和/或SSM (以及可選地其他元數據)的每個元數據段包 含元數據段報頭(以及可選地額外的核心元素)、以及在元數據段報頭(或元數據段報頭和 其他核心元素)之後的具有下面的格式的至少一個元數據有效載荷段:
[0129] 有效載荷報頭,通常包括至少一個標識值(例如,SSM或PM格式版本、長度、周期、 計數和子流關聯值),以及
[0130] 在有效載荷報頭之後的SSM或PIM (或另一類型的元數據)。
[0131] 在一些實現中,由級107插入至比特流的幀的無用位段/跳過欄位段(或"addbsi" 欄位或輔助數據欄位)中的元數據段(在本文中有時稱為"元數據容器"或"容器")中的每 個具有下面的格式:
[0132] 元數據段報頭(通常包括標識元數據段的開始的同步字,在同步字之後的標識值, 例如,在下面的表1中表示的版本、長度、周期、擴展的元素計數和子流關聯值);以及
[0133] 在元數據段報頭之後的有助於元數據段或相應音頻數據的元數據的至少一個的 解密、認證或驗證中的至少一種的至少一個保護值(例如表1的HMAC摘要和音頻指紋值); 以及
[0134] 也在元數據段報頭之後的標識每個下面的元數據有效載荷中的元數據的類型並 且指示每個這樣的有效載荷的配置(例如,尺寸)的至少一個方面的元數據有效載荷標識 ("ID")值和有效載荷配置值。
[0135] 每個元數據有效載荷在相應有效載荷ID值和有效載荷配置值之後。
[0136] 在一些實施方式中,在幀的無用位段(或輔助數據欄位或"addbsi "欄位)中的元數 據段中的每個具有三種等級的結構:
[0137] 高等級結構(例如,元數據段報頭),包括指示無用位(或輔助數據或addbsi)欄位 是否包括元數據的標誌、指示存在什麼類型的元數據的至少一個ID值、以及通常還有指示 (例如,每個類型的)元數據的多少位存在(如果元數據存在的話)的值。可以存在的元數據 的一種類型為PIM,可以存在的元數據的另一類型為SSM,而可以存在的元數據的其他類型 為LPSM、和/或節目邊界元數據、和/或媒體搜索元數據;
[0138] 中間等級結構,包括與每個所標識的類型的元數據相關聯的數據(例如,元數據有 效載荷報頭、保護值、以及關於每個所標識的類型的元數據的有效載荷ID值和有效載荷配 置值);以及
[0139] 低等級結構,包括關於每個所標識的類型的元數據的元數據有效載荷(例如,如果 PM被識別為正存在,一系列PM值,和/或如果該其他類型的元數據被識別為正存在,另一 類型(例如,SSM或LPSM)的元數據值)。
[0140] 這樣三個等級結構中的數據值可以被嵌套。例如,由高等級結構和中間等級結構 標識的每個有效載荷(例如,每個PIM、或SSM或其他數據有效載荷)的保護值可以被包括在 有效載荷之後(從而在有效載荷的兀數據有效載荷報頭之後),或由1?等級結構和中間等級 結構標識的所有元數據有效載荷的保護值可以被包括在元數據段中的最終元數據有效載 荷之後(從而在元數據段的所有有效載荷的元數據有效載荷報頭之後)。
[0141] 在(參照圖8的元數據段或"容器"將要描述的)一個示例中,元數據段報頭標識 4個元數據有效載荷。如圖8所示,元數據段報頭包括容器同步字(被標識為"容器同步") 以及版本和鍵ID值。元數據段報頭之後是4個元數據有效載荷和保護位。第一有效載荷 (例如,PIM有效載荷)的有效載荷ID值和有效載荷配置(例如,有效載荷尺寸)值在元數據 段報頭之後,第一有效載荷本身在ID和配置值之後,第二有效載荷(例如,SSM有效載荷)的 有效載荷ID值和有效載荷配置(例如,有效載荷尺寸)值在第一有效載荷之後,第二有效載 荷本身在這些ID和配置值之後,第三有效載荷(例如,LPSM有效載荷)的有效載荷ID值和 有效載荷配置(例如,有效載荷尺寸)值在第二有效載荷之後,第三有效載荷本身在這些ID 和配置值之後,第四有效載荷的有效載荷ID值和有效載荷配置(例如,有效載荷尺寸)值在 第三有效載荷之後,第四有效載荷本身在這些ID和配置值之後,而關於有效載荷中的全部 或一些有效載荷(或關於高等級結構和中間等級結構以及有效載荷中的全部或一些有效載 荷)的保護值(在圖8中被標識為"保護數據")在最後一個有效載荷之後。
[0142] 在一些實施方式中,如果解碼器101接收根據本發明的實施方式生成的具有加密 散列的音頻比特流,則解碼器被配置成根據由比特流確定的數據塊對加密散列進行分析和 檢索,其中所述塊包括元數據。驗證器102可以使用加密散列對所接收的比特流和/或相 關聯的元數據進行驗證。例如,如果驗證器102基於參考加密散列與從數據塊檢索到的加 密散列之間的匹配發現元數據是有效的,那麼可以禁止處理器103對相應的音頻數據的操 作,並且使得選擇級104通過(未改變的)音頻數據。另外,可選地或可替代地,可以使用其 他類型的加密技術替代基於加密散列的方法。
[0143] 圖2的編碼器100可以確定(響應於由解碼器101提取的LPSM以及可選地還響應 於節目邊界元數據)後處理/預處理單元已經(在元件105、106和107中)對待編碼的音頻 數據執行了一種類型的響度處理,因此可以(在生成器106中)創建包括用於先前執行的響 度處理的和/或根據先前執行的響度處理得到的具體參數的響度處理狀態元數據。在一些 實現中,只要編碼器知道已經對音頻內容執行的處理的類型,編碼器100就可以創建指示 對音頻內容的處理歷史的元數據(以及將其包括在從編碼器輸出的編碼比特流中)。
[0144] 圖3是為本發明的音頻處理單元的實施方式的解碼器(200)以及耦接至解碼器 (200)的後處理器(300)的框圖。後處理器(300)也是本發明的音頻處理單元的實施方式。 編碼器200和後處理器300的部件或元件中的任何一個可以以硬體、軟體或硬體和軟體的 組合被實現為一個或更多個處理和/或一個或更多個電路(例如,ASIC、FPGA或其他集成電 路)。解碼器200包括如所示地連接的幀緩衝器201、分析器205、音頻解碼器202、音頻狀態 驗證級(驗證器)203以及控制位生成級204。通常,解碼器200還包括其他處理元件(未示 出)。
[0145] 幀緩衝器201 (緩衝存儲器)存儲(例如,以非暫態方式)由解碼器200接收的編碼 音頻比特流的至少一個幀。編碼音頻比特流的幀序列被從緩衝器201設定到分析器205。
[0146] 耦接分析器205並且將其配置成從編碼輸入音頻的每個幀中提取PM和/或SSM (可選地還提取其他元數據,例如,LPSM),將元數據中的至少一些(例如,LPSM和節目邊界元 數據,如果任意一個被提取的話,和/或PIM和/或SSM)設定到音頻狀態驗證器203和級 204,將所提取的元數據設定為(例如對後處理器300的)輸出,從編碼輸入音頻中提取音頻 數據,以及將所提取的音頻數據設定到解碼器202。
[0147] 輸入至解碼器200的編碼音頻比特流可以是AC-3比特流、E-AC-3比特流或杜比E 比特流中的一個。
[0148] 圖3的系統還包括後處理器300。後處理器300包括幀緩衝器301和包括耦接至 緩衝器301的至少一個處理元件的其他處理元件(未示出)。幀緩衝器301存儲(例如,以非 暫態方式)由後處理器300從解碼器200接收的解碼音頻比特流的至少一個幀。耦接後處 理器300的處理元件並且將其配置成接收從緩衝器301輸出的解碼音頻比特流的一系列幀 並且使用從解碼器200輸出的元數據和/或從解碼器200的級204輸出的控制位對其進行 自適應處理。通常,後處理器300被配置成使用來自解碼器200的元數據對解碼音頻數據 執行自適應處理(例如,使用LPSM值以及可選地還使用節目邊界元數據對解碼音頻數據執 行自適應響度處理,其中自適應處理可以基於響度處理狀態、和/或由指示單個音頻節目 的音頻數據的LPSM所指示的一個或更多個音頻數據特性)。
[0149] 解碼器200和後處理器300的各種實現被配置成執行本發明的方法的不同的實施 方式。
[0150] 解碼器200的音頻解碼器202被配置成對由分析器205提取的音頻數據進行解碼 以生成解碼音頻數據,並且將解碼音頻數據設定為(例如對後處理器300的)輸出。
[0151] 狀態驗證器203被配置成對設定到其的元數據進行認證和驗證。在一些實施方式 中,元數據為(或被包括在)已經被包括在輸入比特流(例如,根據本發明的實施方式)中的 數據塊。塊可以包括用於對元數據和/或基本音頻數據(從分析器205和/或解碼器202 提供至驗證器203)進行處理的加密散列(基於散列的消息認證代碼或"HMAC")。數據塊可 以在這些實施方式中被數字地標記,使得下遊的音頻處理單元可以相對容易地認證和驗證 處理狀態元數據。
[0152] 包括但不限於一個或更多個非HMAC加密方法中的任意一個的其他加密方法可以 用於元數據的驗證(例如,在驗證器203中)以確保元數據和/或基本的音頻數據的安全的 傳輸和接收。例如,驗證(使用這樣的加密方法)可以在接收本發明的音頻比特流的實施方 式的每個音頻處理單元中被執行以確定包括在該比特流中的元數據和相應音頻數據是否 已經經歷(和/或產生於)具體的處理(由元數據所指示的)並且在這樣的具體的處理執行 之後沒有被修改。
[0153] 狀態驗證器203將控制數據設定到控制位生成器204,和/或將控制數據設定為輸 出(例如,設定到後處理器300)以指示驗證操作的結果。響應於控制數據(以及可選地從輸 入比特流中提取的其他元數據),級204可以生成(以及設定到後處理器300) :
[0154] 指示從解碼器202輸出的解碼音頻數據已經經歷特定類型的響度處理(當LPSM指 示從解碼器202輸出的音頻數據已經經歷該特定類型的響度處理,並且來自驗證器203的 控制位指示LPSM有效時)的控制位;或
[0155] 指示從解碼器202輸出的解碼音頻數據應當經歷特定類型的響度處理(例如,當 LPSM指示從解碼器202輸出的音頻數據沒有經歷具體類型的響度處理,或當LPSM指示從解 碼器202輸出的音頻數據已經經歷該特定類型的響度處理但來自驗證器203的控制位指示 LPSM無效時)的控制位。
[0156] 或者,解碼器200將由解碼器202從輸入比特流中提取的元數據以及由分析器205 從輸入比特流中提取的元數據設定到後處理器300,並且後處理器300使用元數據對解碼 音頻數據執行自適應處理,或執行元數據的驗證,然後如果驗證指示元數據有效,則使用元 數據對解碼音頻數據執行自適應處理。
[0157] 在一些實施方式中,如果解碼器200接收根據本發明的使用加密散列的實施方式 生成的的音頻比特流,則解碼器被配置成對來自由比特流所確定的數據塊的加密散列進行 分析和檢索,所述塊包括響度處理狀態元數據(LPSM)。驗證器203可以使用加密散列以對 接收的比特流和/或相關聯的元數據進行驗證。例如,如果驗證器203基於參考加密散列 與從數據塊檢索的加密散列之間的匹配發現LPSM有效,那麼可以用向下遊的音頻處理單 元(例如,可以是或包括音量校平單元的後處理器300)發信號以通過(未改變的)比特流的 音頻數據。另外地,可選地或可替代地,可以使用其他類型的加密技術替代基於加密散列的 方法。
[0158] 在解碼器200的一些實現中,所接收(以及緩存在存儲器201中)的編碼比特流為 AC-3比特流或E-AC-3比特流,並且包括音頻數據段(例如,圖4所示的幀的ABO至AB5段) 和元數據段,其中音頻數據段指示音頻數據,而元數據段中的至少一些中的每個包括PIM 或SSM (或其他元數據)。解碼器級202 (和/或分析器205)被配置成從比特流中提取元數 據。元數據段中的包括PIM和/或SSM (可選地還包括其他元數據)的每個元數據段被包括 在比特流的幀的無用位段中,或比特流的幀的比特流信息("BSI")段的"addbsi"欄位中, 或比特流的幀的結束處的輔助數據欄位(例如,圖4所示的AUX段)中。比特流的幀可以包 括一個或兩個元數據段,其中每個元數據段包括元數據,並且如果幀包括兩個元數據段,一 個可以存在於幀的addbsi欄位中而另一個存在於幀的AUX欄位中。
[0159] 在一些實施方式中,緩存在緩衝器201中的比特流的每個元數據段(在本文中有 時稱為"容器")具有包括元數據段報頭(可選地還包括其他強制的或"核心"元素)、以及在 元數據段報頭之後的一個或更多個元數據有效載荷的格式。如果存在,SIM被包括在元數 據有效載荷中的一個有效載荷(由有效載荷報頭標識,並且通常具有第一類型的格式)中。 如果存在,PIM被包括在元數據有效載荷中的另一個有效載荷(由有效載荷報頭標識,並且 通常具有第二類型的格式)中。類似地,元數據的其他類型(如果存在)被包括在元數據有 效載荷中的另一有效載荷(由有效載荷報頭標識,並且通常具有針對元數據的類型的格式) 中。示例性格式使得能夠在除了解碼期間之外的時間方便訪問(例如,由解碼之後的後處 理器300、或由被配置成在沒有對編碼比特流執行完全解碼的情況下識別元數據的處理器) SSM、PIM和其他元數據,並且允許在比特流的解碼期間(例如,子流識別的)方便和高效的誤 差檢測和校正。例如,在不以示例性格式訪問SSM的情況下,解碼器200可能錯誤地識別與 節目相關聯的子流的正確數量。元數據段中的一個元數據有效載荷可以包括SSM,元數據段 中的另一個元數據有效載荷可以包括PIM,以及可選地,元數據段中的至少一個其他元數據 有效載荷可以包括其他元數據(例如,響度處理狀態元數據或"LPSM")。
[0160] 在一些實施方式中,包括在緩存在緩衝器201中的編碼比特流(例如,指示至少一 個音頻節目的E-AC-3比特流)的幀中的子流結構元數據(SSM)有效載荷包括下面的格式的 SSM :
[0161] 有效載荷報頭,通常包括至少一個標識值(例如,指示SSM格式版本的2位值,以及 可選地長度、周期、計數和子流關聯值);以及
[0162] 在報頭之後:
[0163] 指示由比特流指示的節目的獨立子流的數量的獨立子流元數據;以及
[0164] 從屬子流元數據,其指示:節目的每個獨立子流是否具有至少一個與其相關聯的 從屬子流,以及如果節目的每個獨立子流具有至少一個與其相關聯的從屬子流,與節目的 每個獨立子流相關聯的從屬子流的數量。
[0165] 在一些實施方式中,緩存在緩衝器201中的編碼比特流(例如,指示至少一個音頻 節目的E-AC-3比特流)的幀中的包括的節目信息元數據(PM)有效載荷具有下面的格式:
[0166] 有效載荷報頭,通常包括至少一個標識值(例如,指示PM格式版本的值,以及可 選地長度、周期、計數和子流關聯值);以及在報頭之後,下面的格式的PIM :
[0167] 音頻節目的每個靜音通道和每個非靜音通道(S卩,節目的哪些通道包含音頻信息, 而哪些通道(如果有)僅包含靜音(通常關於幀的持續時間))的活動通道元數據。在編碼比 特流是AC-3或E-AC-3比特流的實施方式中,比特流的幀中的活動通道元數據可以結合比 特流的額外的元數據(例如,幀的音頻編碼模式("acmod")欄位,以及如果存在,幀或相關聯 的從屬子流幀中的chanmap欄位)以確定節目的哪些通道包含音頻信息而哪些通道包含靜 音;
[0168] 下混合處理狀態元數據,其指示:節目是否被下混合(在編碼之前或在編碼期間), 以及如果節目被下混合,所應用的下混合的類型。下混合處理狀態元數據可以有助於實現 解碼器的上混合(在後處理器300中)下遊,例如以使用最匹配所應用的下混合的類型的參 數對節目的音頻內容進行上混合。在編碼比特流是AC-3或E-AC-3比特流的實施方式中, 下混合處理狀態元數據可以結合幀的音頻編碼模型("acmod")欄位以確定應用於節目的通 道的下混合(如果有)的類型;
[0169] 上混合處理狀態元數據,其指示:在編碼之前或在編碼期間節目是否被上混合(例 如,從較小數量的通道),以及如果節目被上混合,所應用的上混合的類型。上混合處理狀態 元數據可以有助於實現解碼器的下混合(在後處理器中)下遊,例如以與應用於節目的上混 合(例如,杜比定向邏輯、或杜比定向邏輯II電影模式、或杜比定向邏輯II音樂模式、或杜比 專業上混合器)的類型一致的方式對節目的音頻內容進行下混合。在編碼比特流是E-AC-3 比特流的實施方式中,上混合處理狀態元數據可以結合其他元數據(例如,幀的"strmtyp" 欄位的值)以確定應用於節目的通道的上混合(如果有)的類型。(E-AC-3比特流的幀的BSI 欄位中的)"strmtyp"欄位的值指示幀的音頻內容是否屬於獨立流(其確定節目)或(包括 多個子流或與多個子流相關聯的節目的)獨立子流,從而可以獨立於由E-AC-3比特流所指 示的任何其他子流被編碼,或幀的音頻內容是否屬於(包括多個子流或與多個子流相關聯 的節目的)從屬子流,從而必須結合與其相關聯的獨立子流而被解碼;以及
[0170] 預處理狀態元數據,其指示:是否對幀的音頻內容執行了預處理(在生成編碼比 特流的音頻內容的編碼之前),以及如果對幀音頻內容執行了預處理,被執行的預處理的類 型。
[0171] 在一些實現中,預處理狀態元數據指示:
[0172] 是否應用了環繞衰減(例如,在編碼之前,音頻節目的環繞通道是否被衰減了 3dB),
[0173] 是否(例如,在編碼之前對音頻節目的環繞通道Ls和Rs通道)應用了 90°相移,
[0174] 在編碼之前,是否對音頻節目的LFE通道應用了低通濾波器,
[0175] 在生成期間,是否監視節目的LFE通道的電平,以及如果監視了節目的LFE通道的 電平,相對於節目的全音域音頻通道的電平的LFE通道的監視電平,
[0176] 是否應當對節目的解碼音頻的每個塊執行(例如,在解碼器中)動態範圍壓縮,以 及如果應當對節目的解碼音頻的每個塊執行動態範圍壓縮,要執行的動態範圍壓縮的類型 (和/或參數)(例如,該類型的預處理狀態元數據可以指示下面的壓縮配置文件類型中的哪 種類型由編碼器假定以生成被包括在編碼比特流中的動態範圍壓縮控制值:電影標準、電 影光線、音樂標準、音樂光線或語音。或者,預處理狀態元數據的該類型可以指示應當以由 被包括在編碼比特流中的動態範圍壓縮控制值確定的方式對節目的解碼音頻內容的每個 幀執行重動態範圍壓縮(" compr "壓縮)),
[0177] 是否使用譜擴展和/或通道耦合編碼以對特定頻率範圍的節目的內容進行編碼, 以及如果使用譜擴展和/或通道耦合編碼以對特定頻率範圍的節目的內容進行編碼,對其 執行譜擴展編碼的內容的頻率分量的最小頻率和最大頻率,以及對其執行通道耦合編碼的 內容的頻率分量的最小頻率和最大頻率。該類型的預處理狀態元數據信息可以有助於執行 解碼器的均衡(在後處理器中)下遊。通道耦合信息和譜擴展信息兩者也有助於在代碼轉換 操作和應用期間優化質量。例如,編碼器可以基於參數(例如譜擴展和通道耦合信息)的狀 態優化其行為(包括預處理步驟例如頭戴式耳機虛擬、上混合等的自適應)。而且,編碼器可 以基於進入的(並且認證的)元數據的狀態動態地修改其耦合和譜擴展參數以匹配最佳值 和/或將其耦合和譜擴展參數修改成最佳值,以及
[0178] 對白增強調整範圍數據是否包括在編碼比特流中,以及如果對白增強調整範圍數 據包括在編碼比特流中,在相對於音頻節目中的非對白內容的電平調整對白內容的電平的 對白增強處理(例如,在解碼器的後處理器下遊)的執行期間可得到的調整範圍。
[0179] 在一些實施方式中,包括在緩存在緩衝器201中的編碼比特流(例如,指示至少一 個音頻節目的E-AC-3比特流)的幀中的LPSM有效載荷包括下面的格式的LPSM :
[0180] 報頭(通常包括標識LPSM有效載荷的開始的同步字,在同步字之後的至少一個標 識值,例如,在下面的表2中指示的LPSM格式版本、長度、周期、計數和子流關聯值);以及
[0181] 在報頭之後的:
[0182] 指示相應音頻數據指示對白或不指示對白(例如,相應音頻數據的哪些通道指示 對白)的至少一個對白表示值(例如,表2的參數"對白通道");
[0183] 指示相應音頻內容是否符合響度調整的所指示的集合的至少一個響度調整符合 值(例如,表2的參數"響度調整類型");
[0184] 指示已經對相應音頻數據執行的至少一種類型的響度處理的至少一個響度處理 值(例如,表2的參數"對白選通響度校正標誌"、"響度校正類型"中的一個或更多個);以及
[0185] 指示相應音頻數據的至少一個響度(例如,峰值或平均響度)特性的至少一個響度 值(例如,表2的參數"ITU相對選通響度"、"ITU語音選通響度"、"ITU (EBU3341)短期3s 響度"和"真實峰值"中的一個或更多個)。
[0186] 在一些實現中,分析器205 (和/或解碼器級202)被配置成從比特流的幀的無用 位段或"addbsi "欄位或輔助數據段中提取具有下面的格式的每個元數據段:
[0187] 元數據段報頭(通常包括標識元數據段的開始的同步字,同步字之後的標識值,例 如版本、長度、周期、擴展的元素計數和子流關聯值);以及
[0188] 在元數據段報頭之後的有助於元數據段或相應音頻數據的元數據的至少一個的 解密、認證或驗證中的至少一種的至少一個保護值(例如,表1的HMAC摘要和音頻指紋值); 以及
[0189] 也在元數據段報頭之後的標識每個下面的元數據有效載荷中的元數據的類型並 且表示每個這樣的有效載荷的配置(例如,尺寸)的至少一個方面的元數據有效載荷標識 ("ID")值和有效載荷配置值。
[0190] 每個元數據有效載荷段(優選地具有上面指定的格式)在相應的元數據有效載荷 ID值和元數據配置值之後。
[0191] 更一般地,由本發明的優選實施方式生成的編碼音頻比特流具有提供將元數據元 素和子元素標記為核心的(強制的)或擴展的(可選的)元素或子元素的機制的結構。這使 得比特流(包括其元數據)的數據速率能夠擴展到大量的應用。優選的比特流語法的核心的 (強制的)元素還應當能夠用信號通知與音頻內容相關聯的擴展的(可選的)元素存在於(帶 中)和/或遠程位置(帶外)。
[0192] 要求核心元素存在於比特流的每個幀中。核心元素的一些子元素是可選的,並且 可以以任何組合存在。不要求擴展元素存在於每個幀中(以限制比特率總開銷)。從而,擴 展元素可以存在於一些幀中而不存於其他幀中。擴展元素的一些子元素是可選的,並且可 以以任何組合存在,然而,擴展元素的一些子元素可以是強制的(即,如果擴展元素存在於 比特流的幀中)。
[0193] 在一類實施方式中,生成(例如,通過實現本發明的音頻處理單元)包括一系列音 頻數據段和元數據段的編碼音頻比特流。音頻數據段指示音頻數據,元數據段中的至少一 些中的每個包括PM和/或SSM (以及可選地至少一種其他類型的元數據),並且音頻數據 段被與元數據段時分復用。在該類中的優選實施方式中,元數據段中的每個具有在本文中 要描述的優選的格式。
[0194] 在一種優選的格式中,編碼比特流為AC-3比特流或E-AC-3比特流,並且元數據段 中的包括SSM和/或PIM的每個元數據段被包括(例如,由編碼器100的優選的實現的級 107)作為比特流的幀的比特流信息("BSI")段的"addbsi"欄位(圖6所示)、或比特流的幀 的輔助數據欄位中、或比特流的幀的無用位段中的額外的比特流信息。
[0195] 在優選格式中,幀中的每個包括幀的無用位段(或addbsi欄位)中的元數據段(在 本文中有時也稱為元數據容器或容器)。元數據段具有下面表1中所示的強制的元素(統一 稱為"核心元素(並且可以包括表1中所示的可選元素)。表1中所示的需要的元素中 的至少一些被包括在元數據段的元數據段報頭中,但一些可以被包括在元數據段的其他位 置:
[0196] 表 1
[0197]

【權利要求】
1. 一種音頻處理單元,包括: 緩衝存儲器;以及 至少一個處理子系統,其耦接至所述緩衝存儲器,其中所述緩衝存儲器存儲編碼音頻 比特流的至少一個幀,所述幀包括在所述幀的至少一個跳過欄位的至少一個元數據段中的 節目信息元數據或子流結構元數據以及在所述幀的至少一個其他段中的音頻數據,其中所 述處理子系統被耦接並且被配置成使用所述比特流的元數據執行所述比特流的生成、所述 比特流的解碼或所述比特流的音頻數據的自適應處理中的至少一種,或使用所述比特流的 元數據執行所述比特流的音頻數據或元數據中至少之一的認證或驗證中的至少一種, 其中,所述元數據段包括至少一個元數據有效載荷,所述元數據有效載荷包括: 報頭;以及 在所述報頭之後的,所述節目信息元數據的至少一部分或所述子流結構元數據的至少 一部分。
2. 根據權利要求1所述的音頻處理單元,其中,所述編碼音頻比特流指示至少一個 音頻節目,並且所述元數據段包括節目信息元數據有效載荷,所述節目元數據有效載荷包 括: 節目信息元數據報頭;以及 在所述節目信息元數據報頭之後的,指示所述節目的音頻內容的至少一個屬性或特性 的節目信息元數據,所述節目信息元數據包括指示所述節目的每個非靜音通道和每個靜音 通道的活動通道元數據。
3. 根據權利要求2所述的音頻處理單元,其中,所述節目信息元數據還包括下列之一: 下混合處理狀態元數據,其指示:所述節目是否是下混合過的,以及在所述節目是下混 合過的情況下應用於所述節目的下混合的類型; 上混合處理狀態元數據,其指示:所述節目是否是上混合過的,以及在所述節目是上混 合過的情況下應用於所述節目的上混合的類型; 預處理狀態元數據,其指示:是否對所述幀的音頻內容執行了預處理,以及在對所述幀 的音頻內容執行了預處理的情況下對所述音頻內容執行的預處理的類型;或 譜擴展處理或通道耦合元數據,其指示:是否對所述節目應用了譜擴展處理或通道耦 合,以及在對所述節目應用了譜擴展處理或通道耦合的情況下應用譜擴展或通道耦合的頻 率範圍。
4. 根據權利要求1所述的音頻處理單元,其中,所述編碼音頻比特流指示具有音頻內 容的至少一個獨立子流的至少一個音頻節目,而所述元數據段包括子流結構元數據有效載 荷,所述子流結構元數據有效載荷包括: 子流結構元數據有效載荷報頭;以及 在所述子流結構元數據有效載荷報頭之後的,指示所述節目的獨立子流的數量的獨立 子流元數據,以及指示所述節目的每個獨立子流是否具有至少一個相關聯的從屬子流的從 屬子流元數據。
5. 根據權利要求1所述的音頻處理單元,其中,所述元數據段包括: 元數據段報頭; 在所述元數據段報頭之後的至少一個保護值,其用於所述節目信息元數據、或所述子 流結構元數據、或與所述節目信息元數據或所述子流結構元數據相對應的所述音頻數據中 至少之一的解密、認證或驗證中的至少一種;以及 在所述元數據段報頭之後的元數據有效載荷標識值和有效載荷配置值,其中所述元數 據有效載荷在所述元數據有效載荷標識值和所述有效載荷配置值之後。
6. 根據權利要求5所述的音頻處理單元,其中,所述元數據段報頭包括標識所述元數 據段的開始的同步字、以及在所述同步字之後的至少一個標識值,並且所述元數據有效載 荷的所述報頭包括至少一個標識值。
7. 根據權利要求1所述的音頻處理單元,其中,所述編碼音頻比特流為AC-3比特流或 E-AC-3比特流。
8. 根據權利要求1所述的音頻處理單元,其中,所述緩衝存儲器以非暫態方式存儲所 述幀。
9. 根據權利要求1所述的音頻處理單元,其中,所述音頻處理單元為編碼器。
10. 根據權利要求9所述的音頻處理單元,其中,所述處理子系統包括: 解碼子系統,其被配置成接收輸入音頻比特流並且從所述輸入音頻比特流中提取輸入 元數據和輸入音頻數據; 自適應處理子系統,其被耦接並且被配置成使用所述輸入元數據對所述輸入音頻數據 執行自適應處理,由此生成經處理音頻數據;以及 編碼子系統,其被耦接並且被配置成響應於所述經處理音頻數據,包括通過將所述節 目信息元數據或所述子流結構元數據包括在所述編碼音頻比特流中,來生成所述編碼音頻 比特流,並且將所述編碼音頻比特流設定到所述緩衝存儲器。
11. 根據權利要求1所述的音頻處理單元,其中,所述音頻處理單元為解碼器。
12. 根據權利要求11所述的音頻處理單元,其中,所述處理子系統為耦接至所述緩衝 存儲器並且被配置成從所述編碼音頻比特流中提取所述節目信息元數據或所述子流結構 元數據的解碼子系統。
13. 根據權利要求1所述的音頻處理單元,包括: 子系統,其被耦接至所述緩衝存儲器並且被配置成:從所述編碼音頻比特流中提取所 述節目信息元數據或所述子流結構元數據,以及從所述編碼音頻比特流中提取所述音頻數 據;以及 後處理器,其被耦接至所述子系統並且被配置成使用從所述編碼音頻比特流中提取的 所述節目信息元數據或所述子流結構元數據中至少之一對所述音頻數據執行自適應處理。
14. 根據權利要求1所述的音頻處理單元,其中,所述音頻處理單元為數位訊號處理 器。
15. 根據權利要求1所述的音頻處理單元,其中,所述音頻處理單元為預處理器,所述 預處理器被配置成從所述編碼音頻比特流中提取所述節目信息元數據或所述子流結構元 數據以及所述音頻數據,並且使用從所述編碼音頻比特流中提取的所述節目信息元數據或 所述子流結構元數據中至少之一對所述音頻數據執行自適應處理。
16. -種用於對編碼音頻比特流進行解碼的方法,所述方法包括以下步驟: 接收編碼音頻比特流;以及 從所述編碼音頻比特流中提取元數據和音頻數據,其中所述元數據是或包括節目信息 元數據和子流結構元數據, 其中,所述編碼音頻比特流包括一系列幀並且指示至少一個音頻節目,所述節目信息 元數據和所述子流結構元數據指示所述節目,所述幀中的每個包括至少一個音頻數據段, 每個所述音頻數據段包括所述音頻數據的至少一部分,所述幀的至少一個子集中的每個幀 包括元數據段,並且每個所述元數據段包括所述節目信息元數據的至少一部分以及所述子 流結構元數據的至少一部分。
17. 根據權利要求16所述的方法,其中,所述元數據段包括節目信息元數據有效載荷, 所述節目信息元數據有效載荷包括: 節目信息元數據報頭;以及 在所述節目信息元數據報頭之後的指示所述節目的音頻內容的至少一個屬性或特性 的節目信息元數據,所述節目信息元數據包括指示所述節目的每個非靜音通道和每個靜音 通道的活動通道元數據。
18. 根據權利要求17所述的方法,其中,所述節目信息元數據還包括下列中的至少一 個: 下混合處理狀態元數據,其指示:所述節目是否是下混合過的,以及在所述節目是下混 合過的情況下應用於所述節目的下混合的類型; 上混合處理狀態元數據,其指示:所述節目是否是上混合過的,以及在所述節目是上混 合過的情況下應用於所述節目的上混合的類型;或 預處理狀態元數據,其指示:是否對所述幀的音頻內容執行了預處理,以及在對所述幀 的音頻內容執行了預處理的情況下對所述音頻內容執行的預處理的類型。
19. 根據權利要求16的方法,其中,所述編碼音頻比特流指示具有音頻內容的至少一 個獨立子流的至少一個音頻節目,並且所述元數據段包括子流結構元數據有效載荷,所述 子流結構元數據有效載荷包括: 子流結構元數據有效載荷報頭;以及 在所述子流結構元數據有效載荷報頭之後的,指示所述節目的獨立子流的數量的獨立 子流元數據以及指示所述節目的每個獨立子流是否具有至少一個相關聯的從屬子流的從 屬子流元數據。
20. 根據權利要求16所述的方法,其中,所述元數據段包括: 元數據段報頭; 在所述元數據段報頭之後的至少一個保護值,用於所述節目信息元數據或所述子流結 構元數據或與所述節目信息元數據和所述子流結構元數據相對應的所述音頻數據中至少 之一的解密、認證或驗證中的至少一個;以及 在所述元數據段報頭之後的,包括所述節目信息元數據的所述至少一部分和所述子流 結構元數據的所述至少一部分的元數據有效載荷。
21. 根據權利要求16所述的方法,其中,所述編碼音頻比特流為AC-3比特流或E-AC-3 比特流。
22. 根據權利要求16所述的方法,還包括步驟: 使用從所述編碼音頻比特流中提取的所述節目信息元數據或所述子流結構元數據中 至少之一,對所述音頻數據執行自適應處理。
【文檔編號】G10L19/005GK104240709SQ201310329128
【公開日】2014年12月24日 申請日期:2013年7月31日 優先權日:2013年6月19日
【發明者】傑弗裡·裡德米勒, 麥可·沃德 申請人:杜比實驗室特許公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀