音頻處理設備及音頻處理方法

2023-05-25 04:15:01

音頻處理設備及音頻處理方法
【專利摘要】本發明描述了一種音頻處理設備和音頻處理方法。該音頻處理設備的一個實施例包括：掩蔽音頻分離器，用於從第一音頻信號中分離包括除平穩噪聲和在語義上有意義的發音之外的聲音的音頻素材作為掩蔽音頻候選；第一語境分析器，用於獲得與所檢測的掩蔽音頻候選的語境信息有關的統計數據；以及掩蔽音頻庫構建器，通過基於上述統計數據將至少一個掩蔽音頻候選作為掩蔽音頻添加到掩蔽音頻庫來構建掩蔽音頻庫或對現有的掩蔽音頻庫進行更新。其中，掩蔽音頻庫中的掩蔽音頻被用來添加到第二音頻信號中的目標位置中以掩蔽第二音頻信號中的缺陷。
【專利說明】音頻處理設備及音頻處理方法
【技術領域】
[0001]本申請總體上涉及音頻信號處理。更具體地，本申請的實施例涉及用於改善通過遠程路徑傳輸的音頻信號的感知品質的音頻處理設備及音頻處理方法。
【背景技術】
[0002]語音通信可能遭受不同的品質問題。例如，在分組(包)交換網絡上實施語音通信的情況下，由於網絡中發生的延遲抖動，或者由於差的信道條件，比如衰減或WIFI幹擾，可能會丟失一些包，這導致收聽者所感知的語音不連續。由於包丟失或者由於用於掩蔽包丟失的措施，比如包內插(packets interpolation)或包外插(packets extrapolation),在收聽者所聽到的語音中可能出現畸變並使得所聽到的聲音聽起來不自然。
[0003]即使沒有畸變或者包丟失，有時講話者靜默可能被收聽者誤認為是網絡故障，因此收聽者對語音通信系統的體驗不是很好，尤其是在傳輸側的預處理完全抑制了背景噪聲(或系統僅傳輸沒有任何信息的空包)而使收聽者僅聽見完全靜默的情況下。

【發明內容】

[0004]根據本申請的一種實施例，提供了一種音頻處理設備，其包括:掩蔽音頻分離器，用於從第一音頻信號中分離包括除平穩噪聲和在語義上有意義的發音之外的聲音的音頻素材作為掩蔽音頻候選；第一語境分析器，用於獲得與所檢測到的掩蔽音頻候選的語境信息有關的統計數據；以及掩蔽音頻庫構建器，通過基於上述統計數據來將至少一個掩蔽音頻候選作為掩蔽音頻添加到掩蔽音頻庫中來構建掩蔽音頻庫或對現有的掩蔽音頻庫進行更新，其中掩蔽音頻庫中的掩蔽音頻被用來添加到第二音頻信號中的目標位置以掩蔽第二音頻信號中的缺陷。
[0005]根據另一實施例，一種音頻處理設備包括:掩蔽音頻庫，包括要插入到目標音頻信號中以掩蔽目標音頻信號中的缺陷的掩蔽音頻；掩蔽音頻選擇器，用於從掩蔽音頻庫中選擇掩蔽音頻；以及掩蔽音頻插入器，用於將所選擇的掩蔽音頻插入到目標音頻信號中的目標位置處。
[0006]本申請的另一實施例提供了一種音頻處理方法，包括:從第一音頻信號中分離包括除平穩噪聲和在語義上有意義的發音之外的聲音的音頻素材作為掩蔽音頻候選；獲得與所檢測到的掩蔽音頻候選的語境信息的有關的統計數據；以及通過基於上述統計數據將至少一個掩蔽音頻候選作為掩蔽音頻添加到掩蔽音頻庫中來構建掩蔽音頻庫或對現有的掩蔽音頻庫進行更新，其中掩蔽音頻庫中的掩蔽音頻被用來插入到第二音頻信號的目標位置處以掩蔽第二音頻信號中的缺陷。
[0007]根據又一實施例，一種音頻處理方法包括:從掩蔽音頻庫中選擇掩蔽音頻，所述掩蔽音頻庫包括要插入到目標音頻信號中以掩蔽目標音頻信號中的缺陷的掩蔽音頻；以及將所選擇的掩蔽音頻插入到目標音頻信號中的目標位置處。【專利附圖】

【附圖說明】
[0008]在附圖的各圖中，以示例而非限制的方式示出了本申請，其中，類似的附圖標記表示類似的要素，並且其中:
[0009]圖1A是示意性地示出了可以應用本申請的實施例的示例性語音通信系統的圖；
[0010]圖1B是示意性地示出了可以應用本申請的實施例的另一示例性語音通信系統的圖；
[0011]圖2是示出了根據本申請的實施例的音頻處理設備的圖；
[0012]圖3A是示出了根據圖2中的實施例的變型的、圖2中的掩蔽音頻分離器201的圖；
[0013]圖3B是示出了根據圖2中的實施例的變型的、圖2中的掩蔽音頻庫構建器203的圖；
[0014]圖4至圖6是示出了根據本申請的另一實施例及其變型的音頻處理設備的圖；
[0015]圖7是示出了根據本申請的又一實施例的音頻處理設備的圖；
[0016]圖8是示出了用於實施本申請的實施例的示例性系統的框圖；以及
[0017]圖9至圖17是示出了根據本申請的實施例及其一些變型的音頻處理方法的流程圖。
【具體實施方式】
[0018]下面參考附圖來描述本申請的實施例。應注意，為清楚起見，在附圖和說明書中省略了關於本領域技術人員已知但對於理解本申請不必需的組件和過程的陳述和描述。
[0019]本領域的技術人員可以理解，本申請的各方面可以被實施為系統、裝置(例如蜂窩電話、便攜媒體播放器、個人計算機、伺服器、電視機頂盒、或數字錄像機、或任意其它媒體播放器)、方法或計算程序產品。因此，本申請的各方面可以採取以下形式:硬體實施方式、軟體實施方式(包括固件、駐留軟體、微代碼等)或將軟體方面與硬體方面組合起來的實施方式，本文可以一般地稱之為「電路」、「模塊」或「系統」。此外，本發明的各方面可以採取在一個或多個其中形成有計算機可讀程序代碼的計算機可讀介質中實現的電腦程式產品的形式。
[0020]可以使用一個或更多個計算機可讀介質的任何組合。計算機可讀介質可以是計算機可讀信號介質或計算機可讀存儲介質。計算機可讀存儲介質例如可以是(但不限於)電的、磁的、光的、電磁的、紅外線的或半導體的系統、設備或裝置或前述各項的任何適當的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括以下:具有一條或更多條導線的電連接、可攜式計算機磁碟、硬碟、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或快閃記憶體)、光纖、可攜式光碟只讀存儲器(CD-ROM)、光存儲裝置、磁存儲裝置或前述各項的任何適當的組合。在本文語境中，計算機可讀存儲介質可以是任何含有或存儲供指令執行系統、設備或裝置使用的或與指令執行系統、設備或裝置結合使用的程序的有形介質。
[0021]計算機可讀信號介質可以包括例如在基帶中或作為載波的一部分傳播的、其中帶有計算機可讀程序代碼的數據信號。這樣的傳播信號可以採取任何適當的形式，包括但不限於電磁的、光的或其任何適當的組合。[0022]計算機可讀信號介質可以是不同於計算機可讀存儲介質的、能夠交換、傳播或傳輸供指令執行系統、設備或裝置使用的或與指令執行系統、設備或裝置結合使用的程序的任何計算機可讀介質。
[0023]形成在計算機可讀介質中的程序代碼可以採用任何適當的介質傳輸，包括但不限於無線、有線、光纜、射頻等等或上述各項的任何適當的組合。
[0024]用於執行本申請各方面的操作的電腦程式代碼可以以一種或更多種程序設計語言的任何組合來編寫，所述程序設計語言包括面向對象的程序設計語言，諸如Java、Smalltalk,C++之類，還包括常規的過程式程序設計語言，諸如「C」程序設計語言或類似的程序設計語言。程序代碼可以完全地在用戶的計算機上作為獨立的軟體包執行，或者部分地在用戶的計算機上執行並部分地在遠程計算機上執行，或者完全在遠程計算機或伺服器上執行。在後一種情形中，遠程計算機可以通過任何類型的網絡，包括區域網(LAN)或廣域網(WAN)，連接到用戶的計算機，或者，可以(例如利用網際網路服務提供商來通過網際網路)連接到外部計算機。
[0025]以下參照按照本申請實施例的方法、設備(系統)和電腦程式產品的流程圖和/或框圖來描述本申請的各個方面。應當理解，流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合都可以由電腦程式指令實現。這些電腦程式指令可以提供給通用計算機、專用計算機或其它可編程數據處理設備的處理器以生產出一種機器，使得通過計算機或其它可編程數據處理裝置的處理器執行的這些指令產生用於實現流程圖和/或框圖中的方框中規定的功能/操作的裝置。
[0026]也可以把這些電腦程式指令存儲在能夠指引計算機或其它可編程數據處理設備以特定方式工作的計算機可讀介質中，使得存儲在計算機可讀介質中的指令產生包括實現流程圖和/或框圖中的方框中規定的功能/操作的指令的製品。
[0027]也可以把電腦程式指令加載到計算機、其它可編程數據處理設備或其它裝置上，導致在計算機、其它可編程處理設備或其它裝置上執行一系列操作步驟以產生計算機實現的過程，使得在計算機或其它可編程設備上執行的指令提供實現流程圖和/或框圖的方框中規定的功能/動作的過程。
[0028]系統概沭
[0029]圖1A是示意性地示出了可以應用本申請的實施例的示例語音通信系統的圖。
[0030]如圖1A所示，用戶A操作通信終端A，並且用戶B操作通信終端B。在語音通信會話中，用戶A和用戶B通過他們各自的通信終端A和B彼此交談。通信終端A和通信終端B通過數據鏈路103而耦接。數據鏈路103可以實施為點到點連接或通信網絡。在用戶A和用戶B中的任意一側，對通過用戶的通信終端捕獲的音頻信號的音頻塊進行VAD(VoiceActivityDetection,語音活動檢測)。如果確定音頻塊中存在語音，則對該音頻塊執行相應的處理(例如，施加適合於語音的增益)並且通過數據鏈路103將該音頻塊傳輸到另一個用戶的通信終端A。如果確定音頻塊中不存在語音，則對該音頻塊執行相應的處理(例如，施加適合於非語音的增益)並且通過數據鏈路103將該音頻塊傳輸到另一個用戶的通信終端A。在這種情況下，還可以將表示靜默時間段的簡單信息傳輸給另一用戶的通信終端，或可以通過不傳輸任何信息來表示與該音頻塊對應的時間段是靜默的。該另一用戶的通信終端接收所傳輸的音頻塊並且將這些音頻塊存儲到其抖動緩衝器中以消除傳輸抖動。通過解碼和處理來饋送抖動緩衝器中的音頻塊，以在通信終端的一個或更多個輸出變換器處再現這些音頻塊。
[0031]圖1B是示意性地示出了可以應用本申請的實施例的另一示例語音通信系統的圖。在該示例中，可以在各用戶之間進行語音會議。
[0032]如圖1B所示，用戶A操作通信終端A，用戶B操作通信終端B並且用戶C操作通信終端C。在語音會議會話中，用戶A、用戶B和用戶C通過它們各自的通信終端A、B和C彼此交談。圖1B所示的通信終端的功能與圖1A所示的通信終端的功能相同。然而，通信終端A、B和C通過共用的數據鏈路113或單獨的數據鏈路113耦接至伺服器。數據鏈路113可以實施為點到點連接或通信網絡。在用戶A、用戶B和用戶C中任意一側，對由用戶的通信終端捕獲的音頻信號的音頻塊執行VAD。如果確定音頻塊中存在語音，則對該音頻塊進行相應的處理(例如，施加適合於語音的增益)並且通過數據鏈路113將該音頻塊傳輸到伺服器。如果確定音頻塊中不存在語音，則對該音頻塊進行相應的處理(例如，施加適合於非語音的增益)並且通過數據鏈路113將該音頻塊傳輸到伺服器。在這種情況下，還可以將表示靜默的時間段的簡單信息傳輸給伺服器115，或可以通過不傳輸任何信息來指示與該音頻塊對應的時間段是靜默的。伺服器接收所傳輸的音頻塊，並且將這些音頻塊存儲到伺服器的與各個用戶相關聯的抖動濾波器中的與這些音頻塊的相同時間對應的條目中，以消除傳輸抖動。將抖動緩衝器中的對應於相同時間的音頻模塊混合成一個音頻塊並且將混合後的音頻塊傳輸給所有用戶A、B和C。用戶的通信終端從伺服器接收音頻塊，並且將這些音頻塊存儲到它們的抖動緩衝器中，以消除傳輸抖動。在每個通信終端中，將抖動緩衝器中的音頻塊饋送到語音處理器，以通過通信終端的揚聲器系統來再現這些音頻塊。儘管圖1B中示出了三個通信終端，但是，可以在系統中適當地耦接兩個或更多個通信終端。
[0033]如在【背景技術】部分所討論的，可能發生包丟失、畸變或講話者的靜默，並使得收聽者的體驗不是很好。在本申請中提出，通過以下方式來使用可以被稱為掩蔽音頻(audiomasker)的適當音頻素材掩蔽要被收聽者聽到的音頻信號中的缺陷:使用掩蔽音頻填充講話者的靜默或/和包丟失，或者利用掩蔽音頻替代畸變。於是，如圖1B所示，通信終端A、B和C和/或伺服器可以設置有掩蔽音頻庫A、B、C和S (其可以是同一掩蔽音頻庫的複本，或可以是不同的掩蔽音頻庫)，並且可以從上述庫中提取適當的掩蔽音頻來掩蔽音頻信號中的缺陷。儘管圖1A中沒有示出掩蔽音頻庫，但圖1A所示的系統是類似的。
[0034]可以離線創建掩蔽音頻庫並且將其配備到通信終端和/或伺服器。也可以在講話者側(發送側)和/或伺服器側在線創建掩蔽音頻庫，然後將其傳送到伺服器側和/或收聽偵儀接收側)。可替代地，可以對離線掩蔽音頻庫進行在線或離線更新以適應新的講話者或新的環境。
[0035]因此，本申請提供了用於構建掩蔽音頻庫(預處理)的設備和用於將掩蔽音頻庫應用於音頻信號的設備兩者以及包含這兩者的系統/設備。
[0036]預處理:構建掩蔽音頻庫
[0037]圖2是示出了根據本申請第一實施例的音頻處理設備200的圖，該音頻處理設備用於構建要在隨後討論的缺陷掩蔽裝置/處理中使用的掩蔽音頻庫，或者離線或在線地更新該掩蔽音頻庫。
[0038]如圖2所不,音頻處理設備200包括:掩蔽音頻分離器201,用於從第一音頻信號分離包括除平穩噪聲和在語義學上有意義的發音之外的聲音的音頻素材作為掩蔽音頻候選；第一語境分析器202，用於獲得與所檢測到的掩蔽音頻候選的語境信息有關的統計數據；以及掩蔽音頻庫構建器203，用於通過基於上述統計數據來將至少一個掩蔽音頻候選作為掩蔽音頻添加到掩蔽音頻庫204中來構建掩蔽音頻庫204或更新現有的掩蔽音頻庫204，其中，掩蔽音頻庫中的掩蔽音頻用於插入到第二音頻信號中的目標位置以掩蔽第二音頻信號中的缺陷。
[0039]第一音頻信號用作掩蔽音頻候選(和將來的掩蔽音頻)的源。換言之，掩蔽音頻是從第一音頻信號提取的音頻素材並且可以用於掩蔽目標音頻信號(第二音頻信號)中的缺陷。在第二音頻信號中存在講話者的靜默、包丟失或畸變的情況下，可以將掩蔽音頻插入到靜默、包丟失或畸變的位置(目標位置)處，以使得所得到的音頻信號(即改善後的音頻信號)聽起來更自然。例如，在講話者的猶豫期間，可以插入鍵盤敲擊聲以使得收聽者可以聽到一些聲音而非寂靜無聲。
[0040]就掩蔽音頻而言，其一定不能在語義方面幹擾講話者的語音，因此掩蔽音頻不能是在語義上有意義的發音/話音。例如，我們不能將一段主題為X的話音插入到關注主題Y的語音段(talkspurt)之間的靜默時間段。另一方面，掩蔽音頻不可以是與當前講話者和他/她的環境沒有關係(或沒有明顯關係)的普通噪聲，這種普通噪聲的添加只是相對於發送側和/或接收側的噪聲抑制處理的逆處理，從而是無意義的或甚至浪費計算資源。即使該噪聲是特定於講話者所處的環境的，如果該噪聲是連續且恆定的，則效果也會是一樣的。與非平穩噪聲相反，將這種普通噪聲或連續且恆定的噪聲稱為平穩噪聲。
[0041]於是，掩蔽音頻可以是包括偶然出現在講話者的環境中的非平穩噪聲的音頻素材，諸如鍵盤敲擊聲或滑鼠點擊聲、講話者或他/她的同事的咳嗽聲或腳步聲。於是，在使用這些掩蔽音頻的情況下，收聽者會想到講話者還在繼續講話，只是其被諸如咳嗽聲或鍵盤敲擊聲這樣的掩蔽音頻掩蔽了，而不會認為網絡中斷了(儘管網絡可能真的中斷了)或認為講話者忘詞了。
[0042]因此，如圖3A所示，根據圖2中的實施例的變型，圖2中的掩蔽音頻分離器201可以包括用於分離包括非平穩噪聲的音頻素材作為掩蔽音頻的非平穩噪聲分離器2012。這種音頻素材可以是從在講話者的通信終端處捕獲的、僅包括非平穩噪聲而不包括講話者的發音的音頻信號中提取的音頻段。即，該音頻段可以與講話者的猶豫或講話者的相對長的靜默時間相對應。然而，也可以通過以下處理獲得音頻素材:對包括講話者的發音和非平穩噪聲(和平穩噪聲)兩者的混合音頻信號進行處理，並從該混合音頻信號中分離出非平穩噪聲。
[0043]對於非平穩噪聲的檢測和分離，可以採用基於機器學習的方法，諸如Ada-Boost算法(Freund, Yoav; Schapire, Robert E.(1995).ADecision-Theoretic Generalizationof on-Line Learning and anApplication to Boosting.)，或者 HMM 模型(XuedongHuang,Alex Acero, and Hsiao-ffuen Hon(2001).Spoken Language Processing.PrenticeHall)。
[0044]掩蔽音頻還可以是針對上下文不具有特定含義的一些發音，從而不會干擾目標音頻信號中的語音。由於這些發音表示講話者的有意義的句子/短語之間的語義停頓，所以將它們稱為不流利標誌(disfluency markers)。[0045]也被稱作填充聲(filler)的不流利標誌包括無詞義型(例如，嗯、唔)和有詞義型(例如，好吧、等)和猶豫。僅將無詞義型(例如，嗯、唔)和有詞義型(例如，好吧、等)用作掩蔽音頻，並且還可以將它們分別稱為停頓填充語(filled pause)和輔助語氣詞(discoursemarker)(參見 CarolLynn, Moder;Aida Martinovic-Zic(2004).Discourse AcrossLanguagesand Cultures.John Benjamins Publishing Company, pp.117.9027230781;或參JAL Schiffrin, Deborah (1986), Discourse markers, Studies ininteractional sociolinguistics, 5., Cambridge [Cambridgeshire], ISBN978-0-521-30385-9)。下表不出了三種類型的不流利標誌。大多數不流利標誌(諸如停頓填充語)一般不被認為是有目的的或包含正式含義的，但其向收聽者傳遞重要的信息:交談在繼續，並且講話者是希望停頓而不是主動讓出對話支配權。這在多方通話的情況下是非常重要的，在多方通話的情況下，由包丟失導致的未填充間隙可能導致收聽者的談話中斷。
【權利要求】
1.一種音頻處理設備，包括: 掩蔽音頻分離器，用於從第一音頻信號中分離包括除平穩噪聲和在語義上有意義的發音以外的聲音的音頻素材作為掩蔽音頻候選；第一語境分析器，用於獲得與所檢測到的掩蔽音頻候選的語境信息有關的統計數據；以及掩蔽音頻庫構建器，用於通過基於所述統計數據來將至少一個掩蔽音頻候選作為掩蔽音頻添加到掩蔽音頻庫中來構建所述掩蔽音頻庫或對現有的掩蔽音頻庫進行更新，其中，所述掩蔽音頻庫中的所述掩蔽音頻被用來插入到第二音頻信號中的目標位置中以掩蔽所述第二音頻信號中的缺陷。
2.根據權利要求1所述的音頻處理設備，其中，所述掩蔽音頻分離器包括非平穩噪聲分離器，所述非平穩噪聲分離器用於分離包括非平穩噪聲的音頻素材，作為所述掩蔽音頻。
3.根據權利要求1所述的音頻處理設備，其中，所述掩蔽音頻分離器包括不流利標誌分離器，所述不流利標誌分離器用於分離包括不流利標誌的音頻素材，作為所述掩蔽音頻。
4.根據權利要求3所述的音頻處理設備，其中，所述不流利標誌分離器包括:用於分離包括停頓填充語的音頻素材的停頓填充語分離器；以及用於分離包括輔助語氣詞的音頻素材的話語標誌分離器。
5.根據權利要求3或4所述的音頻處理設備，其中，所述掩蔽音頻分離器還包括非平穩噪聲分離器，所述非平穩噪聲分離器用於分離包括非平穩噪聲的音頻素材作為所述掩蔽音頻。
6.根據權利要求1至5中任一項所述的音頻處理設備，其中，所述第一語境分析器被配置成獲得所述第一音頻信號中的以下各項中的至少之一:特定期間或語音段內每種掩蔽音頻候選的出現頻率、所述掩蔽音頻候選在語音段中的位置、所述掩蔽音頻候選的聲級、所述第一音頻信號的長期語音聲級、所述第一音頻信號的話音速度、所述第一音頻信號中的長期背景平穩噪聲水平和講話者身份。
7.根據權利要求1至5中任一項所述的音頻處理設備，其中，所述掩蔽音頻庫構建器還包括聚類處理器，所述聚類處理器用於將所述掩蔽音頻候選聚為不同的類。
8.根據權利要求7所述的音頻處理設備，其中，所述掩蔽音頻庫構建器被配置成選擇處於所述類的中心和/或靠近所述類的中心的那些掩蔽音頻候選作為所述掩蔽音頻庫中的掩蔽音頻。
9.根據權利要求7所述的音頻處理設備，其中，所述掩蔽音頻庫構建器還包括掩蔽音頻合併器，所述掩蔽音頻合併器通過計算位於同一類中的那些掩蔽音頻候選的平均來合併位於同一類中的那些掩蔽音頻候選以形成掩蔽音頻。
10.一種音頻處理設備,包括: 掩蔽音頻庫，其包括要插入到目標音頻信號中以掩蔽所述目標音頻信號中的缺陷的掩蔽音頻；掩蔽音頻選擇器，用於從所述掩蔽音頻庫中選擇掩蔽音頻；以及掩蔽音頻插入器，用於將所選擇的掩蔽音頻插入到所述目標音頻信號中的目標位置處。
11.根據權利要求10所述的音頻處理設備，還包括用於檢測所述目標音頻信號中的靜默段的靜默檢測器，其中，所述掩蔽音頻插入器被配置成利用所選擇的掩蔽音頻替換所述靜默段。
12.根據權利要求10所述的音頻處理設備，其中，所述目標位置與所述目標音頻信號中出現的畸變相對應，並且所述掩蔽音頻插入器被配置成利用所選擇的掩蔽音頻替換包括所述畸變的段。
13.根據權利要求10所述的音頻處理設備，其中，所述目標位置與所述目標音頻信號中出現的一個或更多個包丟失相對應，並且所述掩蔽音頻插入器被配置成將所選擇的掩蔽音頻插入到所述一個或更多個丟失的包的位置處。
14.根據權利要求10至13中任一項所述的音頻處理設備，其中，所述掩蔽音頻包括以下各項中的至少之一:包括非平穩噪聲的音頻段、包括停頓填充語的音頻段和包括輔助語氣詞的音頻段。
15.根據權利要求10至13中任一項所述的音頻處理設備，還包括用於獲得與所述目標位置的語境信息有關的統計數據的語境分析器，其中，所述掩蔽音頻庫還包括與所述掩蔽音頻的語境信息有關的統計數據；以及所述掩蔽音頻選擇器被配置成基於所述掩蔽音頻庫中的與所述掩蔽音頻的語境信息有關的統計數據和通過所述語境分析器獲得的統計數據來選擇所述掩蔽音頻。
16.根據權利要求15所述的音頻處理設備，其中，所述語境分析器被配置成獲得所述音頻信號中的以下各項中的至少之一:特定期間或每個語音段內目標位置的出現頻率、所述目標位置在語音段中的位置、長期語音聲級、話音速度、長期背景平穩噪聲水平和講話者身份；以及與所述掩蔽音頻的語境信息有關的所述統計數據包括從其中提取所述掩蔽音頻的源音頻信號中的以下各項中的至少之一:特定期間或特定語音段內每種掩蔽音頻的出現頻率、所述掩蔽音頻在語音段中的位置、所述掩蔽音頻的聲級、所述源音頻信號的長期語音聲級、所述源音頻信號的話音速度、所述源音頻信號中的長期背景平穩噪聲水平和講話者身份。
17.一種音頻處理方法，包括: 從第一音頻信號中分離包括除平穩噪聲和在語義上有意義的發音之外的聲音的音頻素材，作為掩蔽音頻候選；獲得與所檢測到的掩蔽音頻候選的語境信息有關的統計數據；以及通過基於所述統計數據將至少一個掩蔽音頻候選作為掩蔽音頻添加到掩蔽音頻庫中來構建所述掩蔽音頻庫或對現有的掩蔽音頻庫進行更新，其中，所述掩蔽音頻庫中的掩蔽音頻被用來插入到第二音頻信號中的目標位置中以掩蔽所述第二音頻信號中的缺陷。
18.根據權利要求17所述的音頻處理方法，其中，所述掩蔽音頻包括以下音頻素材中的至少之一:包括非平穩噪聲的音頻素材、包括停頓填充語的音頻素材和包括輔助語氣詞的音頻素材。
19.一種音頻處理方法,包括: 從掩蔽首頻庫中選擇掩蔽首頻，所述掩蔽首頻庫包括要插入到目標首頻?目號中以掩蔽所述目標信號中的缺陷的掩蔽音頻；以及將所選擇的掩蔽音頻插入到所述目標音頻信號中的目標位置處。
20.根據權利要求19所述的音頻處理方法，還包括檢測所述目標音頻信號中的靜默段，其中，所述插入操作包括利用所選擇的掩蔽音頻替換所述靜默段。
21.根據權利要求19所述的音頻處理方法，其中，所述目標位置與所述目標音頻信號中出現的畸變相對應，並且所述插入操作包括利用所選擇的掩蔽音頻替換包括所述畸變的段。
22.根據權利要求19所述的音頻處理方法，其中，所述目標位置與所述目標音頻信號中出現的一個或更多個包丟失相對應，並且所述插入操作包括將所選擇的掩蔽音頻插入到所述一個或更多個丟失的包的位置中。
23.根據權利要求19至22中任一項所述的音頻處理方法，其中，所述掩蔽音頻包括以下各項中的至少之一:包括非平穩噪聲的音頻段、包括停頓填充語的音頻段和包括輔助語氣詞的音頻段。
24.根據權利要求19至22中任一項所述的音頻處理方法，還包括獲得與所述目標位置的語境信息有關的統計數據，其中，所述掩蔽音頻庫還包括與所述掩蔽音頻的語境信息有關的統計數據；以及所述從掩蔽音頻庫中選擇掩蔽音頻的操作包括:基於所述掩蔽音頻庫中的與所述掩蔽音頻的語境信息有關的統計數據和與所述目標位置的語境信息有關的統計數據來選擇所述掩蔽音頻。
【文檔編號】G10L19/018GK103886863SQ201210559745
【公開日】2014年6月25日申請日期:2012年12月20日優先權日:2012年12月20日
【發明者】孫學京, 黃申, 波皮·克拉姆, 漢內斯·米施, 格倫·迪金斯, 麥可·埃克特申請人:杜比實驗室特許公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

音頻處理設備及音頻處理方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法