評估單通道音頻信號中的音頻幀的語音質量的方法
2023-08-08 06:42:21 1
專利名稱:評估單通道音頻信號中的音頻幀的語音質量的方法
技術領域:
本發明總體上涉及語音質量評估技術,並且尤其涉及用於評估單通道音頻信號中的音頻幀的語音質量的方法。
背景技術:
來自封閉空間內的遠程聲源的聲學信號產生根據房間脈衝響應(RIR)變化的混響聲。根據空間內混響級的觀察信號中的人類語音質量的評估提供了有價值的信息。例如,在諸如網際網路協議電話(VOIP)系統、視頻會議系統、免提電話、聲控系統和助聽器的典型語音通信系統中,有利的是,無論房間混響如何,都知道在所產生的信號中語音是否清晰。
發明內容
在此描述的語音質量評估技術實施例通常涉及評估單通道音頻信號中的音頻幀的人類語音質量。在典型實施例中,輸入音頻信號的幀,並且評估該幀的基頻。此外,將該幀從時域變換到頻域。然後,計算變換後的幀的諧波分量和非諧波分量。然後,使用諧波分量和非諧波分量計算諧波與非諧波之比(HnHR)。該HnHR表示用於計算該比率的單通道音頻信號中的用戶語音的質量。這樣,HnHR被指定為該幀的語音質量的評估值。在一個實施例中,利用音頻信號的幀的評估語音質量向用戶提供反饋。這通常包括輸入所捕獲的音頻信號,然後確定音頻信號的語音質量是否落在規定的可接受水平以下。如果在規定的可接受水平以下,則向用戶提供反饋。在一個實現方式中,利用HnHR建立最小語音質量閾值,在該最小語音質量閾值以下,則認為信號中的用戶語音質量是不可接受的。然後,基於規定數量的連續音頻幀是否具有所計算的不超過規定的語音質量閾值的HnHR,向用戶提供反饋。應當注意,提供本發明內容用於以簡化形式引入所選擇的概念,下面將在具體實施方式
中對它們做進一步描述。本發明內容不是旨在標識要求保護的主題的關鍵特徵或者必要特徵,也不是旨在用來幫助確定要求保護的主題的範圍。
根據下面的描述、所附權利要求以及附圖,將更好地理解本公開的具體特徵、方面和優點。圖1是用於實現在此描述的語音質量評估技術實施例的示例性計算程序架構。圖2是示例性的基於幀的振幅加權因子的曲線圖, 其中,該振幅加權因子以混響尾部間隔逐漸降低合成的諧波分量信號的能量。圖3是一般概括用於評估混響信號的幀的語音質量的處理的一個實施例的流程圖。圖4是一般概括用於向音頻語音捕獲系統的用戶提供關於所捕獲的單通道音頻信號中的人類語音的質量的反饋的處理的一個實施例的流程圖。
圖bk 圖5B是一般概括用於確定音頻信號的語音質量是否落在規定水平以下的、圖4的處理動作的一個實現方式的流程圖。圖6是示出構成用於實現在此描述的語音質量評估技術實施例的示例性系統的通用計算裝置的圖。
具體實施例方式在下面對語音質量評估技術實施例的描述中,參考構成本文一部分的附圖,並且在附圖中通過示例示出了可以實施本技術的具體實施例。應當明白,也可以採用其它實施例,並且在不脫離該技術的範圍的情況下,可以進行結構改變。1. O語音質暈評估通常,在此描述的語音質量評估技術實施例通過自動地向用戶反饋他或者她的話音質量可以改善用戶的體驗。諸如噪聲水平、回音洩漏、增益水平以及混響的許多因素影響所感知的話音質量。在這些因素中,最大的挑戰是混響。迄今為止,沒有已知方法僅利用所觀察的語音測量混響的量。在此描述的語音質量評估技術實施例提供了這樣一種度量標準,它僅利用來自表示單音頻通道的信號的觀察語音樣本盲目測量(即,不需要「乾淨的」用於比較的信號)混響。已發現這對於各種房間環境(包括具有適當量的背景噪聲的環境)下的揚聲器和傳感器的隨機位置是可能的。更具體地,在此描述的語音質量評估技術實施例盲目地採用所觀察的單通道音頻信號的諧度來評估用戶語音的質量。諧度是人類話音語音的唯一特性。如上所述,關於觀察信號的質量(取決於房間混響條件及揚聲器到傳感器的距離)的信息向揚聲器提供有用的反饋。在下面的小節中將更詳細地描述上面提到的諧度的採用。1.1信號建模可以利用封閉空間內從聲源到傳感器的聲學聲音的多路徑傳播處理來對混響建模。通常,所接收的信號被分解為兩個分量早期混響(並且是直接路徑聲音)和晚期混響。早期混響(其在直接聲音之後不久到達)加強該聲音並且對於確定語音可懂度是有用的分量。由於早反射依據說話者和傳感器位置改變的事實,其還提供關於空間體積和說話者的距離的信息。晚期混響由在直接聲音到達後具有較長延遲的反射產生,其削弱語音可懂度。這些不利影響通常隨著聲源與傳感器之間的距離變長而增加。1.1.1混響信號模型被表示為h(n)的房間脈衝響應(RIR)表示房間內傳感器與說話者之間的聲學屬性。如上所述,混響信號可以被劃分為兩部分早期混響(包括直接路徑)和晚期混響
權利要求
1.一種用於評估包括人類語音分量的單通道音頻信號中的音頻幀的語音質量的、計算機實現的方法,包括 使用計算機執行以下處理操作 輸入所述音頻信號的巾貞(300); 將所輸入的幀從時域變換到頻域(304); 計算變換後的幀的諧波分量(310); 計算變換後的幀的非諧波分量(312); 計算諧波與非諧波之比HnHR (314);以及 將計算出的HnHR指定為所述單通道音頻信號中的所輸入的幀的語音質量的評估值(316)。
2.一種用於評估包括人類語音分量的單通道音頻信號中的音頻幀的語音質量的、計算機實現的方法,包括 使用計算機執行以下處理操作 輸入所述音頻信號的巾貞(300); 對所輸入的幀的基頻進行評估(302); 將所輸入的幀從時域變換到頻域以產生所述幀的頻譜(304); 計算所述幀的頻譜中與基頻的規定數量的整數倍中的每一個相對應的頻率的振幅和相位值(306); 基於計算出的振幅和相位值,計算所輸入的幀的子諧波與諧波之比SHR (308); 基於計算出的SHR連同所述基頻以及所述振幅和相位值,合成所輸入的幀的諧波分量表示(310); 基於所述振幅和相位值連同所合成的諧波分量表示,計算所輸入的幀的非諧波分量(312); 基於所合成的諧波分量表示和所述非諧波分量,計算諧波與非諧波之比HnHR (314);以及 將計算出的HnHR指定為所述單通道音頻信號中的所輸入的幀的語音質量的評估值(316)。
3.根據權利要求2所述的方法,其中所述基於計算出的振幅和相位值計算所輸入的幀的子諧波與諧波之比SHR的處理操作包括計算如下在前的和除以在後的和的商針對所述幀的頻譜中與基頻的規定數量的整數倍中的每一個相對應的每個頻率所計算的振幅值的和;針對所述幀的頻譜中與基頻的規定數量的整數倍減O. 5中的每一個相對應的每個頻率所計算的振幅值的和。
4.根據權利要求2所述的方法,其中所述基於計算出的SHR連同所述基頻以及所述振幅和相位值合成所輸入的幀的諧波分量表示的處理操作包括 計算振幅加權因子W(I)以便以所述幀的混響尾部間隔逐漸降低所述幀的諧波分量信號的合成表不的能量; 使用下述等式在一系列樣本時間內合成所述幀的時域諧波分量元「/,O:
5.根據權利要求4所述的方法,其中所述計算振幅加權因子W(I)的處理操作包括計算所計算出的SHR的四次冪除以如下和的商,該和為所計算出的SHR的四次冪與規定加權參數相加的和。
6.根據權利要求4所述的方法,其中所述基於所述振幅和相位值連同所合成的諧波分量表示計算所輸入的幀的非諧波分量的處理操作包括 對於所述幀的頻譜中與基頻的整數倍對應的每個頻率,從所述幀在該頻率下的計算出的振幅值中減去與該頻率相關聯的、合成的頻域諧波分量,以產生差值;以及使用期望算子函數從所產生的差值計算非諧波分量期望值。
7.根據權利要求6所述的方法,其中所述計算HnHR的處理操作包括 使用期望算子函數從與如下頻率相關聯的合成的頻域諧波分量計算諧波分量期望值該頻率為所述幀的頻譜中與所述基頻的整數倍對應的頻率; 計算所計算出的諧波分量期望值除以所計算出的非諧波分量期望值的商;以及 將所述商指定為HnHR。
8.根據權利要求4所述的方法,其中所述計算HnHR的處理操作包括計算平滑HnHR,所述平滑HnHR是使用針對所述音頻信號的一個或更多個先前幀計算的HnHR的一部分來進行平滑的。
9.根據權利要求8所述的方法,其中所述基於所述振幅和相位值連同所合成的諧波分量表示計算所輸入的幀的非諧波分量的處理操作包括 對於所述幀的頻譜中與基頻的整數倍對應的每個頻率,從所述幀在該頻率下的計算出的振幅值中減去與該頻率相關聯的、合成的頻域諧波分量,以產生差值; 使用期望算子函數從所產生的差值計算非諧波分量期望值;以及將針對音頻信號的當前幀的緊前幀計算的平滑非諧波分量期望值的規定百分比與針對所述當前幀計算的非諧波分量期望值相加,以產生所述當前幀的平滑非諧波分量期望值。
10.根據權利要求9所述的方法,其中所述計算平滑HnHR的處理操作包括 使用期望算子函數從與如下頻率相關聯的合成的頻域諧波分量計算諧波分量期望值該頻率為所述幀的頻譜中與所述基頻的整數倍對應的頻率; 將針對音頻信號的當前幀的緊前幀計算的平滑諧波分量期望值的規定百分比與針對所述當前幀計算的諧波分量期望值相加,以產生所述當前幀的平滑諧波分量期望值; 計算所述平滑諧波分量期望值除以所述平滑非諧波分量期望值的商;以及 將所述商指定為平滑HnHR。
全文摘要
本申請公開了一種用於評估單通道音頻信號中的音頻幀的語音質量的方法。描述的語音質量評估技術實施例通常包括評估單通道音頻信號中的音頻幀的人類語音質量。合成所述幀的諧波分量表示並且利用它來計算所述幀的非諧波分量。然後,利用合成的諧波分量表示和非諧波分量計算諧波與非諧波之比(HnHR)。該HnHR表示用戶語音質量,並且它被指定為所述幀的語音質量的評估值。在一個實現方式中,HnHR用於建立最小語音質量閾值,在該最小語音質量閾值以下,即認為用戶語音的質量是不可接受的。然後,基於HnHR是否低於該閾值,向用戶提供反饋。
文檔編號H04L25/60GK103067322SQ20121052525
公開日2013年4月24日 申請日期2012年12月7日 優先權日2011年12月9日
發明者陳偉戈, 張正友, 耶-莫·揚 申請人:微軟公司