一種針對VoIP語音的客觀評測方法
2023-04-22 18:22:51 1
專利名稱:一種針對VoIP語音的客觀評測方法
技術領域:
本發明涉及通信網絡質量的評測方法領域,尤其是針對VoIP語音的一種客觀評 測方法。
背景技術:
目前對於語音質量的測試方法有兩種傳統的主觀評測方法和新的客觀評測方 法。主觀評測是以人為主體來評價語音和語音的質量。在語音質量主觀評測方法中,MOS(平 均意見分Mean Option kore)評分的使用最為廣泛,它以平均意見分來衡量語音質量,用 五個等級來表示語音的質量等級優(5分)、良G分)、一般(3分)、差O分)、壞(1分)。主 觀聽音測試方法包括1). ACR(AbS0lute Category Rating)絕對等級評定,這是最常用的 一種基於語句組的聽音測試方法,語句組由一組無關的短句組成,每一個語句都通過一系 列的標準處理;2). DCR(Degradatic)n Category Rating)衰減等級評定,用於小衰減情況, 適於評價類似的數字語音處理算法、系統優化;3). CCR(Comparison CategoryRating)比 較等級評定,用於改進輸入語音質量,如加噪等。4). QRDM(Quanta-Response Detectbility Method)定量響應可檢測性方法,用於定量分析;5). TM(Threshold Method)門限方法主 觀評價的優點是符合人對語音質量的感覺,缺點是費時費力費錢,且靈活性不夠,重複性和 穩定性較差,受人的主觀影響較大等。因此以計算機信息處理為核心的語音質量客觀評價 成為大家關注的熱點技術。客觀評測方法主要有以下兩種一是ITU-T P. 862(感知語音質量評測),又稱為 PESQ (Perceptual Evaluation of Speech Quality)建議,它是 ITU提出的語音質量客觀評 價算法之一,針對網絡中出現的可變時間延遲和系統引入的線性濾波這兩方面做了改進, 是目前與主觀分值相關度最高的語音質量評測客觀算法。其主客觀相關度可達到0. 935,分 值在O 4. 5之間,通常情況下輸出分值在1. O 4. 5之間。當分值在2分或2分以下時,表 示語音質量比較差,難於聽懂。然而這種算法不能很好地評測對話語音質量,並且PESQ的 聽覺變換和擾動處理是基於幀到幀的比較,也就不能很好地處理VoIP的網絡編解碼器和 自適應抖動緩衝處理器對於語音的一些優化,不能給出與主觀分值相關度比較高的客觀分 值。另一種客觀評測算法是在網絡規劃中獲得了廣泛應用的ITU-T G. 107規範(E模型)。其 優點是全面考慮了網絡中的網絡損傷因素,如噪聲回音延時編碼器性能抖動等,給出一個 單一的具有相當的評估準確度的得分R,且其質量等級R值與客觀MOS分的質量等級存在一 個非線性單調的映射關係,也可用於對話測試。然而E模型卻存在如下缺點首先,對於大 數量的可能輸入參數的組合情況未經過足夠的界內驗證和充分的實驗室測量,估測仍處在 置疑和研究的階段;其次,它簡單地認為單個質量損傷因素(如靜音回聲延時和失真)是相 互獨立的,都採用同樣的尺度來衡量;再次,其前提是假設語音質量損傷因素總是物理附加 的,但研究表明這種假設的可靠性在某些情況下存在疑問;另外,它建立在300Hz-3400Hz 電話語音帶寬的基礎上,不能準確地用於寬帶語音的質量評定等。因此,目前使用比較廣泛 的語音客觀評測算法還是感知語音質量評測——PESQ,但是它不能很好的評測經過了網絡編解碼器和自適應抖動緩衝器的語音,並且實驗證明,其獲得的主客觀相關度特別的低。
發明內容
本發明要解決的技術問題是,提供一種針對VoIP語音的客觀評測方法,能夠客觀 評測現有的由編解碼器、丟包、噪聲等引入損傷的語音質量,而且能夠客觀評測網絡編解碼 器、自適應抖動緩衝器、以及端到端的延時抖動造成的失真語音的質量。為此,本發明提供的針對VoIP語音的客觀評測方法,包括第一步在VoIP的發送端獲得原始語音;第二步在接收端獲得引入損傷的失真語音;第三步通過預處理模塊劃分原始語音和失真語音,得到語句信息,並且判斷失真 語音中是否有拉伸或壓縮語句,得到拉伸或壓縮信息;第四步利用編解碼器損傷評估模塊A計算對齊語句的編解碼器損傷,利用編解 碼器損傷評估模塊B計算有拉伸或壓縮的語句的質量損傷,利用延時損傷評估模塊評測端 到端延時和內部的延時對語音的影響;第五步利用擬合模塊最終得到語音質量客觀評測分值。所述的發送端和接收端為固定電話、行動電話或者IP終端計算機。所述的預處理語句間過大的延時的方法是計算原始語音和失真語音一段間隔內 的能量值,根據各自的能量值劃分原始語音和失真語音,得到語句信息;根據原始語音以及 失真語音的語句信息,計算出語句間的延時,根據定義的最大延時閾值以及原始語音語句 間的延時值,處理VoIP失真語音語句間過大的延時,並且將語句信息存儲下來,原始語句 信息繼續用於延時評估模塊的計算。所述的語句包含至少300ms的連續活動語音,並且包含的靜音期不超過200ms,語 句間的界限處於語句間隔的靜默期中間。所述的利用編解碼器損傷評估模塊A計算對齊語句的編解碼器損傷的方法為對 原始語音與失真語音中未有拉伸或壓縮的部分,採用感知語音質量評價PESQ的聽覺變換、 擾動處理以及感知模型來評價其編解碼器的損傷,得到編解碼器損傷評估模塊1的評測分值。所述的利用編解碼器損傷評估模塊B計算對齊語句的編解碼器損傷的方法為採 用基於美爾倒譜係數MFCC的動態彎折DTW方法計算最佳路徑對應的最小代價來評測未對 齊語音的距離。所述的延時損傷評估模塊評測端到端延時和內部延時對語音的影響的方法為根 據存儲的原始語音和失真語音的語句信息,利用基於FFT的互相關進行包絡對齊,計算出 原始語音和失真語音開頭的延時,以及中間每一段語句的延時值和存在的位置。所述的延時損傷評估模塊評測端到端延時和內部延時對語音的影響方法還包括 將延時值和存在的位置保存在一個2維數組中,然後根據大量的主觀分值的訓練,得出各 個位置以及延時值大小對語音損傷的影響的映射關係,由延時損傷評估模塊得到客觀分 值。所述PESQ計算採用下述步驟第一步調整原始信號和失真信號到標準聽覺電平;
第二步用輸入濾波器模擬標準聽覺電話筒進行濾波;第三步對通過電平調整和濾波後的兩個信號在時間上對齊;第四步行聽覺變換,包括對系統中線性濾波和增益變換的補償和均衡;第五步以聽覺變換後的兩個信號之間的不同作為擾動,分析擾動曲面,提取出兩 個失真參數,在頻率和時間上進行累積,映射到主觀意見分的預測值。其中,時間對齊算法包括如下如下步驟第一步基於參考信號和失真信號整體包絡的粗略延時估計;第二步以參考信號的信息來劃分語句;第三步對每一語句進行基於包絡的粗略延時估計;第四步對每一語句進行基於幀到幀的加權直方圖精細延遲估計;第五步重新對齊劃分出來的新語句,直到延時在一個語句內沒有變化;第六步在感知模型後,根據幹擾度識別和定義出壞區間,再重新返回對齊模塊進 行調整對齊;第七步將所述的編解碼器損傷評估模塊1的客觀分值,編解碼器損傷評估模塊 2的客觀分值以及延時損傷評估模塊得到的客觀分值通過擬合模塊,得到最終的VoIP語音 的客觀評測分值的擬合公式。本發明的有益效果該方法經過了網絡編解碼器和自適應抖動緩衝器等的語音質量,比單用PESQ更 為精確,並且考慮了延時損傷,也可以對會話質量進行評測。同時,相對於由E模型得到的 與主觀分值的相關度,本發明方法得到的相關度要高許多,因此更加適合於客觀評測有網 絡損傷的語音。
圖1是本發明所述方法的原理2是本發明第一個應用實施例原理3是本發明第二個應用實施例原理4是本發明第三個應用實施例原理5是本發明所述方法中的預處理模塊流程6是延遲調整算法流程7本發明所述方法中的編解碼器損傷評估模塊1流程8是本發明所述方法中的編解碼器損傷評估模塊2流程9是本發明所述方法中的網絡損傷評估模塊流程圖
具體實施例方式下面以VoWLAN(Voice over WLAN)網絡為例對本發明進行說明,其模塊皆採用C 語言開發,方便移植。圖1是本發明所述方法的原理圖,在VoIP的發送端存儲步驟1的原始語音;在接 收端獲得由網絡傳輸(步驟幻引入丟包、抖動、延時和由網絡編解碼器以及自適應抖動緩 存技術等造成損傷的失真語音(步驟幻;通過預處理模塊(步驟4)劃分原始語音和失真語音,得到語句信息,並且判斷失真語音中是否有拉伸(或壓縮)語句,得到拉伸(或壓縮) 信息,預處理語句間過大的延時;利用編解碼器損傷評估模塊1(步驟幻計算對齊語句的編 解碼器損傷,利用編解碼器損傷評估模塊2 (步驟6)計算有拉伸(或壓縮)的語句的質量 損傷,利用延時損傷評估模塊(步驟7)評測端到端延時和內部延時對語音的影響;得到延 時損傷客觀評測分值(步驟8),和編解碼器損傷客觀評測分值(步驟9),最後利用擬合模 塊(步驟10)得到語音質量客觀評測分值(步驟11)。圖2是圖1所述方法中的第一個應用實施例原理圖。發送端(步驟12)可以為計 算機(PC機)或者移動終端,其中包括了適合VoIP傳輸的網絡編碼器和自適應抖動緩存 器。在發送端存儲原始語音,經過接入點(Access Point)(步驟13)並通過IP網關(步驟 14)接入到IP交換網(步驟15),然後再通過IP網關(步驟16),及接入點(Access Point) (步驟17)到達PC或者移動終端(步驟18),通過適合VoIP的網絡解碼器和自適應抖動緩 存器,得到經過傳輸之後的失真語音。圖3是圖1所述方法中的第二個應用實施例原理圖。發送端(步驟19)可以為計 算機或者移動終端,其中包括了適合VoIP傳輸的網絡編碼器和自適應抖動緩存器。在發送 端存儲原始語音,經過步驟20的接入點(Access Point)通過IP網關(步驟21)接入到IP 交換網(步驟22),然後通過媒體網關(步驟23),及公共交換電話網絡(PSTN網絡)(步驟 24),到達固定電話終端(步驟25),其中也經過了適合VoIP傳輸的網絡解碼器和自適應抖 動緩存器,最後得到經過傳輸之後的失真語音。圖4是圖1所述方法中的第三個應用實施例原理圖,也為圖3實施例的反向傳輸 鏈路,即在發送端(步驟26)存儲原始語音,發送端為固定電話終端,經過公共交換電話網 絡(PSTN網絡)(步驟27)的傳輸後,通過媒體網關(步驟28)接入到IP交換網(步驟四), 然後再通過IP網關(步驟30),及接入點(AP)(步驟31),到達計算機終端或者移動終端 (步驟3 ,其中也經過了適合VoIP傳輸的網絡解碼器和自適應抖動緩存器,最後得到經過 傳輸之後的失真語音。圖5是本發明所述方法中的預處理模塊流程圖。首先將原始語音和失真語音經過 讀入模塊(步驟3 ,均按16kHz (或者8kHz)的採樣率讀入,得到原始語音及失真語音的樣 點值,由步驟33計算其VAD (Voice Activity Detection)信息。對經過窄帶濾波後的兩路 語音信號均進行活動語音檢測,即首先求出每細s幀語音的平均能量,接著由一個話音檢 測器得到一個門限值,能量低於該門限值的幀被認為是噪聲幀,其功率置為零;高於此門限 值被認為是語音幀,其功率定義為LOG (MAX (Ε (k) /Ethresh, 1))其中E(k)為第k個^is幀的能量,Ethresh是由話音檢測器得到的門限值。由兩 路語音信號的不交迭-S幀功率構成了它們的包絡。然後利用參考信號的VAD信息劃分語句,語句指一段語音,它應該包含至少300ms 的連續活動語音,並且包含的靜音期不能超過200ms。比較原始語音與失真語音的每一個語 句的長度信息是否一致或差值是否小於閾值,以此來判斷語句是否有拉伸(或壓縮)(步驟 34),確定拉伸(或壓縮)信息(步驟36)。圖6是圖5算法中的延遲調整算法流程圖,即圖5的步驟35語句延遲調整的詳細 算法。步驟38首先計算原始語音的各個語句間隔,即得到前一個語句與後一個語句中間的延時值,步驟39計算失真語音的各個語句間隔,由步驟40判斷其語句數是否相等,若相等, 說明每一原始語音的語句都在失真語音中有對應的語句,接著經過步驟43看兩者的語句 間間隔是否相等,若相等,則經過步驟45無需調整;若不相等,則經過步驟44將較大的間隔 調整為較小的間隔。若語句數不相等,經過步驟41使用固定的間隔,即步驟42對原始語音 和失真語音各自調整。最後經過步驟46記錄下調整後的語句的起點和終點,得到調整後的 原始和失真語音。圖7是本發明所述方法中的編解碼器損傷評估模塊1流程圖,將調整後的原始語 音和失真語音,經過編解碼器損傷評估模塊1 (PESQ),包括以下過程經過電平調整(步驟 47)和輸入濾波(步驟48)後,利用時間調整模塊(步驟49)消除連續和不連續延時對失真 語音的影響,再經過聽覺變換(步驟50)和擾動處理(步驟51),其中忽略拉伸(或壓縮) 語句部分的擾動,對過大的擾動經過錯誤間隔鑑別(步驟M),進行重新對準(步驟55),最 後通過感知模型(步驟5 計算出預測分值(步驟56)。圖8是本發明所述方法中的編解碼器損傷評估模塊2流程圖。根據拉伸(或壓 縮)信息(步驟57),將原始語句(步驟59)和與其對應的拉伸(或壓縮)的失真語句(步 驟58),經過步驟60提取其MFCC (美爾倒譜係數)參數,然後將原始語句與其對應的失真語 句經過動態時間彎折(DTW)算法(步驟61),計算出原始語句和拉伸(或壓縮)的失真語句 對齊最佳路徑對應的最小代價,並且通過主觀實驗MOS分值預先訓練DTW的最小代價(步 驟63),得到DTW最小代價到主觀分值DTW-ODG的擬合公式。圖9是本發明所述方法中的網絡損傷評估模塊流程圖。根據原始語句信息(未調 整前的)(步驟64),計算原始語句(步驟66)和對應失真語句(步驟6 之間的延時值,其 中包括整體語音延時(步驟67),即端到端延時Id,以及每一個延時值所在的位置,得到一 個多維數據。通過主觀分值訓練,得到延時的大小和不同位置對於語音的損傷。然後通過 擬合模塊,得到VoIP語音質量的客觀評測分值。該方法評測了端到端延時,因此也可以考 慮用於評測對話語音的質量。
權利要求
1.一種針對VoIP語音的客觀評測方法,其特徵在於包括如下步驟第一步在VoIP的發送端獲得原始語音;第二步在接收端獲得引入損傷的失真語音;第三步通過預處理模塊劃分原始語音和失真語音,得到語句信息,並且判斷失真語音 中是否有拉伸或壓縮語句,得到拉伸或壓縮信息;第四步利用編解碼器損傷評估模塊A計算對齊語句的編解碼器損傷,利用編解碼器 損傷評估模塊B計算有拉伸或壓縮的語句的質量損傷,利用延時損傷評估模塊評測端到端 延時和內部的延時對語音的影響;第五步利用擬合模塊最終得到語音質量客觀評測分值。
2.根據權利要求1所述的一種針對VoIP語音的客觀評測方法,其特徵在於所述的發 送端和接收端為固定電話、行動電話或者IP終端計算機。
3.根據權利要求1所述的一種針對VoIP語音的客觀評測方法,其特徵在於所述的預 處理語句間過大的延時的方法是計算原始語音和失真語音一段間隔內的能量值,根據各 自的能量值劃分原始語音和失真語音,得到語句信息;根據原始語音以及失真語音的語句 信息,計算出語句間的延時,根據定義的最大延時閾值以及原始語音語句間的延時值,處理 VoIP失真語音語句間過大的延時,並且將語句信息存儲下來,原始語句信息繼續用於延時 評估模塊的計算。
4.根據權利要求1或3所述的一種針對VoIP語音的客觀評測方法,其特徵在於所述 的語句包含至少300ms的連續活動語音,並且包含的靜音期不超過200ms,語句間的界限處 於語句間隔的靜默期中間。
5.根據權利要求1或2或3所述的一種針對VoIP語音的客觀評測方法,其特徵在於 所述的利用編解碼器損傷評估模塊A計算對齊語句的編解碼器損傷的方法為對原始語音 與失真語音中未有拉伸或壓縮的部分,採用感知語音質量評價PESQ的聽覺變換、擾動處理 以及感知模型來評價其編解碼器的損傷,得到編解碼器損傷評估模塊1的評測分值。
6.根據權利要求1或2或3所述的一種針對VoIP語音的客觀評測方法,其特徵在於 所述的利用編解碼器損傷評估模塊2計算對齊語句的編解碼器損傷的方法為採用基於美 爾倒譜係數MFCC的動態彎折DTW方法計算最佳路徑對應的最小代價來評測未對齊語音的 距離。
7.根據權利要求1所述的一種針對VoIP語音的客觀評測方法,其特徵在於所述的延 時損傷評估模塊評測端到端延時和內部延時對語音的影響的方法為根據存儲的原始語音 和失真語音的語句信息,利用基於FFT的互相關進行包絡對齊,計算出原始語音和失真語 音開頭的延時,以及中間每一段語句的延時值和存在的位置。
8.根據權利要求1或7所述的一種針對VoIP語音的客觀評測方法,其特徵在於所述 的延時損傷評估模塊評測端到端延時和內部延時對語音的影響方法還包括將延時值和存 在的位置保存在一個2維數組中,然後根據大量的主觀分值的訓練,得出各個位置以及延 時值大小對語音損傷的影響的映射關係,由延時損傷評估模塊得到客觀分值。
9.根據權利要求1所述的一種針對VoIP語音的客觀評測方法,其特徵在於所述PESQ 計算採用下述步驟第一步調整原始信號和失真信號到標準聽覺電平;第二步用輸入濾波器模擬標準聽覺電話筒進行濾波; 第三步對通過電平調整和濾波後的兩個信號在時間上對齊; 第四步行聽覺變換,包括對系統中線性濾波和增益變換的補償和均衡; 第五步以聽覺變換後的兩個信號之間的不同作為擾動,分析擾動曲面,提取出兩個失 真參數,在頻率和時間上進行累積,映射到主觀意見分的預測值。
10.根據權利要求9所述的一種針對VoIP語音的客觀評測方法,其特徵在於所述的 時間對齊算法包括如下步驟第一步基於參考信號和失真信號整體包絡的粗略延時估計; 第二步以參考信號的信息來劃分語句; 第三步對每一語句進行基於包絡的粗略延時估計; 第四步對每一語句進行基於幀到幀的加權直方圖精細延遲估計; 第五步重新對齊劃分出來的新語句,直到延時在一個語句內沒有變化; 第六步在感知模型後,根據幹擾度識別和定義出壞區間,再重新返回對齊模塊進行調 整對齊;第七步將所述的編解碼器損傷評估模塊1的客觀分值,編解碼器損傷評估模塊2的客 觀分值以及延時損傷評估模塊得到的客觀分值通過擬合模塊,得到最終的VoIP語音的客 觀評測分值的擬合公式。
全文摘要
本發明為一種針對VoIP語音的客觀評測方法,在VoIP的發送端獲得原始語音;在接收端獲得引入損傷的失真語音;通過預處理模塊劃分原始語音和失真語音,得到語句信息,利用編解碼器損傷評估模塊A計算對齊語句的編解碼器損傷,利用編解碼器損傷評估模塊B計算有拉伸或壓縮的語句的質量損傷,利用延時損傷評估模塊評測端到端延時和內部的延時對語音的影響;利用擬合模塊最終得到語音質量客觀評測分值。該方法經過了網絡編解碼器和自適應抖動緩衝器等的語音質量,比單用PESQ更為精確,並且考慮了延時損傷,也可以對會話質量進行評測。同時,相對於由E模型得到的與主觀分值的相關度,本發明更加適合於客觀評測有網絡損傷的語音。
文檔編號G10L19/12GK102044247SQ20091023564
公開日2011年5月4日 申請日期2009年10月10日 優先權日2009年10月10日
發明者楊越, 謝湘, 魏耀都 申請人:北京理工大學