話音信號處理電路的製作方法
2023-12-12 06:23:32 2
本發明涉及話音信號處理電路,具體來說,涉及能產生表示衰減話音信號的輸出分數的那些話音信號處理電路。
背景技術:
主觀聽音測試可被視為用於評定話音質量的可靠方法。然而,它們可能昂貴且耗時。可替換的是,客觀的自動方法可用於促進話音處理算法、編解碼器、裝置和網絡的質量評定程序。它們從信噪比(snr)或頻譜距離(sd)等極簡單的測度跨越到包括心理聲學處理和認知(統計)模型的複雜方法。
後一類群是被設計成預測主觀聽音測試的分數的測度。這個類群的已知代表是itu-t標準系列,該itu-t標準系列在1997年開始於psqm(感知話音質量測度),並在之後退出,且被pesq(感知話音質量評估)和其寬帶版wb-pesq代替,接著在2011年終結於polqa(感知客觀聽音質量評估)。來自這個系列的測度被廣泛使用,因為它們可以應用在許多不同的使用情況(例如線性和非線性失真的測試因子或丟包、解碼技術、例如編解碼器評估、終端或網絡測試、話音增強算法的評定等應用、裝置等等)中一種類似的不再使用的測度是在1998年研發的tosqa(電信客觀話音質量評定)。其它客觀測度更加專業化,只能用於一種應用,例如回聲抑止(equest)或噪聲減少(3quest)的評估。
所有上述測度都是侵入性測度,也就是說,通過與參考信號進行比較來估計受測試樣本(衰減信號)的質量。
技術實現要素:
根據本發明的第一方面,提供一種被配置成接收時頻域參考話音信號和時頻域衰減話音信號的話音信號處理電路,其中時頻域參考話音信號和時頻域衰減話音信號中的每一個包括多個數據幀,其中:
時頻域參考話音信號處於時頻域中,並且包括:
上頻帶參考分量,該上頻帶參考分量具有大於頻率閾值的頻率;以及
下頻帶參考分量,該下頻帶參考分量具有小於頻率閾值的頻率;
時頻域衰減話音信號處於時頻域中,並且包括:
上頻帶衰減分量,該上頻帶衰減分量具有大於頻率閾值的頻率;以及
下頻帶衰減分量,該下頻帶衰減分量具有小於頻率閾值的頻率;
話音信號處理電路包括:
幹擾計算器,該幹擾計算器被配置成基於時頻域參考話音信號和時頻域衰減話音信號通過以下操作確定一個或多個sbr特徵:
(i)對於多個幀中的每一個:
基於(i)上頻帶參考分量與(ii)下頻帶參考分量的比確定參考比;
基於(i)上頻帶衰減分量與(ii)下頻帶衰減分量的比確定衰減比;以及
基於參考比與衰減比的比確定頻譜平衡比;以及
(ii)基於多個幀的頻譜平衡比確定一個或多個sbr特徵;以及
分數評估塊,該分數評估塊被配置成基於sbr特徵確定衰減話音信號的輸出分數。
在一個或多個實施例中,時頻域衰減話音信號表示擴展帶寬信號。頻率閾值可對應於擴展帶寬信號的下頻帶和擴展帶寬信號的上頻帶之間的界限。
在一個或多個實施例中,擴展帶寬信號的上頻帶對應於已通過人工帶寬擴展算法添加的頻帶。擴展帶寬信號的下頻帶可對應於已通過人工帶寬擴展算法擴展的有限頻帶信號。
在一個或多個實施例中,幹擾計算器被配置成確定以下sbr特徵中的一個或多個:
具有正值頻譜平衡比的幀的頻譜平衡比的平均值;
具有負值頻譜平衡比的幀的頻譜平衡比的平均值;
具有正值頻譜平衡比的幀的頻譜平衡比的方差值;
具有負值頻譜平衡比的幀的頻譜平衡比的方差值;以及
(i)具有正值頻譜平衡比的幀的數目與(ii)具有負值頻譜平衡比的幀的數目的比。
在一個或多個實施例中,話音信號處理電路被配置成接收參考話音信號和衰減話音信號。參考話音信號和衰減話音信號中的每一個可包括多個數據幀。話音信號處理電路可包括:
參考時頻塊,該參考時頻塊被配置成基於參考話音信號確定時頻域參考話音信號;以及
衰減時頻塊,該衰減時頻塊被配置成基於衰減話音信號確定時頻域衰減話音信號。
參考話音信號和衰減話音信號可處於時域中。
在一個或多個實施例中,參考時頻塊包括參考感知處理塊,衰減時頻塊包括衰減感知處理塊。參考感知處理塊和衰減感知處理塊可以被配置成模擬人類聽覺的一個或多個方面。
在一個或多個實施例中,幹擾計算器包括時頻域特徵提取塊,該時頻域特徵提取塊被配置成:
處理時頻域參考話音信號和時頻域衰減話音信號;以及
確定一個或多個額外的時頻域特徵;並且
其中,分數評估塊被配置成基於時頻域特徵確定輸出分數。
在一個或多個實施例中,時頻域特徵提取塊包括歸一化協方差度量塊,該歸一化協方差度量塊被配置成:
處理時頻域參考話音信號和時頻域衰減話音信號,以便計算歸一化協方差度量特徵,其中歸一化協方差度量是基於時頻域參考話音信號和時頻域衰減話音信號之間的協方差;並且
其中,分數評估塊被配置成基於歸一化協方差度量確定輸出分數。
在一個或多個實施例中,時頻域特徵提取塊包括絕對失真塊,該絕對失真塊被配置成:
處理時頻域參考話音信號和時頻域衰減話音信號,以便計算絕對失真,其中絕對失真表示時頻域參考話音信號和時頻域衰減話音信號之間的絕對差;以及
基於絕對失真確定以下絕對失真特徵中的一個或多個:
包括話音的幀的絕對失真的平均值;
包括話音的幀的絕對失真的方差值;
包括話音且絕對失真為正的幀的絕對失真的平均值;
包括話音且絕對失真為正的幀的絕對失真的方差值;
包括話音且絕對失真為負的幀的絕對失真的平均值;
包括話音且絕對失真為負的幀的絕對失真的方差值;
包括話音且絕對失真為正的幀以及上頻帶頻率分量的絕對失真的平均值;
包括話音且絕對失真為正的幀以及上頻帶頻率分量的絕對失真的方差值;
包括話音且絕對失真為負的幀以及上頻帶頻率分量的絕對失真的平均值;
包括話音且絕對失真為負的幀以及上頻帶頻率分量的絕對失真的方差值;並且
其中,分數評估塊被配置成基於絕對失真特徵確定輸出分數。
在一個或多個實施例中,時頻域特徵提取塊包括相對失真塊,該相對失真塊被配置成:
處理時頻域參考話音信號和時頻域衰減話音信號,以便將相對失真計算為信號失真比;以及
基於相對失真確定以下相對失真特徵中的一個或多個:
包括話音的幀的相對失真的平均值;
包括話音的幀的相對失真的方差值;
其中,分數評估塊被配置成基於相對失真特徵中的一個或多個確定輸出分數。
在一個或多個實施例中,時頻域特徵提取塊包括二維相關塊,該二維相關塊被配置成處理時頻域參考話音信號和時頻域衰減話音信號,以便計算二維相關值;並且
其中,分數評估塊被配置成基於二維相關值確定輸出分數。
在一個或多個實施例中,話音信號處理電路被配置成接收參考話音信號和衰減話音信號,其中時頻域參考話音信號是參考話音信號的時頻域表示,時頻域衰減話音信號是衰減話音信號的時頻域表示。幹擾計算器可包括基於樣本的時域特徵提取塊,該基於樣本的時域特徵提取塊被配置成:
接收參考話音信號和衰減話音信號的時域表示;以及
基於參考話音信號和衰減話音信號的時域表示確定一個或多個基於樣本的特徵;並且
其中,分數評估塊被配置成基於所述基於樣本的特徵確定輸出分數。
在一個或多個實施例中,基於樣本的時域特徵提取塊包括gsdsr塊,該gsdsr塊被配置成對參考話音信號和衰減話音信號的時域表示執行基於樣本的處理,以便確定全局信號與衰減話音比,其中全局信號與衰減話音比指示對源於參考話音信號和衰減話音信號的全部樣本的能量的比較;並且
其中,分數評估塊被配置成基於全局信號與衰減話音比確定輸出分數。
在一個或多個實施例中,話音信號處理電路被配置成接收參考話音信號和衰減話音信號,其中時頻域參考話音信號是參考話音信號的時頻域表示,時頻域衰減話音信號是衰減話音信號的時頻域表示。幹擾計算器可包括基於幀的時域特徵提取塊,該基於幀的時域特徵提取塊被配置成:
接收參考話音信號和衰減話音信號的幀式時域表示;以及
基於參考話音信號和衰減話音信號的幀式時域表示確定一個或多個基於幀的特徵;並且
其中,分數評估塊被配置成基於所述基於幀的特徵確定輸出分數。
在一個或多個實施例中,幹擾計算器包括ssdr塊,該ssdr塊被配置成:
處理參考話音信號和衰減話音信號的幀式時域表示,以便確定話音與話音失真比;以及
基於話音與話音失真比,確定以下ssdr特徵中的一個或多個:
包括話音的幀的話音與話音失真比的平均值,
不包括話音的幀的話音與話音失真比的平均值,
包括話音的幀的話音與話音失真比的方差值,
不包括話音的幀的話音與話音失真比的方差值;並且
其中,分數評估塊被配置成基於ssdr特徵中的一個或多個確定輸出分數。
在一個或多個實施例中,幹擾計算器包括lsd塊,該lsd塊被配置成:
處理參考話音信號和衰減話音信號的時頻域表示,以便確定對數頻譜失真;以及
基於對數頻譜失真確定以下lsd特徵中的一個或多個:
包括話音的幀的對數頻譜失真的平均值;
包括話音的幀的對數頻譜失真的方差值;並且
其中,分數評估塊被配置成基於lsd特徵中的一個或多個確定輸出分數。
在一個或多個實施例中,話音信號處理電路另外包括輸入層,該輸入層被配置成接收輸入參考話音信號和輸入衰減話音信號。輸入層可包括:
電平調整塊,該電平調整塊被配置成通過在小於頻率閾值的頻率下基於輸入參考話音信號和輸入衰減話音信號的電平執行輸入參考話音信號和輸入衰減話音信號的電平調整而提供參考話音信號和衰減話音信號。
在一個或多個實施例中,話音信號處理電路另外被配置成接收語音指示信號,其中語音指示信號指示參考話音信號和衰減話音信號的幀是否含有話音。幹擾計算器可以被配置成基於語音指示信號確定以下特徵中的一個或多個:
僅僅語音指示信號指示存在話音的參考話音信號和衰減話音信號的幀或
僅僅語音指示信號指示不存在話音的參考話音信號和衰減話音信號的幀。
可提供一種處理衰減話音信號的方法,該方法包括:
接收包括多個數據幀的時頻域參考話音信號,其中時頻域參考話音信號處於時頻域中,並且包括:
上頻帶參考分量,該上頻帶參考分量具有大於頻率閾值的頻率;以及
下頻帶參考分量,該下頻帶參考分量具有小於頻率閾值的頻率;
接收包括多個數據幀的時頻域衰減話音信號,其中時頻域衰減話音信號處於時頻域中,並且包括:
上頻帶衰減分量,該上頻帶衰減分量具有大於頻率閾值的頻率;以及
下頻帶衰減分量,該下頻帶衰減分量具有小於頻率閾值的頻率;
基於時頻域參考話音信號和時頻域衰減話音信號通過對多個幀的以下操作確定一個或多個sbr特徵:
基於(i)上頻帶參考分量與(ii)下頻帶參考分量的比確定參考比;
基於(i)上頻帶衰減分量與(ii)下頻帶衰減分量的比確定衰減比;以及
基於參考比與衰減比的比確定頻譜平衡比;以及
基於多個幀的頻譜平衡比確定一個或多個sbr特徵;以及
基於sbr特徵確定衰減話音信號的輸出分數。
可提供包括本文所公開的任何電路或系統或被配置成執行本文所公開的任何方法的集成電路或裝置。
還可提供電腦程式,所述電腦程式當在計算機上運行時使得計算機配置任何設備(包括本文所公開的電路、系統或裝置)或執行本文所公開的任何方法。
雖然本發明容許各種修改和替代形式,但其細節已經藉助於例子在圖式中示出且將詳細地描述。然而,應理解,超出所描述的特定實施例的其它實施例也是可能的。也涵蓋落入所附權利要求書的精神和範疇內的所有修改、等效物和替代實施例。
以上論述並不意圖表示當前或將來權利要求集的範疇內的每一示例實施例或每一實施方案。圖式和以下詳細描述還例示各種示例實施例。考慮以下結合附圖的詳細描述可以更全面地理解各種示例實施例。
附圖說明
現將僅藉助於例子參考附圖描述一個或多個實施例,在附圖中:
圖1示出了可用於使用侵入性儀器測度來確定受測試信號的質量的系統的通用框圖;
圖2示出了可用於確定經abe處理的衰減信號的質量的系統的框圖;
圖3示出了包括圖2的系統中的一些塊而不是全部塊的話音信號處理電路;
圖4示出了可用於從衰減信號提取特徵的系統的框圖,所述衰減信號包括經abe處理的衰減信號;以及
圖5示出了可如何提取/確定特定特徵的更詳細的圖示。
具體實施方式
圖1示出了可用於以侵入性方式確定受測試信號的質量的系統的通用框圖。
圖1示出了接收輸入參考話音信號104和輸入衰減話音信號106的輸入層102。輸入層102可由若干預處理塊構成,(例如)從而執行輸入參考話音信號104和輸入衰減話音信號106之間的時間對準、語音活動檢測、電平調整等。將在下文中提供另外細節。輸入層102向幹擾計算器112提供經處理形式的參考信號和衰減信號。
幹擾計算器112可計算一個或多個質量指示符,其還可被稱作特徵或幹擾(因為它們是參考信號104和衰減信號106之間的差異的指示符)。在幹擾計算器112計算質量指示符之前,它可計算這兩個輸入信號的新表示。例子可為通過幹擾計算器112接收的信號的時頻域表示。此類時頻域表示可由感知模型提供,並用於模擬經選擇的人類聽覺的各方面(例如,以應用時間或頻率掩模、聽覺閾值、聽覺過濾)。幹擾計算器112的輸出端連接到認知(統計)模型114,該認知(統計)模型114提供mos-lqo(平均意見分-客觀旁聽質量)輸出信號/輸出分數116。
認知(統計)模型114還可被稱作質量分數預測器,其可實施為(多變量)線性或二次回歸(如在pesq、polqa、3quest)中、人工神經網絡(如在equest、3quest中),或任何其它經訓練的統計模型。
對圖1的此通用模型的某些修改是可能的,以便更加強調不同的質量因子。例如,對於人工帶寬擴展(abe)解決方案,摩擦音的重新建構可能更為重要。一般來說,摩擦音的大部分頻譜含量高於4khz,並且因此在窄帶(nb)話音中不能很好地表示。將在下文更詳細地論述abe。
摩擦音,特別是/s/和/z/音的正確的重新建構可對感知話音質量產生較大的影響。一般來說,話音質量的感知取決於在話音信號中出現的某一音度。為了利用此質量因子,基於參考的話音質量測量系統不僅可以使用衰減和參考話音信號作為輸入,而且還可以使用話音信號的音標轉錄,以應用對圖1中示出的方案的任何部分的修改。取決於轉錄,感知模型或幹擾計算器112對幹擾的計算內的某一權重可被調整成減少經選擇音(例如,先前提及的摩擦音/s/或/z/)的影響。
一個不同的例子是「旁聽質量的診斷儀器評定」(dial),其已作為polqa計劃的部分發展。dial遵循若干專用測度的組合比一個單一的複雜測度更有效的假設,並且因此組合核心測度(其實施圖1的通用模型)與四個指定的質量維度(直度/頻率含量、連續性、噪度和響度)。
不存在被專門設計成用於經abe處理的話音信號的標準化客觀測度。wb-pesq和polqa可被視為通用測度,它們測試用於經abe處理的信號的「平均意見分-主觀旁聽質量」(mos-lqs)的預測的精確度。然而,結果顯示它們都沒有顯現出足夠高的與旁聽測試分數的相關性,因此無法被視為可靠的abe解決方案的質量估計器。
並且,使用需要額外輸入時間對準的音標轉錄的方法可能較為冗長,並且可能承受語言依賴解決方案的風險。而話音質量的儀器測度應該旨在在世界的幾乎全部語言中預測可靠的mos分數。
在下文中公開的另一個例子可能與已經利用abe(人工帶寬擴展)算法處理的話音信號特別相關。通過估計和產生超出那些限度的含量,abe算法可擴展具有有限頻帶的輸入信號的頻率範圍。例如,在寬帶(wb)abe算法的情況下,輸入窄帶(nb)信號具有0hz<=f<=4khz的頻率範圍,這提供了下頻帶含量。通過產生上頻帶含量,abe算法可將那一範圍擴展到高達8khz(高於閾值頻率,該閾值頻率在此情況下等於4khz)。在此例子中,下頻帶具有在0和4khz之間的頻率含量,上頻帶具有在4khz和8khz之間的頻率含量。
圖2示出了可用於確定經abe處理的衰減信號的質量的系統的框圖。
也被稱作受測試信號或輸入衰減話音信號206的經abe處理的話音信號表示為其中
是樣本索引,ns是信號中的樣本總數。此例子是基於用於確定輸入衰減話音信號206的質量的侵入性方案,因此輸入參考話音信號s′(n)204用於執行206的質量評定。輸入參考話音信號204具有下頻帶頻率含量和上頻帶頻率含量兩者,且不受由傳輸、解碼或其它處理產生的幹擾的影響。有效聲學帶寬的限制可為一個例外。例如,對於wb信號,最大(理論)帶寬是0hz<=f<=8000hz。然而,實際上,可應用掩模以減小此帶寬。
在一個實施方案中,wb話音的有效帶寬被限定為50hz<=f<=7000hz,但是應了解,該帶寬可以是理論範圍內的任何其它值。在此實施方案中,206和s′(n)204兩者至少在fs=16khz下取樣以滿足尼奎斯特準則(nyquistcriterion)。
圖2的系統包括輸入層202,該輸入層202可執行時延補償、語音活動檢測和電平調整。
因為此例子基於侵入性方案,所以為了精確比較兩個輸入信號,符合要求的時間對準可極為重要。由於話音解碼、傳輸或話音增強算法(例如,abe),時延可引入到輸入衰減話音信號206。因此,應該計算並補償輸入信號204、206兩者之間的時延。
如圖2所示,時延估計塊218可用於估計輸入參考話音信號204和輸入衰減話音信號206之間的時延,並且一個或兩個時延補償塊220、222可用於將時延補償應用到輸入參考話音信號204和/或輸入衰減話音信號206。通過計算輸入參考話音信號204和輸入衰減話音信號206之間的交叉相關性,並接著將輸入衰減話音信號206移位到交叉相關函數的最大值處,可實現時間對準,且反之亦然。因此,輸入信號204、206兩者都可切至較短輸入信號的長度。可使用輸入衰減話音信號206或輸入參考話音信號204的補零,以使得輸入信號204、206兩者中具有相同數量的樣本。應了解,也可使用其它方法進行輸入信號204、206的時間對準。可使用更加細化的方法對從整個輸入信號204、206中提取的話音的較短片段執行時間對準。
在圖2的實施方案中,語音活動檢測器(vad)224對參考輸入s′(n)執行語音活動檢測,其產生語音指示信號vad(t)。在此例子中,語音指示信號vad(t)包括逐幀vad值,其中t為幀索引。語音指示信號vad(t)提供關於信號的有聲部分(vad(t)=1)和靜音部分(vad(t)=0)的信息,這取決於它們由幀索引t限定的時間位置。因此,數據幀可在時域中間隔開。
應了解,vad224可處理輸入參考話音信號204、輸入衰減話音信號206,或這兩者(接著將結果組合到指示話音是否存在的單個判定中)。在一些例子中,對於vad224可為有利的是,處理輸入參考話音信號204(或基於輸入參考話音信號204的信號),因為此信號基本上不含失真。
在其中vad224計算逐幀vad值的例子中,可使用能量的簡單閾值處理。還可以應用更複雜的解決方案,例如使用自適應閾值。
在此例子中,輸入層還包括兩個電平調整塊226、228,其用於調整由時延補償塊220、222提供的相應的信號的功率電平。電平調整塊226、228可相對於作用話音電平歸一化它們的輸入信號。電平調整塊226、228可使用來自vad224的語音指示信號vad(t)確定有效話音電平。
在一些例子中,輸入參考話音信號204和輸入衰減話音信號206之間的電平差可被視作質量因子,並且因此可充當額外特徵。然而,如果不是這樣的情況,那麼輸入信號(參考204和衰減206)可向同一全局電平按比例縮放,或輸入衰減話音信號206可向輸入參考話音信號204的電平按比例縮放。對於abe算法,上頻帶中的電平差可特別重要,因此電平調整塊226、228可僅在下頻帶(lb)頻率範圍(在小於頻率閾值的頻率下)中基於輸入參考話音信號204和輸入衰減話音信號206的電平來執行電平調整。也就是說,兩個輸入信號204、206的上頻帶分量可不用於調整輸入參考話音信號204或衰減信號的電平。
電平調整塊226、228可測量信號的輸入電平,並藉助於在全部有效話音幀中的均方根值應用任何比例因子。這可通過採用itu-t規範p.56或採用以分批模式或以逐樣本或逐幀方式操作的任何類似的電平測量方法來實現。
兩個電平調整塊226、228分別提供參考話音信號s(n)230和衰減話音信號232,以用於隨後的特徵提取。
應了解,輸入層202可包括其它預處理塊,(例如)以對接近共同採樣頻率的輸入信號進行再取樣,或(修改後的)中間參考系統((m)irs)濾波器或其它濾波器。
在衰減話音信號232和參考話音信號s(n)230在時間上已經對準,並且它們的電平已通過輸入層202調整之後,描述參考和衰減話音信號之間的差異的特徵可通過幹擾計算器212進行計算。如在下文中參看圖4和5將詳細地論述,特徵可從輸入信號的不同表示推導出:時域表示(特徵的逐樣本和逐幀計算);以及時頻域表示(例如,短時傅立葉變換(stft),或離散餘弦變換(dct),或從時域到視頻域的任何其它信號的變換),其中應用任選的額外處理(例如,濾波器組或頻譜稱重),或聽覺模型(感知模型)表示。由於聽覺模型可執行時頻分析,所以從此模型推導出的全部特徵還可以從不同的時頻表示計算出,例如stft,但在那種情況下,它們將不對感知模型中包括的心理聲學效應做出解釋。
幹擾計算器212可提取/確定衰減話音信號232的特徵,以用於確定例如mos-lqo216的輸出分數。具體來說,在一些例子中,可基於衰減話音信號232和參考話音信號s(n)230兩者中的多個幀的頻譜平衡比確定一個或多個sbr特徵。使用此類sbr特徵可對檢測abe信號中的誤差特別有利。幹擾計算器212可輸出特徵向量x′,該特徵向量x′包括在本文件中所描述的輸入衰減話音信號206的特徵中的一個或多個,包括所確定的任何sbr特徵。
圖2的系統還包括認知模型214,其也被稱作分數評估塊,在此例子中,該認知模型214包括特徵歸一化塊234、mos預測器塊236和分數去歸一化塊238。這些塊中的每一個可使用經預訓練參數,該參數可從存儲器240存取。
取決於認知模型214的訓練策略,歸一化塊234執行特徵向量x′的歸一化可為有益的。如果是這樣,那麼在訓練期間,計算用於特徵向量x′的每一維度的比例因子和偏移量,並且該比例因子和偏移量在此處用於歸一化經提取特徵向量x′,這產生了歸一化的特徵向量x。在沒有進行歸一化的情況下,x=x′成立。當將線性回歸用作認知模型214時,可隱含地實現比例因子和偏移量到特徵維度的應用。
經提取特徵表示觀察到的輸入衰減話音信號206中的失真,因此其是到所預測的mos-lqo值216的鏈路。在此例子中,mos預測器236已事先訓練過,並且因此使用存儲在存儲器240中的經預訓練參數。為了改進帶寬擴展(be)信號的性能,模型的訓練集合可主要由利用abe算法進行處理的話音樣本構成。
如果mos預測器236對歸一化mos-lqs值進行了訓練,那麼它首先估計mos-lqo值,該mos-lqo值也處於歸一化範圍中。因此,歸一化值可通過分數去歸一化塊238進行去歸一化,以使得它們使用預先計算的比例因子和偏移量而向典型mos範圍移位,從而可將mos-lqo216作為輸出提供。
圖3示出了包括圖2的系統中的一些塊而不是全部塊的話音信號處理電路300。圖3將用於論述確定sbr特徵以確定輸出分數316的幹擾計算器的特定例子。
話音信號處理電路300(例如)從輸入層(例如,圖2中所示出的輸入層)接收參考話音信號330和衰減話音信號332。參考話音信號和衰減話音信號中的每一個包括多個數據幀,並且在此例子中,它們處於時域中。
話音信號處理電路300包括參考時頻塊342和衰減時頻塊344。參考時頻塊342基於參考話音信號330,確定時頻域參考話音信號。時頻域參考話音信號處於時頻域中,並且包括:(i)上頻帶參考分量,其對應於具有大於頻率閾值的頻率的時頻域參考話音信號的分量;以及(ii)下頻帶參考分量,其對應於具有小於頻率閾值的頻率的時頻域參考話音信號的分量。頻率閾值可對應於已通過abe算法擴展的窄帶信號的上限,在此情況下,下頻帶對應於abe算法的輸入信號,上頻帶對應於已經通過abe算法添加的擴展頻率分量。對於上文所述的數值例子,頻率閾值將為4khz。
通過類似方式,衰減時頻塊344基於衰減話音信號332,確定時頻域衰減話音信號。時頻域衰減話音信號處於時頻域中,並且包括:(i)上頻帶衰減分量,其對應於具有大於頻率閾值的頻率的時頻域衰減話音信號的分量;以及(ii)下頻帶衰減分量,其對應於具有小於頻率閾值的頻率的時頻域衰減話音信號的分量。
在一些例子中,參考時頻塊342和衰減時頻塊344的功能性可由模擬人類聽覺的一個或多個方面的感知模型塊提供。
幹擾計算器312可基於多個幀的時頻域參考話音信號和時頻域衰減話音信號,確定頻譜平衡比(sbr)。頻譜平衡比通過以下操作進行計算:
基於(i)上頻帶參考分量與(ii)下頻帶參考分量的比,確定參考比;
基於(i)上頻帶衰減分量與(ii)下頻帶衰減分量的比,確定衰減比;以及
基於參考比與衰減比的比,確定頻譜平衡比。
以此方式,頻譜平衡比(sbr)可表示這兩個輸入信號的兩個頻帶的關係。除了對遺漏上頻帶的譜形的正確估計之外,在遺漏頻帶中具有正確能量還可在主觀質量感知中發揮重要作用。此外,下頻率分量和上頻率分量之間的頻譜平衡應通過abe算法適當恢復。因此,由sbr限定的能量比被設計成不僅比較經人工擴展的頻率分量(上頻帶)的能量,而且還比較衰減信號與參考信號的所得頻譜平衡。
在數學上,sbr可表示為:
其中:
|h(l,b)|2是時頻域中的時頻域參考話音信號的絕對平方值,
是時頻域中的時頻域衰減話音信號的絕對平方值,
l表示幀索引,並且因此充當時頻域信號的時間索引,
b表示頻段索引或頻帶索引,並且因此標引時頻域信號的頻域部分,
bub表示指定上頻帶的頻率索引b的集合,
blb表示指定下頻帶的頻率索引b的集合,以及
μ(x(l,b);b)表示時頻信號x的(經加權)均值,其中該均值通過具有在b中的索引b的頻率計算得到。
此等式表示在上頻帶分量和下頻帶分量中的每一個中的能級比。
sbr的正值指示衰減信號的上頻帶中的能量過低,sbr的負值指示衰減信號的上頻帶中的能量過高。在數學上:
lsbr+表示幀集合,其中找到正(+)不平衡,也就是說,經abe處理的信號(衰減信號)的上頻帶在上頻帶中不具有能量,和/或在下頻帶中含有過多的能量。因此,衰減信號的頻譜輪廓的特徵為比來自參考信號的斜率更高的斜率。lsbr-表示相反意義。
隨後,幹擾計算器312可基於多個幀的頻譜平衡比,確定一個或多個sbr特徵。sbr特徵的例子包括:
a)具有sbr的正值的各個幀的sbr的平均值,
b)具有sbr的負值的各個幀的sbr的平均值,
c)具有sbr的正值的各個幀的sbr的方差值,
d)具有sbr的負值的各個幀的sbr的方差值,
e)(i)具有sbr的正值的幀數目與(ii)具有sbr的負值的幀數目的比,
上述數學符號將另外參看可由幹擾計算器312執行以確定其它特徵的其它計算進行描述。
話音信號處理電路300還包括分數評估塊314,其用於基於sbr特徵,確定衰減話音信號332的輸出分數316。分數評估塊314可應用認知模型。分數評估塊314可(例如)應用線性預測或回歸、使用神經網絡,或執行可將接收到的sbr特徵映射到輸出分數316的值的任何其它功能性。
圖4示出了可用於從衰減信號提取特徵的系統的框圖,該衰減信號包括經abe處理的衰減信號。
系統包括幹擾計算器412,其具有三個特徵提取塊:基於樣本的時域特徵提取塊454、基於幀的時域特徵提取塊456和時頻域特徵提取塊458。幹擾計算器412還包括多路復用器460,其可將由各個塊產生的單個特徵組合成特徵向量x′。
通過幹擾計算器412確定的特徵中的每一個可使用完整輸入信號、可僅使用已檢測到語音活動的輸入信號的片段/幀,或可僅使用具有話音停頓的片段/幀(基於vad判定)進行計算。
系統接收參考話音信號430和衰減話音信號432。這些輸入信號被提供到基於樣本的時域特徵提取塊454。基於樣本的特徵提取塊454可處理接收到的時域信號,並產生將納入特徵向量x′中的一個或多個基於樣本的特徵。可通過基於樣本的特徵提取塊454確定的特徵的例子將參看圖5進行更詳細的論述。
圖4的系統還包括參考成幀塊446和衰減成幀塊448。參考成幀塊446處理參考話音信號430,並產生仍處於時域中的幀式參考信號。幀式參考信號中的數據被拆分成具有幀索引t的多個幀。類似地,衰減成幀塊448處理衰減話音信號432,並產生幀式衰減信號。可針對特定應用來設置成幀的時間解析度。在一個例子中,幀長度是16ms,並且不使用重疊。
基於幀的時域特徵提取塊456可處理幀式參考信號和幀式衰減信號,並產生將納入特徵向量x′中的一個或多個基於幀的特徵。可通過基於幀的特徵提取塊456確定的特徵的例子將參看圖5進行更詳細的論述。
圖4的系統還包括參考dft塊450和衰減dft塊452。參考dft塊450對幀式參考信號執行數字傅立葉變換,以便為時頻域特徵提取塊458提供時頻域參考話音信號。在一些例子中,可對參考dft塊450的輸出信號執行任選的額外處理442b,以便向時頻域特徵提取塊458提供合適的時頻域信號。例如,額外處理442b可包括頻帶加權以強調一些頻帶的重要性、去除低於聽覺閾值的分量,以及其它感知處理(或組合)。類似地,衰減dft塊452對衰減參考信號執行數字傅立葉變換,以便為時頻域特徵提取塊458提供時頻域衰減話音信號。同樣,可對衰減dft塊452的輸出信號執行任選的額外處理444b。
參考dft塊450和任選的額外處理塊442b可被視為參考時頻塊的例子,因為它/它們為幹擾計算器412提供時頻域參考話音信號。類似地,衰減dft塊452和任選的額外處理塊444b可被視為衰減時頻塊的例子,因為它/它們為幹擾計算器412提供時頻域衰減話音信號。
在圖4中,系統還包括參考感知處理塊442a和衰減感知處理塊444a。如上文所論述,這些塊可用於模擬人類聽覺的各方面,並且可提供時頻域中的信號。因此,這些塊也可被視為參考時頻塊/衰減時頻塊的例子。
時頻域特徵提取塊458可處理時頻域參考話音信號和時頻域衰減話音信號,並產生將納入特徵向量x′中的一個或多個時頻域特徵。時頻域特徵的例子包括sbr特徵。將參看圖5對可通過時頻域特徵提取塊458確定的其它特徵進行更詳細的論述。
圖5示出了可如何通過幹擾計算器提取/確定特定特徵的更詳細的圖示。在圖4中也示出的圖5的組件已經以500系列形式給出對應的附圖標號,並且此處將不必再次進行描述。
在此例子中,幹擾計算器512還從vad(例如,圖2中所示出的vad)中接收語音指示信號vad(t)525。幹擾計算器512內的處理塊中的一個或多個可使用語音指示信號vad(t)525來區別包括話音的幀(有效語音幀)和不包括話音的那些幀。
在以下描述中,參數用於表示可計算其平均值和方差值的幀集合,表示在集合中含有的元素數目。
為了表達整個信號的測得的失真,需要可為特徵向量x′的部分的單個特徵。因此,針對給出的逐幀失真測度d(t),均值μ和方差σ2可計算如下:
通常,但不是排他性地,使用以下集合:
來限定存在話音的幀和話音停頓。
在上述等式中,參數t用於表示幀索引。然而,由於不同的特徵提取塊可使用不同的成幀參數,所以l在文中也可用於表示幀索引。在此類情況下,以類似方式限定
幹擾計算器512的各個處理塊處理通過感知處理塊542、544輸出的時頻域信號,該感知處理塊542、544可限定聽覺模型。已知若干心理聲學模型並用於話音信號處理。在一個實施方案中,感知處理塊542、544使用由羅蘭索泰克(rolandsottek)研發的聽覺模型(「用於在人耳中進行信號處理的模型(modellezursignalverarbeitungimmenschlichen)」,論文,亞琛工業大學,德國,1993年)。利用聽覺模型處理輸入信號分別產生用於參考和衰減輸入的h(l,b)和其中b是濾波器組頻帶索引。還可被稱為時頻域衰減話音信號。h(l,b)還可被稱為時頻域參考話音信號。
對濾波器組頻帶(如在這個實施例中所使用的)和它們相應的下截止頻率fl、中心頻率fc與上截止頻率fu,以及所得頻率帶寬fδ的限定在下方表格中示出,該表格示出了巴克濾波器組限定。
另外,頻帶被拆分成下範圍和上範圍。此分離可取決於所應用的聽覺模型而產生變化。在這個實施例中,分離是在4khz處,因此下頻帶(lb)和上頻帶(ub)被限定為:
其中頻帶數目是:
用於聽覺模型的成幀參數可不同於由成幀塊546、548使用的成幀參數(例如,當計算ssdr和lsd時,如下文所論述),並且因此針對基於在感知上經處理的信號的特徵,使用幀索引l。語音指示信號vad(t)525可因此經由內插轉換成vad(1),例如,通過圖5中展示的時間轉換塊572。在此實施例中,用於感知處理的幀長度被設置成3.3ms。
為了從給定失真的時頻表示d(l,b)中獲得單個特徵,其中l是幀索引,b是頻帶標識符,均值和方差可計算如下:
其中補償信號長度和頻率頻帶集合
為了執行頻率集成,給定失真的時頻表示d(l,b)還可僅僅通過頻率頻帶集合進行集成,以產生d(l)。
再次,所有上述等式可使用用於幀索引的不同參數(例如,是t而不是l,是而不是)或用於頻段索引的不同參數(是k而不是b,是k而不是)以類似方式書寫。
幹擾計算器512包括八個特徵提取塊554、556a、556b、562、564、566、568、570,其中的每一個特徵提取塊可產生將納入特徵向量x′中的特徵或特徵集合。現將轉而描述由這些特徵提取塊中的每一個執行的處理。
全局信號與衰減話音比(gsdsr)
gsdsr塊554可對參考話音信號430和衰減話音信號432執行基於樣本的處理,以便確定全局信號與衰減話音比(gsdsr)。gsdsr是基於樣本的特徵的例子,並且指示來自話音信號的全部樣本的能量的比較:
話音與話音失真比(ssdr)
ssdr塊556a可對幀式參考話音信號430和衰減話音信號432執行基於幀的處理,以便確定話音與話音失真比(ssdr)。ssdr可用於確定基於幀的特徵。
根據輸入信號s(n)430和432,將ssdr計算為:
其中是屬於幀t的樣本集合。之後,使用以下等式將ssdr′(t)限制在[0db;30db]的範圍內
ssdr(t)=min{ssdr′(t),30db}
下列ssdr特徵是基於幀的特徵的例子,它們可隨後提取為:
a)包括話音的各個幀(有效語音幀)的ssdr的平均值,
b)不包括話音的各個幀(話音停頓)的ssdr的平均值,
c)包括話音的各個幀的ssdr的方差值,
d)不包括話音的各個幀的ssdr的方差值,
在特別有利的實施例中,對有效語音幀執行計算以檢測參考和衰減話音信號之間能量和相位的頻率不依賴性不匹配。此外,可對話音停頓計算均值和方差,以檢測abe解決方案是否錯誤地在上頻帶中添加了含量,以及錯誤添加的程度。
對數頻譜失真(lsd)
lsd塊556b可對幀式參考信號和幀式衰減信號的時頻域表示執行處理,以便確定對數頻譜失真(lsd)。這些時頻域表示由參考dft塊550和衰減dft塊452提供。lsd可用於確定時頻域特徵。
lsd是衰減話音信號的短期波譜和參考話音信號的短期波譜s(t,k)之間的頻譜距離的測度,其中k是頻段索引。在一個實施方案中,這些波譜通過應用k=512點離散傅立葉變換(dft)的dft塊計算,其中幀長度為32ms,且具有50%重疊。
此外,計算被限制在頻率範圍50hz<=f<=7000hz內,因此
且
下列lsd特徵是時頻域特徵的例子,它們可隨後提取為:
a)包括話音的各個幀(有效語音幀)的lsd的平均值,
b)包括話音的各個幀的lsd的方差值,
在此例子中,一般來說,僅僅對存在話音的幀計算均值和方差,以測量對波譜的估計的精確度。
絕對失真(δhabs)
絕對失真(δhabs)塊562可對如由感知處理塊542、544提供的時頻域參考話音信號(h(l,b))和時頻域衰減信號執行處理,以便計算絕對失真(δhabs)。絕對失真(δhabs)可用於確定時頻域特徵。
δhabs是在應用聽覺模型之後參考和衰減信號的表示之間的差:
基於經時頻(此處:聽覺模型)處理的表示h和δhabs表示參考和衰減信號之間的絕對差。
對於單個時頻域特徵的計算,我們限定:
如果在全部頻率(此處,巴克頻帶)中的δhabs的均值大於0,那麼衰減話音信號中的頻率分量的能量高於參考話音信號中的頻率分量的能量。換句話說:abe處理將不應該在信號那裡的部分(錯誤地)添加(+)到信號。這種情況下的全部幀表示為l+。幀集合l-表示相反意義:經abe處理的話音信號在應該已經具有頻率分量的位置不具有(-)該頻率分量。
並且,可對信號的上頻帶執行類似處理。在此例子中,上頻帶和下頻帶之間的界限是4khz。以此方式,特徵可集中在上頻帶中的經abe合成的分量。
abe解決方案可旨在儘可能精確地恢復遺漏頻率分量。因此,從δhabs計算所得的特徵可特別集中在所添加和所省略的分量,因為相比於只是總體失真,abe誤差是更加精確的測度。
下列絕對失真特徵是時頻域特徵的例子,它們可隨後提取為:
a)包括話音的各個幀(有效語音幀)的δhabs的平均值,
b)包括話音的各個幀(有效語音幀)的δhabs的方差值,
c)包括話音且其δhabs為正(添加分量)的各個幀(有效語音幀)的δhabs的平均值,
d)包括話音且其δhabs為正(添加分量)的各個幀(有效語音幀)的δhabs的方差值
e)包括話音且其δhabs為負(省略分量)的各個幀(有效語音幀)的δhabs的平均值,
f)包括話音且其δhabs為負(省略分量)的各個幀(有效語音幀)的δhabs的方差值,
g)包括話音且其δhabs為正(添加分量)的各個幀(有效語音幀)和高頻帶頻率分量(通過僅僅考慮b,b表示高於頻率閾值(4khz)的頻率分量)的δhabs的平均值,
h)包括話音且其δhabs為正(添加分量)的各個幀(有效語音幀)和高頻帶頻率分量(通過僅僅考慮b,b表示高於頻率閾值(4khz)的頻率分量)的δhabs的方差值,
i)包括話音且其δhabs為負(省略分量)的各個幀(有效語音幀)和高頻帶頻率分量(通過僅僅考慮b,b表示高於頻率閾值(4khz)的頻率分量)的δhabs的平均值,
j)包括話音且其δhabs為負(省略分量)的各個幀(有效語音幀)和高頻帶頻率分量(通過僅僅考慮b,b表示高於頻率閾值(4khz)的頻率分量)的δhabs的方差值,
相對失真(δhrel)
相對失真(δhrel)塊564可對如由感知處理塊542、544提供的時頻域參考話音信號(h(l,b))和時頻域衰減話音信號執行處理,以便計算相對失真(δhrel)。相對失真(δhrel)可用於確定時頻域特徵。
δhrel是在應用聽覺模型之後計算所得的頻譜域snr
在時頻域中進行計算(此處:在應用聽覺模型之後)的情況下,相對失真可被解釋為信號失真比(類似於眾所周知的信噪比)。分母表示失真:較小的失真產生較高的δhrel,且反之亦然。相對於h計算幹擾:h越高,此測度所耐受的失真越多。
下列δhrel特徵是時頻域特徵的例子,它們可隨後提取為:
a)包括話音的各個幀的δhrel的平均值,
b)包括話音的各個幀的δhrel的方差值,
在一些例子中,在計算均值和方差之前,δhrel可被限制成最大值,例如45db。
二維相關性(snr2d)
二維相關塊570可對時頻域參考話音信號(h(l,b))和時頻域衰減話音信號執行處理,以便計算二維相關值。二維相關性是時頻域特徵的例子。
使用h(l,b)和計算二維皮爾遜相關性,從而產生單個相關值:
其中
二維相關性可設置時間和頻譜進程中的焦點,但是頻率分量的精確等同性隨著時間推移而變得較不重要。
基於snr的二維相關性特徵還可根據下列等式計算:
歸一化協方差度量(ncm)
歸一化協方差度量(ncm)塊568可對時頻域參考話音信號(h(l,b))和時頻域衰減話音信號執行處理,以便計算歸一化協方差度量(ncm)。歸一化協方差度量(ncm)是時頻域特徵的例子。
歸一化協方差度量(ncm)是基於參考信號和衰減信號的時頻域表示之間的協方差。在此情況下,時頻表示通過將聽覺模型應用到這兩種輸入信號而獲得。然而,還可使用具有恰當的濾波器組(例如,基於巴克比例(thebarkscale))的stft表示(或任何其它時頻域表示),並應用適當的加權。ncm測度在時間包絡上進行計算。這些可根據濾波器組輸出,在時頻域或時域中進行計算。在此實施方案中,時頻域參考話音信號(h(l,b))和時頻域衰減話音信號在聽覺模型處理期間已經進行過時間包絡計算。在不包括時間包絡計算或簡單的時域到時頻域變換的不同的聽覺模型用於獲得時頻域參考話音信號(h(l,b))和時頻域衰減話音信號的情況下,時間包絡可使用希爾伯特變換(hilberttransform)進行計算:
然而,在此實施方案中,
成立。然後,針對每一頻帶b,計算衰減信號和參考信號所獲得的變換之間的相關性:
其中
且
這些相關值可隨後轉換成snr類ncm特徵,並使用以下等式被閾值化到[-15db;15db]的取值範圍:
snrρ(b)=min(max(snr′ρ(b),-15db),15db)
接著,所得snrρ(b)移位15db,以使得它始終是非負的,並且按比例縮放30db。加權和根據以下等式產生最終ncm:
在此實施例中,針對全部b將權值w(b)設置為1。然而,它們可(例如)與頻率帶寬fδ(b)相關。
一般來說,有限頻帶話音信號(其是到abe解決方案的輸入)並不含有足夠的與遺漏上頻帶之間的交互信息,例如,4khz<f<8khz,因為abe算法能夠完美地恢復它。換句話說,寬帶話音信號的下頻帶(lb)(0khz<f<4khz)和上頻帶之間不存在一對一的對應關係。因此,abe解決方案可僅輸送上頻帶頻率分量的逼近。適合於評估經abe處理的信號的質量的儀器測度應該評定逼近的優良性。因此,除了對應於衰減信號的總體質量的特徵(δhabs的均值/方差、均值/方差δhrel、ρ2d、snr2d)之外,所採用的特徵集合含有嘗試檢測通過abe解決方案引入的典型誤差的特徵。這些用於本發明的誤差和合適的特徵的概述在下面的表格中給出。
應了解,兩個輸入信號之間的可使用儀器測量的幹擾可以若干特徵方式反射,其集中在不同種類的失真。這些特徵可從信號的時間表示(基於逐樣本或逐幀的計算)和不同的時頻表示推導出,該時頻表示中的一個是模擬人類聽覺的感知模型的輸出。
圖5的系統還包括多路復用器560,其可將通過幹擾計算器512計算的特徵中的一個或多個組合成特徵向量x′。應了解,在一些例子中,幹擾計算器512可僅計算和輸出上文所述的各個特徵的子集。以此方式,特徵向量x′可以是本文件中的上文所呈現的特徵的任何子集,並且不必使用全部特徵。此外,一些特徵可利用單個成幀結構或頻率解析度,並使用不同的時頻變換進行計算。
返回到圖2,認知模型214中的特徵歸一化塊234可將由圖5的幹擾計算器提供的特徵向量x′歸一化。在此實施方案中,計算用於受測試的給出信號的特徵向量x′使用在認知模型214所應用的統計模型的訓練階段期間所獲得的均值和標準差進行歸一化。在訓練統計模型之前,針對訓練文件集合計算特徵,以利用以下等式產生矩陣x′t
維度(x′t)=(訓練中文件的數目)x(每一文件的特徵)。
隨後,將計算所得的特徵歸一化(「零均值」和「單位方差」),以產生歸一化特徵矩陣
其中在全部訓練中文件中計算每一特徵的均值μ(x′t)和標準差σ(x′t)。隨後,統計模型對xt進行訓練。
為了將特徵向量x′調適到其上統計模型進行訓練的取值範圍,所獲得的特徵進行歸一化,如下:
認知模型214使用統計模型以將觀察到的失真(也就是特徵向量x′)連結到所預測的mos-lqo分數216。可能的統計模型為(例如)線性回歸、多變量線性回歸、人工神經網絡、支持向量機等。如果在訓練階段期間找到相應的參數,那麼可僅使用統計模型。因此,模型的輸入不僅是歸一化特徵向量x,還是在之前訓練階段中所獲得的存儲的參數集合。這個存儲的參數集合可從存儲器240存取。
如果統計模型對歸一化輸入和輸出數據進行訓練,那麼大多數統計模型可發揮最佳作用。因此,在此實施方案中,在訓練期間進行歸一化的不僅有特徵維度(如上文所描述),還有所要的目標值mos-lqs216。其結果是,統計模型(mos預測器236)輸出「歸一化的」經預測mos-lqo′分數,該分數應通過分數去歸一化塊238,並使用以下公式去歸一化:
mos-lqo=mos-lqs′·σ(mos-lqs′t)
+μ(mos-lqs′t)
其中μ(mos-lqs′t)和σ(mos-lqs′t)是在訓練過程中所使用的mos-lqs值的均值和標準差。
所得mos-lqo216值是圖2的系統的儀器測度的輸出。
在此實施例中,支持向量機(svm)充當認知模型214,其在歸一化特徵和分數空間中操作。svm可為特別可靠和穩固的統計模型,其考慮了在發展期間可供使用的相當少量的訓練數據。
本文所公開的話音信號處理電路的應用
高清(hd)語音(寬帶語音)使得運營商能夠區分他們通過行動網路提供高質量語音電話的服務。語音電話的這種較高質量(更清晰、較高的可懂度)通過傳輸[4-7khz]話音頻帶實現,該話音頻帶在傳統的窄帶電話中通常會降低。然而,為了使每一終端用戶得益於每次呼叫的hd語音,每個裝置和網絡必須支持hd語音。如果鏈路中的一個元件並不支持它,那麼呼叫轉為窄帶。
帶寬擴展算法試圖從窄帶音頻源中產生寬帶含量,以改進窄帶呼叫中的語音質量。當前,為了針對不同的abe系統測量這種改進的程度,必須執行廣泛且耗時的主觀聽音測試。本文中所描述的由話音信號處理電路提供的功能性的例子提供替代該聽音測試的替代方案,其將有利地允許:
-開發人員加速研發和參數化,以進行進一步改進。
-網絡運營商指定質量要求,該質量要求易於利用儀器測度進行測試。
-移動裝置製造商針對運營商的規範客觀地比較、測試和調諧不同的解決方案。
上文所述的實施方案中的一個或多個涉及估計wbabe解決方案的質量,然而,將應用擴大到其它類型的信號和其它abe算法是有可能的。例如,在對特徵(例如,對下頻帶和上頻帶的限定)進行一些修改,以及對統計模型重新訓練的情況下,本文所公開的例子可用於估計超寬帶abe算法的質量。
本文所公開的例子中的一個或多個提供用於預測如在絕對分類定級(acr)聽音測試中聽者所感知的話音的總體質量的客觀方法。所提出的客觀(即,儀器)測度可被特別地設計成用於利用人工帶寬擴展(abe)算法處理的話音信號,該abe算法將窄帶(nb)信號的頻帶擴展到高於4khz(不高於8khz)。但是,它也能夠預測利用窄帶和寬帶(wb)話音編解碼器解碼的信號的感知質量。該測度是一種侵入性方法,其基於受測試話音樣本與參考話音樣本的比較。從那個比較推導出的特徵集合可被饋送到認知模型,該認知模型可提供質量分數,其被稱作「平均意見分-客觀聽音質量」(mos-lqo)。
有利的是,所提出的測度不需要音標轉錄。此外,基礎統計模型可對若干語言進行訓練,以最小化語言依賴性。所提出的測度可呈現mos-lqo和mos-lqs之間的高度線性相關和等級相關,以及較低的均方根誤差(rmse)。因此,它可用於在評估和比較abe解決方案中對質量進行可靠預測。如測試所示出的,它還可高度精確地預測利用自適應多速率nb(amr-nb)編解碼器或amr-wb編解碼器解碼的話音信號的mos-lqs。
除非明確陳述特定次序,否則可以任伺次序執行以上各圖中的指令和/或流程圖步驟。而且,本領域的技術人員將認識到,儘管已經論述一個示例指令集/方法,但是本說明書中的材料可以多種方式組合從而還產生其它例子,並且應在由此詳細描述提供的上下文內來理解。
在一些示例實施例中,上文描述的指令集/方法實施為體現為可執行指令集的功能和軟體指令,這些指令在計算機或以該可執行指令編程和控制的機器上實現。此類指令經加載以在處理器(例如一個或多個cpu)上執行。術語處理器包括微處理器、微控制器、處理器模塊或子系統(包括一個或多個微處理器或微控制器),或其它控制或計算裝置。處理器可指代單個組件或指代多個組件。
在其它例子中,本文示出的指令集/方法以及與其相關聯的數據和指令存儲在相應的存儲裝置中,該存儲裝置實施為一個或多個非暫時性機器或計算機可讀或計算機可用存儲媒體。此類計算機可讀或計算機可用存儲媒體被認為是物品(或製品)的一部分。物品或製品可指代任何製造的單個組件或多個組件。如本文所定義的非暫時性機器或計算機可用媒體不包括信號,但此類媒體可能夠接收和處理來自信號和/或其它暫時性媒體的信息。
本說明書中論述的材料的示例實施例可以整體或部分地經由網絡、計算機或基於數據的裝置和/或服務實施。這些可包含雲、網際網路、內聯網、移動裝置、臺式計算機、處理器、查找表、微控制器、消費者設備、基礎架構,或其它致能裝置和服務。如本文和權利要求書中可使用,提供以下非排他性定義。
在一個例子中,使本文論述的一個或多個指令或步驟自動化。術語自動化或自動(及其類似變化)意味著使用計算機和/或機械/電氣裝置控制設備、系統和/或過程的操作,而不需要人類幹預、觀測、努力和/或決策。
應了解,所說要耦合的任何組件可以直接或間接耦合或連接。在間接耦合的情況下,可以在稱為耦合的兩個組件之間安置額外的組件。
在本說明書中,已經依據選定的細節集合呈現示例實施例。然而,本領域的普通技術人員將理解,可以實踐包括這些細節的不同選定集合的許多其它示例實施例。希望所附權利要求書涵蓋所有可能的示例實施例。