新四季網

以感知參數為基礎的客觀語音質量估測方法

2023-04-23 07:41:01

專利名稱:以感知參數為基礎的客觀語音質量估測方法
技術領域:
本發明是關於一種以感知參數為基礎的客觀語音質量估測方法,特別是關於一種
利用一個同時考慮時間和頻率上變化的人耳聽覺模型來對語音質量做客觀的評量。
背景技術:
傳統上最可靠的語音質量評量方式,是找來一大群受試者直接來聽各種測試語 音,並把語音質量好壞分成五個等級做評分,得到一個主觀的平均意見分數;但顯然的,這 種主觀評估語音質量的方式相當耗費人力、金錢與時間,尤其當複雜的通信網路架構有一 小部份地方改變了,整個主觀評量語音質量好壞的實驗又必須重做一次,所以主觀評量方 式在實行上有相當困難。 在2004年五月,ITU(國際電信聯盟)發表了非侵入式的客觀語音質量估測方法 的國際標準,P. 563。它將通過通信網路後受到損傷的語音,通過一口腔發聲模型分析,進而 估測出相對應的可能幹淨語音。並將此估測的乾淨語音與受損傷的語音送入人耳感知模型 進行分析與比較,估算出損傷語音的質量。在超過48個主觀聽測實驗語料庫中,展現出令 人滿意的效能,對於窄頻語音電信網絡中的大部分語音失真都有良好的評估結果。
而在2007年,另一算法^肌9皿+也被提出,並被認可為美國在非侵入式的客觀語 音質量估測方法的國家標準。它是利用語音在時域上的封包變動,並結合人耳聽覺對語音 分析的特性和大腦認知兩階段的處理,進而使用類神經網絡反覆地去調整系統中各模型的 參數,由此估算出損傷語音的質量。在大量的主觀聽測實驗語料庫中評測,效能甚至直逼 ITU的侵入式客觀語音質量評量的國際標準,P. 862 :PESQ。 然而先前這兩個非侵入式的客觀語音質量估測方法技術,都有一些令人感到不甚 理想的缺點。在ITU發表出的國際標準,P.563中,是利用口腔發聲模型,預估出一相對應 的乾淨語音再進行侵入式的客觀語音比較,此種方法的準確度將受限於口腔發聲模型的好 壞,而且並不近似人對語音質量評量時的行為模式。而美國國家標準,ANIQUE+,分別考慮語 音在頻率上的特性以及時域上的封包變動,但大腦對聲音的解析其實是對語音的時、頻域 特性一起考慮,並非分別考慮。 由此可見,上述現有方式仍存在諸多缺失,實非一 良好的設計,因此亟待加以改良。

發明內容
本發明的目的即在於提供一種客觀評量語音質量好壞的系統以取代耗時及高成 本的主觀評量方式,並通過語音訊號在聽覺感知上的分析與研究,得到準確的語音質量評 量分數。 為達到上述目的,本發明採取了以下技術方案 以感知參數為基礎的客觀語音質量估測方法,包括以下步驟 步驟一 將輸入語音通過人耳聽覺模型處理,得到在時間軸及對數頻率軸上分布
7的二維聽覺頻譜圖; 步驟二將上述的二維聽覺頻譜圖經過具有不同方向性,不同對數頻率上的變化率及不同時間上的變化率的二維時頻域脈衝響應的濾波器組後,其輸出得到具有維度分別為時間、對數頻率、在時間軸上波封的變化率及在對數頻率軸上波封的變化率的四維特徵矩陣,接著在時間和對數頻率軸上取平均,得到rate-scale 二維圖像; 步驟三取得長時間乾淨語音,並依照上述相同步驟計算得到乾淨語音的rate-scale 二維圖像; 步驟四將乾淨語音及輸入語音的rate-scale 二維圖像相減當做失真矩陣,並將此失真矩陣分割成數個區域,這些區域可以均勻或不均勻分割,然後為每個區域計算失真和,用來當做失真的特徵參數,如此得到一個失真的特徵參數向量; 步驟五將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音質量分數。 達成上述發明目的的以感知參數為基礎的客觀語音質量估測方法,是先將語音送入一低階的耳蝸模型進行頻譜預估,再送入一高階的大腦皮質模型進行頻譜解析。此兩階段組合成一個結合時域、頻域的人耳聽覺運算模型,本發明使用此聽覺模型來分析語音訊號並進行語音質量預估。此聽覺模型是根據已知耳蝸的生物物理現象及大腦皮質聽覺區的神經反應而建立。這個多重解析的聽覺模型包含低階的聽覺感知現象(例如聽覺頻寬、頻率遮蔽等現象),及大腦皮質聽覺區對頻譜的分析模式。"語音質量"本身即是人類認知後的描述,此描述應包含更多重感知維度的描述。本發明使用其中最重要的三個特徵參數,即語音的可理解度(Intelligibility)、清晰度(Clarity)與自然度(Naturalness)。本發明利用聽覺模型來分析語音,萃取並量化上述三個語音特徵參數,賦予不同的權重來估測語音質量。 此外,將代表可理解度、清晰度及自然度的三個特徵參數轉換為語音質量分數的方法也可以是用類神經網絡的多層感知機(multilayer perc印trons)來進行這個轉換動作。作法是將代表可理解度、清晰度及自然度的三個特徵參數當做一個已經訓練好的多層感知機的輸入,再將多層感知機的輸出值當作估算的主觀語音質量分數。所用多層感知機的訓練方式是收集足夠多種受損傷情況的受損傷語音,這些受損傷語音分別經過人工標示語音質量分數,同時也求出每一個受損傷語音的代表可理解度、清晰度及自然度的三個特
徵參數,然後將代表可理解度、清晰度及自然度的三個特徵參數當做輸入,其人工標示的語音質量分數則當做期望輸出而成為一組訓練數據,用這些訓練資料訓練多層感知機達到收斂條件為止。 本發明所提供的以感知參數為基礎的客觀語音質量估測方法,與其它現有技術相互比較時,更具有下列的優點 1.本發明提供了一種可以取代耗時及高成本的主觀評量方式,通過語音訊號在聽覺感知上的分析與研究,得到準確的語音質量評量分數。 2.本發明提供了一種套用同時考慮時、頻域特性的人耳聽覺模型去估算語音質量,不同於傳統以口腔發聲模型為主的方法。因此,本發明亦可對感知編碼後的語音有較近似人類主觀結果的質量估計。 3.本發明提供了一種在三個感知特徵參數上對人類判斷語音質量時的行為模式
8進行分析,以產生近似人類判斷語音質量時的結果,因而將語音質量與人類認知行為緊密連接,提供了語音質量評估領域一個嶄新而有效的做法。


請參閱以下有關本發明較佳實施例的詳細說明及其附圖,將可進一步了解本發明的技術內容及其目的功效;有關該實施例的附圖為 圖1為本發明所提供的以感知參數為基礎的客觀語音質量估測方法的人耳聽覺模型中的第一個階段從人耳到中腦的頻譜估計流程圖; 圖2為該以感知參數為基礎的客觀語音質量估測方法的人耳聽覺模型中的大腦皮質聽覺區二維時、頻域脈衝響應(STRF)的例圖; 圖3為該以感知參數為基礎的客觀語音質量估測方法的人耳聽覺模型中的第二個階段從中腦到大腦皮質聽覺區對時域和頻域上的分析流程圖; 圖4為該以感知參數為基礎的客觀語音質量估測方法的人耳聽覺模型應用於非侵入式客觀語音質量估測的完整流程圖;以及 圖5為該以感知參數為基礎的客觀語音質量估測方法的人耳聽覺模型應用於侵入式客觀語音質量估測的完整流程圖;附圖標記
101基底膜耳蝸濾波器組分析階段102內毛髮細胞轉導階段103側向抑制階段104半波整流105時域積分器301二維帶通濾波器302四維401步驟一402步驟二403步驟三404步驟四501步驟一502步驟二503步驟三504步驟四
具體實施例方式
請參閱圖1所示,為本發明的人耳聽覺模型中的第一個階段從人耳到中腦的頻譜估計流程圖,主要包含三個階段第一個階段為基底膜耳蝸濾波器組分析101階段,是模擬耳蝸的基底膜經由行進波的振動針對聲波訊號的頻率進行解析; 第二個階段為內毛髮細胞轉導102階段,是模擬耳蝸的內毛髮細胞將基底膜震動的壓力波轉換成神經衝動的電位訊號;
第三個階段為側向抑制103階段,是模擬鄰近的神經元彼此壓抑的效果。其中第
一個基底膜耳蝸濾波器組分析階段是做頻率分析,由於耳蝸對聲音頻率的解析呈對數分
布,因此以一組128個等分於對數頻率軸上互相重迭的帶通濾波器組來仿真耳蝸解析頻率
的功能。這些濾波器的中心頻率除以頻寬等於一固定常數Q,例如設定Q值為4。第二個內
毛髮細胞轉導階段是描述內毛細胞做轉導的過程,又可以分為三個步驟 步驟一 用一個高通濾波器做微分將聲音的壓力波(淋巴液的位移)轉換成速
度; 步驟二 用一個雙彎曲函式(sigmoid function)模擬內毛細胞的轉導函式;
步驟三用一個低通濾波器模擬內毛細胞的神經電流漏損(leakage)現象。
第三個側向抑制階段是描述耳蝸核(cochlear皿cleus)中鄰近的神經元彼此 互相壓抑的現象,在此使用沿著對數頻率軸上的階差分器來模擬此現象,而後接的半波整 流104則用來模擬此側向抑制神經元的非線性反應。此低階耳蝸模型最後所接的時域 積分器105則在描述中腦對神經訊號在時間軸上的變化較遲鈍的現象。此模型最後的 輸出為在時間軸及對數頻率軸上分布的二維頻譜圖,在此稱之為聽覺頻譜圖(Auditory Spectrogram)。 根據神經生理學的發現,可以假設大腦皮質聽覺區基本上是把中腦輸出的聽覺頻 譜圖當作二維圖像來進行處理。因此可將大腦神經細胞模擬為具有二維時、頻域脈衝響應 (STRF :Spectro-Temporal Rec印tive Field)的濾波器組,不同的神經細胞有不同的二維 脈衝響應。這個脈衝響應不但對二維時、頻域圖像在對數頻率上的變化率(scale)有選擇 性,在時間上的變化率(rate)也有選擇性。除此之外,神經細胞對調頻(FM)信號的方向亦 有選擇性。圖2中展示了兩個STRF,具有左邊STRF的神經細胞,將在中心頻率(1CF)對往 下移雲力(downward)的FM信號(rate = 16Hz, scale = lcycle/octave)有最大反應。而 具有右邊STRF的神經細胞,將在中心頻率(1CF)對往上移動(upward)的FM信號(rate = 32Hz, scale = 2cycle/octave)有最大反應。 請參閱圖3所示,為本發明的人耳聽覺模型中的第二個階段從中腦到大腦皮質聽 覺區對時域和頻域上的分析流程圖,則描述了高階的大腦皮質模型以及最後輸出數據的格 式。簡而言之,大腦對於來自中腦的二維圖像,根據在時間軸及對數頻率軸上的變化率進行 解析。因此,大腦皮質聽覺區可視為一群個別具有不同rate及scale特性的二維帶通濾波 器301。其中一個二維濾波器(rate = 4Hz, scale = 0. 5cycle/octave)的脈衝響應亦顯 示於圖中。而這個大腦皮質模型將產生四維302的輸出,這四個維度分別為time(時間)、 log. frequency (對數頻率)、rate (在時間軸上波封的變化率)及scale (在對數頻率軸上 波封的變化率)。此圖中僅畫出在某一特定時間的三維立方體,其餘時間的三維立方體則 以...略過。之後,將對其四維輸出在時間和對數頻率軸上取平均,僅對個別帶通濾波器所 解析出的總能量進行分析,最後得到二維rate-scale的圖像(rate-scale plot)。此圖像 可視為大腦皮質聽覺區受激時的能量分布圖。 請參閱圖4所示,為本發明的人耳聽覺模型應用於非侵入式客觀語音質量估測的 完整流程圖,其步驟包含 步驟一401 :將受損傷的語音送入低階的耳蝸模型(Early Auditory Processing) 產生二維聽覺頻譜 步驟二 402 :將二維聽覺頻譜圖以高階的大腦皮質模型 (CorticalSpectro-temporal Modulation Analysis)產生二維rate-scale的圖像;
步驟三403 :將rate-scale二維圖像與長時間平均的乾淨語音模板的rate-scale 二維圖像在本發明所定義與三個特徵參數(可理解度、清晰度與自然度)有高度相關的不 同的rate-scale區塊(Rate-scale Region Selection)上做比較(FeatureDistortion Calculation) 5 步驟四404 :將受損傷語音與長時間平均的乾淨語音模板在這些rate-scale區塊 上的差異,通過多變量回歸分析(Multiple Regression)而對應至主觀的語音質量分數。
前述的非侵入式客觀語音質量估測方法的一個實施例是將取樣頻率為8000Hz的 受損語音送入人耳聽覺模型上兩個聽覺感知階段進行處理。第一個階段含有128個固定 常數Q(Q = 4)的帶通濾波器組用以仿真耳蝸對頻率的解析,以及最後所接的時域積分器 的時間常數設為0. 5ms用以描述中腦無法對快速的變化實時反應。第二個階段我們使用 108個二維帶通濾波器組來仿真大腦的分析功能,其scale (在對數頻率軸上波封的變化 率)及rate(在時間軸上波封的變化率)分別為〈0. 25、0. 5、 1、2、4、8〉cycle/octave及 〈2、4、8、16、32、64、128、256、512>Hz和〈downward、 upward〉的組合。最後得到的是time、 log. frequency、 rate及scale四維的輸出,之後對時間和對數頻率軸上取平均,得到二維 rate-scale的圖像。 將受損傷的語音與經長時間平均後所得到的乾淨語音模板的rate-scale 二維圖
像計算L2距離,並通過選取特定不同的rate-scale區塊,抽取出本發明所定義的三個影響
語音質量的特徵參數距離,並通過回歸函式去估算近似出主觀的語音質量。 本案是選取2Hz《rate《32Hz禾口 0. 5cycle/oct《scale《4cycle/oct
的區域,來計算出代表可理解度的特徵參數。另外,本案是選取32《rate《128Hz
和2《scale《8cycle/oct的區塊,來計算清晰度的特徵參數。最後,本案是選取
128《rate《512Hz和0. 25《scale《8cyc/oct,來計算自然度的特徵參數。 將這三個特徵參數,通過雙彎曲函式(sigmoid function)進行正規化處理,
使其個別失真量介於0與1之間。再使用復回歸分析的方法,將其對真實的主觀平均
意見分數做對應,由此估計出主觀語音質量分數,再由此計算估計值與主觀分數之間的
cross-correlation (交叉相關性),去評估此算法的效能。 以ITU-T Supp. 23語料庫中實驗一第一個男性語者語料為例,對可理解度、清晰 度、自然度三個特徵參數的復回歸分析係數個別選取為0. 26、0. 04、1. 8,而估測的質量分數 可由下列公式算出 5—估測分數=0.26(可理解度失真量)+0.04(清晰度失真量)+1.8(自然度失真 量)+0. 5 經此公式算出的客觀語音質量估測分數與主觀語音質量分數的 cross-correlation可高達0. 85,優於ITU標準P. 563對主觀語音質量分數的 cross-correlation( = 0. 77)。 請參閱圖5所示,為本發明的人耳聽覺模型應用於侵入式客觀語音質量估測的完 整流程圖,其步驟包含 步驟一 501 :將乾淨語音及其受損傷狀況下的語音分別送入低階的耳蝸模型(Early Auditory Processing)產生聽覺頻譜圖; 步驟二 502 :將聽覺頻譜圖以高階的大腦皮質模型(Cortical Spectro-temporalModulation Analysis)產生二維rate-scale的圖像;
步驟四503 :將兩者的rate-scale 二維圖像在本發明所定義與三個特徵參數 (可理解度、清晰度與自然度)有高度相關的不同的rate-scale區塊(Rate-scaleRegion Selection)上做比較(Feature Distortion Calculation); 步驟四504 :將兩者在這些rate-scale區塊上的差異,通過多變量回歸分析 (Multiple Regression)而對應至主觀的語音質量分數。 前述的侵入式客觀語音質量估測中的一個實施例,其作法與上述非侵入式客觀語 音質量預估的實施例類似,只是其中的乾淨語音模板的rate-scale 二維圖像僅用受損傷 的語音的相對參考語音來求取而得。 上列詳細說明乃針對本發明在以感知參數為基礎的客觀語音質量估測方法的可 行實施例進行具體說明,該實施例並非用以限制本發明的專利範圍,凡未脫離本發明的等 效實施或變更,均應包含於本發明的專利範圍中。
1權利要求
一種以感知參數為基礎的客觀語音質量估測方法,其特徵在於其步驟包括步驟一將輸入語音通過人耳聽覺模型處理,得到在時間軸及對數頻率軸上分布的二維聽覺頻譜圖;步驟二將上述的二維聽覺頻譜圖經過具有不同方向性,不同對數頻率上的變化率及不同時間上的變化率的二維時頻域脈衝響應的濾波器組後,其輸出得到具有維度分別為時間、對數頻率、在時間軸上波封的變化率及在對數頻率軸上波封的變化率的四維特徵矩陣,接著在時間和對數頻率軸上取平均,得到rate-scale二維圖像;步驟三取得長時間乾淨語音,並依照上述相同步驟計算得到乾淨語音的rate-scale二維圖像;步驟四將乾淨語音及輸入語音的rate-scale二維圖像相減當做失真矩陣,並將此失真矩陣分割成數個區域,這些區域可以均勻或不均勻分割,然後為每個區域計算失真和,用來當做失真的特徵參數,如此得到一個失真的特徵參數向量;步驟五將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音質量分數。
2. 如權利要求1所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於所 述步驟五的轉換方式的步驟包含步驟一 將失真的特徵參數向量的每個特徵參數各自經過其相對應的轉換函數; 步驟二 將上述每個特徵參數的轉換函數的輸出各自乘上相對應的權重值,總和後再 加上一個偏移值而得到一個估算的主觀語音質量分數。
3. 如權利要求2所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於所 述轉換函數為雙彎曲函式。
4. 如權利要求1所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於所 述步驟五的轉換方式的步驟包含將失真的特徵參數向量的每個特徵參數直接各自乘上相 對應的權重值,總和後再加上一個偏移值而得到一個估算的主觀語音質量分數。
5. 如權利要求1所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於所 述步驟五的轉換方式的步驟包含將失真的特徵參數向量的每個特徵參數當做一個已經訓 練好的多層感知機的輸入,再將多層感知機的輸出值當作估算的主觀語音質量分數。
6. 如權利要求1所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於所 述步驟一將輸入語音通過人耳聽覺模型處理的步驟包含步驟一 將輸入語音在時域上通過一組分布於對數頻率軸上互相重迭的帶通濾波器組 來仿真耳蝸解析頻率的功能;步驟二 將帶通濾波器組的輸出各自通過一個高通濾波器做微分,將聲音的壓力波轉 換成速度;步驟三將上一步驟的輸出各自通過一個雙彎曲函式模擬內毛細胞的轉導函式的作用;步驟四將上一步驟的輸出各自通過一個低通濾波器模擬內毛細胞的神經電流漏損現象;步驟五將上一步驟的輸出各自減去其相鄰頻道的輸出值,以此模擬鄰近的神經元側 向抑制的現象;步驟六將上一步驟的輸出各自經過半波整流,用來模擬側向抑制神經元的非線性反應;步驟七將上一步驟的輸出各自通過時域積分器,用來仿真中腦對神經訊號在時間軸 上的變化較遲鈍的現象。
7. 如權利要求1所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於所 述步驟二中二維時頻域脈衝響應的濾波器組的產生步驟包含步驟一 頻域脈衝響應採用以Gaussian函數的二次微分當實部的單邊頻帶濾波器脈 衝響應;步驟二 時域脈衝響應採用以正弦曲線調變的Gamma函數當實部的單邊頻帶濾波器脈 衝響應;步驟三將步驟一的頻域脈衝響應與步驟二的時域脈衝響應相乘後取實部,當做對往 下移動的FM信號有最大反應的STRF ;步驟四將步驟一的頻域脈衝響應與步驟二的時域脈衝響應的共軛虛數相乘後取實部,當做對往上移動的FM信號有最大反應的STRF。
8. 如權利要求1所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於所 述步驟四中失真的特徵參數向量,包含可理解度失真的特徵參數、清晰度失真的特徵參數 及自然度失真的特徵參數。
9. 如權利要求8所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於從二維失真矩陣中,選取低頻帶的區域計算失真和,用來當做可理解度失真的特徵參數,其低頻帶的選擇方式為選取2Hz《rate《32Hz和0. 5cycle/oct《scale《4cycle/oct的 區塊。
10. 如權利要求8所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於從 二維失真矩陣中,選取中頻帶的區域計算失真和,用來當做清晰度失真的特徵參數,其中頻 帶的選擇方式為選取32《rate《128Hz和2《scale《8cycle/oct的區塊。
11. 如權利要求8所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於從 二維失真矩陣中,選取高頻帶的區域計算失真和,用來當做自然度失真的特徵參數,其高頻 帶的選擇方式為選取128《rate《512Hz和0. 25《scale《8cyc/oct的區塊。
12. —種以感知參數為基礎的客觀語音質量估測方法,其特徵在於其步驟包括 步驟一 將輸入語音通過人耳聽覺模型處理,得到在時間軸及對數頻率軸上分布的二維聽覺頻譜圖;步驟二 將上述的二維聽覺頻譜圖經過具有不同方向性,不同對數頻率上的變化率及 不同時間上的變化率的二維時頻域脈衝響應的濾波器組後,其輸出得到具有維度分別為時 間、對數頻率、在時間軸上波封的變化率及在對數頻率軸上波封的變化率的四維特徵矩陣, 接著在時間和對數頻率軸上取平均,得到rate-scale 二維圖像;步驟三將參考用的乾淨語音依照上述相同步驟計算得到乾淨語音的rate-scale 二 維圖像;步驟四將參考用乾淨語音及輸入語音的rate-scale 二維圖像相減當做失真矩陣,並 將此失真矩陣分割成數個區域,這些區域可以均勻或不均勻分割,然後每個區域計算失真 和,用來當做失真的特徵參數,如此得到一個失真的特徵參數向量;步驟五將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音質量 分數。
13. 如權利要求12所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 所述步驟五的轉換方式的步驟包含步驟一 將失真的特徵參數向量的每個特徵參數各自經過其相對應的轉換函數; 步驟二 將上述每個特徵參數的轉換函數的輸出各自乘上相對應的權重值,總和後再 加上一個偏移值而得到一個估算的主觀語音質量分數。
14. 如權利要求13所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 所述轉換函數為雙彎曲函式。
15. 如權利要求12所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 所述步驟五的轉換方式的步驟包含將失真的特徵參數向量的每個特徵參數直接各自乘上 相對應的權重值,總和後再加上一個偏移值而得到一個估算的主觀語音質量分數。
16. 如權利要求12所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 所述步驟五的轉換方式的步驟包含將失真的特徵參數向量的每個特徵參數當做一個已經 訓練好的多層感知機的輸入,再將多層感知機的輸出值當作估算的主觀語音質量分數。
17. 如權利要求12所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 所述步驟一將輸入語音通過人耳聽覺模型處理的步驟包含步驟一 將輸入語音在時域上通過一組分布於對數頻率軸上互相重迭的帶通濾波器組 來仿真耳蝸解析頻率的功能;步驟二 將帶通濾波器組的輸出各自通過一個高通濾波器做微分,將聲音的壓力波轉 換成速度;步驟三將上一步驟的輸出各自通過一個雙彎曲函式模擬內毛細胞的轉導函式的作用;步驟四將上象;步驟五將上 向抑制的現象;步驟六將上 應;步驟七將上一步驟的輸出各自通過時域積分器,用來仿真中腦對神經訊號在時間軸 上的變化較遲鈍的現象。
18. 如權利要求12所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 所述步驟二中二維時頻域脈衝響應的濾波器組的產生步驟包含步驟一 頻域脈衝響應採用以Gaussian函數的二次微分當實部的單邊頻帶濾波器脈 衝響應;步驟二 時域脈衝響應採用以正弦曲線調變的Gamma函數當實部的單邊頻帶濾波器脈 衝響應;步驟三將步驟一的頻域脈衝響應與步驟二的時域脈衝響應相乘後取實部,當做對往 下移動的FM信號有最大反應的STRF ;-步驟的輸出各自通過一個低通濾波器模擬內毛細胞的神經電流漏損現 -步驟的輸出各自減去其相鄰頻道的輸出值,以此模擬鄰近的神經元側 -步驟的輸出各自經過半波整流,用來模擬側向抑制神經元的非線性反步驟四將步驟一的頻域脈衝響應與步驟二的時域脈衝響應的共軛虛數相乘後取實部當做對往上移動的FM信號有最大反應的STRF。
19. 如權利要求12所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 所述步驟四中失真的特徵參數向量,包含可理解度失真的特徵參數、清晰度失真的特徵參 數及自然度失真的特徵參數。
20. 如權利要求19所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 所述從二維失真矩陣中,選取低頻帶的區域計算失真和,用來當做可理解度失真的特徵參 數,其低頻帶的選擇方式為選取2Hz《rate《32Hz和0. 5cycle/oct《scale《4cycle/ oct的區塊。
21. 如權利要求19所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 從二維失真矩陣中,選取中頻帶的區域計算失真和,用來當做清晰度失真的特徵參數,其中 頻帶的選擇方式為選取32《rate《128Hz和2《scale《8cycle/oct的區塊。
22. 如權利要求19所述的以感知參數為基礎的客觀語音質量估測方法,其特徵在於 從二維失真矩陣中,選取高頻帶的區域計算失真和,用來當做自然度失真的特徵參數,其高 頻帶的選擇方式為選取128《rate《512Hz和0. 25《scale《8cyc/oct的區塊。
23. —種以感知參數為基礎的客觀語音質量估測方法,其特徵在於其步驟包括步驟一將輸入語音通過人耳聽覺模型處理而得到在時間軸及對數頻率軸上分布的二 維聽覺頻譜圖;步驟二將上述的二維聽覺頻譜圖再經過具有不同方向性,不同對數頻率上的變化率 及不同時間上的變化率的二維時頻域脈衝響應的濾波器組後,其輸出得到具有維度分別為 時間、對數頻率、在時間軸上波封的變化率及在對數頻率軸上波封的變化率的四維特徵矩 陣,接著在對數頻率軸上取平均,得到time-rate-scale三維圖像;步驟三將參考用的乾淨語音依照上述相同步驟計算得到乾淨語音的 time-rate-scale三維圖像;步驟四將參考用乾淨語音及輸入語音的time-rate-scale三維圖像在時間軸上對 齊後相減當做失真矩陣,並將此失真矩陣分割成數個區域,這些區域可以均勻或不均勻分 割,然後每個區域計算失真和,用來當做失真的特徵參數,如此得到一個失真的特徵參數向步驟五將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音質量 分數。
24. —種以感知參數為基礎的客觀語音質量估測方法,其特徵在於其步驟包括 步驟一將輸入語音通過人耳聽覺模型處理而得到在時間軸及對數頻率軸上分布的二維聽覺頻譜圖;步驟二將上述的二維聽覺頻譜圖再經過具有不同方向性,不同對數頻率上的變化率 及不同時間上的變化率的二維時頻域脈衝響應的濾波器組後,其輸出得到具有維度分別為 時間、對數頻率、在時間軸上波封的變化率及在對數頻率軸上波封的變化率的四維特徵矩 陣;步驟三將參考用的乾淨語音依照上述相同步驟計算得到乾淨語音的time-log. frequency-rate-scale四維特徵矢巨陣;步驟四將參考用乾淨語音及輸入語音的time-log. frequency-rate-scale四維特徵 矩陣在時間軸上對齊後相減當做失真矩陣,並將此失真矩陣分割成數個區域,這些區域可 以均勻或不均勻分割,然後每個區域計算失真和,用來當做失真的特徵參數,如此得到一個 失真的特徵參數向量;步驟五將此失真的特徵參數向量經過一個轉換方式而得到一個估算的主觀語音質量 分數。
全文摘要
本發明公開了一種以感知參數為基礎的客觀語音質量估測方法,利用一個同時考慮時間和頻率上變化的人耳聽覺模型來對語音質量做客觀的評量。這個以生理物理及神經生理現象建立的聽覺模型,可成功描述人類兩個聽覺感知階段對語音信號分別所做的估計及分析。本發明由這兩個階段,擷取出在感知上可能影響聽者判斷語音質量好壞的三個特徵參數,來對語音質量做客觀評量。這三個特徵參數分別是可理解度、清晰度和自然度。本發明進而使用復回歸分析,將三個特徵參數對語音質量影響的關係做結合,由此估計出主觀的語音質量分數,通過這三個基本的特徵參數,對語音質量的好壞做快速並可靠的評量。
文檔編號G10L19/00GK101727896SQ20091026101
公開日2010年6月9日 申請日期2009年12月8日 優先權日2009年12月8日
發明者冀泰石, 楊仲捷, 陳建宏, 顏廷宇, 黃冠郎 申請人:中華電信股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀