英語口語發音評分方法和系統與流程
2023-12-08 23:05:52
本發明涉及語音識別和評價技術領域,特別涉及英語口語發音評分方法和系統。
背景技術:
計算機輔助語言學習系統(computer-assistantlanguagelearning,call)研究是當前的熱點問題。在計算機輔助語言學習系統中,口語發音評價系統用於評價口語發音質量,其通過提供考卷並對考生作答的語音進行識別後,對語音的準確度等指標進行評分,並以此評價考生的口語發音質量。
發明人在實施本發明的過程中,發現現有的口語發音評價系統具有如下缺點:
現有的口語發音評價系統只能針對單一語種進行相應的評價,當教學內容要求考生以英語完成發音質量評價考試時,例如,在英語的口語答卷中,即使考生以不符合要求的語種進行發音,如使用漢語進行作答,此時系統仍會給予考生一定分數,從而影響了評分的合理性和準確性。
技術實現要素:
本發明提出英語口語發音評分方法和系統,提高了口語發音評分的合理性和準確性。
本發明一方面提供一種英語口語發音評分方法,所述方法包括:
對預先錄製的待評分語音進行預處理,得到待評分語音語料;
提取所述待評分語音語料的特徵參數;
根據所述待評分語音語料的特徵參數對所述待評分語音進行語種識別,以得到所述待評分語音的語種識別結果;
根據所述待評分語音的語種識別結果判斷所述待評分語音的語種是否為英語;
當判定所述待評分語音的語種為英語時,分別對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音進行評分;
對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音的分數按照對應的權重係數進行加權,以得到總分;
當判定所述待評分語音的語種不是英語時,反饋語種錯誤信息。
作為更優選地,所述根據所述待評分語音語料的特徵參數對所述待評分語音進行語種識別,以得到所述待評分語音的語種識別結果,包括:
基於改進的gmm-ubm模型識別方法根據所述待評分語音語料的特徵參數計算標準語音的每個語種模型的模型概率得分;其中,所述待評分語音語料的特徵參數包括gfcc特徵參數向量和sdc特徵參數向量,所述sdc特徵向量由所述標準語音語料的gfcc特徵向量擴展而成;
選取具有最大的所述模型概率得分的語種模型對應的語種作為所述待評分語音的語種識別結果。
作為更優選地,所述方法還包括:
在錄製待評分語音之前,錄製不同語種的標準語音;
對每個語種的標準語音進行預處理,得到每個語種的標準語音語料;
提取每個語種的所述標準語音語料的特徵參數;其中,所述標準語音語料的特徵參數包括gfcc特徵向量和sdc特徵向量;
對每個語種的所述標準語音計算所有幀的gfcc特徵向量和sdc特徵向量的均值特徵向量;
將gfcc特徵向量的均值特徵向量與sdc特徵向量的均值特徵向量合成為一個特徵向量,以得到每個語種的標準特徵向量;
將每個語種的標準特徵向量作為改進的gmm-ubm模型的輸入向量,採用混合型聚類算法對輸入了所述輸入向量的所述改進的gmm-ubm模型進行初始化;其中,混合型聚類算法包括:採用劃分聚類的算法對所述輸入向量的所述改進的gmm-ubm模型進行初始化,得到初始化聚類;採用層次聚類的算法對所述初始化聚類進行合併。
在對所述gmm-ubm模型進行初始化後,通過em算法訓練得到ubm模型;
通過ubm模型進行自適應變換得到各個語種的gmm模型,作為所述標準語音的每個語種模型。在所述方法的一個實施方式中,所述對所述待評分語音的情感進行分數評定的具體步驟為:
提取所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵;
採用基於概率神經網絡的語音情感識別方法將所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵與預先建立的情感語料庫進行匹配,得到所述待評分語音的情感分析結果;
根據所述標準答案的情感分析結果對所述待評分語音的情感分析結果進行評分。
在所述方法的一個實施方式中,所述對所述待評分語音的重音進行分數評定的具體步驟為:
獲取所述待評分語音語料的短時能量特徵曲線;
根據所述短時能量特徵曲線設定重音能量閾值和非重音能量閾值;
根據非重音能量閾值對所述待評分語音語料劃分子單元;
在所有所述子單元中去除持續時間小於設定值的所述子單元,得到有效子單元;
在所有所述有效子單元中去除能量閾值小於所述重音能量閾值的所述有效子單元,得到重音單元;
獲取各個所述重音單元的重音位置,得到各個所述重音單元的起始幀位置與結束幀位置;
根據所述待評分語音與所述標準答案的各個所述重音單元的重音位置計算重音位置差異;
根據所述重音位置差異對所述待評分語音進行評分。
本發明另一方面還提供了一種英語口語發音評分系統,所述系統包括:
待評分語音預處理模塊,用於對預先錄製的待評分語音進行預處理,得到待評分語音語料;
待評分語音參數提取模塊,用於提取所述待評分語音語料的特徵參數;
語種識別模塊,用於根據所述待評分語音語料的特徵參數對所述待評分語音進行語種識別,以得到所述待評分語音的語種識別結果;
語種判斷模塊,用於根據所述待評分語音的語種識別結果判斷所述待評分語音的語種是否為英語;
評分模塊,用於當判定所述待評分語音的語種為英語時,分別對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音進行評分;
總分加權模塊,用於對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音的分數按照對應的權重係數進行加權,以得到總分;
不予評分模塊,用於當判定所述待評分語音的語種不是英語時,反饋語種錯誤信息。
作為更優選地,所述語種識別模塊包括:
模型概率得分計算模塊,用於基於改進的gmm-ubm模型識別方法根據所述待評分語音語料的特徵參數計算標準語音的每個語種模型的模型概率得分;其中,所述待評分語音語料的特徵參數包括gfcc特徵參數向量和sdc特徵參數向量,所述sdc特徵向量由所述標準語音語料的gfcc特徵向量擴展而成;
語種選取模塊,用於選取具有最大的所述模型概率得分的語種模型對應的語種作為所述待評分語音的語種識別結果。
作為更優選地,所述系統還包括:
標準語音錄製模塊,用於在錄製待評分語音之前,錄製不同語種的標準語音;
標準語音預處理模塊,用於對每個語種的標準語音進行預處理,得到每個語種的標準語音語料;
標準語音特徵參數提取模塊,用於提取每個語種的所述標準語音語料的特徵參數;其中,所述標準語音語料的特徵參數包括gfcc特徵向量和sdc特徵向量;
均值特徵向量計算模塊,用於對每個語種的所述標準語音計算所有幀的gfcc特徵向量和sdc特徵向量的均值特徵向量;
特徵向量合成模塊,用於將gfcc特徵向量的均值特徵向量與sdc特徵向量的均值特徵向量合成為一個特徵向量,以得到每個語種的標準特徵向量;
初始化模塊,用於將每個語種的標準特徵向量作為改進的gmm-ubm模型的輸入向量,採用混合型聚類算法對輸入了所述輸入向量的所述改進的gmm-ubm模型進行初始化;其中,混合型聚類算法包括:採用劃分聚類的算法對所述輸入向量的所述改進的gmm-ubm模型進行初始化,得到初始化聚類;採用層次聚類的算法對所述初始化聚類進行合併。
ubm模型生成模塊,用於在對所述gmm-ubm模型進行初始化後,通過em算法訓練得到ubm模型;
語種模型生成模塊,用於通過ubm模型進行自適應變換得到各個語種的gmm模型,作為所述標準語音的每個語種模型。在所述系統的一個實施方式中,所述評分模塊包括:
情感特徵提取單元,用於提取所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵;
情感特徵匹配單元,用於採用基於概率神經網絡的語音情感識別方法將所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵與預先建立的情感語料庫進行匹配,得到所述待評分語音的情感分析結果;
情感評分單元,用於根據所述標準答案的情感分析結果對所述待評分語音的情感分析結果進行評分。
在所述系統的一個實施方式中,所述評分模塊包括:
重音特徵曲線獲取單元,用於獲取所述待評分語音語料的短時能量特徵曲線;
能力閾值設定單元,用於根據所述短時能量特徵曲線設定重音能量閾值和非重音能量閾值;
子單元劃分單元,用於根據非重音能量閾值對所述待評分語音語料劃分子單元;
有效子單元提取單元,用於在所有所述子單元中去除持續時間小於設定值的所述子單元,得到有效子單元;
重音單元選取單元,用於在所有所述有效子單元中去除能量閾值小於所述重音能量閾值的所述有效子單元,得到重音單元;
重音位置獲取單元,用於獲取各個所述重音單元的重音位置,得到各個所述重音單元的起始幀位置與結束幀位置;
重音位置比較單元,用於根據所述待評分語音與所述標準答案的各個所述重音單元的重音位置計算重音位置差異;
重音評分單元,用於根據所述重音位置差異對所述待評分語音進行評分。
相比於現有技術,本發明具有如下突出的有益效果:本發明提供了一種英語口語發音評分方法和系統,其中方法包括:對預先錄製的待評分語音進行預處理,得到待評分語音語料;提取所述待評分語音語料的特徵參數;根據所述待評分語音語料的特徵參數與標準語音的每個語種模型對所述待評分語音進行語種識別,以得到所述待評分語音的語種識別結果;根據所述待評分語音的語種識別結果判斷所述待評分語音的語種是否為英語;當判定所述待評分語音的語種為英語時,分別對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音進行評分;對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音的分數按照對應的權重係數進行加權,以得到總分。本發明提供的英語口語發音評分方法和系統,通過待評分語音語料的特徵參數與標準語音的每個語種模型對待評分語音進行語種識別和語種判斷,防止了對語種不符合要求的語音進行評分,提高了評分的合理性和準確性,進一步保證了評分系統的穩定性和高效率;通過分別對待評分語音的情感、語速、節奏、語調、發音準確度和重音這六項指標進行評分並對分數按照對應的權重係數進行加權,實現了對學生口語發音質量的多方面考察,提高了評分的客觀性,且便於教師針對不同題目設置各項指標的權重係數進行加權,使得評分方法更加靈活;通過反饋語種錯誤信息,對使用了不符合英語的語音進行發音的情況進行反饋,增加了評分系統的可靠性和智能性,便於教師通過迅速掌握評分失敗情況做出對考考場情況作出相應處理、對考試人員進行警示等其他措施,提高了教學工作的質量。
附圖說明
圖1是本發明提供的英語口語發音評分方法的第一實施例的流程示意圖;
圖2是本發明提供的英語口語發音評分系統的第一實施例的結構示意圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
參見圖1,是本發明提供的英語口語發音評分方法的第一實施例的流程示意圖,所述方法包括:
s101,對預先錄製的待評分語音進行預處理,得到待評分語音語料;
s102,提取所述待評分語音語料的特徵參數;
s103,根據所述待評分語音語料的特徵參數對所述待評分語音進行語種識別,以得到所述待評分語音的語種識別結果;
s104,根據所述待評分語音的語種識別結果判斷所述待評分語音的語種是否為英語;
s105,當判定所述待評分語音的語種為英語時,分別對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音進行評分;
s106,對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音的分數按照對應的權重係數進行加權,以得到總分;
s107,當判定所述待評分語音的語種不是英語時,反饋語種錯誤信息。
在一種可選的實施方式中,所述對預先錄製的所述待評分語音進行預處理,包括:對所述待評分語音進行預加重、分幀、加窗和端點檢測。
即通過對所述待評分語音進行預加重,實現對其高頻部分加以提升,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中。
即通過對所述待評分語音進行分幀,獲得在短時間內相對穩定的語音信號,有利於後期對語音數據的進一步處理。
在一種可選的實施方式中,採用半幀交疊分幀的方式對所述待評分語音進行分幀。
即通過採用半幀交疊分幀的方式,考慮了語音信號之間的相關性,從而保證了各個語音幀之間的平滑過渡,提高了語音信號處理的精確度。
在一種可選的實施方式中,採用漢明窗對所述待評分語音進行分幀。
即通過採用漢明窗得到頻譜相對平滑的語音信號,有利於後期對語音數據的進一步處理。
在一種可選的實施方式中,採用雙門限比較法對所述待評分語音進行端點檢測。
即通過雙門限比較法有效地避免了噪聲的影響,提高了檢測度,使語音特徵提取更具高效性,有利於後期對語音數據的進一步處理。
即通過對所述待評分語音進行預加重、分幀、加窗和端點檢測實現待評分語音的預處理,提高待評分語音的檢測度,便於更好地提取待評分語音的特徵參數。
在一種可選的實施方式中,所述對所述待評分語音的語速進行評分,包括:獲取所述待評分語音使用的單詞個數;獲取所述待評分語音的時長;根據所述單詞個數和所述時長計算所述待評分語音的語速;將所述待評分語音的語速與所述標準答案的語速進行比較,得到語速比較結果;根據所述語速比較結果對所述待評分語音的語速進行評分。
即通過單詞個數和待評分語音的時長可快速地得到待評分語音的語速,再通過與標準答案的語速進行比較,將語速評分與標準答案的語速要求聯繫起來,提高了評分的客觀性和合理性。
在一種可選的實施方式中,所述對所述待評分語音的發音準確度進行評分,包括:提取所述待評分語音的特徵參數;基於預先根據所述標準語音的特徵參數建立的語音模型根據所述待評分語音的特徵參數對所述待評分語音的內容進行匹配,得到匹配結果;根據所述待評分語音的特徵參數和所述標準語音的特徵參數計算相關係數;根據所述識別結果和所述相關係數對所述待評分語音的發音準確度進行評分;其中,所述匹配結果用於表示所述待評分語音的內容是否正確。
即通過結合所述識別結果和所述相關係數對所述待評分語音的發音準確度進行評分,提高了評分的準確性和客觀性。
在一種可選的實施方式中,所述對所述待評分語音的節奏進行評分,包括:根據所述標準答案和所述待評分語音計算dpvi(差異性成對變異指數,thedistinctpairwisevariabilityindex)參數;根據所述dpvi參數對所述待評分語音的節奏進行評分。
需要說明的是,標準語音包含多個語種的標準發音;標準答案是使用所述待評分語音進行作答的題目的標準答案;所述權重係數為預先設置。
即通過待評分語音語料的特徵參數與標準語音的每個語種模型對待評分語音進行語種識別和語種判斷,防止了對語種不符合要求的語音進行評分,提高了評分的合理性和準確性,進一步保證了評分系統的穩定性和高效率;通過分別對待評分語音的情感、語速、節奏、語調、發音準確度和重音這六項指標進行評分並對分數按照對應的權重係數進行加權,實現了對學生口語發音質量的多方面考察,提高了評分的客觀性,且便於教師針對不同題目設置各項指標的權重係數進行加權,使得評分方法更加靈活;通過反饋語種錯誤信息,對使用了不符合英語的語音進行發音的情況進行反饋,增加了評分系統的可靠性和智能性,便於教師通過迅速掌握評分失敗情況做出對考考場情況作出相應處理,提高了教學工作的質量。
作為更優選地,所述根據所述待評分語音語料的特徵參數對所述待評分語音進行語種識別,以得到所述待評分語音的語種識別結果,包括:
基於改進的gmm-ubm模型識別方法根據所述待評分語音語料的特徵參數計算標準語音的每個語種模型的模型概率得分;其中,所述待評分語音語料的特徵參數包括gfcc特徵參數向量和sdc特徵參數向量,所述sdc特徵向量由所述標準語音語料的gfcc特徵向量擴展而成;
選取具有最大的所述模型概率得分的語種模型對應的語種作為所述待評分語音的語種識別結果。
需要說明的是,改進的gmm-ubm模型識別方法是指:根據所述待評分語音語料的特徵參數對待評分語音的每一幀計算每個語種的gmm模型的對數似然比,作為每一幀每個語種的gmm模型的混合分量;根據所述待評分語音語料的特徵參數對待評分語音的每一幀計算每個語種的ubm模型的對數似然比,作為每一幀每個語種的ubm模型的混合分量;每一幀每個語種的gmm模型的混合分量與每一幀每個語種的ubm模型的混合分量的差值,得到每一幀每個語種模型的對數差;將所述待評分語音語料的所有幀的每個語種模型的對數差進行加權,得到所述每個語種模型的模型概率得分。
即通過計算每個語種模型的模型概率得分快速地識別所述待評分語音的語種,提高了語種識別速度,進而提高了評分的效率。
作為更優選地,所述方法還包括:
在錄製待評分語音之前,錄製不同語種的標準語音;
對每個語種的標準語音進行預處理,得到每個語種的標準語音語料;
提取每個語種的所述標準語音語料的特徵參數;其中,所述標準語音語料的特徵參數包括gfcc特徵向量和sdc特徵向量;對每個語種的所述標準語音計算所有幀的gfcc(grammatonefrequencycepstrumcoefficient,伽馬通濾波器倒譜係數)特徵向量和sdc(shifteddeltacepstra,移位差分倒譜特徵)特徵向量的均值特徵向量;
將gfcc特徵向量的均值特徵向量與sdc特徵向量的均值特徵向量合成為一個特徵向量,以得到每個語種的標準特徵向量;
將每個語種的標準特徵向量作為改進的gmm-ubm模型的輸入向量,採用混合型聚類算法對輸入了所述輸入向量的所述改進的gmm-ubm模型進行初始化;其中,混合型聚類算法包括:採用劃分聚類的算法對所述輸入向量的所述改進的gmm-ubm模型進行初始化,得到初始化聚類;採用層次聚類的算法對所述初始化聚類進行合併。
在對所述gmm-ubm模型進行初始化後,通過em(expectationmaximizationalgorithm,期望最大化算法)算法訓練得到ubm(universalbackgroundmodel,通用背景模型)模型;
通過ubm模型進行自適應變換得到各個語種的gmm(gaussianmixturemodel,高斯混合模型)模型,作為所述標準語音的每個語種模型。即通過gfcc特徵向量和sdc特徵向量得到標準特徵向量,從而得到更豐富的特徵信息,提高了語種識別率;通過採用混合k-means和層次聚類的算法進行初始化,減少層次算法運算的複雜度與迭代深度,進而縮短了處理時間,提高了評分效率;通過採用改進的gmm-ubm模型訓練方法對每個語種的標準語音進行模型訓練,通過拉大各個語種的gmm模型之間的距離,提高了語種識別的準確性和效率。
本發明還提供了一種英語口語發音評分方法的第二實施例,所述方法包括上述英語口語發音評分方法的第一實施例中的步驟s101~s106,還進一步限定了,所述對所述待評分語音的情感進行分數評定的具體步驟為:
提取所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵;
採用基於概率神經網絡的語音情感識別方法將所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵與預先建立的情感語料庫進行匹配,得到所述待評分語音的情感分析結果;
根據所述標準答案的情感分析結果對所述待評分語音的情感分析結果進行評分。
在本實施例中,所述情感分析結果包括情感種類;例如,情感種類為高興、悲傷或正常。
在本實施例中,基頻特徵為基音頻率特徵,其包括基頻的統計學變化參數,由於基因周期是發濁音時聲帶震動所引起的周期,因此基頻特徵用於反映情感的變化;短時能量特徵是指短時間內的聲音能量,能量大則說明聲音的音量大,通常當人們憤怒或者生氣的時候,發音的音量較大;當人們沮喪或者悲傷的時候,往往講話聲音較低,短時能量特徵包括短時能量的統計學變化參數;共振峰特徵反映的是聲道特徵,其包括共振峰的統計學變化參數,當人處於不同情感狀態時,其神經的緊張程度不同,導致聲道形變,共振峰頻率發生相應的改變;概率神經網絡(probabilisticneuralnetwork,pnn)是基於統計原理的神經網絡模型,常用於模式分類。
在一種可選的實施方式中,所述採用基於概率神經網絡的語音情感識別方法將所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵與預先建立的情感語料庫進行匹配,得到所述待評分語音的情感分析結果,具體為:採用線性預測方法對所述待評分語音的每幀語音的共振峰參數進行提取;採用分段聚類法將所述共振峰參數規整為32階的語音情感特徵參數,從而與所述基頻特徵和所述短時能量特徵構成46階的語音情感特徵參數;採用基於概率神經網絡的語音情感識別方法將所述語音情感特徵參數與預先建立的情感語料庫進行匹配,得到所述待評分語音的情感分析結果。
在一種可選的實施方式中,根據所述標準答案的情感分析結果對所述待評分語音的情感分析結果進行評分,具體為:當所述標準答案的情感種類與所述待評分語音的情感種類相同時,對所述待評分語音評定一定分值的分數。
即通過提取待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵以及語音情感識別方法,有效地獲取待評分語音的情感分析結果,進一步提高了評分的合理性和準確性。
本發明還提供了一種英語口語發音評分方法的第三實施例,所述方法包括上述英語口語發音評分方法的第一實施例中的步驟s101~s106,還進一步限定了,所述對所述待評分語音的重音進行分數評定的具體步驟為:
獲取所述待評分語音語料的短時能量特徵曲線;
根據所述短時能量特徵曲線設定重音能量閾值和非重音能量閾值;
根據非重音能量閾值對所述待評分語音語料劃分子單元;
在所有所述子單元中去除持續時間小於設定值的所述子單元,得到有效子單元;
在所有所述有效子單元中去除能量閾值小於所述重音能量閾值的所述有效子單元,得到重音單元;
獲取各個所述重音單元的重音位置,得到各個所述重音單元的起始幀位置與結束幀位置;
根據所述待評分語音與所述標準答案的各個所述重音單元的重音位置計算重音位置差異;
根據所述重音位置差異對所述待評分語音進行評分。
在一種可選的實施方式中,根據所述待評分語音與所述標準答案的各個所述重音單元的重音位置計算重音位置差異,具體為:根據如下公式計算重音位置差異:
其中,diff是重音位置差異,n是所述重音單元的數量,lenstd是標準答案語音語料的幀長度,leftstd[i]是標準答案語音語料的第i個重音單元的起始幀位置,rightstd[i]是標準答案語音語料的第i個重音單元的結束幀位置,lentest是待評分語音語料的幀長度,lefttest[i]是待評分語音語料的第i個重音單元的起始幀位置,righttest[i]是待評分語音語料的第i個重音單元的結束幀位置。
即通過短時能量特徵曲線得到所述待評分語音與所述標準答案的重音位置差異並根據重音位置差異進行評分,大大減少了計算量,提高了評分的效率。
本發明另一方面還提供了一種英語口語發音評分系統,所述系統包括:
待評分語音預處理模塊201,用於對預先錄製的待評分語音進行預處理,得到待評分語音語料;
待評分語音參數提取模塊202,用於提取所述待評分語音語料的特徵參數;
語種識別模塊203,用於根據所述待評分語音語料的特徵參數與標準語音的每個語種模型對所述待評分語音進行語種識別,以得到所述待評分語音的語種識別結果;
語種判斷模塊204,用於根據所述待評分語音的語種識別結果判斷所述待評分語音的語種是否為英語;
評分模塊205,用於當判定所述待評分語音的語種為英語時,分別對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音進行分數評定;
總分加權模塊206,用於對所述待評分語音的情感、語速、節奏、語調、發音準確度和重音的分數按照對應的權重係數進行加權,以得到總分不予評分模塊。
在一種可選的實施方式中,所述待評分語音預處理模塊包括:待評分語音預處理單元,用於對所述待評分語音進行預加重、分幀、加窗和端點檢測。
即通過對所述待評分語音進行預加重,實現對其高頻部分加以提升,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶中。
即通過對所述待評分語音進行分幀,獲得在短時間內相對穩定的語音信號,有利於後期對語音數據的進一步處理。
在一種可選的實施方式中,採用半幀交疊分幀的方式對所述待評分語音進行分幀。
即通過採用半幀交疊分幀的方式,考慮了語音信號之間的相關性,從而保證了各個語音幀之間的平滑過渡,提高了語音信號處理的精確度。
在一種可選的實施方式中,採用漢明窗對所述待評分語音進行分幀。
即通過採用漢明窗得到頻譜相對平滑的語音信號,有利於後期對語音數據的進一步處理。
在一種可選的實施方式中,採用雙門限比較法對所述待評分語音進行端點檢測。
即通過雙門限比較法有效地避免了噪聲的影響,提高了檢測度,使語音特徵提取更具高效性,有利於後期對語音數據的進一步處理。
即通過對所述待評分語音進行預加重、分幀、加窗和端點檢測實現待評分語音的預處理,提高待評分語音的檢測度,便於更好地提取待評分語音的特徵參數。
在一種可選的實施方式中,所述評分模塊包括:單詞個數獲取單元,用於獲取所述待評分語音使用的單詞個數;時長獲取單元,用於獲取所述待評分語音的時長;語速計算單元,用於根據所述單詞個數和所述時長計算所述待評分語音的語速;語速比較單元,用於將所述待評分語音的語速與所述標準答案的語速進行比較,得到語速比較結果;語速評分單元,用於根據所述語速比較結果對所述待評分語音的語速進行評分。
即通過單詞個數和待評分語音的時長可快速地得到待評分語音的語速,再通過與標準答案的語速進行比較,將語速評分與標準答案的語速要求聯繫起來,提高了評分的客觀性和合理性。
在一種可選的實施方式中,所述評分模塊包括:發音準確度參數提取單元,用於提取所述待評分語音的特徵參數;發音準確度匹配單元,用於基於預先根據所述標準答案的特徵參數建立的語音模型根據所述待評分語音的特徵參數對所述待評分語音的內容進行匹配,得到匹配結果;發音準確度相關係數計算單元,用於根據所述待評分語音的特徵參數和所述標準答案的特徵參數計算相關係數;發音準確度評分單元,用於根據所述識別結果和所述相關係數對所述待評分語音的發音準確度進行評分;其中,所述匹配結果用於表示所述待評分語音的內容是否正確。
即通過結合所述識別結果和所述相關係數對所述待評分語音的發音準確度進行評分,提高了評分的準確性和客觀性。
在一種可選的實施方式中,所述評分模塊包括:指數參數計算單元,用於根據所述標準答案和所述待評分語音計算dpvi(差異性成對變異指數,thedistinctpairwisevariabilityindex)參數;節奏評分單元,用於根據所述dpvi參數對所述待評分語音的節奏進行評分。
需要說明的是,標準語音包含多個語種的標準發音;標準答案是使用所述待評分語音進行作答的題目的標準答案;所述權重係數為預先設置。
即通過待評分語音語料的特徵參數與標準語音的每個語種模型對待評分語音進行語種識別和語種判斷,防止了對語種不符合要求的語音進行評分,提高了評分的合理性和準確性,進一步保證了評分系統的穩定性和高效率;通過分別對待評分語音的情感、語速、節奏、語調、發音準確度和重音這六項指標進行評分並對分數按照對應的權重係數進行加權,實現了對學生口語發音質量的多方面考察,提高了評分的客觀性,且便於教師針對不同題目設置各項指標的權重係數進行加權,使得評分方法更加靈活;通過反饋語種錯誤信息,對使用了不符合英語的語音進行發音的情況進行反饋,增加了評分系統的可靠性和智能性,便於教師通過迅速掌握評分失敗情況做出對考場情況進行處理,提高了教學工作的質量。
作為更優選地,所述語種識別模塊包括:
模型概率得分計算模塊,用於基於改進的gmm-ubm模型識別方法根據所述待評分語音語料的特徵參數計算標準語音的每個語種模型的模型概率得分;其中,所述待評分語音語料的特徵參數包括gfcc特徵參數向量和sdc特徵參數向量,所述sdc特徵向量由所述標準語音語料的gfcc特徵向量擴展而成;
語種選取模塊,用於選取具有最大的所述模型概率得分的語種模型對應的語種作為所述待評分語音的語種識別結果。
需要說明的是,改進的gmm-ubm模型識別方法是指:根據所述待評分語音語料的特徵參數對待評分語音的每一幀計算每個語種的gmm模型的對數似然比,作為每一幀每個語種的gmm模型的混合分量;根據所述待評分語音語料的特徵參數對待評分語音的每一幀計算每個語種的ubm模型的對數似然比,作為每一幀每個語種的ubm模型的混合分量;每一幀每個語種的gmm模型的混合分量與每一幀每個語種的ubm模型的混合分量的差值,得到每一幀每個語種模型的對數差;將所述待評分語音語料的所有幀的每個語種模型的對數差進行加權,得到所述每個語種模型的模型概率得分。
即通過計算每個語種模型的模型概率得分快速地識別所述待評分語音的語種,提高了語種識別速度,進而提高了評分的效率。
作為更優選地,所述系統還包括:
標準語音錄製模塊,用於在錄製待評分語音之前,錄製不同語種的標準語音;
標準語音預處理模塊,用於對每個語種的標準語音進行預處理,得到每個語種的標準語音語料;
標準語音特徵參數提取模塊,用於提取每個語種的所述標準語音語料的特徵參數;其中,所述標準語音語料的特徵參數包括gfcc特徵向量和sdc特徵向量;
均值特徵向量計算模塊,用於對每個語種的所述標準語音計算所有幀的gfcc特徵向量和sdc特徵向量的均值特徵向量;
特徵向量合成模塊,用於將gfcc特徵向量的均值特徵向量與sdc特徵向量的均值特徵向量合成為一個特徵向量,以得到每個語種的標準特徵向量;
初始化模塊,用於將每個語種的標準特徵向量作為改進的gmm-ubm模型的輸入向量,採用混合型聚類算法對輸入了所述輸入向量的所述改進的gmm-ubm模型進行初始化;其中,混合型聚類算法包括:採用劃分聚類的算法對所述輸入向量的所述改進的gmm-ubm模型進行初始化,得到初始化聚類;採用層次聚類的算法對所述初始化聚類進行合併。
ubm模型生成模塊,用於在對所述gmm-ubm模型進行初始化後,通過em算法訓練得到ubm模型;
語種模型生成模塊,用於通過ubm模型進行自適應變換得到各個語種的gmm模型,作為所述標準語音的每個語種模型。
即通過gfcc特徵向量和sdc特徵向量得到標準特徵向量,從而得到更豐富的特徵信息,提高了語種識別率;通過採用混合k-means和層次聚類的算法進行初始化,減少層次算法運算的複雜度與迭代深度,進而縮短了處理時間,提高了評分效率;通過採用改進的gmm-ubm模型訓練方法對每個語種的標準語音進行模型訓練,通過拉大各個語種的gmm模型之間的距離,提高了語種識別的準確性和效率。
本發明還提供了一種英語口語發音評分系統的第二實施例,其包括上述英語口語發音評分系統的第一實施例的待評分語音預處理模塊201、待評分語音參數提取模塊202、語種識別模塊203、語種判斷模塊204、評分模塊205和總分加權模塊206不予評分模塊,還進一步限定了,所述評分模塊包括:
情感特徵提取單元,用於提取所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵;
情感特徵匹配單元,用於採用基於概率神經網絡(probabilisticneuralnetwork,pnn)的語音情感識別方法將所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵與預先建立的情感語料庫進行匹配,得到所述待評分語音的情感分析結果;
情感評分單元,用於根據所述標準答案的情感分析結果對所述待評分語音的情感分析結果進行評分。
在本實施例中,所述情感分析結果包括情感種類;例如,情感種類為高興、悲傷或正常。
在本實施例中,基頻特徵為基音頻率特徵,其包括基頻的統計學變化參數,由於基因周期是發濁音時聲帶震動所引起的周期,因此基頻特徵用於反映情感的變化;短時能量特徵是指短時間內的聲音能量,能量大則說明聲音的音量大,通常當人們憤怒或者生氣的時候,發音的音量較大;當人們沮喪或者悲傷的時候,往往講話聲音較低,短時能量特徵包括短時能量的統計學變化參數;共振峰特徵反映的是聲道特徵,其包括共振峰的統計學變化參數,當人處於不同情感狀態時,其神經的緊張程度不同,導致聲道形變,共振峰頻率發生相應的改變;概率神經網絡(probabilisticneuralnetwork,pnn)是基於統計原理的神經網絡模型,常用於模式分類。
在一種可選的實施方式中,所述採用基於概率神經網絡的語音情感識別方法將所述待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵與預先建立的情感語料庫進行匹配,得到所述待評分語音的情感分析結果,具體為:採用線性預測方法對所述待評分語音的每幀語音的共振峰參數進行提取;採用分段聚類法將所述共振峰參數規整為32階的語音情感特徵參數,從而與所述基頻特徵和所述短時能量特徵構成46階的語音情感特徵參數;採用基於概率神經網絡(probabilisticneuralnetwork,pnn)的語音情感識別方法將所述語音情感特徵參數與預先建立的情感語料庫進行匹配,得到所述待評分語音的情感分析結果。
在一種可選的實施方式中,所述情感評分單元包括:情感分數評定子單元,用於當所述標準答案的情感種類與所述待評分語音的情感種類相同時,對所述待評分語音評定一定分值的分數。
即通過提取待評分語音語料的基頻特徵、短時能量特徵和共振峰特徵以及語音情感識別方法,有效地獲取待評分語音的情感分析結果,進一步提高了評分的合理性和準確性。
本發明還提供了一種英語口語發音評分系統的第三實施例,其包括上述英語口語發音評分系統的第一實施例的待評分語音預處理模塊201、待評分語音參數提取模塊202、語種識別模塊203、語種判斷模塊204、評分模塊205和總分加權模塊206不予評分模塊,還進一步限定了,所述評分模塊包括:
重音特徵曲線獲取單元,用於獲取所述待評分語音語料的短時能量特徵曲線;
能力閾值設定單元,用於根據所述短時能量特徵曲線設定重音能量閾值和非重音能量閾值;
子單元劃分單元,用於根據非重音能量閾值對所述待評分語音語料劃分子單元;
有效子單元提取單元,用於在所有所述子單元中去除持續時間小於設定值的所述子單元,得到有效子單元;
重音單元選取單元,用於在所有所述有效子單元中去除能量閾值小於所述重音能量閾值的所述有效子單元,得到重音單元;
重音位置獲取單元,用於獲取各個所述重音單元的重音位置,得到各個所述重音單元的起始幀位置與結束幀位置;
重音位置比較單元,用於根據所述待評分語音與所述標準答案的各個所述重音單元的重音位置計算重音位置差異;
重音評分單元,用於根據所述重音位置差異對所述待評分語音進行評分。
在一種可選的實施方式中,所述根據所述待評分語音與所述標準答案的各個所述重音單元的重音位置計算重音位置差異,具體為:根據如下公式計算重音位置差異:
其中,diff是重音位置差異,n是所述重音單元的數量,lenstd是標準答案語音語料的幀長度,leftstd[i]是標準答案語音語料的第i個重音單元的起始幀位置,rightstd[i]是標準答案語音語料的第i個重音單元的結束幀位置,lentest是待評分語音語料的幀長度,lefttest[i]是待評分語音語料的第i個重音單元的起始幀位置,righttest[i]是待評分語音語料的第i個重音單元的結束幀位置。
即通過短時能量特徵曲線得到所述待評分語音與所述標準答案的重音位置差異並根據重音位置差異進行評分,大大減少了計算量,提高了評分的效率。
本發明提供的英語口語發音評分方法和系統,通過待評分語音語料的特徵參數與標準語音的每個語種模型對待評分語音進行語種識別和語種判斷,防止了對語種不符合要求的語音進行評分,提高了評分的合理性和準確性,進一步保證了評分系統的穩定性和高效率;通過分別對待評分語音的情感、語速、節奏、語調、發音準確度和重音這六項指標進行評分並對分數按照對應的權重係數進行加權,實現了對學生口語發音質量的多方面考察,提高了評分的客觀性,且便於教師針對不同題目設置各項指標的權重係數進行加權,使得評分方法更加靈活;通過反饋語種錯誤信息,對使用了不符合英語的語音進行發音的情況進行反饋,增加了評分系統的可靠性和智能性,便於教師通過迅速掌握評分失敗情況做出對考試時間進行調整等其他措施,提高了教學工作的質量。
本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程,是可以通過電腦程式來指令相關的硬體來完成,所述的程序可存儲於一計算機可讀取存儲介質中,該程序在執行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質可為磁碟、光碟、只讀存儲記憶體(read-onlymemory,rom)或隨機存儲記憶體(randomaccessmemory,ram)等。
以上所述是本發明的優選實施方式,應當指出,對於本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也視為本發明的保護範圍。