基於客觀標準的自動化口語評估系統的製作方法

2023-06-16 20:48:06 3

專利名稱：基於客觀標準的自動化口語評估系統的製作方法
技術領域：
本發明涉及語音數位訊號處理、機器學習與模式識別、專家口語評估標準領域，具體是根據口語評估專家組的試題和相應的答題範圍、量化指標、評估標準，運用計算機對考生的口語語音信號進行特徵提取、識別對齊，然後提取專家量化指標相關的口語評估特徵，根據具體評估標準，給出評估結果和診斷報告。
背景技術：
隨著全球經濟一體化的發展，學習第二門語言，提高交流能力，已經成為迫切的需求。增強口語學習，提高語言實際運用能力，逐漸被外語教學者和學習者重視。而目前的口語評估基本上都是依賴於老師的人工評估，在面對大規模考生的口語考試時，顯得效率不足，也存在評估標準掌握尺度的不一致問題。例如，實際試驗表明，同樣的考生答卷，不同的老師會給出不同的評分；即使同樣的老師，在不同的兩天中給出的評分也會不完全相同。因此，提高閱卷的效率和公證性，就成為一個重要課題。另一方面，語音識別技術已經發展到比較成熟的階段，在限定領域和環境下的語音識別精度已經達到相當高的水平，這使得計算機自動閱捲成為可能。在與口語評估專家的討論和實際實驗測試過程中，我們發現，口語評估專家評分，實際上是可以用量化指標進行描述，從而得到對考生的口語能力的客觀評估的。實驗表明，在大規模口語評估中，計算機的客觀評估標準得到的評分，可以達到評估專家的水平，同時，具有人工評分不可比擬的效率和一致性。

發明內容
本發明針對口語人工評估存在的閱卷效率低和評分一致性差的問題，設計開發了基於客觀標準的自動化口語評估系統，在結合口語評估專家知識，達到專家評估精度的同時，極大提高閱卷的效率和客觀公證性(一致性)。為達成所述目的，本發明提供的基於客觀標準的自動化口語評估系統，包括識別對齊單元、量化評估單元和標準調整單元，其中識別對齊單元接收口語語音信息、答題範圍和評估指標信息，對輸入口語語音信息進行識別和對齊，將口語語音信息生成文字，並將文字和語音進行對齊；標準調整單元，是由考試組織機構根據具體考試對象、目標和要求進行量化評估標準調整，生成並輸出最終的量化評估標準；量化評估單元分別與識別對齊單元和標準調整單元連接，量化評估單元接收評估量化指標信息、標準調整單元輸出的量化評估標準信息和識別對齊單元輸出的文字識別對齊信息，根據所述三個信息提取口語評估特徵，進行自動化評估和診斷，生成評估結果和診斷報告信息；系統通過採用統一的客觀量化指標和標準，對口語語音進行自動化評估，實現口語評估的客觀公證性，並提供基於量化信息的診斷報告。
本發明系統的主要優點有(1)以口語評估專家題庫和標準為基礎，提高口語考試的專業性和公證性；(2)以口語評估專家的答題範圍和量化考點為依據，提取客觀的量化評估特徵，提高閱卷系統的客觀公證性；(3)提供可調整的專家評估標準，適合於較大範圍的考試評估要求。

圖1為本發明的系統結構流程圖。
具體實施方式

下面結合附圖詳細說明本發明技術方案中所涉及的各個細節問題。應指出的是，所描述的實施例僅旨在便於對本發明的理解，而對其不起任何限定作用。本發明的技術方案是，利用一臺計算機，在Windows XP平臺上用VC++語言編制了一個的多線程程序，實現了基於客觀標準的自動化口語評估系統，包括識別對齊單元1、量化評估單元2和標準調整單元3，系統通過採用統一的客觀量化指標和標準，對口語語音進行自動化評估，實現口語評估的客觀公證性，並提供基於量化信息的診斷報告；其中所述識別對齊單元1，識別對齊單元1接收口語語音信息、答題範圍和評估指標信息，對輸入口語語音信息進行識別和對齊，將口語語音信息生成文字，並將文字和語音進行對齊；實現輸入口語語音的識別和對齊功能，為了提高識別和對齊的效果，本發明的識別對齊單元1採用方案包括語言模型11、語音特徵模塊12、識別對齊模塊13、通用聲學模型14 和容錯發音詞典15。通用聲學模型14是從大規模帶內容標註的口語語料訓練得到，用於描述音素的發音特徵分布的文件，是採用不同地區、不同口音影響的口語語音作為訓練集，訓練通用的三音子(Tri-Phone)聲學模型，確保聲學模型能夠比較一致地匹配各地區、各類型考生的口語語音；在本實施例中，通用聲學模型14是性別相關模型(Gender DependantModel), 即男聲和女聲採用不同的兩套模型描述，而且，在通用聲學模型14訓練中，採用了最小音素錯誤區分度訓練準則(Minimum PhoneError, MPE)和異方差線性區分性建模方法 (Heteroscedastic LinearDiscriminant Analysis, HLDA)，確保聲學匹配性能和識別效果。在本例中，男女聲的通用聲學模型，分別採用200多小時帶精確標註的訓練語料訓練得到。容錯發音詞典15是用於描述口語詞彙和發音音素的對應關係的文件，並包含常見的發音變異和發音錯誤標註信息。容錯發音詞典15是在發音詞典中加入常見的單詞口語發音變異和錯誤，確保在考生出現這類變異和錯誤時，降低語音識別路徑搜索中裁減錯誤的風險，提高口語語音的識別率。發音變異和錯誤現象，在真實的口語語音中非常常見，需要通過容錯發音詞典描述這類現象。語言模型11為N元文法模型(N-Gram)，根據口語評估專家設定的口語答題範圍，動態生成語言模型，提高識別準確率，答題範圍由口語評估專家設置，語言模型中包含常見的語法和用詞錯誤，確保語言模型11和真實的口語語音內容匹配度，提高口語語音的識別率；語法和用詞錯誤在朗讀類題型中出現較少，但在口語翻譯和話題簡述類題型中很常見，因此，這類題型的語言模型需要增加常見的語法和用詞錯誤，提高識別對齊的準確率。語音特徵模塊12，接收口語語音信息，生成口語語音倒譜特徵參數(C印strum)信息；語音特徵模塊12是將輸入口語語音信息進行數位訊號處理，變成識別和對齊需要的語音倒譜參數特徵，本實施例採用的是25ms幀長，IOms幀移的13維感知線性預測 (Perceptual Linear Predict, PLP)特徵，加上一階和二階差分，構成39維特徵向量；識別對齊模塊13，分別讀取通用聲學模型14、容錯發音詞典15和語言模型11，與語音特徵模塊12連接，接收語音特徵模塊12輸出的口語語音倒譜特徵參數信息，利用幀同步(Viterbi)搜索算法，將口語語音倒譜特徵參數信息，在容錯發音詞典15和語言模型11 的約束下，與通用聲學模型14進行動態匹配，輸出識別文字信息和對齊結果信息。識別對齊模塊13對口語語音的識別和對齊，是口語評估特徵提取的基礎，主要解決的問題是口語語音和限定領域文本的對應問題，由於答題範圍比較有限，語言模型11的口語內容的匹配程度較高，加上通用聲學模型14和口語發音匹配程度較好，容錯發音詞典 15包含常見發音變異和錯誤，可以保證識別對齊系統有比較高的識別精度。為了說明這點，我們將語音識別和對齊的數學模型簡單描述如下formula see original document page 7formula see original document page 7其中，W/為詞序列，N為詞個數，《為聲學狀態序列，If為語音特徵序列，T為時間幀數，λ為通用聲學模型14，用於計算聲學打分；P(W1N)為詞序列W/在語言模型11上的打分，，《為詞序列W/條件下，聲學狀態序列#在通用聲學模型14上的打分。第一個等式是貝葉斯(Bayes)決策公式，第二個等式是維特比(Viterbi)近似公式，由於受搜索效率限制，一般都採用第二個等式作為目標函數，搜索最優解也即語音識別結果ΑΝ*。影響語音識別的有三個因素(1) 口語內容和語言模型的匹配程度；⑵口語發音和聲學模型的匹配程度；(3)識別對齊的搜索裁減錯誤。本發明的技術方案，就是從提高語言模型的內容匹配程度、聲學模型的發音匹配程度，降低識別對齊的搜索裁減錯誤的角度來提高口語語音識別和對齊效果的利用動態生成的語言模型，更精確描述試題的答題範圍，與口語內容更好地匹配；用通用聲學模型，更好地匹配各種類考生的口語發音；利用容錯發音詞典描述常見發音變異和錯誤，使得當考生出現常見發音變異和錯誤時，系統仍然可以識別出其想要說的單詞，減少識別對齊的搜索裁減錯誤。實驗表明，利用動態生成的語言模型11、通用聲學模型14和容錯發音詞典15，對提高限定範圍、非特定口音、有常見錯誤的真實口語語音的識別性能具有重要作用。所述量化評估單元2，分別與識別對齊單元1和標準調整單元3連接，量化評估單元2接收評估量化指標信息、標準調整單元3輸出的量化評估標準信息和識別對齊單元1 輸出的文字識別對齊信息，根據所述三個信息提取口語評估特徵，進行自動化評估和診斷，生成評估結果和診斷報告信息；對識別對齊後的口語語音，從內容完整性、口語準確性、口語流利性和韻律性層面，提取量化指標對應的量化評估特徵，並參照標準調整單元3的最終評估標準，給出評估結果和診斷報告。量化評估單元2包括評估量化指標模塊21、評估標準模塊22、口語評估特徵模塊23、評估診斷模塊24、容錯發音詞典15、標準發音模型25。其中所述評估量化指標模塊21，是根據口語評估專家設定的答題範圍和評估指標，生成特定口語試題對應的評估量化指標，不同的口語試題，所關注的評估量化指標重點不同，評估量化指標可分為完整性、準確性、流利性和韻律性四類，具體含義和計算方法在後面詳述；所述容錯發音詞典15，用於描述口語詞彙和發音音素的對應關係的文件，包含常見的發音變異和發音錯誤標註信息；所述評估標準模塊22是口語評估專家輸入的默認量化評估標準，允許考試組織結構根據具體的考試對象、目的和要求，通過標準調整單元，進行適當調整並生成最終的量化指標評估標準；
所述標準發音模型25，由發音標準的語音訓練得到，用於計算發音的準確度，將輸入語音特徵和標準發音模型比對，計算發音準確度，以及發音有缺陷的單詞比例。在口語準確性評估中，需要用到標準發音模型25，用于衡量對齊後的考生發音和標準發音模型25的匹配程度。這裡標準發音模型25採用不同於識別對齊的通用聲學模型 14，而是採用發音非常標準的語料訓練得到，作為考生需要達到的目標。對每段對齊到音素之後的特徵片斷，我們都可以用後驗概率或者似然比形式，其發音準確程度計算如下logP(S I Χ；) = —Σ {log P{Xt I 5) 一 log [P(Xt \ Q)}
e-s + 1 !=sq其中，s和e為音素S對齊得到的起始和終止幀數。如果Q是包含音素S在內的所有音素，則上式計算的就是音素S的對數後驗概率；如果Q是不包含音素S的其它競爭音素，則上式計算的就是音素S的對數似然比。以上兩者都可以作為音素S的發音準確度的指標，判斷音素髮音是否有問題，還需要一個檢測門限，用於控制發音錯誤檢測的尺度。所述口語評估特徵模塊23與識別對齊模塊13、評估量化指標模塊21、容錯發音詞典15和標準發音模型25連接，根據評估量化指標模塊21的指標要求，從識別對齊好的口語語音中提取評估用的完整性、準確性、流利性和韻律性相關的量化指標；評估特徵來源於口語評估專家的知識，通過整理專家量化指標(考點)，可以將這些考點歸為完整性、準確性、流利性和韻律性四類評估特徵。這四類評估特徵，實際上就是量化指標完成情況的統計值，反映考生對特定口語試題考查要求的掌握程度，其意義和計算方法如下內容完整性是計算完成答題要求的程度，所述答題要求的程度在識別對齊的基礎上，利用標準發音模型比對，計算各單詞發音的後驗概率，後驗概率高於特定門限的作為有效答題部分，統計有效答題語音和要求的答題內容的比例；口語準確性是計算朗讀中單詞發音和標準模型的匹配程度，發音有明顯問題的單詞比例，話題簡述中語法錯誤；所述口語準確性分為兩個部分一個是總體的發音良好程度(Goodness of Pronunciation，GOP)，用單詞發音的平均對數後驗概率表示；利用後驗概率設置門限、或者支持向量機(Support Vector Machine, SVM)檢測發音錯誤率，統計發音有問題和缺陷的單詞比例，在識別對齊過程中，採用容錯發音詞典和包含語法、用詞錯誤的答題範圍生成的語言模型，用於對常見發音和用詞錯誤進行檢測；口語流利性是計算平均有效語速、插入數量、連讀、失去爆破和同化等單詞連貫情況，在識別對齊之後，所述語速由單詞的個數和語句的持續時間比值計算，語速以篇章為單位統計句子一級的平均語速；口語答題中的猶豫、重複、修正數量從識別對齊好的語音上統計；口語答題中的連讀、失去爆破和同化，在發音詞典中已經加入，並根據維特比對齊的結果判斷是否被採用，並統計其個數。口語韻律性是計算意群停頓、重讀弱讀、語氣語調的口語特徵；所述意群停頓從識別對齊的語音上計算，在合理意群停頓上靜音的持續時間是否達到停頓的要求，以及在非合理停頓的地方出現異常停頓的個數；重讀弱讀計算是根據發音的語調、相對強度和持續時間，判斷是否為有效重讀和弱讀；語氣語調是根據基音(Pitch)曲線的走向，判斷考生朗讀是否注意語氣語調變化，在升降調的地方是否應用得當。由於不同的試題篇章，具體的考點個數不會完全一樣，因此，評估特徵主要採用比例形式計算，保持篇章之間的可比性。對不同考查重點的篇章，設計的考點也不一樣，需要有針對性的選擇篇章，並標記量化指標考點。所述評估診斷模塊24，分別與口語評估特徵模塊23和評估標準模塊22連接，根據評估標準模塊22輸出的最終量化指標評估標準，和提取到的完整性、準確性、流利性和韻律性相關的量化口語評估指標，通過特徵映射方法進行最終的評估，並給出相應的診斷報告。通過評估特徵計算學生打分可以有很多方法，本發明採用以下兩種策略線性加權將各評估特徵歸一化到0 1之間的值，然後按各因素線性加權的方法，計算得到總分。例如，假設某次考試的完整性、準確性、流利性、韻律性權重分別為0. 70、 0. 15,0. 10,0. 05，某考生對應的評估特徵分別為0. 9,0. 9,0. 8,0. 7，則總分為=IOX (0. 70 X0. 9+0. 15X0. 9+0. 10X0. 8+0. 05X0. 7) = 8. 8 分，其中，10 為評分範圍，這裡為 10 分制。這種方法實際上是基於專家規則的方法，比較簡單直觀，容易調整，是最基本的評估方法。實際上為了提高精度，通常採用分段線性加權方法，對不同水平的考生採用不同的加權策略。特徵分類根據評估特徵和對應的專家評估結果，訓練一個分類器，通過分類方法進行打分。常用的分類器包括線性分類器、混合高斯模型、支持向量機、神經網絡、決策樹等，或者這些分類器的融合，都可以用於訓練評分模型。上述線性加權方法，可以認為是特徵分類方法的一個特例，其權重可以通過提供專家評估樣本，採用最小均方差等準則訓練得到。所述標準調整單元3，是由考試組織機構根據考試的對象、目的和要求，適當調整評估標準，用以更好地達到考試目的；所述評估標準的調整是利用一組考生樣本，通過對專家評估結果進行數據擬合的方法，得到相應的評估門限和權重，根據考試對象、目的和要求調整評估特徵的門限以及評估重點的調整，所述評估門限是對小學生、初中生、高中生、大學生、專業人員的完整性、準確性、流利性和韻律性要求設定不相同的評估權重和發音錯誤檢測門限。口語評估特徵模塊24，對於不同評估對象、目標和要求的考試來說都是一樣的，都是根據量化評估指標模塊21的要求提取相應的口語評估特徵，只是特定的考試側重點不同，會有不同的考查權重。例如初中生朗讀考試，基本要求是學生要將篇章清晰念完(完整性達到一定要求)，單詞發音比較清晰準確(準確性要求)，語句朗讀比較流暢，語速比較正常，不存在太多插入、猶豫、重複、修正等，主意一定的連讀、失去爆破、同化現象(流利性要求)，能夠適當注意意群停頓、重讀弱讀和語氣語調(韻律性要求)。實驗發現，即使是基本的朗讀題，不同地區的初中考生，水平差別也比較大，考查標準也有所不同對水平比較低的地區，則側重朗讀完整性，對準確性、流利性、韻律性要求比較低；對水平較高的地區，則降低朗讀完整性的比重，側重準確性和流利性；對水平非常高的地區，在需要提高韻律性考查的權重。評估標準調整單元3，對具體的考試來說比較重要，因為題庫設計專家的評估標準並不一定適合於所有地區考生的具體情況，需要根據當地考生情況和考試目的、要求進行適當調整。本發明的評估標準調整單元3，通過以下步驟實現對考生試卷進行抽樣，隨機抽取約300份具有代表性的試卷(代表不同水平、性另O、學校的考生)，請當地口語考試評估專家進行討論和評分，為確保專家評分的被認可程度，每份試卷採用5名以上專家獨立評分，最後再綜合確定該考生的最後得分；將抽樣評分後的考生語音和成績送入系統，系統將根據這些樣本自動調整各評估特徵的權重和各類水平考生的特徵分類面，得到更加適合當地口語評估專家的評估標準，代替默認的評估標準進行自動閱卷。如果以上調整方法需要的數據不能滿足要求，也可以採用調整個評估特徵權重的方法，實現考查重點的調整，計算機將根據新輸入的權重，自動調整加權係數，得到適合考試組織方口語評估專家評估要求的評估結果。由於評估所依賴的客觀評估特徵和專家評估標準對所有考生都是一樣的，消除了評估尺度掌握不一致的問題，提高了閱卷系統的客觀公證性。為了說明評分標準的調整問題，我們以線性加權係數的最小均方差估計為例，說明參數估計的過程如下假設每個學生的評估特徵可以用四維列向量formula see original document page 10乂表示，丁表示轉置，對應的專家評分為Yi,則要計算的最佳權重為四維列向量formula see original document page 10，需要滿足估計結果和專家評估結果方差最小的準則(最小均方差準則)，即formula see original document page 10formula see original document page 10其中，Y= (Y1;Y2，...，YN)T是N個考生得分排列成的列向量，X= (XijX2,... ,Xn) 是N個考生評估特徵列向量排列成的4XN的矩陣。上述無約束優化問題，可以通過對權向量W求導得到最優解如下formula see original document page 10通常，(X*XT)可逆，可以得到最小均方差的解為W* =即為最小均方差準則下的評估特徵加權係數。利用分類器根據評估特徵計算考生打分的方法和上述方法類似，都有相應的優化算法和工具實現。基於客觀標準的自動化口語評估系統，具體實施方式
如下首先建立口語評估專家題庫口語評估專家題庫的設計、更新和維護，是整個基於客觀標準的自動化口語評估系統的基礎，由口語評估專家根據考試對象、目的和要求，設計各種不同難度和題型的口語試題，並設定相應的答題範圍、量化指標和評估標準，形成一個內容豐富的、大規模的口語考試題庫，作為標準化口語考試和自動化閱卷的基礎。口語評估專家題庫與普通題庫的主要區別在於，包含以下三個部分答題範圍該口語試題正確答題的限定範圍，例如，朗讀題的文本，話題簡述的話題範圍設置等，主要是通過答題範圍提高語言模型的匹配程度，從而提高語音識別和對齊的效果，答題範圍是識別對齊系統動態生成或選擇語言模型的基礎；量化指標不同的題型，考查的重點不同，量化指標也不同，例如，朗讀題主要考查朗讀發音基本功，可以對連讀、失去爆破、同化、重讀弱讀、語氣語調、意群停頓、常見發音錯誤等，進行詳細的標註，以測定考生朗讀相關的能力；對話題簡述，則側重內容，考察句式、詞彙、常見語法錯誤等，對發音準確性和流利性量化標註相對少；評估標準不同的題型和考試要求，評估的標準也不一樣，口語評估專家根據一般評估要求，設置一個基本評估標準，對內容完整性、發音準確性、句子流利性設置一定的權重，並且，對發音準確性設置一個適中的檢測門限，作為口語評估的依據。這部分的具體設置規則由口語評估專家組決定，對基於客觀標準的自動化口語評估系統主要的影響在於量化評估指標的確定，以及口語評估特徵檢測門限和評估權重的設置。在口語評估專家題庫基礎上，基於客觀標準的自動化口語評估系統，可以實現全自動的標準化口語評估，其主要的步驟如下識別對齊考生語音，需要動態生成語言模型11和容錯發音詞典15，準備通用聲學模型14，具體如下動態生成語言模型11 根據口語評估專家設定的答題範圍，對朗讀題而言，就是用相應的試題生成一個對該題目答卷內容匹配度比較高的語言模型，保證考生答題的識別準確率足夠高。動態生成語言模型生成步驟如下訓練大規模語料的通用語言模型從網站上下載大規模文本語料，用統計語言模型生成工具，如SRI-LM、CMU-LM、HTK-LM等，生成大規模語料庫下的非限定領域統計語言模型，確保語言模型的通用性；訓練特定話題語言模型將大規模語料庫根據話題進行分類，用同樣方法訓練特定話題的統計語言模型；生成特定口語試題相應的語言模型根據特定試題答題範圍，詞彙範圍，對特定話題語料進行裁減，訓練更小規模的語言模型，並與特定話題語言模型和通用語言模型進行插值，動態生成語言模型11。語言模型11的一個特例就是朗讀題，答題範圍是一個限定的文本，此時，可以根據該文本生成一個針對性非常強的語言模型，確保非常高的語音識別對齊效果。通用聲學模型14 用不同地區各類考生的句子朗讀語音，訓練通用聲學模型，得到能描述各種考生的音素髮音三因子聲學模型，適合於所有的考生語音的聲學匹配；採用強約束的語言模型11結合通用聲學模型14的主要優點在於，能夠確保足夠識別率的同時，確保對水平相對低的考生保持公平性。通用聲學模型14通過以下步驟訓練採集大規模聲學模型訓練語料選擇不同性別、年齡、地域的人群，朗讀設計好的音素平衡腳本，獲取相應的錄音數據。這類數據，也可以通過語言數據聯盟(LDC)等組織購買得到；選擇訓練用的發音詞典，整理音素集，設計問題集例如英語，可選擇英式發音為主的BEEP詞典，美式發音為主的CMU詞典等，作為相應的發音詞典；從發音詞典中可以整理出音素集，並根據音素歸類設計相應問題集；訓練通用聲學模型14 用上述數據資源和詞典，可通過HTK、SphinX等聲學模型訓練工具，訓練三音子聲學模型，並利用特徵變換、區分度訓練、自適應訓練等算法，提高通用聲學模型14的精度；容錯發音詞典15 是用於描述口語詞彙和發音音素的對應關係的文件，包含常見的發音變異和發音錯誤標註信息。對一些容易發錯的單詞，識別詞典也將其常見發音變異和錯誤列入詞典中，確保在考生出現這些常見錯誤時，識別器不會因為按照標準發音的聲學模型得分低而發生錯誤裁減，提高識別器的容錯能力，同時，也提高常見錯誤的檢測能力。容錯發音詞典15，是在標準詞典基礎上，根據教學評估專家的常見錯誤，將容易出現發音錯誤的詞條錯誤發音樣本添加到標準詞典中，並標記為錯誤。通過不斷的考試測試和統計，逐步完善容錯發音詞典15。通過以上三點，識別對齊單元1可以在確保足夠高識別率的同時，容納各種類型考生，實現閱卷評估特徵提取的客觀公平性。口語評估特徵模塊23 在對口語語音進行識別對齊之後，發音特徵和音素模型將建立起對應時間關係，根據對應好的結果計算相應的口語評估特徵，還需要標準發音模型 25、容錯發音詞典15、評估量化指標模塊21的支持，具體如下標準發音模型25 採用標準發音語音訓練標準發音模型，作為考生發音的目標要求，用於計算考生發音和標準語音的相似程度；標準發音模型25的訓練，和通用聲學模型 14訓練方法相同，主要區別在於所採用的訓練語料不同通用聲學模型14的訓練語料，採用普通的語料庫，只要發音沒有明顯錯誤就可以；標準發音模型25的訓練語料，需要發音相對比較標準的語料進行訓練，代表考查對象中水平相對比較高的人群，確保評估發音時，具有較好的參照價值；容錯發音詞典15 和識別對齊單元1 一樣，是用於描述口語詞彙和發音音素的對應關係的文件，包含常見的發音變異和發音錯誤標註信息，如果識別對齊過程發現這些常見發音錯誤出現，則會計算常見發音錯誤的個數；評估量化指標模塊21 提取評估特徵，需要和評估量化指標對比，因此，口語評估專家在描述定量指標時，給出需要檢測的量化評估指標，如連讀、失去爆破、同化，重讀弱讀，語氣語調，意群停頓等，計算機將根據專家標註的量化評估指標(考點)，統計這些指標的完成情況，以比例形式衡量考生的相應評估層面的水平；評估標準模塊22，包括量化評估指標的提取門限和評估診斷的權重。量化評估指標的提取門限主要是針對發音質量評估特徵，通過與標準發音模型25對比，計算發音有缺陷的音素比例。不同的檢測門限，代表不同的檢測要求檢測門限越高，代表對發音準確度的要求越高；檢測門限越低，表示對發音準確性的要求越低。檢測門限，實際上就是以標準發音模型25為基準的聲學後驗概率的門限。在確定以上四個評估特徵提取需要的參數之後，就可以根據識別對齊後的語音，進行評估特徵提取，其主要步驟如下檢測內容完整性指標比對答題範圍和要求，計算口語答題的完成程度，通常用真實完成的單詞和要求完成的單詞比例描述，例如，朗讀題中為清晰讀完的單詞比例，話題簡述題型中為準確敘述的單詞與要求的比例等，計算公式如下
formula see original document page 13在計算過程中，如果語句或者單詞重複，自動以完成得較好的一次為準。檢測發音準確性指標在完成的內容中，計算單詞發音的平均聲學後驗概率和發音有問題的音素、單詞比例(特定檢測門限下)，計算方法如下
formula see original document page 13其中，GOP(Goodness of Pronunciation)是發音和標準模型匹配的後驗概率平均值，N是整個完成的音素個數，E是N中根據特定檢測門限計算的錯誤音素個數， logP(phonek)是第k個音素(phone)的對數後驗概率，ts，te為Phonek的起始和終止幀數， Q為所有與Phonek競爭的音素。這樣，每個音素的對數後驗概率，就是每幀的對數後驗概率的時間平均，而整個語篇的發音後驗概率，就是這些音素對數後驗概率的算術平均值。如果以對數後驗概率作為檢測發音錯誤的依據，則E就是對數後驗概率小於特定門限的音素個數。檢測句子流利性指標計算有效平均語速，插入、猶豫、重複、修正比例，連讀、失去爆破、同化比例，重讀弱讀、意群停頓、語氣語調等，計算方法如下F = MX aM+LX aL+KX ak
formula see original document page 13
重讀弱讀、意群停頓、語氣語調正確個數「重讀弱讀、意群停『語氣運調標註不贏Χ /0其中，F為整理流利度，包括不流利度M(MiSCUeS，猶豫、重複、修正、插入等比例)，連貫度L(連讀、失爆、同化完成比例)，節奏K(重讀弱讀、意群停頓、語氣語調等完成比例) 三個方面，權重分別為a M，a κ，通過專家設定或者訓練得到。這裡有效語速S目前沒有作為流利度的硬性指標加入流利度中，作為一個參考值給出，因為通常的口語考試中，對語速的要求往往不是非常嚴格，只要能在規定時間內完成答題就可以。如果需要特別注重語速平穩等，也可以作為一個指標計算流利度。另外，韻律評估特徵K，一般考試要求都不高，通常包含到流利性特徵F中計算。評估診斷模塊24 在提取上述口語評估特徵之後，根據調整後的評估標準模塊 22，就可以得到最終的評估結果，一個最簡單的評估方法就是線性加權組合得到Score = (IX α χ+ΡΧ α p+FX α F) XScale其中，I、P、F就是上面得到的內容完整度、發音準確度和句子流利度評估特徵，αΙ αρ, α F分別為其權重，通過專家設置或數據擬合得到；Scale是評分的分制，可根據具體需要設置。除了線性加權方法，還可以用混合高斯模型(Gaussian Mixture Model,GMM), 支持向量機(SupportVector Machine, SVM)，多層感知機(Multi-Layer Prec印tron，MLP) 或決策樹(Decision Tree)等分類方法實現。這些分類器都有成熟的訓練方法，其缺點是不夠直觀，必須依靠數據驅動方法實現，很難由專家知識指定和調整參數。為了提高數據擬合精度，也可以考慮將上述方法進行融合提高性能。標準調整單元3與量化評估單元2連接標準調整單元3是由考試組織機構根據考試的對象、目的和要求，適當調整評估標準，用以更好地達到考試目的；所述評估標準的調整是利用一組考生樣本，通過對專家評估結果進行數據擬合的方法，得到相應的評估門限和權重，根據考試對象、目的和要求調整評估特徵的門限以及評估重點的調整；所述評估權重和門限是對小學生、初中生、高中生、大學生、專業人員的完整性、準確性、流利性和韻律性要求設定不相同的評估權重和發音錯誤檢測門限。評估標準的調整包含兩個基本方面，一是調評估特徵提取的門限控制，例如，降低或者提高發音準確度的檢測標準要求，改變口語準確性評估特徵本身的範圍；二是改變不同評估特徵的權重，改變考查的重點，以上兩個方法可以結合使用。首先，評估特徵提取門限可以比較直觀地調整，控制錯誤檢測的要求嚴格程度。而評估特徵的權重調整，通過以下步驟實現對考生試卷進行抽樣，隨機抽取反映不同考生情況的約300名考生；請當地口語評估專家討論評估標準，並對以上考生進行獨立評估，每位考生至少5 名專家評估；綜合專家評估結果，對每份考生答卷給出一個最終的評分；綜合的方法，可以是簡單的對專家評分計算算術平均值，也可以綜合專家意見，統一複評得到最終比較一致認可的評分；將最終得到考生答卷和專家評估結果輸入系統，用參數估計方法，調整評估標準，得到最終的評估權重參數。具體的調整方法，和選擇的評分策略有關線性加權系統用最小均方差等算法估計最優權重；GMM系統用EM(Expectation-Maximization)算法迭代估計均值和方差等；SVM系統用數值優化方法尋找最優支持向量組；決策樹系統用分裂算法尋找最優分裂策略。通過上述步驟，就可以實現基於客觀標準的自動化口語評估，在保證客觀公證性的同時，可以根據不同考試對象、目標和要求，根據相關專家意見統一調整系統的評估標準。
以上所述，僅為本發明中的具體實施方式
，但本發明的保護範圍並不局限於此，任何熟悉該技術的人在本發明所揭露的技術範圍內，可理解想到的變換或替換，都應涵蓋在本發明的包含範圍之內，因此，本發明的保護範圍應該以權利要求書的保護範圍為準。
權利要求
基於客觀標準的自動化口語評估系統，其特徵在於系統包括識別對齊單元、量化評估單元和標準調整單元，其中識別對齊單元接收口語語音信息、答題範圍和評估指標信息，對輸入口語語音信息進行識別和對齊，將口語語音信息生成文字，並將文字和語音進行對齊；標準調整單元，是由考試組織機構根據具體考試對象、目標和要求進行量化評估標準調整，生成並輸出最終的量化評估標準；量化評估單元分別與識別對齊單元和標準調整單元連接，量化評估單元接收評估量化指標信息、標準調整單元輸出的量化評估標準信息和識別對齊單元輸出的文字識別對齊信息，根據所述三個信息提取口語評估特徵，進行自動化評估和診斷，生成評估結果和診斷報告信息；系統通過採用統一的客觀量化指標和標準，對口語語音進行自動化評估，實現口語評估的客觀公證性，並提供基於量化信息的診斷報告。
2.根據權利要求1所述基於客觀標準的自動化口語評估系統，其特徵在於，所述標準調整單元，是由考試組織機構根據考試的對象、目的和要求，適當調整評估標準，用以更好地達到考試目的；所述評估標準的調整是利用一組考生樣本，通過對專家評估結果進行數據擬合的方法，得到相應的評估門限和權重，根據考試對象、目的和要求調整評估特徵的門限以及評估重點的調整；所述評估權重和門限是對小學生、初中生、高中生、大學生、專業人員的完整性、準確性、流利性和韻律性要求設定不相同的評估權重和發音錯誤檢測門限。
3.根據權利要求1所述基於客觀標準的自動化口語評估系統，其特徵在於，所述識別對齊單元包括通用聲學模型是從大規模帶內容標註的口語語料訓練得到，用於描述音素的發音特徵分布的文件；容錯發音詞典是用於描述口語詞彙和發音音素的對應關係的文件，包含常見的發音變異和發音錯誤標註信息；語言模型，根據口語試題的答題範圍信息，生成語言模型文件，並包含常見的語法和用詞錯誤信息；語音特徵模塊，接收口語語音信息，生成口語語音倒譜特徵參數信息；識別對齊模塊分別讀取通用聲學模型、容錯發音詞典和語言模型，與語音特徵模塊連接，接收語音特徵模塊輸出的口語語音倒譜特徵參數信息，利用幀同步搜索算法將口語語音倒譜特徵參數信息，在容錯發音詞典和語言模型約束下，與通用聲學模型進行動態匹配，輸出識別文字信息和對齊結果信息。
4.根據權利要求3所述基於客觀標準的自動化口語評估系統，其特徵在於，所述通用聲學模型包含各地口音的訓練語料，訓練得到的性別相關模型，採用最小音素錯誤區分度訓練準則和異方差線性區分性建模方法訓練得到，確保聲學匹配性能和識別效果。
5.根據權利要求3所述基於客觀標準的自動化口語評估系統，其特徵在於，所述容錯發音詞典，採用通用的標準發音詞典，加上常見的口語發音變異和發音錯誤，用於提高對真實口語語音的識別和對齊準確性。
6.根據權利要求3所述基於客觀標準的自動化口語評估系統，其特徵在於，所述語言模型為N元文法模型，根據口語評估專家設定的口語答題範圍，動態生成語言模型，提高識別準確率，答題範圍由口語評估專家設置，語言模型中包含常見的語法和用詞錯誤。
7.根據權利要求3所述基於客觀標準的自動化口語評估系統，其特徵在於，所述語音特徵模塊，是用13維感知線性預測特徵，加上一階和二階差分，構成39維語音特徵向量。
8.根據權利要求3所述基於客觀標準的自動化口語評估系統，其特徵在於，所述識別對齊模塊是基於幀同步搜索算法進行識別和對齊。
9.根據權利要求1所述基於客觀標準的自動化口語評估系統，其特徵在於，所述量化評估單元包括容錯發音詞典是用於描述口語詞彙和發音音素的對應關係的文件，包含常見的發音變異和發音錯誤標註信息；標準發音模型由發音標準的語音訓練得到，用於計算發音的準確度，將輸入語音特徵和標準發音模型比對，計算發音準確度，以及發音有缺陷的單詞比例；評估量化指標模塊是根據口語評估專家設定的答題範圍和評估指標，生成特定口語試題對應的評估量化指標，不同的口語試題，所關注的評估量化指標重點不同，評估量化指標可分為完整性、準確性、流利性和韻律性四類；評估標準模塊是口語評估專家輸入的默認量化評估標準，允許考試組織結構根據具體的考試對象、目的和要求，通過標準調整單元，進行適當調整並生成最終的量化指標評估標準；口語評估特徵模塊與識別對齊模塊、評估量化指標模塊、容錯發音詞典和標準發音模型連接，根據評估量化指標模塊的指標要求，從識別對齊好的口語語音中提取評估用的完整性、準確性、流利性和韻律性相關的量化指標；評估診斷模塊分別與口語評估特徵模塊和評估標準模塊連接，根據評估標準模塊輸出的最終量化指標評估標準，和提取到的完整性、準確性、流利性和韻律性相關的量化口語評估指標，通過特徵映射方法進行最終的評估，並給出相應的診斷報告。
10.根據權利要求9所述基於客觀標準的自動化口語評估系統，其特徵在於，所述口語評估特徵模塊包括完整性、準確性、流利性和韻律性四個層面，用於評估口語語音的內容、語法、發音、重音、語速、連貫、重複、語氣、語調、連讀、失去爆破、同化、停頓指標；四個評估層面的口語量化評估計算如下內容完整性是計算完成答題要求的程度，所述答題要求的程度在識別對齊的基礎上，利用標準發音模型比對，計算各單詞發音的後驗概率，後驗概率高於特定門限的作為有效答題部分，統計有效答題語音和要求的答題內容的比例；口語準確性是計算朗讀中單詞發音和標準模型的匹配程度，發音有明顯問題的單詞比例，話題簡述中語法錯誤；所述口語準確性分為兩個部分一個是總體的發音良好程度，用單詞發音的平均對數後驗概率表示；利用後驗概率設置門限、或者支持向量機檢測發音錯誤率，統計發音有問題和缺陷的單詞比例，在識別對齊過程中，採用容錯發音詞典和包含語法、用詞錯誤的答題範圍生成的語言模型，用於對常見發音和用詞錯誤進行檢測；口語流利性是計算平均有效語速、插入數量、連讀、失去爆破和同化等單詞連貫情況，在識別對齊之後，所述語速由單詞的個數和語句的持續時間比值計算，語速以篇章為單位統計句子一級的平均語速；口語答題中的猶豫、重複、修正數量從識別對齊好的語音上統計；口語答題中的連讀、失去爆破和同化，在發音詞典中已經加入，並根據維特比對齊的結果判斷是否被採用，並統計其個數。口語韻律性是計算意群停頓、重讀弱讀、語氣語調的口語特徵；所述意群停頓從識別對齊的語音上計算，在合理意群停頓上靜音的持續時間是否達到停頓的要求，以及在非合理停頓的地方出現異常停頓的個數；重讀弱讀計算是根據發音的語調、相對強度和持續時間，判斷是否為有效重讀和弱讀；語氣語調是根據基音曲線的走向，判斷考生朗讀是否注意語氣語調變化，在升降調的地方是否應用得當。
全文摘要
本發明為基於客觀標準的自動化口語評估系統，包括識別對齊單元、量化評估單元和標準調整單元，識別對齊單元接收口語語音信息、答題範圍和評估指標信息，對輸入口語語音信息進行識別和對齊，將口語語音信息生成文字，並將文字和語音進行對齊；標準調整單元，是由考試組織機構根據具體考試對象、目標和要求進行量化評估標準調整，生成並輸出最終的量化評估標準；量化評估單元分別與識別對齊單元和標準調整單元連接，量化評估單元接收評估量化指標信息、標準調整單元輸出的量化評估標準信息和識別對齊單元輸出的文字識別對齊信息，根據所述三個信息提取口語評估特徵，進行自動化評估和診斷，生成評估結果和診斷報告信息。
文檔編號G09B19/06GK101826263SQ200910078868
公開日2010年9月8日申請日期2009年3月4日優先權日2009年3月4日
發明者徐波, 李鵬, 梁家恩, 王士進, 高鵬申請人:中國科學院自動化研究所

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於客觀標準的自動化口語評估系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法