語音識別評價裝置和語音識別評價方法

2023-05-19 04:41:11 2

專利名稱：語音識別評價裝置和語音識別評價方法
技術領域：
本發明涉及對識別聲音用的語音識別裝置的性能實施評價的語音識別評價裝置、語音識別評價方法和語音識別評價程序。
背景技術：
在語音識別裝置的開發過程中，對語音識別裝置是否能夠發揮所期待的性能進行評價是必不可少的。對語音識別裝置的性能評價，可以按照將在各種各樣條件下錄音獲得的語音數據輸入至語音識別裝置，對語音識別裝置的識別結果進行分析處理的方式進行。如果舉例來說，對語音識別裝置的識別率進行分析處理，可以獲知語音識別裝置能夠發揮良好性能的條件，並且可以獲知在這些條件下的具體性能、即作為識別率的數值(例如，參見非專利文獻1)。而且，對於語音識別裝置不能發揮出如所期待的性能的場合，也可以通過對錯誤識別結果的變化走向進行分析處理，對語音識別裝置不能發揮出如所期待的性能的原因進行詳細探索，進而還可以將這些原因在進行性能改善時加以利用。
對語音識別裝置進行評價時的評價項目中包含的內容是多種多樣的，典型的為下述三種。即，(1)與語音識別裝置可以接收的語彙集相關的變化量(variation)，(2)由說話者導致的變化量(說話者的性別、說話者的說話速度、說話者的聲音高度、其他原因(說話者的語調風格、訛音等等))，(3)由環境導致的變化量(周圍的噪音、麥克風的特性、其他原因(傳送系統的特性等等))。對語音識別裝置的評價，是針對上述例舉的各種各樣的評價項目，將條件不同的多個語音數據輸入至語音識別裝置，對語音識別裝置相對各個項目的變化量是否表現出良好性能實施確認。理想的語音識別裝置能夠在任意的條件下均表現出良好性能，相對條件改變時的性能差異小。
在對語音識別裝置實施評價時，可以按照不同的視角對上述評價項目實施劃分。對語音識別裝置實施評價的視角有許多，具有代表性的為以下兩種。(1)針對不同評價項目對語音識別裝置的全部性能進行研究(比如說參見非專利文獻2)。對於對語音識別裝置的基本性能進行評價的場合，需要針對所有評價項目對語音識別裝置實施評價。(2)對某些特定條件下的語音識別裝置的性能進行研究。對於對特定用途的語音識別裝置的性能進行評價的場合，不考慮該用途涉及的變化量，即在排除可以被固定的評價項目的條件下，相對其他評價項目的變化量對語音識別裝置進行性能調研。如果舉例來說，在對「語音識別裝置可以接受的語彙集進行固定」且「男性說話者專用」的語音識別裝置進行評價時，是在語彙集和說話者性別保持固定的條件下，相對其他評價項目的變化量對語音識別裝置進行性能調研的。一般說來，語音識別裝置的用途不同，需要評價的項目也不同。
從如上說明的視角對語音識別裝置實施評價的方法如下所述。(1)對於針對各種各樣的評價項目對語音識別裝置的全部性能進行研究的場合，需要針對全部評價項目，準備出能夠充分覆蓋這些變化量的大規模評價用語音數據集。在針對評價用語音數據集的每個評價項目的變化量實施調研的基礎上，依據語音識別裝置的識別結果，利用諸如統計方法等等對與這些變化量對應的識別性能實施求解，從而可對每個評價項目的性能實施調研。(2)對於在某些特定條件下對語音識別裝置的性能進行調研的場合，需要準備出能夠覆蓋在這些特定條件下應考慮的評價項目變化量的評價用語音數據集，或是需要進行重新收錄。特別是對於對語音識別裝置可以接收的語彙集的設計實施變更的場合，需要對包含在語彙集中的語彙進行發聲所獲得的語音數據重新進行收錄。在對評價數據集的每一評價項目的變化量實施調研的基礎上，利用諸如統計方法等等對與這些變化量對應的識別性能實施求解，能夠對某些特定條件下的每個評價項目的性能實施調研。
非專利文獻1寺鳥立太及其他人，「依據HMM語音合成的語音識別性能預測方法」，日本音響學會演講論文集2003年3月，pp159-pp160非專利文獻松井、內藤及其他人，「考慮到地域和年齡的廣泛分布的大規模日本語語音資料庫」，日本音響學會演講論文集1999年秋季，pp169-pp170如前所述，為了能夠對語音識別裝置實施評價，必須要準備出與評價視角相對應的評價用語音數據集。然而，準備這種評價用語音數據集用的語音資料庫的收錄，是需要花費相當多的時間和費用的。
首先，(1)對於針對各種各樣的評價項目對語音識別裝置的全部性能進行調研的場合，構築能夠覆蓋全部評價項目變化量的大規模評價用語音數據集的費用是相當大的。即使已經構築，對於需要對構築時沒有想到的評價項目進行評價的場合，以及希望對某評價項目增加變化量的場合，均需要對評價用語音數據實施重新收錄或補充收錄，這還需要花費時間和成本。
其次，(2)即使是對於在某些特定條件下對語音識別裝置的性能進行調研的場合，對於不存在能夠覆蓋在評價的特定條件下需要考慮的評價項目變化量的評價用語音數據集的場合，也需要對語音數據實施重新收錄，這也需要花費非常大的時間和費用。採用這種方式，存在有在對語音識別裝置進行評價時，準備評價用語音數據需要花費非常多的時間和費用的問題。
可以考慮通過對已經存在的評價用語音數據集實施人工變更，人工製作出覆蓋各種各樣評價項目變化量的評價用語音數據集的方法。對於與環境有關的評價項目(噪音、麥克風特性等等)，通過實施噪音重疊、將麥克風特性疊置在評價用語音數據上等等的處理，能夠比較容易地增加這些變化量。然而，對已經存在的評價用語音數據中的說話速度和聲音高度實施人工變更是非常困難的，對於說話者的性別和語音內容實施人工變更是不可能的，所以不能對這些變化量實施人工增加。因此，採用對已經存在的評價用語音數據集實施人工變更的方法，並不能解決前述問題。

發明內容
本發明就是針對上述現有技術的發明，目的就是提供一種不需要預先準備出評價用語音數據，可以容易地針對每一評價項目對語音識別裝置的性能進行評價，且能夠用比較少的時間和比較少的費用進行評價的語音識別評價裝置、語音識別評價方法和語音識別評價程序。
本發明提供的一種語音識別評價裝置，其特徵在於具有獲取對語音識別裝置進行評價用的評價項目，依據該評價項目確定輸出至語音識別裝置的合成聲音的特徵，並生成出評價用語音信息的語音信息生成單元；生成用來生成與所述評價用語音信息相對應的合成聲音的參數的參數生成單元；依據所述參數生成合成聲音的合成聲音生成單元；將所述合成聲音輸出至所述語音識別裝置的輸出單元；從所述語音識別裝置獲取所述語音識別裝置對所述合成聲音進行識別的識別結果的獲取單元；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價的評價單元。
而且，本發明提供的另一種語音識別評價裝置，其特徵在於具有獲取對語音識別裝置進行評價的評價項目，依據該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特徵的評價用語音信息的語音信息生成單元；生成用來生成與所述評價用語音信息相對應的特徵矢量時間序列的參數的參數生成單元；依據所述參數生成特徵矢量時間序列用的時間序列生成單元；將所述特徵矢量時間序列輸出至所述語音識別裝置的輸出單元；從所述語音識別裝置獲取所述語音識別裝置輸入所述特徵矢量時間序列並實施識別的識別結果的獲取單元；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價的評價單元。
本發明提供的一種語音識別評價方法，其特徵在於其中的步驟包括獲取對語音識別裝置進行評價用的評價項目，依據該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特徵的評價用語音信息；生成用來生成與所述評價用語音信息相對應的合成聲音的參數；依據所述參數生成合成聲音；將所述合成聲音輸出至所述語音識別裝置；從所述語音識別裝置獲取所述語音識別裝置輸入所述合成聲音並實施識別的識別結果；參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價。
而且，本發明提供的另一種語音識別評價方法，其特徵在於其中的步驟包括獲取對語音識別裝置進行評價的評價項目，依據該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特徵的評價用語音信息；生成用來生成與所述評價用語音信息相對應的特徵矢量時間序列的參數；依據所述參數生成特徵矢量時間序列；將所述特徵矢量時間序列輸出至所述語音識別裝置；從所述語音識別裝置獲取所述語音識別裝置輸入所述特徵矢量時間序列並實施識別的識別結果；參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價。
根據本發明的語音識別評價裝置和語音識別評價方法，不需要準備評價用語音數據，而且可以使用比較少的時間和比較少的費用針對每一評價項目容易地對語音識別裝置的性能進行評價。

圖1為表示作為本發明實施例1的語音識別評價裝置用的方框圖。
圖2為表示作為本發明實施例1的語音識別評價方法用的流程圖。
圖3為表示圖1中的評價項目設定部和識別結果解析部用的方框圖。
圖4為表示儲存在圖3所示的音質評價項目變化量處的信息的圖。
圖5為表示相對圖4所示的每一變化量由如圖1所示的聲音合成參數生成部生成出的聲音合成參數用的示意圖。
圖6為表示依據如圖5所示的參數由識別結果解析部實施了分析處理的分析結果的圖。
圖7為表示作為本發明實施例2的語音識別評價裝置的方框圖。
圖8為表示作為本發明實施例3的語音識別評價裝置的方框圖。
圖9為表示圖8中的評價項目設定部和識別結果解析部的方框圖。
圖10為表示對如圖8所示的解析結果提示部向使用者提示的分析結果的圖。
圖11為表示作為本發明實施例4的語音識別評價裝置的方框圖。
圖12為表示圖11中的評價項目設定部和識別結果解析部的方框圖。
圖13為表示如圖11所示的解析結果提示部向使用者提示的分析結果的圖。
圖14為表示作為本發明實施例5的語音識別評價裝置用的方框圖。
圖15為表示圖14中的評價項目設定部和識別結果解析部的方框圖。
圖16為表示對如圖14所示的解析結果提示部向使用者提示的分析結果的圖。
具體實施例方式
下面參考附圖，對作為本發明實施例的語音識別評價裝置、語音識別評價方法和語音識別評價程序進行說明。本發明的實施例提供的是利用從聲音合成部輸出的合成聲音對語音識別裝置進行評價的裝置。聲音合成部滿足下述條件。通過對參數進行調整，可以輸出能夠覆蓋任意語彙集的變化量的合成聲音、對覆蓋由說話者導致的評價項目變化量的合成聲音。通過將這種聲音合成部輸出的合成聲音作為評價用語音數據集使用，可以針對任意評價項目，對語音識別裝置的性能進行評價。下面，對本發明的實施例進行更詳細的說明。
(實施例1)
下面參考附圖1，對作為本實施例的語音識別評價裝置的各裝置部分進行說明。圖1為表示作為本發明實施例1的語音識別評價裝置的方框圖。
評價項目設定部11接收使用者給出的對語音識別裝置的評價項目實施的指定。評價項目是對由語音識別裝置獲取到的各種各樣形式的聲音，是否能夠作為不同的聲音實施識別進行評價的項目。如果舉例來說，評價項目有音質信息、語彙信息、是否有語音停滯和不需要語言插入的信息、發出聲音時的感情信息。音質信息包括諸如說話者的性別、說話者的說話速度(語速)、說話者的聲音高度、說話者語調等等。在本實施例中，作為評價項目使用評價用語音信息的說話者的性別、說話速度、聲音高度這三點進行說明。針對語彙信息的內容利用實施例3進行說明，針對是否存在有語音停滯和不需要語言插入的信息的內容利用實施例4進行說明，針對發出聲音時的感情信息的內容利用實施例5進行說明。但是，作為本發明實施例的語音識別評價裝置並不僅限於這些評價項目，還可以使用其他評價項目。
聲音合成參數生成部12針對由評價項目設定部11指定的每一評價項目變化量，生成出與該變化量相對應的聲音合成參數。該聲音合成參數是用來生成與各變化量相對應的合成聲音的參數。對於與某評價項目相對應的聲音合成參數，通過生成出與評價項目變化量相對應的聲音合成參數的設定值的方式，實施聲音合成參數的生成。聲音合成參數的生成還將在後面參考附圖5、以具體實例方式舉例進行詳細說明。
聲音合成部13依據從聲音合成參數生成部12輸出的聲音合成參數，進行聲音合成處理。聲音合成處理是按照所輸入的聲音合成參數設定值的每種組合形式，對包含在評價項目設定部11預先儲存的標準語彙集(如後所述的圖3中參考標號113表示的部分)中的全部語彙實施讀音，而實現聲音合成的。隨後，聲音合成部13將合成聲音輸出至合成聲音輸出部14處。
合成聲音輸出部14將聲音合成部13生成出的合成聲音，輸出至作為評價對象的語音識別裝置。語音識別裝置對所輸入的合成聲音實施識別處理。識別結果獲取部15獲取與從合成聲音輸出部14輸出的合成聲音相對應的語音識別裝置的識別結果，並輸出至識別結果解析部16。
識別結果解析部16輸入由識別結果獲取部15給出的語音識別裝置的識別結果和由評價項目設定部11輸出的評價項目，並且對與評價項目設定部11指定的評價項目相對應的語音識別裝置的性能實施分析處理。識別結果解析部16判斷所輸入的識別結果是正確解還是非正確解，並且對該判斷結果依次保存。在這時，對與所輸入的識別結果相對應的評價項目和與該變化量相關的信息與識別結果一併實施保存。聲音合成部13在與聲音合成參數生成部12輸出的聲音合成參數集相對應的全部合成聲音的輸出結束時，獲得與其相對應的、由語音識別裝置給出的全部識別結果，隨後識別結果解析部16利用統計方式，對由評價項目設定部11指定的評價項目對語音識別裝置的性能進行分析處理。識別結果解析部16還將該分析處理結果輸出至解析結果提示部17處。
解析結果提示部17向使用者提示出由識別結果解析部16輸出的分析處理結果。解析結果提示部17通過調整為使用者容易觀察的形式，對所輸入的分析處理結果實施提示。
下面參考圖2，對如圖1所示的語音識別評價裝置的運行方式進行說明。圖2為表示作為本發明實施例1的語音識別評價方法的流程圖。
首先，評價項目設定部11從使用者接收語音識別裝置的評價項目的指定。評價項目設定部11將評價用聲音信息輸出至聲音合成參數生成部12。聲音合成參數生成部12根據評價用聲音信息生成出聲音合成參數，並且將聲音合成參數輸出至聲音合成部13。聲音合成部13根據聲音合成參數生成出合成聲音，並且將合成聲音輸出至合成聲音輸出部14。合成聲音輸出部14將合成聲音輸出至語音識別裝置，由語音識別裝置對合成聲音實施識別。語音識別裝置對合成聲音實施識別的識別結果由識別結果獲取部15獲取，並且將識別結果輸出至識別結果解析部16。識別結果解析部16對該識別結果實施分析處理。換句話說就是，參照步驟S1的評價項目和識別結果，針對評價項目對語音識別裝置的性能進行評價。隨後，解析結果提示部17將識別結果解析部16給出的分析處理結果提示給使用者。對分析處理結果實施提示後，由使用者判斷是否再對語音識別裝置進行評價，在進行評價的場合，返回步驟S1，改變評價項目並再次對語音識別裝置實施評價，對於不進行評價的場合，結束對語音識別裝置的評價作業。
下面參考附圖3，對如圖1所示的評價項目設定部11和識別結果解析部16進行詳細說明。圖3為表示圖1中的評價項目設定部11和識別結果解析部16的方框圖。
評價項目設定部11具有音質評價項目輸入部111、評價用語音信息生成部112、標準評價語彙集113和音質評價項目變化量114。
音質評價項目輸入部111對由使用者給出的、對與音質相關的評價項目的指定信息實施輸入，並且將與音質相關的評價項目輸出至評價用語音信息生成部112。
評價用語音信息生成部112對於從音質評價項目輸入部111輸入的評價項目，參照作為每一評價項目變化量信息的音質評價項目變化量114，生成出具有相對每一評價項目的變化量的評價用語音信息。而且，評價用語音信息生成部112參考標準評價語彙集113並利用儲存在其中的語彙，生成出評價用聲音的語彙(說話內容)。評價用語音信息生成部112還將某些音質的語音信息和評價用聲音的語彙作為評價用語音信息，輸出至聲音合成參數生成部12。
標準評價語彙集113儲存有多個用於評價語音識別裝置的語彙。理想的是這些語彙是語音識別裝置經常輸入且所需要的標準語彙。音質評價項目變化量114儲存有與每一評價項目相對應的多個變化量。音質評價項目變化量114中的內容將在後面參考圖4進行說明。
識別結果解析部16具有識別結果正確解判斷部161和評價項目分類識別率計算部162。
識別結果正確解判斷部161輸入從評價項目設定部11中的標準評價語彙集113輸入至語音識別裝置的評價用聲音語彙，將這一語彙與通過識別結果獲取部15得到的識別結果進行比較，判斷該識別結果是正確解還是非正確解，將表示為正確解還是非正確解的信息附加在識別結果上，進而將附加有該正確解信息的識別結果輸出至評價項目分類識別率計算部162。
評價項目分類識別率計算部162參照音質評價項目輸入部111輸出的與音質相關的評價項目信息，針對附加有正確解或非正確解信息的識別結果按照評價項目類別，求出該每一變化量的識別率和其平均值、分散值。在本實施例中分別對於「說話者的性別」、「說話速度」、「聲音高度」這些項目，由評價項目分類識別率計算部162求出每個評價項目變化量的識別率和其平均值、分散值，下面還將參考圖6對其進行詳細說明。隨後，評價項目分類識別率計算部162將這些識別率和平均值、分散值輸出至解析結果提示部17。
下面參考附圖4，對如圖3所示的音質評價項目變化量114的內容進行詳細說明。圖4表示儲存在圖3所示的音質評價項目變化量114處的信息。評價項目設定部11中的音質評價項目變化量114，儲存有預先準備的與每一評價項目相關的變化量信息。
在如圖4所示的實例中，「說話者的性別」1141(參見圖4中的「說話者(性別)」)共有六種變化量，「說話速度」1142、「聲音高度」1143分別有五種變化量。對於這三種之外的評價項目，可以分別從各評價項目變化量中選擇出一個標準實施利用。在如圖4所示的實例中，評價項目「語調」1144存在有三種類型的變化量，然而在此僅由其中選擇出作為「標準」的一個加以利用。而且，對於語音識別裝置可以接收的語彙集(被稱為「語法」(grammar)，下面也簡單表述為「語法」)，可以利用預先儲存在標準評價語彙集113處的標準語法。因此，對於使用者指定了作為評價項目的「說話者(性別)」、「說話速度」、「聲音高度」的場合，可以對具有6*5*5＝150種變化量的評價用語音數據加以利用。評價項目設定部11將使用者指定的評價項目信息，輸出至聲音合成參數生成部12處。
下面參考圖5，對依據上述如圖4所示的變化量，將評價用語音信息生成部112生成出的評價用語音信息輸入至聲音合成參數生成部12所生成出的聲音合成參數進行說明。圖5表示了對如圖4所示的每一變化量，由聲音合成參數生成部12生成出的聲音合成參數。
在如圖5所示的實例中，評價項目「說話者(性別)」與聲音合成參數中的「模型」相對應，並且與作為評價項目「說話者(性別)」的變化量的「男性A」～「女性F」相對應地生成作為聲音合成參數「模型」的設定值的「模型A」～「模型F」。
評價項目中的「說話速度」與聲音合成參數中的「持續時間(在此指的是一個音素的平均持續時間)」相對應，並且在「0.50」～「2.00」的範圍內，生成出與評價項目「說話速度」的變化量相對應的聲音合成參數「持續時間」的設定值。在此，聲音合成參數「持續時間」的設定值表示相對平均持續時間的比率，並且滿足設定值越小則一個音素的平均持續時間越短，即說話速度越快的關係。
評價項目中的「聲音高度」與聲音合成參數中的「音調」相對應，並且在「2.00」～「0.50」的範圍內，生成出與評價項目「聲音高度」的變化量相對應的聲音合成參數「音調」的設定值。在此，聲音合成參數「音調」的設定值表示相對平均音調的比率，並且滿足設定值越大則音調越大，即聲音越高的關係。
對於前述三種聲音合成參數之外的參數，僅僅生成出一個與評價項目的變化量中的標準變化量相對應的設定值，並利用該設定值。在如圖5所示的實例中，僅僅對作為評價項目「語調」的變化量中的一個標準變化量，生成聲音合成參數「韻律式樣」的設定值「標準韻律式樣」。對於存在有其他評價項目、聲音合成參數的場合也一樣。在此存在有聲音合成部13的合成精度不良，在評價項目變化量的大小比較小時，無法實施再現的情況。為了防止這種評價項目的變化量大小受到聲音合成部13的性能限制，可以按照使聲音合成參數的設定值具有比較大的變化的方式，對其進行控制。
這樣，生成出為了生成由使用者指定的評價項目「說話者(性別)」、「說話速度」、「聲音高度」的變化量組合而成的150個評價用語音數據所必需的、由聲音合成參數「模型」、「持續時間」、「音調」的不同設定值及其他聲音合成參數的標準設定值組合形成的150個聲音合成參數集。聲音合成參數生成部12將生成出的聲音合成參數集輸出至聲音合成部13。
下面參考圖6，對於將依據如圖5所示的聲音合成參數生成部12生成出的參數生成出的合成聲音輸出至語音識別裝置，並由識別結果解析部16對所獲得的識別結果實施分析處理，並由解析結果提示部17提示出的分析處理結果進行說明。圖6為表示依據如圖5所示的參數實施分析處理的分析處理結果的示意圖。
在如圖6所示的實例中，對於由評價項目設定部11指定的各評價項目「說話者(性別)」、「說話速度」、「聲音高度」，向使用者提示出與這些變化量對應的識別率和其平均值以及與這些變化量對應的分散值。通過如圖6所示的形式對分析處理結果實施提示，可以使使用者容易地理解下述各點。換句話說就是，對於「說話者(性別)」由於男性C的識別率比其他的要低，所以可知有語音識別裝置對特定的說話者不能充分發揮其性能的情況。對於「說話速度」由於各變化量的識別率的分散值比其他評價項目大，然而說話速度越慢則識別率上升，所以語音識別裝置的性能容易受到說話速度變化的影響，當說話速度越慢(即慢慢的說話)則傾向於展示出良好的性能。對於「聲音高度」由於各變化量的識別率的分散值比其他評價項目要小的多，所以語音識別裝置的性能幾乎不會受到聲音高度的影響。通過參照識別率的平均值可知語音識別裝置的平均性能。
通過對本實施形式的說明可知，如果採用作為本實施形式的語音識別評價裝置，可以減少使用者準備評價用語音數據集所需要的時間和成本。而且，可以容易地獲知語音識別裝置相對評價項目的性能。
(實施例2)作為實施例2的語音識別評價裝置，僅聲音特徵矢量合成部23和特徵矢量輸出部24與實施例1的語音識別評價裝置不同。其他的構成形式與由實施例1表示出的語音識別評價裝置相同。圖7為表示作為本發明實施例2的語音識別評價裝置的方框圖。
作為實施例2的語音識別評價裝置，在聲音特徵矢量合成部23中，作為輸出合成聲音的一種替代，輸出向作為評價對象的語音識別裝置輸入的特徵矢量時間序列。如果舉例來說，特徵矢量時間序列可以是LPC對數倒頻譜(特徵量)。LPC對數倒頻譜在諸如「古井(著)的「語音信息處理」，日本森北株式會社」中有記載。聲音特徵矢量合成部23將特徵矢量時間序列輸出至特徵矢量輸出部24。特徵矢量輸出部24將所輸入的特徵矢量時間序列輸出至作為評價對象的語音識別裝置處，語音識別裝置參照輸入的特徵矢量時間序列進行語音識別處理。
作為實施例2的語音識別評價裝置，其特徵在於聲音特徵矢量合成部23和特徵矢量輸出部24不輸出合成聲音，而是輸出取代合成聲音的、可輸入至作為評價對象的語音識別裝置的特徵矢量時間序列。一般說來，可輸入至語音識別裝置的特徵矢量時間序列有比合成聲音的數據尺寸小的傾向。因此，作為本實施形式的語音識別評價裝置，不採用合成聲音，而是採用特徵矢量時間序列，由此具有能夠縮短在語音識別評價裝置和作為評價對象的語音識別裝置之間輸入輸出數據所需要的時間的技術優點。
(實施例3)作為實施例3的語音識別評價裝置，由使用者指定的評價項目與其他實施形式不同。在本實施例中，使用者為了進行評價而指定語法。由於所指定的評價項目與實施例1中的不同，所以僅評價項目設定部31和識別結果解析部36與作為實施例1的語音識別評價裝置中的不同。其他的構成形式與由實施例1表示出的語音識別評價裝置相同。圖8為作為本發明實施例3的語音識別評價裝置的方框圖。
評價項目設定部31對語音識別裝置的評價項目中的「語音識別裝置可以接受的語法」實施接收。同時，使用者對進行語音識別裝置評價用的語法實施輸入。在此，以輸入了由「電源導通」、「電源斷開」這兩個語彙構成的語法的場合為例進行說明。評價項目設定部31對評價項目「語法」之外的評價項目變化量實施全部選擇，並將這些信息輸出至聲音合成參數生成部12。
識別結果解析部36判斷所輸入的識別結果是正確解還是非正確解，並且對該判斷結果依次保存。識別結果解析部36對於包含在由評價項目設定部11指定的語法內的語彙，對某一語彙是否被錯誤識別為諸如其他語彙進行分析處理。識別結果解析部36將該分析處理結果輸出至解析結果提示部17。
下面參考附圖9，對評價項目設定部31和識別結果解析部36進行詳細說明。圖9為表示圖8中的評價項目設定部31和識別結果解析部36用的示意性方框圖。
評價項目設定部31具備評價語彙輸入部311、評價用語音信息生成部312和音質評價項目變化量313。
評價語彙輸入部311從使用者輸入與語法相關的評價項目的指定，並且將與語法相關的評價項目輸出至評價用語音信息生成部312。
評價用語音信息生成部312對於從評價語彙輸入部311輸入的評價項目，以作為每一音質評價項目的變化量信息的音質評價項目變化量313作為參考，生成出具有每一評價項目變化量的評價用語音信息。
音質評價項目變化量313儲存有與每一評價項目相對應的多個變化量。音質評價項目變化量313中的內容在上面已經參考圖4進行過說明。
識別結果解析部36具有識別結果正確解判斷部361、評價語彙分類錯誤率計算部362。
識別結果正確解判斷部361對輸入至評價項目設定部31的評價語彙輸入部311處的評價語彙實施輸入，將該語彙與通過識別結果獲取部15獲得的識別結果進行比較，判斷該識別結果是正確解還是非正確解，將表示為正確解還是非正確解的信息附加在識別結果上，進而將附加有該正確解信息的識別結果輸出至評價語彙分類錯誤率計算部362處。
評價語彙分類錯誤率計算部362以從評價語彙輸入部311輸出的評價語彙信息作為參考，對於附加有正確解或非正確解的信息的識別結果，按照評價項目類別求出每個變化量的錯誤頻度，這一點將在後面參考圖10進行詳細說明。隨後，評價語彙分類錯誤率計算部362將錯誤頻度輸出至解析結果提示部17。
下面，以作為語音識別裝置的評價項目的、語音識別裝置可接受的語法是由「電源導通」、「電源斷開」這兩個語彙構成的語法的場合為例，對本實施形式進行詳細說明。
首先，使用者從由評價項目設定部31提示出的語音識別裝置的評價項目中，選擇「語音識別裝置可以接受的語法」。同時，使用者將語音識別裝置評價用的語法輸入至評價語彙輸入部311。
評價用語音信息生成部312對於由評價語彙輸入部311指定的語法，參照作為每一音質評價項目的變化量信息的音質評價項目變化量313，生成出具有儲存在音質評價項目變化量313處的全部音質評價項目變化量的評價用語音信息。換句話說就是，對於包含在語法中的每個單詞，生成出包含儲存在音質評價項目變化量313處的「說話者(性別)」、「說話速度」、「聲音高度」和「語調」的全部變化量的評價用語音信息。
評價項目設定部31將評價用語音信息輸出至聲音合成參數生成部12。聲音合成參數生成部12生成出與每個評價項目的變化量相對應的聲音合成參數。
聲音合成參數生成部12對於除輸入的評價項目中的「語法」之外的每一評價項目的變化量，生成出與變化量相對應的聲音合成參數。聲音合成參數的生成方式與實施例1中的方式相同。聲音合成參數生成部12將所生成出的聲音合成參數集和由使用者輸入的語法，輸出至聲音合成部13處。
聲音合成部13依據所輸入的聲音合成參數實施聲音合成處理。在這時，對包含在使用者通過評價項目設定部11輸入的語法中的全部語彙實施讀音，而實施聲音合成。在前述的實例中，針對全部聲音合成參數的設定值的每個組合，對「電源導通」、「電源斷開」這兩個發聲聲音實施合成處理。聲音合成部13將合成聲音輸出至合成聲音輸出部14處。
合成聲音輸出部14將合成聲音輸出至作為評價對象的語音識別裝置處。語音識別裝置對所輸入的合成聲音實施識別處理。識別結果獲取部15取得由作為評價對象的語音識別裝置輸出的識別結果，並輸出至識別結果解析部36。
識別結果解析部36判斷所輸入的識別結果是正確解還是非正確解，並且對該判斷結果依次保存。識別結果解析部36對於包含在由評價項目設定部11指定的語法中的語彙，分析某一語彙是否被錯誤識別為諸如某一語彙。識別結果解析部36將該分析處理結果輸出至解析結果提示部17。
在該實例中，對於表示在圖10中上部分處的、包含在語法中的「電源導通」、「電源斷開」這些單詞，求出將「電源導通」錯誤識別為「電源斷開」的頻度以及將「電源斷開」錯誤識別為「電源導通」的頻度。圖10是表示由評價語彙分類錯誤率計算部362計算出的分析處理結果，即解析結果提示部17提示給使用者的分析處理結果的圖。
解析結果提示部17按照容易被使用者觀察的方式對所輸入的分析處理結果實施整形，並向使用者實施提示。這一實例顯示在圖10中的上部分處。在如圖10的上部分所示的實例中，對於包含在評價項目設定部31指定的語法中的語彙，向使用者提示被錯誤識別時的語彙和頻度。該頻度為相對語彙的總發聲數的錯誤識別發聲數。通過採用如圖10所示的形式向使用者提示分析處理結果，使用者可以容易地獲知哪個語彙具有容易被錯誤識別為哪個語彙的傾向、這樣的錯誤識別的發生頻度。如果舉例來說就是，正如圖10上部分所示的那樣，可以容易地了解到語彙「電源導通」具有比較強的被錯誤地識別為「電源斷開」的傾向(出現的可能性)，而相反方向則不存在這種問題。
使用者可以根據解析結果提示部17提示出的分析處理結果變更語法，而不改變除語法之外的其他條件，再次進行直到前述步驟的處理。作為進行這種處理的一個實例，在圖10中的下部分處，表示了將語法變更為由「電源接入」、「電源關斷」這兩個語彙構成的語法，並再次進行直到前述步驟的處理時，由解析結果提示部17給出的輸出結果。由如圖10中下部分的分析處理結果可知，如圖10中上部分表示的特定錯誤識別傾向不再存在，對全部語彙具有相同頻度的錯誤識別率。通過對圖10中的上側部分和下側部分(即進行語法修正之前和修正之後)的分析處理結果進行比較，使用者可以容易地獲知與採用如圖10中上部分處所示的語法相比，採用如圖10中下部分處所示的語法將不會出現特定錯誤識別傾向的情況。
如圖10所示，通過分別採用兩個不同的語法得到語音識別裝置的性能分析處理結果，並且對該結果獲得的兩個分析處理結果進行比較，可以容易地理解在兩個語法間的錯誤傾向間的差異。在如圖10所示的實例中，使用者可以容易地獲知與採用由「電源導通」、「電源斷開」這兩個單詞構成的語法的場合相比，在採用由「電源接入」、「電源關斷」這兩個單詞構成的語法場合下，可以減小錯誤率出現的可能性。
如果採用作為本實施例的語音識別評價裝置，使用者可以容易地獲知對於語音識別裝置可以接受的語法，是否存在有特定的錯誤識別傾向。而且，還可以容易地對與多個語法對應的語音識別裝置的識別結果進行比較。
(實施例4)作為實施例4的語音識別評價裝置，由使用者指定的評價項目與其他實施例不同。在本實施例中，使用者可以選擇是否將可能出現在人類真實發聲中的語音停滯和不需要的插入語，包含在評價用數據集中。由於所指定的評價項目與實施例1中的不同，所以僅評價項目設定部41和識別結果解析部46與作為實施例1的語音識別評價裝置中的不同。其他的構成形式與由實施例1表示出的語音識別評價裝置相同。圖11為表示作為本發明實施例4的語音識別評價裝置的方框圖。
評價項目設定部41接受作為語音識別裝置的評價項目的、在人類真實發聲中存在的語音停滯和不需要的插入語。而且，可以針對語法，指定語音停滯和不需要的插入語的開始位置及其內容。如果舉例來說，可以按照在單詞「接入」之前插入語音停滯、在單詞「電源」和單詞「關斷」之間插入不需要用語「啊～哎」的方式實施指定。對於未指定語音停滯和不需要插入語的開始位置和相應內容(比如說「啊～哎」等等)的場合，評價項目設定部41從預先儲存的語音停滯和不需要語言的式樣一覽表中進行適當的選擇，並將其插入到語法中所需要的任何位置處。可以隨機地決定插入位置及其內容，也可以預先存儲在語法中容易產生語音停滯和不需要的插入語的位置和與其內容相關的統計信息，並且由這些信息決定其插入位置和內容。
識別結果解析部46判斷所輸入的識別結果是正確解還是非正確解，並且對該判斷結果依次保存。識別結果解析部46對於包含在由評價項目設定部41指定的語法中的語彙，對某一語彙是否被錯誤識別為諸如某一語彙進行分析處理。識別結果解析部46將該分析處理結果輸出至解析結果提示部17。
下面參考附圖12，對評價項目設定部41和識別結果解析部46進行詳細說明。圖12為表示圖11中的評價項目設定部41和識別結果解析部46用的方框圖。
評價項目設定部41具有評價語彙輸入部411、不需要語插入部412、評價用語音信息生成部413和音質評價項目變化量414。
評價語彙輸入部411從使用者接受對語音識別裝置可以接受的語法實施指定的信息。不需要語插入部412生成插入有不需要語的語法和未插入的語法，並且將這些語法作為評價語彙輸出至評價用語音信息生成部413處。不需要語插入部412對未包含在語法中但在人類真實發聲中出現可能性高的、諸如「啊～哎」等發音和諸如語音停滯等不需要語的發聲內容、語法中不需要語的插入位置實施指定。
評價用語音信息生成部413對於從不需要語插入部412輸入的評價項目，參照作為每一音質評價項目的變化量信息的音質評價項目變化量414，生成出具有每一評價項目的變化量的評價用語音信息。
音質評價項目變化量414儲存有與每一評價項目相對應的多個變化量。音質評價項目變化量414的內容與通過實施例3說明的音質評價項目變化量313相同。
而且，識別結果解析部46具有識別結果正確解判斷部461和不需要語有無分類錯誤率計算部462。
識別結果正確解判斷部461將輸入至評價項目設定部41的評價語彙輸入部411處的評價語彙作為輸入，將該語彙與由識別結果獲取部15獲得的識別結果進行比較，判斷該識別結果是正確解還是非正確解，將表示正確解還是非正確解的信息附加在識別結果上，進而將附加有該正確解信息的識別結果輸出至不需要語有無分類錯誤率計算部462處。
不需要語有無分類錯誤率計算部462參照從評價語彙輸入部411和不需要語插入部412分別輸出的評價語彙和不需要語的內容、不需要語的插入位置的信息，對附加有正確解或非正確解的信息的識別結果，按照評價項目分類地求出其每一變化量的錯誤頻度，這一點將在後面參考圖13進行詳細說明。隨後，不需要語有無分類錯誤率計算部462將錯誤率輸出至解析結果提示部17。
下面，對本實施形式的整體動作流程進行說明。
評價項目設定部41將使用者指定的評價項目和語法、與語音停滯和不需要語的插入位置及其內容相關的信息，一併輸出至聲音合成參數生成部12處。聲音合成參數生成部12對於所輸入的評價項目的變化量，生成出與變化量相對應的聲音合成參數。聲音合成參數生成部12將所生成出的聲音合成參數集、語法、語音停滯和不需要語的插入位置及其內容，輸出至聲音合成部13處。
聲音合成部13依據所輸入的聲音合成參數實施聲音合成處理。在這時，在對使用者所輸入的語法，將語音停滯和不需要語插入至應該插入的位置處的基礎上，對包含在語法中的全部語彙實施讀音，而實施聲音合成。這樣，使用者可以容易地獲得插入有語音停滯和不需要語的評價用語音數據集。聲音合成部13將合成聲音輸出至合成聲音輸出部14處。
合成聲音輸出部14、識別結果獲取部15、解析結果提示部17進行與實施例1和實施例3同樣的動作。對於使用者在評價項目設定部41中指定的評價項目，可以按照與實施例1相同的方式動作，對於語法可以按照與實施例3相同的方式動作。
而且在本實施例中，識別結果解析部46針對是否插入有語音停滯和不需要語對語音識別裝置的性能實施分析處理，解析結果提示部17按照容易被使用者觀察的方式對該分析處理結果實施整形，並向使用者實施提示。這一實例顯示在圖13中。圖13為表示由不需要語有無分類錯誤率計算部462計算求解出的以有無不需要語分類的錯誤識別率的示意圖。通過採用如圖13所示的形式向使用者提示分析處理結果，使用者可以容易地獲知相對是否插入有語音停滯和不需要語的語音識別裝置的性能變動狀況。例如在如圖13表示的實例中，對於插入有語音停滯和不需要語的場合，作為評價對象的語音識別裝置的性能將大幅度降低。
一般說來，人類發音者難以有意識地進行語音停滯和不需要語的插入，然而採用作為本實施例的語音識別評價裝置，可以用少的時間和成本，容易地獲得插入有語音停滯和不需要語的評價用語音數據集。此外，通過使用本實施例的語音識別評價裝置，使用者可以容易地獲知在人類真實發聲中可能出現的語音停滯和不需要語言的插入條件下，語音識別裝置可以發揮出怎樣的良好的識別性能。
(實施例5)作為實施例5的語音識別評價裝置，由使用者指定的評價項目與其他實施例不同。在本實施例中，可以選擇是否將發出聲音時的感情信息包含在評價用數據集中。人們通常希望發出的聲音隨著感情的變化也產生變化。採用本實施例，可以提供出一種能夠對與相應於感情變化的發聲相關的語音識別裝置性能進行評價的語音識別評價裝置。由於所指定的評價項目與實施例1中的不同，所以僅評價項目設定部51和識別結果解析部56與作為實施例1的語音識別評價裝置中的不同。其他的構成形式與由實施例1表示出的語音識別評價裝置相同。圖14為表示涉及本發明實施例5的語音識別評價裝置用的方框圖。
評價項目設定部51接受作為語音識別評價裝置的評價項目的、表示人類發出聲音時的感情信息。使用者指定評價用語音數據發聲時的感情信息。如果舉例來說，感情評價項目可以為「生氣」、「高興」、「悲哀」。評價項目設定部51將使用者指定的評價項目和語法，與發出聲音時的感情信息一併輸出至聲音合成參數生成部12。
識別結果解析部56判斷所輸入的識別結果是正確解還是非正確解，並且對該判斷結果依次保存。識別結果解析部56對於通過感情信息輸入部511指定的感情信息，對隨著感情相應變化的發聲能否被識別實施分析處理。識別結果解析部56將該分析處理結果輸出至解析結果提示部17。
下面參考附圖15，對評價項目設定部51和識別結果解析部56進行詳細說明。圖15為表示圖14中的評價項目設定部51和識別結果解析部56用的方框圖。
評價項目設定部51具有感情信息輸入部511、評價用語音信息生成部512、標準評價語彙集513和音質評價項目變化量514。
感情信息輸入部511從使用者接受作為評價項目的發出聲音時的感情信息的種類的指定信息，並且將發出聲音時的感情信息種類輸出至評價用語音信息生成部512。評價用語音信息生成部512參照標準評價語彙集513和音質評價項目變化量514，生成出評價用語音信息，並且將該評價用語音信輸出至聲音合成參數生成部12。評價用語音信息生成部512對於儲存在標準評價語彙集中的語法，參照音質評價項目變化量，生成出具有儲存在音質評價項目變化量處的全部音質評價項目變化量的評價用語音信息。換句話說就是，對於包含在語法中的每個單詞，生成出具有儲存在音質評價項目變化量中的「說話者(性別)」、「說話速度」、「聲音高度」、「語調」的全部變化量的評價用語音信息。而且，評價用語音信息生成部512參照由感情信息輸入部511輸出的發出聲音時的感情信息種類，生成出相對每種感情信息種類的上述評價用語音信息。
識別結果解析部56具有識別結果正確解判斷部561和感情信息分類識別率計算部562。
識別結果正確解判斷部561對由評價項目設定部51的標準評價語彙集513輸入至語音識別裝置的評價用聲音語彙實施輸入，將該語彙與通過識別結果獲取部15獲得的識別結果進行比較，判斷該識別結果是正確解還是非正確解，將表示正確解還是非正確解的信息附加在識別結果上，進而將附加有該正確解信息的識別結果輸出至感情信息分類識別率計算部562處。
感情信息分類識別率計算部562參照由感情信息輸入部511輸出的發出聲音時的感情信息種類，對附加有正確解或非正確解的信息的識別結果，按照感情信息種類求出相應於感情變化的發聲識別率。例如如圖16所示，分別對於「生氣」、「高興」、「悲哀」這三種感情信息，對相應於各種感情變化的發聲識別率實施求解。而且，感情信息分類識別率計算部562將相應於發出聲音時的感情種類求解出的識別率，作為相對於與發出聲音時的感情種類相對應變化的發聲的語音識別裝置的性能的分析處理結果，輸出至解析結果提示部17。
下面，對本實施例的整體動作流程進行說明。
評價項目設定部51將使用者指定的評價項目和語法，與發出聲音時的感情信息一併輸出至聲音合成參數生成部12處。聲音合成參數生成部12參照與音質相關的信息和發出聲音時的感情信息，生成出與各項目的變化量相對應的聲音合成參數。聲音合成參數生成部12對於所輸入的評價項目的變化量，生成出與變化量相對應的聲音合成參數。在這時，利用感情聲音合成技術，與由評價項目設定部51指定的感情信息相對應地對聲音合成參數實施調整，附加上對嵌入至合成聲音中的感情實施指定的參數(感情信息參數)。聲音合成參數生成部12還將所生成出的聲音合成參數集、根據需要附加的感情信息參數，輸出至可以對感情聲音實施合成的聲音合成部13處。
聲音合成部13依據所輸入的聲音合成參數和所附加的感情信息參數，對嵌入有感情的聲音實施合成處理。聲音合成部13將嵌入有感情的合成聲音輸出至合成聲音輸出部14處。
合成聲音輸出部14、識別結果獲取部15、解析結果提示部17進行與實施例1和實施例3相同的動作。對於使用者在評價項目設定部11中指定的評價項目，按照與實施例1相同的方式實施動作，對於語法按照與實施例3相同的方式實施動作。而且在本實施形式中，識別結果解析部56依據相對由使用者指定的感情種類產生相應變化的發聲信息，對語音識別裝置的性能進行分析處理，解析結果提示部17按照容易被使用者觀察的方式對該分析處理結果實施整形，並向使用者實施提示。這一實例顯示在圖16中。圖16為表示通過感情信息分類識別率計算部562計算求解出的識別率用的圖。通過採用如圖16所示的形式向使用者提示分析處理結果，使用者可以容易地獲知相對發出聲音時的感情信息種類產生相應變化的發聲信息，語音識別裝置的性能變動狀況。例如在如圖16表示的實例中，和發出聲音時的感情信息種類為「生氣」、「高興」的場合相比，當感情信息種類為「悲哀」時，作為評價對象的語音識別裝置的性能將會大幅度降低。
一般說來，人類發音者難以有意識的發出嵌入有感情的聲音，然而採用作為本實施例的語音識別評價裝置，可以容易地獲得嵌入有感情的評價用語音數據集。而且如果使用作為本實施例的語音識別評價裝置，使用者可以容易地獲知相對嵌入有感情的聲音，語音識別裝置可以發揮出怎樣的良好的識別性能。
正如上面所說明的那樣，通過本發明實施例給出的語音識別評價裝置、語音識別評價方法和語音識別評價程序，可以解決現有技術中對語音識別裝置進行評價時所存在的問題，即需要花費相當多的時間和相當大的成本來準備評價用語音數據集的問題。而且，可以容易地獲知語音識別裝置相對各評價項目的性能。作為本實施例給出的語音識別評價裝置，是一種對於評價語音識別裝置的使用者來說非常有用的裝置。
而且，在本發明的實施例中，依據評價者所指定的語音識別裝置的任意評價項目，自動生成出對能夠充分覆蓋評價項目變化量的合成聲音實施輸出所需要的合成聲音參數的設定值。聲音合成部使用該合成聲音參數的設定值輸出合成聲音。通過將這種合成聲音作為評價用語音數據集使用，評價者可以在幾乎不花費什麼時間和成本的條件下，獲得評價用語音數據集。
而且，在本發明的實施例中，利用統計方式，對評價者指定的每一評價項目，對語音識別裝置輸出的識別結果進行自動分析處理，並且向評價者提示出有關這些評價基目的性能。因此，評價者僅需要對評價項目實施指定，便可以容易地獲知有關每一評價項目的語音識別裝置的性能。
而且，出現在上述實施例中的處理步驟所示的指令以及流程圖中各步驟所示的指令，均可以依據作為軟體的程序實施執行。通過由通用的計算機系統對這種程序實施預先儲存並讀取這種程序，也可以獲得與使用作為上述實施例的語音識別評價裝置相同的技術效果。在上述實施例中所示的指令，可以作為由計算機執行的程序，記錄在諸如磁碟(軟盤、硬碟等等)、光碟(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD±RW等等)、半導體儲存器和類似的記錄媒體上。計算機可以從這些記錄媒體中讀取程序，並依據這些程序由CPU執行記載在程序中的指令，從而也可以獲得與使用作為上述實施例的語音識別評價裝置相同的技術效果。
而且，本發明並不僅限於上述實施例，在實施階段還可以在不脫離本發明要點的範圍內具體地改變其構成要素。而且，還可以通過對上述實施例公開的若干構成要素實施適當組合的方式，形成各種發明構成形式。如果舉例來說，可以從實施例所示的各構成要素中減少幾個構成要素。而且，還可以對不同實施例中的構成要素實施適當組合。
權利要求
1.一種語音識別評價裝置，其特徵在於具有獲取對語音識別裝置進行評價用的評價項目，依據該評價項目確定輸出至語音識別裝置的合成聲音的特徵，並生成出評價用語音信息的語音信息生成單元；生成用來生成與所述評價用語音信息相對應的合成聲音的參數的參數生成單元；依據所述參數生成合成聲音的合成聲音生成單元；將所述合成聲音輸出至所述語音識別裝置的輸出單元；從所述語音識別裝置獲取得所述語音識別裝置對所述合成聲音實施識別的識別結果的獲取單元；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價的評價單元。
2.如權利要求1所述的語音識別評價裝置，其特徵在於所述語音信息生成單元具有獲取所述評價項目的獲取單元；存儲多個音質信息的音質儲存單元；對使所述合成聲音與語彙發聲相對應的語彙信息實施儲存的語彙儲存單元；相應於所述評價項目，從所述音質儲存單元處選擇出音質信息的選擇單元；以及生成包含該音質信息和所述語彙信息的生成所述參數用的評價用語音信息的生成單元。
3.如權利要求2所述的語音識別評價裝置，其特徵在於所述評價單元具有對與所述合成聲音相對應的語彙信息和所述識別結果進行比較，判斷所述識別結果是否為正確解的判斷單元；以及參照所述判斷單元的判斷結果和所述評價項目，針對評價項目的各語音信息計算識別率的計算單元。
4.如權利要求1所述的語音識別評價裝置，其特徵在於所述語音信息生成單元具有作為所述評價項目，取得使所述合成聲音與語彙發聲相對應的語彙信息的獲取單元；存儲多個音質信息的音質儲存單元；與所述評價項目相對應地從所述音質儲存單元中選擇音質信息的選擇單元；以及生成包含該音質信息和所述語彙信息的評價用語音信息的生成單元。
5.如權利要求4所述的語音識別評價裝置，其特徵在於所述評價單元具有對與所述合成聲音相對應的語彙信息和所述識別結果進行比較，判斷所述識別結果是否為正確解的判斷單元；以及以所述判斷單元的判斷結果和所述評價項目作為參考，對與評價項目的各語彙信息相對應的識別率實施計算用的計算單元。
6.如權利要求1所述的語音識別評價裝置，其特徵在於所述語音信息生成單元具有作為所述評價項目，取得使所述合成聲音與語彙發聲相對應的語彙信息、與包含在該語彙信息中的無意義語言和其插入位置相關的無意義語言信息的獲取單元；存儲多個音質信息的音質儲存單元；與所述評價項目相對應地從所述音質儲存單元中選擇音質信息的選擇單元；以及生成包含該音質信息、所述語彙信息和所述無意義語言信息的評價用語音信息的生成單元。
7.如權利要求6所述的語音識別評價裝置，其特徵在於所述評價單元具有對與所述合成聲音相對應的語彙信息和所述識別結果進行比較，判斷所述識別結果是否為正確解的判斷單元；以及參照所述判斷單元的判斷結果和所述評價項目，針對語彙發聲中是否插入有無意義語言計算識別率的計算單元。
8.如權利要求1所述的語音識別評價裝置，其特徵在於所述語音信息生成單元具有作為所述評價項目，取得指定發聲時的感情種類用的感情信息的獲取單元；存儲多個音質信息的音質儲存單元；存儲使所述合成聲音與語彙發聲相對應的語彙信息的語彙儲存單元；與所述評價項目相對應地從所述音質儲存單元中選擇音質信息的選擇單元；以及生成包含該音質信息和所述語彙信息的評價用語音信息的生成單元。
9.如權利要求8所述的語音識別評價裝置，其特徵在於所述評價單元具有對與所述合成聲音相對應的語彙信息和所述識別結果進行比較，判斷所述識別結果是否為正確解的判斷單元；以及參照所述判斷單元的判斷結果和所述評價項目，對發聲時的每種感情種類計算識別率的計算單元。
10.一種語音識別評價裝置，其特徵在於具有獲取對語音識別裝置進行評價用的評價項目，依據該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特徵的評價用語音信息的語音信息生成單元；生成用來生成與所述評價用語音信息相對應的特徵矢量時間序列的參數的參數生成單元；依據所述參數生成特徵矢量時間序列的時間序列生成單元；將所述特徵矢量時間序列輸出至所述語音識別裝置的輸出單元；從所述語音識別裝置獲取出所述語音識別裝置輸入所述特徵矢量時間序列並實施識別的識別結果的獲取單元；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價的評價單元。
11.如權利要求1到10任一項所述的語音識別評價裝置，其特徵在於所述語音信息生成單元生成包含有因性別產生的音質、說話速度、聲音高度、語調中的至少一個的評價項目，各評價項目由多個變化量構成。
12.如權利要求1到10任一項所述的語音識別評價裝置，其特徵在於還進一步具有對所述評價單元的評價結果實施提示的提示單元。
13.一種語音識別評價方法，其特徵在於包括下述步驟獲取對語音識別裝置進行評價用的評價項目，依據該評價項目確定輸出至語音識別裝置的合成聲音的特徵，並生成出評價用語音信息；對用來生成與所述評價用語音信息相對應的合成聲音的參數實施生成；依據所述參數生成合成聲音；將所述合成聲音輸出至所述語音識別裝置；從所述語音識別裝置獲取出所述語音識別裝置輸入所述合成聲音並實施識別的識別結果；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價。
14.如權利要求13所述的語音識別評價方法，其特徵在於生成所述語音信息的步驟包括獲取所述評價項目；存儲多個音質信息；存儲使所述合成聲音與語彙發聲相對應的語彙信息；相應於所述評價項目，從所述音質儲存單元處選擇出音質信息；以及生成包含該音質信息和所述語彙信息的用來生成所述參數的評價用語音信息。
15.如權利要求14所述的語音識別評價方法，其特徵在於針對所述評價項目對所述語音識別裝置的性能進行評價的步驟包括對與所述合成聲音相對應的語彙信息和所述識別結果進行比較，判斷所述識別結果是否為正確解；以及參照是否為正確解的判斷結果和所述評價項目，與評價項目的各語音信息相對應地計算識別率。
16.如權利要求13所述的語音識別評價方法，其特徵在於生成所述評價用語音信息的步驟包括作為所述評價項目，取得使所述合成聲音與語彙發聲相對應的語彙信息；存儲多個音質信息；與所述評價項目相對應地選擇音質信息；以及生成包含該音質信息和所述語彙信息的評價用語音信息。
17.如權利要求16所述的語音識別評價方法，其特徵在於針對所述評價項目對所述語音識別裝置的性能進行評價的步驟包括對與所述合成聲音相對應的語彙信息和所述識別結果進行比較，判斷所述識別結果是否為正確解；以及參照是否為正確解的判斷結果和所述評價項目，針對評價項目的各語彙信息計算識別率。
18.如權利要求13所述的語音識別評價方法，其特徵在於生成所述評價用語音信息的步驟包括作為所述評價項目，取得使所述合成聲音與語彙發聲相對應的語彙信息、與包含在該語彙信息中的無意義語言和其插入位置相關的無意義語言信息；存儲多個音質信息；與所述評價項目相對應地從所述音質儲存單元中選擇音質信息；以及生成包含該音質信息、所述語彙信息和所述無意義語言信息的評價用語音信息。
19.如權利要求18所述的語音識別評價方法，其特徵在於針對所述評價項目對所述語音識別裝置的性能進行評價的步驟包括對與所述合成聲音相對應的語彙信息和所述識別結果進行比較，判斷所述識別結果是否為正確解；以及參照是否為正確解的判斷結果和所述評價項目，針對語彙發聲中是否插入有無意義語言計算識別率。
20.如權利要求13所述的語音識別評價方法，其特徵在於生成所述評價用語音信息的步驟包括作為評價項目，取得用來指定發聲時的感情種類的感情信息；存儲多個音質信息；存儲使所述合成聲音與語彙發聲相對應的語彙信息；與所述評價項目相對應地從所述音質儲存單元中選擇音質信息；以及生成包含該音質信息和所述語彙信息的評價用語音信息。
21.如權利要求20所述的語音識別評價方法，其特徵在於針對所述評價項目對所述語音識別裝置的性能進行評價的步驟包括對與所述合成聲音相對應的語彙信息和所述識別結果進行比較，判斷所述識別結果是否為正確解；以及參照是否為正確解的判斷結果和所述評價項目，對發聲時的每種感情種類計算識別率。
22.一種語音識別評價方法，其特徵在於包括下述步驟獲取對語音識別裝置進行評價用的評價項目，依據該評價項目生成用來確定輸出至語音識別裝置的合成聲音的特徵的評價用語音信息；生成用來生成與所述評價用語音信息相對應的特徵矢量時間序列的參數；依據所述參數生成特徵矢量時間序列；將所述特徵矢量時間序列輸出至所述語音識別裝置；從所述語音識別裝置獲取出所述語音識別裝置輸入所述特徵矢量時間序列並實施識別的識別結果；以及參照所述評價項目和所述識別結果，針對該評價項目對所述語音識別裝置的性能進行評價。
23.如權利要求13至22中任意一項權利要求所述的語音識別評價方法，其特徵在於生成所述評價用語音信息的步驟生成包含有因性別產生的音質、說話速度、聲音高度、語調中的至少一個的評價項目，各評價項目由多個變化量構成。
24.如權利要求13至22中任意一項權利要求所述的語音識別評價方法，其特徵在於還進一步包括對針對所述評價項目評價所述語音識別裝置的評價結果實施提示的步驟。
全文摘要
本發明提供一種不再需要預先準備評價用語音數據，可以容易地對語音識別裝置相對每一評價項目的性能進行評價，並且可以用少的時間和少的成本實施評價的技術。評價項目設定部(11)取得評價語音識別裝置用的評價項目，並依據該評價項目生成出確定輸出至語音識別裝置的合成聲音特徵的評價用語音信息。聲音合成參數生成部(12)生成用來生成與評價用語音信息相對應的合成聲音的參數。聲音合成部(13)依據所述參數生成合成聲音。合成聲音輸出部(14)將合成聲音輸出至語音識別裝置。識別結果獲取部(15)從語音識別裝置取得語音識別裝置輸入合成聲音並實施識別的識別結果。識別結果解析部(16)參照評價項目和識別結果，對語音識別裝置相對該評價項目的性能進行評價。
文檔編號G10L13/00GK1619643SQ200410103890
公開日2005年5月25日申請日期2004年9月3日優先權日2003年9月4日
發明者酒井優, 金澤博史申請人:株式會社東芝

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

語音識別評價裝置和語音識別評價方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法