語音合成裝置，語音合成方法，以及程序的製作方法

2023-09-19 06:00:35 3

專利名稱：語音合成裝置，語音合成方法，以及程序的製作方法
技術領域：
本發明涉及一種語音合成裝置，語音合成方法及其程序。
背景技術：
作為用於合成語音的方法，已知有一種被稱為錄音編輯方法的方法。該錄音編輯方法被用於位於基站、車輛導航系統等的語音輔助系統。
該錄音編輯系統是用於將單詞與表示事先讀出該單詞的語音的語音數據關聯起來)，將要經受語音合成的句子分為單詞，以及接著獲得與這些單詞相關的語音數據並組合該語音數據的方法(例如，參見曰
本專利公開No.l0-49193)。

發明內容
如果簡單地將語音數據段彼此組合，則該合成的語音就會不自然，這是因為語音音調分量的頻率通常會在語音數據段之間的邊界上發生不連續地變化。
作為解決該問題的方法，可以認為該方法就是用於製備多個語音數據段，其中該語音數據表示通過不同的韻律來讀出相同音素的語音，
同時對將要經受語音合成的句子進行韻律預測，選擇與該預測結果相匹配的語音片段數據並對其進行組合。
但是，如果通過錄音編輯方法利用為每個音素準備的語音數據而獲得更自然的合成語音，則就需要用於存儲語音數據的存儲裝置具有很大的存儲容量。要檢索的數據量也會變得很大。
因此，作為用於通過簡單的結構就能迅速地產生自然合成語音的方法，可以考慮這樣一種方法，就是用於使得語音數據成為以大於或長於音素為單位的語音片段數據，其中該語音片段數據表示波形，並且將與該韻律預測結果匹配的語音片段數據與對沒有被選中的一部分語音片段數據執行該規定的合成方法而生成的語音片段數據進行連接。
利用通過規定的合成方法而得到的語音數據表示的語音的音頻質量通常比通過語音數據表'示的語音的音頻質量更差一些。因此，在該方法中，讀出的語音中對應於該語音片段數據的部分是質量非常高的聲音，或者通過規定的合成方法獲得的部分是質量非常低的聲音。這就會使得該讀出的語音在總體上對聽眾來說是很奇怪的。
考慮到上面的情況，本發明是適宜的，並且意圖提供一種語音合成裝置，語音合成方法以及程序，用於通過簡單的結構就能夠迅速地生成自然的合成語音。
技術方案
為了實現上述目的，根據本發明第一方面的語音合成裝置的特徵就在於包括
語音片段存儲裝置，用於存儲多段語音片段數據，其中該語音片段數據表示語音片段；
選擇裝置，用於輸入表示句子的句子信息並執行如下處理，用於從每段語音片段數據中選擇具有共用語音的語音片段數據的多個片段以及形成該句子的讀音；
缺失部分合成裝置，用於合成表示該語音波形的語音數據，其中對於該語音該選擇裝置無法從形成該句子的語音中選擇語音片段數據；以及
用於通過將由該選擇裝置選擇的語音片段數據與由該缺失部分合成裝置合成的語音數據彼此組合來生成表示合成語音片段的數據的裝置；其中
該選擇裝置還包括確定裝置，用於確定具有共用語音的語音數據與形成該句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及
如果確定該比率沒有達到預定值，則該選擇裝置取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
根據本發明第二方面的語音合成裝置的特徵就在於包括語音片段存她裝置，用於存儲多段語音片段數據，其中該語音片段數據表示語音片段；
韻律預測裝置，用於輸入表示句子的句子信息並預測形成該句子
的語音的韻律；
選擇裝置，用於執行以下處理，用於從該語音片段數據中選擇具有共用語音的語音片段數據的片段以及構成該句子的讀音，其中該讀音的韻律在預定條件下與韻律預測結果匹配；
缺失部分合成裝置，用於合成表示該語音片段波形的語音數據，其中對於該語音該選擇裝置無法從形成該句子的語音中選擇該語音的語音片段數據；以及
用於通過將由該選擇裝置選擇的語音片段數據與由該缺失部分合成裝置合成的語音數據彼此組合來生成表示合成語音片段的數據的裝置；其中
該選擇裝置還包括確定裝置，用於確定具有共用語音的語音數據與形成該句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及
如果確定該比率沒有達到預定值，則該選擇裝置取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
該選擇裝置可以從選擇的對象中去除在預定條件下其韻律與韻律預測結果不匹配的語音片段數據。
該缺失部分合成裝置可以包括
存儲裝置，用於存儲多個數據段，其中該數據表示音素或者構成該音素的碎片；以及
合成裝置，用於通過如下方式來合成表示該語音的波形的語音數據標識包括在語音中的音素(其中選擇裝置無法選擇該語音的語音片段數據)，從該存儲裝置中獲得表示被標識的音素或者形成該音素的碎片的數據片段，並且將它們彼此組合。
該缺失部分合成裝置可以包括
缺失部分韻律預測裝置，用於預測語音的韻律，其中該選擇裝置無法選擇該語音的語音片段數據；其中
該合成裝置通過如下方式來合成表示該語音的波形的語音數據標識包括在語音中的音素(其中選擇裝置無法選擇該語音的語音片段數據)，從該存儲裝置中獲得表示被標識的音素或者形成該音素的碎片的數據，對該獲得的數據進行轉換，使得該音素或者由該數據表示的語音片段與通過該缺失部分韻律預測裝置的韻律預測結果相匹配，以及將轉換後的數據段彼此組合。
該缺失部分韻律預測裝置可以根據韻律預測裝置預測的韻律來合成表示該語音片段的波形的語音數據，其中該選擇裝置無法選擇該語音的語音片段數據。
該語音片段存儲裝置可以存儲表示該語音片段的音調的時間順序變化的韻律數據，其中該語音片段由與該語音片段數據相關的語音片段數據表示；
其中該選擇裝置可以選擇具有共用語音的語音片段數據以及構成該句子的讀音，其中由與該語音片段數據相關的韻律數據表示的音調
的時間順序變化最接近於該韻律的預測結果。該語音合成裝置可以還包括語速轉換裝置，用於獲得用來指定講述該合成語音的速度條件的語速數據，以及選擇或者轉換該語音片段和/或形成表示合成語音的數據的語音數據，使得該語速數據表示在滿足指定條件的速度下講述的語音。
該語速轉換裝置可以通過從語音片段數據和/或構成表示該合成語音的數據的語音數據中去除表示標記的部分，或者將表示碎片的部分增加至語音片段數據和/或語音數據來轉換該語音片段數據和/或該語音數據，使得該語速數據表示在滿足指定條件的速度下講述的語音。
該語音片段存儲裝置可以存儲表示與該語音片段數據相關的語音片段數據的讀音的音標數據；其中
該選擇裝置可以將該語音片段數據當作其讀音與語音一樣的語音
片段數據，其中表示讀音的音標數據與該語音片段數據相關，並且該讀音與形成該句子的語音的讀音相匹配。
根據本發明第三方面的語音合成方法的特徵就在於包括語音片段存儲步驟，用於存儲多段語音片段數據，其中該語音片
段數據表示語音片段；
選擇步驟，用於輸入表示句子的句子信息並執行如下處理，用於從每段語音片段數據中選擇具有共用語音的語音片段數據的片段以及
形成該句子的讀音；
缺失部分合成步驟，用於合成表示該語音波形的語音數據，其中對於該語音該選擇裝置無法從形成該句子的語音中選擇該語音的語音片段數據；以及
用於通過將選擇的語音片段數據與合成的語音數據相互組合來生成表示合成語音片段的數據的步驟；其中
該選擇步驟還包括確定步驟，用於確定具有共用語音的語音數據與形成該句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及
如果確定該比率沒有達到預定值，則該選擇步驟取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
根據本發明第四方面的語音合成方法的特徵就在於包括-語音片段存儲步驟，用於存儲多段語音片段數據，其中該語音片
段數據表示語音片段；
韻律預測步驟，用於輸入表示句子的句子信息並預測構成該句子
的語音的韻律；
選擇步驟，用於執行以下處理，用於從該語音片段數據中選擇具有共用語音的語音片段數據的片段以及構成該句子的讀音，其中該讀音的韻律在預定條件下與韻律預測結果匹配；
缺失部分合成步驟，用於合成表示該語音波形的語音數據，其中無法從形成該句子的語音中選擇該語音的語音片段數據；以及
用於通過將被選擇的語音片段數據與被合成的語音數據相互組合來生成表示合成語音的數據的步驟；其中
該選擇步驟還包括確定步驟，用於確定具有共用語音的語音數據與形成該句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及
如果確定該比率沒有達到預定值，則該選擇步驟取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
根據本發明第五方面的程序使得計算機起到如下作用
語音片段存儲裝置，用於存儲多段語音片段數據，其中該語音片段數據表示語音片段；
選擇裝置，用於輸入表示句子的句子信息並執行如下處理，用於從每段語音片段數據中選擇具有共用語音的語音片段數據的片段以及形成該句子的讀音；
缺失部分合成裝置，用於合成表示該語音波形的語音數據，其中對於該語音選擇裝置無法從形成該句子的語音中選擇該語音的語音片段數據；以及
用於通過將由該選擇裝置選擇的語音片段數據與由該缺失部分合成裝置合成的語音數據相互組合來生成表示合成語音片段的數據的裝置；其特徵在於
該選擇裝置還包括確定裝置，用於確定具有共用語音的語音數據與形成該句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及
如果確定該比率沒有達到預定值，則該選擇裝置取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
根據本發明第六方面的程序使得計算機起到如下作用語音片段存儲裝置，用於存儲多段語音片段數據，其中該語音片段數據表示語音片段；
韻律預測裝置，用於輸入表示句子的句子信息並預測構成該句子
的語音的韻律；
選擇裝置，用於執行以下處理，用於從該語音片段數據中選擇具有共用語音的語音片段數據的片段以及構成該句子的讀音，其中該讀音的韻律在預定條件下與韻律預測結果匹配；
缺失部分合成裝置，用於合成表示該語音波形的語音數據，其中對於該語音選擇裝置無法從形成該句子的語音中選擇該語音的語音片段數據；以及
用於通過將由該選擇裝置選擇的語音片段數據與由該缺失部分合成裝置合成的語音數據相互組合來生成表示合成語音的數據的裝置；其特徵在於
該選擇裝置還包括確定裝置，用於確定具有共用語音的語音數據與形成該句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及
如果確定該比率沒有達到預定值，則該選擇裝置取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
本發明的優點
如上所述，根據本發明，實現了一種語音合成裝置，語音合成方法，及其程序，用於通過簡單的結構就能夠迅速地生成自然的合成語
音

圖1為顯示根據本發明第一實施例的語音合成系統的配置的方框
圖2為示意性地顯示語音片段資料庫的數據結構的圖3為顯示根據本發明第二實施例的語音合成系統的配置的方框
圖4為顯示如下情況的處理的流程圖，其中在該情況下，執行根據本發明第一實施例的語音合成系統的功能的個人計算機獲得了自由
文本數據；
圖5為顯示如下情況的處理的流程圖，其中在該情況下，執行根據本發明第一實施例的語音合成系統的功能的個人計算機獲得了配信字符串數據；
圖6為顯示如下情況的處理的流程圖，其中在該情況下，執行根據本發明第一實施例的語音合成系統的功能的個人計算機獲得了標準尺寸消息數據以及發聲速度數據；
圖7為顯示如下情況的處理的流程圖，其中在該情況下，執行圖 3中單元體功能的個人計算機獲得了自由文本數據；
圖8為顯示如下情況的處理的流程圖，其中在該情況下，執行圖 3中單元體功能的個人計算機獲得了配信字符串數據；以及
圖9為顯示如下情況的處理的流程圖，其中在該情況下，執行圖 3中單元體功能的個人計算機獲得了標準尺寸消息數據以及發聲速度數據。
具體實施例方式
下面將參照附圖來描述本發明的實施例。(第一實施例)
圖1為顯示根據本發明第一實施例的語音合成系統的配置的方框圖。
如圖中所示，該語音合成系統包括單元體Ml和語音片段寄存器單元R。
該單元體M1包括語言處理部分1，常規字典2，用戶字典3，規則合成部分4，語音片段編輯部分5，檢索部分6，語音片段資料庫7，擴展部分8，以及語速轉換部分9。在它們之中，規則合成部分4包括聲音處理部分41，檢索部分42，擴展部分43以及波形資料庫44。
該語言處理部分1，聲音處理部分41，檢索部分42，擴展部分43，語音片段編輯部分5，檢索部分6，擴展部分8，以及語速轉換部分9 中的每一個都包括處理器，例如CPU (中央處理單元)，DSP (數字信號處理器)等，以及用於存儲將由該處理器執行的程序的存儲器，它們都執行將在後面描述的處理。
單個處理器可以執行該語言處理部分1，聲音處理部分41，檢索部分42，擴展部分43，語音片段編輯部分5，檢索部分6，擴展部分8，以及語速轉換部分9的部分或者全部功能。因此，例如執行擴展部分 43的功能的處理器也能夠執行擴展部分8的功能。單個處理器可以涵蓋聲音處理部分41，檢索部分42，以及擴展部分43的功能。
該常規字典2包括非易失性存儲器，例如PROM (可編程只讀存儲器)，硬碟裝置等。在該常規字典2中，由該語音合成系統的製造商等事先存儲了單詞，其中該單詞包括彼此相關的表意字(例如，漢字字符)以及表示該單詞等的讀音的表音字(例如，假名或音標)。
該用戶字典3包括數據可重寫非易失性存儲器，例如EEPROM(電
可擦除/可編程只讀存儲器)，硬碟裝置等，以及控制電路，其用於控制將數據寫入到非易失性存儲器中去。該處理器可以執行該控制電路的功能。作為選擇地，執行該語言處理部分1，聲音處理部分41，檢索
部分42，擴展部分43，語音片段編輯部分5，檢索部分6，擴展部分8，以及語速轉換部分9的部分或者全部功能的處理器可以執行該用戶字典3的控制電路的功能。
該用戶字典3根據用戶的操作從外部等獲得包括表意字和表音字 (其表示該單詞等的讀音)的單詞，並且彼此相關地存儲它們。該用
戶字典3隻需要存儲沒有存儲在常規字典2中的單詞等以及表示該單詞等的讀音的音標。
該波形資料庫44包括非易失性存儲器，例如PROM，硬碟裝置等。該波形資料庫44存儲有音標，以及壓縮的波形數據，其中該壓縮的波形數據是在由該語音合成系統的製造商事先對表示由音標表示的單位語音的波形的波形數據進行彼此相關的熵編碼時獲得的。該單位語音足夠短，以至於能夠在規定的合成方法中使用，且特別地以音素或VCV (元音-輔音-元音)音節為單位被分開的語音。經受熵編碼之前的波形數據僅僅需要包括，例如，將經受PCM (脈衝編碼調製)數字格式數據。
該語音片段資料庫7包括非易失性存儲器例如PROM，硬碟裝置等。
該語音片段資料庫7將數據存儲在例如圖2中所示的數據結構中。也就是說，如圖所示，存儲在該語音片段資料庫7中的數據被分為四部分，即報頭部分HDR，索引部分IDX，目錄部分DIR，以及數據部分DAT。
該數據事先由例如該語音合成系統的製造商存儲在語音片段數據
庫7中，和/或當該語音片段寄存器單位R執行將在後面描述的操作時存儲該數據。
該報頭部分HDR存儲的數據用於識別該語音片段資料庫7，索引部分IDX，目錄部分DIR，以及數據部分DAT的數據量，數據格式，以及表示屬性，例如版權等的數據。
該數據部分DAT存儲壓縮語音片段數據，其中該壓縮波形數據是在對表示語音片段的波形的語音片段數據進行熵編碼時獲得的。
該語音片段是指一系列的部分之一，其中的每一個都包括一個或多個語音音素。通常，該語音片段由用於一個或多個單詞的部分構成。該語音片段可以包括連接詞。
經受熵編碼之前的語音片段數據只需要包括與經受熵編碼之前的波形數據相同格式的數據，用於生成上述壓縮波形數據(例如，經受 PCM的數字格式的數據)。
對於每段壓縮語音數據，該目錄部分DIR存儲
(A) 表示音標的數據，其中該音標表示用該壓縮語音片段數據表示的語音片段的讀音(語音片段讀音數據)，
(B) 表示存儲位置的頂端地址的數據，其中在該存儲位置上存儲有壓縮語音片段數據，
(C) 表示壓縮語音片段數據的數據長度的數據
(D) 表示用壓縮片段數據表示的語音片段的發聲速度(播放數據時的時間長度)的數據(速度預設值數據)，以及
(E) 表示彼此相關的語音片段音調分量的頻率的時間順序變化的數據(音調分量數據)。(假設地址被添加至該語音片段資料庫7的存儲部分)。
圖2舉例說明了如下的情況，其中具有表示語音片段讀音
"SAITAMA"的波形的數據的1410h個字節量的壓縮語音片段數據被存儲在頂端地址為001A36A6h的邏輯位置上，作為包括在數據部分 DAT中的數據。(在該說明書和附圖中，添加在末端的數字"h"表示十六進位數字)。
至少來自上述(A) - (E)的數據片段集合中的數據(A)(即，語音片段讀音數據)被存儲在該語音片段資料庫7的存儲器部分中，因為它是按照根據語音片段讀音數據所表示的音標確定的順序來進行分類的(例如，如果該音標為假名，則根據日語假名表地址的降序對該數據段進行分類)。
上述音調分量數據只需要由數據構成，其中該數據表示關於從語音片段的頭部開始經歷時間的線性函數的截距P以及在語音片段音調分量的頻率由線性函數近似表示的情況下的斜率a 。(斜度a的單位只需要為例如赫茲/秒，並且分數e的單位只需要為例如赫茲)。'
假設該音調分量數據還包括表示由壓縮語音片段數據表示的語音片段是否被作為鼻輔音讀出，以及是否被作為清輔音讀出的數據(未示出)。
該索引部分IDX存儲的數據用於根據該語音片段讀音數據來識別出該數據在直接部分DIR中的大致邏輯位置。特別地，它存儲了彼此相關的假名字符以及表示地址範圍的數據(直接地址)，其中在該地址(目錄地址)上顯示了其開頭字符為假名字符的語音片段讀音數據，假設該語音片段讀音數據表示假名。
單個非易失性存儲器可以執行常規字典2，用戶字典3，波形數據庫44以及語音片段資料庫7的部分或全部功能。
如圖中所示，該語音片段寄存器單元R包括記錄語音片段數據集存儲部分10，語音片段資料庫生成部分11以及壓縮部分12。該語音
片段寄存器單元R可以可拆卸地與語音片段資料庫7相連。在這種情況下，當該語音片段寄存器單元R處於與該單元體Ml斷開的狀態下時，可以使得該單元體M1指向將在後面描述的操作，以下情況下除外，即新數據被寫入到該語音片段資料庫7中。
該記錄語音片段數據集存儲部分10包括數據可重寫非易失性存儲器，例如，硬碟裝置等。
該記錄語音片段數據集存儲部分10存儲了由該語音合成系統的製造商等事先彼此相關的表示該語音片段的讀音的音標，以及表示當收集人實際發音的語音片段時獲得的波形的音頻片段數據。該語音片段數據只需要由，例如，將經受PCM的數字格式的數據構成。
該語音片段資料庫生成部分11和壓縮部分12包括處理器，例如 CPU等，以及用於存儲將由該處理器執行的程序的存儲器，並且執行根據該程序將在後面描述的處理。
單個處理器可以執行語音片段資料庫生成部分11以及壓縮部分 12的部分或全部功能。執行語音處理器l，聲音處理部分41，檢索部分42，擴展部分43，語音片段編輯部分5，檢索部分6，擴展部分8，以及語速轉換部分9的部分或者全部功能的處理器可以進一步執行該語音片段資料庫生成部分11以及壓縮部分12的功能。執行該語音片段資料庫生成部分11以及壓縮部分12的功能的處理器還可以執行作為該記錄語音片段數據集存儲部分10的控制電路的功能。
該語音片段資料庫生成部分11從記錄語音片段數據集存儲部分 10中讀出彼此相關的音標和語音片段數據，並且識別出該語音音調分量頻率的時間順序變化以及用語音片段數據表示的發聲速度。
例如，只需要對該語音片段數據的採樣數進行計數就可以識別出該發聲速度。 '
另一方面，例如，只需要對該語音片段數據進行倒譜分析就能夠識別出語音音調分量頻率的時間順序變化。特別地，由語音片段數據表示的波形在時間軸上被分為多個小片斷，每個獲得的小片段的強度被轉化為與初始值的對數相同的虛擬值(該對數的底數可以任意確定)，並且通過快速傅立葉變換方法(或者，用於生成表示作為離散變量的結果的數據的另一種方法將經受該傅立葉變換)得到其中其值改變的每個小片斷的頻譜(即，倒譜)。接著，給出了該倒譜的最大值的頻率中的最小值被識別作為小片段中音調分量的頻率。
如果通過按照日本專利申請No. 2003-108172中披露的方法將該語音片段數據轉換為音調波形數據來識別出該時間順序變化，則有希望得到識別該音調分量頻率的時間順序變化的優選結果，'並接著根據該音調波形數據來識別該時間順序變化。特別地，只需要過濾該語音片段數據和提取該音調信號，根據該提取出的音調信號將用語音片段數據表示的波形分為單位音調長度的部分，根據每個部分與音調信號的相互關係來識別出相位之間的偏移，以及調整各個部分的相位就能夠將該語音片段數據轉換為音調波形信號。接著，只需要通過使用得到的音調波形信號作為語音片段數據來進行倒譜分析就能夠識別出音調分量頻率的時間順序變化。
另一方面，該語音片段數據生成部分11將從記錄語音片段數據集存儲部分IO讀出的語音片段數據提供給壓縮部分12。
該壓縮部分12通過對由語音片段數據生成部分11提供的語音片段數據進行熵編碼來生成壓縮語音片段數據，並將該壓縮語音片段數據返回給語音片段數據生成部分11。當識別出該語音片段數據的音調分量頻率和發聲速度的時間順序變化，並且該語音片段數據經受熵編碼並通過該壓縮部分12被返回作為壓縮語音片段數據時，該語音片段數據生成部分11將該壓縮語音片
段數據寫入到語音片段資料庫7的存儲器中，作為包括在數據部分DAT 中的數據。
該語音片段數據生成部分11將從記錄語音片段數據集存儲部分 10中讀出的音標寫入到語音片段資料庫7的存儲器中作為語音片段讀音數據，使得該音標表示由該被寫入的壓縮語音片段數據表示的語音片段的讀音。
該語音片段數據生成部分11還識別出該語音片段資料庫7的存儲器中的頂端地址，並將該地址寫入到該語音片段資料庫7的存儲器中，作為上述數據(B)。
還可以識別該壓縮語音片段數據的數據長度，並將該識別出的數據長度寫入到該語音片段資料庫7的存儲器中，作為數據(C)。
生成表示由壓縮語音片段數據表示的音調分量頻率以及語音片段的發聲速度的時間順序變化的識別結果的數據，並將該數據寫入到語音片段資料庫7的存儲器中，作為速度預設值數據和音調分量數據。
現在，將描述該語音合成系統的操作。
在該說明中，假設該語音處理部分1首先從外部獲得自由文本數據，其中在該自由文本數據中，包括由用戶準備的表意字的句子(自由文本)使得該語音合成系統為其合成語音。
這裡，該語言處理部分1可以通過任何方法來獲得自由文本數據。
例如，它可以通過接口電路(未示出)從外部裝置或者網絡獲得自由文本數據，或者可以通過記錄介質驅動裝置從記錄介質驅動裝置(未
示出)中設置的記錄介質(例如，軟盤(註冊商標)或者CD-ROM)
中讀取自由文本數據。
執行該語言處理部分1的功能的處理器可以將由該處理器執行的其他處理中使用的文本數據傳送給該語言處理部分1的處理，作為自由文本數據。
上述該處理器執行的其他處理可以包括如下處理使得該處理器執行代理裝置的功能，即通過獲得表示語音的語音數據，通過對語音數據執行語音識別來識別由該語音表示的語音數據，根據該識別出的語音片段來識別該語音的講述者請求的內容，以及識別出應該進行的處理，以實現該識別出的請求。
當該語言處理部分1獲得自由文本數據時，通過檢索該常規字典
2和用戶字典3來識別出表示包括在自由文本中的每個表意字的讀音的
音標。接著，用該識別出的音標來代替表意字。接著，該語言處理部分1將通過用音標來替換自由文本中的全部表意字而得到的音標串提
供給聲音處理部分41。
當將音標串從語言處理部分1提供給該聲音處理部分41時，該聲音處理部分41指示該檢索部分42為包括在該音標串中的每個音標檢索由該音標表示的單位語音的波形。
響應於該指示，該檢索部分42在該波形資料庫44中檢索表示由包括在該音標串中的每個音標表示的單位語音的波形的壓縮波形數據。接著，將該檢索到的壓縮波形數據提供給擴展部分43。
該擴展部分43在對從檢索部分42提供的壓縮波形數據進行壓縮
之前恢復該波形數據，並將該恢復後的波形數據返回給檢索部分42。
該檢索部分42將從擴展部分43返回的波形數據提供給聲音處理部分 41，作為檢索結果。
該聲音處理部分41將從檢索部分42提供的波形數據按照在由語言處理部分1提供的音標串中排列的音標順序提供給語音片段編輯部分5。
當將波形數據從聲音處理部分41提供給該語音片段編輯部分5 時，該語音片段編輯部分5按照提供的順序將波形數據片段彼此組合，並輸出其作為表示合成語音的數據(合成語音數據)。根據該自由文本
數據合成的合成語音等同於按照規定的合成方法合成的語音。
該語音片段編輯部分5可以通過任何方法來輸出該合成語音數據。例如，它可以通過D/A (數字-模擬)轉換器或者揚聲器(未示出) 來播放該由合成語音數據表示的合成語音。它還可以通過接口電路(未示出)將該合成語音數據發送至外部裝置或網絡，或者通過記錄介質驅動裝置將該合成語音數據寫入到該記錄介質驅動裝置(未示出)中設置的記錄介質中去。執行該語音片段編輯部分5的功能的處理器可以將該合成語音數據發送至該處理器正在執行的其他處理。
假設該聲音處理部分41從外部獲得表示所配信的音標串的數據 (配信字符串數據)。(該聲音處理部分41可以按照任意方法來獲得配信字符串數據。例如，可以按照與語言處理部分1中用戶獲得自由文本數據相同的方法來獲得配信字符串數據)。
在這種情況下，該聲音處理部分41將用配信字符串數據表示的音標串當作由語言處理部分l提供的音標串。結果，由檢索部分42來檢索對應於包括在由配信字符串表示的音標串中的音標的壓縮波形數據，並由擴展部分43對壓縮之前的波形數據進行恢復。通過聲音處理部分41將恢復的每段波形數據提供給語音片段編輯部分5。該語音片
段編輯部分5按照配信字符串表示的音標串中音標的排列順序將波形
數據片段彼此組合，並輸出其作為表示合成語音的數據。根據該配信字符串數據合成的合成語音數據還表示按照規定的合成方法合成的語
音
假設該語音片段編輯部分5接著獲得標準尺寸的消息數據，發聲
速度數據以及匹配程度數據。
該標準尺寸消息數據表示作為音標串的標準尺寸的消息，該發聲速度數據表示由該標準尺寸消息數據表示的標準尺寸消息的發聲速度的給定值(說出該標準尺寸尺寸消息所需時間長度的給定值)。該匹配
程度數據用於指定將在後面由檢索部分6執行的檢索處理中的檢索條件。假設該匹配程度數據可以為"1"， "2"，以及"3"以下的任何值，其中"3"為最嚴格的檢索條件。
該語音片段編輯部分5可以通過任何方法來獲得標準尺寸消息數據，發聲速度數據或者匹配程度數據。例如，它可以通過與語言處理部分1獲得自由文本數據相同的方法來獲得標準尺寸消息數據，發聲速度數據或者匹配程度數據。
當該標準尺寸消息數據，發聲速度數據以及匹配程度數據被提供給語音片段編輯部分5時，該語音片段編輯部分5就會指示檢索部分6 去檢索與該音標相關的所有壓縮語音片段數據，其中該音標與表示包括在標準尺寸消息中的語音片段的讀音的音標相匹配。
響應於該語音片段編輯部分5的指示，該檢索部分6在該語音片段資料庫7中檢索相應的壓縮語音片段數據，上述對應於相應的壓縮語音片段數據的語音片段讀音數據，速度預設值數據以及音調分量數據，並將該檢索到的壓縮波形數據提供給擴展部分43。如果有多段壓
縮語音片段數據對應於該共用表音字串和表意字串，則所有片段的相應的壓縮語音片段數據都被檢索作為將在語音合成中使用的候選數據。另一方面，如果該檢索部分6具有對於其來說沒有任何壓縮語音片段數據被檢索出來的語音片段，則該檢索部分6產生用於識別該相應語音片段的數據(下文中，被稱為缺少部分識別數據)。
該擴展部分43對從檢索部分6提供的壓縮語音片段數據被壓縮之前的語音片段數據進行恢復，並將其返回給檢索部分6。該檢索部分6 將由該擴展部分43返回的語音片段數據，檢索到的語音片段讀音數據，速度預設值數據以及音調分量數據作為檢索結果提供給語速轉換部分 9。如果產生了缺少部分識別數據，則該缺少部分識別數據也被提供給語速轉換部分9。
另一方面，該語音片段編輯部分5指示該語速轉換部分9對提供給語速轉換部分9的語音片段數據進行轉換，並使得由該語音片段數據表示的語音片段的對間長度與由該發聲速度數據表示的速度相匹配。
響應於來自於該語音片段編輯部分5的指示，該語速轉換部分9 對從該檢索部分6提供的語音片段數據進行轉換，以與該指示相匹配，並將該數據提供給語音片段編輯部分5。特別地，例如，該語速轉換部分9隻需要根據檢索出的速度預設值數據來識別由該檢索部分6提供的語音片段數據的初始時間長度，接著對該語音片段數據進行重新採樣，並使得該該語音片段數據的採樣數成為與由該語音片段編輯部分5 指示的速度相匹配的時間長度。
該語速轉換部分9還將從該檢索部分6提供的語音片段讀音數據以及音調分量數據提供給語音片段編輯部分5。如果將該缺少部分識別數據從檢索部分6提供給語速轉換部分9，則該語速轉換部分9進一步將該缺少部分識別數據提供給語音片段編輯部分5。
如果該發聲速度數據沒有被提供給語音片段編輯部分5，則該語音片段編輯部分5隻需要指示該語速轉換部分9將提供給該語速轉換
部分9的語音片段數據提供給語音片段編輯部分5，而不進行轉換。響應於該指示，該語速轉換部分9將從檢索部分6提供的語音片段數據按照原樣提供給語音片段編輯部分5。
當語速轉換部分9將該語音片段數據，語音片段讀音數據以及音調分量數據提供給語音片段編輯部分5時，該語音片段編輯部分5就會從提供的多段語音片段數據中選擇一段語音片段藪據，其中該語音片段數據表示能夠與該語音片段的波形相近似的波形，並且該語音片段形成了用於一個語音片段的標準尺寸消息。這裡，該語音片段編輯部分5根據獲得的匹配程度數據來設置是否使得滿足任何條件的波形成為標準尺寸消息的語音片段附近的波形。
特別地，該語音片段編輯部分5首先通過根據韻律預測方法例如 "Fujisake模型"、"ToBI (Tone and Break Indeces )"等，對由標準尺寸消息數據表示的標準尺寸消息進行分析來預測該標準尺寸消息的韻律 (重音，聲調，重讀，音素的時間長度等)。
接著，該語音片段編輯部分5
(1) 選擇由該語速轉換部分9提供的所有語音片段數據(即，其讀音與標準尺寸消息中的語音片段相匹配的語音片段數據)作為標準尺寸消息中語音片段波形附近的語音片段數據，如果該匹配程度數據的值為"1"。
(2) 如果該匹配程度數據的值為"2"，則該語音片段編輯部分5
選擇該語音片段數據作為標準尺寸消息中該語音片段波形附近的語音
片段數據，只要滿足條件(l)(即，與表示讀音的音標相匹配的條件)，
以及在表示語音片段數據的音調分量頻率的時間順序變化的音調分量數據的內容與包括在標準尺寸消息中的語音片段的重音預測結果之間
存在預定量或更多的牢固相互關係(所謂的韻律)(例如，如果重讀位置的時間差就是預定量或更小)。通過標準尺寸消息的韻律預測結果就能夠識別出標準尺寸消息中語音片段重音的預測結果。例如，該語音片段編輯部分5隻需要解釋音調分量的頻率被預測為最高的位置作為該重音的預測位置。另一方面，對於由該語音片段數據表示的語音片段的重音位置，它只需要根據上述音調分量數據識別出音調分量的頻率最高的位置，並且將該位置解釋為重音位置。可以對整個句子預測該韻律。作為選擇地，可以將該句子分為預定單元並對每個單元進行預測來預測韻律。
(3)如果該匹配程度數據的值為"3"，'則該語音片段編輯部分5 選擇該語音片段數據作為標準尺寸消息中該語音片段波形附近的語音片段數據，只要滿足條件(2)(即，與表示讀音的音標和重音相匹配的條件)，以及由該語音片段數據表示的語音被讀作鼻輔音還是清輔音與標準尺寸消息韻律的預測結果相匹配。該語音片段編輯部分5隻需要根據由語速轉換部分9提供的音調分量數據來確定由該語音片段數據表示的語音被讀作鼻輔音還是清輔音。
如果該語音片段編輯部分5對於語音片段具有與它自己設置的條件相匹配的多段語音片段數據，則它就根據比該設置的條件更嚴格的條件將該多段語音片段數據收縮變窄為片段。
特別地，該語音片段編輯部分5進行如下操作如果設置條件對應於匹配程度數據值"1"並且存在多段相應的語音片段數據，例如，則它就會選擇還與對應於匹配程度數據值"2"的檢索條件相匹配的片段。如果選擇了多段語音片段數據，則它進一步從選擇結果中選擇與對應於匹配程度數據值"3"的檢索條件相匹配的片段。如果它通過對應於匹配程度數據值"3"的檢索條件而使得多個片段收縮變窄並且仍舊具有多段語音片段數據，則它只需要根據任意的標準對剩餘的片段
進行收縮變窄。
接著，該語音片段編輯部分5確定表示該語音片段讀音的音標串的字符數與形成該標準尺寸消息數據的音標串的字符總數的比率(或者，除了表示由從語速轉換部分9提供的缺少部分識別數據指示的語音片段的讀音的部分以外的部分與形成該標準尺寸消息數據的音標串
中字符總數的比率)是否達到了預定閾值，其中為該語音片段選擇了表示能夠被近似的波形的語音片段數據。
如果確定上述比率達到了該閾值並且如果也從語速轉換部分9提供了該缺少部分識別數據，則該語音片段編輯部分5從該標準尺寸消息數據中提取出表示由該缺少部分識'別數據表示的語音片段的讀音的
音標串，並將其提供給聲音處理部分41，並且指示該聲音處理部分合
成該語音片段的波形。
該被指示的聲音處理部分41將從語音片段編輯部分5提供的音標串當作由配信字符串數據表示的音標串。結果，由該檢索部分42檢索出表示由包括在該音標串中的音標表示的語音波形的壓縮波形數據，並由擴展部分43將壓縮波形數據恢復至初始波形，並通過檢索部分42 將其提供給聲音處理部分41 。該聲音處理部分41將該波形數據提供給語音片段編輯部分5。
當該波形數據被從聲音處理部分41返回至語音片段編輯部分5 時，它將該波形數據以及由語音片段編輯部分5從語速轉換部分9提供的語音片段數據中選擇的波形數據按照由標準尺寸消息數據表示的標準尺寸消息中音標串中音標的排列順序彼此組合，並將其輸出作為表示合成語音的數據。
如果由該語速轉換部分9提供的數據不包括缺少部分識別數據，則該語音片段編輯部分5隻需要立即將由該語音片段編輯部分5選擇
的多段語音片段數據按照由標準尺寸消息數據表示的標準尺寸消息中音標串中音標的排列順序彼此組合，並將其輸出作為表示合成語音的
數據，而不需要指示該聲音處理部分41來合成該波形。
另一方面，如果確定上述比率沒有達到閾值，則該語音片段編輯部分5確定在該語音合成中不使用該語音片段數據(換句話說，取消選擇該語音片段數據)，並將形成該標準尺寸消息數據的整個音標串提
供給聲音處理部分41，以及指示該聲音處理部分41來合成該語音片段
的波形。
該被指示的聲音處理部分41將從語音片段編輯部分5提供的音標串當作由配信字符串數據表示'的音標串。結果，該聲音處理部分41將表示由包括在該音標串中的音標表示的語音波形的波形數據提供給語音片段編輯部分5。
當該波形數據被從聲音處理部分41返回至語音片段編輯部分5 時，它按照由標準尺寸消息數據表示的標準尺寸消息中語音片段的排列順序組合該多段波形數據，並將其輸出作為表示合成語音的數據。
在根據本發明第一實施例的上述語音合成系統中，根據韻律預測結果通過錄音編輯方法將表示語音片段波形的多段語音片段數據自然地組合，其中該語音片段可以為比音素更大的單位，使得合成讀出該標準尺寸消息的語音。該語音片段資料庫7的存儲容量可以比用於存儲每個音素的波形的存儲器容量更小，並且可以進行快速檢索。這樣，該語音合成系統又小又輕便，並且還能夠適於快速處理。
如果能夠被由形成該標準尺寸消息的整個語音片段中的語音片段數據表示的語音片段近似的一部分語音片段沒有達到上述閾值，則該語音合成系統通過規定的合成方法對該整個標準尺寸消息進行語音分析，而不需要使用表示能夠近似用於語音分析的語音片段的語音片段數據。這樣，如果該標準尺寸消息包括能夠被由語音片段數據表示的語音片段近似的少量語音片段，合成語音中語音片段質量的不均勻性
也不是很突出，使得它幾乎沒有不自然的聲音。
該語音合成系統的結構並不僅限於上面所提到的。
例如，該波形數據或語音片段數據不需要一定是PCM格式的數據，並且該數據可以具有任何數據格式。
該波形資料庫44或語音片段資料庫7不需要存儲處於將經受數據壓縮的狀態中的波形數據或語音片段數據。如果該波形資料庫44或語音片段資料庫7存儲'了處於沒有將經受數據壓縮的狀態中的波形數據或語音片段數據，則該單元體M1不需要具有擴展單元43。
該波形資料庫44不需要以單獨地分開的形式存儲單位語音。它可以存儲由多個單位語音形成的語音的波形，以及用於識別每個單元語音在該波形中佔據的位置的數據。在這種情況下，該語音片段資料庫7 可以執行該波形資料庫44的功能。也就是說，一系列語音數據片段可以被按照與語音片段資料庫7中相同的方式存儲在波形資料庫44中。在這種情況下，針對每個音素的音調信息等被存儲在彼此相關的語音數據中，以便於被用作波形資料庫。
該語音片段數據生成部分11可以通過記錄介質驅動裝置從該記錄介質驅動裝置(未示出)中設置的記錄介質中讀出語音片段數據或音標串，其中該語音片段數據或音標串使得用於新壓縮的語音片段數據的素材被添加至該語音片段資料庫7。
該語音片段寄存器單元R不需要必須具有該記錄語音片段數據集存儲部分10。
該音調分量數據也可以是表示由該語音片段數據表示的語音片段的音調長度的時間順序變化的數據。在這種情況下，該語音片段編輯
部分5隻需要根據該音調分量數據來識別該音調長度最短的位置(即，頻率最高的位置)，並將該位置解釋為重音位置。
該語音片段編輯部分5預先存儲表示特定語音片段的韻律的韻律寄存器數據，並且如果該標準尺寸消息包括該特定語音片段，則它可以將該由韻律寄存器數據表示的韻律當作韻律預測的結果。
該語音片段編輯部分5還可以存儲過去的韻律預測結果作為韻律
寄存器數據。
該語音片段數據生成部分11可以包括麥克風，放大器，採樣電路，
A/D (模擬-數字)轉換器以及PCM編碼器。在這種情況下，該語音片段數據生成部分11可以通過如下方式來生成語音片段數據，即對表示由它自己的麥克風收集的語音的語音信號進行放大，對該信號迸行採樣和A/D轉換，以及接著對該釆樣後的語音信號進行PCM調製，而不是從記錄語音片段數據集存儲部分10中獲得語音片段數據。
該語音片段編輯部分5可以通過將從聲音處理部分41返回的波形數據提供給語速轉換部分9來將由波形數據表示的波形的時間長度與由發聲速度數據表示的速度相匹配。
該語音片段編輯部分5可以通過例如語言處理部分1來獲得自由文本數據，並且通過進行實質上與選擇標準尺寸消息的語音片段數據的處理相同的處理來選擇至少與包括在由該文本數據表示的自由文本中的一部分語音(音標串)相匹配的語音片段數據，以便於在語音合成中使用它。
在這種情況下，該聲音處理部分41不需要使得該檢索部分42為由該語音片段編輯部分5選擇的語音片段而檢索表示該語音片段波形的波形數據。該語音片段編輯部分5隻需要將不需要被聲音處理部分41合成的語音片段報告給該聲音處理部分41，使得該聲音處理部分41 響應於該報告而停止檢索形成該語音片段的單位語音的波形。
該語音片段編輯部分5可以例如通過聲音處理部分41來獲得配信
字符串數據，通過進行實質上與選擇標準尺寸消息的語音片段數據的處理相同的處理來選擇表示包括在由該配信字符串數據表示的配信字符串中的音標串的語音片段數據，以便於在語音合成中使用它。在這
種情況下，該聲音處理部分41不需要使得該檢索部分42為由該語音片段編輯部分5選擇的語音片段數據表示的語音片段而檢索表示該語音片段'波形的波形數據。
(第二實施例)
現在，將描述本發明的第二實施例。圖3為顯示根據本發明第二實施例的語音合成系統的配置的方框圖。如圖中所示，該語音合成系統與第一實施例一樣也包括單元體M2和語音片段寄存器單元R。在它
們中，語音片段寄存器單元R具有實質上與第一實施例中相同的結構。
該單元體M2包括語言處理部分1，常規字典2，用戶字典3，規則合成部分4，語音片段編輯部分5，檢索部分6，語音片段資料庫7，擴展部分8，以及語速轉換部分9。在它們中，該語言處理部分l，常規字典2，用戶字典3，以及語音片段資料庫7具有實質上與第一實施例中相同的結構。
該語言處理部分l，語音片段編輯部分5，檢索部分6，擴展部分 8，以及語速轉換部分9中的每一個都包括處理器，例如CPU, DSP等，以及用於存儲將由該處理器執行的程序的存儲器，它們都執行將在後面描述的處理。單個處理器可以執行該語言處理部分1，檢索部分42，擴展部分43，語音片段編輯部分5，檢索部分6，以及語速轉換部分9
的部分或者全部功能。
該規則合成部分4與第一實施例一樣也包括聲音處理部分41，檢
索部分42，擴展部分43以及波形資料庫44。在它們當中，聲音處理部分41，檢索部分42，以及擴展部分43中的每一個都包括處理器，例如CPU， DSP等，以及用於存儲將由該處理器執行的程序的存儲器，它們都進行將在後面描述的處理。
單個處理器可以執行該聲音處理部分41，檢索部分42以及擴展部分43的部分或者全部功能。執行該語言處理部分l，聲音處理部分 41，檢索部分42，擴展部分43，語音片段編輯部分5，檢索部分6， '擴展部分8，以及語速轉換部分9的部分或全部功能的處理器還可以進一步執行聲音處理部分41，檢索部分42，以及擴展部分43的部分或全部功能。因此，該擴展部分8也可以執行，例如，該規則合成部分4 的擴展部分43的功能。
該波形資料庫44包括非易失性存儲器，例如PROM，硬碟裝置等。該波形資料庫44存儲有音形字，以及壓縮波形數據，其中獲得該壓縮波形數據作為表示碎片的碎片波形數據，其中該碎片形成了通過該語音合成系統的製造商事先經受彼此相關的熵編碼的音標(即，用於一個形成音素的語音波形的周期(或者，某一數量)的語音)表示的音素。熵編碼之前的碎片波形數據可以包括例如經受PCM的數字格式數據。
該語音片段編輯部分5包括匹配語音片段確定部分51，韻律預測部分52，以及輸出合成部分53。該匹配語音片段確定部分51，韻律預測部分52，以及輸出合成部分53中的每一個都包括處理器，例如CPU， DSP (數位訊號處理器)等，以及存儲器，用於存儲將由該處理器執行的程序，它們都執行將在後面描述的處理。
單個處理器可以執行該匹配語音片段確定部分51，韻律預測部分 52，以及輸出合成部分53的部分或者全部功能。執行該語言處理部分
1，聲音處理部分41，檢索部分42，擴展部分43，語音片段編輯部分 5，檢索部分6，擴展部分8，以及語速轉換部分9的部分或全部功能的處理器還可以進一步執行匹配語音片段確定部分51，韻律預測部分 52，以及輸出合成部分53的部分或全部功能。因此，用於執行該輸出合成部分53的功能的處理器可以進一步執行，例如，語速轉換部分9 的功能。
現在，將描述圖3中的語音合成系統的操作。
首先，假設該語言處理部分1實質上從外部獲得了與第一實施例中相同的自由文本數據。在這種情況下，該語言處理部分1通過執行實質上與第一實施例中相同的處理來用音標替換包括在該自由文本中的表意字。接著，它將通過該替換的結果得到的音標串提供給規則合成部分4的聲音處理部分41。
當將音標串從語言處理部分1提供給聲音處理部分41時，該聲音處理部分41指示該檢索部分42來為包括在音標串中的每個音標檢索形成了由該音標表示的音素的碎片波形。該聲音處理部分41將該音標串提供給語音片段編輯部分5的韻律預測部分52。
響應於該指示，該檢索部分42在該波形資料庫44中檢索與該指示所述相匹配的壓縮波形數據。接著，它將檢索出來的壓縮波形數據提供給擴展部分43。
該擴展部分43從該檢索部分42提供的壓縮波形數據恢復壓縮之前的碎片波形數據，並將該恢復後的波形數據返回給檢索部分42。該檢索部分42將從擴展部分43返回的碎片波形數據提供給聲音處理部分41，作為檢索的結果。
另一方面，從聲音處理部分41將音標串提供給韻律預測部分52，
該韻律預測部分52通過根據例如與第一實施例中該語音片段編輯部分 5進行的相同韻律預測方法進行分析而生成表示由該音標串表示的語音韻律的預測結果的韻律預測數據。接著，將該韻律預測數據提供給聲音處理部分41。
當從檢索部分42將碎片波形數據提供給聲音處理部分41並且從韻律預測部分52將韻律預測數據提供給聲音處理部分41時，該聲音處理部分41就通過使用該碎片波形數據而生成表示語音波形的語音波形數據，其中該語音波形是由包括在由該語言處理部分ll提供的音標串中的每個音標表示的。
特別地，該聲音處理部分41根據由該韻律預測部分52提供的韻律預測數據來識別包括由該檢索部分42提供的每段碎片波形數據表示的碎片的音素的時間長度。接著，該聲音處理部分41隻需要獲得最接近於被由碎片波形數據表示的碎片時間長度分割的音素的被識別時間長度數值的整數，並且通過將多段該碎片波形數據與得到的整數彼此組合來生成語音波形數據。
不僅通過根據韻律預測數據確定由該語音波形數據表示的語音時間長度，而且還通過處理包括在該語音波形數據中的碎片波形數據，該聲音處理部分41可以使得由該語音波形數據表示的語音具有與由韻律預測數據表示的韻律相匹配的重讀，聲調等。
接著，該聲音處理部分41將該生成的語音波形數據按照由語言處理部分1提供的音標串中音標的排列順序提供給該語音片段編輯部分5 中的輸出合成部分53。
當該聲音波形數據被從聲音處理部分41提供給輸出合成部分53 時，該輸出合成部分53按照從該聲音處理部分41提供的順序組合這些語音波形數據片段，並將其輸出作為合成的聲音數據。根據該自由
文本數據合成的合成聲音對應於按照該規則合成方法合成的語音。
該輸出合成部分53輸出合成語音數據的方法也與第一實施例的
語音片段編輯部分5中採取的一樣，並且可以是任意的。因此，可以通過例如D/A轉換器或者揚聲器(未示出)來播放由該合成語音數據
表示的合成語音。還可以通過接口電路(未示出)將該合成語音數據發送至外部裝置或網絡，或者通過記錄介質驅動裝置將該合成語音數據寫入到該記錄介質驅動裝置(未示出)中設置的記錄介質中去。執
行該輸出合成部分53的功能的處理器可以將該合成語音數據發送至該處理器正在執行的其他處理。
假設該聲音處理部分41實質上獲得了與第一實施例中相同的配信字符串。(該聲音處理部分41可以按照任意方法來獲得配信字符串數據。例如，可以按照與語言處理部分1中用戶獲得自由文本數據相同的方法來獲得配信字符串數據)。
在這種情況下，該聲音處理部分41將用配信字符串數據表示的音標串當作從該語言處理部分1提供的音標串。結果，由檢索部分42檢索出表示碎片的壓縮波形數據，其中該碎片形成了由包括在該配信字符串表示的音標串中的音標表示的音素，並由擴展部分43對壓縮之前的碎片波形數據進行恢復。另一方面，該韻律預測部分52根據韻律預測方法對由該配信字符串表示的音標串進行分析。結果，生成了表示關於由該音標串表示的語音韻律的預測結果的韻律預測數據。接著，該聲音處理部分41根據每段恢復的碎片波形數據和韻律預測數據來生成表示語音波形的語音波形數據，其中該語音波形由包括在由配信字符串數據表示的音標串中的每個音標表示。該輸出合成部分53將生成的語音波形數據按照由配信字符串表示的音標串中音標的排列順序進行組合，並將其輸出作為合成語音數據。根據該配信字符串數據被合成的該合成語音數據還表示規則合成方法中合成的語音。
接下來，假設該語音片段編輯部分5的匹配語音片段確定部分51 實質上獲得了與第一實施例中相同的標準尺寸消息數據，發聲速度數據以及匹配程度數據。(該匹配語音片段確定部分51可以通過任意方式獲得該標準尺寸消息數據，發聲速度數據以及匹配程度數據。例如，可以按照與語言處理部分1獲得自由文本數據相同的方法來獲得標準尺寸消息數據，發聲速度數據以及匹配程度數據。)
當該標準尺寸消息數據，發聲速度數據以及匹配程度數據被提供
給匹配語音片段確定部分51時，該匹配語音片段確定部分51指示該檢索部分6檢索該壓縮語音片段數據，對應於該壓縮語音片段數據，該音標與表示包括在標準尺寸消息中的語音片段讀音的音標相匹配。
響應於來自匹配語音片段確定部分51的指示，該檢索部分6與檢索部分6在第一實施例一樣在該語音片段資料庫7中檢索所有的相應的壓縮語音片段數據，與相應的壓縮語音片段數據相關的上述語音片段讀音數據，速度預設值以及音調分量數據，並將檢索出的壓縮波形數據提供給擴展部分43。另一方面，如果存在一些語音片段，其中對於該語音片段來說該壓縮的語音片段數據無法被檢索出來，則就會生成用於識別相應語音片段的缺少部分識別數據。
該擴展部分43從該檢索部分6提供的壓縮語音片段數據中恢復壓縮前的語音片段數據，並將其返回給檢索部分6。該檢索部分6將從擴展部分43返回的語音片段數據，以及檢索出的語音片段讀音數據，速度預設值數據和音調分量數據提供給語速轉換部分9，作為檢索結果。如果產生了該缺少部分識別數據，則該缺少部分識別數據也會被提供給語速轉換部分9。
另一方面，該匹配語音片段確定部分51指示該語速轉換部分9對提供給該語速轉換部分9的語音片段數據進行轉換，使得由該語音片段數據表示的語音片段的時間長度與由發聲速度數據表示的速度相匹
配。
響應於該匹配語音片段確定部分51的指示，該語速轉換部分9對
由檢索部分6提供的語音片段數據進行轉換，以與該指示相匹配，並將其提供給匹配語音片段確定部分51。特別地，它只需要通過調整該
部分的長度就能夠使得整個語音片段數據的採樣數成為由該匹配語音
片段確定部分51指示的速度，因為它將從檢索部分6提供的語音片段數據分割為表示各個音素的部分，對於獲得的各個部分，從該部分中識別出表示碎片的局部，其中該碎片形成了由該部分表示的音素，復制該識別出的局部(一個或多個局部)並將其插入在該部分中，或者從該部分中去除該局部(一個或多個局部)。該語速轉換部分9隻需要為各個部分確定表示要被插入或被去除碎片的部分的數據，使得剩餘的由各個部分表示的音素之間的時間長度的比率實質上相同。因此，可以比簡單組合以及合成該音素的情況更細緻地調整該語音。
該語速轉換部分9還將從檢索部分6提供的語音片段讀音數據和音調分量數據提供給匹配語音片段確定部分51。如果該缺少部分識別數據是從檢索部分6提供的，則該語速轉換部分9進一步還將該缺少部分識別數據提供給匹配語音片段確定部分51。
如果該發聲速度數據沒有被提供給匹配語音片段確定部分51，則該匹配語音片段確定部分51隻需要指示該語速轉換部分9將提供給語速轉換部分9的語音片段數據提供給匹配語音片段確定部分51，而不需要轉換該語音片段數據，並且該語速轉換部分9實際上只需要響應於該指示而將從檢索部分6提供的語音片段數據提供給匹配語音片段確定部分51。如果被提供給語速轉換部分9的語音片段數據的採樣數已經與時間長度相匹配，其中該時間長度與由該匹配語音片段確定部分51指示的速度相匹配，則該語速轉換部分9實際上只需要將該語音片段數據提供給匹配語音片段確定部分51,因為其不需要進行任何轉換。
當將該語音片段數據，語音片段讀音數據以及音調分量數據從語速轉換部分9提供給匹配語音片段確定部分51時，根據對應於該匹配程度數據值的條件，通過如第一實施例中的語音片段編輯部分5的用
於一個語音片段的一段語音片段數據，該匹配語音片段確定部分51從被提供給匹配語音片段確定部分51的語音片段數據中選擇表示能夠被
近似於形成標準尺寸消息的語音片段波形的語音片段數據。
這裡，如果存在一語音片段，其中對於該語音片段來說，無法從
該語速轉換部分9提供的語音片段數據中選擇滿足對應於該匹配程度數據值的條件的語音片段數據，則該匹配語音片段確定部分51確定將該相應的語音片段數據當作語音片段，其中對於該語音片段來說，該檢索部分6無法檢索出該壓縮語音片段數據(即，由上述缺少部分識別數據表示的語音片段)。
接著，與第一實施例中的語音片段編輯部分5 —樣，該匹配語音片段確定部分51確定表示該語音片段讀音的音標串的字符數與形成該標準尺寸消息數據的音標串的字符總數的比率(或者，除了表示由從語速轉換部分9提供的缺少部分識別數據指示的語音片段的讀音的部分以外的部分與形成該標準尺寸消息數據的音標串中字符總數的比率)是否達到了預定閾值，其中表示能夠被近似的波形的語音片段數據選擇該語音片段。
接著，如果確定上述比率已經達到了該閾值，則該匹配語音片段確定部分51將該選擇的語音片段數據提供給輸出合成部分53，作為滿足對應於該匹配程度數據值條件的數據。在這種情況下，如果也從語速轉換部分9將缺少部分識別數據提供給匹配語音片段確定部分51，或者如果存在數據片段，其中對於該數據片段來說，沒有滿足對應於該匹配程度數據值條件的語音片段數據能被選擇，則該匹配語音片段確定部分51從標準尺寸消息數據中提取出表示由該缺少部分識別數據
(包括有語音片段，其中對於該語音片段來說，沒有滿足對應於該匹配程度數據值條件的語音片段數據能被選擇)表示的語音片段讀音的音標串，並將其提供給聲音處理部分41，指示它來合成該語音片段的波形。
該被指示的聲音處理部分41將從匹配語音片段確定部分51提供的音標串作為由配信字符串表示的音標串。結果，該檢索部分42檢索
出表示碎片的壓縮波形數據，其中該碎片形成了由包括在音標串中的音標表示的音素，並且由擴展部分43恢復壓縮之前的碎片波形數據。另一方面，該韻律預測部分52生成韻律預測數據，其中該韻律預測數據表示由該音標串表示的語音片段韻律的預測結果。接著，該聲音處理部分41根據各個恢復的碎片波形數據和韻律預測數據來生成語音波形數據，其中該語音波形數據表示由包括在音標串中的各個音標表示的語音波形，並將該生成的語音波形數據提供給輸出合成部分53。
該匹配語音片段確定部分51可以將對應於由韻律預測數據中的缺少部分識別數據表示的語音片段的部分提供給聲音處理部分41，其中該韻律預測數據已經由該韻律預測部分52生成並且被提供給匹配語音片段確定部分51。在這種情況下，該處理部分41不需要使得該韻律預測部分52再一次對該語音片段進行韻律預測。這就使得能夠按照比通過精密單元如語音片段進行韻律預測的情況更自然的方式進行發聲。
另一方面，如果確定上述比率沒有達到該閾值，則該匹配語音片段確定部分51就確定在語音合成中不使用該語音片段數據，並且將形成該標準尺寸消息數據的整個音標串提供給聲音處理部分41，並指示合成該語音片段波形。
將表示由包括在音標串中的音標表示的語音波形的語音波形數據提供給輸出合成部分53。
當從聲音處理部分41提供了由該碎片波形數據生成的語音波形
數據並且從匹配語音片段確定部分51提供了語音片段數據時，該輸出合成部分53對包括在提供的語音波形數據的各個片段中的碎片波形數據的片數進行調整，以使得由該語音波形數據表示的語音的時間長度與由從匹配語音片段確定部分51提供的語音片段數據表示的語音片段的發聲速度相匹配。
特別地，該輸出合成部分53隻需要識別出由包括在語音片段數據中的每個上述部分表示的音素的時間長度與由匹配語音片段確定部分 51增加或降低的初始時間的比率，並且增加或降低每個語音波形數據中碎片波形數據的片數，使得由從聲音處理部分41提供的語音波形數據表示的音素的時間長度在比率方面改變。為識別該比率，該輸出合成部分53隻需要從檢索部分6獲得在生成由該匹配語音片段確定部分 51提供的語音片段數據時使用的初始語音片段數據，並且逐個識別兩段語音片段數據之間彼此表示相同音素的部分。接著，它只需要識別包括在由匹配語音片段確定部分51提供的語音片段數據中識別出的部
分中增加或降低的碎片數與包括在從檢索部分獲得的語音片段數據中識別出的部分中的碎片數的比率，作為增加或降低的音素的時間長度的比率。
如果由該語音波形數據表示的音素的時間長度已經與由匹配語音片段確定部分51提供的語音片段數據表示的語音片段的速度校準，或者如果不存在從匹配語音片段確定部分51提供給輸出合成部分53的語音片段數據(特別地，例如上述比率沒有達到閾值或者如果沒有選擇語音片段數據)，則該輸出合成部分53不需要調整語音波形數據中碎片波形數據的數量。
接著，該輸出合成部分53將已經被調整碎片波形數據片數的語音波形數據與從匹配語音片段確定部分51提供的語音片段數據按照由標準尺寸消息數據表示的標準尺寸消息中排列的語音片段和音素的順序彼此組合，並將其輸出作為表示合成聲音的數據。
如果從語速轉換部分9提供的數據不包括標準尺寸消息數據，則它只需要按照由標準尺寸消息數據表示的標準尺寸消息中排列的音標
的順序將由語音片段編輯部分5選擇的語音片段數據組合，並立即將其輸出作為表示合成數據的數據，而不需要指示該聲音處理部分41來
合成波形。
在上述本發明第二實施例的語音合成系統中，可以通過錄音編輯方法根據韻律的預測結果來將表示語音片段波形的語音片段數據的片段彼此自然地組合，其中該語音片段可以為比音素更大的單位，並且合成讀出該標準尺寸消息的語音。
另一方面，通過使用表示碎片的壓縮波形數據的規則組合方法來合成無法選擇適當的語音片段數據的語音片段，其中該碎片為比音素還小的單位。因為該壓縮波形數據表示碎片的波形，因此該波形數據
庫44的存儲容量小於該壓縮波形數據表示音素波形情況下的存儲器容量，並且能夠進行快速檢索。因此，該語音合成系統又小又輕便，並且還能夠適於快速處理。
通過使用碎片來進行規則合成的情況與通過使用音素來進行規則合成的情況的不同之處就在於能夠進行語音分析，而不會受到出現在音素末端部分中的特定波形的影響。因此，第一種情況能夠產生具有很少種碎片的自然語音。
也就是說，已經知道的是，同時受到在前音素以及在後音素影響的特定波形出現在邊界中，而在該邊界上從人發聲的語音中的在前音
素轉移至在後音素。另一方面，當進行收集時，規則合成中使用的音素已經在末端包括了特定波形。因此，如果通過使用音素進行規則合成，則需要準備很多種類的音素來在音素之間的邊界上再現各種形式的波形，或者應該通過合成不同於語音的合成語音來滿足，其中該語音在音素之間的邊界上的波形很自然。在通過使用碎片來進行規則合成的情況下，可以通過事先從除了音素末端以外的部分收集碎片來消除音素之間邊界上的特定波形帶來的影響。因此，可以產生自然的語音，而不需要準備很多種類的音素。
在能夠由形成標準尺寸消息的整個語音片段中的語音片段數據表示的語音片段近似的語音片段的比率沒有達到上述閾值的情況下，該語音合成系統也按照規則合成方法對整個標準尺寸消息進行語音合成，而不需要使用表示能夠在語音合成中被近似的語音片段的語音片段數據。因此，即使該標準尺寸消息具有少量能夠被由語音片段數據表示的語音片段近似的語音片段，該合成語音中語音片段的質量也沒有顯著的不均勻，而這幾乎不會帶來異常。
本發明第二實施例的語音合成系統的結構不僅限於上述結構。
例如，該碎片波形數據不需要為PCM格式數據並且可以具有任意數據格式。該波形資料庫44在受到數據壓縮的情況下不需要存儲碎片波形數據或語音片段數據。如果該波形資料庫44在沒有受到數據壓縮的情況下存儲了碎片波形數據，則該單元體M2就不需要具有擴展部分 43。
該波形資料庫44在單獨狀態下不需要存儲碎片波形。例如，它可以存儲由多個碎片形成的語音波形，以及用於識別單個碎片在波形中出現的位置的數據。在這種情況下，該語音片段資料庫7可以執行波形資料庫44的功能。
該匹配語音片段確定部分51預先存儲了韻律寄存器數據；並且如果該特定語音片段被包括在標準尺寸消息中，則可以將由韻律寄存器數據表示的韻律當作韻律預測的結果，這與第一實施例的語音片段編輯部分5所作的一樣。作為選擇地，該匹配語音片段確定部分51可以重新存儲過去的韻律預測結果作為韻律寄存器數據。
該匹配語音片段確定部分51可以通過進行實質上與用於選擇表示包括在標準尺寸消息中的語音片段波形附近的波形的語音片段數據相同的處理，以及與第一實施例的語音片段編輯部分5 —樣在語音合成中使用它們來獲得自由文本數據或配信字符串數據。在這種情況下，
該聲音處理部分41不需要使得該檢索部分43為由匹配語音片段確定部分51選擇的語音片段數據表示的語音片段來檢索表示該語音片段波形的波形數據。該匹配語音片段確定部分51可以將該聲音處理部分41 不需要合成的語音片段報告給聲音處理部分41，並且該聲音處理部分 41可以響應於該報告而停止檢索形成該語音片段的單位語音的波形。
該由波形資料庫44存儲的壓縮波形數據不需要表示碎片，並且可以是，例如表示由波形資料庫44存儲的音標表示的單位語音波形的波形數據，或者與第一實施例一樣在對波形數據進行熵編碼時獲得的數據。
該波形資料庫44可以同時存儲表示碎片波形的數據以及表示音素波形的數據。在這種情況下，該聲音處理部分41可以使得該檢索部分42來檢索由包括在配信字符串等中的音標表示的音素，並就對於其沒有相應音素被檢索出的音標來說，使得該檢索部分42來檢索表示碎片的數據，其中該碎片形成了由音標表示的音素，並且通過使用表示碎片的檢索出來的數據使得該檢索部分42生成表示音素的數據。
該語速轉換部分9可以使用任何方法來使得由語音片段數據表示的語音片段的時間長度與由發聲速度數據表示的速度相匹配。因此，該語速轉換部分9可以對由檢索部分6提供的語音片段數據進行重新採樣，並且增加或降低該語音片段數據的採樣數，以同第一實施例中的處理一樣與對應於時間長度的數量相匹配，其中該時間長度與由匹配語音片段確定部分51指示的發聲速度相匹配。
該單元體M2不需要包括語速轉換部分9。如果該單元體M2不包括語速轉換部分9，則該韻律預測部分52可以預測發聲速度，並且該匹配語音片段確定部分51可以在用於在由檢索部分6獲得的語音片斷數據中進行確定的預定條件下選擇其發聲速度與韻律預測部分52的預測結果相匹配的語音片段數據，並從選擇對象中去除其發聲速度與預測結果不匹配的語音片段數據。該語音片段資料庫7可以存儲多個具有相同讀音和不同發聲速度的語音片段數據。
該輸出合成部分53可以使用任何方法將由語音波形數據表示的音素時間長度與由語音片段數據表示的語音片段的發聲速度相匹配。因此，該輸出合成部分53可以識別出由包括在被匹配語音片段確定部
分51增加或降低的語音片段數據中的每個部分表示的音素時間長度與原始時間長度的比率，接著對該語音波形數據重新進行採樣，以及將該語音波形數據的採樣數增加或降低至對應於時間長度的數量，其中該時間長度與由匹配語音片段確定部分51識別出的發聲速度相匹配。
對於每個語音片段來說，該發聲速度可以是不同的。(因此，該發聲速度數據可以用於指定對於每個語音片段來說是不同的發聲速度。) 接著，該輸出合成部分53可以通過插入兩個語音片段的發聲速度(例如，線性內插法)來確定兩個語音片段之間語音的發聲速度，並對表示語音的語音波形數據進行轉換，以與確定的發聲速度相匹配，用於具有不同發聲速度的每個語音的語音波形數據，其中該不同的發聲速度被置於兩個語音片段之間。
例如，該輸出合成部分53可以對從聲音處理部分41返回的語音
波形數據進行轉換，以使得該語音的時間長度與由提供給匹配語音片段確定部分51的發聲速度數據識別出的速度相匹配，即使該語音波形數據表示形成了讀出自由文本或配信字符串的語音的語音。
在上述系統中，該韻律預測部分52可以對整個句子進行韻律預測
(包括預測發聲速度)，或者通過預定單元進行韻律預測。在對整個句子進行韻律預測時，如果存在具有相同讀音的語音片段，則可以進一步確定該韻律在預定條件下是否匹配。如果該讀音匹配，則可以採用
該語音片段。對於沒有出現相同語音片段的部分，該規則合成部分4
可以根據碎片產生語音。在這種情況下，可以根據對於韻律的預測結果來調整將根據碎片來合成的部分的音調或速度，其中該韻律預測是對整個句子或者通過預定單元來進行的。這就實現了自然語音，即使對根據該碎片產生的語音片段和語音進行組合以將其合成。
如果輸入給語音處理部分1的字符串為音標串，則該語音處理部分1可以進行除了韻律預測以外的公知的自然語言分析處理，並且該
匹配語音片段確定部分51可以根據該自然語言分析處理的結果來選擇語音片段。這就能夠通過使用對每個字的字符串進行分析的結果來選擇語音片段(部分語音，例如名詞，動詞)，這就導致了該語音比簡單地選擇與音標串相匹配的語音片段的情況更自然。
在第一和第二實施例中，與閾值進行比較的對象不需要是字符數。例如，可以確定實際檢索出來的語音片段數量與語音片段總數的比率是否達到了預定閾值。
雖然已經描述了本發明的實施例，但根據本發明的語音合成裝置可以由通用計算機系統而不是專用系統來實現。
例如，用於執行上述處理的單元體Ml可以被配置為程序，該程序是從存儲了程序的記錄介質(CD-ROM, MO，軟盤(註冊商標)等)
安裝的，並且使得個人計算機執行上述語言處理部分1，常規字典2，
用戶字典3，聲音處理部分41，檢索部分42，擴展部分43，波形數據庫44，語音片段編輯部分5，檢索部分6，語音片段資料庫7，擴展部分8，以及語速轉換部分9的工作。
用於執行上述處理的語音片段寄存器單元R可以被配置為程序，該程序是從存儲了程序的記錄介質安裝的，並使得個人計算機執行上述記錄語音片段數據集存儲部分10，語音片段數據生成部分11，以及壓縮部分12的工作。
接著，假設通過執行程序起到單元體M1或語音片段寄存器單元R 的作用的個人計算機執行圖4-6中所示的處理，作為對應於圖1中的語音合成系統的工作的處理。
圖4為顯示如下情況的處理的流程圖，其中在該情況下個人計算機獲得了自由文本數據。'
圖5為顯示如下情況的處理的流程圖，其中在該情況下個人計算機獲得了配信字符串數據。
圖6為顯示如下情況的處理的流程圖，其中在該情況下個人計算機獲得了標準尺寸消息數據以及語速數據。
也就是說，當個人計算機從外部獲得上述自由文本數據時(步驟 SlOl，圖4)，它通過在常規字典2或用戶字典3中檢索音標來識別出表示包括在由自由文本數據表示的自由文本中的每個表意字的讀音的音標，並用識別出的音標替換該表意字(步驟S102)。該個人計算機可以通過任何方法獲得該自由文本數據。
當獲得音標時(其中該音標表示用音標來替換自由文本中的全部
表意字的結果)，該個人計算機在波形資料庫44中檢索由關於包括在音標串中的每個音標的音標表示的單位語音波形，並檢索出表示由包括在音標串中的每個音標表示的單位語音波形的壓縮波形數據(步驟
S103)。
接著，該個人計算機從檢索到的壓縮波形數據中恢復壓縮之前的波形數據(步驟S104)，將恢復的波形數據片段按照音標串中排列的音標的順序彼此組合，並將其輸出作為合成語音數據(步驟S105)。該個人計算機可以通過任何方法輸出該合成語音。
當該個人計算機通過任意方法從外部獲得上述配信字符串數據時 (圖5，步驟S201)，它在波形資料庫44中檢索由關於包括在配信字符串表示的音標串中的每個音標的音標表示的單位語音波形，並檢索
出表示由包括在音標串中的每個音標表示的單位語音波形的壓縮波形數據(步驟S202)。
接著，該個人計算機從檢索到的壓縮波形數據中恢復壓縮之前的波形數據(步驟S203)，將恢復的波形數據片段按照音標串中排列的音標的順序彼此組合，並將其輸出作為合成語音數據(步驟S204)，這與步驟S105的處理相同。
當該個人計算機通過任意方法從外部獲得上述標準尺寸消息數據和發聲速度數據時(圖6，步驟S301)，它首先檢索出所有的壓縮語音片段數據，其中與表示包括在由標準尺寸消息數據表示的標準尺寸消息中的語音片段的讀音的音標匹配的音標與該壓縮語音片段數據相關 (步驟S302)。
在步驟S302，它還檢索出與相應壓縮語音片段數據相關的語音片段讀音數據，速度預設值數據以及音調分量數據。如果多段壓縮語音片段數據對應於語音片段，則它檢索出所有的相應壓縮語音片段數據的片段。另一方面，如果存在沒有壓縮語音片段數據被檢索出來的語音片段，則它就會產生上述的缺少部分識別數據。
接著，該個人計算機從檢索出來的壓縮波形數據中恢復壓縮之前的語音片段數據(步驟S303)。接著，它通過與上述語音片段編輯部分 5進行的相同處理對恢復後的語音片段數據片段進行轉換，以使得由該語音片段數據表示的語音片段的時間長度與由該發聲速度數據表示的
速度相匹配(步驟S304)。如果沒有提供發聲速度數據，則不需要對該恢復後的語音片段數據進行轉換。
接著，該個人計算機通過根據韻律預測方法對由標準尺寸消息數據表示的標準尺寸消息進行分析來預測該標準尺寸消息的韻律(步驟 S305)。接著，它通過執行與上述語音片段編輯部分5相同的處理，根據由從外部獲得的匹配程度數據表示的標準，通過用於語音片段的一段語音片段數據，從其時間長度被轉換的語音片段數據中選擇表示最接近於形成該標準尺寸消息的語音片段波形的波形的一段語音片段數據(步驟S306)。
特別地，在步驟S306,該個人計算機例如根據上述條件(1) - (3)
識別出語音片段數據。也就是說，假設如果該匹配程度數據值為"1"，則其讀音與標準尺寸消息中的語音片段匹配的所有語音片段數據的片
段被認為是表示標準尺寸消息中的語音片段波形。如果該匹配程度數據值為"2"，只要表示讀音的音標匹配，並且表示語音片段數據的音調分量頻率的時間順序變化的音調分量數據的內容與包括在標準尺寸消息中的語音片段的重音預測結果相匹配，則就可以認為該語音片段數據表示標準尺寸消息中的語音片段波形。如果該匹配程度數據值為 "3"，只要表示讀音的音標和重讀匹配，以及關於由該語音片段數據表示的語音是否被讀作清輔音還是鼻輔音的確定結果與標準尺寸消息的韻律預測結果相匹配，則就可以認為該語音片段數據表示標準尺寸
消息中的語音片段波形。
如果對於語音片段來說，有與該匹配程度數據表示的標準相匹配的多段語音片段數據，則假設根據比這些設置更嚴格的條件將這些段語音片段數據收縮變窄為一個片段。
接著，該個人計算機確定表示該語音片段讀音的音標串的字符數與形成該標準尺寸消息數據的音標串的字符總數的比率(或者，除了
表示由在步驟S302生成的缺少部分識別數據表示的語音片段的讀音的
部分以外的部分與形成該標準尺寸消息數據的音標串中字符總數的比
率)是否達到了預定閾值，其屮在步驟S306選擇該語音片段的語音片段數據(步驟S307)。
如果確定上述比率達到了該閾值並且只要該個人計算機已經在步驟S302生成了缺少部分識別數據，則該個人計算機按照如下方式來恢復表示由音標串中的每個音標表示的語音波形的波形數據，即通過從該標準尺寸消息數據中提取出表示由該缺少部分識別數據表示的語音片段的讀音的音標串，以及對於音標串的每個音素，通過以與由配信
字符串數據表示的音標串相同的方式處理的提取出來的音標串執行上述步驟S202-S203的處理(步驟S308)。
接著，該個人計算機將該恢復的波形數據與在步驟S306選擇的語音片段數據按照由標準尺寸消息數據表示的標準尺寸消息中音標串中排列的音標的順序進行組合，並將其輸出作為表示合成語音的數據(步驟S309)。
另一方面，如果在步驟S307確定上述比率沒有達到閾值，則該個
人計算機通過確定在語音合成中沒有使用語音片段數據，並且通過按照與配信字符串數據表示的語音串相同的方式處理的提取出的音標串
對形成標準尺寸消息數據的整個音標串的每個音素執行上述步驟 S202-S203的處理來恢復表示由音標串中的每個音標表示的語音波形
的波形數據(步驟S310)。接著，它將該恢復的波形數據段按照由標準尺寸消息數據表示的標準尺寸消息中音標串中音標的排列順序進行組
合，並將其輸出作為表示合成語音的數據(步驟S311)。
例如，用於執行上述處理的單元體M2可以被配置為程序，該程序是從存儲了程序的記錄介質安裝的，並且使得個人計算機執行上述語言處理部分l,常規字典2，用戶字典3，聲音處理部分41，檢索部分42,擴展部分43，波形資料庫44，語音片段編輯部分5，檢索部分 6，語音片段資料庫7，擴展部分8，以及語速轉換部分9的工作。
接著，假設通過執行程序起到單元體M2或語音片段寄存器單元R 的作用的個人計算機執行圖7-9中所示的處理，作為對應於圖3中的語音合成系統的工作的處理。
圖7為顯示如下情況的處理的流程圖，其中在該情況下執行單元體M2功能的個人計算機獲得了自由文本數據。
圖8為顯示如下情況的處理的流程圖，其中在該情況下執行單元體M2功能的個人計算機獲得了配信字符串。
圖9為顯示如下情況的處理的流程圖，其中在該情況下執行單元體M2功能的個人計算機獲得了標準尺寸消息數據和發聲速度數據。
也就是說，當個人計算機從外部獲得上述自由文本數據時(步驟 S401，圖7)，它通過在常規字典2或用戶字典3中檢索音標來識別出表示包括在由自由文本數據表示的自由文本中的每個表意字的讀音的音標，並用識別出的音標替換該表意字(步驟S402)。該個人計算機可以通過任何方法獲得該自由文本數據。
當獲得表示用音標來替換自由文本中的全部表意字的結果的音標
串時，該個人計算機在波形資料庫44中檢索由關於包括在音標串中的每個音標的音標表示的單位語音的波形，並檢索出表示碎片波形的壓縮波形數據，其中該碎片形成了由包括在音標串中的每個音標表示的
音素(步驟S403)，並從檢索到的壓縮波形數據中恢復壓縮之前的碎片波形數據(步驟S404)。
另一方面，該個人計算機通過根據韻律預測方法對自由文本數據進行分析來預測由自由文本表示的語音的韻律(步驟S405)。接著，它根據步驟S405的韻律預測結果來生成在步驟S404恢復的碎片波形數據以及語音波形麵據'(步驟S406),將獲得的波形數據片段按照音標串中排列的音標的順序彼此組合，並將其輸出作為合成語音數據(步驟 S407)。該個人計算機可以通過任何方法來輸出合成的語音數據。
當該個人計算機通過任意方法從外部獲得上述配信字符串數據時 (圖8，步驟S501)，它執行如下處理，對於以與上述步驟S403-S404 一樣包括在由配信字符串數據表示的音標串中的每個音標，檢索出表示形成由音標表示的音素的碎片波形的壓縮波形數據，並且從檢索到的壓縮波形數據中恢復碎片波形數據(步驟S502)。
當該個人計算機通過根據韻律預測方法對配信字符串進行分析來預測由配信字符串表示的語音的韻律時(步驟S503)，它根據步驟S503 的韻律預測結果來生成在步驟S502恢復的碎片波形數據以及語音波形數據(步驟S504)，通過採取與步驟S407相同的處理來將獲得的波形數據片段按照音標串中排列的音標的順序彼此組合，並將其輸出作為合成語音數據(步驟S505)。
另一方面，當該個人計算機通過任意方法獲得上述標準尺寸消息數據以及發聲速度數據時(步驟S601，圖9)，它首先檢索出所有段的壓縮語音片段數據，其中該壓縮語音片段與音標相關，而該音標與表示包括在由標準尺寸數據表示的標準尺寸消息中的語音片段讀音的音
標相匹配(步驟S602)。
在步驟S602，它還檢索出與相應壓縮語音片段數據相關的上述語音片段讀音數據，速度預設值數據以及音調分量數據。如果多段壓縮語音片段數據對應於語音片段，則它檢索所有的相應壓縮語音片段數據的片段。另一方面，如果存在對於其沒有壓縮語音片段數據被檢索出來的語音片段，則它就會產生上述缺少部分識別數據。
接著，該個人計算機從檢索出來的壓縮波形數據中恢復壓縮之前的語音片'段數據(步驟S603)。接著，它通過與上述語音片段編輯部分 5進行的相同處理對恢復後的語音片段數據片段進行轉換，以使得由該語音片段數據表示的語音片段的時間長度與由該發聲速度數據表示的速度相匹配(步驟S604)。如果沒有提供發聲速度數據，則不需要對該恢復後的語音片段數據進行轉換。
接著，該個人計算機通過根據韻律預測方法對由標準尺寸消息數據表示的標準尺寸消息進行分析來預測該標準尺寸消息的韻律(步驟 S605)。接著，它通過執行與上述匹配語音片段確定部分51執行的相同處理，根據由從外部獲得的匹配程度數據表示的標準，通過用於語音片段的一段語音片段數據，從轉換其語音片段的時間長度的語音片段數據中選擇表示最接近於形成該標準尺寸消息的語音片段波形的波形的一段語音片段數據(步驟S606)。
特別地，在步驟S606，該個人計算機例如通過進行與上述步驟 S306相同的處理根據上述條件(1) - (3)識別出語音片段數據。假設如果對於一個語音片段來說存在與由匹配程度數據表示的標準相匹配的多段語音片段數據，則它根據比這些設置更嚴格的條件將這些段語音片段數據收縮變窄為一片段。還假設如果存在一語音片段，其中對於該語音片段來說沒有語音片段數據滿足對應於該匹配程度數據值的條件，則它確定將該相應的語音片段當作對於其沒有壓縮語音片段數
據被檢索出來的語音片段，並且例如，生成缺少部分識別數據。
接下來，與第二實施例的匹配語音片段確定部分53所作的一樣，該個人計算機確定表示該語音片段讀音的音標串的字符數與形成該標準尺寸消息數據的音標串的字符總數的比率(或者，除了表示由在步
驟S602或S606生成的缺少部分識別數據表示的語音片段的讀音的部分以外的部分與形成該標準尺寸消息數據的音標串中字符總數的比率)是否達到了預定閾值，其中對於該語音片段來說，選擇表示能夠被近似的波形的語音片段數據(步驟S607)。
如果確定上述比率達到了該閾值並且如果該個人計算機已經在步驟S602或S606生成了缺少部分識別數據，則它通過如下方式生成表示由音標字符串中的每個音標表示的語音波形的語音波形數據，即從該標準尺寸消息數據中提取出表示由該缺少部分識別數據表示的語音片段的讀音的音標串，以及對於提取出的音標串的每個音素，通過被當作由配信字符串數據表示的音標串的提取出來的音標串來進行與上述步驟S502-S504相同的處理(步驟S608)。
在步驟S608，該個人計算機可以通過使用在步驟S605的韻律預測結果來生成語音波形數據，而不是進行對應於步驟S503處理的處理。
接著，該個人計算機通過執行與上述輸出合成部分進行的相同處理來調整包括在步驟S608生成的語音波形數據中的碎片波形數據的片
段的數目，以使得由該語音波形數據表示的語音時間長度與在由步驟 S606選擇的語音片段數據表示的語音片段的發聲速度相匹配(步驟 S609)
也就是說，該個人計算機只需要識別出由包括在步驟S606選擇的語音片段數據中的每個上述部分表示的音素的時間長度與在步驟S609 的初始時間長度的比率，例如，增加或者降低每個語音波形數據中碎
片波形數據的片數，以便於通過比率來改變由在步驟S608生成的語音波形數據表示的語音的時間長度。為識別該比率，該個人計算機只需
要識別出表示在步驟S606選擇的語音片段數據中相同的語音的部分 (發聲速度轉換之後的語音片段數據)以及初始語音片段，即在步驟 S604經受轉換之前的語音片段數據，並且識別出包括在經受發聲速度轉換增加或降低之後在該初始語音片段數據中識別出的部分中的碎片數量與包括在初始語音數據中識別出的部分中的碎片數量的比率，作為增加或降低的語音時間長度的比率。
如果由語音波形數據表示的語音的時間長度與由經受發聲速度轉換之後的語音片段數據表示的語音片段的速度相匹配，或者如果在步驟S606沒有選擇語音片段數據，則該個人計算機不需要調整該語音片段數據中碎片波形數據的片段的數目。
接著，該個人計算機將已經經過了步驟S609的處理的語音波形數據與在步驟S606選擇的語音片段數據按照由標準尺寸消息數據表示的標準尺寸消息中排列的音標串的順序進行組合，並將其輸出作為表示合成語音的數據(步驟S610)。
另一方面，在步驟S607，如果確定上述比率沒有達到閾值，則該個人計算機確定在語音合成中不使用語音片段數據，並且通過被當作
由配信字符串數據表示的音標串的語音片段數據對形成該標準尺寸消息數據的整個音標串的每個音素執行與上述步驟S502-S504相同的處理來生成表示由音標串中的每個音標表示的語音波形的語音波形數據 (步驟S611)。該個人計算機可以在S605通過使用韻律預測結果生成語音波形數據，而不是在步驟S611執行對應於在步驟S503的處理的處理。
接著，該個人計算機將在步驟S611生成的多段語音波形數據按照由標準尺寸消息數據表示的標準尺寸消息中排列的音標串的順序彼此
組合，並將其輸出作為表示合成語音的數據(步驟S612)。
例如，可以將使得個人計算機執行單元體M2和語音片段寄存器單元R的功能的程序上傳到通信電路的公告板(BBS)，並且通過通信電路進行分布。作為選擇地，還可以通過表示程序的信號來對載波進行調製，發出該得到的調製波，使得接收該調製波的裝置通過對調製波進行解調來恢復程序。
接著，當該程序被激活並且在OS的控制下被執行作為其他應用程序時，能夠進行上述處理。
如果該OS負責一部分處理，或者該OS形成本發明的一部分組件，則該記錄介質可以通過被去除的部分來存儲程序。在本發明中，還假設該記錄介質存儲了程序，該程序用於啟用在這種情況下由計算機執行的每個功能或每個步驟。
權利要求
1.一種語音合成裝置，其特徵在於包括語音片段存儲裝置，用於存儲多段表示語音片段的語音片段數據；選擇裝置，用於輸入表示句子的句子信息並執行如下處理從每段所述語音片段數據中選擇具有共用語音的語音片段數據的片段以及形成所述句子的讀音；缺失部分合成裝置，用於對於所述選擇裝置無法從形成所述句子的語音中選擇其語音片段數據的語音，合成表示該語音波形的語音數據；以及用於通過將由所述選擇裝置選擇的語音片段數據與由所述缺失部分合成裝置合成的語音數據相互組合來生成表示合成語音的數據的裝置；其中所述選擇裝置還包括確定裝置，用於確定具有共用語音的語音數據與形成所述句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及如果確定所述比率沒有達到所述預定值，該選擇裝置取消對於語音片段數據的選擇並且進行所述語音片段數據無法被選擇的處理。
2. —種語音合成裝置，其特徵在於包括語音片段存儲裝置，用於存儲多段表示語音片段的語音片段數據；韻律預測裝置，用於輸入表示句子的句子信息並預測構成該句子的語音的韻律；選擇裝置，用於執行以下處理從所述語音片段數據中選擇具有共用語音的語音片段數據的片段以及構成所述句子的讀音，其中所述讀音的韻律在預定條件下與韻律預測結果匹配；缺失部分合成裝置，用於對於所述選擇裝置無法從形成所述句子的語音中選擇其語音片段數據的語音，合成表示語音片段波形的語音數據；以及用於通過將由所述選擇裝置選擇的語音片段數據與由所述缺失部分合成裝置合成的語音數據相互組合來生成表示合成語音的數據的裝置；其中所述選擇裝置還包括確定裝置，用於確定具有共用語音的語音與形成所述句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及如果確定所述比率沒有達到所述預定值，該選擇裝置取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
3. 根據權利要求2的語音合成裝置，其特徵在於所述選擇裝置從選擇的對象中去除在所述預定條件下其韻律'與韻律預測結果不匹配的語音片段數據。
4. 根據權利要求2或3的語音合成裝置，其特徵在於所述缺失部分合成裝置包括存儲裝置，用於存儲多個數據段，其中所述數據表示音素或者構成該音素的碎片；以及 '合成裝置，用於通過如下方式來合成表示語音波形的語音數據-標識包括在其語音片段數據無法由所述選擇裝置選擇的語音中的音素，從所述存儲裝置中獲得表示被標識的音素或者形成該音素的碎片的數據片段，並且將它們彼此組合。
5. 根據權利要求4的語音合成裝置，其特徵在於所述缺失部分合成裝置包括缺失部分韻律預測裝置，用於預測所述語音的韻律，其中所述選擇裝置無法選擇該語音的語音片段數據，其中所述合成裝置通過如下方式來合成表示語音波形的語音數據標識包括在所述語音中的音素，其中所述選擇裝置無法選擇所述語音的語音片段數據，從所述存儲裝置中獲得表示被標識的音素或者形成該音素的碎片的數據，對所述獲得的數據進行轉換，使得該音素或者由數據表示的語音片段與通過所述缺失部分韻律預測裝置的韻律的預測結果相匹配，以及將轉換後的數據段彼此組合。
6. 根據權利要求2、 3或4的語音合成裝置，其特徵在於所述缺失部分合成裝置根據由所述韻律預測裝置預測的韻律，對於所述選擇裝置無法選擇其語音片段數據的語音，來合成表示語音片段波形的語音數據。
7. 根據權利要求2-6中任何一個的語音合成裝置，其特徵在於所述語音片段存儲裝置存儲表示與所述語音片段數據相關的語音片段的音調的時間順序變化的韻律數據，其中所述語音片段由語音片段數據來表示，其中所述選擇裝置選擇具有共用語音的語音片段數據以及構成所述句子的讀音，其中由與所述語音片段數據相關的韻律數據表示的音調的時間順序變化最接近於來自每段語音片段數據的韻律預測結果。
8. 根據權利要求1-7中任何一個的語音合成裝置，其特徵在於包括語速轉換裝置，用於獲得用來指定講述所述合成語音的速度條件的語速數據，以及選擇或者轉換語音片段和/或形成表示所述合成語音的數據的語音數據，使得所述語速數據表示在滿足指定條件的速度下講述的語音。
9. 根據權利要求8的語音合成裝置，其特徵在於所述語速轉換裝置通過從語音片段數據和/或構成表示所述合成語音的數據的語音數據中去除表示碎片的部分，或者將表示碎片的部分增加至語音片段數據和/或語音數據來轉換語音片段數據和/或語音數據，使得所述語速數據表示在滿足指定條件的速度下講述的語音。
10. 根據權利要求1-9中任何一個的語音合成裝置，其特徵在於所述語音片段存儲裝置存儲與所述語音片段數據相關的表示語音片段數據的讀音的音標數據，其中所述選擇裝置將語音片段數據當作其讀音與語音一樣的語音片段數據，其中表示讀音的音標數據與該語音片段數據相關，並且該讀音與形成所述句子的語音的讀音相匹配。
11. 一種語音合成方法，其特徵在於包括語音片段存儲步驟，用於存儲多段表示語音片段的語音片段數據；選擇步驟，用於輸入表示句子的句子信息，並且進行如下處理從每段所述語音片段數據中選擇具有共用語音的語音片段數據的片段以及形成所述句子的讀音； '缺失部分合成步驟，用於對於無法從形成所述句子的語音中選擇其語音片段數據的語音，合成表示該語音波形的語音數據；以及用於通過將被選擇的語音片段數據與合成的語音數據相互組合來生成表示合成語音的數據的步驟；其中所述選擇步驟還包括確定步驟，用於確定具有共用語音的語音與形成所述句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及如果確定所述比率沒有達到預定值，該選擇步驟取消對於語音片段數據的選擇並且進行所述語音片段數據無法被選擇的處理。
12. —種語音合成方法，其特徵在於包括語音片段存儲步驟，用於存儲多段表示語音片段的語音片段數據；韻律預測步驟，用於輸入表示句子的句子信息並預測構成該句子的語音的韻律；選擇步驟，用於從每段所述語音片段數據中選擇具有共用語音的語音片段數據的片段以及構成所述句子的讀音，其中所述讀音的韻律在預定條件下與韻律預測結果匹配；缺失部分合成步驟，用於對於無法從形成所述句子的語音中選擇其語音片段數據的語音，合成表示語音片段波形的語音數據；以及用於通過將被選擇的語音片段數據與合成的語音數據相互組合來生成表示合成語音的數據的步驟；其中所述選擇步驟還包括確定步驟，用於確定具有共用語音的語音與形成所述句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及如果確定所述比率沒有達到所述預定值，則該選擇步驟取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
13. —種使得計算機執行如下功能的程序語音片段存儲裝置，用於存儲多段表示語音片段的語音片段數據；選擇裝置，用於輸入表示句子的句子信息'並執行如下處理從每段所述語音片段數據中選擇具有共用語音的語音片段數據的片段以及形成所述句子的讀音；缺失部分合成裝置，用於對於所述選擇裝置無法從形成所述句子的語音中選擇其語音片段數據的語音，合成表示該語音波形的語音數據；以及用於通過將由所述選擇裝置選擇的語音片段數據與由所述缺失部分合成裝置合成的語音數據相互組合來生成表示合成語音的數據的裝置；其中所述選擇裝置還包括確定裝置，用於確定具有共用語音的語音與形成所述句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及如果確定所述比率沒有達到所述預定值，則該選擇裝置取消對於語音片段數據的選擇並且進行所述語音片段數據無法被選擇的處理。
14. 一種使得計算機執行如下功能的程序語音片段存儲裝置，用於存儲多段表示語音片段的語音片段數據；韻律預測裝置，用於輸入表示句子的句子信息並預測構成該句子的語音的韻律；選擇裝置，用於執行以下處理從所述語音片段數據中選擇具有共用語音的語音片段數據的片段以及構成所述句子的讀音，其中所述讀音的韻律在預定條件下與韻律預測結果匹配；缺失部分合成裝置，用於對於所述選擇裝置無法從形成所述句子的語音中選擇其語音片段數據的語音，合成表示語音片段波形的語音數據；以及用於通過將由所述選擇裝置選擇的語音片段數據與由所述缺失部分合成裝置合成的語音數據相互組合來生成表示合成語音的數據的裝置；其中所述選擇裝置還包括確定裝置，用於確定具有共用語音的語音與形成所述句子的整個語音中由被選擇的語音數據表示的讀音的比率是否達到了預定值；以及如果確定所述比率沒有達到所述預定值，則該選擇裝置取消對於該語音片段數據的選擇並且進行該語音片段數據無法被選擇的處理。
全文摘要
語音片段編輯部分(5)從語音片段資料庫(7)中檢索關於語音片段的語音片段數據，其中該語音片段的讀音與固定消息中語音片段的讀音相匹配，並對該語音片段進行轉換，以便於與由該發聲速度數據指定的速度相匹配。該語音片段編輯部分(5)預測固定消息的韻律，並根據該韻律預測結果逐個地選擇與該固定消息的每個語音片段最匹配的檢索到的語音片段數據的項。但是，如果對應於該語音片段數據的被選擇的項的部分語音片段沒有達到預定值，則取消該選擇。關於沒有被選擇的語音片段，將表示每個單位語音波形的波形數據提供給聲音處理部分(41)。將該選擇的語音片段數據與提供的波形數據互連，從而生成表示合成語音的數據。這樣，就提供了一種語音合成裝置，用於迅速地產生合成語音，而這種簡單結構不會帶來任何不舒服的感覺。
文檔編號G10L13/06GK101171624SQ20068001560
公開日2008年4月30日申請日期2006年3月10日優先權日2005年3月11日
發明者佐藤寧申請人:株式會社建伍

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

語音合成裝置，語音合成方法，以及程序的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法