在語音合成系統中將提示音與文本語音合成輸出的方法
2023-08-04 10:39:46
專利名稱:在語音合成系統中將提示音與文本語音合成輸出的方法
技術領域:
本發明涉及語音合成領域,具體是一種在使用計算機完成從文本到自然語音的轉換過程中,管理和應用提示語音的方法。
背景技術:
在IVR、呼叫中心等電話語音系統中,業務流程往往需要同時使用預錄的提示音和合成語音。預錄提示音採用真人錄音,效果自然,並且能體現更多的情感風格,給用戶以親切感受。合成語音雖然清晰準確,但是在語氣和情感方面還與真人錄音存在一定的差距。在具體應用中,預錄語音用於播報語音服務系統中相對固定的內容,通常是進系統的問候語和系統操作方法的提示。合成語音用於播報內容經常變化、信息量大、需要即時合成的文本。預錄語音與合成語音結合,既可以滿足電話語音服務中人性化的要求,又實現了動態信息的即時播報。
但是,目前的電話語音服務系統中,所應用的語音合成系統存在如下的問題第一,在系統集成過程中,通常要使用兩套接口來分別調用和播放提示音和合成語音,在電話語音系統所提供的服務相對複雜的情況下,尤其是提示語音和合成語音交替出現,需要頻繁切換的情況下,業務流程的編寫就顯得特別複雜,由此也增加了集成開發的工作量。
第二,提示語音一般使用語音文件的形式存放和管理,一條提示語音保存為一個語音文件,而且一般都需要從某種語音數據格式轉化為指定的語音數據格式,文件數量眾多,管理不便,匹配也困難,在轉化的過程中很容易出錯。
第三,由於提示音是預錄語音,它與合成語音在能量等多個方面有不同的特徵,因此,如果只是簡單地拼接提示音和合成語音,會造成兩段語音差別明顯,在語音銜接處會出現跳音等現象,影響播報的整體效果。
另外,由於提示語音文件和合成語音文件都各自保存,電話語音系統中只有提示語音的聲音文件,無法從文本角度完全顯示整個服務流程及內容,也無法進行提示音、合成語音的拼接調整和優化處理。
發明的內容本發明的目的就是提供一種在語音合成系統中將提示音與文本語音合成輸出的方法。
一種在語音合成系統中將提示音與文本語音合成輸出的方法,包括先由用戶向合成系統提供合成文本信息,合成系統經過文本分析(對文本進行分句、分詞處理)和韻律分析(產生朗讀的音量、音高、語調等),再調用音庫中的發音單元,組合成連續的被合成文本語音數據,其特徵是建立提示音庫,建立標識(序號或名稱)與提示音內容相對應的提示音索引,在語音合成系統的資源管理中心中增加對對提示音庫進行添加、刪除、音量調整、文本內容編輯管理操作等等程序內容;在語音合成系統的用戶開發接口提供的設置合成參數的函數中增加有關提示音的合成參數,採用文本匹配的方式,使語音合成系統自動比較合成文本與提示音庫,搜索合成文本中與提示音文本相同的內容,並將合成文本與提示音文本完全相同的內容替換成相應的提示語音,其餘文本仍使用合成語音;或者在合成文本中插入提示音CSSML標記,指定文本中需要使用的提示語音文件名稱或者是提示語音的索引序號或名稱,並調用提示音庫中的相應的提示音,合成文本其它部分仍保持合成語音;通過上述文本匹配或者CSSML標記的方式調用的提示音,均是與合成語音按照一定的音量(能量)比例進行拼接,獲得含有提示音的合成語音數據輸出。
所述的將提示音與文本語音合成輸出的方法,其特徵在於提示音庫的製作步驟如下(1)錄音用戶根據自己的應用需要,人工預先錄製常用的提示語音,並保存為語音文件;(2)格式轉換用戶將語音文件手工轉化為線性PCM、Alaw或vox等合成系統可以識別的語音數據格式;(3)採樣率轉換合成系統根據用戶已安裝音庫的採樣率,把提示音轉換成相同採樣率的語音文件;(4)能量調整合成系統根據用戶指定的參數,對提示語音進行能量的調整;(5)語音數據壓縮合成系統將所有提示語音數據壓縮成alaw格式;(6)保存合成系統將提示語音數據、提示音文本內容等信息按照一定的格式保存到提示音庫中。
所述的將提示音與文本語音合成輸出的方法,其特徵在於採用CSSML標記方式調用提示音步驟如下(1)設置標記在合成文本中按照文本標記語言規範的要求,使用CSSML標記插入提示音的信息,如提示語音的索引序號或名稱;(2)標記解析合成系統解析CSSML標記文本,對提示音標記進行分析,得到其攜帶的信息;(3)提取語音合成系統根據CSSML標記攜帶的信息,從提示音音庫中提取提示語音數據並解壓為線性PCM格式;(4)波形拼接合成語音和提示音的語音進行能量比例的調整,使得波形拼接處聲音頻率與波形和緩;(5)數據輸出合成系統輸出符合要求的語音數據。
所述的將提示音與文本語音合成輸出的方法,其特徵在於文本匹配方式調用提示音步驟如下(1)參數設置用戶在語音合成系統中應用程式設置提示音的合成參數打開合成系統的提示音替換功能;(2)文本匹配合成系統將合成文本的內容和提示音文本的內容進行比較;(3)文本替換合成系統將合成文本和提示音文本的完全相同的內容替換成相應的提示音的標識(序號或名稱);
(4)提取語音合成系統根據提示音標識(序號或名稱)從提示音音庫中提取語音數據並解壓;(5)波形拼接合成系統將合成語音與替換的提示音語音進行能量調整,使得波形拼接處聲音頻率與波形和緩;(6)數據輸出合成系統輸出符合要求的語音數據。
所述的將提示音與文本語音合成輸出的方法,其特徵在於資源管理中心的提示音用戶界面中,提供了自動替換提示語音的功能,合成系統能在合成過程中搜索待合成的文本,當文本內容與提示語音的文本信息完全相同時,合成語音中將自動使用提示語音來完成對應文本的播報;「資源管理中心」的「提示語音」界面實現了提示語音資源的添加、刪除和修改,以及設置提示音的相關屬性的功能;「提示語音信息設置」界面實現了提示語音屬性的設置與修改,這些屬性包括提示語音名稱、提示音索引序號、是否生效、提示音文本內容、匹配語音文件位置、語音文件格式;「提示語音信息設置」界面實現了提示語音試聽和調節功能,界面中為用戶提供合成語音的參考音量,以及提示音音量的調節工具,便於用戶對比和調整,以獲得最佳提示音效果;「合成演示程序」界面「高級參數設置」提供了是否開啟提示音自動替換文本功能來控制提示音自動替換的功能,如果該參數打開,在語音合成過程中,系統將自動比較被合成文本與提示音資源,並將被合成文本中與提示音文本完全相同的內容替換成該提示語音。
發明的效果本發明方法應用在InterPhonic CE3.0語音合成系統中,提示音是合成系統的一種資源,存放於系統的提示音庫中。在使用合成系統前,需要將用戶想要播放的提示音添加到提示音庫中,然後就可以在合成系統中使用了。
InterPhonic CE 3.0語音合成系統實現了提示音的統一管理和處理的功能。
與其它電話語音系統中的提示音應用情況相比,本發明的優勢顯而易見首先,本發明使用統一的提示語音管理將IVR系統從原來的眾多提示語音文件管理工作中解放出來,而由語音合成系統來進行更加合理的管理和共享;(通過語音合成伺服器,多個IVR伺服器中都可以使用添加的提示語音)。客戶不需要額外的開發工作就可以提升同時使用兩種語音的情況下播報的語音效果。
其次,使用語音合成系統提供的統一的開發接口,電話語音流程能更加側重於業務流程的處理,而不用再處理預錄語音和合成語音切換的細節工作,從而減小了集成工作的複雜性,提高了集成開發的效率;第三,語音合成系統在管理提示語音的過程中,提供了工具幫助用戶解決提示語音與合成語音能量不同的問題,在內部自動處理了語音格式轉化的問題,在合成過程中還採用了算法保證提示語音和合成語音的自然過渡銜接;最後,採用CSSML文本標記語言的方式或者是文本替換的方式,用戶可以在合成文本的層面進行提示語音和合成語音的拼接處理,方便易用。
另外,本系統還提供面向行業的定製提示音庫,滿足不同行業提示音應用的需要。
術語解釋語音合成(Text-To-Speech)又稱為文語轉化。它涉及聲學、語言學、數位訊號處理、多媒體等多種學科,是中文信息處理領域的一項前沿技術。語音合成技術解決的主要問題是如何將電子化文本的文字信息轉化為能夠播放的聲音信息。近代語音合成技術是隨著計算機技術和數位訊號處理技術的發展而發展起來的,目的是讓計算機能夠產生高清晰度、高自然度的連續語音。
IVR交互式語音應答(Interactive Voice Response),是呼叫中心系統結構中不可或缺的重要組成部分,它能為來話者提供相應的語音引導,並為其實現自動語音服務。
CSSML即中文語音合成標記語言(Chinese Speech SynthesisMarkup Language),是針對中文語音合成的特點,由科大訊飛公司制定的中文語音合成標記規範,該規範是SSML v1.0規範的擴展,於2002年12月發布。本公司語音合成系統產品都把CSSML規範作為中文語音合成的支持標準,用戶可以通過CSSML標記文本來指定文本的合成方式,這種方法能夠規範化文本的合成方式、解決許多語音合成系統難以智能處理的問題。
圖1在InterPhonic 3.0語音合成系統的資源管理中心提示音界面管理提示音資源。可以添加、刪除提示音文件,設置提示音文本。
圖2在InterPhonic 3.0語音合成系統的提示音屬性設置界面設置提示音屬性和調節試聽效果。
圖3在InterPhonic 3.0語音合成系統的合成演示程序界面中設置系統參數,確定是否啟用提示語音。
圖4本發明的工作流程框圖。
具體實施例方式
一種在語音合成系統中將提示音與文本語音合成輸出的方法,包括先由用戶向合成系統提供合成文本信息,合成系統經過文本分析(對文本進行分句、分詞處理)和韻律分析(產生朗讀的音量、音高、語調等),再調用音庫中的發音單元,組合成連續的被合成文本語音數據,其特徵是建立提示音庫,建立標識(序號或名稱)與提示音內容相對應的提示音索引,在語音合成系統的資源管理中心中增加對對提示音庫進行添加、刪除、音量調整、文本內容編輯管理操作等等程序內容;在語音合成系統的用戶開發接口提供的設置合成參數的函數(本例中採用為TtssetSyuthParam函數)中增加有關提示音的合成參數,採用文本匹配的方式,使語音合成系統自動比較合成文本與提示音庫,搜索合成文本中與提示音文本相同的內容,並將合成文本與提示音文本完全相同的內容替換成相應的提示語音,其餘文本仍使用合成語音;或者在合成文本中插入提示音CSSML標記,指定文本中需要使用的提示語音文件名稱或者是提示語音的索引序號或名稱,並調用提示音庫中的相應的提示音,合成文本其它部分仍保持合成語音;通過上述文本匹配或者CSSML標記的方式調用的提示音,均是與合成語音按照一定的音量(能量)比例進行拼接,獲得含有提示音的合成語音數據輸出。
提示音庫的製作步驟如下(1)錄音用戶根據自己的應用需要,人工預先錄製常用的提示語音,並保存為語音文件;(2)格式轉換用戶將語音文件手工轉化為線性PCM、Alaw或vox等合成系統可以識別的語音數據格式;(3)採樣率轉換合成系統根據用戶已安裝音庫的採樣率,把提示音轉換成相同採樣率的語音文件;(4)能量調整合成系統根據用戶指定的參數,對提示語音進行能量的調整;(5)語音數據壓縮合成系統將所有提示語音數據壓縮成alaw格式;(6)保存合成系統將提示語音數據、提示音文本內容等信息按照一定的格式保存到提示音庫中。
採用CSSML標記方式調用提示音步驟如下(1)設置標記在合成文本中按照文本標記語言規範的要求,使用CSSML標記插入提示音的信息,如提示語音的索引序號或名稱;(2)標記解析合成系統解析CSSML標記文本,對提示音標記進行分析,得到其攜帶的信息;(3)提取語音合成系統根據CSSML標記攜帶的信息,從提示音音庫中提取提示語音數據並解壓為線性PCM格式;(4)波形拼接合成語音和提示音的語音進行能量比例的調整,使得波形拼接處聲音頻率與波形和緩;(5)數據輸出合成系統輸出符合要求的語音數據。
文本匹配方式調用提示音步驟如下(1)參數設置用戶在語音合成系統中應用程式設置提示音的合成參數打開合成系統的提示音替換功能;(2)文本匹配合成系統將合成文本的內容和提示音文本的內容進行比較;(3)文本替換合成系統將合成文本和提示音文本的完全相同的內容替換成相應的提示音的標識(序號或名稱);(4)提取語音合成系統根據提示音標識(序號或名稱)從提示音音庫中提取語音數據並解壓;(5)波形拼接合成系統將合成語音與替換的提示音語音進行能量調整,使得波形拼接處聲音頻率與波形和緩;(6)數據輸出合成系統輸出符合要求的語音數據。
本發明上述方法採用計算機軟體形式,應用在InterPhonic CE3.0語音合成系統中,為用戶提供一系列提示音應用和管理的用戶界面,使提示音和合成語音的應用實現自然拼接,提高語音服務品質。
該合成系統目前支持的提示語音文件格式為單聲道量化比特為8/16位、採樣率為6/8/11/16/22/44K的pcm和alaw數據格式,以及單聲道6k/8k的vox數據格式。系統能夠自動識別有頭的語音文件格式,對於無頭的語音文件,需要用戶指定其格式。
以下對本發明的提示音界面進行描述。
■界面1(圖1)在InterPhonic 3.0語音合成系統的資源管理中心提示音界面管理提示音資源。可以添加、刪除提示音文件,設置提示音文本。
■界面2(圖2)在InterPhonic 3.0語音合成系統的提示音屬性設置界面設置提示音屬性和調節試聽效果。其中聽音即提供提示音和我們合成語音的能量調整和拼接效果測聽。
其中各項參數說明名稱當前所設置的提示語音標題,也即該提示語音文件的文件名。需要用戶輸入,長度不大於32個字符。
音庫標識選擇匹配音庫類型。
生效表示當前所設置的提示語音是否立即啟用。只有在生效的情況下,合成文本中才能使用提示語音。
文本內容當前所設置的提示語音的文字內容。需要用戶輸入,長度不大於4K字符(注意最後的字符不能是標點符號或空格)。語音文件是指與當前所設置提示語音相匹配的預錄語音文件的位置。
語音格式當系統能夠識別預錄語音文件格式的時候,採樣率選擇框變灰;反之,則需要指定語音文件格式。格式說明PCM 6K8B1C6k8bit單聲道pcm數據PCM 6K16B1C6k16bit單聲道pcm數據PCM 8K8B1C8k8bit單聲道pcm數據PCM 8K16B1C8k16bit單聲道pcm數據以此類推;ALAW 6K1C6k單聲道alaw數據ALAW 8K1C8k單聲道alaw數據ALAW 11K1C11k單聲道alaw數據以此類推;VOX6K1C單聲道6k的vox數據VOX8K1C單聲道8k的vox數據試聽功能單擊「試聽」按鈕,可以試聽當前正在設置的提示語音。
用戶可以根據需要調整提示語音的音量大小。提示語音後面的女聲「科大訊飛語音合成系統」是系統自動加入的合成語音,目的是幫助用戶根據合成語音的音量調整提示語音的音量,使之更好地符合合成文本的整體風格。單擊「停止」按鈕結束試聽。
■界面3(圖3)在InterPhonic 3.0語音合成系統的合成演示程序界面中設置系統參數,確定是否啟用提示語音。選擇「禁用替換功能」,合成的語音文件中不出現提示語音,這是默認形式;選擇「啟用替換功能」,就是在合成的語音文件中應用提示音。在語音合成過程中,系統將自動比較被合成文本與提示音資源,並將被合成文本中與提示音文本完全相同的內容替換成該提示語音。另外,還可以使用CSSML標記替換被合成文本中指定位置的文字,方法是用CSSML的audio標記,其src屬性值指定為該提示音的名稱,例如
在合成文本中用CSSML標記引用背景音有三種形式一是用提示音名稱,如audio src=″name提示音名稱″/environment二是用提示音編號,如audio src=″id2″/environment三是用提示音文件路徑,如audio src=″d\歡迎詞.wav″/environment
權利要求
1.一種在語音合成系統中將提示音與文本語音合成輸出的方法,包括先由用戶向合成系統提供合成文本信息,合成系統經過文本分析(對文本進行分句、分詞處理)和韻律分析(產生朗讀的音量、音高、語調等),再調用音庫中的發音單元,組合成連續的被合成文本語音數據,其特徵是建立提示音庫,建立標識(序號或名稱)與提示音內容相對應的提示音索引,在語音合成系統的資源管理中心中增加對對提示音庫進行添加、刪除、音量調整、文本內容編輯管理操作等等程序內容;在語音合成系統的用戶開發接口提供的設置合成參數的函數中增加有關提示音的合成參數,採用文本匹配的方式,使語音合成系統自動比較合成文本與提示音庫,搜索合成文本中與提示音文本相同的內容,並將合成文本與提示音文本完全相同的內容替換成相應的提示語音,其餘文本仍使用合成語音;或者在合成文本中插入提示音CSSML標記,指定文本中需要使用的提示語音文件名稱或者是提示語音的索引序號或名稱,並調用提示音庫中的相應的提示音,合成文本其它部分仍保持合成語音;通過上述文本匹配或者CSSML標記的方式調用的提示音,均是與合成語音按照一定的音量(能量)比例進行拼接,獲得含有提示音的合成語音數據輸出。
2.如權利要求1所述的將提示音與文本語音合成輸出的方法,其特徵在於提示音庫的製作步驟如下(1)錄音用戶根據自己的應用需要,人工預先錄製常用的提示語音,並保存為語音文件;(2)格式轉換用戶將語音文件手工轉化為線性PCM、Alaw或vox等合成系統可以識別的語音數據格式;(3)採樣率轉換合成系統根據用戶已安裝音庫的採樣率,把提示音轉換成相同採樣率的語音文件;(4)能量調整合成系統根據用戶指定的參數,對提示語音進行能量的調整;(5)語音數據壓縮合成系統將所有提示語音數據壓縮成alaw格式;(6)保存合成系統將提示語音數據、提示音文本內容等信息按照一定的格式保存到提示音庫中。
3.如權利要求1所述的將提示音與文本語音合成輸出的方法,其特徵在於採用CSSML標記方式調用提示音步驟如下(1)設置標記在合成文本中按照文本標記語言規範的要求,使用CSSML標記插入提示音的信息,如提示語音的索引序號或名稱;(2)標記解析合成系統解析CSSML標記文本,對提示音標記進行分析,得到其攜帶的信息;(3)提取語音合成系統根據CSSML標記攜帶的信息,從提示音音庫中提取提示語音數據並解壓為線性PCM格式;(4)波形拼接合成語音和提示音的語音進行能量比例的調整,使得波形拼接處聲音頻率與波形和緩;(5)數據輸出合成系統輸出符合要求的語音數據。
4.如權利要求1所述的將提示音與文本語音合成輸出的方法,其特徵在於文本匹配方式調用提示音步驟如下(1)參數設置用戶在語音合成系統中應用程式設置提示音的合成參數打開合成系統的提示音替換功能;(2)文本匹配合成系統將合成文本的內容和提示音文本的內容進行比較;(3)文本替換合成系統將合成文本和提示音文本的完全相同的內容替換成相應的提示音的標識(序號或名稱);(4)提取語音合成系統根據提示音標識(序號或名稱)從提示音音庫中提取語音數據並解壓;(5)波形拼接合成系統將合成語音與替換的提示音語音進行能量調整,使得波形拼接處聲音頻率與波形和緩;(6)數據輸出合成系統輸出符合要求的語音數據。
5.如權利要求1所述的將提示音與文本語音合成輸出的方法,其特徵在於資源管理中心的提示音用戶界面中,提供了自動替換提示語音的功能,合成系統能在合成過程中搜索待合成的文本,當文本內容與提示語音的文本信息完全相同時,合成語音中將自動使用提示語音來完成對應文本的播報;「資源管理中心」的「提示語音」界面實現了提示語音資源的添加、刪除和修改,以及設置提示音的相關屬性的功能;「提示語音信息設置」界面實現了提示語音屬性的設置與修改,這些屬性包括提示語音名稱、提示音索引序號、是否生效、提示音文本內容、匹配語音文件位置、語音文件格式;「提示語音信息設置」界面實現了提示語音試聽和調節功能,界面中為用戶提供合成語音的參考音量,以及提示音音量的調節工具,便於用戶對比和調整,以獲得最佳提示音效果;「合成演示程序」界面「高級參數設置」提供了是否開啟提示音自動替換文本功能來控制提示音自動替換的功能,如果該參數打開,在語音合成過程中,系統將自動比較被合成文本與提示音資源,並將被合成文本中與提示音文本完全相同的內容替換成該提示語音。
全文摘要
本發明公開了一種在語音合成系統中將提示音與文本語音合成輸出的方法,包括先由用戶向合成系統提供合成文本信息,合成系統經過文本分析和韻律分析,再調用音庫中的發音單元,組合成連續的被合成文本語音數據,本發明特徵是建立提示音庫,在語音合成系統的用戶開發接口設置提示音的合成參數,或者在合成文本中插入提示音CSSML標記;通過文本匹配或者CSSML標記的方式調用的提示音,與合成語音拼接,獲得含有提示音的合成語音數據輸出。提示音是合成系統的一種資源,用戶可以將想要播放的提示音添加到提示音庫中,實現了提示音的統一管理和處理。
文檔編號G10L15/26GK1584980SQ200410045000
公開日2005年2月23日 申請日期2004年6月1日 優先權日2004年6月1日
發明者嚴峻, 於繼棟, 張貽武 申請人:安徽中科大訊飛信息科技有限公司