新四季網

語音合成的製作方法

2023-06-17 21:01:31

專利名稱:語音合成的製作方法
背景技術:
語音合成或者文本語音(TTS)轉換要求為文本中的每個文字確定發音。控制該轉換的處理稱為語音引擎,它典型地可以訪問一個或多個發音詞典或者詞彙文件,這些詞典或文件存儲了希望由語音引擎處理的文本文字的發音。例如,一個文本詞典可以是通用文字詞典,而對於一個特定軟體應用獨有的單詞來說,當該應用運行時由該應用把另一個文本詞典提供給搜尋引擎。但是,可以預料到,一些文字不在給定的發音詞典集合中,因此在語音引擎中包括用於為未知文字產生發音而不需使用發音詞典的方法。這些方法很容易出錯。
在許多情形中TTS是非常需要的特點,這種情形的兩個例子是駕駛者正在使用蜂窩電話時以及視力受損的人使用蜂窩電話時。因此TTS在具有有限資源的電子裝置中是很有價值的,因此亟待解決的問題是最小化這種資源受限裝置中所使用的發音詞典的大小,而同時最小化未知文字的發音錯誤。
上述的兩個例子是客戶裝置(蜂窩電話)的情形,它們典型地在無線通信系統中操作,通過該通信系統客戶裝置可以連接到全球資訊網。全球資訊網聯盟(W3C)正在發展一種使用諸如VoiceXML(定位在URLwww.w3.org/TR/lexicon-reqs)這樣的工具所寫的語音應用的發音詞典標準。


本發明通過例子來說明並且不限於附圖,附圖中相同的參考標記表示相同的元件,並且其中圖1是表示根據本發明一個實施例的通信系統的電氣框圖,該系統包括客戶裝置。
圖2是表示圖1的客戶裝置的編程模型的軟體框圖。
圖3是在圖1的通信系統中使用的語音合成方法的方法流程圖。
本領域技術人員應該認識到,附圖中的元件說明是為了簡明和清楚,不需要按比例畫。例如,為了幫助進一步理解本發明的實施例,附圖中的一些元件相對於其他元件來說可能放大了。
具體實施例方式
在詳細描述根據本發明的文本語音(TTS)轉換技術之前,應該注意到,本發明主要在於有關TTS轉換的方法步驟和設備部件的組合。因此,這些設備部件和方法步驟在附圖中用常規符號在合適的位置表示出來,為了不至於由於對受益於在此描述的本領域普通技術人員來說很容易想到的細節而使本公開模糊不清,只表示出了與理解本發明有關的那些具體細節。
參照圖1,表示了根據本發明一個實施例的通信系統的電氣框圖。通信系統100包括第一裝置105,它是該通信裝置100中的客戶裝置,諸如是個人通信裝置,其中一個例子是蜂窩電話。客戶裝置105耦合到無線通信網絡110,該無線通信網絡110又耦合到全球資訊網115,當然全球資訊網是主要使用有線和光學連接的信息網,但是它可以包括一些無線連接。第二裝置120也耦合到全球資訊網115,該第二裝置120是伺服器裝置。
客戶裝置105包括處理器115,該處理器115耦合到存儲器150、揚聲器160、網絡接口164以及用戶接口170。處理器155可以是微處理器、數位訊號處理器或者適於在客戶裝置105中使用的任何其他處理器。存儲器150存儲控制處理器155操作的程序指令,並且可以使用常規指令以提供多個基本上獨立的功能的方式來實現。這些功能中的一些是典型地被分類為應用的那些功能。許多功能可以是常規的,但是在此描述的某些功能至少在某些方面是獨有的。存儲器150還存儲臨時、短期以及長期信息,例如是高速緩衝存儲器和表格。因此,存儲器150可以包括不同硬體類型的存儲裝置,例如隨機存取存儲器、可編程只讀存儲器、快閃記憶體等。揚聲器160可以是在諸如蜂窩電話這樣的常規客戶裝置中可以找到的揚聲器。網絡接口165可以是在蜂窩電話中可以找到的無線電收發信機,或者當客戶裝置例如是藍牙連接裝置時,網絡接口是藍牙收發信機。作為替換,網絡接口165可以是用於經個人區域網操作的客戶裝置到通過無線電網絡110連接到全球資訊網的客戶裝置(未示出)的有線線路接口,或者作為替換可以是用於直接連接到全球資訊網115上的客戶裝置的有線線路接口。作為替換,全球資訊網115可以是一個相當大的專用網,例如支持局部地區中的幾千用戶的公司網。用戶接口170可以是小或大顯示器以及小或大鍵盤。伺服器裝置120最好是相對於客戶裝置105來說具有相當大存儲容量的裝置。例如,伺服器典型地具有很大的硬碟驅動器或多個驅動器(例如,20千兆字節的存儲器)。
參照圖2,表示了根據參照圖1描述的本發明實施例的客戶裝置105的編程模型。應用205和文字合成詞典220耦合到語音引擎210。網絡傳輸功能225耦合到語音引擎210。應用205是可以耦合到語音引擎210的幾個軟體應用之一,並且是產生要由語音引擎210合成的文本文字集合的應用,語音引擎210產生模擬信號211以便使用客戶裝置105的揚聲器160提供聲音表示。語音引擎210可以把一個功能嵌入它在存儲器150內的編程指令和數據中,該功能用於直接從一個文字的字母組合中合成該文字的聲音表示。眾所周知,這種合成典型地聽起來非常假並且可能經常是錯誤的,從而使得用戶誤解了這些字。因此,提供了文字合成詞典220,其可以包括通用文字集合以及相關的文字發音集合,這減少了用戶對文字的誤解。文字合成詞典220實際上可以包括整合在一起的多個文字集合。例如,對不同應用都不改變的通用文字及其發音的默認集合可以和一個與特定應用相關的文字及其發音集合進行組合,其中當運行該特定應用時與該特定應用相關的該文字及其發音集合就整合到該詞典中。當預先確定一組不同應用和語音引擎一起使用時這可能有效。例如,電話撥號器可以提供不同的文字給語音引擎210而不是給網絡瀏覽器。但是,這種方法可能導致存儲量方面出現問題,因為存儲器必須與每個應用相關聯以便存儲這些文字及其發音以及關於哪些文字正好默認存儲在詞典220中的知識。但是,位於客戶裝置中的文字合成詞典可能完全受限於其存儲器容量(例如,小於千兆)。
在本發明的一個實施例中,一個應用可以向存儲器150中的文字合成詞典220提供一個文本文字集合(沒有相關發音)。該文本文字集合可以是該應用通常使用的文本文字集合,它們是預計在該應用運行時的較短時期(例如,從不到一秒到許多分鐘)內該應用要使用的文字,或者作為替換該文本文字集合可以是包括語音文本的文本文字集合。在該應用的上下文中的語音文本是打算馬上通過揚聲器順序給出的文本文字集合。例如,響應於用戶輸入電話號碼而準備向用戶提示的句子「The number entered is 847-576-9999」是語音文本。數字0、1、2、3、4、5、6、7、8、9是文本文字的例子,它們更可能是地址應用預期要使用的數字集合。通過下述的技術,遠程得到客戶裝置的文字合成詞典220中所沒有的文字發音。為了該目的,語音引擎210耦合到網絡傳輸功能225,以在網絡上發送在客戶裝置的文字合成詞典220中沒有的文字。
參照圖3,表示了根據本發明實施例的語音合成的方法。在步驟305,與文字合成詞典220相關的功能(例如語音引擎210)接受該文本文字集合,不管其是語音文本還是其他,文字合成詞典220在步驟310確定當前配置的文字合成詞典220是否包括該文本文字集合的發音。所得到的沒有找到發音的文本文字子集合包括無效文字子集合(當有一個或多個這樣的文字時)。客戶裝置105然後在步驟315通過網絡發送該文本文字無效子集合給伺服器裝置。在上面參照圖1所述的例子中,該網絡包括無線電網絡110和全球資訊網115,但是該網絡還可以包括有線網絡而沒有無線網絡。伺服器裝置120在步驟320接收該文本文字無效子集合,並且通過參照伺服器裝置120內或者伺服器裝置120可以使用的大型文字合成詞典,在步驟325為該無效文本文字集合產生文字發音集合。通過位於典型的是固定網絡裝置的伺服器或其他計算機內,該文字合成詞典可以足夠大(例如,大於千兆)到幾乎包括它所服務的所有客戶裝置所需要的所有文字。伺服器裝置120最好產生該文字發音集合以包括文本文字無效子集合中的所有文本文字。該文字發音集合當然可能不包括一個文本文字。對於伺服器所產生的該文字發音集合,有與這些文本文字的每一個相關聯的發音。在步驟330,伺服器通過網絡(或者視情況而定,通過多個網絡)發送該文字發音集合給客戶裝置105。
當客戶裝置105在步驟335接收該文字發音集合時,客戶裝置105在步驟337確定該文字發音集合是否與一個語音文本相關。在步驟340,確定是否已經給出(合成)該語音文本。當還沒有合成該語音文本時,在步驟345語音引擎210使用該文字發音集合來提供語音文本的合成,從而減少翻譯錯誤。當在步驟340已經合成了該語音文本(如在接收該文字發音集合的延遲超過最小規定延遲時間的情況中,或者在接收該文字發音集合之前接收給出該語音文本的命令的情況中),或者當在步驟337確定該文字發音集合不是用於一個語音文本時,客戶裝置105在步驟350確定該發音集合是否存儲在客戶裝置105的存儲器150中,其中存儲器150作為對客戶裝置105的文字合成詞典的補充。這種存儲器可以是用於預定時間的,該時間例如是當請求該文字發音集合的應用在使用中時,或者例如,基於存儲器150容量極限,或者例如,基於應用和存儲器容量極限和/或時間等的優先級。當打算把該發音集合存儲在存儲器150中時,在步驟355存儲它們。該處理在步驟360結束。
應該認識到,本發明提供了一種用於在具有有限文字合成詞典容量(例如小於千兆)的客戶裝置中提供文本文字發音的獨特技術,從而減少了誤解錯誤。
在前面的說明中,參照具體實施例描述了本發明及其益處和優點。但是,本領域普通技術人員應該認識到,可以進行各種修改和改變而不脫離下面的權利要求中所提出的發明範圍。相應地,說明書和附圖應該看作是說明性的而不是限制性的,並且所有這種修改都應該包含在本發明的範圍內。益處、優點、解決問題的方案以及可以導致任何益處、優點和解決方案出現或者變得更加明顯的任何元件不應該解釋為所有或任何權利要求的關鍵、需要或者必需的特徵或者元件。
在此使用的術語「包括」、「包含」或者其任何變形應該覆蓋非排他性的包括,以便包括一系列要素的處理、方法、技術或設備不僅包括那些要素而且可以包括未明確列出或者這種處理、方法、技術或者設備固有的其他元素。
下面的權利要求中所使用的「集合」意思是非空集合。在此使用的術語「另一個」定義為至少一個第二個或更多。在此使用的術語「包括」和/或「具有」被定義為包含。在此使用的術語「耦合」定義為連接,但是不必是直接地也不必是機械地。在此使用的術語「程序」定義為設計用來在計算機系統上執行的指令序列。「程序」或「電腦程式」可以包括子程序、功能、過程、對象方法、對象實現、可執行應用、java小程序(applet)、小服務程序、原始碼、目標代碼、共享庫/動態加載庫和/或被設計用於在計算機系統上執行的其他指令序列。
權利要求
1.一種在用於語音合成的客戶裝置中使用的方法,包括接受文本文字集合;確定該文本文字集合的無效子集合,其中該無效子集合中的文本文字不在該客戶裝置的文字合成詞典中;並且通過網絡把該文本文字的無效子集合發送給伺服器裝置。
2.根據權利要求1的方法,其中該文本文字集合包括語音文本。
3.根據權利要求1的方法,其中該文本文字集合包括與特定應用相關的文字集合。
4.根據權利要求1的方法,進一步包括通過網絡接收包括該無效文本文字集合中的零個或更多文本文字的文字發音集合,該文字發音集合中有與每個文本文字相關的發音。
5.根據權利要求4的方法,進一步包括使用來自該文字發音集合中的至少一個發音來產生該文本文字集合中的文字的合成。
6.根據權利要求5的方法,其中當產生合成該文本文字集合的命令之前接收到該文字發音集合時,執行使用至少一個發音產生合成的步驟。
7.根據權利要求4的方法,進一步包括把來自該文字發音集合中的至少一個文字發音添加到該客戶裝置的文字合成詞典中。
8.根據權利要求7的方法,其中當產生合成該文本文字集合的命令之後接收到該文字發音集合時,執行把至少一個文字發音添加到該文字合成詞典中的步驟。
9.一種在用於語音合成的網絡中使用的方法,在第一裝置處包括接受文本文字集合;確定該文本文字集合的無效子集合,其中該無效子集合中的文本文字不在該客戶裝置的文字合成詞典中;並且通過網絡發送該文本文字無效子集合;進一步在第二裝置處包括從該第一裝置接收該無效文本文字集合;產生包括該無效文本文字集合中的零個或更多文本文字的文字發音集合,在該文字發音集合中有與每個文本文字相關的發音;以及通過網絡把該文字發音集合發送給該第一裝置;以及進一步在第一裝置處包括接收該文字發音集合。
10.一種用於語音合成的裝置,包括處理器;存儲器,存儲控制該處理器執行以下功能的程序指令產生文本文字集合的應用功能,存儲文本文字及其發音的本地文字合成詞典功能,以及接受該文本文字集合併確定該文本文字集合的無效子集合的語音引擎,其中該本地文字合成詞典功能找不到該無效子集合中的文本文字;以及用於通過網絡把該文本文字無效子集合發送給伺服器裝置的傳輸功能。
11.一種包括根據權利要求10的用於語音合成的裝置的個人通信裝置。
全文摘要
在網絡(110,115)中使用的語音合成技術中,客戶裝置(105)中的語音引擎軟體功能(210)接受文本文字(text word)集合。從該文本文字集合中,確定文本文字沒有在客戶裝置的文字合成詞典中的文本文字無效子集合。該文本文字無效子集合通過網絡發送到伺服器裝置(120),該伺服器裝置產生文字發音集合,該文字發音集合至少包括文本文字無效子集合的一部分文本文字以及與每個文本文字相關的發音。客戶裝置使用這些發音進行語音合成並且可以把它們存儲在客戶裝置的存儲裝置(150)中存儲的本地文字合成詞典(220)中。
文檔編號G10L11/00GK101014996SQ200480026802
公開日2007年8月8日 申請日期2004年8月23日 優先權日2003年9月17日
發明者傑拉爾德·E·科裡根, 史蒂文·W·阿爾布雷布特 申請人:摩託羅拉公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀