根據詞彙發音生成後詞彙發音的方法、設備和產品的製作方法

2023-09-20 05:48:10 3

專利名稱：：根據詞彙發音生成後詞彙發音的方法、設備和產品的製作方法
技術領域：
：本發明涉及語音合成領域具體應用中根據詞彙發音生成後詞彙發音。如圖1數字100所示，文本到語音的合成是書寫或列印的文本(102)到語音(110)的轉換。文本到語音的合成提供這種可能性，即以比記錄語音及將其回放更低的成本提供聲音輸出。語音合成經常用於文本可能大量變更而且完全不可能事先錄音的情況下。如象英語語言中，從字的拼寫看字的發音常常是不清楚的，重要的是在提交拼寫到聲音模塊(108)以生成語音波形(110)之前，藉助語言學模塊(104)將拼寫(102)轉換成明確的語音表示(106)。為了從拼寫產生語音表示，可採用基於規則的系統，發聲詞典，或以這種發音詞典訓練過的自動拼寫-發音轉換過程。發音詞彙，以及通過發音詞彙訓練的自動過程採用詞彙發音，詞彙發音是欠具體的(underspecified)，一般化的發音，在自然語言中它可能或可能不產生修改的後詞彙發音，例如，英文字foot在發聲詞典中也許以/fuht/列出，發音用TIMIT(德州儀器-麻省理工學院)標誌給出，在Garofolo，JohnS.的「TheStructureandFormatoftheDARPATIMITCD-ROMPrototype」中作了說明。在自然語言中，最後的/t/或作為[t]出現，例如在以foot結束的句子中；或當foot在同一句子中以元音打頭的另一字之前出現時，如在「myfootis……」中，作為輕拍音[dx]。對詞典增加後詞彙發音以代替詞彙發音並非解決此問題的可行辦法，原因有二個，第一個原因是此發聲詞典規模將明顯增大，第二個原因是發聲詞典用於確定孤立的字的發音，而後詞彙現象則在句子中跨越字時才碰到。所以當查找詞彙時，可能存在也可能不存在用以確定合適的後詞彙發音可用的足夠信息。在神經網絡和其它數據驅動形式的語音合成中，利用學習的過程，根據語音信息學習生成語音頻譜信息。這就構成聲學參數的神經網絡訓練，這樣通過語音信息標記語音波形來實現然後訓練。例如，神經網絡或其它數據驅動系統來學習同特定詞彙標記的時間片有關的頻譜特性。當這種神經網絡系統實際使用時，神經網絡必須為給定的語音信息產生合適的頻譜信息。如上所說的，這種語音信息是藉助拼寫一語音學詞彙或以這種詞彙訓練的自動過程從文本中得到的。因為數據驅動語音合成方法的目的是產生類似於訓練數據的測試數據，並且這也類似於自然語言，重要的是測試階段得到的語音表示與用於訓練階段的那些要基本上相匹配，這將保障獲得最可靠的性能。不幸的是從詞典中找出的詞彙發音和用於標記語音的發音之間經常很可能有某些不匹配，這種不匹配可出自至少四種不同的來源，發聲者的特性，詞典的特性，標記的特性，以及詞彙發音和後詞彙發音之間的不同。然而基於規則的方法從詞彙發音產生後詞彙發音對指定的語言也許會成功，基於規則的方法在同一時間不能自動地處理詞典和標記符的特性。也就是新規則集需針對發聲者，標記符和詞典的每種可能組合開發，這導致使用不便。因此，需要有一自動過程，以根據詞彙發音生成後詞彙發音，同時提高合成語音的自然度及降低開發高質量語音合成系統所需要的時間和成本。基於神經網絡，根據詞彙發音生成後詞彙發音的一種方法，設備和產品可滿足此要求。圖1是現有技術中熟知的文本到語音轉換的原理表示。圖2是按照本發明用詞彙-後詞彙轉換器訓練的神經網絡訓練過程的實施例的原理說明。圖3是按照本發明採用神經網絡詞彙-後詞彙轉換器的文本到語音轉換的實施例的原理說明。圖4是按照本發明的後詞彙標記的語音資料庫的原理表示。圖5是按照本發明神經網絡詞彙-後詞彙轉換器的操作的一實施例的原理說明。圖6是按照本發明的詞彙發音和後詞彙發音定位的原理說明，其中詞彙發音中的音素數目與後詞彙發音中的音素數目相同。圖7是按照本發明的詞彙發音和後詞彙發音定位的原理說明，其中詞彙發音中的音素數大於後詞彙發音中的音素數。圖8是按照本發明的詞彙發音和後詞彙發音定位的原理說明，其中後詞彙發音採用壓縮的音素。圖9是按照本發明用於測試的詞彙-後詞彙神經網絡結構的一實施例的原理表示。圖10是按照本發明用於訓練詞彙-後詞彙神經網絡的圖15流1和圖15流2編碼過程的說明。圖11是按照本發明用於訓練和測試詞彙-後詞彙神經網絡的圖15流3編碼過程的說明。圖12是按照本發明用於測試詞彙-後詞彙神經網絡的圖15流1解碼過程的說明。圖13是按照本發明用於測試詞彙-後詞彙神經網絡的圖9流2編碼過程的說明。圖14是按照本發明為詞彙-後詞彙神經網絡訓練的滑動窗口的原理說明。圖15是按照本發明用於訓練的詞彙後詞彙神經網絡的一實施例的原理說明。圖16是按照本發明描繪使用的PE』S數的詞彙-後詞彙神經網絡的一實施例的說明。圖17是按照本發明使用的基於特徵的誤差量與歐氏距離誤差量的比較說明。圖18表示本領域熟知的歐氏誤差量度的計算。圖19是按照本發明的基於特徵的誤差量度計算表示。圖20是按照本發明根據文本確定詞彙信息和產生後詞彙發音步驟的一實施例的流程圖。圖21是按照本發明用於通過神經網絡轉換詞彙發音為後詞彙發音步驟的一實施例的流程圖。圖22是按照本發明從詞彙發音生成後詞彙發音的微處理器/專用集成電路/微處理器與專用集成電路的組合的原理表示。圖23是按照本發明從詞彙發音生成後詞彙發音的產品的原理說明。本發明提供一種利用神經網絡自動地將詞彙發音轉換為詞彙後發音的方法、設備和產品，該神經網絡是在自發音詞典中查到的字的詞彙發音配對的後詞彙層次上所標記的語音資料庫的基礎上訓練的。訓練結果形成有權重的神經網絡，這些權重代表從詞彙發音中產生後詞彙發音所需的傳遞函數。數字200的圖2提供神經網絡訓練過程的高層次圖，而數字300的圖3顯示優選實施例中訓練的神經網絡詞彙-後詞彙轉換器312裝入語音合成器的語言學模塊中。用於基於神經網絡從詞彙發音中生成後詞彙發音的方法、設備和產品使正文至語音系統能比其它可能的方法生成更為自然的語音。此外，基於神經網絡，從詞彙發音中生成後詞彙發音的系統在財務上優於已有技術之處是該系統是自動地可訓練的，因此可以容易地適用於任何語言。表1顯示用於詞彙發音的TMIT音素以及用於闡述音素髮音的拼寫字。表1拼寫字中用於代表具體TIMIT音素的字母用黑體顯示。詞彙發音包含在斜槓∥內。表2顯示用於後詞彙發音的TIMIT音素。後詞彙發音包含在方括弧[]中。表2應注意，一個符號被解釋為詞彙音素或後詞彙音素時其意義是不同的。例如，在後詞彙層次上，[t]代表t除阻音，而在詞彙層次上/t/可代表閉塞音和除阻音。為訓練神經網絡學習詞彙-後詞彙變換，在圖2中提供一個後詞彙標記的言語資料庫。數字400的圖4顯示這個後詞彙標記的語音資料庫的選段。為建立標記的語音資料庫，通常要記錄個人的數百句美式英語語音。此記錄試圖導致產生英語中經常出現的音素組合。該記錄用語音分析軟體數位化和顯示出來。圖4顯示自語音資料庫中摘選的短段經過數位化和分析後所得波形(402)。該言語用三層標記系統加以註解。在第一層即拼寫層(406)上，語音分段成為字長度單元，其中在發聲過程中每個字的尾部與一特定時間相關聯，每個終結字(Word-end)與該字的拼寫相關聯。在第二層即音素層(408)，語音分成音素長度的單元段，其每個音素的結尾在發音過程中與一特定時間相關聯，每個終結音素(phone-end)與表2所示的所用TIMIT詞彙後音素的音標相關聯。在第三層，即邊界層(410)，在發音過程中，音節，字，短語，從句和句子的結尾都與特定的時間關聯，每個這種邊界用表3所示邊界符號之一表示出來。表3為了確定與位於語音資料庫第一標記層(406)的拼寫字相關的詞彙發音，使用了一拼寫詞彙發音詞典，表4顯示了拼寫詞彙發音詞典的摘錄。表4該詞典存儲與其關聯的發音的拼寫對。在詞典中使用表1所示的詞彙發音TIMIT音素來描繪發音。為了建立標號語音資料庫(圖4)中的後詞彙發音與詞典資料庫(表4)中的詞彙發音之間的關聯，利用用作連接欄位的字的拼寫表示，兩個資料庫之間的資料庫連接得以實現，因為二個資料庫都包含有拼寫信息。連接操作的結果是得到包含所記錄資料庫中全部字的拼寫、詞彙和後詞彙信息的一張表。此信息如表5所示被組織，在保持字在資料庫中原表達次序的同時，表中添加了音素和邊界信息。表5來自標號語音資料庫第三層的邊界信息，與拼寫，詞彙發音和後詞彙發音相同地橫向列出，如表5所示。神經網絡如表5所示，結合拼寫，詞彙，後詞彙資料庫的形式，按數字編碼進行訓練。為訓練，輸入編碼包含下面幾個部分詞彙和後詞彙音素的定位，提取詞彙音素特徵，提取邊界距離信息，提取邊界鄰近信息，轉換輸入音素成為數字以及裝載此輸入到滑動窗口。為訓練輸入編碼要求產生5個輸入流給神經網絡模擬器、流1包含含有任何定位分隔符的後詞彙音素，流2包含詞彙音素，流3包含與詞彙音素關聯的特徵，流4包含邊界距離信息，而流5包含邊界鄰近信息。音素定位是必要的，以向神經網絡提供那些詞彙音素對應那些後詞彙音素這種合適的感知。音素定位意味著把一系列位置上特定詞彙音素與特定後詞彙音素明確地聯繫起來。數字600的圖6，圖示說明按字的詞彙和後詞彙音素的定位，這裡詞彙和後詞彙音素的數目是相同的。數字700的圖7，圖示說明按字的詞彙和後詞彙音素的定位，這裡詞彙音素的數目超過後詞彙音素的數目。在此情況下，若按這種字的表示和發音，最後一個/d/要丟掉。通過相對詞彙層的/d/，給出一定位分隔符『+』，標記後詞彙層的刪除。由於後詞彙音素是詞彙-後詞彙轉換處理的最終輸出，定位分隔符要在輸出前被刪除。定位分隔符不允許留在詞彙音素層，原因是在詞彙-後詞彙轉換操作期間，定位分隔符應當被插到輸入詞彙音素中，然而並沒有原則方法作此工作。通常，後詞彙發音比詞彙發音包含有更少的音素，這是因為整個語言中刪除和歸併是公共的後詞彙音素，並且這樣的現象能夠通過從音標中去掉一些音素來描述。在此情況下，定位分隔符可被插進後詞彙音標中那些詞彙音素還應存在而沒被刪除的位置。在某些情況下，後詞彙音標比相應的詞彙音標採用更多的音素，這是因為後詞彙音標包含更多的細節，例如，後詞彙音標包含用於停頓的閉塞和除阻信息，一個細節層次在詞彙音標中是沒有規定的。數字800的圖8是比其相關的詞彙發音具有更多音素的後詞彙發音定位示例。該問題通過壓縮(collapsed)某些後詞彙音素組合為單個符號來解決。在圖8中，後詞彙組合bcl+b用壓縮(collapsed)的音素B來替代。表6給出後詞彙的組合以及壓縮符號。為定位和輸入編碼，用這些壓縮符號來替代後詞彙的組合。表6壓縮的音素造成此被壓縮的後詞彙音素只與一個詞彙音素相關聯，使神經網絡對每個音素段(phoneslot)做出更好的選擇。使用了為本領域熟知的動態編程算法的新變化以定位(align)詞彙和後詞彙發音。本領域熟知的動態編程方案已經根據使用同一字母表的字定位做了說明。代價用在字符的插入，刪除和替代上，僅當每個序列中同一字符處在相同位置時才沒有替代的代價。為了從不同的字母表，例如後詞彙音素和詞彙音素，來定位序列，已設計出一種新方法用於計算替代的。注意，示於表1和表2的詞彙音素和後詞彙音素符號集它們並沒有很大的不同，只是除幾個符號外，它們專用某一個符號集，這意味著某些符號在二個字母表之間實際上不同。例如詞彙音素/b/能表示/b/帶有或不帶有閉塞音發音，而後詞彙音素[b]表示b只能是閉塞音。一定製的表已經設計出，它反映每個詞彙音素與相對的每個後詞彙音素的定位相似性。表7說明美國英語詞彙-後詞彙音素的代價表。表7這種代價中的一些反映整個語言中擁有的關係，而另一些反映專指美國英語的後詞彙處理。為不是對表7復蓋，而是替代，插入以及刪除，用在語音識別計算領域中的代價，採用插入代價3，刪除代價3，和替代代價4。就表7而論，提供的特定的相應代價的代價應低於插入或刪除的固定代價，在其它情況下應大於固定代價。在特定位置上給定音素和字母更可能對應，替代該音素和字符的代價更低。數字1000的圖10圖示說明為訓練神經網絡的輸入編碼流1(1008)和流2(1010)的編碼。輸入詞彙發音(1002)，/aend/，和輸入後詞彙發音(1004)，[aen]，被提交給定位過程。定位過程插入一定位分隔符『+』到後詞彙發音，產生(1006)[aen+]。『+』的數字碼是60。帶有定位分隔符(1006)的後詞彙發音通過查找表(consultingtable)2轉換成數字並裝載到緩衝存儲器作為流1(1008)，詞彙發音通過查找表1轉換成數字，並裝載到緩衝存儲器作為流2(1010)。數字1100的圖11，圖示說明訓練神經網絡的輸入編碼流3的編碼。每個詞彙發音音素與它的聽覺特徵和發音特徵相結合。為了在訓練集之外向神經網絡給出使其普遍化的更多信息，在輸入編碼中提供每個音素的聽覺和發音特徵。音系學(phonological)分段的聽覺和發音特徵是本領域的共同概念，也就是，每個音素能用幾個語音學的特徵來描述。表8顯示有關與本實施例使用的各詞彙音素的特徵。對每個音素，特徵可是活性(activated)『+』，非活性『-』，或者不指定『0』。表8圖11中，每個音素/aend/，也就是/ae/(1102)，/n/(1104)和/d/(1106)在表8的特徵表中查找。每個音素的活性特徵列在(1108)，(1112)和(1116)中。每個詞彙音素的特徵通過查找表9的特徵數字錶轉換成數字，而後此數字編碼用做作為/ae/(1110)，/n/(1114)和/d/(1118)的流3。表9為了向神經網絡提供附加信息，在此信息的基礎上以輸入的詞彙音素和輸入的詞彙音素特徵輸出後詞彙音素的推測，各種關鍵邊界的距離組送到網絡上。全部語言中，後詞彙現象對音節，字，短語，從句和句子邊界已經顯示出敏感。為了向神經網絡提供這類信息，邊界信息從最大到最小提供給下列語言學結構句子，從句，短語，字和音節。對每種結構，以下的信息被提供1/(到結構開始的音素數)，1/(到結構結尾的音素數)和1/(以音素數計算的結構長度)。結構起自身和全部更小的結構邊界的作用，也就是為了邊界距離的量度句子邊界用作從句，短語，字和音節的邊界。表10顯示對詞彙輸入/dhiyseylkahtaxwey/的流4的數字輸入。表10為了向神經網絡提供有關對各種邊界鄰近的信息，一組布爾值出現在網絡上，其中1＝真而0＝假。對每個音節，字，短語，從句和句子，下面的布爾值被提供給網絡無論音素左邊鄰近邊界，無論音素右邊鄰近邊界，如果音素左邊鄰近邊界，對左邊界全部較小結構的布爾值都設置為真；如果音素右邊鄰近邊界，對右邊界全部較小結構的布爾值都設置為真。表11顯示對流5的詞彙輸入/dhiyseylkahtaxwey/的數字輸入。表11為了向神經網絡提供充分的學習詞彙-後詞彙轉換的上下文信息，採用了9個音素的滑動窗以向網絡呈現流2和流3。流4和流5已編碼上下文信息，所以它們不用窗口。10個在圖中標記為PAD的填充塊(paddingblocks)插在句子之間，以防止不同句子的數據出現在同一窗口中。數字1400的圖14，圖解說明了個窗口用每個後詞彙音素，指示哪個詞彙音素被觀察到。數字1500的圖15，顯示了用於訓練的神經網絡結構。來自流2(1502)，圍繞流1(1504)中輸出的後詞彙音素的9個輸入詞彙音素，從輸入塊2(1506)到神經網絡塊6(1508)。例如，在圖14中，當流1由後詞彙音素[dh](1402)組成時，由PAD，PAD，PAD，PAD，/dh/，/iy/，JW，/hh/和/w/組成的9音素窗口從輸入塊2(1506)傳到輸入塊6(1508)。除提供上下文細節之外，此滑動窗口還防止網絡在特定的字位置過多地去觀查特定的音素。神經網絡根據它的輸入向量產生輸出向量，流2，3，4和5以及供處理元素(PE’s)使用的內部轉換函數，用在轉換函數中的係數在訓練過程中會被改變以改變輸出向量，轉換函數和係數統稱為神經網絡的權重。並且在訓練過程中權重會被改變，以改變由給定的輸入向量產生的輸出向量。最初設置權重為一小的隨機值。在訓練過程的開始，由於神經網絡的權重是任意值，關聯的後詞彙表示是沒有意義的。一誤差信號向量生成正比於關聯語音表示和指定目標語音表示(流1)之間的距離。與以前的處理不同，誤差信號不是簡單計算出的關聯語音表示和目標語音表示之間的原始距離，如用等式1所示的歐氏距離量度，而是，該距離是一函數即在特徵空間中，關聯的語音表示多大程度接近目標語音表示，如果語音表示被使用，特徵空間的接近被假定與感覺空間的接近有關。數字1700的圖17，對比歐氏距離誤差量度與基於特徵的誤差量度，對拼寫salad的目標後詞彙發音(1702)是[saelihd]。給出的兩個可能的關聯發音是[saelaxd](1704)和[saelbdl(1706)。[saelaxd](1704)感覺上非常類似目標發音，而[saelbd](1706)則相差甚遠，並且實際上不能發音。歐氏距離量度僅僅計算目標和關聯向量中不同項的數目。靠這種量度，[saelaxd](1704)和[saelbd](1706)相對於目標發音，二者得到誤差評分為2。這兩個相同的評分遮蔽了二個發音間感覺上的差異。相反，基於特徵的誤差量度考慮到[ih]和[ax]感覺上非常相近，因此當[ax]被假定為[ih]時，加權此局部誤差。規定0標度表示相同而1標度表示最大差異，並且各種音素對沿此尺度給與一個評分。表12給出一基於特徵的誤差乘數或權重實例，被用於美國英語。在此表中，不管此特定音素是目標部分還是推測部分，乘數都是相同的，但並非一定要按這種情況。不在表12中的任何目標和推測音素的組合被認為乘數為1。表12數字1800的圖18，顯示對[saelihd]中的[ih]，無權重的局部誤差是如何計算。數字1900的圖19的，顯示如何利用表12的乘數計算權重誤差。圖19顯示對[ax]的誤差，這裡期望的是[ih]，如何通過乘數而被減小，這種誤差引起的直觀感受比之對[ih]假定為[b]少令人難以置信，將[ih]假定為[b]的誤差未被降低。計算誤差信號以後，權重值向降低誤差信號的方向調整。這樣的處理針對關聯的上下文描述對重複多次以規定目標語音表示。這種調整權重使關聯語音表示更接近規定的目標語音表示的處理，就是訓練神經網絡。這種訓練採用了標準的誤差向後傳遞方法。一旦神經網絡被訓練，權重值控制了將上下文描述轉換為與規定目標語音表示數值上相似的輸出向量所必須的信息。優選神經網絡執行，在神經網絡被完整訓練之前，要求高達千萬次地呈現上下文描述到輸入及進行下述加權調整。神經網絡包含具有兩種本領域熟知的活性功能塊Sigmoid和Softmax。Softmax活性功能由等式2給出。圖15描述了為訓練詞彙發音的神經網絡結構和與後詞彙發音相關的信息。神經網絡由相連接的一系列塊構成，這些塊與不同的功能關聯，包括不管是輸入/輸出塊或者是具有Sigmoid或Softmax活性功能的塊。流2(1502)，這數字編碼的9個詞彙音素窗口，被饋入輸入塊2(1506)。然後輸入塊2(1506)將此數據送進Sigmoid神經網絡塊6(1508)，Sigmoid神經網絡塊6(1508)接著把數據送到Sigmoid神經網絡塊10(1510)。流3(1512)，數字編碼的9個詞彙音素的詞彙音素特徵窗口，被饋入輸入塊3(1514)。然後輸入塊3(1514)將此數據送入Sigmoid神經網絡塊7(1516)，而後Sigmoid神經網絡塊7(1516)將數據送入Sigmoid神經網絡塊10(1510)。流4(1518)，數字編碼的邊界距離信息，被饋送到輸入塊4(1520)，然後輸入塊4(1520)傳送這些數據到Sigmoid神經網絡塊8(1522)，而後，Sigmoid神經網絡塊8(1522)將此數據送到Sigmoid神經網絡塊10(1510)。流5(1524)，數字編碼的邊界距離信息，被饋送到輸入塊5(1526)，然後輸入塊5(1526)將此數據送到Sigmoid神經網絡塊9(1528)。Sigmoid神經網絡塊9(1528)接著把此數據送入Sigmoid神經網絡塊10(1510)。Sigmoid神經網絡塊10(1510)傳送數據到Softmax神經網絡塊11(1530)。流1(1504)，數字編碼的目標音素，被饋送到輸出塊1(1532)。Softmax神經網絡塊11(1530)輸出最相象的音素，給出此輸入信號到輸出塊1(1532)。而後輸出塊1(1532)輸出此數據作為神經網絡的推測(1534)。藉助上面所描述的基於特徵的誤差函數，神經網絡的推測(1534)與流1(1504)，即目標後詞彙音素相比較。由誤差函數確定的誤差則向後傳遞到Softmax神經網絡塊11(1530)，它依次回傳此誤差到Sigmoid神經網絡塊10(1510)，又依次向後傳遞此誤差到Sigmoid神經網絡塊6(1508)，7(1516)，8(1522)和9(1528)。圖15神經網絡塊之間的雙向箭頭表示通過網絡向前和向後兩方向的傳輸。數字500的圖5，祥細顯示數字300的圖3中網絡詞彙-後詞彙轉換器。對一個完整句子是一次一個字的聚集詞彙發音，以便對每個詞彙音素計算邊界距離信息和邊界鄰近信息。每個字長度的詞彙發音被編碼成神經網絡的輸入格式(504)，而後編碼的詞彙發音提交到訓練好的神經網絡(506)，這叫做測試神經網絡。訓練好的神經網絡輸出一編碼的後詞彙發音，它需要由神經網絡輸出解碼器(508)解碼成為後詞彙發音(510)。當網絡被測試時只有流2，3，4和5需要編碼。為測試，流2的編碼示於數字1300的圖13中。每個詞彙音素(1302)通過查找表1的詞彙音素錶轉換成數字碼，然後每個詞彙音素的數字碼裝載到流2(1304)的緩衝存儲器。流3按圖11所示被編碼，流4如表10所示被編碼，流5如表11所示被編碼。字通過對該字的流2，3，4和5的編碼而被測試，並測試了神經網絡。神經網絡返回一輸出後詞彙發音推測，而後，通過查找表2的音素號碼錶，將數字(1202)轉換為音素(1204)，如數字1200的圖12所示，神經網絡的推測被編碼，並且去掉任何定位分隔符(這裡是數字60)，以及通過查找表13打斷任何受損的後詞彙音素為其組成部分。表13數字900的圖9，顯示為測試，各編碼流如何適應神經網絡結構。流2(902)，9個詞彙音素窗口的數字編碼，被送到輸入塊2(904)，然後輸入塊2(904)送此數據到Sigmoid神經網絡塊6(906)，Sigmoid神經網絡塊6(906)再傳遞此對每個字母的數據到Sigmoid神經網絡塊10(908)。流3(910)，輸入詞彙發音的9個詞彙音素詞彙音素特徵窗口的數字編碼，被饋送到輸入塊3(912)，然後輸入塊3送此數據到Sigmoid神經網絡塊7(914)，Sigmoid神經網絡塊7(914)隨後傳送每個詞彙音素的特徵的數據到神經網絡塊10(908)。流4(916)，如表10所示被編碼的輸入詞彙發音的數字編碼的邊界距離信息，饋送到輸入塊4(918)，然後輸入塊4傳送此數據到Sigmoid神經網絡塊8(920)。Sigmoid神經網絡塊8(920)接著傳送每個詞彙音素的邊界距離信息的數據給Sigmoid神經網絡塊10(908)。流5(922)，如表11所示編碼的輸入詞彙發音的數字編碼邊界鄰近信息，被饋送到輸入塊5(924)。而後輸入塊5(924)將此數據送到Sigmoid神經網絡塊9(926)。Sigmoid神經網絡塊9(926)再將每個詞彙音素的邊界鄰近信息數據送到Sigmoid神經網絡塊10(908)。Sigmoid神經網絡塊10(908)傳送其數據到Softmax神經網絡塊11(928)。Softmax神經網絡塊11(928)輸出最相象的音素給出此輸入信號到輸出塊1(930)，而後輸出塊1(930)輸出數據作為後詞彙音素的神精網絡的猜測(932)。圖16中，數字1600給出對神經網絡的說明，顯示了其中連接各個塊的PE’s的數目。輸入流2(1602)，包含數字編碼的詞彙音素，裝載其數據到輸入塊2(1604)。輸入塊2(1604)包含要求其大小為9個音素窗口的918PE’s，這裡每個音素可以是102個性質不同的字符之一，輸入塊2(1604)傳送此918PE’s到Sigmoid神經網絡塊6(1606)。Sigmoid神經網絡塊6(1606)傳送10PE’s到Sigmoid神經網絡塊10(1608)。輸入流3(1628)，包含如圖11所示編碼的數字編碼詞彙音素特徵，裝載其數據到輸入塊3(1630)。輸入塊3(1630)包含要求其大小為9個詞彙音素窗口的477PE’s，這裡詞彙音素由高達53個活性特徵來表示。輸入塊3(1630)傳送此477PE’s到Sigmoid神經網絡塊7(1632)。Sigmoid神經網絡塊7(1632)傳送10PE’s到Sigmoid神經網絡塊10(1608)。輸入流4(1622)，包含如表10所示編碼的數字編碼邊界距離信息，裝載其數據到輸入塊4(1624)，輸入塊4(1624)包含要求其大小為各個邊界距離的15PE’s。輸入塊4(1624)傳送此15PE’s到Sigmoid神經網絡塊8(1626)。Sigmoid神經網絡塊8(1626)傳遞10PE’s到Sigmoid神經網絡塊10(1608)。輸入流5(1616)，包含如表11所示編碼的數字編碼邊界鄰近信息，裝載其數據到輸入塊5(1618)。輸入塊5(1618)包含要求其大小為各個邊界鄰近值的10PE’s。輸入塊5(1618)傳送此15PE’s到Sigmoid神經網絡塊9(1620)。Sigmoid神經網絡塊9(1620)傳送10PE’s到Sigmoid神經網絡塊10(1608)。Sigmoid神經網絡塊10(1608)傳送20PE’s到softmax神經網絡塊11(1610)。Softmax神經網絡塊11(1610)傳送代表可能的後詞彙音素的102PE’s到輸出塊1(1612)。這裡敘述的詞彙-後詞彙轉換方法具有優於基於規則的系統的優點在於它容易與任何語言適配、對每種語言，僅僅需要與該語言相應的語音拼寫詞彙，該語言中的後詞彙音素代價表，和後詞彙標記的語音資料庫。也許還需要使用國際語音字母表的字符，所以在世界語言中整個語音變化範圍是可能做出模型的。根據詞彙發音信息一種方法，設備和產品製造，有效生成後詞彙發音信息。一神經網絡對關聯詞彙-後詞彙發音數據進行過訓練，使用帶有特徵距離量度增強的動態編程定位，詞彙音素的特徵值作為輸入供給該神經網絡。每個詞彙音素的邊界距離和邊界鄰近信息被提供給神經網絡。包含大量詞彙音素和詞彙音素特徵的窗口也提供給了神經網絡，為的是給網絡有用的上下文信息。如數字2000的圖20所示，本發明實現了根據詞彙發音，提供有效生成後詞彙發音的方法，包括步驟(2002)按預定的部分文本確定詞彙音素，詞彙特徵以及邊界信息；以及利用(2004)以詞彙音素，後詞彙音素，詞彙特徵和邊界信息預先訓練過的神經網絡，對預先決定的部分文本的後詞彙發音，生成一神經網絡推測。在優選實施例中，邊界信息至少包含邊界距離信息和邊界鄰近信息其中之一如數字2100的圖21所示，預先訓練過的神經網絡(2004)用下列步驟訓練(2102)為預定的部分文本提供由詞彙音素組成的關聯詞彙發音和為目標發音提供由後詞彙音素組成的後詞彙發音；(2104)使用用基於特徵的替代代價函數增強的動態編程定位，定位關聯的詞彙和後詞彙表示；(2106)為詞彙音素提供聲學和發音信息；(2108)根據每個詞彙音素和每個音節、字、短語，從句和句子邊界之間距提供信息；(2110)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間相鄰性提供信息；提供(2112)預定長度的詞彙音素上下文窗口；提供(2114)預定長度的詞彙音素特徵上下文窗口；以及(2116)訓練神經網絡以建立輸入詞彙音素與後詞彙音素的關聯。在優選實施例中，後詞彙神經網絡(2004)採用基於特徵的誤差函數以表示目標和推測的後詞彙發音之間的距離。後詞彙神經網絡(2004)可以是前饋的(feed-forward)神經網絡。後詞彙神經網絡(2004)可使用誤差向後傳遞。後詞彙神經網絡(2004)可具有重複的輸入結構。詞彙特徵(2002)可包括發聲特徵。詞彙特徵(2002)可包括聲學特徵。詞彙特徵(2002)可包括發聲特徵的幾何特徵。詞彙特徵(2002)可包括聲學特徵的幾何特徵。定位(2104)可以拼寫和關聯語音表示中輔音字母和元音字母的位置為根據。詞彙音素和後詞彙音素(2004)可利用特徵向量來描述。基於特徵的替代代價函數(2104)使用預定的替代，插入和刪除代價和一預定的替代表。神經網絡(2004)可以使用音調信息訓練。神經網絡(2004)可使用韻律信息訓練。如數字2200的圖22所示，本發明實現的設備至少包含微處理器，專用集成電路及微處理器與專用集成電路的組合中的一個，以根據詞彙發音提供有效生成的後詞彙發音，它包括編碼器(2224)，受為預定部分文本連接接收詞彙音素(2202)，詞彙特徵(2204)，邊界距離信息(2206)和邊界鄰近信息(2208)，為訓練過的後詞彙神經網絡(2226)提供數字輸入，其中預訓練的後詞彙神經網絡(2226)已用詞彙音素(2210)，後詞彙音素(2212)，詞彙特徵(2214)，邊界距離信息(2216)和邊界鄰近信息(2218)訓練過，並且這裡的詞彙和後詞彙音素利用基於特徵的自動動態編程定位(2202)而被定位；而連結到編碼器(2224)的預先訓練的後詞彙神經網絡(2226)，用以對預定的部分文本的後詞彙發音(2229)生成神經網絡的推測。如圖21所示，經訓練的後詞彙神經網絡(2226)已按照下述方案經過訓練(2102)為預定的部分文本，提供由詞彙音素組成的關聯詞彙發音和為目標發音的提供由後詞彙音素組成的後詞彙發音；(2104)使用以基於特徵的替代代價函數增強的動態編程定位，定位關聯的詞彙和後詞彙表示；(2106)為詞彙音素提供聲學和發聲信息；提供(2108)與每個詞彙音素和每個音節，字，短語，從句和句子邊界之間距離有關的信息；(2110)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間鄰近性提供信息；提供(2112)預定長度的詞彙音素上下文窗口；提供(2114)預定長度的詞彙音素特徵上下文窗口；以及訓練(2116)神經網絡以建立輸入詞彙音素與後詞彙音素的關聯。在優選實施例中，後詞彙神經網絡(2226)採用基於特徵的誤差函數來表示目標和推測的後詞彙發音之間的距離。後詞彙神經網絡(2226)可以是前饋神經網絡。後詞彙神經網絡(2226)可使用誤差向後傳遞。後詞彙神經網絡(2226)可具有重複輸入結構。詞彙特徵(2204)和(2214)可包括發聲特徵。詞彙特徵(2204)和(2214)可包括聲學特徵。詞彙特徵(2204)和(2214)可包括發聲特徵的幾何特徵。詞彙特徵(2204)和(2214)可包括聲學特徵的幾何特徵。定位(2220)可以拼寫和關聯語音表示中輔音字母和元音字母的位置為根據。詞彙音素(2202)及(2210)和後詞彙音素(2212)可用特徵向量來描述。基於特徵的替代代價函數(2104)使用預定的替代，插入和刪除代價和預定的替代表。後詞彙神經網絡(2226)可以使用音調信息訓練。後詞彙神經網絡(2226)可使用韻律信息訓練。如數字2300的圖23所示，本發明實現的產品例如軟體，用於根據詞彙發音生成後詞彙發音，包括有具有計算機可讀程序碼方法的計算機可用介質，其中包含用於確定詞彙音素(2302)的詞彙信息確定單元(2324)，預定部分文本的詞彙特徵(2304)，邊界距離信息(2306)和邊界鄰近信息(2308)；以及後詞彙神經網絡利用單元(2326)以便利用一經過訓練的神經網絡。此神經網絡曾用詞彙音素(2310)，後詞彙音素(2312)，詞彙特徵(2314)，邊界距離信息(2316)和邊界鄰近信息(2318)進行過訓練，針對預定的部分文本的後詞彙發音產生神經網絡的推測。如圖21中所示，後詞彙神經網絡利用單元(2326)已按照下述方案經過訓練(2102)對預定的部分文本提供由詞彙音素組成的關聯詞彙發音和對目標發音提供由後詞彙音素組成後詞彙發音；(2104)使用以基於特徵的替代代價函數增強的動態編程定位，定位關聯的詞後詞彙表示；(2106)對詞彙音素提供聲學和發聲信息；(2108)根據與每個詞彙音素和每個音節，字，短語，從句和句子邊界之間距離提供信息；(2110)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間鄰近性，提供的信息；提供(2112)預定長度的詞彙音素上下文窗口；提供(2114)預定長度的詞彙音素特徵的上下文窗口；以及訓練(2116)神經網絡以建立輸入詞彙音素與後詞彙音素的關聯。在優選實施例中，神經網絡利用單元(2326)採用基於特徵的誤差函數來表示目標和推測的後詞彙發音之間的距離。後詞彙神經網絡利用單元(2326)可以是前饋神經網絡。後詞彙神經網絡利用單元(2326)可使用誤差後傳遞。後詞彙神經網絡利用單元(2326)可具有重複輸入結構。詞彙特徵(2304)和(2314)可包括發聲特徵。詞彙特徵(2304)和(2314)可包括聲學特徵。詞彙特徵(2304)和(2314)可包括發聲特徵的幾何特徵。詞彙特徵(2304)和(2314)可包括聲學特徵的幾何特徵。定位(2320)可以拼寫和關聯語音表示中輔音字母和元音字母的位置為根據。詞彙音素(2302)和(2310)可使用特徵向量予以描述。權利要求35的產品其中的後詞彙音素使用特徵向量來描述。基於特徵的替代代價函數(2104)使用預定的替代，插入和刪除代價和預定的替代表。後詞彙神經網絡利用單元(2326)可以使用音調信息訓練。後詞彙神經網絡利用單元(2326)可使用韻律信息訓練。本發明可以其它特定形式實施而沒有脫離其精神或基本特徵。所說明的實施例都僅是一種說明性的而非限制性的。因而，本發明的範圍由所附的權利要求書來表示而非以上的說明來表示。源於本權利要求等價的意義和範圍的所有改變將被認為包含在本要求書的範圍。權利要求1.根據詞彙發音提供有效生成後詞彙發音的方法，包括以下步驟1A)對預定的部分文本確定詞彙音素，詞彙特徵和邊界信息；及1B)利用使用詞彙音素，後詞彙音素，詞彙特徵和邊界信息預訓練過的預訓練神經網絡，為預定的部分文本的後詞彙發音生成神經網絡推測。2.按照權利要求1的方法，其中具有特徵2A-2F中的至少一個2A)邊界信息包括至少邊界距離信息和邊界鄰近信息其中之一；2B)其中，在步驟(1B)中，神經網絡是前向饋送神經網絡；2C)其中，在步驟(1B)中，神經網絡使用誤差向後傳遞；2D)其中，在步驟(1B)中，神經網絡具有重複輸入結構；2E)詞彙特徵包括發聲特徵；和2F)在預先訓練的神經網絡中已用下列步驟進行過訓練2F1)對預定的部分文本提供由詞彙音素組成的關聯詞彙發音和對目標發音提供由後詞彙音素組成的後詞彙發音；2F2)使用以基於特徵的替代代價函數增強的動態編程定位，定位關聯的詞彙和後詞彙表示；2F3)為詞彙音素提供聲學和發聲信息；2F4)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間距離，提供信息；2F5)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間鄰近性提供信息；2F6)提供預定長度的詞彙音素上下文窗口；2F7)提供預定長度的詞彙音素特徵上下文窗口；以及2F8)訓練神經網絡以建立輸入詞彙音素與後詞彙音素的關聯，並且這裡選擇的至少是2F8a-2F8c其中之一2F8a)還包括採用基於特徵的誤差函數以表示目標和推測的後詞彙發音之間的距離；2F8b)其中，在步驟(2F2)中，定位是以拼寫和關聯的語音表示中輔音字母和元音字母的位置為根據；和2F8c)其中，在步驟(2F2)中，基於特徵的替代代價函數使用預定的替代，插入和刪除代價和預定的替代表。3.按照權利要求1的方法，其中，具有特徵3A-3G中的至少一個3A)詞彙特徵包括聲學特徵；3B)詞彙特徵包括發聲特徵的幾何特徵；3C)詞彙特徵包括聲學特徵的幾何特徵；3D)詞彙音素使用特徵向量來描述；3E)後詞彙音素使用特徵向量來描述；3F)其中，在步驟(1B)中，神經網絡使用音調信息來訓練；3G)其中，在步驟(1B)中，神經網絡使用韻律信息訓練；4.根據詞彙發音提供有效生成後詞彙發音的設備，包括4A)編碼器，為預定的部分文本連接接收詞彙音素，詞彙特徵，邊界距離信息和邊界鄰近信息，以為訓練過的後詞彙神經網絡提供數字輸入，其中的預訓練過的後詞彙神經網絡已用詞彙音素，後詞彙音素，詞彙特徵，邊界距離信息和邊界鄰近信息訓練過，並且這裡的詞彙和後詞彙音素利用基於特徵的自動動態編程定位被定位；以及4B)連接到編碼器的預先訓練過的後詞彙神經網絡，用以對預定的部分文本的後詞彙發音生成神經網絡的推測。5.按照權利要求4的設備，其中具有特徵5A-5D中的至少一個5A)訓練期間還包括採用基於特徵的誤差函數以表示目標和推測的後詞彙發音之間的距離；5B)此設備包括5B1-5B3之一5B1)微處理器；5B2)專用集成電路；和5B3)(5B1)和(5B2)的組合；5C)此神經網絡是前向饋送神經網絡；5D)其中的預先訓練的神經網絡已按照下述方案進行過訓練5D1)對預定的部分文本提供由詞彙音素組成的相關詞彙發音和對目標發音提供由後詞彙音素組成的後詞彙發音；5D2)使用以基於特徵的替代代價函數增強的動態編程定位，定位關聯的詞彙和後詞彙表示；5D3)為詞彙音素提供聲音和發聲信息；5D4)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間距離提供信息；5D5)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間鄰近性提供的信息；5D6)提供預定長度的詞彙音素上下文窗口；5D7)提供預定長度的詞彙音素特徵上下文窗口；5D8)訓練神經網絡以建立輸入詞彙音素與後詞彙音素的關聯；5D9)當被選擇時，在5D8中，定位是以拼寫和關聯的語音表示中輔音字母和元音字母的位置為根據；以及5D10)當被選擇時，在5D8中，基於特徵的替代代價函數使用預定的替代，插入和刪除代價和預定的替代表。6.按照權利要求4的設備，其中具有特徵6A-6E中的至少一個6A)此神經網絡使用誤差向後傳遞；6B)此神經網絡具有重複的輸入結構；6C)詞彙特徵包括發聲特徵；6D)詞彙特徵包括聲學特徵；6E)詞彙特徵包括發聲特徵的幾何特徵。7.按照權利要求4的設備，其中具有特徵7A-7E中的至少一個7A)詞彙特徵包括聲學特徵的幾何特徵；7B)詞彙音素使用特徵向量來描述；7C)後詞彙音素使用特徵向量來描述；7D)此神經網絡使用音調信息來訓練；和7E)此神經網絡使用韻律信息來訓練。8.根據詞彙發音產生後詞彙發音的產品，包括具有計算機可讀程序代碼裝置的計算機可用介質，該程序代碼裝置包括8A)詞彙信息確定裝置，用以對預定的部分文本確定詞彙音素，詞彙特徵，邊界距離信息和邊界鄰近信息；以及8B)後詞彙神經網絡利用裝置，利用預先用詞彙音素，後詞彙音素，詞彙特徵，邊界距離信息和邊界鄰近信息訓練過的神經網絡，生成預定部分文本的後詞彙發音的神經網絡推測。9.按照權利要求8的產品，其中具有特徵9A-9F中的至少一個9A)此神經網絡是前向饋送神經網絡；9B)此神經網絡使用誤差向後傳遞；9C)此神經網絡具有重複的輸入結構；9D)詞彙特徵包括發聲特徵；9E)詞彙特徵包括聲學特徵；以及9F)此預先訓練過的神經網絡已根據下述方案進行過訓練9F1)對預定的部分文本提供由詞彙音素組成的關聯詞彙發音和對目標發音提供由後詞彙音素組成的後詞彙發音；9F2)使用以基於特徵的替代代價函數增強的動態編程定位，定位關聯的詞彙和後詞彙表示；9F3)為詞彙音素提供聲學和發聲信息；9F4)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間距離提供信息；9F5)根據每個詞彙音素和每個音節，字，短語，從句和句子邊界之間鄰近性提供信息；9F6)提供預定長度的詞彙音素上下文窗口；9F7)提供預定長度的詞彙音素特徵上下文窗口；以及9F8)訓練神經網絡以建立輸入詞彙音素與後詞彙音素的關聯。9F9)當被選擇時，在9F8還包括採用基於特徵的誤差函數，用以表示目標和推測的後詞彙發音之間的距離；9F10)當被選擇時，在9F2中，定位是以拼寫和關聯的音素表示中輔音字母和元音字母的位置為根據；和9F11)當被選擇時，在9F2中，基於特徵的替代代價函數使用預定的替代，插入和刪除代價和預定的替代表。10.按照權利要求8的產品，其中具有特徵10A-10F中的至少一個10A)詞彙特徵包括發聲特徵的幾何特徵；10B)詞彙特徵包括聲學特徵的幾何特徵；10C)詞彙音素使用特徵向量來描述；10D)後詞彙音素使用特徵向量來描述；10E)神經網絡使用音調信息來訓練；以及10F)神經網絡使用韻律信息來訓練。全文摘要根據詞彙發音信息提供有效生成後詞彙發音信息的方法(2000),設備(2200)和產品(2300)。提出的方法根據詞彙發音,有效生成後詞彙發音,它包含的步驟有:對預定的部分文本確定詞彙音素,詞彙特徵,以及邊界信息;和利用用詞彙音素,後詞彙音素,詞彙特徵和邊界信息訓練過的預訓練神經網絡,對預定部分文本的後詞彙發音,生成神經網絡的推測。文檔編號G10L13/08GK1202686SQ9811473公開日1998年12月23日申請日期1998年6月12日優先權日1997年6月13日發明者科瑞·安德魯·米勒,奧漢·凱拉裡,諾埃爾·馬塞申請人:摩託羅拉公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

根據詞彙發音生成後詞彙發音的方法、設備和產品的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法