在純聲控電話機上選擇用戶語言的製作方法
2023-08-11 16:51:06 3
專利名稱:在純聲控電話機上選擇用戶語言的製作方法
在通信設備和信息設備中,以國家版規定的語言來顯示文本信息。因此,用戶能夠將所期望的語言調節為用戶語言或者操作語言。如果現在無論出於哪種原因來調節用戶界面的語言,那麼用戶都會遇到重複調節所期望的用戶語言的問題,而他不能通過文本回答得到相關的菜單登記項或者控制狀態。
這種問題通常會存在,並且不限制於通過鍵盤輸入或者滑鼠輸入的圖形用戶界面。相反,將來會有越來越多的純聲音操作的終端設備。在同樣進行純聲音操作的呼叫中心也出現該問題。在此,通過語言識別進行語音輸入,以及或者通過播放預製的語音儲備或者通過自動化的語音合成以文本到語音的轉換形式進行語音輸出。
在具有屏幕或者顯示輸入和鍵盤輸入的設備中,為了解決所表現出來的問題,發現下列解決方式通常能夠使設備返回到出廠時的語音設置。這多數通過確定的按鍵組合實現。也存在通過用戶可以選擇目標語言來簡單地激活語言菜單的設備。這例如下面所示 表1在所述菜單中,現在用戶可以選擇期望的並從而可調節的用戶語言。當然,這種方式對純聲控設備是不可能的。
由此為出發點,本發明以該任務為基礎,使藉助於純聲音的方法能夠對裝置的用戶語言進行選擇。隨後,如果所述裝置可以或者應該不通過顯示提供支持,那麼所述可能的選擇正好應該可供使用。
所述任務通過獨立權利要求規定的發明來解決。優選的改進方案由從屬權利要求得出。通過本發明,對裝置要調節的用戶語言通過下述方式簡單地進行調節,即簡單地講出要調節的用戶語言用於選擇用戶語言。也即英國人說「English」,德國人簡單地說「Deutsch」,法國人說「Francais」,而烏克蘭人說「Ukrajins′Kyj」(波蘭寫法中的「ukranisch」的英語音譯)。
在所述裝置的語言識別工具中所述功能的實現是極其重要的,因此下面應該更詳細地說明優選的可能性。
一種可能性在於,在可調節用戶語言的需要識別的名稱上訓練單詞識別器。因為這裡所使用的算法大多數基於粗略的模板比較,為了所述訓練,需要大量的語音儲備,在所述語音儲備中把講母語的人的語言(詞)錄音成相應的語言(代碼)。在此,尤其可以使用一種動態時間扭曲算法(「DTW」)識別器。
如果該裝置例如對於其他功能已經具有基於音素的語言識別,那麼有利的是,對於用戶語言的調節考慮這些。對此有三種可能性。
所以,在所述語言識別工具中可以應用多種語言的隱馬爾科夫模型(「HMM」),所述多種語言的隱馬爾科夫模型對所有語言的音素進行建模。對此,尤其有利的是,例如以SAMPA音素的形式標準化地表示聲音字母。
因此對於所述的問題提出,這種問題解決措施是具有說服力的,而在實際中表明,就識別率對多種語言的語言識別工具進行一種語言專用的建模。對於所述裝置中的標準語言識別,也還需要其他的聲音模型,所述模型需要另外的存儲空間。
因此,另一種可能性證明是優選的,其中,從HMM中為不同的語言組合屬於可調節的用戶語言名稱的音素序列。這裡,當然必須考慮,一致性標準是不能直接相互進行比較的,所述的一致性標準為以不同音素目錄建模的字提供語言識別。如果在組合的HMM中對於來自不同可識別的用戶語言的音素序列可以縮放一致性標準,那麼可以解決所述問題。
如果代替多種語言的HMM或者多種語言專用的HMM的音素序列組合,而只使用唯一語言專用或者國家專用的HMM,並且其中利用語言專用音素組對外國的用戶語言名稱進行建模,那麼得出一種尤其優選的可能性。為了進行闡述,下面的例子用於德語語言,所述例子仿效表1種的菜單。字模型採用「聲音」寫法。
表2這裡,沒有必要使用多種語言的HMM,或者在識別時將音素序列與不同的音素目錄結合。
根據前述的問題提出,該裝置尤其是移動或者無繩電話,耳機或者呼叫中心的伺服器形式的移動終端設備。
本發明方法的優選的改進方案,類似於所述優選的本發明裝置的改進方案得出。
本發明的其他基本特徵或者優點藉助附圖從實施例的描述中得出。
圖1示出在調節用戶語言時的過程。
該裝置能夠以無繩耳機的形式實現,所述無繩耳機只能通過語言控制。這可以例如通過Bluetooth、Dect、GSM、UMTS、GAP或者其他傳輸標準採用電纜或者無線地與基站建立連接的耳機。
該耳機具有開/關按鍵以及所謂的「P2T-按鍵」(「push totalk(即按即說)」),通過所述按鍵將確定的時間窗口的音頻信道接通到語言識別工具上。所述耳機的命令控制包含P2T按鍵的短時間按壓、通過短鳴叫音退出按鍵按壓和所期望命令的隨後發音,對此所述裝置作出相應反應。
在第一次接通所述裝置時(第1步)或者在復位所述裝置後(第2步),這例如通過長時間按壓P2T按鍵引起,用戶才可以進行用戶語言選擇。這通過聲音信號(第3步)來通知用戶,所述聲音信號例如是一種長鳴叫音,或者一種用於請求說入要調節的用戶語言的多語言請求。
用戶現在在該裝置中以要調節的語言來說入所要調節的語言的名稱(第4步)。該裝置的語言識別工具現在識別以所要調節的用戶語言講出的所要調節的用戶語言的名稱,只要所要調節的用戶語言涉及了該裝置的多種可調節的用戶語言中的一種。隨後,該裝置的用戶語言調節工具將該裝置的用戶語言調節到由語言識別工具識別的用戶語言,由此該裝置相應被初始化。隨後,可以利用該裝置進行工作(第6步),就像它已被正常接通一樣(第5步)。
在對語言識別錯誤和操作錯誤進行糾正時,可以動用現有技術中合適的工具和方法。
對所有本發明的實施方案,共有的突出優點是所述裝置操作的明顯簡化和簡短。另外,只要使用基於音素的識別,那麼就沒有必要把語音儲備存放到裝置中。在此,最佳地利用了以下事實所述裝置中已經具有基於音素的聲源。
權利要求
1.裝置,具有-語言識別工具,用於識別以要調節的用戶語言講出的所述裝置要調節的用戶語言的名稱,其中通過以要調節的用戶語言說出相應要調節的用戶語言的名稱,所述裝置的多種可調節用戶語言可以通過所述語言識別工具進行識別,-用戶語言調節工具,用於把所述裝置的用戶語言調節到由所述語言識別工具識別的用戶語言上。
2.按照權利要求1所述的裝置,其特徵在於,所述語言識別工具具有單詞識別器。
3.按照權利要求1所述的裝置,其特徵在於,所述語言識別工具具有基於音素的識別器。
4.按照權利要求3所述的裝置,其特徵在於可由所述語言識別工具使用的多種語言的隱馬爾科夫模型。
5.按照權利要求3所述的裝置,其特徵在於組合的隱馬爾科夫模型,所述組合的隱馬爾科夫模型包含多可識別的用戶語言的音素序列,並且可由所述語言識別工具使用。
6.按照權利要求5所述的裝置,其特徵在於,在所述組合的隱馬爾科夫模型中,對多可識別的操作語言的音素序列可以縮放一致性標準。
7.按照權利要求3所述的裝置,其特徵在於語言專用的隱馬爾科夫模型,其中利用所述語言專用的隱馬爾科夫模型的語言專用的音素組對所述多種可識別的用戶語言的名稱的音素進行建模。
8.按照上述權利要求之一所述的裝置,其特徵在於,所述裝置是移動終端設備。
9.按照上述權利要求之一所述的裝置,其特徵在於,所述裝置具有工具用於輸出請求以說入所述要調節的用戶語言的名稱。
10.用於調節裝置的用戶語言的方法,-其中,如果以要調節的用戶語言講出相應的要調節的用戶語言的名稱,那麼多種可調節的用戶語言可以通過語言識別來識別,-其中,所述以要調節的用戶語言講出的要調節的用戶語言的名稱被識別,-其中,所述被識別的要調節的用戶語言被調節為所述裝置的用戶語言。
全文摘要
可以通過以要調節的用戶語言說入要調節的用戶語言的名稱,來對裝置的用戶語言進行調節。
文檔編號G10L15/26GK1720570SQ200380105008
公開日2006年1月11日 申請日期2003年11月24日 優先權日2002年12月5日
發明者K·-H·普夫勞姆, S·A·克林克, E·坎珀施勒爾, N·昆斯特曼, R·奧鮑爾 申請人:西門子公司