新四季網

聲學模型的建立方法、語音辨識方法及其電子裝置製造方法

2023-12-08 23:16:26

聲學模型的建立方法、語音辨識方法及其電子裝置製造方法
【專利摘要】一種聲學模型的建立方法、語音辨識方法及其電子裝置。在語音辨識方法中,根據聲學模型獲得語音信號的多個音標。根據各音標以及音節聲學詞典,獲得符合音標的多個詞彙,其中音節聲學詞典具有音標對應的詞彙,且具有至少一音標的詞彙具有對應於各音標的編碼。依據各詞彙的編碼,自語言模型中獲得多個字串及多個字串概率。選擇字串概率中最大者所對應的字串,以作為語音信號的辨識結果。本發明可顯著提高語音辨識的準確率。
【專利說明】聲學模型的建立方法、語音辨識方法及其電子裝置【技術領域】
[0001]本發明有關於一種語音辨識技術,且特別是有關於一種可用於識別不同語言、方言或發音習慣所發出的語音的聲學模型的建立方法、語音辨識方法及其電子裝置。
【背景技術】
[0002]語音辨識(speech recognition)毫無疑問的是一種熱門的研究與商業課題。語音辨識通常是對輸入的語音取出特徵參數,再與資料庫的樣本相比對,找出與輸入的語音相異度低的樣本並取出。
[0003]目前常見做法大都是先採集語音語料(如錄下來的人的語音),然後由人工進行標註(B卩,對每一句語音標註上對應的文字),然後使用這些語料來訓練聲學模型(acousticmodel)和聲學詞典(acoustic lexicon)。其中,在訓練聲學模型和聲學詞典時,利用對應於多個詞彙的多個語音語料以及這些詞彙於字典中標註的多個音標來進行訓練,藉以獲得聲學模型和聲學詞典中與上述音標相對應的多個語音語料的數據。
[0004]然而,目前作法存在如下問題。問題1:由於聲學模型中用以訓練的詞彙的音標,是來自於字典上所標註的音標,因此倘若用戶的非標準發音(如翹舌音不分、前後鼻音不分等)進入聲學模型,則這些發音會有很高的機率無法符合字典上所標註的音標,因而造成聲學模型的模糊性變大。如拼音「in」在聲學模型中會給出比較大的概率為「ing」,而向不標準發音妥協,會導致整體錯誤率的升高。問題2:由於不同地區的發音習慣不同,非標準發音有多種變形,導致聲學模型的模糊性變得更大,因而使得識別準確率的進一步降低。問題3:無法識別方言,如標準漢語、滬語、粵語、閩南語等。問題4:無法識別容易讀錯的字,如一丘之貉(h6),很多人會把它念成(Ιι?)。

【發明內容】

[0005]本發明提供一種聲學模型的建立方法、語音辨識方法及其電子裝置,其可準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語言。
[0006]本發明提出一種聲學模型的建立方法,用於電子裝置。該聲學模型的建立方法包括以下步驟;接收多個語音信號;接收與語音信號中發音相符合的多個音標;以及,依據語音信號與音標進行訓練,而獲得聲學模型中與音標相對應的多個音素的數據。
[0007]本發明另提出一種語音辨識方法,用於電子裝置。該語音辨識方法包括以下步驟:根據聲學模型獲得語音信號的多個音標,其中音標包括多個音素;依據各音標以及音節聲學詞典,獲得符合音標的多個詞彙,並獲得音標與各詞彙相匹配的模糊音概率;以及,選擇模糊音概率中最大者所對應的詞彙,以作為語音信號所匹配的詞彙。
[0008]本發明另提出一種語音辨識方法,用於電子裝置。該語音辨識方法包括以下步驟:根據聲學模型獲得語音信號的多個音標,其中音標包括多個音素;根據各音標以及音節聲學詞典,獲得符合音標的多個詞彙,其中音節聲學詞典具有這些音標對應的詞彙,且具有至少一音標的詞彙具有對應於各音標的各編碼;依據各詞彙的編碼,自語言模型中獲得多個字串及多個字串概率;以及,選擇模糊音概率與字串概率的聯合概率中最大者所對應的字串,以作為語音信號的辨識結果。
[0009]本發明另提出一種電子裝置,其包括輸入單元、儲存單元以及處理單元。輸入單元多個接收語音信號。儲存單元儲存多個程序碼片段。處理單元耦接至輸入單元以及儲存單元,其中處理單元通過程序碼片段來執行多個指令。所述指令包括:接收與語音信號中發音相符合的多個音標,以及依據語音信號與音標進行訓練,而獲得聲學模型中與音標相對應的多個音素的數據。
[0010]本發明另提出一種電子裝置,其包括輸入單元、儲存單元以及處理單元。輸入單元接收語音信號。儲存單元儲存多個程序碼片段。處理單元耦接至輸入單元以及儲存單元,其中處理單元通過程序碼片段來執行多個指令。所述指令包括:根據聲學模型獲得語音信號的多個音標,其中音標包括多個音素。依據各音標以及音節聲學詞典,獲得符合音標的多個詞彙,並獲得音標與各詞彙相匹配的模糊音概率。選擇模糊音概率中最大者所對應的詞彙,以作為語音信號所匹配的詞彙。
[0011]本發明另提出一種電子裝置,其包括輸入單元、儲存單元以及處理單元。輸入單元接收語音信號。儲存單元儲存多個程序碼片段。處理單元耦接至輸入單元以及儲存單元,其中處理單元通過程序碼片段來執行多個指令。所述指令包括:根據聲學模型獲得語音信號的多個音標,其中音標包括多個音素。根據各音標以及音節聲學詞典,獲得符合音標的多個詞彙,其中音節聲學詞典具有這些音標對應的詞彙,且具有至少一音標的詞彙具有對應於各音標的各編碼。依據各詞彙的編碼,自語言模型中獲得多個字串及多個字串概率。選擇模糊音概率與字串概率的聯合概率中最大者所對應的字串,以作為語音信號的辨識結果。
[0012]基於上述,本發明會對於不同的語言、方言或發音習慣的語音輸入,建立不同的聲學模型、音節聲學詞典和語音模型。並且,本發明的語音辨識方法可依據來自不同語言、方言或發音習慣的語音信號,在聲學模型、音節聲學詞典和語言模型中進行解碼。其中,解碼結果不僅可依序到音標和音標所對應的詞彙輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙相匹配的模糊音概率,以及此詞彙套用在不同字串中的字串概率,據以選出概率最大的輸出作為語音信號的辨識結果。如此一來,本發明可提高語音辨識的準確率。
【專利附圖】

【附圖說明】
[0013]圖1是依照本發明一實施例的電子裝置的方塊圖。
[0014]圖2是依照本發明一實施例的語音辨識模組的示意圖。
[0015]圖3是依照本發明一實施例所繪示的語音辨識方法的流程圖。
[0016]圖4是依照本發明一實施例的電子裝置的方塊圖。
[0017]圖5是依照本發明一實施例的語音辨識模組的示意圖。
[0018]圖6是依照本發明一實施例所繪示的語音辨識方法的流程圖。
[0019]附圖中符號的簡單說明如下:
[0020]100、400:電子裝置
[0021]110、410:處理單元
[0022]120,420:儲存單元[0023]130,430:輸入單元
[0024]140,440:輸出單元
[0025]21,51:語音資料庫
[0026]22、52:語料庫
[0027]210、510:聲學模型
[0028]220、520:音節聲學詞典
[0029]230,530:語言模型
[0030]240、540:解碼器
[0031]S1、S2:語音信號
[0032]S310、S320、S330、S340、S350、S610、S620、S630、S640、S650:步驟。
【具體實施方式】
[0033]為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
[0034]在傳統語音辨識方法中,普遍存在以下問題,S卩,由於在不同地區的方言中的拼音匹配、使用者發音習慣的不同、或是不同的語言,會導致辨識率的精準度受到影響。並且,現有技術中的語音辨識一般是以文字輸出,因而丟失了很多語音信息,例如隨音調而異的語義表達。為此,本發明提出一種語音辨識方法及其電子裝置,可在原有語音識別的基礎上,改進辨識率的精準度。為了使本發明的內容更為明了,以下特舉實施例作為本發明確實能夠據以實施的範例。
[0035]圖1是依照本發明一實施例的電子裝置的方塊圖。請參照圖1,電子裝置100包括處理單元110、儲存單元120、輸入單元130,也可包括輸出單元140。
[0036]電子裝置100例如是行動電話(Cell phone)、個人數字助理(Personal DigitalAssistant, PDA)、手機、智慧型手機(Smart phone)、掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)、筆記型電腦、個人電腦,車載電腦等具有運算功能的裝置,在此並不限制其範圍。
[0037]處理單元110耦接至儲存單元120及輸入單元130。處理單元110為具備運算能力的硬體(例如晶片組、處理器等),用以執行電子裝置100中的硬體、固件以及處理軟體中的數據。在本實施例中,處理單元110例如是中央處理單元(Central Processing Unit,CPU),或是其它可編程的微處理器(Microprocessor)、數位訊號處理器(Digital SignalProcessor, DSP)、可編程控制器、特殊應用集成電路(Application Specific IntegratedCircuits, ASIC)、可編程邏輯裝置(Programmable Logic Device, PLD)或其它類似裝置。
[0038]儲存單元120可儲存一個或多個用來執行語音辨識方法的程序碼以及數據(例如,使用者所輸入的語音信號、執行語音辨識所需的聲學模型(acoustic model)、音節聲學詞典(acoustic lexicon)、語言模型(language model)及語料庫等)等。在本實施例中,儲存單元120例如為非易失性存儲器(Non-volatile memory, NVM)、動態隨機存取存儲器(Dynamic Random Access Memory, DRAM)或靜態隨機存取存儲器(Static Random AccessMemory, SRAM)等。
[0039]輸入單元130例如為麥克風,用以接收使用者的聲音,而將使用者的聲音轉換為語音信號。
[0040]在此,本實施例可以以程序碼來實現電子裝置100的語音辨識方法。具體而言,儲存單元120中可儲存有多個程序碼片段,而上述程序碼片段在被安裝後,處理單元110會通過這些程序碼片段來執行多個指令,藉以實現本實施例的語音辨識方法。更進一步地說,處理單元110會通過執行程序碼片段中的多個指令,來建立聲學模型、音節聲學詞典以及語言模型,並通過上述程序碼片段來驅動語音辨識模組,以利用聲學模型、音節聲學詞典以及語言模型來執行本實施例的語音辨識方法。其中,所述語音辨識模組可以是以電腦程式碼來運行,或者在本發明另一實施例中,所述語音辨識模組可由一個或多個邏輯門組合而成的硬體電路來運行。據此,本實施例的處理單元Iio會將輸入單元130所接收的語音信號通過上述語音辨識模組來進行語音辨識,以利用聲學模型、音節聲學詞典以及語言模型而獲得多個音節序列概率及多個音節序列。並且,處理單元110會選出音節序列概率中最大者所對應的音節序列或文字序列,以作為語音信號的辨識結果。
[0041]另外,本實施例還可包括輸出單元140,用以輸出語音信號的辨識結果。輸出單元140例如為陰極射線管(Cathode Ray Tube, CRT)顯示器、液晶顯示器(Liquid CrystalDisplay, IXD)、等離子顯示器(Plasma Display)、觸控顯示器(Touch Display)等顯示單兀,以顯不所獲得的拼首序列概率中最大者所對應的拼首序列或此拼首序列所對應的字串。或者,輸出單元140亦可以是揚聲器,以通過語音方式來播放所述拼音序列。
[0042]以下舉一實施例來說明。
[0043]圖2是依照本發明一實施例的語音辨識模組的示意圖。請參照圖2,語音辨識模組200主要包括聲學模型210、音節聲學詞典220、語言模型230以及解碼器240。聲學模型210與音節聲學詞典220是由語音資料庫21經訓練而獲得,語言模型230是由語料庫(textCOrpUS)22經訓練而獲得。其中,語音資料庫21以及語料庫22具有多個語音信號,而這些語音信號例如是來自不同語言、方言或發音習慣的語音輸入,且語料庫22還具有這些語音信號所對應的拼音。在本實施例中,處理單元110可針對不同的語言、方言或發音習慣進行語音辨識的訓練,而分別建立聲學模型210、音節聲學詞典220、語言模型230,並將這些模型與詞典存放於儲存單元120,以用於本實施例的語音辨識方法中。
[0044]請同時參照圖1與圖2,聲學模型210用以辨識來自不同語言、方言或發音習慣的語音信號,以識別出與語音信號的發音相符合的多個音標。詳細而言,聲學模型210例如是一個統計分類器,其可利用混合高斯模型,以將所接收到的語音信號,解析成基本的音素(Phone),並將各音素分類至對應的基本音標。其中,聲學模型210可包括用來識別不同語言、方言或發音習慣的語音輸入所對應的基本音標、音間過渡以及一些非語音的音素(例如咳嗽聲等)。在本實施例中,處理單元110會基於不同語言、方言或不同發音習慣的語音信號,經由訓練而獲得聲學模型210。詳言之,處理單元110可自語音資料庫21接收多個語音信號,以及接收與語音信號中發音相符合的多個音標,其中對應於各音標的發音具有多個音素。並且,處理單元110會依據語音信號與音標進行訓練,而獲得聲學模型210中與音標相對應的多個音素的數據。更具體而言,處理單元110可從語音資料庫21中取得不同語言、方言或發音習慣的語音輸入所對應的語音信號,解析出各語音信號的音素以獲得對應於各語音信號的特徵參數。之後,再利用這些特徵參數與已標註對應音標的語音信號進行訓練,而獲得語音信號的特徵參數與音標相符合的關係,進而建立聲學模型210。[0045]處理單元110可通過音節聲學詞典220,以將聲學模型210所輸出的多個音標映射成對應的音節。其中,音節聲學詞典220具有多個音標序列以及各音標序列所映射的音節。需說明的是,每一個音節都有一個音調,其中音調例如是指陰、陽、上、去及輕聲等,而對於方言來說,音標亦可包括其它音調。為了保留使用者所發出的發音及音調,處理單元110會根據聲學模型210所輸出的多個音標,將這些音標映射成對應的帶音調的音節。
[0046]具體來說,處理單元110可通過音節聲學詞典220,而將多個音標轉換成音節。進一步而言,根據聲學模型210所輸出的音標,處理單兀110會自音節聲學詞典220輸出帶音調的音節,計算出與聲學模型210所輸出的音標匹配的多個音節序列概率,再從這些音節序列概率中選取最大者所對應的音節序列,來作為這些音標對應的拼音。舉例來說,假設聲學模型210所輸出的音標為「b」以及「a」,則處理單元110可通過音節聲學詞典220而獲得拼音及其音調為ba(上聲)。
[0047]語言模型230用以依據不同詞彙的拼音以及此拼音對應的音調信息,來辨識出與此拼音相符合的拼音序列,並獲得此拼音與此拼音序列相符合的拼音序列概率,其中拼音序列例如表示相關詞彙的拼音。詳細而言,語言模型230是基於歷史信息的模型(History-based Model)的設計理念,即,根據經驗法則,統計先前已出現的一連串事件與下一個出現的事件之間的關係。例如,語言模型230可利用機率統計的方法來揭示語言單位內在的統計規律,其中N元語法(N-Gram)簡單有效而被廣泛使用。在本實施例中,處理單元110會基於不同語言、方言或不同發音習慣的多個語料,經由訓練而獲得語言模型230,其中所述語料具有多個發音的語音輸入以及此語音輸入對應的拼音序列。在此,處理單元110會自語料庫22獲得拼音序列,並且將拼音序列與其對應的音調進行訓練,而獲得不同音調的拼音與各拼音序列匹配的數據,例如各拼音與音調信息匹配於各拼音序列的拼音序列概率。
[0048]解碼器240是語音辨識模組200的核心之一,其任務是對輸入的語音信號,根據聲學模型210、音節聲學詞典220以及語言模型230,尋找能夠以最大概率輸出的拼音序列。舉例來說,利用聲學模型210獲得對應的音標(phonetic transcription),再由音節聲學詞典220來獲得對應的拼音(phonetic spelling),之後由語言模型230來判斷出一連串的拼音序列成為語音信號所欲表達的語義的概率。
[0049]以下即搭配上述電子裝置100與語音辨識模組200來說明本發明的語音辨識方法。圖3是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖1、圖2與圖3,本實施例中的語音辨識方法,適於通過電子裝置100來對語音信號進行語音辨識。其中,處理單元110能針對不同的語言、方言或發音習慣,利用聲學模型210、音節聲學詞典220、語言模型230以及解碼器240以自動地辨識出語音信號所對應的語義。
[0050]於步驟S310中,輸入單元130接收語音信號SI,其中語音信號SI例如是來自使用者的語音輸入。更具體而言,語音信號Si例如為單音節語言的語音輸入,而單音節語言例如為中文。
[0051]於步驟S320中,處理單元110會根據聲學模型210獲得語音信號SI的多個音標,其中音標包括多個音素。在此,對於單音節語言來說,語音信號Si中具有多個音素,而用來表示這些音素的發音的符號為所謂的音標,亦即每個音標代表一個音素。舉例來說,對於「福」這個字而言,其依據不同語言或方言會具有不同的發音。例如,以國語來說,「福」的音標例如是「《」,而以潮汕話來說,「福」的音標例如是「hog4」。又例如,對於「人」這個字而言,以國語來說,「人」的音標例如是「r6n」。以粵語來說,「人」的音標例如是「 jan4」。以閩南語來說,「人」的音標例如是「lang2」。以廣韻來說,「人」的音標例如是「nin」。換言之,處理單元110從聲學模型210所獲得的各音標是直接映射到語音信號SI的發音。
[0052]為了提高語音信號SI的發音映射至音標時的準確度,本實施例的處理單元110可根據預先設定,從聲學模型210中選擇訓練數據,而此訓練數據來自於不同語言、方言或不同發音習慣的訓練結果。藉此,處理單元110可利用聲學模型210,並選擇訓練數據中的語音信號以及這些語音信號所對應的基本音標,來查詢出符合語音信號SI的多個音標。
[0053]詳言之,上述預先設定指的是電子裝置100被設定為依據哪一種發音來進行語音辨識。舉例來說,假設電子裝置100被設定為依據北方人的發音習慣來進行語音辨識,則處理單元110會在聲學模型210中,選擇由北方人的發音習慣所訓練而成的訓練數據。類似地,假設電子裝置100被設定為進行閩南語的語音辨識,則處理單元110會在聲學模型210中選擇由閩南語所訓練而成的訓練數據。上述所列舉的預先設定為舉例說明,於其它實施例中,電子裝置100亦可被設定為依據其它語言、方言或發音習慣來進行語音辨識。
[0054]進一步而言,處理單元110會根據所選擇的聲學模型210以及語音信號SI中的音素,計算語音信號Si中的音素與每一個基本音標相符的音標匹配概率。爾後,處理單元110會從所計算出的這些音標匹配概率中,選擇音標匹配概率中最大者所對應的各基本音標,以作為語音信號SI的音標。更具體來說,處理單元110可將所接收到語音信號SI切割為多個音框,而這些音框中的兩相鄰音框之間可以有一段重疊區域。之後,再從每個音框中取出特徵參數而獲得一特徵向量。例如,可利用梅爾倒頻譜係數(Mel-frequency CepstralCoefficients, MFCC)自音框中取出36個特徵參數,而獲得一個36維的特徵向量。在此,處理單元110可將語音信號SI的特徵參數與聲學模型210所具有的音素的數據進行匹配,以計算出語音信號SI中的各音素與相符的各基本音標之間的音標匹配概率。如此一來,處理單元110可在這些音標匹配概率中選擇最大者所對應的各基本音標,以作為語音信號SI的音標。
[0055]於步驟S330中,處理單元110會根`據各音標以及音節聲學詞典220,獲得符合音標的多個拼音以及這些拼音所分別對應的音調信息。其中,音節聲學詞典220具有符合各音標的多個拼音,以及發音為此音標時,針對不同語義所伴隨的可能的音調。在本實施例中,處理單元110也可根據預先設定,從音節聲學詞典220中選擇訓練數據,而此訓練數據來自於不同語言、方言或不同發音習慣的訓練結果。並且,處理單元110會依據自音節聲學詞典220中所選擇的訓練數據與語音信號SI的各音標,而獲得音標與各拼音匹配的拼音匹配概率。需說明的是,由於每一個詞彙可因不同語言、方言或發音習慣而具有不同的音標,且每一個詞彙也可依據不同的語義而具有不同音調的發音,因此在音節聲學詞典220中,每一種音標所對應的拼音皆會具有拼音匹配概率,其中拼音匹配概率會因不同語言、方言或發音習慣而改變。換言之,經由不同語言、方言或發音習慣所訓練的訓練數據,音節聲學詞典220中的各種音標與對應的拼音會具有不同的拼音匹配概率。
[0056]舉例來說,當預先設定為選擇音節聲學詞典220中,以北方人的發音訓練而成的訓練數據時,則對於發音為這個音標而言,其對應的拼音有較大的拼音匹配概率為「Fti」,而有較低的拼音匹配概率為「Η?」。具體來說,當北方人說「福」這個詞彙的時候,處理單元110可自聲學模型210獲得這個音標,並從音節聲學詞典220中,獲得「Fti」為具有較大拼音匹配概率的拼音,而獲得「Η?」為具有較小拼音匹配概率的拼音。在此,這個音標所對應的拼音,會因不同地區的發音習慣而有不同的拼音匹配概率。
[0057]在另一例中,當預先設定為選擇音節聲學詞典220中,以大多數人的發音習慣所訓練而成的訓練數據時,則對於發音為「ying」這個音標而言,其對應的拼音有較大的拼音匹配概率為「Ying」,而有較低的拼音匹配概率為「Xidng」。具體來說,通常用戶說「『影』響」這個詞彙的時候,處理單元110可自聲學模型210獲得「ying」這個音標,並從音節聲學詞典220中,獲得「Xitog」以及「Ying」這些拼音所分別對應的拼音匹配概率。在此,「ying」這個音標所對應的拼音,會隨著不同的語義而有不同的拼音匹配概率。
[0058]值得一提的是,由於相同文字所組成的語音輸入,可根據不同語義或意圖而具有不同音調的語音信號,因此處理單元Iio可根據音節聲學詞典220中的拼音與音調信息,而獲得與音調相符的拼音,藉以對不同語義的拼音進行區分。舉例來說,對於「今天很好」這句話所對應的語音輸入來說,其表達的語義可以是疑問句,或者是肯定句。亦即,「今天很好? 」中的「好」所對應的音調較高,而「今天很好。」中的「好」所對應的音調會較低。因此,對於發音為「hdo」這個音標而言,處理單元110可從音節聲學詞典220中,獲得「h0o」以及「hdo」這些拼音所分別對應的拼音匹配概率。
[0059]換言之,處理單元110可根據音節聲學詞典220中的音調,而識別出具有相同拼音而不同音調的語音輸入,使得這些具有不同音調的拼音在語言模型230中可對應到具有不同含義的拼音序列。如此一來,當處理單元110利用音節聲學詞典220以獲得拼音時,同時可獲得發此拼音時的音調信息,因此處理單元110可辨識具有不同語義的語音輸入。
[0060]於步驟S340 中,處理單元110會依據各拼音與音調信息,自語言模型230中獲得多個拼音序列及多個拼音序列概率。在此,由於不同的音調信息在語言模型230可被區分為不同的語義,而這些語義會對應於不同的拼音序列,因此處理單元110可依據自音節聲學詞典220所獲得的拼音以及音調信息,通過語言模型230來計算此拼音以及音調信息中符合各拼音序列的拼音序列概率,進而找出符合此音調信息的拼音序列。
[0061]更具體而言,本實施例的語言模型230中還具有多個關鍵字所對應的拼音序列,其中關鍵字例如是地名、人名等名詞或其它固定用語或慣用語等等。例如,語言模型230具有對應於「長江大橋」這個關鍵字的拼音序列「Ch0ng-Ji0ng-D0-Qi00」。因此,當處理單元110依據自音節聲學詞典220所獲得的拼音以及音調信息與語言模型230中的拼音序列進行匹配時,可比較這個拼音是否符合語言模型230中的各關鍵字所對應的拼音序列,而若是這個拼音較符合關鍵字所對應的拼音序列,則處理單元110可獲得較高的拼音序列概率。如此一來,倘若處理單元110計算出的拼音序列概率較低,則表示此拼音所對應的音調信息用於這個拼音序列的機率很低。反之,倘若處理單元110計算出的拼音序列概率較高,則表示此拼音所對應的音調信息有很大的機率對應於這個拼音序列。
[0062]接後,於步驟S350中,處理單元110會選擇拼音序列概率中最大者所對應的拼音序列,以作為語音信號SI的辨識結果S2。舉例來說,處理單元110例如計算每一來自音節聲學詞典220的拼音匹配概率與來自語言模型230的拼音序列概率的乘積為聯合概率,再從拼音匹配概率與拼音序列概率的聯合概率中選擇最大者所對應的拼音序列,來作為語音信號SI的辨識結果S2。也就是說,處理單元110不限於從音節聲學詞典220中選擇與音標最相符的拼音以及音調信息,而是處理單元110可依據從音節聲學詞典220所獲得的與音標相符合的多個拼音以及音調信息,並在語言模型230中選擇拼音序列概率最大者的拼音序列來作為辨識結果S2。當然,本實施例的處理單元110亦可分別在音節聲學詞典220中選擇拼音匹配概率中最大者所對應的拼音以及音調信息,以作為語音信號的各音標所匹配的拼音,並且根據所述匹配的拼音的來計算各拼音於語言模型230中所獲得的拼音序列概率,再來計算拼音匹配概率與拼音序列概率的乘積為聯合概率,藉以從聯合概率中選出最大者所對應的拼音。[0063]值得一提的是,處理單元110自上述所獲得的拼音序列,還可通過語義識別模組(未繪示)以將拼音序列轉換成對應的文字序列,其中語義識別模組可根據以拼音為基礎的識別資料庫(未繪示),查詢拼音序列對應的文字。具體來說,識別資料庫具有拼音序列與文字序列對應的數據,因此處理單元110通過語義識別模組以及識別資料庫,可進一步將拼音序列轉換成文字序列,再通過輸出單元140顯示給用戶。
[0064]以下再舉一實施例來說明本實施例的語音辨識方法,其中假設來自用戶的語音輸入SI為對應於「南京市長江大橋」這個問句。在此,輸入單元130接收語音信號SI,而處理單元110會根據聲學模型210獲得語音信號SI的多個音標,即「 『η?η』 『 jlng』 『shi 』 『chdng』
『 ji0ng』 『ddi』 『qidio』 」。接著,處理單元110會根據這些音標以及音節聲學詞典220,獲得符合音標的多個拼音以及這些拼音所分別對應的音調信息,而這些拼音以及對應的音調信息分別有部分的拼音匹配概率為「『Ν?η』 『Jlng』 『SM』 『Ch0ng』 『Ji0ng』 W 『Qi0o』」,或者有部分的拼音匹配概率為 「『Ν?η』 『Jlng』 『SM』 『Zhdng』 『Ji0ng』 『D0』 『Qi0o』」。在此,假設「『η?η』 『jlng』 『shi』 『chding』 『ji0ng』 『ddi』 『qidio』」這些音標對應到「『Ν?η』 iJlng』 『SM』 『Chdng』 『Ji0ng』 『Dd>』 『Qi0o』」這些拼音時,分別具有較高的拼音匹配概率。
[0065]之後,處理單元110 會依據 「NdWjIng』VShCChcing』Vj^ng』VDd!,,、「0100」這些拼音以及「啪11」、「11耶」、「5111」、「2肋耶」、「1切耶」、「00」、「0丨(50」這些拼音,分別自語言模型230中獲得多個拼音序列及多個拼音序列概率。此時,假設「Chdng」、「Ji0ng」、「D0」、「Qi0o」可在語言模型230中匹配到「長江大橋」這個關鍵字的拼音序列「Chang-Jiang-Da-Qiao」,因而 「Ν?η-JIng-Sh1-Chang-Jiang-Da-Qiao」 會有較大的拼音序列概率。如此一來,處理單元110即會以「N(5n-JIng-SM-Chding-Ji0ng-Dd1-Qidio」作為輸出的拼音序列。
[0066]綜上所述,在本實施例的語音辨識方法及電子裝置中,電子裝置會基於不同語言、方言或不同發音習慣的語音信號,經由訓練來建立聲學模型、音節聲學詞典以及語言模型。因此,當電子裝置進行語音信號的語音辨識時,可根據聲學模型獲得符合真實發音的多個音標,以及在音節聲學詞典中獲得符合音標的拼音。特別是,由於音節聲學詞典具有各拼音用於不同語義時的音調信息,因此電子裝置能依據音調信息,自語言模型中獲得與拼音相符合的拼音序列及其拼音序列概率。藉此,電子裝置即可選擇出拼音序列概率最大者所對應的拼音序列,以作為語音信號的辨識結果。
[0067]如此一來,本發明可依據來自不同語言、方言或發音習慣的語音輸入,在聲學模型、音節聲學詞典和語言模型中進行解碼。並且,解碼結果不僅可依據音標所對應的拼音輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與拼音匹配的拼音匹配概率,以及各拼音套用在不同拼音序列中的拼音序列概率。最後,本發明會選出上述概率最大的輸出,作為語音信號的辨識結果。相比於傳統方法,本發明可獲得語音輸入的真實發音所對應的拼音序列,因此可保留原始語音輸入的信息,例如保留多音字在不同發音時的信息。此外,本發明還可依據語言、方言或發音習慣的類型,來將語音輸入的真實發音轉換成對應的拼音序列。這對後續的機器語音對話會有幫助,例如對粵語(或其它方言/語言)發音的輸入直接用粵語(或其它方言/語言)回答。另外,本發明還可依據真實發音中的音調信息,區別各拼音的涵義,使得語音信號的辨識結果更符合語音信號對應的意思。如此一來,本發明的語音辨識方法及電子裝置,可準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語言以及語義,使得語音辨識更加精準。
[0068]另一方面,在傳統語音辨識方法中,普遍存在以下問題,S卩,由於在不同地區的方言中的模糊音、使用者發音習慣的不同、或是不同的語言,會導致辨識率的精準度受到影響。為此,本發明提出一種語音辨識方法及其電子裝置,可在原有語音識別的基礎上,改進辨識率的精準度。為了使本發明的內容更為明了,以下特舉實施例作為本發明確實能夠據以實施的範例。
[0069]圖4是依照本發明一實施例的電子裝置的方塊圖。請參照圖4,電子裝置400包括處理單元410、儲存單元420以及輸入單元430,也可包括輸出單元440。
[0070]電子裝置400例如是行動電話(Cell phone)、個人數字助理(Personal DigitalAssistant, PDA)手機、智慧型手機(Smart phone)、掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)、筆記型電腦、個人電腦,車載電腦等具有運算功能的裝置,在此並不限制其範圍。
[0071]處理單元410耦接至儲存單元420及輸入單元430。處理單元410為具備運算能力的硬體(例如晶片組、處理器等),用以執行電子裝置400中的硬體、固件以及處理軟體中的數據。在本實施例中,處理單元410例如是中央處理單元(Central Processing Unit,CPU),或是其它可編程的微處理器(Microprocessor)、數位訊號處理器(Digital SignalProcessor, DSP)、可編程控制器、特殊應用集成電路(Application Specific IntegratedCircuits, ASIC)、可編程邏輯裝置(Programmable Logic Device, PLD)或其它類似裝置。
[0072]儲存單元420可儲存一個或多個用來執行語音辨識方法的程序碼以及數據(例如,使用者所輸入的語音信號、執行語音辨識所需的聲學模型(acoustic model)、音節聲學詞典(acoustic lexicon)、語言模型(language model)及語料庫等)等。在本實施例中,儲存單元420例如為非易失性存儲器(Non-volatile memory, NVM)、動態隨機存取存儲器(Dynamic Random Access Memory, DRAM)或靜態隨機存取存儲器(Static Random AccessMemory, SRAM)等。
[0073]輸入單元430例如為麥克風,用以接收使用者的聲音,而將使用者的聲音轉換為
語音信號。
[0074]在此,本實施例可以以程序碼來實現電子裝置400的語音辨識方法。具體而言,儲存單元420中可儲存有多個程序碼片段,而上述程序碼片段在被安裝後,處理單元410會通過這些程序碼片段來執行多個指令,藉以實現本實施例的聲學模型的建立方法以及語音辨識方法。更進一步地說,處理單元410會通過執行程序碼片段中的多個指令,來建立聲學模型、音節聲學詞典以及語言模型,並通過上述程序碼片段來驅動語音辨識模組,以利用聲學模型、音節聲學詞典以及語言模型來執行本實施例的語音辨識方法。其中,所述語音辨識模組可以是以電腦程式碼來運行,或者在本發明另一實施例中,所述語音辨識模組可由一個或多個邏輯門組合而成的硬體電路來運行。據此,本實施例的處理單元410會將輸入單元430所接收的語音信號通過上述語音辨識模組來進行語音辨識,以利用聲學模型、音節聲學詞典以及語言模型而獲得多個字串概率及多個字串。並且,處理單元410會選出字串概率中最大者所對應的字串,以作為語音信號的辨識結果。
[0075]另外,本實施例還可包括輸出單元440,以輸出語音信號的辨識結果。輸出單元440例如為陰極射線管(Cathode Ray Tube, CRT)顯示器、液晶顯示器(Liquid CrystalDisplay, IXD)、等離子顯示器(Plasma Display)、觸控顯示器(Touch Display)等顯示單元,以顯示所獲得的字串概率中最大者所對應的候選字串。或者,輸出單元440亦可以是揚聲器,以播放所獲得的字串概率中最大者所對應的候選字串。
[0076]需說明的是,本實施例的處理單元410會針對不同的語言、方言或發音習慣,分別建立上述聲學模型、音節聲學詞典與語言模型,並將這些模型與詞典存放於儲存單元420。
[0077]詳細而言,聲學模型例如是一個統計分類器,其可利用混合高斯模型,以將所接收到的語音信號,解析成基本的音素(Phone),並將各音素分類至對應的基本音標。其中,聲學模型可包括用來識別不同語言、方言或發音習慣的語音輸入所對應的基本音標、音間過渡以及一些非語音的音素(例如咳嗽聲等)。音節聲學詞典通常是由被識別語言的單詞組成,一般可採用隱藏式馬可夫模型(Hidden Markov Model,HMM)將聲學模型輸出的音標組成單詞,其中對於單音節語言(例如中文),通常可通過音節聲學詞典以將聲學模型所輸出的音標轉換成對應的詞彙。語言模型(language model)主要是利用概率統計的方法來揭示語言單位內在的統計規律,其中N元語法(N-Gram)簡單有效而被廣泛使用。
[0078]以下舉一實施例來說明。
[0079]圖5是依照本發明一實施例的語音辨識模組的示意圖。請參照圖5,語音辨識模組500主要包括聲學模型510、音節聲學詞典520、語言模型530以及解碼器540。其中,聲學模型510與音節聲學詞典520是由語音資料庫51經訓練而獲得,語言模型530是由語料庫(text corpus) 52經訓練而獲得。在本實施例中,語音資料庫51以及語料庫52具有多個語音信號,而這些語音信號例如是來自不同語言、方言或發音習慣的語音輸入。
[0080]請同時參照圖4與圖5,聲學模型510用以辨識來自不同語言、方言或發音習慣的語音信號,以識別出與語音信號的發音相符合的多個音標。在本實施例中,處理單兀410會基於不同語言、方言或不同發音習慣的語音信號,經由訓練而獲得聲學模型510。詳言之,處理單元410可自語音資料庫51接收多個語音信號,以及接收與語音信號中發音相符合的多個音標,其中對應於各音標的發音具有多個音素。並且,處理單兀410會依據語音信號與音標進行訓練,而獲得聲學模型510中與音標相對應的多個音素的數據。更具體而言,處理單元410可從語音資料庫51中取得不同語言、方言或發音習慣的語音輸入所對應的語音信號,解析出各語音信號的音素以獲得對應於各語音信號的特徵參數。之後,再利用這些特徵參數與已標註對應音標的語音信號進行訓練,而獲得語音信號的特徵參數與音標相符合的關係,進而建立聲學模型510。
[0081]音節聲學詞典520具有多個詞彙,以及各音標與各詞彙匹配的模糊音概率。在此,處理單元410可通過音節聲學詞典520而查詢出與各音標相符的多個詞彙,以及每一個詞彙與其相匹配的音標之間的模糊音概率。在本實施例中,音節聲學詞典520還可以針對不同地區發音習慣以建立不同的模型。具體而言,音節聲學詞典520具有來自於不同語言、方言或不同發音習慣的發音統計數據,其中發音統計數據具有每一個音標與其相符的詞彙的模糊音概率。如此一來,處理單兀410可根據預先設定,從音節聲學詞典520中選擇來自於不同語言、方言或不同發音習慣的發音統計數據,並根據自語音信號所獲得的音標與發音統計數據中的詞彙進行匹配,而獲得各音標與各詞彙匹配的模糊音概率。值得一提的是,處理單元410亦會對語音信號中的每一音標標註對應的編碼。也就是說,對於每一具有發音相異而字形相同的詞彙(即多音字)而言,此詞彙對應於每一種發音具有不同的音標,並且,此詞彙具有至少一編碼,而每一編碼對應於這些相異音標的其中之一。如此一來,本實施例的音節聲學詞典520可包括來自不同發音的語音輸入的音標所對應的詞彙,以及各音標所對應的編碼。
[0082]語言模型530是基於歷史信息的模型(History-based Model)的設計理念,即,根據經驗法則,統計先前已出現的一連串事件與下一個出現的事件之間的關係。在此,語言模型530用以依據不同詞彙的編碼,以辨識出與此編碼相符合的字串以及此編碼與此字串相符合的字串概率。在本實施例中,處理單元410會基於不同語言、方言或不同發音習慣的多個語料,經由訓練而獲得語言模型530,其中所述語料具有多個發音的語音輸入以及此語音輸入對應的字串。在此,處理單元410會自語料庫52獲得字串,並且將字串與字串的詞彙所分別對應的編碼進行訓練,而獲得編碼與各字串匹配的數據。
[0083]解碼器540是語音辨識模組500的核心之一,其任務是對輸入的語音信號,根據聲學模型510、音節聲學詞典520以及語言模型530,尋找能夠以最大概率輸出的字串。舉例來說,利用聲學模型510獲得對應的音素(phone)或音節(syllable),再由音節聲學詞典520來獲得對應的字或詞,之後由語言模型530來判斷一連串的字成為句子的概率。
[0084]以下即搭配上述電子裝置400與語音辨識模組500來說明本發明的語音辨識方法。圖6是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖4、圖5與圖6,本實施例中的語音辨識方法,適於通過電子裝置400來對語音信號進行語音辨識。其中,處理單元410能針對·不同的語言、方言或發音習慣,利用聲學模型510、音節聲學詞典520、語言模型530以及解碼器540自動地辨識出語音信號所對應的語言。
[0085]於步驟S610中,輸入單元430接收語音信號SI,其中語音信號SI例如是來自使用者的語音輸入。更具體而言,語音信號Si例如為單音節語言的語音輸入,而單音節語言例如為中文。
[0086]於步驟S620中,處理單元410會根據聲學模型510獲得語音信號SI的多個音標,其中音標包括多個音素。在此,對於單音節語言來說,語音信號Si中的各音節具有多個音素,而音節會對應於的一個音標。舉例來說,以「前進」這兩單詞而言,它的音節為「前」與「進」,以及具有「〈」、「 I Ψ』、「 Z,,、「『、「 J V,及「 ' 」這些音素。其中,I弓」及「 ^ 」可對應於音標「qi(5n」,而「M 」、「丨h」及「、」可對應於音標「jin」。
[0087]在本實施例中,處理單元410可根據預先設定,從聲學模型510中選擇訓練數據,而此訓練數據來自於不同語言、方言或不同發音習慣的訓練結果。在此,處理單元410可利用聲學模型510,並選擇訓練數據中的語音信號以及這些語音信號所對應的基本音標,來查詢出符合語音信號SI的多個音標。
[0088]詳言之,上述預先設定指的是電子裝置400被設定為依據哪一種發音來進行語音辨識。舉例來說,假設電子裝置400被設定為依據北方人的發音習慣來進行語音辨識,則處理單元410會在聲學模型510中,選擇由北方人的發音習慣所訓練而成的訓練數據。類似地,假設電子裝置400被設定為進行閩南語的語音辨識,則處理單元410會在聲學模型510中選擇由閩南語所訓練而成的訓練數據。上述所列舉的預先設定為舉例說明,於其它實施例中,電子裝置400亦可被設定為依據其它語言、方言或發音習慣來進行語音辨識。
[0089]進一步而言,處理單元410會根據所選擇的聲學模型510以及語音信號SI中的音素,計算語音信號Si中的音素與每一個基本音標相符的音標匹配概率。爾後,處理單元410會從所計算出的這些音標匹配概率中,選擇音標匹配概率中最大者所對應的各基本音標,以作為語音信號SI的音標。更具體來說,處理單元410可將所接收到語音信號SI切割為多個音框,而這些音框中的兩相鄰音框之間可以有一段重疊區域。之後,再從每個音框中取出特徵參數而獲得一特徵向量。例如,可利用梅爾倒頻譜係數(Mel-frequency CepstralCoefficients, MFCC)自音框中取出36個特徵參數,而獲得一個36維的特徵向量。在此,處理單元410可將語音信號SI的特徵參數與聲學模型510所具有的音素的數據進行匹配,以計算出語音信號SI中的各音素與相符的各基本音標之間的音標匹配概率。如此一來,處理單元410可在這些音標匹配概率中選擇最大者所對應的各基本音標,以作為語音信號SI的音標。
[0090]於步驟S630中,處理單元410會根據各音標以及音節聲學詞典520,獲得符合音標的多個詞彙。其中,音節聲學詞典520具有與音標對應的詞彙,而各詞彙具有至少一編碼,且對應於具有相異音標而字型相同的詞彙(即多音字)而言,此詞彙的各編碼分別對應於詞彙的其中的一音標。
[0091 ] 在此,處理單元410亦可根據預先設定,從音節聲學詞典520中選擇來自於不同語言、方言或不同發音習慣的發音統計數據。並且,處理單元410會依據自音節聲學詞典520中所選擇的發音統計數據與語音信號SI的各音標,而獲得音標與各詞彙匹配的模糊音概率。需說明的是,由於多音字可因不同語言、方言或發音習慣而具有不同的音標,因此在音節聲學詞典520中,每一種音標所對應於的詞彙皆會具有模糊音概率,其中模糊音概率會因不同語言、方言或發音習慣而改變。換言之,經由不同語言、方言或發音習慣所建立的發音統計數據,音節聲學詞典520中的各種音標與對應的詞彙會具有不同的模糊音概率。
[0092]舉例來說,當預先設定為選擇音節聲學詞典520中,以北方人的發音習慣所建立的發音統計數據時,則對於音標為而言,其對應的詞彙有較大的模糊音概率為「福」、「符」、「芙」等字,而對應的詞彙則有較低的模糊音概率為「胡」、「湖」、「壺」等字。又例如,當預先設定為選擇音節聲學詞典520中,以大多數人習慣所建立的發音統計數據時,則對於音標為Ι?」而言,其對應的詞彙有較大的模糊音概率為「賀」、「荷」以及「貉」等字。值得一提的是,由於大多數人習慣將「一丘之『貉』」中的『貉(廠亡、)』這個詞彙的發音念成「廠亡 ' 」,因此,在Ι?」對應至「貉」的模糊音概率仍會較高。如此一來,通過選擇模糊音概率中最大者所對應的詞彙,處理單元410可依據特定的語言、方言或發音習慣,獲得語音信號SI中的各音標相匹配的詞彙。
[0093]另一方面,由於具有不同發音的多音字,其依據不同的發音會有不同的涵義,因此在本實施例中,對應於具有相異音標而字型相同的多音字而言,處理單元410可取得每一詞彙的編碼,藉以區別每一詞彙的不同發音。以多音字「長」這個詞彙為例,其漢語發音的音標可例如為「ch0ng」、「zhang」,而對於不同方言或發音習慣來說,「長」的音標亦可例如是「cgng」、「zgng」(粵音)。因此,對於上述「長」的音標,則音節聲學詞典會將這些音標對應至四種編碼,例如「C502」、「c504」、「c506」以及「c508」。此處所指的編碼僅為舉例說明,其編碼亦可以其它形式(如數值、字母或符號其中之一或其組合)來呈現。換言之,本實施例的音節聲學詞典520可將多音字視為不同的詞彙,藉以使得多音字在語言模型530中可對應到具有不同涵義的字串。如此一來,當處理單元410利用音節聲學詞典520以獲得具有不同音標的多音字時,由於此多音字所具有的不同音標會對應到不同的編碼,因此處理單元410可區別出此多音字的不同發音,藉以保留此多音字於不同發音時的歧異性。
[0094]於步驟S640中,處理單元410會依據各詞彙的編碼,自語言模型530中獲得多個字串及多個字串概率。詳細而言,語言模型530用以依據不同詞彙的編碼,以辨識出與此編碼相符合的字串以及此編碼與此字串相符合的字串概率。因此,處理單元410可依據自音節聲學詞典520所獲得的詞彙的編碼,通過語言模型530來計算此編碼符合各字串的字串概率。其中,倘若處理單元410計算出的字串概率較低,則表示此編碼所對應的音標用於這個字串的機率甚低。反之,倘若處理單元410計算出的字串概率較高,則表示此編碼所對應的音標有很大的機率是對應於這個字串。
[0095]同樣以多音字「長」這個詞彙為例,其音標(例如「 chdng 」、「 zhdng 」、「 cgng 」及「zgng」等)所對應的編碼可例如為「c502」、「c504」、「c506」以及「c508」等。在此,假設南京的市長的名字為江大橋,若音標為「zhdng」所對應的編碼「c504」於「…南京市『長(生尤V )』江大橋…」這個字串中的字串概率很高,則處理單元410會判斷音標為「zhdng」的「長」這個詞彙,在「南京市『長』江大橋」中出現的概率很大,且「長」前面所接的詞彙為「市」的概率亦高。並且,此時處理單元410會判斷出音標「zhdng」所對應的編碼「c504」於「南京是『長(才尤,)』江大橋的…」這個字串中的字串概率較低。
[0096]從另一觀點看,若音標為「chdng」所對應的編碼「c502」於「南京是『長(4尤')』江大橋的…」這個字串中的字串概率較高時,則處理單元410會判斷音標為「chdng」的「長」這個詞彙,在「南京是『長』江大橋的…」中出現的概率很大,且「長」前面所接的詞彙為「是」的概率亦高。此時,處理單元410便會判斷音標「chdng」所對應的編碼「c502」於「南京市『長(生尤V )』江大橋」這個字串中的字串概率會較低。
[0097]再舉一例,對於「長」這個詞彙而言,其音標可為「chdng」或「zhdng」等。雖然一般來說,當「長」這個詞彙前面接「市」這個詞彙時,「長」通常是以音標「zhdng」來發音,但也有可能是以音標「chdng」來發音。例如,「南京市長江大橋」可以指的是「『南京市『長(才尤z )江大橋』」,亦可指的是「『南京『市長(生尤V)』- 『江大橋』」。因此,處理單元410會依據音標「chdng」所對應的編碼「c502」,以及音標「zhtog」所對應的編碼「c504」,根據語言模型530來計算編碼「 c502 」與「 c504」在「南京市長江大橋」這個字串中的字串概率。
[0098]舉例來說,倘若對應於音標「chdng」的編碼「c502」在「南京市長江大橋」這個字串中的字串概率較高,則表示音標為「chdng」的「長」這個詞彙在「『南京市』-『長(才尤^ )江大橋』」的概率亦較高。或者,倘若對應於音標「zhtog」的編碼「c504」在「南京市長江大橋」這個字串中的字串概率較高,則表示音標為「zhtog」的「長」這個詞彙在「『南京』-『市長(生尤V)』 - 『江大橋』」的概率亦會較高。[0099]接後,於步驟S650中,處理單元410會選擇字串概率中最大者所對應的字串,以作為語音信號SI的辨識結果S2。舉例來說,處理單元410例如計算每一來自音節聲學詞典520的模糊音概率與來自語言模型530的字串概率的乘積為聯合概率,以選擇模糊音概率與字串概率的聯合概率中最大者所對應的字串,來作為語音信號SI的辨識結果S2。也就是說,處理單元410不限於從音節聲學詞典520中選擇與音標最相符的詞彙,而是處理單元410可依據從音節聲學詞典520所獲得的與音標相符合的多個詞彙以及其編碼,並在語言模型530中選擇字串概率最大者來作為辨識結果S2。當然,本實施例之處理單元410亦可分別在音節聲學詞典520中選擇模糊音概率中最大者所對應的詞彙,以作為語音信號的各音標所匹配的詞彙,並且根據所述匹配的詞彙的編碼來計算各編碼於語言模型530中所獲得的字串概率,來計算模糊音概率與字串概率的乘積為聯合概率,藉以從聯合概率中選出最大者所對應的字串。[0100]具體而言,同樣以多音字「長」這個詞彙以及「南京市長江大橋」這個詞彙為例,其中「長」的音標例如為「Ch0ng」、「zhang」、「cgng」及「zgng」等,且其音標所分別對應的編碼例如為「c502」、「c504」、「c506」以及「c508」等。在此,當音標「chdng」經音節聲學詞典520所獲得的詞彙為「長」的模糊音概率較高時,處理單元410會依據「長」以及音標「chdng」所對應的編碼「c502」,在語言模型530中選擇字串概率最高者所對應的字串為辨識結果。舉例來說,倘若「長」的編碼「c502」在「南京是『長(才尤江大橋的…」中出現的字串概率為最大時,則處理單元410可獲得「南京是『長』江大橋的…」這個字串為辨識結果。然而,倘若「長」的編碼「c502」在「『南京市』-『長(才尤z)江大橋』」中出現的字串概率為最大時,則處理單元410可獲得「『南京市』-『長(4尤z)江大橋』」這個字串為辨識結果。或者,當音標「zhtog」經音節聲學詞典520所獲得的詞彙為「長」的模糊音概率較高時,處理單元410會依據「長」以及音標「zhtog」所對應的編碼「c504」,在語言模型530中選擇字串概率最高者所對應的字串為辨識結果。舉例來說,倘若「長」的編碼「c504」在是「『南京『市長『江大橋』」中出現的字串概率為最大時,則處理單元410可獲得是「『南京『市長『江大橋』」個字串為辨識結果。如此一來,電子裝置400不僅可依序到音標和音標所對應的詞彙輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙匹配的模糊音概率。並且根據此詞彙的編碼,電子裝置400可獲得此詞彙套用在不同字串中的字串概率,藉以更能準確地辨識出與語音信號SI相符的字串,而提高語音辨識的準確率。
[0101]綜上所述,在本實施例的聲學模型的建立方法、語音辨識方法及電子裝置中,電子裝置會基於不同語言、方言或不同發音習慣的語音信號建立聲學模型、音節聲學詞典以及語言模型。並且,對於具有一個發音以上的多音字,電子裝置會依據多音字的各音標,分別賦予不同的編碼,藉以在語言模型中保留多音字的歧異性。因此,當電子裝置進行語音信號的語音辨識時,可根據聲學模型中所獲得的多個音標,在音節聲學詞典中獲得符合真實發音的詞彙。特別是,由於在音節聲學詞典中,具有一個或多個音標的詞彙具有對應於各音標的各編碼,因此電子裝置能依據每一個編碼,自語言模型中獲得相符合的字串及其字串概率。藉此,電子裝置即可選擇出字串概率最大者所對應的字串,以作為語音信號的辨識結果O
[0102]如此一來,本發明可依據來自不同語言、方言或發音習慣的語音輸入,在聲學模型、音節聲學詞典和語言模型中進行解碼,且解碼結果不僅可依序到音標和音標所對應的詞彙輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙匹配的模糊音概率,以及此詞彙套用在不同字串中的字串概率,據以選出概率最大的輸出,作為語音信號的辨識結果。相比於傳統方法,本發明不僅可以準確地進行聲音至文字的轉換,同時還可知道語言、方言或發音習慣的類型。這對後續的機器語音對話會有幫助,例如對粵語發音的輸入直接用粵語回答。另外,本發明還可將區別多音字的各發音的涵義,使得語音信號的辨識結果更可符合語音信號對應的意思。
[0103]以上所述僅為本發明較佳實施例,然其並非用以限定本發明的範圍,任何熟悉本項技術的人員,在不脫離本發明的精神和範圍內,可在此基礎上做進一步的改進和變化,因此本發明的保護範圍當以本申請的權利要求書所界定的範圍為準。
【權利要求】
1.一種聲學模型的建立方法,用於一電子裝置,其特徵在於,該聲學模型的建立方法包括: 接收多個語音信號; 接收與所述語音信號中發音相符合的多個音標;以及 依據所述語音信號與所述音標進行訓練,而獲得該聲學模型中與所述音標相對應的多個音素的數據。
2.根據權利要求1所述的聲學模型的建立方法,其特徵在於,所述語音信號來自多個方言或多個發音習慣的語音輸入。
3.一種語音辨識方法,用於一電子裝置,其特徵在於,該語音辨識方法包括: 根據一聲學模型獲得一語音信號的多個音標,所述音標包括多個音素; 依據各該音標以及一音節聲學詞典,獲得符合該音標的多個詞彙,並獲得該音標與各該詞彙相匹配的一模糊音概率;以及 選擇所述模糊音概率中最大者所對應的該詞彙,以作為該語音信號所匹配的詞彙。
4.根據權利要求 3所述的語音辨識方法,其特徵在於,還包括: 基於不同語言、方言或不同發音習慣的所述語音信號,經由訓練而獲得該聲學模型。
5.根據權利要求4所述的語音辨識方法,其特徵在於,基於不同語言、方言或不同發音習慣的所述語音信號,經由訓練而獲得該聲學模型的步驟包括: 接收與所述語音信號中發音相符合的所述音標;以及 依據所述語音信號與所述音標進行訓練,而獲得該聲學模型中與所述音標相對應的所述音素的數據。
6.根據權利要求3所述的語音辨識方法,其特徵在於,根據該聲學模型獲得該語音信號的所述音標的步驟包括: 根據一預先設定,從該聲學模型中選擇一訓練數據,其中該訓練數據來自於不同語言、方言或不同發音習慣的訓練結果; 根據所選擇的該訓練數據以及該語音信號的各該音素,計算所述音素符合各該音標的一音標匹配概率;以及 選擇所述音標匹配概率中最大者所對應的各該音標,以作為該語音信號的所述音標。
7.根據權利要求3所述的語音辨識方法,其特徵在於,依據各該音標以及該音節聲學詞典獲得該音標與各該詞彙相匹配的該模糊音概率的步驟包括: 根據一預先設定,從該音節聲學詞典中選擇一發音統計數據,其中該發音統計數據來自於不同語言、方言或不同發音習慣;以及 自所述語音信號獲得所述音標,並根據所述音標與該發音統計數據進行匹配,而獲得各該音標與各該詞彙相匹配的該模糊音概率。
8.一種語音辨識方法,用於一電子裝置,其特徵在於,該語音辨識方法包括: 根據一聲學模型獲得一語音信號的多個音標,所述音標包括多個音素; 根據各該音標以及一音節聲學詞典,獲得符合該音標的多個詞彙,其中該音節聲學詞典具有所述音標對應的所述詞彙,且具有至少一該音標的該詞彙具有對應於各該音標的各該編碼; 依據各該詞彙的該編碼,自一語言模型中獲得多個字串及多個字串概率;以及選擇所述字串概率中最大者所對應的該字串,以作為該語音信號的辨識結果。
9.根據權利要求8所述的語音辨識方法,其特徵在於,還包括: 基於不同語言、方言或不同發音習慣的所述語音信號,經由訓練而獲得該聲學模型。
10.根據權利要求9所述的語音辨識方法,其特徵在於,基於不同語言、方言或不同發音習慣的所述語音信號,經由訓練而獲得該聲學模型的步驟包括: 接收與所述語音信號中發音相符合的所述音標;以及 依據所述語音信號與所述音標進行訓練,而獲得該聲學模型中與所述音標相對應的所述音素的數據。
11.根據權利要求8所述的語音辨識方法,其特徵在於,根據該聲學模型獲得該語音信號的所述音標的步驟包括: 根據一預先設定,從該聲學模型中選擇一訓練數據,其中該訓練數據來自於不同語言、方言或不同發音習慣的訓練結果; 根據所選擇的該訓練數據以及該語音信號的各該音素,計算所述音素符合各該音素的一音標匹配概率;以及 選擇所述音標匹配概率中最大者所對應的各該音標,以作為該語音信號的所述音標。
12.根據權利要求8所述的語音辨識方法,其特徵在於,根據各該音標以及該音節聲學詞典獲得符合該音標的所述詞彙的步驟包括: 根據一預先設定,從該音節聲學詞典中選擇一發音統計數據,其中該發音統計數據來自於不同語言、方言或不同發音習慣;以及 自所述語音信號獲得所述音標,並根據所述音標與該發音統計數據進行匹配,而獲得各該音標與各該詞彙相匹配的一模糊音概率。
13.根據權利要求12所述的語音辨識方法,其特徵在於,還包括: 選擇所述模糊音概率與所述字串概率的聯合概率中最大者所對應的該字串,以作為該語音信號的辨識結果。
14.根據權利要求8所述的語音辨識方法,其特徵在於,還包括: 基於不同語言、方言或不同發音習慣的多個語料數據,經由訓練而獲得該語言模型。
15.根據權利要求14所述的語音辨識方法,其特徵在於,基於不同語言、方言或不同發音習慣的所述語料數據,經由訓練而獲得該語言模型的步驟包括: 自所述語料數據獲得所述字串;以及 根據所述字串與所述字串的所述詞彙所分別對應的該編碼進行訓練,而獲得該編碼與各該字串相匹配的所述字串概率。
16.根據權利要求14所述的語音辨識方法,其特徵在於,依據各該詞彙的該編碼自該語言模型中獲得所述字串及所述字串概率的步驟包括: 根據一預先設定,從該語料數據中選擇一訓練數據,其中該訓練數據來自於不同語言、方言或不同發音習慣的訓練結果。
17.一種電子裝置,其特徵在於,包括: 一輸入單元,接收多個語音信號; 一儲存單元,儲存多個程序碼片段;以及 一處理單元,耦接至該輸入單元以及該儲存單元,該處理單元通過所述程序碼片段來執行多個指令,所述指令包括: 接收與所述語音信號中發音相符合的多個音標;以及 依據所述語音信號與所述音標進行訓練,而獲得該聲學模型中與所述音標相對應的多個音素的數據。
18.根據權利要求17所述的電子裝置,其特徵在於,所述語音信號來自多個方言或多個發音習慣的語音輸入。
19.一種電子裝置,其特徵在於,包括: 一輸入單元,接收一語音信號; 一儲存單元,儲存多個程序碼片段;以及 一處理單元,耦接至該輸入單元以及該儲存單元,該處理單元通過所述程序碼片段來執行多個指令,所述指令包括: 根據一聲學模型獲得該語音信號的多個音標,所述音標包括多個音素; 依據各該音標以及一音節聲學詞典,獲得符合該音標的多個詞彙,並獲得該音標與各該詞彙相匹配的一模糊音概率;以及 選擇所述模糊音概率中最大者所對應的該詞彙,以作為該語音信號所匹配的詞彙。
20.根據權利要求19所述的電子裝置,其特徵在於,所述指令還包括: 基於不同語言、方言或不同發音習慣的所述語音信號,經由訓練而獲得該聲學模型。·
21.根據權利要求20所述的電子裝置,其特徵在於,在基於不同語言、方言或不同發音習慣的所述語音信號,經由訓練而獲得該聲學模型的步驟中,所述指令包括: 接收與所述語音信號中發音相符合的所述音標;以及 依據所述語音信號與所述音標進行訓練,而獲得該聲學模型中與所述音標相對應的所述音素的數據。
22.根據權利要求19所述的電子裝置,其特徵在於,在根據該聲學模型獲得該語音信號的所述音標的步驟中,所述指令包括: 根據一預先設定,從該聲學模型中選擇一訓練數據,其中該訓練數據來自於不同語言、方言或不同發音習慣的訓練結果; 根據所選擇的該訓練數據以及該語音信號的各該音素,計算所述音素符合各該音標的一音標匹配概率;以及 選擇所述音標匹配概率中最大者所對應的各該音標,以作為該語音信號的所述音標。
23.根據權利要求19所述的電子裝置,其特徵在於,在依據各該音標以及該音節聲學詞典獲得該音標與各該詞彙相匹配的該模糊音概率的步驟中,所述指令包括: 根據一預先設定,從該音節聲學詞典中一發音統計數據,其中該發音統計數據來自於不同語言、方言或不同發音習慣;以及 自所述語音信號獲得所述音標,並根據所述音標與該發音統計數據進行匹配,而獲得各該音標與各該詞彙相匹配的該模糊音概率。
24.一種電子裝置,其特徵在於,包括: 一輸入單元,接收一語音信號; 一儲存單元,儲存多個程序碼片段;以及 一處理單元,耦接至該輸入單元以及該儲存單元,該處理單元通過所述程序碼片段來執行多個指令,所述指令包括: 根據一聲學模型獲得該語音信號的多個音標,所述音標包括多個音素; 根據各該音標以及一音節聲學詞典,獲得符合該音標的多個詞彙,其中該音節聲學詞典具有所述音標對應的所述詞彙,且具有至少一該音標的該詞彙具有對應於各該音標的各該編碼; 依據各該詞彙的該編碼,自一語言模型中獲得多個字串及多個字串概率;以及 選擇所述字串概率中最大者所對應的該字串,以作為該語音信號的辨識結果。
25.根據權利要求24所述的電子裝置,其特徵在於,所述指令還包括: 基於不同語言、方言或不同發音習慣的所述語音信號,經由訓練而獲得該聲學模型。
26.根據權利要求25所述的電子裝置,其特徵在於,在基於不同語言、方言或不同發音習慣的所述語音信號,經由訓練而獲得該聲學模型的步驟中,所述指令包括: 接收與所述語音信號中發音相符合的所述音標;以及 依據所述語音信號與所述音標進行訓練,而獲得該聲學模型中與所述音標相對應的所述音素的數據。
27.根據權利要求24所述的電子裝置,其特徵在於,在根據該聲學模型獲得該語音信號的所述音標的步驟中,所述指令包括: 根據一預先設定,從該聲學模型中選擇一訓練數據,其中該訓練數據來自於不同語言、方言或不同發音習慣的訓練結果; 根據所選擇的該訓練數據以及該語音信號的各該音素,計算所述音素符合各該音素的一音標匹配概率;以及 選擇所述音標匹配概率中最大者所對應的各該音標,以作為該語音信號的所述音標。
28.根據權利要求24所述的電子裝置,其特徵在於,在依據各該音標以及該音節聲學詞典獲得符合該音標的所述詞彙的步驟中,所述指令包括: 根據一預先設定,從該音節聲學詞典中選擇一發音統計數據,其中該發音統計數據來自於不同語言、方言或不同發音習慣;以及 自所述語音信號獲得所述音標,並根據所述音標與該發音統計數據進行匹配,而獲得各該音標與各該詞彙相匹配的一模糊音概率。
29.根據權利要求28所述的電子裝置,其特徵在於,所述指令還包括: 選擇所述模糊音概率與所述字串概率的聯合概率中最大者所對應的該字串,以作為該語音信號的辨識結果。
30.根據權利要求24所述的電子裝置,其特徵在於,所述指令還包括: 基於不同語言、方言或不同發音習慣的多個語料數據,經由訓練而獲得該語言模型。
31.根據權利要求 30所述的電子裝置,其特徵在於,在基於不同語言、方言或不同發音習慣的所述語料數據,經由訓練而獲得該語言模型的步驟,所述指令包括: 自所述語料數據獲得所述字串;以及 根據所述字串與所述字串的所述詞彙所分別對應的該編碼進行訓練,而獲得該編碼與各該字串相匹配的所述字串概率。
32.根據權利要求30所述的電子裝置,其特徵在於,在依據各該詞彙的該編碼自該語言模型中獲得所述字串及所述字串概率的步驟中,所述指令包括:根據一預先設定,從該語料數據中選擇一訓練數據,其中該訓練數據來自於不同語言、方言或不同發音習慣的訓練結果。
【文檔編號】G10L15/06GK103578467SQ201310489133
【公開日】2014年2月12日 申請日期:2013年10月18日 優先權日:2013年10月18日
【發明者】張國峰, 朱逸斐 申請人:威盛電子股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀