基於語音識別專用晶片的特定人語音識別、語音回放方法

2023-06-12 07:06:56 1

專利名稱：基於語音識別專用晶片的特定人語音識別、語音回放方法
技術領域：
本發明屬於語音技術領域，尤其涉及採用8位或16位單片MCU微控制器實現小詞表特定人語音識別方法。
特定人語音識別專用晶片，近年來在國外發展很快。國外一些語音技術和半導體公司都投入大量人力和物力開發語音識別專用晶片，並對自己的語音識別方法進行專利保護。這些專用晶片的語音識別性能也各不相同。通常語音識別的過程如

圖1所示，輸入的語音信號首先經過A/D進行採樣，頻譜整形加窗預加重處理，提高高頻成分，進行實時特徵參數提取，提取的參數為線性預測倒譜係數(LPCC)或Mel頻標倒譜係數(MFCC)，然後進行端點檢測，提取有效語音參數，並進行語音識別模板訓練或語音識別模板匹配，並將最好的識別結果輸出回放。其專用晶片的硬體系統一般如圖2所示，包括執行語音識別和語音合成、回放方法的8位或16位單片MCU微控制器及與其相連的自動增益控制(AGC)、音頻前置放大器、低通濾波器、數/模(A/D)、模/數(D/A)、音頻功率放大器、語音合成器、隨機存儲器(RAM)、只讀存儲器(ROM)、脈寬調製(PWM)。目前美國Sensory公司生產的語音識別專用晶片RSC-164系列產品是目前國際上可以買到識別性能最好專用晶片之一。這些語音識別專用晶片已經用於不同的手機和無繩電話中。隨著語音識別技術提高，語音識別專用晶片將被廣泛地應用於各種家用電器和控制系統中，形成信息家電產業，這是一個迅速發展而且潛力很大的新興高科技產業。目前Philips公司和韓國三星公司推出的具有特定人語音識別聲控撥號功能的手機。識別人名的個數為10～20個。其識別性能並不理想。
本發明的目的是為克服已有技術的不足之處，提出一種基於語音識別專用晶片的特定人語音識別、語音回放方法，可在廉價8位單片或16位MCU微控制器實現高精度特定人語音識別，具有方法複雜度低，識別精度高和穩健性好的特點。特別是對漢語數碼語音與易混語音的識別性能達到、甚至超過當前的國際先進水平。
本發明提出的基於語音識別專用晶片的特定人語音識別、語音回放方法，包括A/D採樣，頻譜整形加窗預加重處理，特徵參數提取，端點檢測，語音識別模板訓練及語音回放或語音識別模板匹配，將最好的識別結果輸出回放，其特徵在於，具體包括以下步驟A、語音識別參數提取(1)語音信號輸入後採用A/D進行採樣，成為原始的數字語音，利用電平增益控制，以確保採樣的高精度；(2)對所說的原始數字語音信號進行頻譜整形及分幀加窗處理，以保證分幀語音的準平穩性；(3)對分幀語音的特徵進行語音特徵提取，主要特徵為根據語音的線性預測模型(LPC)計算語音特徵的倒譜係數(LPCC)，並存儲用於後面的動態分段和模板提取步驟中；
(4)使用語音信號的過零率與短時能量特徵進行端點檢測，去除無聲區的語音幀，以保證各幀語音特徵的有效性；B、特定人語音命令的訓練(1)對提取的語音特徵進行動態分段和加權平均，構成模板參數，加權後的參數作為新識別模板；(2)對該新模板進行鑑別特性分析處理，確保新模板和以前訓練構成的模板之間具有很好的可區分性；(3)對處理後，區分性不好的語音，則提示要求說話人重新輸入新的語音信號；C、特定人語音命令的識別(1)特定人語音識別過程頭四步與所說的「語音識別參數提取」過程相同；(2)將該語音特徵同已存儲的識別模板進行比較，採用動態匹配，提取其中最匹配的語音命令作為結果輸出；(3)在識別過程中，當識別模板匹配誤差大於一定門限或可信度很低時，則認為識別結果不可靠，通過提示，要求重新輸入語音。
G.語音回放語音回放方法採用語音合成技術，將所說的語音識別參數與語音合成模型參數進行共享，將語音識別參數同時也作為語音合成模型參數，以儘可能減小系統的開銷。
所說的語音特徵提取中的電平增益控制可包括對輸入語音信號採樣精度進行判斷，如果輸入語音信號採樣精度不夠高，通過自適應電平控制，調整語音的放大量，提高語音採樣精度；所說的端點檢測方法為根據設定的端點門限，搜索靜音段，確定語音的起、始端點。
所說的語音命令的訓練中的動態分段和加權平均方法，具體可包括以下步驟(1)首先根據語音特徵參數計算語音不同幀間參數的變化，當變化超過某一設定閾值，確定該幀為語音特徵中重要分界點；(2)對不同語音信號其分界點的個數可以不同；對不同分界點之間的語音特徵進行加權平均，提高重要語音特徵在識別模型中的比重。
所說的鑑別特性分析方法具體可包括比較新模板同舊模板之間的動態匹配距離門限，當門限大於某一確定的統計值時，新模板作為識別模板存儲下來，否則認為該模板無效，要求重新輸入語音信號。
所說的語音回放中的識別參數與語音編碼聲道模型參數共享的方法，具體可包括以下步驟(1)語音識別模型參數與語音編碼聲道參數採用相同的參數，因此在語音編碼過程中並不需要增加聲道模型參數的存儲量。
(2)聲道模型的激勵參數採用改進的LPC聲碼器方法，激勵參數為基音周期、清/濁/過渡音判定信息。
本發明具有如下特點(1)本發明為基於語音識別專用晶片的中小詞彙量特定人、非特定人語音識別方法。這些方法具有複雜性低、識別精度高、穩健性好等特點。特別適合用於運算能力極為有限8位微控制器。
(2)採用識別參數與編碼參數共享的辦法，從而大大減少了對系統資源的要求，同時保證有很高的編碼質量。
(3)與已有技術相比對容易混淆詞彙本晶片具有更好的識別性能。
(4)由於採用8位或16位MCU核心，10位線性A/D、D/A，因此該晶片具有體積小、重量輕、耗電省、成本低等突出特點。在通信、工業控制、智能型家用電器、智能玩具、汽車電子等領域有著極大的應用價值。
(5)本發明對8位MCU識別命令為30條，對16位DSP晶片識別的命令為60條。對8位晶片的語音識別率為95％，對16位DSP晶片的語音識別率為99％。
附圖簡要說明圖1為通常語音識別的過程示意框圖。
圖2為一般語音專用晶片的硬體系統組成示意圖。
圖3為本發明實施例的方法總體構成示意圖。
圖4本實施例的端點檢測方法框圖如所示。
圖5為本實施例的語音訓練過程整體流程框圖。
圖6為本實施例的語音識別過程整體流程框圖。
本發明提出的基於語音識別專用晶片的特定人語音識別、語音回放方法的實施例結合各圖詳細說明如下本實施例的總體構成如圖3所示，整個過程可以分為(1)A/D採樣及採樣後語音的與加重，提高高頻信號的能量，加窗分幀處理；(2)語音特徵參數的提取(包括端點檢測參數、識別模型參數)(3)端點檢測，確定有效的語音參數；(4)對有效的語音特徵參數進行動態分段(5)對特定人語音進行模板的訓練、以及回放語音合成參數的提取；(6)語音識別通過模式匹配方法進行模板比較；並將語音識別結果通過語音回放技術輸出。每個步驟的細節說明如下。
1、語音識別參數特徵提取(1)語音信號首先進行低通濾波器，然後通過10-位線性A/D進行採樣，成為原始的數字語音，採用10位A/D的目的是為了降低晶片的成本。由於A/D的精度低，因此從方法上要對增益控制放大器進行控制、以及對輸入信號的能量和過載情況進行判斷，以便確保充分利用好10位A/D的動態範圍，得到儘可能高的採樣精度。
(2)對原始數字語音信號進行頻譜整形及分幀加窗處理，保證分幀語音的準平穩性。預加重濾波器取為1-0.95z-1，過零率計算中，抬起電平取為4。
(3)對分幀語音的特徵進行語音特徵提取，語音特徵包括LPCC倒譜係數、能量、過零率等，並存儲用於後面動態分段。其中很重要的一步相關函數值的計算需要實時完成，由於基於8位的單片機僅有8位的無符號乘法，因此計算相關函數值的過程如下a(n)＝s(n)+128R(i)=ns(n)s(n+i)=n(a(n)-128)(a(n+i)-128)]]>=na(n)a(n+i)-128n(a(n)+a(n+i))+n128128]]>上式中，s(n)為有8位有符號數，轉換成為無符號數a(n)。顯然乘積用三個字節保存不可能發生溢出(幀長不大於256)。
2、端點檢測(1)保證各幀語音特徵的有效性，消除無關的噪聲，必須進行語音的端點檢測和判斷。本發明的端點檢測方法分為兩步，首先根據語音信號能量對端點進行初步判決，當能量大於某一確定值後，確定為初步的起始點，然後從該起點繼續向後尋找語音信號能量更大的濁音幀，進行濁音段定位。如果濁音幀存在說明該端點判斷基本正確，從濁音幀開始向前、向後搜索靜音幀作為語音的起始幀。將搜索的結果輸出。端點檢測框圖如圖4所示。基本方法描述如下ZERO_RATE_TH是過零率的一個閾值，ACTIVE_LEVEL、INACTIVE_LEVEL和ON_LEVEL是能量的閾值。
(2)系統的初始值定為無聲狀態。在無聲狀態下，當過零率超過閾值ZERO_RATE_TH或能量超過閾值ACTIVE_LEVEL時，轉入激活狀態，若能量超過閾值ON_LEVEL，則直接轉入有聲狀態。記此幀為語音的前端點。
(3)在激活狀態下，若能量超過閾值ON_LEVEL，則轉入有聲狀態；若連續若干幀(由常數CONST_DURATION設定)能量都超不過閾值ON_LEVEL，轉入無聲態。
(4)在有聲狀態，若能量低於閾值INACTIVE_LEVEL，則轉入非激活狀態。標記此幀為語音的後端點。
(5)在非激活狀態，若連續若干幀(由常數CONST_DURATION設定)能量都超不過閾值INACTIVE_LEVEL，則語音結束；否則轉入有聲狀態。
參數的實際取值如下ZERO_RATE_TH取為0.4，ACTIVE_LEVEL更據背景噪音設置，INACTIVE_LEVEL取為ACTIVE_LEVEL的4倍，ON_LEVEL取為ACTIVE_LEVEL的8倍，CONST_DURATION設為20幀。
3、語音特徵動態分段、加權平均(1)對輸入語音特徵進行動態分段和加權平均，提高清輔音特徵參數在識別中的比重，提取語音特徵中最重要的模板參數。語音特徵分段是該系統語音識別方法的核心之一。
(1)動態分段採用計算不同幀間的語音特徵參數的歸一化歐氏距離。當變化超過一定的門限，認定該點為語音特徵重要分界點。對不同段內語音特徵進行加權平均，並把它們作為新的語音特徵參數保存下來，並清除早先的語音特徵。通過平均使模型參數大大地減小，不僅節省存儲空間，而且減少了運算的複雜度和提高了系統運算速度。
4、特定人語音識別模板的訓練(1)在進行特定人語音識別之前，首先要對系統識別模板進行訓練。在前面五步語音特徵參數提取的基礎上，訓練學習過程要進行兩次，這樣可以提高識別模型參數的穩健性。將第二次訓練中提取的特徵參數與第一次訓練中建立的模板進行動態規劃，找出相應的分段信息，然後進行加權平均，作為最終候選的識別模型參數，最後進行系統的鑑別特性分析處理，確保新模板和以前訓練的識別模板之間具有很好的可區分性，模板之間似然比值應該大於1.6。這樣不會對系統識別性能造成損傷。對不同的模板進行必要的調整，增加不同模板的可分性。
(2)對調整後模板之間的可區分特性仍然不滿足要求的語音特徵，則根據情況，通過語音提示要求說話人重說該同樣語音，增加訓練次數，或建議使用者輸入新的不同語音。通過這兩步的訓練處理，可以使系統具有良好的鑑別特性，保持很高的識別率。
5、特定人語音識別(1)識別過程特徵提取與前面特徵提取方法相同。
(2)將語音特徵同已存儲的模板進行比較，其計算過程採用語音識別非線性的動態規劃模式匹配方法，尋找和某各特定模板最接近語音命令作為語音識別結果的輸出，為提高系統識別可靠性在最終輸出結果時，還要進行可信度和拒識模型的計算。
(3)可信測度和拒識的計算將第一選識別概率與前三選識別結果的平均概率構成的似然比，以及第一選識別概率與第二選概率構成的似然比組合成為綜合可信測度，如果該似然比值小於3.0，則認為可信測度低，識別結果為不確定語音或噪聲，並對其進行拒識，提示重新輸入語音；對於可信測度高的，則輸出識別結果。通過拒識處理可以消除環境噪聲對識別系統的幹擾。
6、語音回放處理(1)語音回放處理通常採用語音編解碼方法。語音識別模型參數與語音編碼聲道參數採用相同的參數，因此在語音編碼過程中並不需要增加對語音編碼模型參數的存儲量。語音編解碼模型為改進的LPC聲碼器。
(3)聲道模型的激勵參數採用改進的LPC聲碼器方法，激勵參數為基音周期、清/濁/過渡音判定信息。為了提高語音編碼質量，在解碼過程中應該將前後幀語音聲道參數，激勵參數進行線性插值，提高不同幀間語音之間的平滑過渡。
本實施例的語音訓練過程整體流程如圖5所示，首先識別系統提示輸入第一次語音，接著進行端點檢測與特徵提取，並進行動態分段，構成初始的識別模板，系統提示第二次輸入語音，接著進行端點檢測與特徵提取，利用動態規劃方法，與初始識別模板進行動態匹配，找出分段信息，然後進行算術平均，構成新的識別模板。判定新識別模板與以前訓練的模板之間的可鑑別性，對鑑別性好對作為模板存儲下來。對鑑別性不好的要求重新輸入語音。
本實施例的語音識別過程整體流程如圖6所示，首先輸入語音，接著進行端點檢測與特徵提取，將該語音特徵與系統中存儲的每一個模板進行動態規劃，模式匹配，並將匹配最好頭三個識別結果作為輸出，並且進行可信測度計算，如果可信測度大於確定門限，取可信測度最高的模板作為識別結果輸出。如果可信測度小於確定門限，系統進行拒識。
本實施例基於上述音識別專用晶片的中小詞彙量特定人、非特定人語音識別方法開發了一種語音識別專用晶片包括音頻預放大器、自動增益控制(AGC)、數/模(A/D)轉換器、模/數(D/A)轉換器、MCU核(8051)、脈寬調製器(PWM)、隨機存儲器(RAM)、只讀存儲器(ROM)、閃爍存儲器(FLASH)。ROM中存儲有語音合成方法、語音編碼方法、語音識別訓練方法和語音識別方法。語音識別的模板和回放語音存於FLASH中。
權利要求
1.一種基於語音識別專用晶片的特定人語音識別、語音回放方法，包括A/D採樣，頻譜整形加窗預加重處理，特徵參數提取，端點檢測，語音識別模板訓練及語音回放或語音識別模板匹配，將最好的識別結果輸出回放，其特徵在於，具體包括以下步驟A、語音識別參數提取(1)語音信號輸入後採用A/D進行採樣，成為原始的數字語音，利用電平增益控制，以確保採樣的高精度；(2)對所說的原始數字語音信號進行頻譜整形及分幀加窗處理，以保證分幀語音的準平穩性；(3)對分幀語音的特徵進行語音特徵提取，主要特徵為根據語音的線性預測模型(LPC)計算語音特徵的倒譜係數(LPCC)，並存儲用於後面的動態分段和模板提取步驟中；(4)使用語音信號的過零率與短時能量特徵進行端點檢測，去除無聲區的語音幀，以保證各幀語音特徵的有效性；B、特定人語音命令的訓練(1)對提取的語音特徵進行動態分段和加權平均，構成模板參數，加權後的參數作為新識別模板；(2)對該新模板進行鑑別特性分析處理，確保新模板和以前訓練構成的模板之間具有很好的可區分性；(3)對處理後，區分性不好的語音，則提示要求說話人重新輸入新的語音信號；C、特定人語音命令的識別(1)特定人語音識別過程頭四步與所說的「語音識別參數提取」過程相同；(2)將該語音特徵同已存儲的識別模板進行比較，採用動態匹配，提取其中最匹配的語音命令作為結果輸出；(3)在識別過程中，當識別模板匹配誤差大於一定門限或可信度很低時，則認為識別結果不可靠，通過提示，要求重新輸入語音。D.語音回放語音回放方法採用語音合成技術，將所說的語音識別參數與語音合成模型參數進行共享，將語音識別參數同時也作為語音合成模型參數，以儘可能減小系統的開銷。
2.如權利要求1所述的特定人語音識別、語音回放方法，其特徵在於，所說的語音特徵提取中的電平增益控制包括對輸入語音信號採樣精度進行判斷，如果輸入語音信號採樣精度不夠高，通過自適應電平控制，調整語音的放大量，提高語音採樣精度；所說的端點檢測方法為根據設定的端點門限，搜索靜音段，確定語音的起、始端點。
3.如權利要求1所述的特定人語音識別、語音回放方法，其特徵在於，所說的語音命令的訓練中的動態分段和加權平均方法，具體包括以下步驟(1)首先根據語音特徵參數計算語音不同幀間參數的變化，當變化超過某一設定閾值，確定該幀為語音特徵中重要分界點；(2)對不同語音信號其分界點的個數可以不同；對不同分界點之間的語音特徵進行加權平均，提高重要語音特徵在識別模型中的比重。
4.如權利要求1所述的特定人語音識別、語音回放方法，其特徵在於，所說的鑑別特性分析方法具體包括比較新模板同舊模板之間的動態匹配距離門限，當門限大於某一確定的統計值時，新模板作為識別模板存儲下來，否則認為該模板無效，要求重新輸入語音信號。
5.如權利要求1所述的特定人語音識別、語音回放方法，其特徵在於，所說的語音回放中的識別參數與語音編碼聲道模型參數共享的方法，具體包括以下步驟(1)語音識別模型參數與語音編碼聲道參數採用相同的參數，因此在語音編碼過程中並不需要增加聲道模型參數的存儲量。(2)聲道模型的激勵參數採用改進的LPC聲碼器方法，激勵參數為基音周期、清/濁/過渡音判定信息。
全文摘要
本發明屬於語音技術領域,包括:語音識別參數提取、特定人語音命令的訓練、特定人語音命令的識別、語音回放。本識別方法具有方法簡單、識別率高、穩健性好等特點。構成的系統可以用於玩具控制、聲控撥號、智能性家用電器、學習機、以及生產環節的控制系統中。
文檔編號G10L15/06GK1268732SQ0010554
公開日2000年10月4日申請日期2000年3月31日優先權日2000年3月31日
發明者劉加, 李曉宇, 史緩緩, 劉潤生申請人:清華大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於語音識別專用晶片的特定人語音識別、語音回放方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法