一種視聽播放裝置及其播放方法

2023-10-08 16:35:39 2

專利名稱：一種視聽播放裝置及其播放方法
技術領域：
本發明涉及一種視聽播放裝置，更具體地涉及一種能夠識別語音指令的視聽播放裝置和方法。
背景技術：
現行的電子娛樂產品發展趨勢是小型化、便利化，因而其操作的按鍵受產品的體積限制，按鍵數量越來越少，增加了對產品操作的不便，特別是在MP3播放器中不能任意直接選擇相關的曲目，需要順次翻動，操作多有不便。
語音識別技術是一項由來已久的公知技術，按用戶範圍可分為非特定人識別和特定人識別。非特定人識別採用隱藏馬爾可夫模型HMM(HiddenMarkov Model)來建模，基本原理是系統首先對大量的真實世界中的人的語音進行分析，並建立模型。在識別時，系統同樣先對輸入的語音進行分析，提取特徵，然後通過一定的算法並使用已建立的模型，從而識別出用戶所說的話。特定人系統僅僅為同一個人服務，使用之前用戶必須對詞彙表進行語音訓練。這種系統通常基於動態時間偏差DTW(Dynamic Time Wrap)技術，能夠達到較高識別率，但應用範圍較窄。

發明內容
本發明要解決的技術問題是利用語音指令替代現有的按鍵指令，提出一種能夠識別語音指令的視聽播放裝置。
本發明要解決的另一個技術問題是提供一種通過語音指令的播放視聽裝置的方法。
本發明的技術方案是提供一種能夠識別語音指令的視聽播放裝置，包括視聽數據處理單元、視聽數據存儲單元、操作輸入單元、數模變換器及視聽數據輸出單元，所述的視聽播放裝置還包括語音輸入單元，將話音指令變換為模擬信號，並傳送到模數變換器；
模數變換器，該模數變換器連接語音輸入單元，轉換語音輸入單元的模擬信號為數位訊號；語音識別處理單元，該語音識別微處理單元連接模數變換器，根據從模數變換器接收到的數位訊號與預存儲的語音模型數據對比產生操作指令，並傳送所述視聽數據處理單元；存儲器單元，該存儲器單元與語音識別處理單元連接，用於存儲設定的程序和語音數據。
本發明提供的一種能夠識別語音指令的視聽播放方法包括步驟產生控制視聽播放裝置工作狀態的第一指令；輸入語音指令，並轉換語音指令為語音模擬信號；轉換語音模擬信號為語音數位訊號，並傳送語音識別處理單元；對比語音數位訊號與預存儲的語音模型數據，產生相應操作指令，傳送視聽數據處理單元；及執行語音操作指令，進行數據處理。
相比現有的視聽播放裝置，本發明的視聽播放裝置利用語音操作替代按鍵操作，節省了操作面板的空間，有利於電子娛樂產品向小型化發展，同時，通過語音輸入操作指令相比按鍵的方式輸入操作更加便利。

圖1是本發明的視聽播放裝置的第一實施例的結構示意圖；圖2是本發明的視聽播放裝置的第一實施例的語音識別判斷流程圖；圖3是本發明的視聽播放裝置的第二實施例的結構示意圖；圖4是本發明的視聽播放裝置的第二實施例的語音識別判斷流程圖。
具體實施例方式
圖1是本發明的視聽播放裝置的第一實施例的結構示意圖。如圖1所示，本發明的一種能夠識別語音指令的視聽播放裝置件100是通過如下的技術方案實現的，所述的裝置100包括操作輸入單元10，該操作輸入單元件10與視聽數據處理單元20連接，用於產生控制視聽播放裝置100工作的第一指令，該第一指令包括打開視聽播放裝置的電源，及開啟語音輸入狀態；語音輸入單元30，該語音輸入單元30通常為麥克風，用於將話音指令變換為模擬的電信號，該語音輸入單元30連接模數變換器(ADC)40，並傳送所產生的模擬的電信號到模數變換器40進行處理；模數變換器40，該模數變換器40的輸出接口連接語音識別處理單元50，用於將來自語音輸入單元30的模擬電信號變換為數位訊號，並傳送到語音識別微處理單元(MCU)50，所述模數變換器可單獨存在或與語音輸入單元集成為一體；存儲器單元70，該單元與語音識別處理單元50，用於存儲預先設定的程序和語音數據；語音識別微處理單元50，該語音識別微處理單元與視聽數據處理單元20、模數變換器40、數模變換器80以及存儲器單元70連接，用於根據從模數變換器40接收到的數字信息與存儲器單元70存儲的信息對比產生第二操作指令，控制視聽數據處理單元20；視聽數據處理單元20，該部分連接操作輸入單元10按鍵、語音識別微處理單元50、數模變換器80以及語音數據存儲單元60，用於根據操作輸入單元10產生的所述的第一指令和語音識別微處理單元50所產生的第二指令，從語音數據存儲單元60讀取相關的視聽數據，送到數模變換器80經視聽數據輸出單元90播放；視聽數據存儲單元60，該視聽數據存儲單元60存儲視聽播放數據，如音頻數據MP3，視頻數據等。
數模變換器(DAC)80，該數模變換器80連接視聽數據處理單元20以及語音識別微處理單元50，用於將視聽數據處理單元20以及語音識別微處理單元50輸入的數位訊號變換為模擬信號；視聽數據輸出單元90，該視聽數據輸出單元90與數模變換器80連接，用於將來自數模變換器80的模擬信號變換為聲音信號輸出，視聽數據輸出單元90通常為揚聲器或顯示器。
該第一實施例是基於非特定人的語音識別視聽播放裝置，一般採用隱馬爾可夫模型HMM(Hidden Markov Model)來建模。根據對大量的真實世界中的人的語音進行分析，並建立模型。同時，將這些模型存儲在存儲器單元70內。在識別時，裝置同樣先對輸入的語音進行分析，提取特徵，然後通過一定的算法並使用已建立的模型，從而識別出用戶所說的話。
所述的存儲器單元70是第一隻讀存儲器ROM1，用於存儲控制程序和提示音數據；第二隻讀存儲器ROM2，用於存儲語音模型和聲學模型數據；隨機存取存儲器RAM，用於在語音識別微處理單元運行時，在隨機存取存儲器RAM中加載常用的數據和程序，以便提高語音識別微處理單元的運行速度。
圖2是本發明的視聽播放裝置100的第一實施例的語音識別判斷流程圖。如圖2所示，首先從步驟S201開始，對輸入的語音進行判斷，判斷是否有效的語音信號，如果判斷結果是否定的，是噪音信號，執行步驟S202，在一設定的周期內繼續等待語音信號，如果設定的周期內沒有接收到有效的信號，進入步驟S206，操作結束，在步驟S201，如果判斷是肯定的，即語音識別微處理單元50接收到有效的語音信號，則進行語音識別，進入步驟S203判斷是否可以產生操作指令，如果在步驟S203判斷的結果是否定的，結果無法產生操作指令，則進入步驟S204進行語音提示，繼續進行語音輸入；如果在步驟S203判斷的結果是肯定的，即是正確識別，並產生操作指令，則步驟進入S205執行操作指令，視聽數據處理單元20執行相應的語音指令，步驟進入S206結束。
圖3是本發明的視聽播放裝置的第二實施例的構成示意圖。如圖3所示，該視聽播放裝置與圖1的構成基本相同。該視聽播放裝置是基於動態規劃(DP)原理，和非特定人的語音識別視聽播放裝置的根本不同之處在於特定人語音識別在於使用前先進行語音訓練，建立模式庫。語音信號從語音輸入單元30中輸入，在ADC40(模數變換器)中轉換成為數位訊號，輸入語音識別處理單元50。語音識別處理單元50從原始語音樣本中去除冗餘信息，保留關鍵數據，再對數據加以聚類，形成模式庫，存儲在快閃記憶體存儲器FLASH中。對於特定的訓練須要進行多次語音重複以獲得最具特徵的信息。對特定人的語音建立模式庫後，使用和非特定人視聽播放裝置相似，不同之處在於輸入的語音特徵序列將和FLASH模式庫中的數據進行比較，得到最佳的識別結果。因此，所述存儲器單元70及其存儲的信息與第一實施例不同，所述的存儲器裝置包括一種只讀存儲器ROM，用於存儲控制程序和提示音數據；一種快閃記憶體存儲器FLASH，用於存儲模式庫數據；隨機存取存儲器RAM，用於在語音識別微處理單元運行時，在隨機存取存儲器RAM中加載常用的數據和程序，以便提高語音識別微處理單元的運行速度。
圖4是本發明的視聽播放裝置的第二實施例的語音識別判斷流程圖。如圖4所示，首先從步驟S401開始，在步驟S402判斷是否選擇學習鍵，如果選中學習鍵，則進入步驟S403訓練語言命令，建立訓練系統，存儲模式庫；如果在步驟S402判斷是否定的，則進入步驟S404判斷是否是語音識別鍵，如果判斷是否定的，則進入步驟S405其它按鍵，直接進入步驟S410執行相關操作指令。在步驟S404，如果判斷是肯定的，則進入步驟S406，對輸入的語音進行判斷，判斷是否是有效的語音信號，如果判斷結果是否定的，是噪音信號，執行步驟S407，並在設定的周期內繼續等待語音信號，如果設定的周期內沒有接收到有效的語音信號，進入步驟S411，操作結束，在步驟S406，如果判斷是肯定的，即語音識別微處理單元50接收到有效的語音信號，則進行語音識別，進入步驟S408判斷是否可以產生操作指令，如果在步驟S408判斷的結果是否定的，輸入的語音如果無法識別，或者識別的結果不是語音操作指令，無法產生相應操作，則進入步驟S409進行語音提示，繼續進行語音輸入；如果在步驟S408判斷的結果是肯定的，即能正確識別，並且產生操作指令，則步驟進入S410，執行操作指令，步驟進入S411結束。
根據以上的描述可知，本發明的一種能夠識別語音指令的視聽播放方法是通過如下的技術方案實現的，所述的方法包括步驟產生控制視聽播放裝置工作狀態的第一指令；將語音指令變換為語音指令模擬信號，並將語音指令模擬信號變換為語音指令數位訊號，然後傳送到語音識別處理單元；根據從模數變換器接收到的話音指令數位訊號和存儲器裝置存儲的信息，進行判斷識別和產生控制播放內容的第二指令，並傳送到視聽播放部分和數模變換器；根據操作輸入單元產生的所述的第一指令和語音識別處理單元的產生的第二指令，產生所要求播放內容的信號，並傳送到數模變換器；用於將數位訊號變換為模擬信號，將來自數模變換器的模擬信號變換為聲音信號；根據本發明的第一實施例，所述的存儲器裝置存儲的信息包括用於存儲控制程序和提示音數據；用於存儲語言模型和聲學模型數據；用於在語音識別微處理單元運行時，在隨機存取存儲器RAM中加載常用的數據和程序，以便提高語音識別微處理單元的運行速度。
所述的進行判斷識別的步驟進一步包括1)、開始，首先對輸入的語音進行判斷，如果是無效的噪音信號，繼續等待，如果設定的周期內沒有接收到有效的信號，操作結束；2)、如果輸入了有效的語音信號，則進行語音識別；如果無法識別，不能產生操作指令，則進行語音提示，繼續進行語音輸入；如是正確識別，並產生操作指令，則執行操作指令。
根據本發明的第二實施例，所述的存儲器裝置存儲的信息包括用於存儲控制程序和提示音數據；用於存儲模式庫數據；用於在語音識別微處理單元運行時，在隨機存取存儲器RAM中加載常用的數據和程序，以便提高語音識別微處理單元的運行速度。
所述的進行判斷識別的步驟進一步包括1)、首先，對按鍵選擇進行判斷，如果選中學習鍵，則建立訓練系統，存儲語音模型庫；2)、如果是識別鍵，首先對輸入的語音進行判斷，如果是無效的噪音信號，繼續等待，如果在設定的周期內沒有接收到有效的語音信號，操作結束；如果輸入了有效的語音信號，則進行語音識別；如果無法識別，不能產生操作指令，則進行語音提示，繼續進行語音輸入；如是正確識別，並產生操作指令，則執行操作指令。
3)、如果是其它按鍵，則直接執行相應命令操作。
綜上所述，本發明是在現有技術中的視聽播放器的基礎上進行的改進，有關現有技術中的視聽播放器構成的部分這裡不再重複贅述，本發明中的存儲器單元的具體構成可以根據視聽播放裝置功能的需要進行不同的安排，也可以改變存儲器單元的數量，將視聽播放器中的存儲器單元與視聽數據存儲單元結合在一起使用。
以上所述僅是本發明的優選實施方式，應當指出，對於本技術領域的普通技術人員來說，在不脫離本發明原理的前提下，對本發明所作的若干改進和潤飾，這些改進和潤飾也應視為本發明的保護範圍。
權利要求
1.一種視聽播放裝置，包括視聽數據處理單元、視聽數據存儲單元、操作輸入單元、數模變換器及視聽數據輸出單元，其特徵在於，所述的裝置還包括語音輸入單元，將話音指令變換為模擬信號，並傳送到模數變換器；模數變換器，該模數變換器連接語音輸入單元，轉換語音輸入單元的模擬信號為數位訊號；語音識別處理單元，該語音識別微處理單元連接模數變換器，根據從模數變換器接收到的數位訊號與預存儲的語音模型數據對比產生操作指令，並傳送所述視聽數據處理單元；存儲器單元，該存儲器單元與語音識別處理單元連接，用於存儲設定的程序和語音數據。
2.根據權利要求1所述的裝置，其特徵在於，所述的存儲器單元包括第一隻讀存儲器ROM1，存儲控制程序和提示音數據；第二隻讀存儲器ROM2，存儲語言模型和聲學模型數據；隨機存取存儲器RAM，在語音識別微處理單元運行時，加載常用的數據和程序。
3.根據權利要求1所述的裝置，其特徵在於，所述的存儲器單元包括只讀存儲器ROM，存儲控制程序和提示音數據；快閃記憶體存儲器FLASH，存儲模式庫數據；隨機存取存儲器RAM，在語音識別微處理單元運行時，加載常用的數據和程序。
4.一種視聽播放方法，其特徵在於，所述的方法包括步驟產生控制視聽播放裝置工作狀態的第一指令；輸入語音指令，並轉換語音指令為語音模擬信號；轉換語音模擬信號為語音數位訊號，並傳送語音識別處理單元；對比語音數位訊號與預存儲的語音模型數據，產生相應操作指令，傳送視聽數據處理單元；及執行語音操作指令，進行數據處理。
5.根據權利要求4所述的方法，其特徵在於，所述的識別語音指令的步驟進一步包括1)、判斷輸入的語音信號的有效性，並設定等待有效信號的周期；2)、對輸入的有效語音信號，如果不能產生操作指令，則給出語音提示。
6.根據權利要求4所述的方法，其特徵在於，所述的視聽播放裝置的包括存儲單元，所述存儲器單元存儲的信息包括控制程序和提示音數據；語言模型和聲學模型數據；語音識別處理單元運行時常用加載數據和程序。
7.根據權利要求4所述的方法，其特徵在於，所述的識別語音指令的視聽播放方法包括針對特定人的語音訓練，通過訓練語言命令，建立特定人的語音模型庫。
8.根據權利要求4或7所述的方法，其特徵在於，所述的視聽播放裝置進一步包括存儲特定人語音模型庫的快閃記憶體存儲器FLASH。
全文摘要
本發明公開了一種視聽播放裝置及其播放方法，所述的裝置包括操作輸入單元、語音輸入單元、模數變換器、存儲器單元、語音識別處理單元、視聽數據處理單元、視聽數據存儲單元、數模變換器以及視聽數據輸出單元，通過轉換輸入的語音指令成相應的操作指令，控制視聽播放裝置。本發明的識別語音指令的視聽播放裝置能夠通過語音識別處理單元使用語音實現對視聽播放裝置的操作。通過語音指令替代原來的按鍵指令。用戶只須對此裝置發出語音指令，設備即能聽明白用戶的意思，並執行相應的操作，這樣能夠使視聽播放裝置更加小型化，便於攜帶。
文檔編號G10L15/08GK1707612SQ20041002759
公開日2005年12月14日申請日期2004年6月8日優先權日2004年6月8日
發明者黃光明, 向鋒, 成曉華申請人:深圳市朗科科技有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種視聽播放裝置及其播放方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法