人機互動系統和方法
2023-06-23 16:04:31 3
專利名稱:人機互動系統和方法
技術領域:
本發明涉及一種人機互動技術,特別是涉及一種人機互動系統和方法。
背景技術:
隨著科技的進步,電子設備所具有的智能化程度越來越高,利用聲音對電子設備進行控制是當前電子設備向智能化發展的一個重要方向。目前對電子設備進行聲控的實現方式通常是建立在語音識別的基礎上的。該實現方式具體為:電子設備對控制者發出的聲音進行語音識別,並根據語音識別結果來判斷控制者希望電子設備執行的控制命令,之後,電子設備通過自動執行該控制命令,實現了電子設備的聲控。發明人在實現本發明過程中發現:現有的對電子設備的控制技術的實現方式較單
一,不夠靈活。有鑑於上述現有的對電子設備的控制方式存在的缺陷,本發明人基於從事此類產品設計製造多年豐富的實務經驗及專業知識,並配合學理的運用,積極加以研究創新,以期創設一種新的人機互動系統和方法,能夠克服現有的對電子設備的控制方式存在的問題,使其更具有實用性。經過不斷的研究、設計,經過反覆試作樣品及改進後,終於創設出確具實用價值的本發明。
發明內容
本發明的目的在於,克服現有的對電子設備的控制實現方式存在的缺陷,而提供一種新型結構的人機互動系統和一種新的人機互動方法,所要解決的技術問題是,使電子設備的控制方式具有多樣性以及趣味性,非常適於實用。本發明的目的以及解決其技術問題可以採用以下的技術方案來實現。依據本發明提出的一種人機互動系統,包括:聲音捕捉裝置、視頻捕捉裝置和控制裝置;所述聲音捕捉裝置,用於拾取聲音,並輸出拾取的聲音的音頻信號;視頻捕捉裝置,用於實時攝取圖像,並輸出圖像信息;所述控制裝置與所述聲音捕捉裝置和所述視頻捕捉裝置連接,所述控制裝置接收所述音頻信號和圖像信息信息,根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令。本發明的目的以及解決其技術問題還可以採用以下的技術措施來進一步實現。較佳的,前述的人機互動系統,其中該控制裝置包括:語音識別模塊用於對所述聲音捕捉裝置輸出的音頻信號進行語音識別處理;關鍵詞模塊用於從所述語音識別模塊的語音識別處理結果中提取關鍵詞,並輸出所述關鍵詞;第一控制命令轉換模塊,用於確定關鍵詞對應的控制命令,並確定所述圖像信息對應的控制命令;第一執行模塊,用於在所述關鍵詞對應的控制命令與圖像信息對應的控制命令相同時,執行所述控制命令,否則不執行所述控制命令。較佳的,前述的人機互動系統,其中該控制裝置包括:聲音屬性檢測模塊,用於檢測所述聲音擷取模塊輸出的音頻信號的聲音屬性;第二控制命令轉換模塊,用於確定所述圖像信息對應的控制命令,並確定所述聲音屬性對應的執行效果,將所述執行效果作為所述控制命令的輸入參數;第二執行模塊,用於執行該攜帶有所述輸入參數的控制命令。較佳的,前述的人機互動系統,其中該控制裝置包括:語音識別模塊用於對所述聲音捕捉裝置輸出的音頻信號進行語音識別處理;關鍵詞模塊用於從所述語音識別模塊的語音識別處理結果中提取關鍵詞,並輸出所述關鍵詞;第一控制命令轉換模塊,用於確定關鍵詞對應的控制命令,並確定所述圖像信息對應的控制命令;第三執行模塊,用於從所述關鍵詞對應的控制命令和圖像信息對應的控制命令中選擇至少一個控制命令執行。本發明還提供一種人機互動方法,所述方法包括:利用聲音擷取裝置拾取聲音,以獲得拾取的聲音的音頻信號;利用視頻捕捉裝置實時攝取圖像,以獲得攝取的圖像的圖像信息;根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令。較佳的,前述的人機互動方法,其中所述根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令包括:對所述拾取的聲音的音頻信號進行語音識別處理;從所述語音識別處理的結果中提取關鍵詞;確定所述關鍵詞對應的控制命令,並確定所述圖像信息對應的控制命令;在所述關鍵詞對應的控制命令與所述圖像信息對應的控制命令相同時,執行所述控制命令,否則不執行所述控制命令。較佳的,前述的人機互動方法,其中所述根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令包括:檢測所述拾取的聲音的音頻信號的聲音屬性;確定所述圖像信息對應的控制命令,並確定所述聲音屬性對應的執行效果,將所述執行效果作為所述控制命令的輸入參數;執行該攜帶有所述輸入參數的控制命令。較佳的,前述的人機互動方法,其中所述根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令包括:對所述拾取的聲音的音頻信號進行語音識別處理;從所述模塊的語音識別處理的結果中提取關鍵詞;確定所述關鍵詞對應的控制命令,並確定所述圖像信息對應的控制命令;從所述關鍵詞對應的控制命令和圖像信息對應的控制命令中選擇至少一個控制命令執行。藉由上述技術方案,本發明的人機互動系統和方法至少具有下列優點及有益效果:本發明通過利用聲音捕捉裝置拾取聲音,並利用視頻捕捉裝置產生圖像信息,使控制裝置可以綜合用戶的聲音和作出的動作來產生控制命令,實現了基於體感控制和語音的人機互動,從而使人機互動的實現方式多元化,並提高了人機互動的趣味性,非常適於實用。綜上所述,本發明在技術上有顯著的進步,具有明顯的積極效果,誠為一新穎、進步、實用的新設計。上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其他目的、特徵和優點能夠更明顯易懂,以下特舉較佳實施例,並配合附圖詳細說明如下。
圖1為本發明的人機互動系統示意圖;圖2為本發明的控制裝置的一個具體例子的示意圖;圖3為本發明的控制裝置的另一個具體例子的示意圖4為本發明的控制裝置的第三個具體例子的示意圖;圖5為本發明的人機互動方法的流程圖。
具體實施例方式為更進一步闡述本發明為達成預定發明目的所採取的技術手段及功效,以下結合附圖及較佳實施例,對依據本發明提出的人機互動系統和方法其具體實施方式
、結構、特徵、流程及其功效,詳細說明如後。實施例一、人機互動系統。該系統如附圖1所不。圖1示出的人機互動系統包括:聲音捕捉裝置1、視頻捕捉裝置2以及控制裝置3。其中的控制裝置3可以如附圖2所示,包括:語音識別模塊31、關鍵詞模塊32、第一控制命令轉換模塊33以及第一執行模塊34 ;或者,控制裝置3如附圖3所示,包括:聲音屬性檢測模塊35、第二控制命令轉換模塊36以及第二執行模塊37 ;或者,控制裝置3如附圖4所示,包括:語音識別模塊31、關鍵詞模塊32、第一控制命令轉換模塊33以及第三執行模塊38。聲音捕捉裝置I與控制裝置3連接。聲音捕捉裝置I主要用於拾取聲音,即拾取用戶發出的聲音,聲音捕捉裝置I將拾取到的聲音的音頻信號向控制裝置3輸出,例如,聲音捕捉裝置I向語音識別模塊31或者向聲音屬性檢測模塊35輸出其拾取的聲音的音頻信號。聲音捕捉裝置I可以具體表現為麥克風、或者耳麥等形式。視頻捕捉裝置2與控制裝置3連接。視頻捕捉裝置2主要用於產生圖像信息,並向控制裝置3輸出其產生的圖像信息。這裡的實時攝取如視頻捕捉裝置2按照預定採樣頻率進行圖像採樣。視頻捕捉裝置2可以採用現有的攝像頭、以及攝像機等攝像設備,如RGB彩色攝像頭或者3D深度感應器等。本發明不限制視頻捕捉裝置2的具體類型。控制裝置3與聲音捕捉裝置I和視頻捕捉裝置2分別連接。該控制裝置3接收聲音捕捉裝置I輸出的音頻信號和視頻捕捉裝置2輸出的圖像信息,並根據接收到的音頻信號和圖像信息產生控制命令,之後,控制裝置3執行該控制命令。控制裝置3根據音頻信號和圖像信息產生控制命令並執行控制命令的實現方式有多種,例如,先將兩者分別轉換為控制命令,然後,在判斷出這兩個控制命令相同的情況下,執行該控制命令;再例如,先將圖像信息轉換為控制命令,然後,根據音頻信號的聲音屬性確定該控制命令的輸入參數,再執行攜帶有輸入參數的控制命令;再例如,先將兩者分別轉換為控制命令,然後,從這兩個控制命令中選擇至少一個控制命令來執行。下面對控制裝置3的具體實現方式進行詳細說明。實現方式一:控制裝置3包括:語音識別模塊31、關鍵詞模塊32、第一控制命令轉換模塊33以及第一執行模塊34。語音識別模塊31與聲音捕捉裝置I以及關鍵詞模塊32均連接。語音識別模塊31主要用於對聲音捕捉裝置I輸出的音頻信號進行語音識別處理,並向關鍵詞模塊32輸出語音識別結果。語音識別模塊31可以採用現有的語音識別技術,下面對語音識別模塊31所採用的語音識別過程進行舉例說明:例一、語音識別模塊31中存儲有預先設定的音頻信號。也就是說,語音識別模塊31中存儲有音頻信號,且該音頻信號應與控制命令相對應。語音識別模塊31中存儲的音頻信號可以是通過聲音擷取模塊I提前錄製的用戶發出控制命令的音頻信號。在例一中,語音識別模塊31中存儲有至少一段音頻信號,且一段音頻信號對應一條或者多條控制命令,通常情況下,一段音頻信號對應一條控制命令。語音識別模塊31中存儲的每一段音頻信號都會對應一個音頻信號標識符,該音頻信號標識符用於區別不同段的音頻信號,一個具體的例子,語音識別模塊31中存儲有音頻信號標識符和音頻信號的對應關係信息。語音識別模塊31將聲音擷取模塊I傳輸來的音頻信號與其存儲的音頻信號進行對比,以確定匹配的音頻信號,之後,語音識別模塊31確定該匹配的音頻信號對應的標識符,並向關鍵詞模塊輸出該音頻信號標識符。如果聲音擷取模塊I傳輸來的音頻信號還需要進行去噪、格式轉換等處理,則語音識別模塊31可以在進行相關處理後,利用處理後的音頻信號與其存儲的音頻信號進行對比。語音識別模塊31可以利用現有的音頻信號對比技術來實現音頻信號的對比,從而確定出其存儲的各段音頻信號中與接收到的音頻信號匹配的一段音頻信號。本發明不限制語音識別模塊31所採用的音頻信號對比技術的具體實現方式。例二、語音識別模塊31中不預先錄製控制者的音頻信號,語音識別模塊31直接對聲音擷取模塊I輸出的音頻信號進行語音識別,以將獲取到的音頻信號轉換為文本信息,之後,語音識別模塊31將該文本信息提供給控制模塊4。語音識別模塊31可以利用現有的語音識別技術直接將音頻信號轉換為文本信息。關鍵詞模塊32與語音識別模塊31和第一控制命令轉換模塊33分別連接。關鍵詞模塊32主要用於從語音識別模塊31傳輸來的語音識別處理結果中提取關鍵詞,並向第一控制命令轉換I旲塊33輸出其提取的關鍵詞。關鍵詞I旲塊36提取出的關鍵詞可以具體為數字或者文字等等。關鍵詞模塊32可以採用預定的提取策略進行關鍵詞的提取,例如,關鍵詞模塊32在提取關鍵詞的過程中可以忽略「的」、「了」、以及「你、我、他」等語氣助詞和代詞等。關鍵詞模塊32可以採用現有的提取策略進行關鍵詞的提取,本發明不限制關鍵詞模塊32提取關鍵詞的具體實現過程。第一控制命令轉換模塊33與視頻捕捉裝置2、關鍵詞模塊32以及第一執行模塊分別連接。第一控制命令轉換模塊33主要用於將其接收到的關鍵詞轉換為控制命令,並將其接收到的圖像信息也轉換為控制命令,之後第一控制命令轉換模塊33將這兩個控制命令均輸出給第一執行模塊34。第一控制命令轉換模塊33將關鍵詞以及圖像信息轉換為控制命令的方式有多種,例如,第一控制命令轉換模塊33中存儲有關鍵詞與控制命令的對應關係信息,第一控制命令轉換模塊33根據接收到的關鍵詞在對應關係信息中進行查找,並從匹配的記錄中獲取控制命令,該控制命令即為其接收到的關鍵詞對應的控制命令。另外,第一控制命令轉換模塊33可以採用現有的體感遊戲中的相關技術(如kinect技術等)確定其接收到的圖像信息中的用戶的動作,然後,可以採用預先設置的動作與控制命令的對應關係來獲得相應的控制命令,本發明不限制第一控制命令轉換模塊33進行控制命令轉換的具體實現過程。第一執行模塊34與第一控制命令轉換模塊33連接。第一執行模塊34主要用於在判斷出其接收到的關鍵詞對應的控制命令與圖像信息對應的控制命令相同時,執行該控制命令,否則,第一執行模塊34不執行該控制命令。
上述實現方式一的一個具體應用為:在用戶視頻捕捉裝置2採集到的圖像信息中的用戶動作表徵「從下向上躍起」,且聲音捕捉裝置I捕捉到的音頻信號表徵「跳躍」時,第一執行模塊34執行跳躍的控制命令,否則第一執行模塊34不執行跳躍的控制命令。實現方式二:控制裝置3包括:聲音屬性檢測模塊35、第二控制命令轉換模塊36以及第二執行模塊37。聲音屬性檢測模塊35與聲音捕捉裝置I以及第二控制命令模塊36分別連接。聲音屬性檢測模塊35主要用於檢測聲音擷取模塊I輸出的音頻信號的聲音屬性。本發明中的聲音屬性可以具體包括音色、音量、音值以及音調中的至少一個。其中的音色是指聲音的感覺特性,通過音色的不同可以分辨出不同的發聲體;音量又可以稱為響度或者音強,音量是指人耳對所聽到的聲音大小強弱的主觀感受,其客觀評價尺度是聲音的振幅大小;音值又可以稱為時值,音值是指音延續的時間長短,由發音體振動的時間來決定;音調是指聲音頻率的高低。上述音色、音量、音調可以稱為聲音的三個主要的主觀屬性,而音值則可以稱為聲音的客觀屬性(也即物理屬性)。針對實現方式二需要特別說明的是,聲音屬性檢測模塊35檢測出的聲音屬性可以決定控制命令所攜帶的參數,第二控制命令轉換模塊36可以根據圖像信息確定一控制命令,再根據聲音屬性檢測模塊35確定該控制命令所攜帶的參數,從而形成一完整的控制命令。第二控制命令轉換模塊36與聲音屬性檢測模塊35以及第二執行模塊36分別連接。第二控制命令轉換模塊36主要用於確定圖像信息對應的控制命令,並確定其接收到的聲音屬性對應的執行效果,之後,將該執行效果作為控制命令的輸入參數,向第二執行模塊36輸出攜帶有該輸入參數的控制命令。第二執行模塊37與第二控制命令轉換模塊36連接。第二執行模塊37主要用於執行其接收到的攜帶有輸入參數的控制命令。上述實現方式二的一個具體應用為:在用戶視頻捕捉裝置2採集到的圖像信息中的用戶動作表徵「從下向上躍起」,且聲音捕捉裝置I捕捉到的音頻信號的聲音屬性中的音量超過預定分貝時,第一執行模塊34執行高高躍起的控制命令,而在聲音屬性中的音量沒有超過預定分貝時,第一執行模塊34執行低空躍起的控制命令。實現方式三、控制裝置3包括:語音識別模塊31、關鍵詞模塊32、第一控制命令轉換模塊33以及第三執行模塊38。語音識別模塊31與聲音捕捉裝置I以及關鍵詞模塊32均連接。語音識別模塊31主要用於對聲音捕捉裝置I輸出的音頻信號進行語音識別處理,並向關鍵詞模塊32輸出語音識別結果。語音識別模塊31可以採用現有的語音識別技術,對語音識別模塊31所採用的語音識別過程的舉例說明如上述實現方式一中的描述,在此不再重複說明。關鍵詞模塊32與語音識別模塊31和第一控制命令轉換模塊33分別連接。關鍵詞模塊32主要用於從語音識別模塊31傳輸來的語音識別處理結果中提取關鍵詞,並向第一控制命令轉換I旲塊33輸出其提取的關鍵詞。關鍵詞I旲塊36提取出的關鍵詞可以具體為數字或者文字等等。關鍵詞模塊32可以採用預定的提取策略進行關鍵詞的提取,例如,關鍵詞模塊32在提取關鍵詞的過程中可以忽略「的」、「了」、以及「你、我、他」等語氣助詞和代詞等。關鍵詞模塊32可以採用現有的提取策略進行關鍵詞的提取,本發明不限制關鍵詞模塊32提取關鍵詞的具體實現過程。第一控制命令轉換模塊33與視頻捕捉裝置2、關鍵詞模塊32以及第一執行模塊分別連接。第一控制命令轉換模塊33主要用於將其接收到的關鍵詞轉換為控制命令,並將其接收到的圖像信息也轉換為控制命令,之後第一控制命令轉換模塊33將這兩個控制命令均輸出給第一執行模塊34。第一控制命令轉換模塊33將關鍵詞以及圖像信息轉換為控制命令的方式有多種,例如,第一控制命令轉換模塊33中存儲有關鍵詞與控制命令的對應關係信息,第一控制命令轉換模塊33根據接收到的關鍵詞在對應關係信息中進行查找,並從匹配的記錄中獲取控制命令,該控制命令即為其接收到的關鍵詞對應的控制命令。另外,第一控制命令轉換模塊33可以採用現有的體感遊戲中的相關技術識別接收到的圖像信息中的用戶的動作,並將該動作轉換為相應的控制命令,本發明不限制第一控制命令轉換模塊33進行控制命令轉換的具體實現過程。第三執行模塊38與第一控制命令轉換模塊33連接。第三執行模塊38主要用於從其接收到的關鍵詞對應的控制命令和圖像信息對應的控制命令中選擇至少一個控制命令,並執行。第三執行模塊38可以根據預先設置的選擇策略從兩個控制命令中選擇至少一個控制命令來執彳了,例如,選擇先接收到的控制命令執彳了 ;再例如,先選擇Iv控制命令執7Tx,執行之後再選擇另一個控制命令執行。上述實現方式三的一個具體應用為:在用戶視頻捕捉裝置2採集到的圖像信息中的用戶動作表徵「下蹲」,且聲音捕捉裝置I捕捉到的音頻信號表徵「跳躍」時,第一執行模塊34先接收到「跳躍」對應的控制命令,後接收到「下蹲」的控制命令,因此,第一執行模塊34先執行跳躍的控制命令,而後,第一執行模塊34再執行下蹲的控制命令。實施例二、人機互動方法。該方法的流程如附圖5所示。圖5中示出的人機互動方法包括如下步驟:S500、利用聲音擷取裝置拾取聲音,以獲得拾取的聲音的音頻信號。S510、利用視頻捕捉裝置產生圖像信息。具體的,本發明可以利用現有的攝像頭、以及攝像機等攝像設備實時採樣圖像,以獲得圖像息。S520、根據上述音頻信號和圖像信息產生控制命令,並執行該控制命令。具體的,根據音頻信號和圖像信息產生控制命令並執行控制命令的實現方式有多種,例如,先將兩者分別轉換為控制命令,然後,在判斷出這兩個控制命令相同的情況下,執行該控制命令;再例如,先將圖像信息轉換為控制命令,然後,根據音頻信號的聲音屬性確定該控制命令的輸入參數,再執行攜帶有輸入參數的控制命令;再例如,先將兩者分別轉換為控制命令,然後,從這兩個控制命令中選擇至少一個控制命令來執行。針對實施例二需要說明的是,雖然實施例二順序描述了 S500-S520,但實際上,本發明中的S500和S510之間並不存在先後順序的限制,即聲音拾取過程和圖像信息攝取過程這兩者可以是相互並行的。以上所述僅是本發明的較佳實施例而已,並非對本發明作任何形式上的限制,雖然本發明已以較佳實施例揭露如上,然而並非用以限定本發明,任何熟悉本專業的技術人員在不脫離本發明技術方案範圍內,當可利用上述揭示的技術內容作出些許更動或修飾為等同變化的等效實施例,但凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬於本發明技術方案的範圍內。
權利要求
1.一種人機互動系統,其特徵在於,包括:聲音捕捉裝置、視頻捕捉裝置和控制裝置; 所述聲音捕捉裝置,用於拾取聲音,並輸出拾取的聲音的音頻信號; 所述視頻捕捉裝置,用於實時攝取圖像,並輸出圖像信息; 所述控制裝置與所述聲音捕捉裝置和所述視頻捕捉裝置連接,所述控制裝置接收所述音頻信號和圖像信息信息,根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令。
2.如權利要求1所述的人機互動系統,其特徵在於,該控制裝置包括: 語音識別模塊,用於對所述聲音捕捉裝置輸出的音頻信號進行語音識別處理; 關鍵詞模塊,用於從所述語音識別模塊的語音識別處理結果中提取關鍵詞,並輸出所述關鍵詞; 第一控制命令轉換模塊,用於確定所述關鍵詞對應的控制命令,並確定所述圖像信息對應的控制命令; 第一執行模塊,用於在所述關鍵詞對應的控制命令與所述圖像信息對應的控制命令相同時,執行所述控制命令,否則不執行所述控制命令。
3.如權利要求1所述的人機互動系統,其特徵在於,該控制裝置包括: 聲音屬性檢測模塊,用於檢測所述聲音擷取模塊輸出的音頻信號的聲音屬性; 第二控制命令轉換模塊,用於確定所述圖像信息對應的控制命令,並確定所述聲音屬性對應的執行效果,將所述執行效果作為所述控制命令的輸入參數; 第二執行模塊,用於執行該攜帶有所述輸入參數的控制命令。
4.如權利要求1所述的人機互動系統,其特徵在於,該控制裝置包括: 語音識別模塊,用於對所述聲音捕捉裝置輸出的音頻信號進行語音識別處理; 關鍵詞模塊,用於從所述語音識別模塊的語音識別處理結果中提取關鍵詞,並輸出所述關鍵詞; 第一控制命令轉換模塊,用於確定所述關鍵詞對應的控制命令,並確定所述圖像信息對應的控制命令; 第三執行模塊,用於從所述關鍵詞對應的控制命令和圖像信息對應的控制命令中選擇至少一個控制命令執行。
5.一種人機互動方法,其特徵在於,所述方法包括: 利用聲音擷取裝置拾取聲音,以獲得拾取的聲音的音頻信號; 利用視頻捕捉裝置實時攝取圖像,以獲得攝取的圖像的圖像信息; 根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令。
6.如權利要求5所述的人機互動方法,其特徵在於,所述根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令包括: 對所述拾取的聲音的音頻信號進行語音識別處理; 從所述語音識別處理的結果中提取關鍵詞; 確定所述關鍵詞對應的控制命令,並確定所述圖像信息對應的控制命令; 在所述關鍵詞對應的控制命令與所述圖像信息對應的控制命令相同時,執行所述控制命令,否則不執行所述控制命令。
7.如權利要求5所述的人機互動方法,其特徵在於,所述根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令包括: 檢測所述拾取的聲音的音頻信號的聲音屬性; 確定所述圖像信息對應的控制命令,並確定所述聲音屬性對應的執行效果,將所述執行效果作為所述控制命令的輸入參數; 執行該攜帶有所述輸入參數的控制命令。
8.如權利要求5所述的人機互動方法,其特徵在於,所述根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令包括: 對所述拾取的聲音的音頻信號進行語音識別處理; 從所述模塊的語音識別處理的結果中提取關鍵詞; 確定所述關鍵詞對應的控制命令,並確定所述圖像信息對應的控制命令; 從所述關鍵詞對應的 控制命令和圖像信息對應的控制命令中選擇至少一個控制命令執行。
全文摘要
本發明是有關於一種人機互動系統和方法。其中的系統包括聲音捕捉裝置、視頻捕捉裝置和控制裝置;聲音捕捉裝置用於拾取聲音,並輸出拾取的聲音的音頻信號;視頻捕捉裝置用於實時攝取圖像,並輸出圖像信息;控制裝置與所述聲音捕捉裝置和所述視頻捕捉裝置連接,所述控制裝置接收所述音頻信號和圖像信息,根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令。其中的方法包括利用聲音擷取裝置拾取聲音以獲得拾取的聲音的音頻信號;利用視頻捕捉裝置攝取圖像,產生圖像信息;根據所述音頻信號和圖像信息產生控制命令,並執行該控制命令。本發明提供的技術方案能夠實現聲控和體感控制,提高了控制方式的多樣性以及趣味性。
文檔編號G10L15/00GK103186227SQ20111045282
公開日2013年7月3日 申請日期2011年12月28日 優先權日2011年12月28日
發明者董德福 申請人:北京德信互動網絡技術有限公司