新四季網

用多個話筒的語音識別的製作方法

2023-05-19 15:02:51 1

用多個話筒的語音識別的製作方法
【專利摘要】具有不同頻率響應的至少第一和第二話筒形成語音識別系統的部分。所述話筒被耦接到處理器,所述處理器被配置成基於話筒信號識別說出的詞語。所述處理器將說出的詞語分類,並且基於說出的詞語的所述分類對來自所述話筒的信號加權。
【專利說明】用多個話筒的語音識別

【技術領域】
[0001]

【技術領域】總體涉及語音(speech)識別系統,更具體地涉及使用包括至少兩個話筒 的話筒陣列的語音識別系統,所述話筒具有不同頻率響應。

【背景技術】
[0002] 人類語音的自動識別現在是可能的,並且總體上涉及使用話筒將說出的詞語的聲 響能量轉化成電氣信號。電氣信號隨後通過處理器分析,並且所述處理器能夠識別通過話 筒而轉化成電氣信號的說出的詞語。在說出的詞語被識別之後,詞語可用作對於計算機或 其他電子裝置的指令,以便採取動作,例如調節室內溫度設定的命令。說出的詞語還可被轉 化成打字的詞語,因此人可以口述信或其他文件,所述信或其他文件被隨後轉化成打字的 文件而無需任何進一步的人類互動。自動語音識別的其他使用也是可能的。
[0003] 世界上人們使用多種不同語言,並且某些語言使用在其他語言中沒有聽到過的聲 音。某些語言還使用說出的詞語的聲調或音高來影響含義,因此正確理解不僅需要識別聲 音,還需要識別聲音是如何發音的。各種語言中使用的許多聲音和聲調通常是在具體頻率 範圍內發聲的,並且這些範圍對於不同聲音和詞語廣泛地改變。由此,在很寬的頻率範圍內 檢測和解釋聲音的能力對於高效的語音識別系統來說是重要的。
[0004] 所有語言都使用語調或者聲調和音高來表達強調的、相反的和情感的信息。然而, 聲調語言使用聲調或音高來區別詞語的含義。例如,語音學上相同的詞語如果以不同的轉 調說出來就可具有完全不同的含義,所述轉調是,例如:(1)平的轉調,(2)從詞語的開始到 詞語的結束升調,(3)從詞語的開始到詞語的結束降調,或(4)從詞語的開始下降,但是隨 後在詞語的最後部分增大的聲調。不同聲調語言將使用不同類型的聲調或聲調輪廓。
[0005] 聲音由話筒檢測並且被轉化成電氣信號。然而,不同話筒具有不同頻率響應,這意 味著某些話筒在某種聲音頻率下將聲音轉化成電氣信號方面更敏感和高效,而其他話筒在 其他頻率下更敏感和高效。理想地,話筒在說出的詞語的頻率下將敏感和高效;然而,存在 大範圍的在人類語音中使用的頻率。因此,某些詞語並沒有被完美地識別,而所產生的語音 轉化可能是不準確的。
[0006] 因此,期望提供一種具有改善的準確性的語音識別系統。本發明描述的實施例構 想了話筒陣列通過多個不同頻率響應來改進多個語音轉化的使用。此外,通過結合附圖和 前面的【技術領域】以及【背景技術】來參閱隨後的詳細描述以及所附權利要求,本發明的其他期 望特徵和特性將變得清楚。


【發明內容】

[0007] -種語音識別系統包括具有不同頻率響應的至少第一和第二話筒。所述話筒將聲 響能量轉化成電氣信號。所述話筒被耦接到處理器,所述處理器被配置成基於從所述話筒 接收的電氣信號來識別說出的詞語。所述處理器確定詞語的分類,並且所述處理器基於說 出的詞語的分類對從所述話筒接收的信號加權。
[0008] 在另一個實施例中,所述語音識別系統被包含在機動車的艙中。所述語音識別系 統包括具有不同頻率響應的至少第一和第二話筒,其中所述話筒被定位成從所述車輛艙內 接收聲響能量。所述話筒被耦接到處理器,所述處理器被配置成識別說出的詞語並且確定 那些詞語的分類。所述處理器基於說出的詞語的所述分類對從所述話筒接收的信號加權。
[0009] -種用於識別語音的方法提供了具有不同頻率響應的至少第一和第二話筒。所述 話筒將聲響能量轉化成電氣信號,並且處理器接收那些信號。所述處理器基於從所述話筒 接收的電氣信號來確定說出的詞語,並且將那些說出的詞語分類。所述處理器基於說出的 詞語的所述分類對從所述話筒接收的所述信號加權。
[0010] 本發明還包括如下方案: 1. 一種語音識別系統,其包括: 至少第一和第二話筒,其每一個具有不同頻率響應,其中,所述話筒能夠將聲響能量 轉化成電氣信號;以及 處理器,所述處理器耦接到多個所述話筒並且被配置成: 基於從所述話筒接收的信號來識別說出的詞語; 確定說出的詞語的分類;並且 基於所述說出的詞語的所述分類來對從所述話筒接收的信號加權。
[0011] 2.根據方案1所述的語音識別系統,還包括耦接在所述話筒與所述處理器之間的 模擬至數字轉化器。
[0012] 3.根據方案1所述的語音識別系統,其中,所述電氣信號包括振幅響應和相位響 應,並且其中,所述處理器還被配置成基於說出的詞語的所述分類來對所述振幅響應加權。
[0013] 4.根據方案3所述的語音識別系統,其中,所述處理器還被配置成對於多個頻率 單元中的每個頻率單元而對振幅響應加權。
[0014] 5.根據方案1所述的語音識別系統,其中,對於所述第一話筒,低於兩千赫茲的頻 率響應比對於所述第二話筒更高,並且其中,所述處理器還被配置成將說出的詞語分類為 聲調語言或非聲調語言的部分,並且對於聲調語言,對來自所述第一話筒的信號與來自所 述第二話筒的信號相比更多地加權。
[0015] 6.根據方案1所述的語音識別系統,其中,所述處理器還被配置成將說出的詞語 以語言分類,並且配置成對於多種語言中的每種,將語言具體加權分配到電氣信號。
[0016] 7.根據方案1所述的語音識別系統,其中,所述處理器還被配置成基於講話者的 聲音特性來定製電氣信號處理。
[0017] 8. -種機動車,包括: 艙; 至少第一和第二話筒,每個具有不同頻率響應,其中,所述話筒被定位在所述機動車內 以便從所述艙內接收聲響能量,並且其中,所述話筒將所述聲響能量轉化成電氣信號; 耦接到所述話筒的處理器,其中,所述處理器被配置成: 基於從所述話筒接收的信號來識別說出的詞語; 確定說出的詞語的分類;並且 基於說出的詞語的所述分類對從所述話筒接收的信號加權。
[0018] 9.根據方案8所述的機動車,其中,所述電氣信號的加權是對於所述艙的所述聲 響定製的。
[0019] 10.根據方案8所述的語音識別系統,其中,所述話筒能夠將聲響能量轉化成包括 振幅響應和相位響應的模擬電氣信號,所述系統還包括耦接到所述話筒並且耦接到所述處 理器的模擬至數字轉化器,並且其中,所述處理器被配置成基於說出的詞語的所述分類來 對所述振幅響應加權。
[0020] 11.根據方案8所述的機動車,其中,對於所述第一話筒,小於兩千赫茲的頻率響 應比對於所述第二話筒更高,所述處理器被配置成將說出的詞語分類為聲調語言或非聲調 語言的部分,並且所述處理器還被配置成對於聲調語言,將與所述第二話筒電氣信號相比 更多的加權置於所述第一話筒電氣信號。
[0021] 12.根據方案8所述的機動車,其中,所述處理器還被配置成將說出的詞語以語言 分類,並且配置成對於多種語言中的每種,對所述電氣信號具體加權。
[0022] 13.根據方案12所述的機動車,還包括能被所述處理器訪問的語言資料庫,並且 其中,所述語言資料庫包括對於所述語言的語言具體加權係數。
[0023] 14.根據方案8所述的機動車,其中,所述處理器還被配置成基於講話者的聲音來 定製電氣信號處理。
[0024] 15. -種識別語音的方法,包括: 提供具有不同頻率響應的至少第一和第二話筒,其中,所述話筒能夠將聲響能量轉化 成電氣信號; 在處理器中從多個所述話筒接收電氣信號; 處理從所述話筒接收的信號以確定說出的詞語; 將所述說出的詞語分類;以及 基於說出的詞語的所述分類對來自多個話筒的所述電氣信號加權。
[0025] 16.根據方案15所述的方法,其中,由所述話筒產生的電氣信號是包括振幅響應 和相位響應的模擬信號,所述方法還包括: 將所述話筒信號從模擬轉化成數字; 並且其中,對來自多個所述話筒的電氣信號加權還包括對所述電氣信號的振幅響應加 權。
[0026] 17.根據方案15所述的方法,其中,對於所述第一話筒,在少於兩千赫茲下的頻率 響應與對於所述第二話筒相比更高,並且其中,所述方法還包括將說出的詞語分類為屬於 聲調語言或非聲調語言,並且對於聲調語言,高於所述第二話筒地對所述第一話筒加權。
[0027] 18.根據方案15所述的方法,還包括: 用多種語言測試所述話筒和處理器,以及 對於每種測試的語言,開發對所述電氣信號的語言具體加權係數。
[0028] 19.根據方案18所述的方法,還包括採用回歸分析以對於每種測試的語言開發對 所述電氣信號的加權因數。
[0029] 20.根據方案15所述的方法,還包括基於講話者的聲音特性來定製話筒信號處 理。

【專利附圖】

【附圖說明】
[0030] 隨後將結合下面的附圖來描述示例性實施例,其中類似的附圖標記指示類似的元 件,並且在附圖中: 圖1是語音識別系統的第一實施例的立體圖; 圖2是語音識別系統的第二實施例的立體圖; 圖3a和3b是分別示出了對於兩個不同話筒的第一和第二頻率響應的曲線; 圖4是描繪了語音識別系統的方框圖;以及 圖5是機動車的前部的立體圖。

【具體實施方式】
[0031] 下面的詳細描述本質上僅是示例性的,並非旨在對應用和用途構成限制。此外,不 旨在受到在前述【技術領域】、【背景技術】、
【發明內容】
、或下面的【具體實施方式】中給出的任何明示 或暗示理論的限制。
[0032] 如前面所述的,在聲調語言中,傾聽說出的詞語的聲調和音高來理解該詞語的含 義是重要的。在確認說出的詞語的語音識別系統中,必須考慮語言的這種方面。
[0033] 在多數聲調語言中,低於兩千赫茲(KHz)的頻率對於理解說出的詞語來說是最重 要和顯著的。在通訊和語言中使用的某些聲音的音高是高於其他語言的。例如,許多英語 數字具有高頻率部分,例如"six"。重複的數字對於語音識別系統來說是個挑戰(例如,說 出電話號碼),並且,為了理解許多這些詞語,較高的頻率是更重要的。為了理解某些具體聲 音(例如,鼻音、爆破音、摩擦音和塞擦音),較高頻率也是更重要的。鼻音是其中空氣通過 鼻子而不是通過嘴逸出的聲音,並且包括英語字母"η"和"m"。爆破音是其中氣流被阻塞的 停頓,並且包括1"、"(1"、"13"和、"。摩擦音是通過迫使空氣穿過狹窄通道來產生的,並且 包括"s"和"z"。塞擦音以停頓開始,但是以摩擦音釋放,並且包括"ch"和"j"。
[0034] 人類語音總體上在從大約零到二十KHz的範圍內,但是非常少的聲音接近二十 KHz的頻率。在從零到大約八KHz範圍內的記錄總體上足以識別說出的詞語。然而,語音識 別系統可被建立以識別更寬或更窄的頻率範圍。
[0035] 現參閱圖1和2,其示出了根據示例性實施例的語音識別系統10。設置了多個話 筒12(例如,動圈式、帶狀的、電容式、晶體式等)來將聲響能量轉化成電氣信號。多個話筒 12形成話筒陣列,為了簡要起見僅示出了兩個,其中示出的兩個話筒被標識為第一話筒14 和第二話筒16。
[0036] 話筒14和16通過第一和第二模擬至數字(A/D)轉化器18和19來耦接到處理器 20。任何有效耦接都可被使用,包括硬線電氣連接、光纖連接、無線連接或者上面的組合。在 無線連接中,話筒12將聲響能量轉化成電氣信號,並且隨後將電氣信號轉化成無線傳送的 手段,例如無線電波或其他電磁波。接收器22可以隨後從話筒12接收無線傳送,並且將該 無線傳送轉化回到電氣信號以便處理。電氣信號可以在無線傳送之前或之後被從模擬轉化 成數字。
[0037] 由話筒14和16產生的電氣信號是模擬信號,所述模擬信號在A/D轉化器18和19 中被轉化成數位訊號。A/D轉化器18和19的輸出被耦接到處理器20,因此A/D轉化器18 和19被耦接在話筒14和16與處理器20之間。A/D轉化器18和19可以與話筒14和16 以及/或者處理器20 -起定位,或者它可以是獨立部件。在某些實施例中,多個話筒14和 16可以使用單個A/D轉化器18,例如當A/D轉化器18是獨立部件或被附接到處理器20時。
[0038] 處理器20被編程為通過分析從話筒12接受的電氣信號來識別說出的詞語,以便 標識聲音和說過的詞語。也就是說,來自話筒12的電氣信號隨著到達話筒12的聲音的改 變而改變,因此每個聲音都產生可被處理器20標識的獨特電氣信號。隨著聲音被標識,聲 音的組合可被解釋來確定說出的詞語。
[0039] 處理器20可包括存儲器24或能訪問存儲器24來輔助標識聲音、識別詞語、確定 詞語的分類以及語音識別的其他方面。處理器20的採樣率應當是期望帶寬的至少兩倍,因 此在分析在零到八KHz範圍內的語音時應當使用十六KHz的採樣率,但是更高的採樣率也 是可接受的。例如,如果高達二十KHz的語音頻率將被分析,那麼採樣率可以為四十KHz或 者更多。
[0040] 處理器20可以以許多不同方式(包括通過語言)來確定說出的詞語的分類。例 如,處理器20可被編程為將屬於聲調語言或非聲調語言的說出的詞語分類。某些語言比其 他語言更聲調化,並且處理器20可被編程為具有預定標準以在聲調與非聲調語言之間作 出區別(如設計者指定的那樣)。在其他示例中,處理器20可被編程為將說出的詞語分類 成屬於具體語言,例如法語、英語、日語或其他語言。備選地,處理器20可被編程為基於講 話者的音高來區別說出的詞語,因此可以在具有低音的人與具有高音的人之間做出區別。 處理器還可對於其他分類被編程,例如口音、方言或其他標準以及不同類型分類的組合。
[0041] 如圖3a和3b所示,多個話筒12包括至少第一和第二話筒14和16,所述第一和第 二話筒14和16分別具有不同的第一和第二頻率響應26和28。頻率響應是在暴露到一定 範圍或掃描區域的具有相等強度的純聲調時的話筒的電壓輸出。頻率響應是測量話筒12 將多好地感測聲調的範圍的方式。不同的話筒12可具有不同的頻率響應,並且某些話筒12 對於不同任務來說是更好的。
[0042] 圖不的第一和第二頻率響應26和28是假設的,但總體上將第一話筒14表徵為對 於低頻率有強響應但是對於高頻率有弱得多的響應的窄頻帶話筒。第一頻率響應26具有 高達大約四KHz的強頻率響應,但是對於高於大約四KHz的頻率具有明顯較低的響應。第 二頻率響應28被示出為用於對於寬的頻率範圍具有合理響應的寬頻帶話筒,但是對於低 頻率,所述合理響應不像窄頻帶話筒的響應那樣強。換句話說,對於低頻段的能量振幅是相 對較低的。寬頻帶話筒的一個示例對於高達大約七KHz的頻率具有合理響應,但是對於較 低頻率沒有像窄頻帶話筒14那樣高的響應。在該示例中,對於小於四KHz的聲音,並且尤 其是對於小於兩KHz的聲音,第一話筒14具有比第二話筒16更高的頻率響應。然而,在其 他實施例中,第一和第二頻率響應26和28可以與示出的不同。對於聲調語言,語音識別性 能是通過恰當水平的低頻段振幅來改進的。對於低於五百KHz的處理頻率可以有具體的考 慮,因此對於非常低的頻率可以使用或可以不使用另外的因數。這些因數將取決於使用的 話筒12的特性。
[0043] 如圖4所示,並繼續參閱圖1-3,處理器20可被編程為將說出的詞語分類,並且隨 後使用該分類對從話筒14和16接收的信號加權。聲響能量32通過第一和第二話筒14和 16被分別轉化成第一和第二模擬電子信號34和36。模擬電子信號34和36分別包括第一 和第二振幅響應42和44以及第一和第二相位響應46和48,其中振幅和相位響應42、44、 46和48可被在模擬信號34和36內區分。A/D轉化器18和19將模擬電子信號34和36 分別轉化成第一和第二數字電子信號38和40。數字電子信號38和40包括對于振幅響應 42和44的數字表示(其可以是表徵振幅的簡單數字)以及對於相位響應46和48的數字 表示。來自多個話筒14和16中的每個的相位響應46和48可被對準來確保數字電子信號 38和40對於說出的詞語或其他聲音是匹配和對準的。對準可以發生在模擬或數字相,只要 對準對於數字相在正確位置。相位響應46和48可被以多種方式對準,包括來自話筒14的 正時因數或者相位響應46和48的電子比較。
[0044] 在模擬電子信號34和36已轉化成數字格式之後,數字電子信號38和40可以通 過處理器20來分析和分類。處理器20可以採用加權過程50以便對來自話筒14和16的 數位訊號38和40加權。在許多實施例中,加權過程50在處理器20內執行,但是在被處理 器20接收之前,能夠對模擬電氣信號34和36或者數字電氣信號38和40進行加權。信號 在它被轉化成數字格式之前或之後可被總體上操縱,但是處理器20採用數字格式,因此在 許多實施例中以數字格式執行操縱。然而,應當理解的是,以數字形式的信號操縱的引用還 可以以模擬形式來執行。
[0045] 在一個實施例中,第一話筒14對於低頻率具有更好的頻率響應並且對於所述低 頻率提供更強的總體響應。在該實施例中,對於在低頻率上需要額外強調但是在高頻率上 不那麼強調的分類(例如,聲調語言),第一話筒14可以比第二話筒16更重地加權。對於 在高頻率上需要額外強調但是在低頻率上不那麼強調的分類(其可包括非聲調語言),第 二數字電氣信號40可以比第一信號38更重地加權。某些加權可被提供到話筒14和16兩 者,因此較高頻率的聲音是由第二話筒16檢測的,並且採用了第一話筒14的較強低頻率性 能。以此方式,摩擦音或其他高音高的聲音被捕獲,甚至在額外加權被給予到較低頻率時也 是如此。
[0046] 處理器20可以僅對電子信號38和40的振幅響應部分加權。振幅響應42和44 被加權以便強調來自最適合特定任務的話筒14或16的電子信號38或40。數字電子信號 38和40的細節更易於使處理器20通過更強的振幅響應42和44來區別,這有助於更好的 詞語識別。電子信號38和40可被分割成多個不同頻率單元,並且振幅響應42和44的加 權可被對於每個預定頻率單元來執行。聲響能量32可以在多個不同頻率下,並且頻率標度 是連續體,因此多個預定頻率單元可被形成並且用於對電子信號38和40加權。對於電子 信號38和40的相位響應部分,不需要信號加權,所述信號加權可被用於對準來自多個話筒 14和16的電子信號38和40,並用於處理以便識別語音。
[0047] 在處理器20已確定詞語的分類之後,來自話筒14和16的電氣信號38和40的 加權可被以多種方式採用。例如,當在一設定時間段或者一設定數量的詞語或音節內標識 最少量的識別詞語時,處理器20可以將說出的詞語分類。作為非限制性示例,當六個說出 的詞語中至少四個說出的詞語被標識為屬於已知語言時,處理器20可以將說出的詞語分 類。備選地,當一個清楚地標識的詞語被分類為屬於僅一種語言時,處理器20可以將詞語 分類。某些詞語對於多種不同語言可能具有通常含義(例如詞語"no"),因此,當一個字串 中所有標識的詞語都來自一種已知語言時,處理器20可以將詞語分類。許多其他分類技術 可被使用。例如,一組可直接應用的對於語言分類的種屬是聲調語言和非聲調語言。
[0048] 在詞語被分類之後,處理器20根據正在進行的標準繼續對詞語分類,因此訴說語 言的變化將被識別。電氣信號38和40的加權是基於具體分類的。因此,相關加權過程 50可隨後被用於從分類的時候向前進行的所有詞語,至少直到作出新的並且不同的分類為 止。備選地,在作出分類之後,相關加權過程50可被追溯地使用,這需要記錄和檢索某些說 出的詞語。在作出正面分類之後,處理器20回想前面的說出的詞語並且基於該分類對從話 筒14和16接收的信號38和40加權。其他分類和加權過程50也可被使用。語言分類可 以通過使用已知方法(例如,貝葉斯分類器、隱馬爾可夫模型基的分類系統、反傳&前饋神 經網絡基的算法等)來執行。
[0049] 有許多不同方式對話筒信號38和40加權,包括線性和非線性加權。相對簡單加 權公式的一個示例被示出在等式1中: 等式1 :Y (頻率)=A*E (第一話筒)+B*E (第二話筒)+F0。 其中:Y (頻率)=由處理器20使用的加權信號; A=對於第一話筒信號的加權係數; B=對於第二話筒信號的加權係數; E (第一話筒)=來自第一話筒14的振幅響應34 ; E (第二話筒)=來自第二話筒16的振幅響應34 ;以及 F0=音高或基礎諧波。
[0050] 加權係數可以使用多個回歸分析來計算,其中標準可以是對於整個頻率指定的粗 分貝(dB)閾值,以及邊界標準偏差。其他技術也可被用於確定加權係數。在一個例子中, 具有兩組加權係數:一組用於聲調語言,而另一組用於非聲調語言。音高或基礎諧波(其還 可被稱為音高偏移(F0))可被用於改進對於聲調語言的語音識別性能。在其中對於低於兩 KHz的聲音第一話筒14具有比第二話筒16更高的頻率響應的實施例中,對於聲調語言,處 理器20可將更多的加權置於來自第一話筒14的信號上。類似地,對於非聲調語言,處理器 20可以將更多的加權置於來自第二話筒16的信號上。用於區別第一和第二話筒14和16 的響應的頻率可以改變,因此還可以選擇除兩KHz之外的水平,例如三、四或五KHz。
[0051] 在其他實施例中,對於每種已知語言可具有不同加權因數。可具有語言資料庫30, 所述語言資料庫30包括對於每個已知語言的具體加權係數。這類似於用於保持一組對應 於每種語言的係數的查詢表,所述一組係數可被存儲並且持續地適於將來使用。因此,在說 出的詞語被分類為屬於某種語言之後,可以使用對於該語言的具體加權係數。語音識別系 統10可被通過不同語言來測試,以便開發語言具體加權係數。可以從測試結果使用回歸分 析或其他技術來開發係數。在該實施例中,語言具體加權係數可被分配給多個語言中的每 個,並且處理器20將語言具體加權分配到來自從多個話筒14和16的電子信號38和40。
[0052] 處理器20可基於講話者的聲音特性來進一步定製(customize)話筒信號處理。例 如,音高或基礎諧波(等式1中的(F0))可以對於講話者的聲音特性來調節,其中講話者的 聲音提供線索來調節音高偏置的值(F0)。備選地,加權因數A和/或B可以基於講話者的 聲音來調節。例如,如果講話者具有非常低的聲音,那麼對於來自第一話筒14的信號的加 權因數A可以增加。如果講話者具有高的聲音,那麼對於來自第一話筒14的信號的加權因 數A可以某種程度上降低,或者對於來自第二話筒16的信號的加權因數B可以增加。對話 筒信號加權的其他修正也可被用於不同類型的聲音或講話方式。
[0053] 語音識別系統10的輸出52可以是被識別和分類的說出的詞語。這些可包括基於 來自講話者的識別口頭指令(例如,打電話、調節溫度設定或起動計時器)來執行的命令或 動作。輸出52還可以是說出的詞語的顯示,例如與講話者給出的口述匹配的信或其他文 件。還有其他可能的輸出38,例如語言翻譯或其他輸出38。
[0054] 在其他實施例中,可具有多於兩個的話筒12,所述話筒12具有多於兩個的不同頻 率響應因數。上面描述的相同技術和方法可被應用。因此,多個話筒12可被採用,其中每 個話筒12都具有在給定頻率範圍內的特定強度。還能夠提供多個話筒12,所述話筒12具 有多個不同頻率響應26和28,其中所述多個話筒12中的某些話筒12具有相同頻率響應 26,而其他話筒12具有不同的頻率響應28。
[0055] 如圖5所示,並繼續參閱圖1-4,整個聲音識別系統10可被包括在機動車54中。 聲音識別系統10可以在不需要使用者手動地操作旋鈕、按鈕或其他控制件的情況下增加 人類與車輛50的互動。這可以增加不用手的操作,這可以增進安全。例如,車輛40的駕駛 員更換無線電臺、調節氣候控制或者進行其他動作而無需將他們的手從方向盤移開將更安 全。具有聲音識別系統10的互動車輛40可有助於增加的不用手的互動。
[0056] 車輛54具有用於駕駛員和乘客的艙56。話筒12被置於車輛54內並且被定位成 接收來自艙56內的聲響能量32。話筒12本身可被定位在艙56內,或者可被定位在外部 但十分接近艙56以便檢測來自艙56內的聲響能量32。話筒12可被屏幕、格柵、篩網或者 允許聲音經過但是阻止汙物和碎屑的其他保護罩來覆蓋。話筒12上的罩還可以提供免受 衝擊的某些保護。可具有多組話筒12 ;例如,對於前排和後排座的不同組或對於駕駛員的 座位和前排乘客座的不同組。話筒12可被置於儀錶盤、車門、座位或各種其他可能的位置。 測試和/或聲學分析可被用於確定對於每個提供的模型車輛54的話筒12的最好或最佳位 置。處理器20可被定位在車輛54中幾乎任何地方;甚至定位在車輛54外部,並且通過無 線裝置耦接到話筒12。
[0057] -旦安裝,電氣信號38和40的加權可針對特定車輛艙56定製。例如,艙56的聲 響可以修正對於多個話筒12的最佳加權因數。聲學分析或定製測試可被對於每個提供的 車輛模型來執行,而加權係數可以對於車輛模型和艙聲響而定製。修正的加權係數可被保 存在資料庫30中(具體是對於車輛模型的)。因此,不同車輛模型可具有不同加權係數,或 者甚至用於對話筒12加權的不同數學模型,即使使用了相同說出的詞語和相同分類系統。
[0058] 語音識別系統10可被包含在現有車輛互動系統中,例如與商標"0NSTAR"相關聯 的系統。具有變化的頻率響應的話筒陣列的使用可以幫助改進車輛40中語音識別系統10 以及用於其他用途的語音識別系統10的操作和效率。
[0059] 雖然在前面的詳細描述中已經給出了至少一個示例性實施例,但是應當理解的 是,還存在大量變型。同樣應當理解的是,所述一個或多個示例性實施例僅是示例,而無論 如何不旨在限制本公開的範圍、應用或構造。相反,前面的詳細描述將向本領域技術人員提 供實施所述一個或多個示例性實施例的便利線路圖。應當理解的是,在不偏離所附權利要 求及其法律等效物所闡述的本公開的範圍的情況下,可以對諸元件的功能和布置做出各種 改變。
【權利要求】
1. 一種語音識別系統,其包括: 至少第一和第二話筒,其每一個具有不同頻率響應,其中,所述話筒能夠將聲響能量 轉化成電氣信號;以及 處理器,所述處理器耦接到多個所述話筒並且被配置成: 基於從所述話筒接收的信號來識別說出的詞語; 確定說出的詞語的分類;並且 基於所述說出的詞語的所述分類來對從所述話筒接收的信號加權。
2. 根據權利要求1所述的語音識別系統,還包括耦接在所述話筒與所述處理器之間的 模擬至數字轉化器。
3. 根據權利要求1所述的語音識別系統,其中,所述電氣信號包括振幅響應和相位響 應,並且其中,所述處理器還被配置成基於說出的詞語的所述分類來對所述振幅響應加權。
4. 根據權利要求3所述的語音識別系統,其中,所述處理器還被配置成對於多個頻率 單元中的每個頻率單元而對振幅響應加權。
5. 根據權利要求1所述的語音識別系統,其中,對於所述第一話筒,低於兩千赫茲的頻 率響應比對於所述第二話筒更高,並且其中,所述處理器還被配置成將說出的詞語分類為 聲調語言或非聲調語言的部分,並且對於聲調語言,對來自所述第一話筒的信號與來自所 述第二話筒的信號相比更多地加權。
6. 根據權利要求1所述的語音識別系統,其中,所述處理器還被配置成將說出的詞語 以語言分類,並且配置成對於多種語言中的每種,將語言具體加權分配到電氣信號。
7. 根據權利要求1所述的語音識別系統,其中,所述處理器還被配置成基於講話者的 聲音特性來定製電氣信號處理。
8. -種機動車,包括: 艙; 至少第一和第二話筒,每個具有不同頻率響應,其中,所述話筒被定位在所述機動車內 以便從所述艙內接收聲響能量,並且其中,所述話筒將所述聲響能量轉化成電氣信號; 耦接到所述話筒的處理器,其中,所述處理器被配置成: 基於從所述話筒接收的信號來識別說出的詞語; 確定說出的詞語的分類;並且 基於說出的詞語的所述分類對從所述話筒接收的信號加權。
9. 根據權利要求8所述的機動車,其中,所述電氣信號的加權是對於所述艙的所述聲 響定製的。
10. -種識別語音的方法,包括: 提供具有不同頻率響應的至少第一和第二話筒,其中,所述話筒能夠將聲響能量轉化 成電氣信號; 在處理器中從多個所述話筒接收電氣信號; 處理從所述話筒接收的信號以確定說出的詞語; 將所述說出的詞語分類;以及 基於說出的詞語的所述分類對來自多個話筒的所述電氣信號加權。
【文檔編號】G10L15/28GK104157288SQ201410200154
【公開日】2014年11月19日 申請日期:2014年5月13日 優先權日:2013年5月13日
【發明者】G.塔爾瓦, X.趙 申請人:通用汽車環球科技運作有限責任公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀