新四季網

用於激活和/或進行語音對話的裝置、系統和方法

2023-05-17 02:45:26

專利名稱:用於激活和/或進行語音對話的裝置、系統和方法
技術領域:
本發明涉及用於激活語音對話和/或進行語音對話的一種裝置、一種系統和一種 方法。
背景技術:
語音對話系統用於電子儀器、例如車輛電腦,而不需要對觸覺的操作運行進行控 制。根據現有技術已知,用於進行語音對話或用於激活語音對話的裝置根據指令搜索通過 噪聲抑制或回波補償而變得清晰的語音信號。在用於激活語音對話的裝置中,根據確定的 關鍵詞進行搜索,該關鍵詞用於激活語音對話。在用於進行語音對話的裝置中,檢查該語音 信號是否包含作為指令而存儲在集成於語音對話系統中的指令資料庫中的單詞。如果識別 出指令,那麼執行屬於該命令的行為。尤其在幹擾噪聲作用於系統的應用條件下,這樣的用於進行語音對話或用於激活 語音對話的裝置是不可靠的。這尤其在應用於轎車中時是不利的,因為在幹擾影響下、例如 乘客的談話,根據現有技術的裝置常常由於錯誤識別的命令而執行不期望的功能。

發明內容
因此本發明的目的在於,特別抗幹擾地進行語音對話和/或激活語音對話。該目的通過一種根據權利要求1所述的裝置和一種根據權利要求19所述的方法 實現。在從屬權利要求中給出有利的改進方案。指令分析的可靠性通過如下方式顯著提高,即該裝置不僅包括用於確定語音信號 中是否包含指令的語音識別單元和用於取決於在語音信號中識別的指令而產生輸出信號 的決策單元,還包括用於根據語音信號和至少一個存儲的講話者模型而識別講話者的講話 者識別單元,其中這樣設計決策單元,即取決於指令的結果行為的執行取決於,至少部分產 生語音信號的講話者是否被講話者識別單元識別為相應於存儲的講話者模型的講話者。語音識別單元可理解為一個設計用於鑑定來自語音信號的指令和/或指令結構 的單元。也就是說,根據語音模型和根據存儲的指令,分析語言信號中是否包含/包含哪些 指令或指令結構。如果包含指令,那麼它被識別為相應的有效指令。在這種情況下,指令不一定只是單個的詞。在此更確切地說意味著語音輸入的每 種形式。例如,概念「指令」也意味著數列/號碼序列、句子成分和/或完整的句子。講話者識別單元可理解為可以特別設計用於從語音信號中提取講話者特徵並用 於把該講話者特徵與之前存儲在至少一個講話者模型中的、取決於講話者的特徵相比較的 單元,其中根據比較確定當前的講話者和對應於講話者模型的講話者一致或不一致。有利 地這樣設計講話者識別單元,即當語音信號完全來自對應於講話者模型的講話者時,也就 是說多人同時講話而信號有利地不對應於任何講話者時,才確定一致。待執行的結果行為可以是不同類型的結果行為。在用於激活語音對話的裝置中,結果行為例如可以是雙重事件的輸出,這作為信息僅包括是否應該進行語言對話的激活的決定。可替換地,該事件可以包括關於引起激活 的講話者的信息,從而產生取決於講話者的激活信號。在用於進行語音對話的裝置中,作為結果行為的語音輸出尤其重要。可以利用它 將信息、例如其它選項通知給講話者。例如如果講話者要調用關於位於附近的餐館的信息 並使用了與之相應的指令,那麼語音對話系統可以要求講話者從多個可能的餐館類型中作 出選擇。其它的可能的結果行為是控制車輛功能的控制事件。例如可以向用於座位加熱的 控制系統發送用於提高加熱溫度的事件。此外,可以輸出用於調用位於車輛中的其它系統 的信息的控制信號。此外結果行為還可能由控制事件和語音輸出組成。本領域技術人員由 根據現有技術的用於進行語音對話的裝置還已知了其它的可能的輸出信號。此外,本發明還涉及一種方法其中首先接收語音信號;其中隨後識別存在於語 音信號中的指令或指令結構;並且其中根據語音信號和至少一個講話者模型識別講話者; 其中在識別指令和講話者之後,取決於講話者和指令的識別的結果執行結果行為。這樣有利地設計決策單元,即當由講話者識別單元將包含指令的語音信號鑑定為 來自授權的講話者時,那麼僅僅執行取決於指令的結果行為。也就是說將講話者識別單元 和語音識別單元的結果與存儲在使用者模型中的數據比較,並檢查講話者是否被授權。根據實施例,可以反饋缺乏授權的情況。這種反饋的優點在於,講話者可以在未識 別或識別之間區分作為未充分授權的講話者。重要的是,通過由無資格的講話者輸入的指令不會觸發對應於指令的待執行的結 果行為,也就是說,來自無資格的講話者的指令不會導致結果行為或導致與授權的講話者 不同的結果行為。在一個有利的實施例中,可以不取決於講話者執行特定的指令。由此例如可以控 制不對駕駛員造成妨礙的車輛功能。在這裡對於用於進行語音對話的裝置來說,對副駕駛 座和/或後排座的加熱可以作為一個實例,該加熱也可以由其他的作為授權的講話者的人 員進行調節。然而有利地,在輸入這些指令時不進行語音對話,也就是說,語音對話系統對 未識別的講話者的指令反應為沒有語音輸出的純語音控制,以用於控制毫無疑問的車輛功 能。在用於激活語音對話的裝置中也可以建立不取決於講話者的指令。因此例如可以這樣 實現激活,即可接收通過指令分析單元產生的激活信號,可以期望的是具有縮小的功能範 圍的乘客訪問(Passagierzugriff)。例如在這種乘客訪問中,進行作為純語音控制的激活, 其絲毫沒有輸出聲學的反饋且僅設計用於執行毫無疑問的車輛功能的控制指令。在另一有利的實施例中,裝置設計為用於激活-和進行語音對話的組合裝置。也 就是說,在未激活狀態中,該裝置用於激活語音對話。如果該裝置通過關鍵詞由授權的講話 者激活,那麼其作為用於進行語音對話的裝置工作。對這樣作為組合系統的設計來說尤其可能的是,定義多個不同的關鍵詞。該裝置 可以通過第一關鍵詞由授權的講話者這樣激活,即該裝置僅執行授權的講話者的隨後的 其它指令。此外,可以構造第二關鍵詞,這使該裝置進入一種狀態,在該狀態中裝置執行任 意講話者的指令。然而有利地,授權的講話者的指令具有更高的優先權,也就是說,授權的 講話者的指令不會被其他人的隨後的指令打斷,然而甚至可以中斷執行其他人的指令。在一個有利的實施例中,語音識別單元具有單詞識別單元和後續的結構識別單元。單詞識別單元設計用於這樣識別來自語音信號的單詞,即從語音信號中提取語音特徵 並與儲存的語音特徵比較。因此結構識別單元通過單詞識別單元識別這樣檢查單詞序列, 即該單詞序列是否包括包含指令的結構。該裝置有利地具有前置於講話者識別單元和/或指令識別單元的回波補償單元。 該回波補償單元具有至少一個用於單聲道_、立體聲-和/或多聲道-揚聲器信號的輸入 端。由此可以補償揚聲器信號對語音信號的影響,其方法是計算或估算通過揚聲器信號產 生的分信號並將其從語音信號中減去。此外,回波補償單元可以包括用於補償由其他人產生的語音分量的子單元。該子 單元有利地具有至少一個附加的麥克風輸入端。該子單元可以設計用於補償通過與附加的 麥克風輸入端相連的其它麥克風接收的、其他人的語音分量的影響。也就是說,該子單元設 計用於根據其它麥克風的輸出信號,估算或計算其他講話者的語音分量對語音信號的影響 並通過從語音信號中減去來補償該影響。可替換地,或除了使用其它麥克風以補償其他講 話者的語音分量之外,為了該目的該子單元還可以設計用於過濾與聲音基礎頻率同步的語 音信號。可替換地或附加地在下面的情況下,即用於語音信號的輸入端設計用於多聲 道-語音信號,或存在多個麥克風輸入端,該子單元則可以設計用於根據之前確定的、估 算的或給定的、講話者的地點來實現不同的語音聲道的在時間上的聯繫作用。也就是說,如 果使用了多個麥克風,那麼從語音信號中減去所有不是來自預期地點的講話者的語音信號分量。回波補償單元設計用於將相應的變得清晰的語音信號傳送至講話者識別單元和/ 或語音識別單元。此外,該裝置有利地包括尤其可以布置在回波補償單元之後的噪聲抑制單元。噪聲抑制單元設計用於抑制不變的和也有利的是似穩的(也就是說在時間上緩 慢變化的)噪聲分量。有利地,噪聲抑制單元尤其這樣設計用於通過頻率特性適應來參數化地匹配語音 信號的噪聲行為特性,即語音信號的噪聲屬性匹配於集成在語音識別單元中的語音模型的 噪聲屬性。通過噪聲屬性的這樣的匹配確保了不會通過噪聲抑制而造成經過噪聲抑制處理 的語音信號與語音識別單元的語音模型的不兼容性。有利地,講話者識別單元和/或語音識別單元設計用於使被識別的講話者向決策 單元的輸出與通過語音識別單元的被識別的指令的輸出同步。通過該同步確保了,結果行 為的激活可靠地取決於,講話者和指令是否在語音信號的相同部段中被識別。有利地,在講話者識別單元中集成了另外的單元,該單元設計用於講話者適應 (Sprecheradaption),也就是說用於不斷確定細化的取決於講話者的特徵以及用於把該細 化的取決於講話者的特徵存儲在對應於當前的講話者的講話者模型中。有利地,通過該另 外的單元可以把取決於時間的變化作為屬性存儲在講話者模型中。尤其有利地,語音識別單元也包括用於講話者適應的附加單元。由此可以通過語 音識別單元與當前的講話者的匹配而顯著地提高指令識別的可靠性。有利地,並聯於講話者識別單元和語音識別單元布置了用於根據語音信號檢測駕駛員的狀態的駕駛員狀態檢測單元,該駕駛員狀態檢測單元設計用於根據語音信號來檢測 駕駛員的狀態並發送至決策單元,其中駕駛員狀態的檢測有利地展示了至少關於行駛能力 (例如疲勞、吸毒和/或超載)或情緒狀況(例如激動、憤怒、精力集中、放鬆和/或平靜) 的信息。有利地,該裝置具有至少一個用於存儲使用者模型和/或至少一個講話者模型的 存儲裝置。該存儲裝置可設計為中央存儲單元,其中講話者識別單元、語音識別單元和決策 單元與該中央存儲單元連接。可替換地,該裝置具有多個存儲裝置,其中至少一個存儲裝置 分別集成在講話者識別單元、語音識別單元和/或決策單元中。有利地,至少一個存儲裝置具有至少一個用於輸入或輸出數據的埠,從而能夠 傳輸講話者和/或使用者模型。例如由於購買新車而更換車輛時,這是尤其有利的,這是因 為因此可以避免完全重新設定講話者模型和使用者模型。在一個特別有利的實施例中,該裝置這樣設計,S卩如果通過決策單元來執行結果 行為,則也考慮輸入的語音信號,以及通過包含在語音信號中的指令至少部分地中斷由在 前的指令觸發的結果行為的執行。部分的中斷可以在於,即在繼續執行通過在前的指令觸 發的控制事件期間中斷語音輸出。因此,講話者不必完全等待語音輸出。由此可以明顯加 速語音對話,尤其是當已經熟悉該裝置的講話者已經知道了通過語音輸出通知的選項時。 此外有利的是,當使用者期望的選項已被讀出後,可以中斷列舉可能的選項。此外有利的是,用於激活語音對話和/或進行語音對話的系統具有至少一個揚聲 器、至少一個麥克風以及根據本發明的用於激活語音對話或進行語音對話的裝置。有利地, 至少一個麥克風具有自動的放大適配性(Verstaerkungsanpassung)。該系統可以用於通過至少一個揚聲器輸出單聲道_、立體聲-或多聲道-音頻信 號,以及用於通過至少一個麥克風採集單聲道_、立體聲-或多聲道-語音信號。此外取代 或除了單個麥克風之外,還可以包括麥克風陣列。如果存在多個麥克風,那麼這些麥克風有利地這樣布置或可這樣布置,即麥克風 的最大靈敏性的區域相應於其方向特性在授權的講話者的推測的或確定的停留區域中進 行覆蓋,以及用於處理麥克風信號的後續單元通過對信號的時間延遲的合計以及其它信號 處理方法分離出授權的講話者的信號,每個授權的講話者的信號在其聲道中提高,並且所 有其它講話者的信號和幹擾信號減小(所謂的「beam forming (波束成形)」)。有利地,該系統包括用於使麥克風自動對準授權的講話者的跟蹤裝置。該跟蹤裝 置可以設計用於分析通過麥克風接收的信號的渡越時間延遲從而獲得授權的講話者的位 置,並且然後使麥克風對準該位置。


下面根據圖1至4說明本發明的實施例。附圖示出圖1示出根據本發明的用於激活語音對話的系統的第一實施例;圖2示出根據本發明的用於進行語音對話的系統的第一實施例;圖3示出根據本發明的用於激活語音對話的系統的第二實施例;圖4示出根據本發明的用於進行語音對話的系統的第二實施例。
具體實施例方式圖1示出用於激活語音對話的系統1。該系統分析通過麥克風2接收的語音信號 8。該語音信號包括通過使用者進行的聲學的語音輸入3以及多個幹擾信號,即車輛內部 空間4中的其他人的語音分量、車輛周圍環境5的噪聲、通過揚聲器6的來自無線電收發設 備觀的音樂和/或來自語音對話輸出27的語音輸出信號、以及語音輸入和幹擾信號的聲 波反射7。語音信號8被輸入到回波補償單元9中。回波補償單元9具有用於揚聲器信號 10的附加的輸入端。回波補償單元利用揚聲器信號10計算幹擾信號6對語音信號8的影 響。此外,回波補償單元計算聲波反射7的通過幹擾信號引起的分量以及其對語音信號8 的影響。由回波補償單元補償了因此是已知的影響,並且從回波補償單元9發出經回波補 償的語音信號11。經回波補償的語音信號11在輸入端方面輸入噪聲抑制單元12中並經歷噪聲補 償。由此減去信號11的靜態背景。此外,補償似穩的、也就是說緩慢變化的噪聲分量。此 外,通過頻率特性適應來參數化地匹配信號11的噪聲行為特性。由此,使信號11的噪聲 屬性匹配關鍵詞識別單元的語音模型的噪聲屬性。這樣地經噪聲補償的信號15經過第一輸出端13和第二輸出端16輸出。第一輸出端13與講話者識別單元14連接。講話者識別單元14設計用於從信號 15中提取講話者特徵。該講話者識別單元把提取的講話者特徵依次與在存儲裝置17裡的 講話者模型中存儲的特徵這樣比較,即分別依次調出講話者模型並把存儲在其中的特徵與 提取的特徵比較。對此重複操作,直到把提取的特徵與所有存儲的講話者模型比較。這樣 確定,提取的特徵是否與講話者模型之一的特徵一致。如果確定了這種一致,那麼講話者識別單元通過輸出端23把關於識別的講話者 的信息傳輸至語音對話激活單元四。此外,另一個用於講話者適應的單元20集成在講話者識別單元14中,該另外的單 元設計用於持續細化取決於講話者的特徵。該另外的單元將細化的、取決於講話者的特徵 存儲在屬於講話者的、存儲在存儲裝置17上的講話者模型中。該另外的單元20設計用於,確定講話者內容特徵的取決於時間的變化並將之作 為屬性存儲在存儲裝置17上的講話者模型中。關鍵詞識別單元M與講話者識別單元14並聯地布置。該關鍵詞識別單元設計用 於識別,語音信號中是否包含或包含哪些有效的指令或有效的語音指令形式。通過輸出端 25輸出相應確定的指令。此外,關鍵詞識別單元包含用於講話者適應的附加單元18。附加單元設計用於對 當前的授權的講話者的關鍵詞識別進行優化。為此,附加單元從語音信號中提取語音特徵, 並將其與存儲在講話者模型中的單個的語音特徵相比較。取決於比較結果對單個的語音特 徵進行細化和/或補充。由此可以將語音特徵的在時間上的變化作為屬性進行檢測,並存 儲在講話者模型中。在識別關鍵詞時會考慮這樣確定/補充的單個的語音特徵。因為這樣 用於關鍵詞識別的語音模型可以匹配當前的講話者,所以可以顯著提高關鍵詞識別的可靠 性。在講話者識別單元14和關鍵詞識別單元M之後布置了語音對話激活單元四。當 由關鍵詞識別單元M識別了相應的指令並且同時由講話者識別單元識別了有權激活的講話者時,語音對話激活單元設計用於輸出一個或多個事件26。語音對話輸出27可激活事件中任一個,並且未示出的語音對話系統可激活另一 事件。圖2示出用於進行語音對話的系統30的實施例。該系統取代關鍵詞識別單元M 而具有更複雜的語音識別單元31,以及取代語音對話激活單元四而具有語音對話單元32。語音識別單元31與第一實施例中的關鍵詞識別單元24的區別主要在於,不僅將 一些關鍵詞、而且也將多個不同的指令識別為有效,以及不僅識別單詞自身、而且也識別了 由單詞組成的結構。為此,語音識別單元31劃分為用於識別單詞的單詞識別單元19以及 用於識別通過單詞組成的結構的結構識別單元21。在用於語音對話激活的系統中這種劃分 也是有利的。用於講話者適應的附加單元18集成在單詞識別單元19中,並在那裡起到與 在第一實施例中相同的作用。語音對話單元32也具有相應更大的功能範圍。語音對話單元設計用於進行與授 權的講話者進行語音對話,其中語音對話流程適應性地由授權的講話者控制。例如,使用 者可以通過選擇菜單的不同選項來控制這種語音對話流程。例如在使用者選擇選項之後, 他可以到達具有其它選項的其它菜單。除了進行語音對話之外,語音對話單元32還設計用 於,根據授權的講話者的指令來輸出用於車輛功能的不同的控制信號。除了與第一實施例的上述區別之外,在圖2中示出的實施例的不同之處還在於, 代替一個揚聲器6布置了多個揚聲器6。然而,如在第一實施例中那樣,這些揚聲器也僅設 計用於輸出單聲道信號。與前述實施例的區別還在於,噪聲抑制單元具有第三輸出端22。該輸出端連接至 駕駛員狀態識別單元39。該駕駛員狀態識別單元用於識別駕駛員的狀態,如嘶啞、疲勞、醉 酒、吸毒或憤怒。將識別出的駕駛員狀態傳輸到語音對話單元。語音對話單元設計用於在關於結果 行為的決策方面對駕駛員狀態加以考慮。與圖1的實施例的區別還在於,該系統設計用於幹涉,也就是說如果當還在基於 前述指令進行語音輸出的同時識別出指令,則中止該語音輸出。圖3示出了語音對話激活系統的第二實施例。該實施例與圖1所示的實例的區別 在於,代替揚聲器6而設有揚聲器組合33。揚聲器組合設計用於輸出單聲道_、立體聲-和 多聲道信號34。相應地,回波補償單元設計用於補償多聲道信號34。此外,正如在圖2中 所示的實施例那樣,語音對話激活系統包括駕駛員狀態識別單元39。圖4示出用於進行語音對話的系統的第二實施例。在該實施例中代替單個麥克風 2安裝了麥克風陣列35以及一些另外的麥克風36。麥克風陣列以及另外的麥克風這樣設 計,即它們具有方向特性,也就是說它們優選地接收來自特定的空間區域的聲波。通過麥克 風陣列35接收了多聲道語音信號37,該多聲道語音信號取代語音信號8被傳輸至回波補償 單元。此外,在此也使用揚聲器組合用於輸出單聲道_、立體聲-和多聲道信號。麥克風陣列35可以包括未示出的麥克風跟蹤裝置,該麥克風跟蹤裝置使陣列的 麥克風自動跟蹤授權的講話者。為此,麥克風跟蹤裝置分析語音信號相對於陣列的不同麥 克風的渡越時間差並因此確定授權的講話者的地點。
通過麥克風陣列接收的語音信號在輸入到回波補償單元中之前,在連接在麥克風 陣列之後的、用於處理麥克風信號的單元中通過信號的時間延遲的相加得出總和來進一步 處理。由此將授權的講話者的信號分離並減小所有其它的講話者信號和幹擾信號。另外的麥克風36中的任一個對齊每個其它的車輛位置。回波補償單元包括子單 元38,該子單元設計用於根據另外的麥克風36的信號補償在車輛內部空間中的其他人對 信號37的影響。也就是說,該子單元根據另外的麥克風36的信號計算其他人對信號37的 可能的影響,並相應地減去該信號分量。此外,回波補償單元分析多聲道語音信號37的不同聲道的渡越時間差,並且去除 信號37的所有分量,這些分量相應於其渡越時間差並不從授權的講話者的地點出發。附加地,在圖4中所示的實施例的不同之處在於,存儲裝置17與用於連接USB端 口、讀卡器或光碟機的輸出端40連接。由此,能夠實現使用者模型的輸入和/或輸出。當然,揚聲器和麥克風的選擇不取決於是否存在用於進行語音對話或激活語音對 話的系統,也就是說,根據圖2或4的具有揚聲器/麥克風布置的、用於激活語音對話的系 統,或根據圖1或3的具有揚聲器/麥克風布置的、用於進行語音對話的系統也都是有利 的。
權利要求
1.一種用於激活語音對話和/或進行語音對話的裝置(1 ;30),尤其應用在車輛內部空間中,所述裝置具有-至少一個用於語音信號(8 ;37)的輸入端;-語音識別單元04 ;31),用於確定在輸入的所述語音信號中是否包含以及包含哪些 指令;以及-在輸入端方面與所述語音識別單元的輸出端連接的決策單元09 ;32),所述決策單 元適於取決於在所述語音信號(8;37)中識別出的指令執行結果行為06),其特徵在於,-所述裝置附加地包括講話者識別單元(14);-所述講話者識別單元適於根據所述語音信號和至少一個存儲的講話者模型確定當前 的講話者;-其中所述決策單元附加地在輸入端方面與所述講話者識別單元連接並這樣設計,即 取決於所述指令的所述結果行為06)的激活至少在一些指令中取決於,是否將所述指令 鑑定為來自對應於所述講話者模型的講話者。
2.根據權利要求1所述的裝置,其特徵在於,所述決策單元09;32)設計用於把所述 講話者識別單元(14)和所述語音識別單元04 ;31)的結果與之前存儲在使用者模型中的、 針對講話者的信息相比較和相聯繫,其中如果所述當前的講話者未被授權執行所述結果行 為,則抑制至少一個取決於指令的結果行為的執行。
3.根據權利要求1或2所述的裝置,其特徵在於,所述決策單元09;32)這樣設計,即 不取決於對應於所述講話者模型的所述講話者的所述識別來執行一些指令。
4.根據權利要求1至3中任一項所述的裝置,其特徵在於,所述裝置設計為用於進行語 音對話和激活語音對話的組合裝置。
5.根據權利要求1至4中任一項所述的裝置,其特徵在於,語音分析單元04;31)包 括用於識別單詞的單詞識別單元(19)以及後續的、用於識別構成指令的結構的結構分析 單元01)。
6.根據權利要求1至5中任一項所述的裝置,其特徵在於,回波補償單元(9)緊鄰或 非緊鄰地前置於所述講話者識別單元(14)和/或所述語音識別單元04 ;31),其中所述回 波補償單元(9)具有一個或多個用於揚聲器信號(10 ;34)的、尤其是用於處理單聲道_、立 體聲-和/或多聲道-揚聲器信號(10 ;34)的輸入端,以及設計用於補償所述揚聲器信號 (10 ;34)對所述語音信號(8 ;37)的影響。
7.根據權利要求6所述的裝置,其特徵在於,所述回波補償單元(9)具有用於補償其他 人的語音分量的子單元(38),所述子單元有利地與至少一個用於連接附加的麥克風(36) 的輸入端連接。
8.根據前述權利要求中任一項所述的裝置,其特徵在於,噪聲抑制單元(1 緊鄰或非 緊鄰地前置於所述講話者識別單元(14)和/或所述語音識別單元04 ;31)。
9.根據權利要求1至8中任一項所述的裝置,其特徵在於,所述講話者識別單元(14) 和/或所述語音識別單元04 ;31)設計用於使通過所述講話者識別單元(14)識別的所述 講話者向所述決策單元位9 ;32)的輸出與由所述語音識別單元04 ;31)識別的指令的輸 出同步。
10.根據權利要求1至9中任一項所述的裝置,其特徵在於,所述講話者識別單元(14) 設計用於通過從所述語音信號中提取講話者特徵並把所述講話者特徵與存儲的取決於講 話者的特徵相比較來鑑定所述當前的講話者,以及所述講話者識別單元有利地包括另外的 單元(20),所述另外的單元設計用於講話者適應,也就是說用於不斷確定的細化的取決於 講話者的特徵以及用於把所述細化的取決於講話者的特徵存儲在存儲的所述講話者模型 中。
11.根據權利要求1至10中任一項所述的裝置,其特徵在於,並聯於所述講話者識別單 元(14)和所述語音識別單元04 ;31)布置了用於根據所述語音信號(8 ;37)檢測駕駛員的 狀態的駕駛員狀態檢測單元(39)。
12.根據權利要求1至11中任一項所述的裝置,其特徵在於,所述語音識別單元包括附 加單元(18),所述附加單元設計用於檢測所述講話者的所述講話者特徵的取決於時間的變 化作為屬性並將所述變化存儲在對應於所述講話者存儲的所述講話者模型中。
13.根據權利要求1至12中任一項所述的裝置,其特徵在於,所述裝置具有至少一個 存儲裝置(17),所述存儲裝置尤其可以設計用於存儲所述使用者模型和/或所述講話者模 型。
14.根據權利要求13所述的裝置,其特徵在於,所述至少一個存儲裝置(17)具有用於 輸出和/或輸入存儲的所述講話者模型和/或所述使用者模型的輸入端和/或輸出端。
15.根據前述權利要求中任一項所述的裝置,其特徵在於,所述裝置這樣設計,即在所 述結果行為06)的所述執行期間也激活所述裝置以用於分析所述語音信號(8;37),所述 裝置尤其這樣設計,即在識別來自授權的所述講話者的指令時,至少部分地中斷由在前的 指令觸發的所述結果行為的所述執行。
16.一種用於激活語音對話和/或進行語音對話的系統,所述系統具有根據權利要求 1至15中任一項所述的裝置;至少一個麥克風O ;35)和至少一個揚聲器(6 ;33)。
17.根據權利要求16所述的系統,其特徵在於,所述系統包括這樣布置的多個麥克風 (2)或至少一個麥克風陣列(25),即通過所述麥克風的方向特性給定的最佳接收的區域覆 蓋了在授權的講話者的推測的停留區域中的至少一些所述麥克風O ;35)。
18.根據權利要求17所述的系統,其特徵在於,所述麥克風設計為自動地對準通過所 述麥克風檢測的、所述講話者的位置。
19.一種用於激活語音對話和/或進行語音對話的方法,包括以下步驟-接收語音信號(8 ;37);-從所述語音信號(8 ;37)中識別指令或指令結構;-根據所述語音信號(8 ;37)和至少一個存儲的講話者模型識別講話者;-隨後取決於識別的所述指令和識別的所述講話者執行結果行為06)。
20.根據權利要求19所述的方法,其特徵在於,識別所述指令或所述指令結構的步驟 包括子步驟-識別包含在所述語音信號中的單詞,-識別由所述單詞構成的所述指令結構。
21.根據權利要求19或20所述的方法,其特徵在於,在識別所述指令之前和/或在識 別所述講話者之前這樣進行回波補償,即從所述語音信號中去除由於在乘客車廂中的反射產生的揚聲器信號的疊加,其方法是計算由於所述揚聲器信號產生的所述疊加並從所述語 音信號中減去所述疊加。
22.根據權利要求21所述的方法,其特徵在於,確定所述語音信號(8;37)的由其他人 引起的語音信號分量G),並至少部分地從所述語音信號(8 ;37)中去除。
23.根據權利要求19至22中任一項所述的方法,其特徵在於,所述語音信號(8;37)設 計為多聲道語音信號(37)。
24.根據權利要求23所述的方法,其特徵在於,通過所述多聲道語音信號(37)的不同 聲道的不同時間推移的信號的在時間上的聯繫,提取並分離來自授權的所述講話者的地點 之一的、所述語音信號(8 ;37)的所述分量。
25.根據權利要求19至M中任一項所述的方法,其特徵在於,所述結果行為的所述執 行與識別的所述指令之間的相關性在於,當沒有識別所屬的所述講話者時或所屬的所述講 話者沒有授權對所述結果行為進行指示時,抑制所述結果行為06)的所述執行。
26.根據權利要求19至25中任一項所述的方法,其特徵在於,在識別所述指令或所述 講話者之前進行噪聲抑制。
27.根據權利要求19至沈中任一項所述的方法,其特徵在於,為了識別授權的所述講 話者,從所述語音信號(8;37)中提取講話者特徵並把所述講話者特徵與存儲在所述講話 者模型中的單個的講話者特徵比較。
28.根據權利要求27所述的方法,其特徵在於,進行講話者適應,通過所述講話者適 應,持續地細化和補充了存儲在所述講話者模型中的所述單個的講話者特徵。
29.根據權利要求19至觀中任一項所述的方法,其特徵在於,檢測所述講話者特徵的 取決於時間的變化作為屬性並將所述變化存儲在所述講話者模型中。
30.根據權利要求19至四中任一項所述的方法,其特徵在於,為了識別所述指令,從所 述語音信號(8;37)中提取語音特徵並把所述語音特徵與存儲在所述講話者模型中的單個 的語音特徵相比較。
31.根據權利要求30所述的方法,其特徵在於,進行所述講話者適應,通過所述講話者 適應,持續地細化和補充了存儲在所述講話者模型中的所述單個的語音特徵。
32.根據權利要求19至31中任一項所述的方法,其特徵在於,檢測所述語音特徵的取 決於時間的變化作為屬性並存儲在所述講話者模型中。
33.根據權利要求19至32中任一項所述的方法,其特徵在於,根據所述語音信號(8; 37)檢測駕駛員狀態。
34.根據權利要求19至33中任一項所述的方法,其特徵在於,可通過輸入其它語音信 號來中斷所述結果行為的後續的執行,所述其它語音信號包含授權的所述講話者的其它指 令。
35.根據權利要求19至34中任一項所述的方法,其特徵在於,根據所述語音信號確定 授權的所述講話者的所述地點,以及不取決於包含於所述語音信號中的所述指令而產生用 於使至少一個麥克風對準授權的所述講話者的所述地點的控制信號。
36.根據權利要求19至35中任一項所述的方法,其特徵在於,所述結果行為的所述執 行包括輸出語音對話信號。
37.根據權利要求19至36中任一項所述的方法,其特徵在於,所述結果行為06)的所述執行包括所述控制信號的信號輸出,所述控制信號用於控制集成於車輛中的裝置的功 能。
全文摘要
本發明涉及用於激活和/或進行語音對話的一種裝置、一種系統和一種方法。根據本發明的用於激活和/或進行語音對話的裝置具有語音識別單元、講話者識別單元以及決策單元。該決策單元設計用於取決於語音識別單元和講話者識別單元的結果激活結果行為。
文檔編號G10L15/06GK102054481SQ20101052730
公開日2011年5月11日 申請日期2010年10月29日 優先權日2009年10月30日
發明者卡爾-海因茨·克諾布爾, 哈爾羅·赫普肯, 戴維·肯普夫, 漢斯-威廉·呂爾 申請人:大陸汽車有限責任公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀