新四季網

在基於語音的系統中的應用焦點的製作方法

2023-07-22 07:34:56


本申請要求於2014年12月19日提交的、標題為「applicationfocusinspeech-basedsystems」的美國專利申請號14/578,056的優先權,該專利申請通過引用被全部併入本文。

背景

家、辦公室、汽車和公共空間正變得更有線並與激增的計算設備例如上網本計算機、平板計算機、娛樂系統和可攜式通信設備連接。當計算設備發展時,用戶與這些設備交互的方式繼續發展。例如,人可通過機械設備(例如鍵盤、滑鼠等)、電氣設備(例如觸控螢幕、觸控板等)和光學設備(例如運動檢測器、攝像機等)與計算設備交互。與計算設備交互的另一方式是通過音頻設備,其理解人類語音並對人類語音做出響應。

附圖簡述

參考附圖描述詳細描述。在附圖中,參考數字的最左邊的數字標識參考數字首次出現的附圖。相同的參考數字在不同附圖中的使用指示相似或相同的部件或特徵。

圖1是包括本地音頻設備和遠程基於語音的服務的話音交互計算體系結構的方框圖。

圖2是示出在本地音頻設備和遠程基於語音的服務之間的信息流的例子的方框圖。

圖3是示出與將含義路由到不同應用有關的信息流的例子的方框圖。

圖4是示出選擇和/或指定主要活動和次要活動應用的示例方法的流程圖。

圖5是示出實現對主要活動應用的超時的示例方法的流程圖。

圖6是示出處理來自本地音頻設備的音頻以確定由用戶表示的含義並對含義做出響應的示例方法的流程圖。

圖7是示出路由從用戶話語得到的含義的示例方法的流程圖。

圖8是示出本地音頻設備的選定功能部件的方框圖。

圖9是示出可部分地用於實現本文所述的基於語音的服務的伺服器設備的部件的方框圖。

詳細描述

本公開描述用於與用戶交互以提供服務的設備、系統和技術。如本文公開的系統可配置成接收用戶語音並基於從在不同用戶的家中的音頻設備接收的音頻來對用戶語音做出響應。

系統可包括基於語音的服務,其由基於網絡的應用訪問以結合家中音頻設備來提供服務。應用可作為基於語音的服務的部分或由第三方提供者實現。基於語音的服務允許應用從家中音頻設備接收信息並使用家中音頻設備來執行操作。

應用可將指令音頻設備執行音頻活動的命令發送到音頻設備。例如,應用可指令音頻設備播放音樂。作為音頻活動的另一例子,應用可指令音頻設備使用基於語音的服務或音頻設備的文字到語音能力來播放語音。

應用也可通過音頻設備進行與用戶的語音對話。語音對話包括與用戶的特定行動或意圖有關的一序列語音問題、答案和/或陳述。更具體地,語音對話可包括一系列語音表達,其可包括用戶的話語和由基於語音的服務產生的語音消息。語音對話例如可在初始的用戶話語時開始。基於語音的服務可通過問問題例如「你想做什麼」來做出響應。用戶可通過在回答問題時做出陳述來做出響應。這個過程可迭代,直到基於語音的服務能夠確定要採取的特定行動或要調用的功能為止。

應用還可配置音頻設備以響應於由音頻設備本身檢測或監測的條件來發出可聽得見的通知。例如,音頻設備可配置成在一天的指定時間或在指定的時間段之後發出警報。作為另一例子,音頻設備可配置成響應於結合家自動化或家安全系統檢測的事件而發出通知。通知可以是在背景中播放且不要求即時的用戶注意或交互的被動通知。通知可以可選地包括比前景通知更大聲或更顯著並要求用戶的更即時的行動或確認的主動或前景通知。

音頻設備的用戶可通過講話來向應用提供指令。音頻設備捕獲包括用戶語音的聲音並向基於語音的服務提供對應的音頻信號。基於語音的服務在音頻上執行自動語音識別(asr)和自然語言理解(nlu)以確定用戶語音的含義。含義作為例子可包括「播放音樂」、「暫停」、「停止」、「設置警報」、「呼叫bob」、「播放天氣簡語」、「播放當前新聞摘要」、「訂購披薩」、「創作電子郵件」、「音量調大」、「音量調小」、「消音」、「設置警報」、「取消」等。

響應於確定用戶語音的含義,基於語音的服務確定多個可用或活動應用中的哪個應被選擇來對含義做出響應。單獨的應用可向基於語音的服務註冊以指示它們能夠操縱的含義。可註冊用於操縱單獨的含義的多個應用。作為例子,可註冊幾個應用以通過執行關於由應用正執行的活動的「停止」行動來對「停止」含義做出響應。注意,從「停止」含義產生的行動取決於最終被請求操縱含義或對含義做出響應的應用。例如,一個應用可停止播放音樂而另一音樂可停止或取消警報。更一般地,從任何特定的含義產生的行動可以不同,取決於接收含義並對含義做出響應的應用。在一些情況下,應用可通過發起隨後的對話打開例如通過產生對用戶語音的含義的語音響應而對特定的含義做出響應。語音響應可請求澄清允許基於語音的服務完全確定用戶的意圖的信息。在其它情況下,應用可通過執行至少部分地通過含義指示的行動來做出響應,例如「由藝術家a演奏音樂」。

當單獨的應用指令音頻設備發起活動時,應用提供與應用相關聯的應用標識符。當音頻設備執行活動時,音頻設備將關於活動的事件消息發送到基於語音的服務。例如,事件消息可指示所請求的音樂已開始播放,音樂家列表的特定音軌已開始播放,語音已開始或結束,通知被給出,等等。每個事件消息指示應用的應用標識符,其負責事件所相關的活動。事件消息被傳遞到對應於應用標識符的應用。

當用戶講話時,基於語音的系統執行asr和nlu以識別用戶的語音並確定語音的含義。然而,它可以是語音本身和語音的所確定的含義都不指示語音指向多個可用應用中的哪個。相應地,為了對用戶語音的所確定的含義做出響應的目的,基於語音的系統具有監測音頻設備的活動以留意哪些應用應被考慮為當前活動的路由部件。

路由部件通過監測從音頻設備接收的事件消息以確定哪個應用或哪些應用應當前被考慮為活動的來工作。更具體地,路由部件跟蹤哪些應用負責由音頻設備報告的最近音頻事件。響應於標識有責任的應用的事件消息,路由部件將有責任的應用指定為主要活動的或次要活動的。主要活動應用被認為具有主要語音焦點。次要活動應用被認為具有次要語音焦點。所識別的用戶語音的所確定的含義首先被提供到當前具有主要語音焦點的應用。如果沒有應用具有主要語音焦點或如果具有主要語音焦點的應用不能夠操縱含義,則含義被提供到具有次要語音焦點的應用。

為了留意哪些應用當前具有主要和次要語音焦點,路由部件監測來自音頻設備的關於音頻設備播放的音頻的事件消息。單獨的事件消息標識負責音頻的應用,且也指示音頻的類別。作為例子,分類可指示音頻是否是用戶交互的部分。如果分類指示音頻是用戶交互的部分,則路由部件將有責任的應用指定為具有主要語音焦點。如果分類指示音頻不是用戶交互的部分,則路由部件將有責任的應用指定為具有次要語音焦點。在所述實施方案中,只有一個應用(例如最近被指定為主要活動的應用)具有主要語音焦點,且只有一個應用(例如最近被指定為次要活動的應用)具有次要語音焦點。

更一般地,基於涉及或打算發起雙向用戶交互的活動例如語音對話和活動用戶通知的出現來準許主要語音焦點。基於不涉及雙向用戶交互的活動例如被動通知和音樂重放的出現來準許次要語音焦點。

圖1示出環境100,這些技術可在該環境中被實踐。環境100可包括房間或其它用戶建築物102。用戶建築物可包括房屋、辦公室、汽車和其它空間或區域。

在用戶建築物102內的是用戶104和一個或多個音頻設備106。音頻設備106在一些實施方案中可包括具有一個或多個麥克風、揚聲器和網絡接口或其它通信接口的基於網絡的或網絡可訪問的設備。在某些實施方案中,音頻設備106也可具有為了用戶交互而設計的其它元件,包括按鈕、旋鈕、燈、指示器和各種類型的傳感器、輸入元件和輸出元件。

音頻設備106從用戶104接收口頭命令並響應於該命令而提供服務。所提供的服務可包括執行行動或活動、再現媒體、得到和/或提供信息、監測本地條件並基於本地條件來提供通知、通過音頻設備106經由所產生的或合成的語音來提供信息、代表用戶104發起基於網際網路的服務,等等。

在圖1所示的實施方案中,音頻設備106與網絡可訪問的基於語音的服務108通信。基於語音的服務108可被實現為相對於音頻設備106遠程地定位的基於網絡或基於雲的服務。例如,基於語音的服務108可由企業組織和/或服務提供者實現以支持位於不同的用戶建築物102中的多個音頻設備106,用戶建築物又可位於廣泛變化的地理位置上。

基於語音的服務108在一些實例中可以是經由廣域網例如網際網路來維護和可訪問的網絡可訪問計算平臺的部分。網絡可訪問計算平臺例如這可以使用術語例如「立即響應式計算」、「軟體即服務(saas)」、「平臺計算」、「網絡可訪問平臺」、「雲服務」、「數據中心」等被提到。

在音頻設備106和基於語音的服務108之間的通信可通過各種類型的數據通信網絡(包括區域網、廣域網和/或公共網際網路)來實現。蜂窩和/或其它無線數據通信技術也可用於與基於語音的服務108通信。用戶建築物102可包括本地網絡支持設備以便於與基於語音的服務108通信,例如無線接入點、網絡路由器、通信集線器等。

基於語音的服務108可與各種服務和/或應用交互,支持多個音頻設備106。作為例子,這樣的服務可包括語音處理服務110。語音處理服務110可配置成從音頻設備106接收實時音頻或語音信息,以便識別用戶語音,確定由語音處理的用戶含義,並在用戶含義的履行中執行行動或提供服務。例如,用戶可以講預定義的命令(例如「醒來」;「睡眠」)或可在與音頻設備106交互時使用更隨便的說話風格(例如,「我想去看電影。請告訴我在本地電影院正播放什麼」)。用戶命令本質上可以是任何類型的操作,例如資料庫查詢、請求和消費娛樂(例如遊戲、找到並播放音樂、電影或其它內容等)、個人管理(例如記入日曆、做筆記等)、在線購物、財務交易等。

語音和語音相關信息可以用很多不同的形式被提供到語音處理服務110。在一些實現中,語音相關信息可包括來自音頻設備106的連續音頻信號或流。可選地,語音相關信息可包括響應於在用戶建築物102內的檢測到的聲音而被提供到語音處理服務110的音頻剪輯或段。在一些情況下,音頻設備106可執行語音識別並向基於語音的服務108提供以文本的形式的用戶語音。在一些實現中,基於語音的服務108可通過產生或指定語音來與用戶104交互,語音又由音頻設備106再現。語音合成可由語音處理服務110或由音頻設備106執行。

在所述實施方案中,語音處理服務110包括用於識別語音、理解所識別的語音的含義並用於產生語音的部件或功能。具體地,語音處理服務110包括自動語音識別(asr)服務112、自然語言理解(nlu)服務114和文本到語音(tts)服務116。也可提供各種其它類型的語音處理功能。

asr服務112可使用各種技術來創建在音頻信號中表示的語音字的完全的轉錄物。例如,asr服務112可參考各種類型的模型,例如聲模型和語言模型,以識別在音頻信號中表示的語音的字。在很多情況下,通過培訓例如通過對很多不同類型的語音採樣並手動地分類來創建模型,例如這些模型。

聲模型可將語音表示為對應於音頻波形隨著時間的過去的特徵的一系列矢量。特徵可對應於頻率、音高、振幅和時間模式。可基於培訓數據的大集合來創建統計模型例如隱馬爾科夫模型(hmm)和高斯混合模型。所接收的語音的模型接著與培訓數據的模型比較以找到匹配。

語言模型描述諸如語法規則、公共字使用和模式、字典含義等的東西,以建立字序列和組合的概率。使用語言模型的語音的分析可取決於上下文,例如出現在當前正被分析的語音的任何部分之前或之後的字。

asr可提供識別候選項,其可包括字、短語、句子或語音的其它段。候選項可伴隨有統計概率,每個統計概率指示在對應的候選項的準確度中的「置信度」。一般,具有最高置信度分數的候選項被選擇為語音識別的輸出。

nlu服務114分析由asr服務112提供的字流,並產生字流的含義的表示。例如,nlu服務114可使用分析程序和語法規則來分析句子並用以容易由計算機處理的方式傳達概念的正式定義的語言產生句子的含義的表示。例如,含義可實質上被表示為槽的分級集合或幀和槽值,其中每個槽對應於在語義上定義的概念。因此,句子的含義可在語義上由槽的幀和槽值表示。nlu也可使用從培訓數據產生的統計模型和模式來利用在一般語音中的字之間的統計相關性。

基於語音的服務108可配置成支持多個基於網絡的應用118。應用118通過基於語音的服務108與音頻設備106交互以至少部分地基於由音頻設備106捕獲或提供的用戶語音結合音頻設備106來提供功能。更特別地,應用118配置成通過基於語音的服務108的命令服務120進行通信,命令服務120充當設備代理以從音頻設備106接收信息並向音頻設備106提供指令、信息和內容。在一些情況下,命令服務120可使用第一組數據格式和/或協議來與音頻設備106通信,允許相對低級別或詳細數據的傳輸。命令服務120可使用第二組數據格式和/或協議來與應用118通信,允許信息在相對較高的抽象級別處或使用不同類型的通信協議來傳輸。

應用118可在一些情況下被實現為基於web的或基於網絡的應用或服務。例如,特定的應用118可由基於語音的服務108的提供者或由第三方提供者實現為伺服器或服務,並可通過網絡例如網際網路與命令服務120通信。在其它情況下,應用118可存在或安裝在與用戶104相關聯的物理設備例如用戶104的計算機或行動裝置上,並可通過網際網路或其它廣域網與命令服務120通信。

基於語音的服務108和命令服務120可配置成根據web服務模型來與音頻設備106和/或應用118交互,且基於語音的服務108的功能可被實現為一個或多個web服務。通常,web服務可包括任何類型的計算服務,其經由包括一個或多個基於網際網路的應用層數據傳輸協議例如一種版本的超文本傳輸協議(http)或另一適當的協議的請求接口而對請求客戶端變得可用。

命令服務120可暴露一個或多個網絡可訪問api或應用接口122。api122可被實現為具有統一資源定位器(url)例如http://storageservice.domain.com的web服務端點。

應用118可由各種賣方和/或提供者設計並提供以結合音頻設備106來工作和/或使用音頻設備106通過api122和相關聯服務來提供服務。應用118可提供範圍從電子郵件到遊戲的功能。應用118可包括啟用語音的應用,其響應於用戶語音和從用戶語音得到的含義來執行行動。相應地,應用118可使它們的服務部分地基於語音和由音頻設備106和語音處理服務110提供的語音相關信息,包括所識別的語音、從語音得到的含義和已從用戶語音解釋的意圖或命令。此外,應用118可提供在音頻設備106上被再現為語音的文本,並可經由命令服務120和api122向或為音頻設備106提供其它指令和命令。

在一些實現中,所示應用118可以是其它應用的部件例如所謂的「小型應用」。每個應用或小型應用可由應用標識符標識。應用標識符可由基於語音的服務108分配或由應用本身提供。

作為一個例子,應用可包括向音頻設備106提供音樂或其它內容以由音頻設備106顯現的音頻應用。

每個應用118可與命令服務120通信以指示或記錄它能夠操縱的語音含義。多於一個應用118可能能夠操縱任何給定含義或對任何給定含義做出響應。可選地,命令服務120可查詢單獨的應用以從應用接收關於它們是否可或將對某些含義做出響應的指示。

命令服務120包括向適當的應用118提供所識別或所標識的語音含義的路由部件124。如將在下面更詳細描述的,路由部件124根據當前正由音頻設備106執行的活動來分配主要語音焦點和次要語音焦點。當含義被確定時,具有主要焦點(如果有的話)的應用首先被給予對含義做出響應的機會。

圖2示出可出現在應用118和音頻設備106之間的通信的例子。為了清楚的目的,沒有示出充當通信媒介物的命令服務120。

應用118可使命令202被發送到音頻設備106。命令202包括或指定對應於並標識應用118的應用標識符,其在圖2中被稱為appid。命令202可指定將被音頻設備106進行或執行的活動。例如,命令可指定由音頻設備106播放的音頻內容,例如音樂。作為另一例子,命令202可指定將由音頻設備106轉換成語音並播放為音頻的文本。作為另一例子,命令202可配置將由音頻設備106實現的通知。

在一些情況下,命令202可指定所命令的活動或由音頻設備106響應於活動而產生的音頻是否被考慮為交互式的。形成用戶交互的部分的音頻例如作為用戶對話的部分的語音可被考慮為交互式的。不是用戶交互的部分的音頻例如音樂可被考慮為非交互式的。某些類型的再現的語音當不是用戶交互的部分時可被考慮為非交互式的。例如,應用可產生語音以描述當前天氣或交通條件,其不是語音交互的部分且將因此被考慮為非交互式的。

在操作期間,音頻設備106產生事件消息204並將事件消息204發送回到命令服務120。每個事件消息204描述音頻事件或已出現在音頻設備106處的其它事件。例如,事件消息204可指定某個類型的聲音被播放,文本到語音重放已開始或結束,非交互式內容已開始或停止,內容或媒體的重放已進行到某個點,媒體項的重放已結束以及隨後的媒體項的重放已開始,等等。事件消息204也可指定音頻通知已由音頻設備發起。

每個事件消息指示負責活動的應用的應用標識符(appid),所述音頻事件是該活動的一部分。事件消息204可由命令服務120傳遞到有責任的應用,如由appid指定的,使得有責任的應用可監測它已請求的活動的進展。

每個事件消息204也可指定所述音頻是交互式的還是非交互式的。交互式音頻包括是用戶交互的部分的音頻。非交互式音頻是不是用戶交互的部分的音頻。一些事件消息可明確地指定對應的事件是否是交互式的。在其它情況下,事件的性質可內在地指示對應的事件是否是交互式的。例如,與音樂重放的狀態有關的某些事件可被考慮為非交互式事件,即使關於這樣的事件的事件消息可以不明確地將事件分類為交互式的或非交互式的。

圖3示出基於語音的服務108如何處理所接收的用戶話語以向適當的應用118提供所確定的含義。音頻設備106捕獲作為音頻信號被傳輸到基於語音的服務108的用戶話語或語音302。語音處理服務110使用asr和nlu來分析音頻信號以確定用戶語音302的含義304。路由部件124接收含義304的語義表示。路由部件130也接收並監測事件消息204。

路由部件130監測事件消息204(當它們由音頻設備106產生時)以確定哪個應用118被考慮為當前活動的。響應於事件消息204,路由部件124可標識主要活動應用和/或次要活動應用。被標識為主要活動應用的應用被考慮為具有主要語音焦點。被標識為次要活動應用的應用被考慮為具有次要焦點。在本文所述的實施方案中,只有單個應用被考慮為在任何給定時間是主要活動的,以及只有單個應用被考慮為在任何給定時間是次要活動的,雖然在某些其它實施方案中情況可能並不總是這樣。

當接收到含義304的語義表示時,路由部件124基於主要和次要活動的應用的以前標識向應用118之一提供含義304的表示。通常,主要活動的應用被給予操縱含義的第一機會,如果它能夠。否則,如果沒有當前是主要活動的應用或如果當前是主要活動的應用不能夠操縱含義,則當前是次要活動的應用被給予操縱含義的機會。

響應於從音頻設備106接收到事件消息204,作為背景操作來執行將應用指定為主要或次要活動的。當從音頻設備106接收到話語時,與將應用指定為主要或次要活動的過程獨立和異步地執行含義的路由。

圖4示出可由路由部件124執行來基於從音頻設備106接收的事件消息選擇主要活動應用和次要活動應用的示例方法400。

行動402包括從音頻設備接收關於作為活動的部分的由音頻設備播放的音頻的事件消息204。事件消息204可包括事件描述404和對應於應用118的應用標識符406,應用118負責音頻事件和/或活動,所述音頻事件是該活動的部分。

事件消息204可在一些情況下也包含指示音頻事件的音頻是否被考慮為交互式的或非交互式的事件分類408。交互式音頻可包括作為與用戶的語音對話或交互的部分的語音。其它類型的音頻例如音樂或不是與用戶的語音對話或交互的部分的語音可被考慮為背景或非交互式音頻。在一些情況下,事件分類408可從事件消息204省略,且與事件消息204一起提供的事件或其它元數據的性質可指示對應的事件是否是交互式的。

除了對話語音以外,響應於由音頻設備106監測的條件而由音頻設備106產生的某些類型的通知可被考慮為交互式的。雖然這樣的通知不一定是語音對話的部分,但是它們可被考慮為用戶交互的部分,因為它們請求即時的用戶輸入。例如,通知可包括用戶被期望回復的可聽得見的警報聲音,例如通過說詞「停止警報」。

由音頻設備106響應於由音頻設備106監測的條件而產生的其它類型的通知可被考慮為非交互式的。例如,通知可包括打算向用戶警告非關鍵條件例如消息或電子郵件的接收的背景聲,這並不打算請求即時用戶輸入。

通常,分類408或與事件消息相關聯的其它信息可指示對應的音頻包括:

是用戶交互的部分的語音;

不是用戶交互的部分的語音;

是用戶交互的部分的音頻內容;

不是用戶交互的部分的音頻內容;或

響應於由音頻設備檢測到條件而給出的音頻通知。

音頻通知可包括不是用戶交互的部分的背景音頻通知或是用戶交互的部分的前景音頻通知。

行動410包括確定事件分類408或事件消息204的其它數據是否指示所接收的事件消息是針對交互式事件或非交互式事件。在事件消息204明確提供分類408的情況下,這可涉及檢查分類408。否則,行動410可包括基於事件的類型或描述來確定對應的事件是否是交互式的,其中某些事件或某些類型的事件被定義為交互式的,而其它事件或其它類型的事件被定義為非交互式的。在一些情況下,例如與媒體例如音樂的重放有關的事件可按照定義被考慮為非交互式的。

如果事件是交互式的,則執行行動412,其將任何當前指定的主要活動應用而不是有責任的應用指定為不再是主要活動。此外,執行行動414,其將有責任的應用(由應用標識符406指示)指定為現在是主要活動的並具有主要焦點。

如果事件是非交互式的和/或有責任的應用未被行動414指定為主要活動的,則執行行動416,其將任何當前指定的主要活動應用而不是有責任的應用指定為不再是次要活動的。此外,執行行動418,其將有責任的應用(由應用標識符406指示)指定為現在是次要活動的並具有次要焦點。

注意,某些類型的事件可內在地與對應的應用相關聯,且應用標識符在這些情況下可被省略。例如,與從音頻設備106的外圍設備接收的音頻的重放有關的消息可內在地與應用118的特定應用相關聯。

圖5示出示例方法500,其可關於已被指定為主要活動的有責任的應用執行,如在塊502指示的,例如可根據圖4的方法400發生。行動504包括確定是否預定義時間段已過去或超時已到期。如果該時間段已過去或超時已到期,則執行行動506,其除去將有責任的應用作為主要活動的指定。如果該時間段已過去或超時未到期,則循環地重複行動504。每當將當前指定的主要活動應用最新指定為主要活動的時,可重置時間段,諸如響應於最新接收的事件消息,事件消息導致通過圖4的行動416重新分配主要焦點。

方法500確保主要活動應用將不失去語音焦點,如果指定應用的交互式事件的事件消息未在指定的時間段期間被接收到。應用可稍後復得主要焦點,如果指定應用的應用標識符並指定交互式事件分類的新事件消息被接收到。

圖6示出處理用戶語音的示例方法600。行動602包括接收包含用戶語音的音頻信號。行動604包括使用asr來分析音頻信號以識別用戶語音並產生用戶語音的轉錄物。行動606包括使用nlu來分析所識別的語音以確定用戶語音的含義並產生用戶語音及其含義的語義表示。行動608包括路由應用118的一個或多個的表示。

圖7示出將語音含義的語義表示路由到多個應用118之一的示例方法700。行動702包括接收含義的表示。行動704包括確定在多個應用118當中是否有被已指定為主要活動的且因此具有主要焦點的應用。如果有這樣的主要活動應用,則執行確定主要活動應用是否可對含義做出響應的行動706。可通過參考指示哪些含義可由哪些應用操縱的應用的以前記錄來執行行動706。可選地,可查詢主要活動應用以確定它當前是否可對含義做出響應。如果主要活動應用可以或將對含義做出響應,則執行向應用提供含義的語義表示和/或請求主要活動應用對含義做出響應的行動708。在一些情況下,可組合行動706和708:含義的表示可連同使應用對含義做出響應的請求一起傳遞到主要活動應用,且應用可通過接受請求或指示應用將不對含義做出響應來做出響應。

如果沒有當前主要活動的應用,如果主要應用指示它將不或不能夠對所確定的含義做出響應,或如果否則確定主要活動應用將不對含義做出響應,則執行行動710,其確定在多個應用118當中是否有已被指定為次要活動的並因此具有次要焦點的應用。如果有這樣的次要活動應用,則執行行動712,其確定次要活動應用是否能夠對所確定的含義做出響應。可通過參考指示哪些含義可由哪些應用操縱的應用的以前記錄來執行行動712。可選地,可查詢次要活動應用以確定它是否可當前對所確定的含義做出響應。如果次要活動應用可以或將對含義做出響應,則執行行動714,其向次要活動應用提供含義的語義表示和/或請求次要活動應用對含義做出響應。在一些情況下,可組合行動710和712:含義的語義表示可連同使次要活動應用對含義做出響應的請求一起傳遞到次要活動應用,且應用可通過接受請求或謝絕該請求來做出響應。

當次要活動應用對含義做出響應時或當次要活動應用指示它可對含義做出響應時,也可執行行動716。行動716包括將次要活動應用指定為現在是主要活動的且因此具有主要語音焦點。當應用被指定為主要活動的時,以前被指定為主要活動的任何其它應用然後被指定為不再是主要活動的。注意,在某些實施方案中可只對某些類型的應用或事件執行行動716。作為例子,含義「提高音量」可被考慮為短暫命令或事件,且可以不導致對應的應用被給予主要焦點。

如果沒有當前是次要活動的應用,如果次要活動應用指示它將不或不能夠對所確定的含義做出響應,或如果否則確定次要活動應用將不對含義做出響應,則執行行動718,其確定在多個應用當中是否有可操縱所確定的含義的另一應用。可通過參考指示哪些含義可由哪些應用操縱的應用的以前記錄來執行行動718。可選地或此外,可查詢其它應用以確定它們是否可當前對含義做出響應。如果另一應用可操縱含義,則執行行動720,其向其它應用提供含義的表示和/或請求其它應用對含義做出響應。

當其它應用之一對含義事件做出響應時或當否則非活動應用指示它可對含義做出響應時,也可執行行動722。行動722包括將響應應用指定為是主要活動的且因此具有主要語音焦點。當應用被指定為主要活動的時,以前被指定為主要活動的任何其它應用然後被指定為不再是主要活動的。注意,在某些實施方案中可只對不考慮為短暫的某些類型的應用或事件執行行動722。

行動718可包括向不同的應用以它們向命令服務120註冊的順序提供含義的語義表示,較早的已註冊應用被給予優於稍後註冊的應用的優先級。可選地,每個應用可被請求提供指示含義被預期針對應用的可能性的置信度水平。例如,音樂重放應用在它當前不播放音樂時可以將本身考慮是「暫停」含義的相對不可能的接收方,即使它以前指示操縱「暫停」含義的能力。含義可接著被提供到提供最高置信度水平的應用。

圖8示出音頻設備106的示例配置。在圖8的例子中,音頻設備106具有操作邏輯,其包括處理器802和存儲器804。存儲器804可包含以指令的形式的應用和程序,指令由處理器802執行以執行實現音頻設備106的期望功能的動作或行動。存儲器804可以是一種類型的計算機存儲介質,並可包括易失性和非易失性存儲器。因此,存儲器804可包括但不限於ram、rom、eeprom、快閃記憶體或其它存儲器技術。

圖8示出可由音頻設備106提供並由存儲器804存儲以實現音頻設備106的功能的應用和/或程序的幾個例子,但是可在各種實施方案中提供功能的很多其它應用和類型。

音頻設備106可具有配置成管理在音頻設備106內並耦合到音頻設備106的硬體和服務的作業系統806。此外,音頻設備106可包括音頻處理模塊808,其從用戶建築物102接收音頻並處理所接收的音頻以執行行動並響應於用戶語音而提供服務。在一些情況下,音頻處理模塊808可執行語音識別和關於所接收的音頻的自然語言理解。在其它情況下,音頻處理模塊可將所接收的音頻傳送到基於語音的服務108,其可使用語音處理服務110來執行語音處理,例如語音識別和自然語言理解。音頻處理模塊808可執行各種類型的音頻處理,包括過濾、壓縮等,並可利用數位訊號處理器或信號處理的其它方法。

音頻處理模塊808也可負責製造或產生語音。例如,音頻設備106可從基於語音的服務108接收文本,並可將文本轉換成語音。可選地,音頻設備106可接收由音頻處理模塊808處理的音頻信號用於由音頻設備106再現。

音頻設備106可具有配置成建立與基於語音的服務108的通信信道的通信部件810。各種類型的通信協議可由通信部件810支持。在一些情況下,通信部件810可配置成使用各種類型的網絡通信技術之一通過api122來建立與基於語音的服務108的安全和/或加密通信信道。

音頻設備106也可具有配置成響應於由音頻設備106執行的音頻活動來提供如上所述的事件消息的事件報告模塊812。在一些實現中,音頻設備106可向基於語音的服務108前攝地提供事件消息。在其它實現中,基於語音的服務可輪詢或查詢音頻設備106以得到事件消息。

除了上面所述的軟體功能以外,音頻設備106還可實現各種類型的其它應用、功能和/或服務814。例如,其它服務814可包括在圖8中被稱為媒體播放器816的音頻功能或應用,其用於響應於用戶指令或在基於語音的服務108或應用118的指導下播放歌曲或其它類型的音頻。媒體播放器816可從基於語音的服務108、從應用118的一個或多個或從第三方服務例如音樂服務、podcast服務等接收音頻。例如,基於語音的服務108和/或應用118之一可指令音頻設備106得到並播放來自第三方服務的特定歌曲。當接收到這個指令時,音頻設備106的媒體播放器816可聯繫第三方服務,發起歌曲的流式傳送或下載,並可接著播放歌曲而沒有來自基於語音的服務108或應用118的指令音頻設備106播放歌曲的另外的指令或信息。類似地,可將音樂家列表提供到媒體播放器816用於由音頻設備106的媒體播放器816重放。

音頻設備106還可包括各種類型的基於硬體的部件或功能,包括設備接口818和通信接口820。設備接口818可提供到輔助設備例如bluetoothtm設備、遠程顯現設備、遠程傳感器等的連接。通信接口820可包括網絡接口和允許音頻設備106連接到基於語音的服務108並與基於語音的服務108通信的其它類型的接口。

音頻設備106可具有各種類型的指示器822,例如用於將操作信息傳遞給用戶104的燈。指示器822可包括led(發光二極體)、平板顯示元件、文本顯示器等。

音頻設備106還可具有可包括按鈕、旋鈕、滑塊、觸摸傳感器等的各種類型的物理控制項824。物理控制項824可用於基本功能,例如啟用/禁用音頻設備106,設置音頻設備106的音頻輸入音量,等等。

音頻設備106可包括麥克風單元826,其包括一個或多個麥克風以接收音頻輸入,例如用戶話音輸入。麥克風單元826在一些實現中可包括定向麥克風陣列,使得來自不同方向的聲音可選擇性地被接收和/或增強。音頻設備106還可包括用於音頻的輸出的揚聲器828。

除了物理控制項824和麥克風單元826以外,音頻設備106還可具有各種其它類型的傳感器830,其可包括靜止和視頻攝像機、深度傳感器、3d(三維)攝像機、紅外傳感器、接近度傳感器、用於測量周圍聲音和光的水平的傳感器等。音頻設備106還可具有分析能力,其利用來自傳感器839的信息來確定用戶建築物102的特性和在用戶建築物102內的環境條件。例如,音頻設備106可能能夠分析光信息以確定房間的3d特性,包括在房間內的人或物體的存在和/或身份。作為另一例子,音頻設備106可能能夠檢測並評估房間的音頻特性,以便優化音頻重放。

音頻設備106還可具有用於與用戶104交互的其它用戶接口(ui)元件832。其它ui元件可包括顯示面板、投影儀、觸控板、鍵盤等。

在某些情況中,音頻設備106可包括行動裝置,例如智慧型電話、平板計算機、眼鏡、手錶等。行動裝置可具有傳感器,例如羅盤、加速度計、陀螺儀、全球定位接收器等以及具有基於應用來確定各種環境信息並訪問基於網絡的信息資源的能力。

圖9示出可用於實現基於語音的服務108的功能的伺服器900的相關部件和/或可用於提供如本文所述的服務的其它部件。通常,功能元件可由一個或多個伺服器實現,上面所述的各種功能以各種方式分布在不同的伺服器當中。伺服器可一起或單獨地被定位,並被組織為虛擬伺服器、伺服器組和/或伺服器場。所述功能可由單個實體或企業的伺服器提供,或可利用多個實體或企業的伺服器和/或服務。

在非常基本的配置中,示例伺服器900可包括由一個或多個處理器組成的處理單元902和相關聯存儲器904。根據伺服器900的配置,存儲器904可以是一種類型的計算機存儲介質並可包括易失性和非易失性存儲器。因此,存儲器904可包括但不限於ram、rom、eeprom、快閃記憶體或其它存儲器技術。

存儲器904可用於存儲由處理單元902可執行的任何數量的功能部件。在很多實施方案中,這些功能部件包括由處理單元902可執行且當被執行時實現用於執行上面所述的行動的操作邏輯的指令或程序。

在存儲器904中存儲的功能部件可包括作業系統906和與遠程設備例如計算機、媒體消費設備等交互的web服務部件908。存儲器904還可具有實現語音處理服務110、命令服務120、api122和路由部件124的指令。在一些情況下,應用118的一個或多個也可被實現為存儲在存儲器904中的功能部件。

伺服器900當然可包括在圖9中沒有示出的很多其它邏輯、編程和物理部件。

注意,雖然音頻設備106在本文被描述為在家裡使用的話音控制的或基於語音的音頻設備,但是本文所述的技術可結合各種不同類型的設備例如電信設備和部件、免提設備、娛樂設備、媒體重放設備、平板計算機、個人計算機、專用設備等來實現。

上面所述的實施方案可例如使用計算機、處理器、數位訊號處理器、模擬處理器等編程地實現。然而,在其它實施方案中,可使用專門或專用電路——包括模擬電路和/或數字邏輯電路——來實現部件、功能或元件的一個或多個。

而且,雖然已用某些特徵所特有的語言描述了主題,但是應理解,在所附權利要求中定義的主題不一定限於所描述的特定特徵。更確切地,特定特徵被公開為實現權利要求的說明性形式。

條款

1.一種系統,其包括:

命令服務,其配置成:與多個應用通信,與音頻設備通信,並將命令發送到音頻設備以為音頻應用執行提供音頻內容以由音頻設備播放的活動,其中命令指定對應於音頻應用的應用標識符;

控制邏輯,其配置成執行包括以下項的動作:

從音頻設備接收關於由音頻設備播放的聲音的事件消息,其中事件消息指定對應於音頻應用的應用標識符;

如果事件消息指示由音頻設備播放的聲音是與用戶的語音交互的部分,則將音頻應用指定為主要活動的;

如果事件消息指示由音頻設備播放的聲音不是與用戶的語音交互的部分,則將音頻應用指定為次要活動的;

語音識別服務,其配置成從音頻設備接收音頻信號並識別在音頻信號中的用戶語音;

語言理解服務,其配置成確定用戶語音的含義;

控制邏輯,其配置成執行包括以下項的另外的行動:

如果在多個應用當中存在主要活動應用,則請求主要活動應用通過(a)執行至少部分地通過用戶語音的含義指示的第一行動或(b)產生對用戶語音的第一語音響應來對用戶語音做出響應;以及

如果在多個應用當中沒有主要活動應用且如果在多個應用當中存在次要活動應用,則請求次要活動應用通過(a)執行至少部分地通過用戶語音的含義指示的第二行動或(b)產生對用戶語音的第二語音響應來對用戶語音做出響應。

2.如條款1所述的系統,其中事件消息指定指示聲音是否是與用戶的語音交互的部分的事件分類,分類指示聲音包括下列項中的至少一個:

是用戶交互的部分的語音;

不是用戶交互的部分的語音;

是用戶交互的部分的音頻內容;

不是用戶交互的部分的音頻內容;或

響應於由音頻設備檢測到條件而給出的音頻通知。

3.如條款1所述的系統,其中事件消息指示第二音頻是響應於由音頻設備檢測到條件而給出的通知,動作還包括將音頻應用指定為主要活動的。

4.如條款1所述的系統,行動還包括:

確定在預定義時間段期間沒有接收到標識音頻應用的事件消息;以及

除去音頻應用作為主要活動的指定。

5.一種方法,其包括:

向音頻設備提供執行活動的命令,其中命令從多個應用當中標識有責任的應用;

從音頻設備接收關於由音頻設備顯現的聲音的事件消息,事件消息標識有責任的應用;

如果事件消息指示聲音是用戶交互的部分,則將有責任的應用指定為主要活動的;

接收由音頻設備捕獲的語音;

確定語音的含義;以及

如果在多個應用當中存在可對含義做出響應的主要活動應用,則請求主要活動應用對含義做出響應。

6.如條款1所述的方法,其還包括:

如果事件消息不指示音頻是用戶交互的部分,則將有責任的應用指定為次要活動的;以及

如果在多個應用當中沒有可對含義做出響應的主要活動應用,則請求多個應用的次要活動應用對含義做出響應。

7.如條款2所述的方法,其還包括,如果在多個應用當中沒有可對含義做出響應的主要活動應用,則:

確定次要活動應用可對含義做出響應;以及

將次要活動應用指定為主要活動的。

8.如條款2所述的方法,其還包括:

從主要活動應用接收主要活動應用將不對含義做出響應的指示;以及

響應於從主要活動應用接收到指示,請求次要活動應用對含義做出響應。

9.如條款1所述的方法,其還包括在請求主要活動應用對含義做出響應之前確定主要活動應用可對含義做出響應。

10.如條款1所述的方法,其中分類指示音頻是下列項中的至少一個:

是用戶交互的部分的語音;

不是用戶交互的部分的語音;

是用戶交互的部分的音頻內容;

不是用戶交互的部分的音頻內容;或

響應於由音頻設備檢測到條件而給出的音頻通知。

11.如條款6所述的方法,其中音頻通知包括:

不是用戶交互的部分的背景音頻通知;或

是用戶交互的部分的前景音頻通知。

12.如條款1所述的方法,其中:

命令指定標識有責任的應用的應用標識符;以及

事件消息指定應用標識符以標識有責任的應用。

13.如條款1所述的方法,其還包括:

確定在預定義時間段期間沒有接收到標識有責任的應用的事件消息;以及

除去有責任的應用作為主要活動的指定。

14.一種方法,其包括:

從設備接收關於由設備執行的第一行動的第一事件消息,第一事件消息從多個應用當中標識第一有責任的應用,其中多個應用中的每個可對由用戶語音表達的一個或多個含義做出響應;

確定第一行動是用戶交互的部分;

將第一有責任的應用指定為主要活動的;

標識第一用戶語音的第一含義;以及

確定在多個應用當中有可對第一含義做出響應的主要活動應用;以及

選擇主要活動應用以對第一含義做出響應。

15.如條款10所述的方法,其還包括:

從設備接收關於由設備執行的第二行動的第二事件消息,第二事件消息從多個應用當中標識第二有責任的應用;

確定第二行動不是用戶交互的部分;

將第二有責任的應用指定為次要活動的;

確定第二用戶語音的第二含義;

確定在多個應用當中沒有可對第二含義做出響應的主要活動應用;以及

選擇次要活動應用以對第二含義做出響應。

16.如條款11所述的方法,其還包括:

確定第三用戶語音的第三含義;

確定主要活動應用將不對第三含義做出響應;以及

請求次要活動應用對第三含義做出響應。

17.如條款11所述的方法,其還包括:

確定第三用戶語音的第三含義;

從主要活動應用接收主要活動應用將不對第三含義做出響應的指示;以及

請求次要活動應用對第三含義做出響應。

18.如條款10所述的方法,其中事件消息指示音頻的分類,分類指示音頻是:

是用戶交互的部分的語音;

不是用戶交互的部分的語音;

是用戶交互的部分的音頻內容;

不是用戶交互的部分的音頻內容;或

響應於由音頻設備檢測到條件而給出的音頻通知。

19.如條款14所述的方法,其中音頻通知包括:

不是用戶交互的部分的背景音頻通知;或

是用戶交互的部分的前景音頻通知。

20.如條款10所述的方法,其中第一事件消息指定標識第一有責任的應用的應用標識符。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀