在自然語言語音服務環境中處理多模式裝置交互的系統和方法
2023-05-05 15:38:11 1
專利名稱:在自然語言語音服務環境中處理多模式裝置交互的系統和方法
技術領域:
本發明涉及用於處理與一個或多個裝置和/或應用程式進行的多模式交互的綜合自然語言語音服務環境,其中所述多模式交互可以提供用於配合解釋和另外處理伴隨所述多模式交互的自然語言語句的額外背景。
背景技術:
近年來隨著技術的進步,消費性電子裝置已出現並幾乎在很多人的日常生活中無處不在。為了滿足行動電話、導航裝置、嵌入式裝置和其他這樣的裝置的功能性和移動性的增長引起的日益增長的需求,很多裝置除了核心應用以外還提供大量特徵和功能。然而,較大的功能性還帶來了折衷,包括通常抑制用戶完全利用他們的電子裝置的所有性能的學習難度。例如,很多現有的電子裝置包括複雜的人機界面,這些複雜的人機界面可能不是特別方便使用,這會抑制很多技術的大規模市場應用。而且,不方便的界面還經常導致難以找到或使用期望的特徵(例如,因為菜單複雜或導航繁瑣)。就這一點而言,很多用戶趨向於不使用甚或不了解他們的裝置的很多潛在性能。就這一點而論,電子裝置的增加的功能往往趨向於浪費,市場研究表明,很多用戶僅使用給定裝置上可用的特徵或應用的一部分。而且,在無線聯網和寬帶接入越來越普遍的社會中,消費者往往自然地希望他們的電子裝置具有無縫移動性能。因此,由於消費者對更簡單的與電子裝置交互的機制的需求加強,因此妨礙快速且集約化交互的不方便的界面成為重要的議題。但是,在很大程度上仍未滿足對以直觀方式使用技術的機制的日益增長的需求。一種簡化電子裝置中的人機互動的方法包括使用語音識別軟體,該語音識別軟體有可能使用戶利用原本不熟悉、不了解或難以使用的特徵。例如,最近由Navteq公司(其提供比如自動導航和基於網頁的應用的各種應用中使用的數據)進行的一項調查表明,語音識別在電子裝置消費者最期望的特徵中佔首位。雖然如此,就用戶而言,現有的語音用戶界面在實際工作時仍需要大量學習。例如,很多現有的語音用戶界面僅支持根據特定的命令與控制序列或語法制定的請求。而且,很多現有的語音用戶界面因不準確的語音識別而導致用戶沮喪或不滿。類似地,通過強迫用戶提供預先建立的命令或關鍵字來以系統可以理解的方式傳遞請求,現有的語音用戶界面未能有效地使用戶加入富有成效的、配合的對話中以解析請求並促進對話朝著令人滿意的目標進行(例如,當用戶可能不確定具體需求、可用信息、裝置性能等時)。 就這一點而言,現有的語音用戶界面往往有各種缺點,包括大大限制了使用戶以配合方式和對話方式加入對話。此外,很多現有的語音用戶界面達不到利用分布在不同領域、裝置和應用程式中的信息以解析基於自然語言語音的輸入。因此,現有的語音用戶界面的缺陷在於局限於已經設計出的有限的一組應用程式或者局限於存在有它們的裝置。儘管技術進步已使得用戶通常利用若干裝置來滿足他們的各種需求,但現有的語音用戶界面並不足以使用戶擺脫裝置的限制。例如,用戶可能對與不同應用程式和裝置關聯的服務感興趣,但現有的語音用戶界面往往限制用戶利用他們認為合適的應用程式和裝置。而且,實際上,用戶在任一給定時間通常僅能夠攜帶有限數量的裝置,而在各種情況下可能需要與用戶目前使用的其他裝置有關的內容或服務。因此,儘管用戶往往具有不同的需求,其中在各種背景或環境中可能想要與不同的裝置關聯的內容或服務,但現有的語音技術往往達不到提供這樣的綜合環境在該綜合環境中,用戶可以請求與幾乎任何裝置或網絡關聯的內容或服務。就這一點而言,現有的語音服務環境中對信息可用性和裝置交互機制的限制往往妨礙用戶以直觀、自然且有效的方式體驗技術。例如,當用戶想要利用給定的電子裝置執行給定的功能、但不一定了解如何著手執行該功能時,用戶通常無法加入與該裝置的多模式交互以僅發出自然語言的詞來請求該功能。而且,利用不具有語音識別能力的電子裝置,相對簡單的功能通常可能執行起來繁瑣。例如,為行動電話購買新的電話鈴聲往往是很簡單的過程,但用戶通常必須導航若干菜單並按下很多不同的按鈕來完成該過程。就這一點而言,很明顯,如果用戶能夠使用自然語言來開發隱藏或其他難以使用的功能,則與電子裝置的交互會有效得多。現有的系統具有這些問題和其他問題。
發明內容
根據本發明的一個方面,可以提供用於在自然語言語音服務環境中處理多模式裝置交互的系統和方法。具體地,可以在包括一個或多個電子裝置的自然語言語音服務環境中接收一個或多個多模式交互。所述多模式裝置交互可以包括用戶加入與所述電子裝置中的一個或多個電子裝置或與和所述裝置有關的應用程式進行的非語音交互中,同時還提供與所述非語音交互有關的自然語言語句。例如,所述非語音裝置交互可以包括用戶選擇特定的部分、項目、數據、注意點或關注點或者加入與所述電子裝置或者與和所述電子裝置關聯的應用程式的一個或多個唯一且可區分的交互中。就這一點而言,可以從所述自然語言語句中提取出背景,且所述非語音裝置交互可以提供用於所述自然語言語句的其他背景。 接著可以使所述語句的背景和所述非語音裝置交互的背景組合以確定所述多模式裝置交互的目的,其中所述電子裝置中的一個或多個電子裝置可以基於所述多模式裝置交互的目的處理請求。根據本發明的一個方面,所述電子裝置中的至少一個電子裝置可以包括配置成接收基於語音的輸入的輸入裝置。在一個實現方式中,響應於檢測與所述一個或多個電子裝置或者應用程式的非語音交互,可以用信號通知所述基於語音的輸入裝置捕獲所述自然語言語句。而且,所述自然語言語音服務環境可以包括針對電子裝置和相關應用程式建立的一個或多個收聽器,其中所述收聽器可以配置成檢測與所述電子裝置或應用程式的非語音交互。就這一點而言,與非語音交互有關的信息和與伴隨的自然語言語句有關的信息可以被對齊以實現合作性處理所述語句和所述非語音裝置交互。根據本發明的一個方面,可以基於所述多模式裝置交互的目的產生至少一個交易提示。例如,可以接收附加多模式裝置交互,其中所述附加多模式裝置交互可以與針對第一多模式裝置交互產生的交易提示有關。接著可以基於針對所述附加多模式裝置交互確定的目的將至少一個請求路由到所述電子裝置中的一個或多個電子裝置,由此可以響應於接收到與所產生的交易提示有關的裝置交互來處理交易點進。例如,所述交易提示可以包括基於最初的多模式裝置交互的目的選擇的廣告或推薦,而附加多模式裝置交互可以包括用戶選擇該廣告或推薦。因此,選擇該廣告或者推薦可以被視為交易點進,這可以為具體的組織 (例如,自然語言語音服務環境的提供商)產生收益。基於以下附圖和詳細描述,本發明的其他目的和優勢將顯而易見。
圖1示出了根據本發明的各個方面的在自然語言語音服務環境中處理多模式裝置交互的示例性系統的框圖。圖2示出了根據本發明的各個方面的用於在自然語言語音服務環境中使多模式裝置同步的示例性方法的框圖。圖3示出了根據本發明的各個方面的用於在自然語言語音服務環境中處理多模式裝置交互的示例性方法的流程圖。圖4示出了根據本發明的各個方面的用於在自然語言語音服務環境中處理多模式裝置交互以產生一個或多個交易提示的示例性方法的流程圖。
具體實施例方式根據本發明的各個方面,圖1示出了用於在自然語言語音服務環境中處理多模式裝置交互的示例性系統100的框圖。從本文要提供的進一步描述中將看出,圖1中示出的系統100可以包括一個輸入裝置105或多個輸入裝置105的組合,輸入裝置105使用戶能夠以多模式方式與系統100交互。具體而言,系統100可以包括各種自然語言處理元件,所述的各種自然語言處理元件至少包括語音點擊模塊108,其可以共同地處理用戶與一個或多個輸入裝置105的多模式交互。例如,在一個實現方式中,輸入裝置105可以包括至少一個語音輸入裝置105a(例如,話筒)和至少一個非語音輸入裝置105b (例如滑鼠、觸控螢幕顯示器、滾輪選擇器等)的任何適當組合。就這一點而言,輸入裝置105可以包括具有接收基於語音的輸入和基於非語音的輸入的機制的電子裝置的任意適當組合(例如,連接到遠程信息處理裝置、個人導航裝置、行動電話、VoIP節點、個人計算機、媒體裝置、嵌入式裝置、伺服器或其他電子裝置中的一個或者多個的話筒)。就這一點而言,系統100可以使用戶能夠加入與一個或多個電子輸入裝置105或與和電子裝置105有關的應用程式的多模式對話性交互中,其中系統100可以以適於路由任務或解析請求的自由形式和配合方式處理裝置交互。
如上所述,在一個實現方式中,該系統可以包括能夠支持自由形式語句和/或其他形式的裝置交互的各種自然語言處理元件,所述各種自然語言處理元件可以將用戶從與制定命令、查詢或其他請求的方式有關的約束中解放出來。就這一點而言,用戶可以利用對語音輸入裝置10 講話或與非語音輸入裝置10 交互中的任一方式來與輸入裝置105交互以請求系統100中可用的內容或服務。例如,用戶可以通過將自然語言語句提供給語音輸入裝置10 來請求在系統100中可用的任何內容或服務。在一個實現方式中,接著可以利用 2008 年 7 月 8 日授權的名稱為"Systems and Methods for Responding to Natural Language Speech Utterance」的第7,398,209號美國專利和2003年6月15日提交的名禾爾為"Mobile Systems and Methods for Responding to Natural Language Speech Utterance」的美國專利申請10/618,633中描述的技術處理該語句,所述的美國專利和美國專利申請公開的全部內容通過引用併入本文。此外,用戶可以與一個或多個非語音輸入裝置10 交互以提供與該語句和/或請求的內容或服務有關的進一步語境或其他信息。在一個實現方式中,系統100可以連接到包括額外多模式裝置的各種其他系統, 所述其他系統具有和圖1中所示的自然語言處理性能相似的自然語言處理性能。因此,系統100可以為多裝置環境提供一界面,在該界面中,用戶可以請求通過該環境中的各個額外裝置可得到的內容或服務。例如,在一個實現方式中,系統100可以包括星座模型130b, 該星座模型130b提供與通過該環境中的其他系統和裝置可以得到的內容、服務、應用程式、目的確定性能和其他特徵有關的知識。例如,在一個實現方式中,系統100可以與該環境中的裝置、應用程式或其他系統交互以合作性地解析請求,如2008年5月27日提交的名稱為"System and Method for an integrated, Multi-Modal, Multi-Device Natural Language Voice Services Environment」的共同待決的美國專利申請12/127,343中所述, 該美國專利申請公開的全部內容通過引用併入本文。例如,該多裝置環境可以在各個系統和裝置中共享信息以提供解析請求的合作性環境,其中,所共享的信息可以涉及比如裝置性能、背景、先前的交互、領域知識、短期性知識、長期性知識和認知模型等方面。如上所述,除了別的以外,圖1中示出的系統100可以包括一個或多個電子輸入裝置105,所述一個或多個電子輸入裝置105共同提供用於接收來自用戶的一個或多個多模式裝置交互的界面(或界面組合),其中裝置交互至少包括用戶口語語句。儘管圖1中示出的實現方式包括分立的語音輸入裝置10 和非語音輸入裝置10 ,但是顯然,在一個或多個實現方式中,語音輸入裝置10 和非語音輸入裝置10 可以是相同裝置或不同裝置的元件。例如,輸入裝置105可以包括連接到行動電話的話筒(S卩,語音輸入裝置10 ),且還可以包括連接到該行動電話的一個或多個按鈕、可選顯示器、滾輪選擇器或其他元件(即, 非語音輸入裝置10 )。在另一示例中,輸入裝置105可以包括連接到遠程信息處理裝置的話筒組合(即,語音輸入裝置105a)且還可以包括連接到媒體播放器的按鈕、觸控螢幕顯示器、軌跡滾輪或其他非語音輸入裝置105b,該媒體播放器可通信地連接到該遠程信息處理裝置、然而與該遠程信息處理裝置分立。因此,輸入裝置105可以包括可通信地連接的電子裝置的任意適當組合,該任意適當組合包括用於接收自然語言語句輸入的至少一個輸入裝置和用於接收多模式非語音輸入的至少一個輸入裝置。在一個實現方式中,可通信地連接到一個或多個輸入裝置105的語音點擊模塊 108可以實現對語音輸入裝置10 和一個或多個非語音輸入裝置10 接收到的多模式裝置交互進行配合處理。例如,語音點擊模塊108可以為系統100提供能夠用以鑑於通過非語音輸入裝置10 接收到的一個或多個非語音裝置交互處理通過語音輸入裝置10 接收到的自然語言語句的信息。因此,語音點擊模塊108使用戶能夠與各種輸入裝置105以直觀且自由形式的方式交互,由此,當試圖發起行動、檢索信息或請求系統100中可用的內容或服務時,用戶可以將各種類型的信息提供給系統100。語音輸入裝置10 可以包括具有用於接收自然語言語句或其他形式的口語輸入的性能的任何適當的裝置或裝置的組合。例如,在一個實現方式中,語音輸入裝置10 可以包括定向話筒、話筒陣列或能夠創建編碼語音的其他裝置。在一個實現方式中,語音輸入裝置10 可以配置成最大化編碼語音的保真度。例如,語音輸入裝置10 可以配置成最大化沿著用戶方向的增益、消除回音和零點噪聲源、執行可變速率採樣、濾去環境噪聲或背景對話、或者使用其他技術來最大化編碼語音的保真度。就這一點而言,語音輸入裝置10 可以以容忍噪聲或可能干擾系統100準確解釋自然語言語句的其他因素的方式創建編碼語首。非語音輸入裝置10 可以包括具有支持非語音裝置交互的性能的任何適當裝置或裝置的組合。例如,在一個實現方式中,非語音輸入裝置10 可以包括手寫筆和觸控螢幕或寫字板界面組合、黑莓 滾輪選擇器、iPod 點擊式轉盤、滑鼠、鍵盤、按鈕或支持可區分的非語音裝置交互的任何其他裝置。因此,用戶可以利用非語音輸入裝置10 進行數據選擇或識別待與通過語音輸入裝置10 提供的相關自然語言語句連同處理的注意點(或關注點)。例如,用戶可以將手寫筆指向觸控螢幕顯示器的特定部分、利用滑鼠突出文本、點擊按鈕、與一應用程式交互、或加入用於選擇數據或識別注意點的任何適當的裝置交互中(即, 語音激活或「語音點擊」所選擇的數據和/或識別的注意點)。而且,除了可用於進行數據選擇、識別注意點、或激活與一個或多個語句有關的待解釋的數據,用戶還可以使用非語音輸入裝置10 來加入系統100中的具有意義的專用的裝置交互中。例如,專用的裝置交互(其可以被稱為「點擊」或者「語音點擊」)可以包括持續給定時間段的點擊、連續保持給定時間段的點擊、按預定順序進行的點擊、或輸入裝置 105和/或語音點擊模塊108可以識別、檢測或以其他方式區分的任何其他交互或交互序列。在一個實現方式中,專用的裝置交互可以與和系統100中可用的應用程式或服務有關的一個或多個動作、查詢、命令、任務或其他請求關聯。在一個實現方式中,專用的裝置交互還可以包括與部署在多裝置環境中的各個裝置中的任一裝置有關的一個或多個動作、查詢、命令、任務或其他請求,如以上提及的2008年5月27日提交的名稱為「System and Method for an Integrated, Multi-Modal, Multi-Device Natural Language Voice Services Environment」的共同待決的美國專利申請12/127,343中所述。例如,在顯示於觸控螢幕顯示器上的具體部分或項目上用手寫筆點擊的不同順序可以被定義為用於在行動電話上發起電話呼叫、在導航裝置上計算路徑、為媒體播放器購買歌曲或其他類型的請求的專用裝置交互或語音點擊。因此,連接到輸入裝置105的語音點擊模塊108可以持續地監測用戶與非語音輸入裝置10 的交互以檢測至少一個非語音裝置交互的發生,非語音裝置交互在此可以被稱為「語音點擊」。因此,檢測到的語音點擊可以提供處理多模式裝置交互的進一步背景,該多模式裝置交互可以包括至少一個語音點擊和一個或多個自然語言語句,它們每一個都可以提供任務說明的背景。因此,語音點擊通常可以用信號通知系統100當前語句或其他基於語音的輸入要和與一個或者多個裝置105的當前交互一起處理。例如,在一個實現方式中,當前裝置交互可以包括與一個或多個裝置105關聯的用戶選擇、突出或識別具體的關注點、對象或者其他項目。就這一點而言,當前裝置交互可以提供用於加強辨別、解釋和理解伴隨的語句的背景,而且,當前語句可以提供用以增強由所伴隨的裝置交互提供的背景的信息。在一個實現方式中,語音點擊模塊108可以基於非語音輸入裝置10 的具體特性確定待檢測的各種語音點擊交互(例如,語音點擊交互可以包括非語音輸入裝置10 支持的可區分的交互)。例如,多觸摸顯示器通常包括觸控螢幕顯示器裝置,該觸控螢幕顯示器裝置被配置成支持與顯示在該觸控螢幕顯示器裝置中的信息交互的各種可區分的手勢(例如,用戶可以利用特定的手勢或者其他交互技術放大、縮小、旋轉、或以其他方式控制顯示在多觸控螢幕上的圖形信息)。因此,在一個示例中,非語音輸入裝置10 可以包括多觸摸顯示器, 在該情況下,語音點擊模塊108可以被配置成在用戶加入由非語音多觸摸顯示器10 支持的一個或多個可區分的手勢時檢測語音點擊的發生。在一個實現方式中,用戶可以自定義或修改待由語音點擊模塊108檢測的語音點擊交互。具體地,由語音點擊模塊108檢測的特定裝置交互可以被刪除或修改,或可以添加新的裝置交互。就這一點而言,由語音點擊模塊108檢測的語音點擊裝置交互可以包括非語音輸入裝置10 和/或語音點擊模塊108可以區分的任何適當的交互或交互的組合。當語音點擊模塊108檢測到用戶加入語音點擊裝置交互中時,語音點擊模塊108 可以提取出與語音點擊裝置交互有關的背景信息以用於語音激活。具體地,語音點擊模塊 108可以識別與用戶選擇的部分、項目、注意點、關注點或者其他數據有關的信息,或者以其他方式識別與用戶加入的具體的裝置交互或裝置交互序列有關的信息。因此,語音點擊模塊108提取出所識別的與檢測到的語音點擊有關的信息,該信息可以用作與一個或者多個先前的、同時發生的或隨後的自然語言語句有關的背景信息。因此,響應於語音點擊模塊108檢測到語音點擊(例如,選擇圖標、一段文本、地圖顯示器上的特定坐標或其他信息),語音點擊模塊108可以用信號通知系統100利用自然語言語句語音輸入(其可通過語音輸入裝置10 接收)作為用於確定待執行的動作、查詢、 命令、任務或其他請求的進一步背景以服務於檢測到的語音點擊。就這一點而言,系統100 中的各種自然語言處理元件可以使用語音點擊和伴隨的自然語言語句的組合背景來確定語音點擊裝置交互的目的並適當地將一個或多個動作、查詢、命令、任務或其他請求路由到部署在多裝置環境中的各個裝置中的任何裝置。例如,在一個實現方式中,多裝置環境可以包括語音啟用導航裝置。因此,示例性語音點擊裝置交互可以包括用戶用手寫筆觸碰與語音啟用導航裝置關聯的觸控螢幕顯示器 105b上顯示的特定交叉點,同時還將比如「這周圍有什麼餐館?,,的語句提供到話筒105a。 在該示例中,語音點擊模塊108可以提取出與語音點擊的交叉點有關的信息,該信息可以用作處理伴隨的語句的背景(即,與用戶的當前位置或一些其他含義相對比,所選擇的交叉點可以為解釋「這周圍」提供背景)。而且,如上所述,語音輸入可以用作確定任務說明的附加背景。因此,可以利用系統100的各個自然語言處理元件進一步處理所述語句以用於識別和對話解釋,這將在下文更詳細地描述。在一個實現方式中,自動語音識別器(ASR) 110可以產生通過語音輸入裝置10 接收到的語句的一個或多個初步解釋。例如,ASR 110可以利用一個或多個動態適應識別語法識別語句的音節、單詞、短語或其他聲學特徵。在一個實現方式中,動態識別語法可以用來利用基於一個或多個聲學模型的語音聽寫識別一連串音位(例如,如2005年8月5 日提交的名稱為"Systems and Methods for Responding to Natural Language Speech Utterance」的共同待決的美國專利申請11/197,504中所述,該美國專利申請公開的全部內容通過引用併入本文)。在一個實現方式中,ASR 110可以配置成執行多遍語音識別,其中第一語音識別引擎可以產生語句的初級轉錄(例如,利用大列表聽寫語法),且隨後可以向一個或多個第二語音識別引擎請求一個或者多個次級轉錄(例如,利用具有未登錄詞的假詞的虛擬聽寫語法)。在一個實現方式中,第一語音識別引擎可以基於初級轉錄的可信度請求次級轉錄。ASR 110中使用的識別語法可以包括用於識別語句的各種詞彙表、詞典、音節、單詞、短語或其他信息。在一個實現方式中,識別語法中包括的信息可以被動態地優化以提高準確識別給定語句的可能性(例如,在不正確地解釋一單詞或短語之後,可以將該不正確解釋從語法中刪除以降低重複該不正確解釋的可能性)。另外,各種形式的知識可用來在動態的基礎上持續優化識別語法中包括的信息。例如,系統100可以具有如下知識,包括環境知識(例如,點對點關係、該環境中的各種裝置的性能等)、歷史知識(例如,頻繁的請求、先前背景等)或與當前對話性談話或交互有關的短期共享知識,以及其他類型的知識。在一個實現方式中,識別語法中的信息可以根據背景或特定應用領域而進一步優化。具體地,相似的語句可以根據該語句所涉及的背景而被不同地解釋,所述背景包括導航、音樂、電影、天氣、購物、新聞、語言、時間或地理相鄰性或者其他背景或領域。例如,包括詞「traffic」的語句可以根據該背景與導航(即,路況)、音樂(即,1960年的搖滾樂隊)、 還是電影(即,Soderbergh導演的影片)有關而面臨不同的解釋。因此,ASR 110 可以使用各種技術來產生自然語言語句的初步解釋,比如以上提及的共同待決的美國專利申請和/或2006年8月31日提交的名稱為「Dynamic Speech Siarpening」的共同待決的美國專利申請11/513,269中所述,該美國專利申請11/513,沈9公開的全部內容通過引用併入本文。就這一點而言,ASR 110可以將語音點擊中包括的自然語言語句的一個或多個初步解釋提供給對話語言處理器120。對話語言處理器120可以包括各種自然語言處理元件,所述各種自然語言處理元件共同配置成模擬人與人對話或交互。例如,對話語言處理器 120可以包括目的確定引擎130a、星座模型130b、一個或多個領域代理130c、背景追蹤引擎 130d、錯誤識別引擎130e以及語音搜尋引擎130f等。而且,對話語言處理器120可以連接到一個或多個數據知識庫160和與各種背景或領域有關聯的一個或多個應用程式150。因此,系統100可以使用與對話語言處理器120有關聯的各種自然語言處理元件以使用戶加入合作性對話中並基於用戶發起語音點擊的目的解析語音點擊裝置交互。更具體地,目的確定引擎130a可以基於系統100的性能以及多裝置環境中的任何其他裝置的性能建立給定多模式裝置交互的含義。例如,參照用戶語音點擊具體交叉點以確定「這周圍有什麼餐館」的以上示例,對話語言處理器120可以確定語音點擊的對話目的(例如,「什麼」可以表示所述語句與請求數據檢索的查詢有關)。此外,對話語言處理器120可以調用背景追蹤引擎130d以確定該語音點擊的背景。例如,為了確定語音點擊背景,背景追蹤引擎130d可以將與識別的注意點有關的背景(即,選擇的交叉點)和與所述語句有關的背景 (即餐館)組合起來。因此,語音點擊的組合背景(其包括裝置交互和伴隨的語句)可以為路由特定查詢提供充足信息。例如,該查詢可以包括與餐館和識別出的交叉點有關的各種參數或準則。 接著對話語言處理器120可以選擇可以向其路由該查詢以進行處理的具體裝置、應用程式或其他元件。例如,在一個實現方式中,對話語言處理器120可以評估星座模型130b,星座模型130b包括多裝置環境中的每一裝置的性能的模型。在一個實現方式中,星座模型 130b可以包括該環境中的每一裝置可用的處理知識和存儲資源以及每一裝置的領域代理、 背景、性能、內容、服務和其他信息的性質和範圍等。就這一點而言,利用星座模型130b和/或其他信息,對話語言處理器120可以確定哪一裝置或哪些裝置的組合具有可以被調用以處理給定的語音點擊裝置交互的適當性能。例如,再次參照以上給出的示例,對話語言處理器120可以確定語音點擊的背景涉及與導航裝置的交互且因此路由該查詢以利用導航應用程式150進行處理。查詢結果可以隨後被處理(例如,基於用戶的知識比如對素食餐館的偏好權衡結果)並通過輸出裝置180返給用戶。根據本發明的各個方面,圖2示出了用於在自然語言語音服務環境中同步不多模式裝置的示例性方法的框圖。如上所述,多模式裝置交互(或「語音點擊」)通常可以發生在以下時候用戶加入與一個或多個多模式裝置的一個或多個交互中同時提供和與多模式裝置的交互有關的一個或多個自然語言語句。在一個實現方式中,和與多模式裝置的交互有關的背景信息可以與和自然語言語句有關的背景信息組合以確定語音點擊的目的(例如,以發起特定的動作、查詢、命令、任務或其他請求)。在一個實現方式中,各種自然語言處理元件可以配置成持續收聽或以其他方式監測多模式裝置以確定語音點擊何時發生。就這一點而言,圖2中示出的方法可以用來調整或配置負責持續收聽或監測多模式裝置的元件。例如,在一個實現方式中,自然語言語音服務環境可以包括多個提供不同性能或服務的多模式裝置,且用戶可以加入一個或多個語音點擊中以請求與各個裝置中的任一裝置有關的服務或任一給定裝置交互的性能。為了能夠持續收聽多模式裝置交互或語音點擊,該環境中的多個裝置中的每一裝置可以配置成接收與語音點擊有關的信息。因此,在一個實現方式中,操作210可以包括為該環境中的多個裝置中的每一裝置建立裝置收聽器。另外,可以響應於一個或多個新裝置添加到該環境中而執行操作210。操作210中建立的裝置收聽器可以包括配置成在一個或多個處理裝置或其他硬體元件上執行的指令、固件或其他程序的任何適當組合。對於該環境中的每一裝置,相關的裝置收聽器可以與該裝置進行通信以確定與該裝置有關的性能、 特徵、支持的領域或其他信息。在一個實現方式中,裝置收聽器可以配置成利用針對輔助計算機裝置設計的通用即插即用協議與該裝置進行通信。然而,顯然可以使用與多模式裝置進行通信的任何適當機制。當已經為該環境中的每一裝置建立裝置收聽器時(或者當已經為添加到該環境中的新裝置建立裝置收聽器時),可以在操作220中同步各個裝置收聽器。具體地,所述各個裝置中的每一裝置可能具有不同的內部時鐘或其他計時機制,其中操作220可以包括根據裝置各自的內部時鐘或計時機制來同步各個裝置收聽器。在一個實現方式中,同步裝置收聽器可以包括各個裝置收聽器中的每一個裝置收聽器公布與相關裝置的內部時鐘或計時有關的信息。因此,當隨後發生針對一個或多個裝置的一個或多個多模式交互或語音點擊時, 在操作230中,相關裝置收聽器可以檢測與語音點擊有關的信息。例如,在一個實現方式中,在操作210中建立的各個裝置收聽器可以與上文描述和圖1中示出的語音點擊模塊有關。因此,操作230可以包括一個或多個裝置收聽器或語音點擊模塊檢測用戶與一個或者多個裝置交互的發生(例如,選擇與該裝置有關的數據、識別與該裝置有關的注意點或關注點、或者以其他方式加入與該裝置的一個或多個交互或交互序列中)。而且,操作240於是可以包括捕獲來自用戶的與操作230中檢測到的裝置交互有關的語句。例如,瀏覽顯示裝置上呈現的網頁的用戶可能在該網頁上看到產品名稱並且想要得到關於購買該產品的更多信息。該用戶可以從該網頁中選擇出包括該產品名稱的文本 (例如,使用滑鼠或鍵盤突出文本),接著發起語音點擊以詢問「這可以在Amazon, com上買到嗎? 」。在該示例中,操作230可以包括與該顯示裝置關聯的裝置收聽器檢測對與該產品名稱關聯的文本的選擇,而操作240可以包括捕獲詢問是否可在Amazon, com上買到該產品的語句。如上所述,接收來自用戶的輸入的每一裝置都可以具有內部時鐘或計時機制。因此,在操作250中,每一裝置可以從本地角度來確定何時接收到該輸入並通知語音點擊模塊接收到該輸入。具體而言,除了與一個或多個其他裝置的一個或多個其他交互之外,給定的語音點擊可以至少還包括通過語音輸入裝置接收到的自然語言語句。該語句可以在裝置交互之前、與其同時或之後接收到,由此操作250包括確定裝置交互的時間以與所述相關語句關聯。具體而言,利用參照操作220描述的被同步的裝置收聽器信號,操作260可以包括使裝置交互的信號和該語句的信號對齊。在使裝置交互信號和語句信號匹配時,可以產生包括對齊的語音和非語音成分的語音點擊輸入。接著,語音點擊輸入可以經受進一步的自然語言處理,如下文詳細描述。根據本發明的各個方面,圖3示出了用於在自然語言語音服務環境中處理多模式裝置交互的示例性方法的流程圖。如上所述,多模式裝置交互(或「語音點擊」)通常可以在以下時候發生用戶與一個或多個多模式裝置交互,同時還提供與所述裝置交互有關的一個或多個自然語言語句。就這一點而言,在一個實現方式中,圖3中示出的方法可以在以下時候執行一個或多個自然語言處理元件持續收聽或以其他方式監測一個或多個多模式裝置以確定一個或多個語音點擊何時發生。在一個實現方式中,一個或多個裝置交互可以被限定為發起語音點擊。例如,任一給定的電子裝置通常可以支持各種不同的交互,所述各種不同的交互可以引起執行給定的動作、命令、查詢或其他請求。因此,在一個實現方式中,給定的電子裝置可以唯一識別或者使用以產生可唯一識別信號的裝置交互的任何適當組合可以被定義為語音點擊,其中該語音點擊可以提供這樣的信號該信號指示自然語言語句要和與相關裝置交互關聯的背景一起被處理。例如,具有四通導航鍵或五通導航鍵的裝置可以支持特定不同的交互,其中以特定方式按導航鍵可以引起執行特定任務或其他動作,比如控制地圖顯示或計算路徑。在另一示例中,具有滾輪選擇器的BlackBerry 裝置可以支持多種交互,比如在具體的注意點或關注點上滾動光標、按壓滾輪以選擇特定數據或給定的應用程式、或者各種其他交互。各種其他裝置交互可以用來指示自然語言語句何時與和所述裝置交互有關的背景一起處理,但不限於此,其中在任一給定的實現方式中,具體的裝置交互可以變化。例如,相關裝置交互還可以包括下列中的一個或多個利用定向儀器或繪圖儀器在觸摸感應顯示屏上用動作示意(例如,繪製耳狀波形曲線),比如長觸摸或者雙擊的獨特交互方法,和/或如果系統在以上所述的持續收聽模式下工作,則預定義的背景命令字可以表示當前裝置背景要和跟在該背景命令字之後的一部分基於語音的輸入一起處理(例如,命令字為「可以(OK) 」、「請」、 「計算機」或其他適當的字,其中用戶可以在地圖上選擇特定的點並說「請放大」,或者當顯示電子郵件時說「可以讀取」,等)。就這一點而言,操作310可以包括在自然語言語音服務環境中處理多模式裝置交互以檢測表示發起語音點擊的一個或者多個裝置交互的發生。具體地,操作310中檢測到的裝置交互可以包括引起電子裝置產生唯一的、可識別的或其他可區分的信號的任何適當交互,該可區分的信號涉及用戶選擇數據、識別注意點或關注點、調用應用程式或任務、或者根據裝置的特定性能以另一方式和該裝置交互。除了裝置響應於用戶交互而產生的特定信號外,操作310中檢測到的交互可以表示發起語音點擊,由此先前的、同時發生的或隨後的自然語言語音輸入可提供用於解釋操作310中檢測到的裝置交互的進一步背景。例如,自然語言處理系統通常可以配置成在具體的裝置交互發生(例如,按按鈕以打開話筒)時接受語音輸入。因此,在圖3中示出的方法中,表示進入的語音輸入的裝置交互還可以包括與電子裝置的任何適當的交互或交互組合,包括與用戶選擇數據、識別注意點或關注點、調用應用程式或任務、或根據裝置的特定性能以另一方式與該裝置進行交互有關的交互。就這一點而言,當操作310中已檢測到語音點擊裝置交互時,可以在操作320中產生語音點擊信號以表示自然語言語音輸入應當與操作320中檢測到的交互關聯。隨後,操作330可以包括捕獲要和操作310中檢測到的交互關聯的用戶語句。在一個實現方式中, 操作310中檢測到的交互可以表示隨後將提供語音輸入,但是顯然,在一個或多個實現方式中,操作330中捕獲的語句可以在操作310中檢測到的交互之前或與其同時提供(例如, 用戶可以提供比如「在iTimes, 上查找此藝術家」的語句並隨後在媒體播放器上語音點擊該藝術家的名字,或者該用戶可以在語音點擊該藝術家的名字的同時提供此語句,或者該用戶可以語音點擊該藝術家的名字且接著提供該語句)。當已接收到與語音點擊裝置交互有關的信息和相關自然語言語句時,操作340可以包括提取並組合裝置交互的背景信息和相關語句的背景信息。具體而言,從語音點擊裝置交互中提取出的背景信息可以包括與用戶選擇的部分、項目、注意點、關注點或數據、或者用戶加入的具體的裝置交互或裝置交互序列有關的信息。提取出的裝置交互的背景接著可以與針對在操作330中捕獲的自然語言語句提取出的背景組合,其中在操作350中,組合的背景信息可以用來確定語音點擊的目的。例如,在示例性語音點擊裝置交互中,用戶可以選擇性地將來自媒體播放器的音樂合集拷貝到備份存儲裝置。當在媒體播放器上瀏覽音樂時,用戶可能遇到具體的歌曲並語音點擊該歌曲,同時說「拷貝此整個唱片集」(例如,在突出該歌曲的同時通過長時間按該媒體播放器上的具體的按鍵)。在該示例中,操作310可以包括檢測長時間的按鈕按下的交互,該長時間的按鈕按下引起操作320中產生語音點擊信號。接著,可以在操作330中捕獲語句「拷貝此整個唱片集」,並且與該語音點擊裝置交互有關的背景信息和所述語句的背景信息可以在操作340中組合。具體地,裝置交互的背景可以包括與所選擇的歌曲有關的信息等(例如,該背景還可以包括與該歌曲有關的元數據中包括的信息,比如音樂文件的ID3 標記)。此外,所述語句的背景可以包括識別拷貝操作和包括所選歌曲的唱片集的信息。就這一點而言,與和多模式裝置的語音點擊交互有關的背景信息可以和與自然語言語句有關的背景信息組合,由此操作350可以確定語音點擊交互的目的。例如,參照以上示例,操作350中確定的目的可以包括將包括來自媒體播放器的突出顯示的歌曲的唱片集拷貝到備份存儲裝置上的目的。因此,響應於操作350中確定語音點擊的目的,在操作360 中可以適當地路由一個或多個請求。在本文討論的示例中,操作360可以包括將一個或多個請求路由到該媒體播放器,以識別與包括該突出顯示的歌曲的唱片集有關的所有數據, 以及將一個或多個請求路由到能夠管理將所識別的數據從媒體播放器拷貝到備份存儲裝置的裝置的任何適當組合(例如,與媒體播放器和存儲裝置連接的個人計算機)。根據本發明的各個方面,圖4示出了用於在自然語言語音服務環境中處理多模式裝置交互以產生交易提示或「點進」的示例性方法的流程圖。具體而言,圖4中示出的方法可以用於結合響應於檢測到的一個或多個語音點擊裝置交互而執行的一個或多個動作來產生交易提示或點進。例如,操作410可以包括檢測從用戶接收到的一個或多個語音點擊裝置交互,其中所述語音點擊裝置交互可以包括與一個或多個相關自然語言語句結合的一個或多個裝置交互的任一適當組合。接著可以在操作420中確定用戶加入語音點擊裝置交互的目的, 且隨後的操作430可以包括基於確定的目的將一個或多個請求路由到一個或多個處理裝置以解析語音點擊交互。在一個實現方式中,可以與以上參照圖2和圖3所述的方式相似的方式執行操作410、420和430,由此用於裝置交互的信號可以與用於一個或多個自然語言語句的信號對齊,且可以從所述信號中提取出背景信息以確定語音點擊裝置交互的目的。除了基於用戶目的來路由一個或多個請求外,圖4中示出的方法還可包括產生一個或多個交易提示,所述交易提示可以導致一個或多個點進。例如,點進通常可以指用戶點擊或選擇電子廣告以訪問與刊登廣告的人有關的一個或多個服務的示例。在很多電子系統中,點進或點進率可以提供用於測量用戶與電子廣告交互的機制,該機制可以提供各種測量,刊登廣告的人可以使用所述各種測量以確定要付給將廣告提供給用戶的組織的金額。就這一點而言,圖4中示出的方法可以產生包括廣告或推薦的交易提示,由此用戶的與特定的裝置交互組合的基於語音的輸入可以提供用於產生交易提示的進一步的注意點。以此方式,提供給用戶的廣告或推薦可以與用戶可能與其交互的特定信息更相關。而且,利用自然語言認知模型與用戶的偏好有關的共享知識可以為對特定用戶量身訂製的目標交易提示提供進一步的背景,因此這可以更有可能導致能夠產生向語音服務提供商支付費用的點進。因此,除了基於用戶加入語音點擊裝置交互的目的而路由一個或多個請求之外, 操作440還可包括基於確定的目的產生一個或多個交易提示。具體而言,基於裝置交互和相關自然語言語句的組合背景,可以以「更接近」用戶的方式處理交易提示,其中本地語音背景和非語音背景可用作執行目標廣告的任一適當系統中的狀態數據。例如,參照以上給出的用戶選擇導航裝置上顯示的交叉點並同時說「找到這周圍的餐館」的示例,操作440中產生的交易提示可以包括交叉點附近的餐館的一個或多個廣告或推薦,所述廣告和推薦可以基於用戶的短期偏好和長期偏好(例如,偏好的餐館類型、偏好的價格範圍等)的知識而面向用戶。接著,所述交易提示可以呈現給用戶(例如,作為地圖顯示上的可選點)。接著可以在操作450中監測用戶的隨後的多模式裝置交互以確定一個或多個其他多模式裝置交互是否發生或何時發生。如果未發生其他交互,則可以確定用戶未按照交易提示行動,則該過程可以結束。然而,如果發生附加的多模式交互,則可以在操作480中處理該多模式輸入以確定輸入的目的並相應地路由一個或多個請求。此外,操作460可以包括確定所述多模式輸入是否與操作440中產生的交易提示有關。例如,用戶可以通過提供語句、非語音裝置交互或請求與所述交易提示有關的進一步動作或信息的語音點擊裝置交互來選擇做廣告的或推薦的餐館中的一個餐館。在這樣的情況下,操作470還可以包括處理與操作440中產生的交易提示有關的交易點進,其中所述交易點進可以用來為具體組織(例如,語音服務的提供商或與所述交易提示或交易點進有關的另一組織)確定支付費用或產生收益。本發明的實現方式可以在硬體、固件、軟體或它們的各種組合中進行。本發明還可作為存儲在機器可讀介質上的指令實現,所述指令可以由一個或多個處理器讀取並執行。 機器可讀介質可以包括用來存儲或發送機器(例如計算裝置)可讀形式的信息的各種機構。例如,機器可讀存儲介質可以包括只讀存儲器、隨機存取存儲器、磁碟存儲媒介、光學存儲媒介、快閃記憶體裝置或其他存儲媒介,機器可讀傳輸媒介可以包括多種形式的傳播信號,比如載波、紅外線信號、數位訊號或其他傳輸媒介。而且,可以在以上公開內容中就本發明的具體示例方面和實現方式以及執行某些動作這些方面來描述固件、軟體、程序或指令。然而, 顯然,這些描述僅是為了方便,且這些動作實際上由執行所述固件、軟體、程序或指令的計算裝置、處理器、控制器或其他裝置產生。儘管本文提供的描述主要集中在用於在自然語言語音服務環境中處理多模式裝置交互的技術,但是顯然,各種其他自然語言處理性能可以用於結合、附加於或代替與本文討論的具體方面和實現方式關聯描述的自然語言處理性能。例如,除了以上提及的共同待決的美國專利申請描述的技術外,本文描述的系統和方法還可利用2005年8月5日提交的名禾爾為「Systems and Methods for Responding to Natural Language Speech Utterance,, 的共同待決的美國專利申請11/197,504、2005年8月10日提交的名稱為「System mid Method of Supporting Adaptive Misrecognition in Conversational Speech,,的美國專利申請11/200,164、2005年8月四日提交的名稱為「Mobile Systems and Methods of Supporting Natural Language Human-Machine Interactions,,的美國專利申請 11/212,693、2006 年 10 月 16 日提交的名稱為 「System and Method for a Cooperative Conversational Voice User Interface」的美國專利申請 11/580,926、2007 年 2 月 6 日提交的名禾爾為「System and Method for Selecting and Presenting Advertisements based on Natural Language Processing of Voice-Based Input,,的美國專利申請 11/671,526 以及 2007 年 12 月 11 日提交的名稱為 「System and Method for Providing a Natural Language Voice User Interface in an Integrated Voice Navigation ServicesEnvironment」的美國專利申請11/954,064中描述的自然語言處理性能,所述美國專利申請公開的全部內容通過弓I用併入本文。 因此,本發明的方面和實現方式可以在本文中描述為包括具體的特徵、結構或性質,但將明顯的是,每一方面或實現方式可以或者可以不一定包括具體的特徵、結構或性質。此外,當具體的特徵、結構或者性質已結合一給定的方面或實現方式予以描述時,應當理解,無論是否明確描述,這樣的特徵、結構或性質也可以包括在其他的方面或實現方式中。因此,可以對以上描述進行各種改變或修改,而不脫離本發明的精神或範圍,因此,本說明書和附圖應當僅看作示例性的,本發明的範圍僅由所附權利要求確定。
權利要求
1.一種用於在包括一個或多個電子裝置的自然語言語音服務環境中處理一個或多個多模式裝置交互的方法,所述方法包括檢測至少一個多模式裝置交互,其中所述多模式裝置交互包括與所述電子裝置中的至少一個或與和所述電子裝置中的至少一個有關的應用程式進行的非語音交互,且其中所述多模式裝置交互還包括與所述非語音交互有關的至少一個自然語言語句;提取與所述多模式裝置交互有關的背景信息,其中所提取的背景信息包括與所述非語音交互有關的背景,以及其中所提取的背景信息還包括與所述自然語言語句有關的背景;組合與所述非語音交互有關的背景和與所述自然語言語句有關的背景;基於與所述非語音交互和所述自然語言語句有關的組合的背景,確定所述多模式裝置交互的目的;以及基於所確定的所述多模式裝置交互的目的,將至少一個請求路由到所述電子裝置中的一個或多個。
2.如權利要求1所述的方法,其中所述電子裝置中的至少一個包括配置成接收所述自然語言語句的輸入裝置。
3.如權利要求2所述的方法,所述方法還包括響應於檢測到的所述非語音交互,用信號通知所述輸入裝置捕獲自然語言語句。
4.如權利要求3所述的方法,所述方法還包括在所述自然語言語音服務環境中建立一個或多個裝置收聽器,所述裝置收聽器被配置成檢測所述非語音交互;以及使與由所述裝置收聽器檢測到的所述非語音交互有關的信息以及與由所述輸入裝置捕獲的所述自然語言語句有關的信息對齊。
5.如權利要求1所述的方法,所述方法還包括基於所確定的多模式裝置交互的目的,產生至少一個交易提示;接收與產生的所述交易提示有關的至少一個附加多模式裝置交互;以及響應於接收與所產生的交易提示有關的多模式裝置交互,處理交易點進。
6.如權利要求5所述的方法,其中產生的所述交易提示包括與所確定的所述多模式裝置交互的目的有關的廣告或推薦中的至少一個。
7.如權利要求1所述的方法,其中所述非語音交互包括選擇與所述電子裝置中的一個或多個有關的部分、項目、數據或應用程式。
8.如權利要求1所述的方法,其中所述非語音交互包括識別與所述電子裝置中的一個或多個有關的注意點或關注點。
9.如權利要求1所述的方法,其中所述非語音交互包括與所述電子裝置中的一個或多個有關的一個或多個唯一且可區分的交互。
10.一種用於在包括一個或多個電子裝置的自然語言語音服務環境中處理一個或多個多模式裝置交互的系統,其中所述系統包括一個或多個處理裝置,所述一個或多個處理裝置配置成檢測至少一個多模式裝置交互,其中所述多模式裝置交互包括與所述電子裝置中的至少一個或與和所述電子裝置中的至少一個有關的應用程式進行的非語音交互,且其中所述多模式裝置交互還包括與所述非語音交互有關的至少一個自然語言語句;提取與所述多模式裝置交互有關的背景信息,其中所提取的背景信息包括與所述非語音交互有關的背景,且其中所提取的背景信息還包括與所述自然語言語句有關的背景;組合與所述非語音交互有關的背景和與所述自然語言語句有關的背景;基於與所述非語音交互和所述自然語言語句有關的組合的背景,確定所述多模式裝置交互的目的;以及基於所確定的所述多模式裝置交互的目的,將至少一個請求路由到所述電子裝置中的一個或多個。
11.如權利要求10所述的系統,其中所述電子裝置中的至少一個包括配置成接收所述自然語言語句的輸入裝置。
12.如權利要求11所述的系統,其中所述處理裝置還配置成響應於正在被檢測的所述非語音交互,用信號通知所述輸入裝置捕獲自然語言語句。
13.如權利要求12所述的系統,其中所述處理裝置還配置成在所述自然語言語音服務環境中建立一個或多個裝置收聽器,所述裝置收聽器被配置成檢測所述非語音交互;以及使與由所述裝置收聽器檢測到的所述非語音交互有關的信息以及與由所述輸入裝置捕獲的自然語言語句有關的信息對齊。
14.如權利要求10所述的系統,其中所述處理裝置還配置成基於所確定的多模式裝置交互的目的,產生至少一個交易提示;接收與所產生的所述交易提示有關的至少一個附加多模式裝置交互;以及響應於接收與所產生的交易提示有關的多模式裝置交互,處理交易點進。
15.如權利要求14所述的系統,其中所產生的所述交易提示包括與所確定的所述多模式裝置交互的目的有關的廣告或推薦中的至少一個。
16.如權利要求10所述的系統,其中所述非語音交互包括選擇與所述電子裝置中的一個或多個有關的部分、項目、數據或應用程式。
17.如權利要求10所述的系統,其中所述非語音交互包括識別與所述電子裝置中的一個或多個有關的注意點或關注點。
18.如權利要求10所述的系統,其中所述非語音交互包括與所述電子裝置中的一個或多個有關的一個或多個唯一且可區分的交互。
全文摘要
本發明可以提供在自然語言語音服務環境中處理多模式裝置交互的系統和方法。具體地,可以在包括一個或多個電子裝置的自然語言語音服務環境中接收一個或多個多模式裝置交互。所述多模式裝置交互可以包括與至少一個所述電子裝置或與和所述電子裝置有關的應用程式進行的非語音交互,且還可包括與所述非語音交互有關的自然語言語句。與所述非語音交互有關的背景和與所述自然語言語句有關的背景可以被提取並組合以確定所述多模式裝置交互的目的,並且可以基於確定的所述多模式裝置交互的目的來將請求路由到一個或多個所述電子裝置。
文檔編號G10L15/00GK102439659SQ201080017511
公開日2012年5月2日 申請日期2010年2月22日 優先權日2009年2月20日
發明者L·貝爾德文, 克裡斯·魏德 申請人:聲鈺科技