新四季網

在集成語言導航服務環境中提供自然語言語音用戶界面的製作方法

2023-08-07 19:02:41

專利名稱:在集成語言導航服務環境中提供自然語言語音用戶界面的製作方法
技術領域:
本發明涉及一種自然語言語音用戶界面,該語音用戶界面能夠促進在集成語音導 航服務環境中的合作的、會話式交互,並且具體而言,本發明涉及一種其中用戶能夠使用會 話式、自然語言查詢或命令來請求導航服務的自然語言語音用戶界面。
背景技術:
隨著技術進步,消費電子產品在日常生活中有扮演越來越重要的角色的趨勢。從 而,用戶傾向於期望他們的電子設備(例如,現代行動電話、導航設備、個人數字助理、便攜 式媒體播放器、以及提供了核心應用以外的大量功能的其他設備)具有更大的功能性、可 移動性以及方便性。然而,更大的功能性通常傾向於伴隨有顯著的學習曲線和阻礙用戶充 分開發設備能力的其他障礙(例如,功能通常被隱藏在難以導航的菜單或界面之中)。此 外,儘管日益增加的對於移動性的需求放大了對於簡單的正在進行中(on-the-go)設備交 互機制的需要,但是現有的系統通常具有複雜的人機界面。例如,現有的人機界面傾向於主 要利用鍵盤、按鍵、點選式(point and click)技術、觸控螢幕顯示器、或其他界面機制的各種 組合。然而,這些界面會通常不適合於行動裝置或車輛設備(例如,導航設備),這是因為在 交互的速度和精力不集中的危險會引起重大問題的環境中,這些界面是不方便的。因而,現 有的系統通常達不到提供簡單並直觀的交互機制的目的,潛在地抑制了採用某些技術的巨 大市場。因而,對於以直觀方式開發技術的方法有日益增長的需求。為了解決這些和其他問題,各種現有的系統已經轉向語音識別軟體以簡化人機交 互。例如,語音識別軟體可以使用戶能夠開發設備的那些另外可能是不熟悉的、未知的或者 難於使用的應用和特徵。然而,當現有語音用戶界面實際工作時,它們還需要在用戶的這部 分上進行有效的學習。例如,現有的語音用戶界面(例如,命令和控制系統)通常需要用戶 記住句法、詞彙、短語或其他關鍵字或限定詞以發出查詢或命令。類似地,當用戶可能不確 定所需要的確切內容,或者設備能夠提供的內容時,現有的系統不能以產生的、合作的、自 然語言對話的方式來應答用戶,以解析需求並推進會話。相反,很多現有的語言界面強迫用 戶使用預定的命令或關鍵字來以這些系統能夠理解的方式傳送請求。與之相反,對於人類 交互的認知研究表明,提問或給出命令的人通常在很大程度上依賴於上下文和解答人的共 有知識。類似地,解答人也傾向於依賴上下文和共有知識來告知什麼會是合適的響應。然 而,現有的語音用戶界面沒有充分地利用上下文、共有知識或其他類似信息來提供這樣一 種環境,在這種環境中用戶和設備能夠合作,通過會話的、自然語言的交互來滿足互相之間 的目的。此外,在近些年中,對於全球定位系統和能夠導航的設備的需求顯著地增長。導航 設備通常傾向於當用戶在駕駛、正在進行或者在具有無需用手的界面就能夠提供關鍵優勢 的其他環境中時使用。例如,用戶會希望避免由於將視線離開公路而造成分心,用戶還會希 望與導航設備進行交互,例如,計算到目的地的路線、響應於交通狀況而重新計算路線、找 到本地的餐館、加油站或其他感興趣的地點、或者執行其他的與導航相關的任務。在這些和其他情況中,有效地處理基於自然語言語音的輸入能夠使得用戶以更安全、更簡單和更有 效的方式與導航設備進行交互。然而,現有的系統通常不能夠提供能夠在導航和其他移動 環境中提供這些優勢的集成的、會話式的、自然語言語音用戶界面。現有的系統受到這些和其他的問題的影響。

發明內容
根據本發明的各個方面,與現有系統相關的各種問題都可以通過提供集成語音導 航服務環境的會話式的、自然語言語音用戶界面來解決。根據本發明的各個方面,自然語言語音用戶界面能夠解析與導航相關的語音請求 (例如,計算路線、識別位置、顯示地圖等)。導航應用能夠向用戶提供交互的、到目的地或 旅途基準點的數據驅動指示,其中用戶能夠使用自由形式的自然語言來指定目的地或旅途 基準點(例如,用戶能夠識別全部或部分目的地,包括具體地址、大概的附近區域、城市、地 點的名稱或類型、商業的名稱或類型、人的姓名等)。由於自由形式的語音目的地輸入會以 多種不同的形式來提供,所以可以對全部或部分語音目的地輸入執行後處理,以識別合適 的目的地地址用於計算路線(例如,「有意義」的最近似的地址)。例如,對包含全部或部分 目的地的話語進行分析,以識別一個或多個可能的地址(例如,目的地的N最佳列表)。可 以對該N最佳列表進行後處理,來為可能的目的地分配權重或排序(例如,基於對應於所期 望的目的地的給出的可能目的地的確定程度)。因此,可以計算從用戶的當前位置到N最佳 列表中的可能目的地中的權重最高的一個目的地的路線。此外,當語音目的地條目包括局 部目的地時,會在一個或多個隨後的語言目的地條目之上逐次提煉最終目的地。導航應用 還可以提供到目的地的動態的、數據驅動的指示或路線。例如,導航應用可以訪問與各種用 戶指定以及環境數據源相關的數據,以提供沿路線的個性化數據驅動指示,該路線可以基 於從數據源取得的信息重新計算或修改。因而,可以動態地獲取數據以識別可替換的路線、 重新計算路線或者另外提供路線服務。此外,可以根據當前路線過濾對於給定話語的可能 的答覆或響應。根據本發明的各個方面,自然語言語音用戶界面會動態地產生和/或加載用於解 釋在話語中說了什麼(例如,話語的內容)的識別語法。在動態識別語法中包含的信息可 以為導航代理、自動語音識別器(Automatic Speech Recognizer)、上下文堆棧或語音用戶 界面中使用語法信息的各種其他部件使用。基於各種因素,通過有效地產生、更新、加載、擴 展或另外構建動態語法能夠避免處理瓶頸、能夠減少衝突、並且能夠優化使用識別語法解 釋話語的其他方面。例如,所產生的語法的大小會受系統中可用資源量的限制(例如,嵌入 式設備或具有少量動態存儲器的其他設備,受限制的語法大小會限制要佔據的資源量)。在 另一個示例中,動態語法的大小可以通過消除在上下文堆棧、共有知識,或其他本地資源中 可用的冗餘關鍵字、標準或其他信息來減少。因此,能夠通過減少語法中的複雜狀態來改進 正確解釋的有利程度(例如,當兩個或多個元素可能會被混淆時,會消除這些元素中的一 個或多個元素來減少混淆)。根據本發明的各個方面,自然語言語音用戶界面可以使用地理組塊 (geographical chunking)技術產生動態識別語法。可以在給定時刻確定用戶的位置,以 確定一個或多個地理近似(geographic proximity),該地理近似可用於為語法形成適當的拓撲域。例如,該拓撲域可以反映物理上的近似(例如,距離當前位置的距離)、民間組織 (civil organization)上的近似(例如,區、州、城市、附近地區、分支、地區等)、時間上的 近似(例如,從當前位置起的行進時間量)、方向上的近似(例如,基於方向行進向量)、或 它們的各種組合。從而,通過將用戶的地理近似映射到一個或多個拓撲域,可以在存儲器中 或在存儲器之外剪除、擴展或交換或者另外產生和/或加載動態語法,以提供基於位置、時 間、行程或其他因素的最優識別(例如,當用戶從一個區域移動到另一個區域時,可以在語 法中或語法之外交換信息,保證系統資源利用當前關於給定位置的信息)。根據本發明的各個方面,自然語言語音用戶界面可以包括由一個或多個拓撲域形 成的動態語法,拓撲域可以被細分為多個瓦區(tile),該瓦區還可以被細分為多個子瓦區 (subtile)。因此,用於構建動態語法的信息可以按照各種方式細分或加權,以確定應當在 語法中包括什麼信息。此外,可以將基於物理上的、民間組織上的、時間上的、方向上的或其 他近似的地理組塊擴展到能夠設置拓撲分類的其他域中。從而,除在導航或其他依賴位置 的系統中具有相關性之外,地理組塊技術能夠被應用在地理或位置可以是相關的其他上下 文或域中。此外,被操作地耦接到語音用戶界面的伺服器可以分析各種形式的信息,以建立 或提煉語法信息的資源。例如,當各種設備與伺服器通信時,信息被傳送到伺服器可以用於 更新近似、拓撲域、瓦區、子瓦區、對等相似性(peer-to-peer affinity)或其他語法信息。根據本發明的各個方面,自然語言語音用戶界面可以計算路線、提供到目的地的 動態的數據驅動指示、提供到目的地的動態路線、執行全部或部分目的地條目的後處理、或 另外提供各種語音導航服務。此外,可以使用對語音目的地條目進行逐次提煉的技術來識 別目的地和/或路線,其中,除其他以外,上下文、代理自適應(agent adaptation)和共有 知識都能夠幫助用戶使用語音命令、多模式命令或其各種組合來縮小最終目的地。然而,很 顯然,可以將該逐次提煉技術應用於能夠通過語音或多模式命令對概括估計進行逐次提煉 以縮小用戶所要尋找的信息,包括各種其他的域、上下文、應用、設備或採用在此說明的技 術的其他部件。根據本發明的各個方面,自然語言語音用戶界面可以通過逐漸地縮小最終目的地 來允許對最終目的地的進行逐次提煉。例如,逐次提煉目的地可以模仿人類交互的方式,在 人類交互方式中,可以通過交互的過程來縮小或提煉路線或目的地。例如,用戶可以大致近 似一個目的地,這可以導致沿著到該近似的目的地的優選路線計算路線。當在到該近似的 目的地的途中時,用戶和語音用戶界面可以通過一個或多個隨後的交互來合作提煉最終目 的地。因此,用戶可以使用自由形式的自然語言(例如,包括語音命令和/或多模式命令) 提供全部或部分目的地輸入。對應於語音目的地輸入的一個或多個可能的目的地的解釋可 以以目的地的N最佳列表的方式進行組織。可以對該可能的目的地的列表進行後處理,以 向其中的一個或多個條目分配權重或排序,從而根據全部或部分語音目的地輸入確定最可 能感興趣的目的地。因此,後處理操作可以根據關於用戶的共有知識、域指定的知識、對話 歷史、或其他因素來對可能的目的地進行排序或加權。從而,可以分析全部或部分目的地輸 入以識別能夠計算到其路線的地址(例如,通過解析關於輸入的目的地的「有意義」的最近 似的地址)。隨後的輸入可以提供關於目的地的其他信息,並且可以反覆地提煉加權的N最 佳列表,直到通過逐次提煉能夠識別最終目的地。從而,當已經識別出了適當的最終目的地 時,就可以完成到該最終目的地的路線。
根據本發明的各個方面,自然語言語音用戶界面可以包括一個或多個廣告模型, 用於產生和/或檢測與導航系統的位置依賴廣告有關的事件(例如,通過本地或遠程廣告 引擎或經由數據信道或以其他方式產生)。例如,導航系統通常包括用於確定當前位置的各 種機制(例如,全球定位系統、射頻識別系統、基於到可識別的無線電天線塔或接入點的距 離計算位置的系統等)。從而,位置檢測系統可以在商人用來提供廣告所使用的數據信道上 檢測與射頻標識符有關的信息。商人可以經由數據信息對廣告進行廣播,從當導航系統處 於RFID的適當附近區域之中時觸發事件。從而,可以根據當前路線信息或其他上下文參數 過濾與該事件有關的信息,以確定應當對其做何反應。在其他實例中,可以通過一個或多個 廣告合作者將廣告上載到伺服器,其中上載的廣告可以與元數據或識別識別目標聽眾、位 置依賴信息、或其他標準的其他描述信息相關聯。在另一示例中,可以在語音用戶界面處本 地存儲多個廣告,並且推理引擎可以確定應當產生事件以向用戶傳送一個或多個廣告的適 當環境。從而,很顯然,廣告事件可以以多種方式產生,並且可以本地地、遠程地、通過檢測 RFID或以其他方式產生和/或檢測所述廣告事件。根據本發明的各個方面,自然語言語音用戶界面可以跟蹤用戶與所傳送的廣告的 交互。以此方式,可以產生基於相似性的模型,例如,以保證宣傳或廣告將被傳送給可能的 目標聽眾。從而,當關於用戶的行為、偏好或其他特徵的共有知識與和關於廣告的對等相似 性相關聯的一個或多個標準匹配時,可以產生和/或檢測到與給定廣告相關的事件。在其 他示例中,廣告模型可以包括移動每次使用付費系統、對等本地指南或推薦、或其他形式的 廣告。另外,可以根據應用於各種拓撲域的映射產生各個方面的廣告模型(諸如本地指南 或推薦)。例如,一些類型的廣告可以依賴於地理或拓撲特徵,並且這種廣告可以與基於地 理組塊的拓撲分類相關聯。從而,可以根據物理上的近似、時間上的近似、方向上的近似、民 間組織上的近似、或它們的各種組合來產生和/或檢測各種廣告事件。根據本發明的各個方面,自然語言語音用戶界面可以允許用戶使用自然語言嚮導 航設備提出請求(例如,查詢、命令或其他請求)。因而,用戶和導航設備可以進行合作的、 會話式的對話方式接合,以解析該請求。例如,除其他事情以外,語音用戶界面可以使用現 有的上下文、對話歷史、域知識、關於用戶行為和偏好的短期和長期共有知識、噪聲容忍、和 認知模型,來提供集成的環境,在該環境中用戶能夠使用自然的語言會話地講話,來發出能 夠被機器理解並處理的查詢、命令或其他請求。從而,語音用戶界面可以理解自由形式的 人類話語,使用戶不再受關於如何表達命令、查詢或其他類型的請求的限制。替代地,用戶 能夠使用自然的或不經意的講話方式在集成環境中請求各種語音服務,其中在該集成環境 中,可以使用自然語言以會話的方式控制各種設備。例如,語音用戶界面可以知道與導航設 備、媒體設備、個人計算機、個人數字助理、行動電話或在該環境中可用的各種其他計算設 備或系統有關的數據和服務。根據本發明的各個方面,自然語言語音用戶界面可以包括接收基於語音的輸入的 輸入機構,該基於語音的輸入至少包括用戶講的話語或語言表達。輸入機構可以包括能夠 接收基於語音的輸入的適當的設備或設備組合(例如,定向麥克風、麥克風陣列、或對語音 進行編碼的其他設備)。可以將輸入機構優化為在用戶的方向中增益最大化、取消回波、零 點(null point)噪聲源、執行可變速率的採樣、濾除背景談話或噪音、或者另外優化編碼語 音的保真度。從而,輸入機構可以以容忍會干擾對語音進行解釋的噪音或其他因素的方式來產生編碼語音。此外,在各種實現中,輸入機構可以包括一個或多個其他(非語音的)輸 入模式,這些模式能夠被處理和/或與一個或多個以前的、當前的、或隨後的話語或其他基 於語音的輸入相關聯。從而,用戶能夠利用,例如,觸控螢幕界面、尖筆/寫字板界面、小鍵盤 或鍵盤、或者其他輸入界面來提供其他形式的輸入以澄清話語,或使用其他的輸入模式來 提供關於話語的附加信息。例如,用戶可以將尖筆或其他指示設備觸摸到在觸控螢幕界面上 顯示的地圖的一部分,同時還提供關於所觸摸部分的話語(例如,「向我顯示在這兒周圍的 餐館。」)。在此示例中,可以將輸入相互關聯來將「在這兒周圍」解釋為很可能是指所觸摸 的地圖部分,與用戶當前的位置不同或具有一些其他含義。根據本發明的各個方面,自然語言語音用戶界面可以包括自動語音識別器,其處 理編碼語音以產生一個或多個在話語中說了什麼(例如,話語的內容)的初步解釋。例如, 自動語音識別器可以基於動態自適應識別語法使用語音聽寫(phonetic dictation)來識 別音素流以產生初步的解釋。動態自適應識別語法可以基於字典或來自各種輸入域(例 如,針對語言、導航、音樂、電影、天氣、各種時間或地理近似的域、或者各種其他域)的短 語。因此,自動語音識別器可以產生話語的一個或多個解釋,該話語可以表示為一系列的音 素或音節。可以對一個或多個解釋(例如,利用人類語言的語言規則或模型)進行分析來產 生關於用戶說了什麼的初步解釋的N最佳列表。然後,可以將初步解釋提供給會話語言處 理器,其利用共有知識、上下文信息、和各種其他信息源來產生關於實際含意、用戶的意圖、 或話語的其他方面的智能假定。通過使用模仿人與人的日常對話的各種特徵和部件對該假 定進行明確地敘述,會話語言處理器可以產生關於話語的含意和意圖的假定,其可以通知 解析包含在話語中的一個或多個請求的處理器。根據本發明的各個方面,除其他以外,自然語言語音用戶界面可以包括上下文跟 蹤引擎,其針對給定的話語的創建含意。例如,上下文跟蹤引擎能夠管理在創建含意的一個 或多個特定上下文的域代理(例如,對於給定上下文、域、系統、或應用提供功能性的可重 新分配的、自適應引擎或模塊)之間的競爭。域代理可以對話語的初步解釋進行分析,以產 生特定域的可能解釋。例如,一個或多個代理可以包括自適應詞彙表、概念、可得到的任務、 或指定用於各域或上下文的其他形式的信息。另外,代理能夠使用語音搜尋引擎來針對系 統中沒有的信息搜索網絡。可以為可能的解釋分配加權排序或分數,這可用於選擇代理中 的「獲勝的」一個代理。因此,除其他代理外,可以將代理中的獲勝的一個代理指定為負責建 立或推理進一步的信息(例如,基於域或特定上下文的信息)、更新共有知識、或解析話語 中的請求。上下文跟蹤引擎還可以保持上下文堆棧以跟蹤對話主題、跟蹤以前調用的引擎、 評價標準、加權參數、或保持關於會話上下文的信息(例如,可以按照最近的上下文、經常 使用的上下文、或在其中包括的其他信息來回移動上下文堆棧,以確定用戶最有可能的意 圖)。通過識別上下文,或相關聯地,通過識別容量、任務、詞彙表、或上下文中的其他信息, 上下文跟蹤引擎能夠提供除與話語有關的語音線索(例如,可以基於詞彙在給定上下文中 的含意、在對話中以前的使用情況等,消除具有多個可能含意的詞彙的歧義)之外的用於 建立意圖的相關信息。根據本發明的各個方面,自然語言語音用戶界面可以利用各種形式的信息來允許 共享關於給定話語、會話、或其他人機互動的假定和預期。例如,為了通知在語音用戶界面 中作出的決定,語音用戶界面可以包括信息源,該信息源包含關於用戶行為、偏好、或其他特徵的短期和長期共有知識(例如,特定用戶、全球用戶、對等用戶等的短期和長期簡檔)。 短期共有的知識可以在當前的會話期間積累信息,來動態地建立語音用戶界面的狀態的認 識(例如,以前的話語的識別文本、跨模式的用戶界面操作歷史、以前選擇的任務或調用的 查詢的列表、或者其他信息)。短期知識的存儲會模仿人類交互,從而在心理地適當的時間 量之後某些信息會過期(例如,擦除陳舊的數據),反之可以將具有長期意義的信息添加到 長期共有知識(例如,建立很可能隨著時間的過去而保持不變的數據的持久穩固的認識)。 從而,長期共有知識會基於隨著時間積累的信息對各種特徵、偏好、行為、或者關於用戶的 其他信息(例如,特定用戶的專用語、人口狀況、認知方式、經常請求的任務、喜好的主題或 概念等)進行建檔或建模。從而,語音用戶界面可以利用各種形式的可經由上下文跟蹤引 擎、域代理、語音搜尋引擎、共有知識、內部或外部資料庫、與其他設備關聯的數據、或其他 的知識源得到的信息。因此,能夠識別會話類型或與話語有關的目的。基於可得到的信息 和會話的類型或目的,語音用戶界面會嘗試解析話語(例如,通過調用代理,該代理利用一 個或多個應用來執行請求的任務、檢索請求的信息等)。根據本發明的各個方面,自然語言語音用戶界面可以產生對句法、語法、和上下文 敏感的跨模式(cross-modal)智能響應,其可以向系統產生的響應提供會話的感覺。當可 用時,所產生的智能響應可以提供所解析的請求的結果(例如,關於任務的反饋、所檢索到 的作為查詢結果的信息等)。此外,例如使用口頭和/或非口頭輸出(例如,信息可以在顯 示設備上、經由聽得見的警報、語言表示的輸出、其他輸出機構、或它們的各種組合來呈現) 的結合,可以跨模式提供智能響應。此外,跨模式響應的語言表示部分(例如,通過改變音 調、速度、定時、或其他變量)可以適應於用戶的講話方式,從而建立具有自然變化和個性 的口頭響應。還可以明確地表達智能響應來提供輸出,該輸出將用戶引導向更可能被識別 的後續響應(例如,後續的話語)。例如,當因為不明確的上下文、不能識別的詞彙或短語、 或者會導致不明確的或不能識別的解釋的其他因素而不能解析話語時,能夠制定智能響應 消除上下文的歧義或從用戶請求另外的信息,以澄清話語的含意。此外,當後續信息表明給 定的解釋或假定不正確時,會重新解釋一個或多個以前的話語,來提煉上下文並更新短期 或長期會話模型(例如,「不,我的意思是……」這樣的話語可以表明對以前的話語解釋得 不正確,在此情況中,可以基於正確的解釋對各種以前的話語重新進行解釋,因此建立更精 確的會話上下文)。從而,通過自適應機制,語音用戶界面可以容忍全部或部分失敗。根據本發明的各個方面,自然語言語音用戶界面可以在基於代理的架構之內提供 語音導航服務。該架構可以包括多個自適應代理(例如,專門的軟體、數據、內容、或其他信 息,其在多個各自上下文域中提供功能、行為、服務、數據、和其他信息),其中至少一個代理 提供導航服務(例如,路線計算、地圖控制、位置敏感信息、數據驅動指示等)。當代理處理 請求時,該代理可以自治地進行反應、自適應、和重新配置,以在各自域中提供最佳的語音 服務。例如,通過隨著時間建立上下文(例如,通過產生短期和長期的用戶簡檔、與用戶的 會話、頻繁的主題或偏好等),代理會自動地結合知識、自適應偏好、移除衝突、或執行其他 自適應來提煉或優化其操作結構。響應於解析基於語音請求的各種代理,例如,代理(至少 包括導航代理)的自適應可以跨越多個代理而發生。從而,自適應可以作為提供語音服務、 產生推理、識別相似性(例如,在用戶、對等人、團體等之間)、從外部源接收更新(例如,使 用更新管理器)、或其他方式的代理的副產品會自治地發生將是顯而易見的。
根據本發明的各個方面,自然語言語音用戶界面可以包括用於提供語音導航服務 的基於代理的架構。例如,該基於代理的架構可以包括一個或多個域或上下文指定的代理, 其中至少包括導航代理。除其他以外,導航代理可以包括各種導航指定內容分組(例如,字 典、可用查詢、任務、命令、動態語法等)、響應列表(例如,對命令、查詢、或其他請求的適當 響應)、個性簡檔(例如,用於為系統產生的語音建立自然的感覺)、置換列表(例如,將數 據置換或轉換成能夠被目標信息源理解的結構形式)、或各種其他形式的導航指定信息。此 外,導航代理還可以與指向本地或遠程數據源的指示器、與該架構中其他服務相關聯提供 的參數和操作數據、或者各種其他形式的信息進行關聯。例如,導航代理使用的數據源可以 包括與導航相關的數據、感興趣的地點、交通、事件、停車、個人數據、對等相似性、或各種其 他信息源。此外,可以通過自適應、各種模型的分析、與數據服務的通信、或其他方式來組裝 (populate)、擴展、剪除、或構造數據源將將是顯而易見的。根據本發明的各個方面,自然語言語音用戶界面可以包括導航代理,其可以與各 種信息源耦接,並且可以利用上下文、與各種其他自適應代理以及其他系統部件進行通信 來提供應用導航服務。例如,導航代理可以使用與導航域有關的上下文信息,包括跟蹤的主 題、用戶位置、行進路線、之前請求、用戶界面狀態、用戶行為、偏好、人口統計狀況、或其他 特徵、或者各種其他類型的上下文信息。從而,導航代理可以具有各種知識源和對解析語音 導航請求可用的資源。例如,導航代理可以使用可用的知識和資源應用各種規則、策略、或 其他推理技術來產生推理(例如,使用推理引擎),以產生話語的解釋(例如,語音失真匹 配、歸納邏輯、貝葉斯概率分析、單調或非單調推理等)。從而,導航代理能夠推理在話語中 沒有明確提供的關鍵詞或標準、確定對於主觀的或不確定的話語的適當響應、產生事件、識 別對等相似性、或者產生對解析與導航相關請求的推理。根據本發明的各個方面,自然語言語音用戶界面可以包括一個或多個推理引擎, 其能夠通過以前的上下文的認識、短期或長期共有知識、命令歷史、車輛系統的狀態、用戶 界面狀態、和各種其他數據源產生各種推理。在各種實現中,一個或多個代理可以與各自 的推理引擎相關聯,所述推理引擎能夠使用域指定知識、規則、策略、或其他標準產生推理。 例如,推理引擎可以識別話語中沒有的關鍵詞或標準、推理意圖的含意、自治地建議可用任 務、或輔助相關聯的代理來識別在話語中包含的查詢、命令、或其他請求。另外,當使用與導 航代理相關的信息源或通過產生推理不能夠適當地解析信息時,可以從一個或多個其他代 理、其他設備、網絡信息源(例如,經由語音搜尋引擎)、或以其他方式來請求該信息將是顯 而易見的。一旦通過一個或多個其他源識別了該信息,請求代理會適合於使得該信息隨後 可用。因此,架構中的不同設備、應用、系統、和其他部件可以合作地共享可用信息和服務 (例如,上下文、對話歷史、共有知識、地圖、感興趣的地點、聯繫人列表、用戶或對等相似性、 動態語法、可用應用、命令歷史等)。從而,該架構可以提供集成語音導航服務環境,在該環 境中用戶能夠講出關於各種可用上下文、域、應用、設備、信息源、或它們的各種組合的自然 語曰請求。根據本發明的各個方面,自然語言語音用戶界面可以接受基於自然語言語音的輸 入來控制除與語音用戶界面在其中進行操作的環境所關聯的各種其他設備外的能夠提供 導航信息的電子設備。此外,該語音用戶界面的各種功能方面可以存在於客戶設備、服務 器、或它們的各種組合中。
根據本發明的各個方面,自然語言語音用戶界面可以支持多模式語音輸入。因此, 除一個或多個非語音輸入部分(例如,經由小鍵盤、觸控螢幕、尖筆/書寫板組合、滑鼠、鍵盤、 或其他輸入模式提供的輸入)外,給定的多模式語音輸入至少還可以包括語音部分(例如, 話語)。從而,非語音輸入部分能夠提供附加信息或關於話語的澄清,添加到處理語音時的 可用輸入信息量。例如,用戶可以使用其他輸入模式來澄清話語的含意、提供關於話語的附 加信息、減少做出給定請求所需的設備交互數量、或者提供關於給定話語的附加信息。根據本發明的各個方面,自然語言語音用戶界面可以利用各種認知模型、上下文 模型、用戶指定模型、或其他模型來識別語音輸入中的查詢、命令、或其他請求。例如,給定 的輸入可以包括關於一個或多個上下文域的信息,域中的一個或多個可以被調用來解釋和 /或推理包含在輸入中的關鍵詞、概念、或其他信息。另外,可以在還考慮了語義分析和上下 文推理的混合識別模型中使用關於用戶行為和偏好的短期和長期共有知識。例如,某些音 節、詞彙、短語、請求、查詢、命令、或其他信息會更有可能在給定的上下文中發生。因此,混 合識別模型會分析語義模式來解析話語所說的內容,並且會進一步依賴上下文歷史或其他 信息來解析話語意味著什麼。混合識別模型可以與對等識別模型聯合使用或單獨使用。例 如,識別模型可以包括對全球使用方式、偏好、或者同等用戶的其他特徵的認識,其中同等 用戶會在上下文中採用某些關鍵字、概念、查詢、命令、或上下文結構的其他方面。基於下列附圖和詳細說明,本發明的其他目的和優點將得以呈現。


圖1示出了根據本發明各個方面的用於提供具有會話式的自然語言語音用戶界 面的導航設備的示例性系統的框圖。圖2示出了根據本發明各個方面的用於提供具有會話式的自然語言語音用戶界 面的導航設備的示例性的基於代理的架構的框圖。圖3示出了根據本發明各個方面的用於動態產生用於具有會話式的自然語言語 音用戶界面的導航設備的識別語法的示例性方法的流程圖。圖4示出了根據本發明各個方面的用於處理提供到具有會話式的自然語言語音 用戶界面的導航設備的多模式基於語音的輸入的示例性方法的流程圖。圖5示出了根據本發明各個方面的用於根據提供到具有會話式的自然語言語音 用戶界面的導航設備的基於語音的輸入來計算路線的示例性方法的流程圖。圖6示出了根據本發明各個方面的用於根據當前的導航路線提供語音服務的示 例性方法的流程圖。
具體實施例方式根據本發明的各個方面,圖1示出了用於提供具有會話式的自然語言語音用戶界 面的導航設備的示例性系統100的框圖。如圖1所示,該系統100可以允許用戶與能夠進 行語音導航的設備採用自然語言的、合作的、會話式對話進行接合(engage)。例如,系統 100可以理解自由形式的人類話語,使用戶不再受應該如何表達命令、查詢或其他類型請求 的限制。替代地,除各種其他語音服務(例如,與電信息業務、通訊、媒體、消息、外部系統、 市場、信息檢索、或各種其他計算服務有關的服務)之外,用戶可以使用隨意或自然的講話方式來請求各種語音導航服務。從而,用戶可以使用系統100以使用自然語言的對話方式 來控制導航設備、媒體設備、個人計算機、個人數字助理、無線電話、或者其他計算設備或系 統。除其他以外,通過使用上下文、現有的信息、域知識、短期或長期共有知識、噪聲容忍、 和認知模型,系統100可以提供集成環境,在該環境中用戶可以使用自然的語言以對話方 式講話來發出能過被機器理解並處理的查詢、命令或其他請求。例如,在各種實現中,系統 100可以利用如於2003年6月3日提交的題為「Systems and Methods for Responding to Natural Language Speech Utterance」 的同時待審的美國專利申請 10/452,147 和於 2003 ^ 6 ^ 15 Hil^WH^J"Mobile System and Methods for Responding to Natural Language Speech Utterance」的同時待審的美國專利申請10/618,633中所說明的一種或 多種技術,因此通過引用將其全部內容併入本文。根據本發明的各個方面,系統100可以包括輸入機構105,其接收基於語音的輸 入,該基於語音的輸入至少包括用戶講的一句話語或語言表達。輸入機構105可以包括用 於接收基於語音的輸入的適當的設備或這些設備的組合(例如,定向麥克風、麥克風陣列 或對語音進行編碼的其他設備)。在各種實現中,例如,可以通過最大化用戶方向中的增益、 取消回波、零點(null point)噪聲源、執行各種速率的採樣、對背景談話或環境噪音進行過 濾、或者執行用於最大化編碼語音的保真度的各種其他技術來優化輸入機構105,以接收基 於語音的輸入。從而,由輸入機構105產生的編碼語音可以高度地容忍可能干擾解釋人的 講話的噪聲或者其他因素。此外,在各種實現中,輸入機構105可以被耦接到其他輸入模式,其中除語音外的 各種形式的輸入都可以被處理和/或與一個或多個以前的、當前的、或隨後的基於語音的 輸入相關聯。例如,輸入機構105可以被耦接到觸控螢幕界面、尖筆/書寫板界面、小鍵盤或 鍵盤、或者其他設備或系統界面將是顯而易見的。從而,可以最大化對於系統100處理語音 潛在可用的輸入信息量,這是因為用戶可以使用其他輸入模式來澄清話語或提供關於話語 的附加信息。例如,用戶可以將尖筆或其他指示設備觸摸到在觸控螢幕界面上顯示的地圖的 一部分,同時還提供關於所觸摸部分的話語(例如,「向我顯示在這兒周圍的餐館。」)。在 此示例中,系統100可以將輸入相互關聯,以將「在這兒周圍」解釋為很可能是指所觸摸的 地圖部分,以和用戶當前的位置或其他含義進行區分。系統100還可以包括自動語音識別器110,其接收編碼語音輸入並產生其一個或 多個初步解釋。例如,自動語音識別器110可以使用語音聽寫來識別基於語音的輸入,以基 於動態自適應識別語法來識別音素流。從而,自動語音識別器110可以提供詞彙表之外的 能力,其可以容忍用戶的錯誤講話、講話信號的一部分被減弱、或會干擾對話語進行解釋的 其他因素。動態自適應識別語法可以基於字典或來自各種輸入域(例如,不同語言、導航、 音樂、電影、天氣、各種時間或地理近似的域、或者各種其他域)的短語。此外,可以通過剪 除與識別語法相關的搜索空間(例如,語法可以包括諸如SChwa的連結元素,來表示經常被 講的無重音的中央元音,甚至不需用戶有意識的認識)來改進自動語音識別器110的性能。 因此,使用這些和其他技術,自動語音識別器110可以分析輸入的編碼話語,以將話語的各 部分表示為一系列的音素或音節,除其他子種類以外,這些音素或音節可以被進一步分解 為開始、中心、和結尾的核心部分。然後可以分析該一系列的音素或音節,以識別關於用戶 說了什麼的多個初步解釋或最佳猜測(例如,N最佳列表)。然而,很顯然,自動語音識別器110可以使用各種技術來產生編碼話語的初步解釋,這些技術包括,例如,於2006年8月31 日提交的題為「Dynamic Speech Sharpening」的同時待審的美國專利申請第11/513, 269 號中所說明的技術,通過引用將其全部內容併入本文。可以將由自動語音識別器110產生的多個初步解釋提供給會話語言處理器120, 其利用共有知識產生真實含意、用戶意圖、或基於語音的輸入的其他方面的智能假定。會話 語言處理器120可以使用共同地操作以模仿人與人的日常對話的各種特徵和部件對該假 定進行明確地表達。例如,會話語言處理器120可以包括上下文跟蹤引擎140,除其他以外,上下文跟 蹤引擎140建立針對給定的話語的含意,管理在一個或多個上下文指定域代理125 (例如, 為給定上下文、域、系統、或應用提供功能性的可重新分配的、可自適應的分組或模塊)中 的競爭。例如,自動語音識別器110可以對初步解釋進行排序,代理125可以進一步分析初 步解釋,以產加權的排序或得分,排序或得分可用於選擇代理125中的「獲勝的」一個代理。 然後,代理125中的獲勝的一個代理可以負責建立或推理進一步的信息、更新共有知識、或 者執行其他任務來輔助產生智能的假定。此外,上下文跟蹤引擎140可以使用上下文堆棧 來跟蹤會話主題、評價標準、加權參數、或者保持用於基於會話的上下文產生假定的上下文 信息(例如,可以按照最近的上下文、經常使用的上下文、或在其中包括的其他信息來回移 動上下文堆棧,以確定用戶最有可能的意圖)。通過識別上下文,或相關地,通過識別容量、 任務、詞彙表、或上下文中的其他信息,除了不足的語音線索之外,上下文跟蹤引擎140還 可以提供用於建立意圖的高度相關信息。此外,會話式語言處理器120可以利用各種其他形式的知識來通知智能假定的產 生。例如,各種代理125可以自適應地包括域指定或上下文指定的詞彙表、概念、可用任務、 或與各域或上下文相關的其他形式的信息。另外,與會話式語言處理器120關聯的各種部 件能夠調用語音搜尋引擎135(例如,針對信息搜索網絡的引擎)來解析不是內部可得到的 信息(例如,當外部知識源會有助于澄清話語的特定詞彙、命令、查詢對象、或其他方面背 後的意圖時)。系統100還可以使用戶和該系統100共享關於給定話語、會話、或其他交互的假定 和預期。例如,會話語言處理器120可以耦接到存儲短期和長期共有知識的一個或多個數 據存儲庫160,這些共有知識用於通知在會話語言處理器120中作出的決定。短期共有知 識可以在當前會話期間積累信息(例如,以前話語的識別文本、跨模式用戶界面操作歷史、 以前選擇的任務或調用查詢的列表、或者其他信息),從而動態地建立語音用戶界面的跨模 式狀態的認識。短期知識的存儲可以模仿人類交互,從而某些數據會在心理適當時間量之 後過期(例如,擦出陳舊的數據),而可以將具有長期意義的信息添加到長期共有知識(例 如,用戶的長期聯繫人的新地址)。從而,長期共有知識可以基於隨著時間積累的信息對用 戶的環境的、認知的、歷史的、人口的、或其他方面建檔或建模(例如,用戶指定的專用語、 經常請求的任務、感興趣的主題或概念等)。從而,會話語言處理器120包括可用於針對用戶在給定話語中的意圖來產生智能 假定的各種特徵。例如,假定可以基於經由上下文跟蹤引擎140、代理125、語音搜尋引擎 135、共有知識、或其他的知識源提供的信息。從而,會話式語言處理器120嘗試識別會話類 型或話語目的(例如,用於檢索離散信息片段的查詢、用于澄清由語音用戶界面提供的信息的教導式交互、或者隨著會話過程可以在其中臨時提供會話目的的探索交互等)。基於可 用的信息和會話的類型或目的,可以為所產生的假定指定某一等級,其可以通知會話語言 處理器120要如何解析話語。例如,當某一等級表明已經識別了足夠的信息時,會話式語言 處理器可以調用一個或多個代理125,代理125然後可以進一步利用一個或多個應用150來 執行所請求的任務(例如,關於導航應用、廣告應用、音樂應用、電子交易應用的任務、或者 其他適當的應用或任務)。在另一個示例中,一個或多個代理125可以查詢數據存儲庫160 或語音搜尋引擎135去檢索所請求的信息,或另外採取動作解析包含在話語中的信息的請 求。另外,會話語言處理器120可以產生跨模式的智能響應,該智能響應可以對句法、 語法、和上下文敏感,從而為系統產生的響應提供會話的感覺。當可用時,智能響應可以向 用戶呈現所執行的任務或所執行的查詢的結果,並且可以跨越各個模式提供該響應。例如, 可以分離地或共同地使用口頭和/或非口頭輸出180(例如,通過使用顯示設備、聽得見的 警報、語言話輸出、另外的輸出機構、或它們的各種組合來呈現信息)。此外,跨模式輸出 180的語言部分(例如,通過改變音調、速度、定時、或其他變量)可以適應於用戶的講話方 式,從而建立具有自然變化和個性的口頭響應。還可以明確地表達智能響應以提供輸出180,該輸出180引導用戶朝向對識別可 能更有利的隨後的響應。例如,當特定的級別反映出不明確的上下文時(例如,當競爭導致 各個代理125之間的死鎖時),自適應的錯誤識別引擎130可以將該話語識別為不明確的或 未被識別的,可以制定智能響應消除上下文的歧義,或請求來自用戶的隨後請求澄清話語 的含意。此外,當會話語言處理器120或錯誤識別引擎130確定給定的解釋或假定不正確 時,會重新解釋一個或多個以前的話語,來提煉上下文並建立更精確的短期或長期會話模 型(例如,「不,我的意思是……」這樣的話語可以表明對以前的話語解釋得不正確,在此情 況中,可以基於正確的解釋對各種以前的話語重新進行解釋,從而建立更精確的會話上下 文)。從而,會話語言處理器120可以恢復全部或部分失敗。可以包括用於自適應地響應 於錯誤識別或不明確的其它技術,諸如那些於2005年8月10日提交的題為「System and Method of Supporting Adaptive Misrecognition in Conversational Speech,,的同時待 審的美國專利申請第11/200,164號中所說明的技術,通過引用將其全部內容併入本文。關於在此說明的各種技術的附加信息,以及系統100用於提供會話式的、自然 語言的交互的其他技術會被提供在,例如,於2005年8月5日提交的題為「Systems and Methods for Responding to Natural Language Speech Utterance,,的同時待審的美國專 利申請第11/197,504號、於2005年8月29日提交的題為「Mobile Systems and Methods of Supporting Natural Language Human-Machine Interactions,,的同時待審的美國專 利申請第11/212,693號、以及於2006年10月16日提交的題為「System and Method for a Cooperative Conversational Voice User Interface,,的同時待審的美國專禾丨J申請第 11/580,926號中,因此通過引用將其全部內容併入本文。因此,系統100可以提供在用戶和該系統100之間能夠進行會話式的自然語言的 交互環境。此外,如將在下面更詳細說明的那樣,可以將系統100實現為會話式的自然語言 的交互,作為到一個或多個電子設備或應用(包括導航設備)的語音用戶界面。通過在此 提供的進一步說明將還顯而易見的是,該系統100具有跨設備和跨模式認知的能力,從而系統100提供一種環境,用戶能夠在其中採用合作的、自然語言的對話的方式進行接合,來 請求關於多種不同設備或應用的語音服務。根據本發明的各個方面,圖2示出了示例性基於代理的架構200的框圖,該架構 200能夠為導航設備提供會話式的、自然語言語音用戶界面。架構200可以包括多個代理 225a-n,其包括專門的軟體、數據、內容、或其他信息,這些信息在多個各自上下文域中提供 功能、行為、服務、數據、和其他信息。架構200可以是集成的並且動態自適應的環境,代理 225在其中自治地進行反應、自適應、並重新配置,以便該環境中提供最佳的服務。例如,通 過建立隨著時間變化的上下文(例如,通過產生短期和長期的用戶簡檔、與用戶的會話、經 常的主題或偏好等),導航代理225a會自動地結合知識、自適應偏好、去除衝突、或執行其 他適應來提煉或優化其操作結構。例如,至少包括導航代理225a的代理225可以通過正在使用的關於用戶行為、偏 好、或其他特徵的短期共有知識270和長期共有知識275來進行自適應。此外,例如,響應 於解析基於語音的請求的各代理(例如,通過調用一個或多個應用250、查詢一個或多個數 據源260、與一個或多個其他代理225合作、或通過錯誤識別引擎230、語音搜尋引擎235、上 下文跟蹤引擎24等進行學習),可以跨越多個代理225進行代理自適應。在各種實現中,自 適應可以自治進行作為代理225提供語音服務、產生推理、識別相似性(例如,在用戶、同等 人、團體等之間等)、從外部源接收更新(例如,更新管理器能夠為一個或多個代理25更新 內容、行為、數據、命令、域知識、關鍵詞、概念、字典、或其他信息)的副產品,或自適應可以 以其他方式進行都是顯而易見的。如圖2所示,架構200至少利用導航代理225a嚮導航設備提供會話式的、自然語 言語音用戶界面。除其他以外,導航代理225a可以包括各種導航指定的內容分組(例如, 字典、可用查詢、任務、命令、動態語法等)、響應列表(例如,對命令、查詢、或其他請求的適 當的響應)、個性簡檔(例如,用於為系統產生的語音建立自然的感覺)、置換列表(例如, 將數據置換或轉換成能夠被目標信息源理解的結構形式)、或各種其他形式的導航指定的 信息。此外,除各種其他形式的信息外,導航代理225a還可以與架構200中其他服務(例 如,可用設備、應用250、代理225等)提供的參數和操作數據、本地或遠程數據源的指示器 (例如,短期共有知識270、長期共有知識275、數據源260、語音搜尋引擎235等)進行關聯。除其他以外,由導航代理225a使用的數據源260可以包括與導航相關的數據(例 如,地圖、地址、街道名稱、通訊錄、可替換的路線等)、感興趣的地點(例如,餐館、旅館、博 物館、遊覽勝地、加油站等)、交通(例如,動態道路狀況、交通、便道、或與交通相關的其他 信息)、事件(例如,體育事件、音樂會、抗議等)、停車(例如,停車場、限制的區域或時間、 街道地段(street lot)、路邊停車等)、個人數據(例如,與用戶的聯繫人列表相關聯的電 話號碼和地址)、對等相似性(例如,基於具有相似的偏好、人口統計的簡檔、或其他特徵的 用戶的相似性的推薦)。此外,可以通過諸如基於一個或多個模型提供數據源260、經由數 據伺服器接收數據源260、通過自適應、或其他方式來擴展或提煉數據源260將是顯而易見 的。此外,除其他以外,可以經由上下文跟蹤引擎240、短期共有知識270、和長期共有 知識275維護關於導航域的上下文信息。例如,除其他類型的上下文信息以外,上下文信息 可以涉及跟蹤的主題、用戶位置、行進的路線、以前的請求、用戶界面狀態、用戶行為、偏好、人口統計、或其他特徵。例如,可以使用如上參考圖1、或如上參考的同時待審的美國專利 申請、或者其各種結合進行更詳細說明的技術建立並利用上下文。此外,當導航代理225a 不能在架構200以內找到本地的信息,並且不能推理該信息時,則可以從一個或多個其他 代理225b-n(例如,請求特定域的信息)、其他設備、語音搜尋引擎235(例如,搜索網絡)、 外部源(例如,可以調用更新管理器來下載可能會具有該信息的可用更新)、或其他源請求 該信息將是顯而易見的。如果能夠通過一個或多個其他源定位該信息,則可以對導航代理 225a進行自適應、擴展、或更新,以使得該信息隨後可得到。因此,當導航代理225a與各種其他自適應代理225b_n或其他系統部件進行通信 以提供語音導航服務時,導航代理225a可以與該信息的不同源進行耦接,並且可以使用上 下文。因此,上下文、共有知識、地圖、感興趣的位置、聯繫人列表、用戶或對等相似性、動態 語法、可用應用、或導航架構200的各種其他方面能夠為該架構200的各種部件、設備、或方 面共享或為其所用。從而,包括在導航代理255a中的推理引擎255可以耦接各種知識源和 可用於提供集成語音導航服務環境的其他源。例如,推理引擎255可以通過應用一個或多 個規則、策略、或其他推理機制來從可用的知識和資源產生推理,以產生所述環境中的話語 的可能解釋(例如,語音失真匹配、歸納邏輯、貝葉斯概率分析、單調或非單調推理等)。例如,如上更詳細的說明,導航代理225a和一個或多個其他代理225b_n可以在分 析話語的一個或多個初步解釋中進行競爭,以產生話語的一個或多個各自可能解釋。然後, 一旦被識別為競爭代理中的「獲勝的」 一個代理,導航代理225a就可以被調用來處理該可 能的解釋(例如,通過解析包含在話語中的信息)。例如,競爭代理中的哪個獲勝會取決於 上下文或包含在話語中的其他信息,從而響應於話語「這個交通太糟糕了,試試支路」,導航 代理225a獲勝並重新計算路線,而響應於話語「交通太糟糕了,試試來些老歌吧」,音樂代 理會獲勝並改變無線電頻道,而響應於話語「交通很糟糕,試試喜劇吧」,電影代理會獲勝並 搜索電影放映時間。因此,當導航代理225a產生導致成為代理225中獲勝的一個代理的可 能解釋時,導航代理225a可以管理用於搜索、推理、或根據上下文來識別信息的處理,來使 用一個或多個應用250(例如,導航、語法產生、位置確定、響應產生、廣告、設備控制、或在 架構200中可用的其他應用)提供語音導航服務。例如,導航代理225a可以利用推理引擎255來推理沒有在話語中明確提供的關鍵 詞或標準、確定對於主觀的或不確定的話語的適當響應(例如,選擇對於查詢最可能的回 答、向用戶請求更多信息等)、產生事件、識別對等相似性、或者產生用於解析與導航相關的 請求的推理。推理引擎255能夠通過以前的上下文的認識(例如,通過有上下文跟蹤引擎 240提供的信息)、短期或長期共有知識270、命令歷史、車輛系統的狀態、用戶界面、或者其 他設備、數據源260、或其他可用的信息產生這種推理。例如,在示例性說明中,以前的上下 文、共有知識、和其他信息源可以與推理引擎255和/或架構200中的各種其他部件一起使 用,以允許會產生如下的人機互動
權利要求
一種計算機實現的用於為導航設備提供自然語言語音用戶界面的方法,該方法包括在與所述導航設備相關聯的輸入機構處接收導航相關的基於語音的輸入,該基於語音的輸入至少包括由用戶提供的自然語言話語;使用與語音識別引擎相關聯的動態識別語法來產生所述自然語言話語的一個或多個初步解釋;使用會話語言處理器對所述初步解釋進行分析,該會話語言處理器使用共有知識和與導航上下文相關聯的信息,在該導航上下文中確定所述自然語言話語的可能解釋;以及將所述自然語言話語的可能解釋傳遞到與所述導航上下文相關聯的導航代理,所述導航代理可操作用於基於所述自然語言話語的可能解釋來識別包含在所述基於語音的輸入中的一個或多個導航相關的請求;並且使用與多個信息源中的一個或多個信息源相關聯的信息來解析所述請求,所述多個信息源至少包括導航指定信息源。
2.如權利要求1所述的方法,所述導航代理還可以操作用於確定所述請求中的至少一 個請求包括所請求信息的近似,其中所述會話語言處理器管理與用戶的對話來解析所述近 似信息,被管理的對話包括逐次提煉所述近似信息的與用戶進行的一次或多次交互。
3.如權利要求2所述的方法,每次交互都包括一次或多次提示用戶提煉所述近似信息 或者從用戶接收對所述近似信息進行提煉的隨後輸入。
4.如權利要求1所述的方法,所述導航相關的請求包括對去往全部或部分地址的路線 的請求,所述導航代理可以操作用於通過以下步驟解析對所述路線的請求為所述路線選擇目的地,所選擇的目的地具有最對應所述全部或部分地址的地址; 計算從用戶的當前位置到所選擇的目的地的路線;並且產生指示以指引用戶沿著所計算的路線到達所選擇的目的地,所產生的指示由來自多 個信息源的數據動態地驅動。
5.如權利要求4所述的方法,所述動態數據驅動的指示包括關於目的地、感興趣的位 置、交通、停車、天氣、事件、或與所計算的路線相關的其他信息的信息。
6.如權利要求4所述的方法,還包括在與所述導航設備相關聯的輸入機構處接收隨後的基於語音的輸入,所述隨後的基於 語音的輸入至少包括由用戶提供的一個請求;以及調用多個域代理中的至少一個域代理來解析包括在所述隨後的基於語音的輸入中的 請求,所述至少一個域代理可以操作用於根據所計算的路線對所述請求的結果進行過濾。
7.如權利要求1所述的方法,所述動態識別語法包括與一個或多個拓撲域相關聯的信息。
8.如權利要求7所述的方法,所述拓撲域包括相對於用戶的當前位置的物理上的近 似、時間上的近似、方向上的近似、和民間組織上的近似。
9.如權利要求1所述的方法,所述會話語言處理器耦接到可以操作用來產生一個或多 個推理的推理引擎,其中所述會話語言處理器使用所產生的推理來確定所述自然語言話語 的可能解釋。
10.如權利要求9所述的方法,其中所述會話語言處理器還使用所產生的推理向用戶 建議在所述導航上下文中可用的一個或多個服務。
11.如權利要求1所述的方法,所述導航有關的請求包括控制地圖顯示的多模式請求, 所述導航代理可以操作用於通過以下步驟來解析控制地圖顯示的請求將所述基於語音的輸入的非語音部分與該話語的可能解釋相關聯,所述非語音部分識 別了地圖顯示的一部分;並且發出根據該話語的可能解釋對識別出的地圖顯示部分進行控制的命令。
12.如權利要求1所述的方法,其中所述多個信息源包括導航指定信息源、共有知識、 與所述導航上下文相關聯的信息、以及關於地圖、目的地、方向、感興趣的位置、交通、停車、 天氣、事件、用戶地址簿、用戶設備和系統、搜尋引擎、和多個域代理的一個或多個信息源。
13.如權利要求12所述的方法,所述共有知識包括對話歷史信息、請求歷史信息、用戶 界面狀態信息、短期用戶簡檔信息、長期用戶簡檔信息、對等用戶簡檔信息、以及用戶位置 fn息ο
14.一種用於為導航設備提供自然語言語音用戶界面的系統,該系統包括輸入機構,其接收導航相關的基於語音的輸入,該基於語音的輸入至少包括由用戶提 供的自然語言話語;語音識別引擎,其具有與其相關聯的動態識別語法,所述語音識別引擎可以操作用於 使用所述動態識別語法來產生所述自然語言話語的一個或多個初步解釋;多個域代理,其與各自上下文關聯,所述多個域代理至少包括與導航上下文相關聯的 導航代理;以及會話語言處理器,其可操作用於使用共有知識和與所述導航上下文相關聯的信息對所述初步解釋進行分析,以確定所 述自然語言話語在所述導航上下文中的可能解釋;以及將所述自然語言話語的可能解釋傳遞到與所述導航上下文相關聯的導航代理,該導航 代理可以操作用於基於所述自然語言話語的可能解釋來識別包含在所述基於語音的輸入 中的一個或多個導航相關的請求,以及使用與多個信息源中的一個或多個信息源相關聯的 信息來解析所述請求,所述多個信息源至少包括導航指定信息源。
15.如權利要求14所述的系統,所述導航代理還可以操作用於確定所述請求中的至少 一個請求包括所請求信息的近似;並且所述會話語言處理器還可以操作用於管理與用戶的對話來解析所述近似信息,被管理 的對話包括逐次提煉所述近似信息的與用戶進行的一次或多次交互。
16.如權利要求15所述的系統,每次交互都包括一次或多次提示用戶提煉所述近似信 息或者從用戶接收對所述近似信息進行提煉的隨後的輸入。
17.如權利要求14所述的系統,所述導航相關的請求包括對去往全部或部分地址的路 線的請求,所述導航代理可以操作用於通過以下步驟解析對所述路線的請求為所述路線選擇目的地,所選擇的目的地具有最對應所述全部或部分地址的地址;計算從用戶的當前位置到所選擇的目的地的路線;並且產生指示以指引用戶沿著所計算的路線到達所選擇的目的地,所產生的指示由來自多 個信息源的數據動態地驅動。
18.如權利要求17所述的系統,所述動態數據驅動的指示包括關於目的地、感興趣的 位置、交通、停車、天氣、事件、或與所計算的路線相關的其他信息的信息。
19.如權利要求17所述的系統,所述一個或多個輸入機構還接收隨後的基於語音的輸 入,所述隨後的基於語音的輸入至少包括由用戶提供的一個請求,並且所述會話語言處理 器還可以操作用於調用多個域代理中的至少一個域代理來解析包括在所述隨後的基於語音的輸入中的 請求,所述至少一個域代理可以操作用於根據所計算的路線對所述請求的結果進行過濾。
20.如權利要求14所述的系統,所述動態識別語法包括與一個或多個拓撲域相關聯的fn息ο
21.如權利要求20所述的系統,所述拓撲域包括相對於用戶的當前位置的物理上的近 似、時間上的近似、方向上的近似、和民間組織上的近似。
22.如權利要求14所述的系統,還包括耦接到所述會話語言處理器的推理引擎,其產 生一個或多個推理,其中所述會話語言處理器使用所產生的推理來確定所述自然語言話語 的可能解釋。
23.如權利要求22所述的系統,還包括耦接到所述會話語言處理器的推理引擎,其中 所述會話語言處理器還使用所產生的推理向用戶建議在所述導航上下文中可用的一個或 多個服務。
24.如權利要求14所述的系統,所述導航有關的請求包括控制地圖顯示的多模式請 求,所述導航代理可以操作用於通過以下步驟來解析控制地圖顯示的請求將所述基於語音的輸入的非語音部分與該話語的可能解釋相關聯,所述非語音部分識 別了地圖顯示的一部分;並且發出根據該話語的預期含意對識別出的地圖顯示部分進行控制的命令。
25.如權利要求14所述的系統,其中所述多個信息源包括導航指定信息源、共有知識、 與所述導航上下文關聯的信息、以及關於地圖、目的地、方向、感興趣的位置、交通、停車、天 氣、事件、用戶地址簿、用戶設備和系統、搜尋引擎、和多個域代理的一個或多個信息源。
26.如權利要求25所述的系統,所述共有知識包括對話歷史信息、請求歷史信息、用戶 界面狀態信息、短期用戶簡檔信息、長期用戶簡檔信息、對等用戶簡檔信息、以及用戶位置 fn息ο
27.一種用於在語音導航服務環境中提供自然語言語音用戶界面的方法,該方法包括接收由用戶提供的基於語音的目的地輸入,該基於語音的目的地輸入至少包括自然語 言話語;使用與語音識別引擎相關聯的動態識別語法來產生所述自然語言話語的一個或多個 初步解釋;使用會話語言處理器對所述初步解釋進行分析,該會話語言處理器使用共有知識和與 導航上下文相關聯的信息來確定在所述自然語言話語中提供的預期目的地,該預期目的地 包括目的地的近似;以及將所述預期目的地傳遞到導航代理,該導航代理可以操作用於通過以下步驟提供到所 述預期目的地的路線為所述路線選擇初步目的地,所選擇的初步目的地具有最對應近似目的地的地址;計算從用戶的當前位置到所選擇的初步目的地的路線;並且參與和用戶的對話以為所計算的路線解析最終目的地,該對話包括與用戶的一次或多 次交互,所述交互對所述近似目的地進行逐次提煉,直到解析出所述最終目的地。
28.如權利要求27所述的方法,每次交互都包括一次或多次提示用戶提煉所述近似目 的地或者從用戶接收對所述近似信息進行提煉的隨後輸入。
29.如權利要求27所述的方法,所述導航代理還可以操作用於響應於對所述近似目的 地的逐次提煉來動態地重新計算路線。
30.如權利要求27所述的方法,在相對於初始路線計算之後的時間中,可對所述最終 目的地進行充分地解析。
31.如權利要求27所述的方法,所述導航代理可以操作用於通過識別可能對應於所述 近似目的地的一個或多個地址、並將所識別的地址中排序最高的一個地址選擇為所述初步 目的地來選擇所述初步目的地。
32.如權利要求27所述的方法,根據與用戶的當前位置或者所述近似目的地的近似程 度對所識別的地址進行排序。
33.如權利要求32所述的方法,所述近似基於一個或多個拓撲域,所述拓撲域包括相 對於用戶的當前位置或者所述近似目的地的物理上的近似、時間上的近似、方向上的近似、 和民間組織上的近似中的一個或多個。
34.如權利要求27所述的方法,所述導航代理還可以操作用於產生指示以沿著所計算 的路線指引用戶,所產生的指示由來自多個信息源的數據動態地驅動。
35.如權利要求34所述的方法,所述多個信息源包括關於目的地、感興趣的位置、交 通、停車、天氣、事件、或與所計算的路線相關的其他信息的信息。
36.如權利要求27所述的方法,所述共有知識包括對話歷史信息、請求歷史信息、用戶 界面狀態信息、短期用戶簡檔信息、長期用戶簡檔信息、對等用戶簡檔信息、以及用戶位置 fn息ο
37.一種用於在語音導航服務環境中提供自然語言語音用戶界面的方法,該方法包括接收由用戶提供的導航有關的基於語音的輸入,該基於語音的輸入至少包括自然語言 話語;使用位置檢測系統識別用戶的當前位置;確定與用戶的當前位置相關聯的一個或多個拓撲域;產生動態識別語法,其包括與所確定的拓撲域相關聯的語法信息;以及使用所述動態識別語法產生所述自然語言話語的一個或多個解釋。
38.如權利要求37所述的方法,所述動態識別語法根據與所述拓撲域相關聯的地理組 塊對所述語法信息進行組織。
39.如權利要求38所述的方法,所述地理組塊包括利用距離用戶當前位置的距離所定 義的物理上的近似。
40.如權利要求38所述的方法,所述地理組塊包括利用從用戶的當前位置起的行進時 間所定義的時間上的近似。
41.如權利要求38所述的方法,所述地理組塊包括利用用戶行進的方向向量所定義的 方向上的近似。
42.如權利要求38所述的方法,所述地理組塊包括利用大陸、國家、區域、州、城市、位 置、附近地區、和社區所定義的民間組織上的近似。
43.如權利要求38所述的方法,還包括將一個或多個地理組塊細分為多個瓦區,所述 動態識別語法還根據所述多個瓦區對所述語法信息進行組織。
44.如權利要求43所述的方法,還包括將所述多個瓦區中的一個或多個瓦區細分為多 個子瓦區,所述動態識別語法還根據所述多個子瓦區對所述語法信息進行組織。
45.如權利要求37所述的方法,所述動態識別語法具有根據所述語音導航服務環境中 存儲器或資源可用性所限制的尺寸。
46.如權利要求37所述的方法,還包括響應於與用戶的當前位置相關聯的拓撲域中的 改變,對包括在所述動態識別語法中的所述語法信息進行修改。
47.如權利要求37所述的方法,還包括確定用戶與用戶的一個或多個對等物之間的相 似性,所述動態識別語法還根據所確定的相似性對所述語法信息進行組織。
48.一種用於在語音導航服務環境中提供廣告的方法,該方法包括使用位置檢測系統識別用戶的當前位置;提取共有知識和與導航上下文相關聯的信息,所提取的信息用於確定在所述語音導航 服務環境中接收的自然語言話語的可能解釋;識別一個或多個廣告以向用戶提供,基於對用戶的當前位置、共有知識、或與所述導航 上下文相關聯的信息中的一個或多個的相似性來識別所述一個或多個廣告;以及產生多模式輸出來向用戶提供一個或多個所識別的廣告。
49.如權利要求48所述的方法,所述多模式輸出包括系統產生的語音話語。
50.如權利要求48所述的方法,所述位置檢測系統在數據信道上接收關於所述一個或 多個廣告的信息。
51.如權利要求50所述的方法,通過所述位置檢測系統檢測與射頻標識符相關聯的數據信道。
52.如權利要求48所述的方法,所述共有知識包括對話歷史信息、請求歷史信息、用戶 界面狀態信息、短期用戶簡檔信息、長期用戶簡檔信息、對等用戶簡檔信息、以及用戶位置 fn息ο
53.如權利要求48所述的方法,還包括接收至少包括自然語言話語的基於語音的輸入;使用所述共有知識和與所述導航上下文相關聯的信息來確定所所接收的自然語言的 話語的可能解釋,廣告是基於所述自然語言話語的可能解釋進行識別的。
54.如權利要求48所述的方法,所述廣告包括用戶當前位置的本地社區的指南。
55.如權利要求54所述的方法,所述本地社區指南包括對於感興趣的地點、事件、餐 館、商店、活動、或遊覽勝地中的一個或多個的推薦。
56.如權利要求54所述的方法,所述本地社區指南包括與地圖、目的地、方向、交通、停 車、或天氣中的一個或多個相關聯的信息。
57.如權利要求54所述的方法,所述本地社區指南基於用戶與用戶的當前位置、用戶的一個或多個對等物、或者與用戶相關聯的一個或多個社區中的一個或多個之間的相似性。
58.如權利要求48所述的方法,所述廣告包括圖像、標語、音頻消息、視頻消息、獎勵提 供、優惠券、以及數據流中的一個或多個。
全文摘要
本發明提供一種會話式的、自然語言語音用戶界面,其可以提供集成語音導航服務環境。該語音用戶界面允許用戶以自然語言提出關於各種導航服務的請求,並且還可以按照合作的、會話的對話方式與用戶交互,來解析該請求。除其他以外,通過動態的上下文的認識、可用的信息源、域知識、用戶行為和偏好、以及外部系統和設備,該語音用戶界面可以提供集成的環境,在該環境中用戶能夠使用自然語言會話式地進行講話,以發出查詢、命令、或與該環境中提供的與導航服務有關的其他請求。
文檔編號G06F17/27GK101939740SQ200880126525
公開日2011年1月5日 申請日期2008年7月9日 優先權日2007年12月11日
發明者L·貝爾德文, L·阿姆斯特隆, M·特加爾弗, P·迪克裡斯託, S·米納克, 亞力·所羅門, 凱薩琳·張, 席特·古德高力, 柏尼·齊墨曼, 麥可·肯尼維克 申請人:聲鈺科技

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀