交互式語音識別的製作方法

2023-05-11 01:34:26 1

專利名稱：交互式語音識別的製作方法
交互式語音識別
背景技術：
電子設備用戶逐漸依賴於從網際網路獲取的信息作為新聞報導、評級、物品描述、公告、事件信息以及用戶可能感興趣的其他各類信息的來源。此外，用戶逐漸依賴於自動語音識別系統減輕在針對諸如搜索、請求地圖(map)、請求自動撥號電話呼叫和發簡訊(texting)等應用手動輸入文本時遇到的困難
發明內容

根據一個一般方面，一種有形地包含在計算機可讀存儲介質中的電腦程式產品可以包括能夠使至少一個數據處理裝置獲取與第一話語(utterance)關聯的音頻數據的可執行代碼。進一步地，所述至少一個數據處理裝置可根據與所述音頻數據關聯的音頻信號分析，通過設備處理器獲取與所述第一話語的第一語音到文本轉化關聯的文本結果，所述文本結果包括多個對應於至少一個單詞的可選文本替代。進一步地，所述至少一個數據處理裝置可以啟動顯示包括文本替代中第一個的文本結果的至少一部分。進一步地，所述至少一個數據處理裝置可以接收指示文本替代中第二個的選擇指示。根據另一方面，可以獲取與第一話語關聯的第一多個音頻特徵。可根據與所述音頻特徵關聯的音頻信號分析，獲取與所述第一話語的第一語音到文本轉化關聯的第一文本結果，所述第一文本結果包括至少一個第一單詞。可獲取與關聯於至少一個第一單詞的第一語音到文本轉化的至少第一部分相關的第一組音頻特徵。可啟動顯示包括至少一個第一單詞的第一文本結果的至少一部分。可接收指示第一語音到文本轉化中錯誤的選擇指示，所述錯誤與至少一個第一單詞關聯。根據另一方面，一種系統可以包括輸入獲取組件，所述組件獲取與第一話語關聯的第一多個音頻特徵。所述系統還可以包括語音轉文本組件，所述組件根據與音頻特徵關聯的音頻信號分析，通過設備處理器獲取與所述第一話語的第一語音到文本轉化關聯的第一文本結果，所述第一文本結果包括至少一個第一單詞。所述系統還可以包括片段(clip)相關組件，所述組件獲取第一多個音頻特徵的第一相關部分，所述第一相關部分與第一語音到文本轉化到至少一個第一單詞關聯。所述系統還可以包括結果遞送組件，所述組件啟動輸出第一文本結果和第一多個音頻特徵的第一相關部分。所述系統還可以包括校正請求獲取組件，所述組件獲取包括有關至少一個第一單詞是第一語音到文本轉化錯誤的指示，以及第一多個音頻特徵的第一相關部分的校正請求。本發明內容以簡單的形式介紹了一系列概念，這些概念將在具體實施方式
中進一步描述。本發明內容不旨在識別所要保護的主題的關鍵特徵或必要特徵，不旨在用於限定所要保護的主題的範圍。下面的附圖和描述將闡述一個或多個實現細節。根據描述、附圖以及權利要求，其他特徵將變得顯而易見。

圖I是用於交互式語音識別的系統實例的方框圖。
圖2a_2b是示出圖I中系統的實例操作的流程圖。圖3a_3b是示出圖I中系統的實例操作的流程圖。圖4 a-4c是示出圖I中系統的實例操作的流程圖。圖5描繪與圖I中系統的實例交互。圖6描繪與圖I中系統的實例交互。圖7描繪與圖I中系統的實例交互。圖8描繪與圖I中系統的實例交互。圖9描繪與圖I中系統的實例交互。圖IOa-IOc描繪圖I中系統的實例用戶接口。
具體實施例方式當電子設備用戶逐漸依賴於從設備本身或網際網路獲取的信息時，他們也在逐漸依賴於自動語音識別系統減輕在針對諸如搜索、請求地圖、請求自動撥號電話呼叫和發簡訊等許多應用手動輸入文本時遇到的困難。例如，從用戶角度來看，用戶可能希望對著行動裝置說出一個或多個單詞並幾乎立即通過該行動裝置接收到結果。例如，行動裝置可以在用戶說出(多個)單詞時接收語音信號，並且既可以在設備本身上處理語音信號，也可以將語音信號(或從語音信號提取的預處理的音頻特徵)發送到一個或多個其他設備(例如，後端伺服器或「雲」)進行處理。識別引擎然後可以識別信號並將相應文本發送到設備。如果所述識別引擎對用戶話語的一個或多個單詞進行錯誤分類(例如，返回用戶所說的一個或多個單詞的同音異義詞或近同音異義詞)，則用戶希望避免再次說出他/她之前話語的所有單詞，或者避免說出不同的單詞或短語以希望該識別能夠通過不同的(多個)單詞識別出用戶的意圖，或者避免再次手動輸入文本來替代對語音識別的依賴。此處討論的實例技術可以根據音頻片段與對應於由語音信號(例如，音頻特徵)對應的相關音頻數據部分轉化而來的各單詞或短語的話語部分的關聯來提供語音轉文字識別。此處討論的實例技術可以提供帶有語音轉文本結果顯示的用戶接口，所述結果包括用於接收與不正確轉化(即，錯誤分類)的單詞或短語相關的用戶輸入的可選文本。根據一個實例實施例，用戶可以觸摸不正確轉化的單詞，並且可以接收不包括不正確轉化的單詞或短語的校正結果顯示。根據實例實施例，用戶可以觸摸不正確轉化的單詞，並且可以接收包括下面k個最可能的替代轉化單詞(而非不正確轉化的單詞)的校正結果顯示。根據實例實施例，用戶可以觸摸不正確轉化的單詞，並且可以接收顯示下面k個最可能的替代轉化單詞(而非不正確轉化的單詞)的下拉菜單顯示。根據實例實施例，用戶可以接收包括源自文本到語音轉化的替代單詞列表的轉化結果顯示，所述替代單詞用圓括號或方括號之類的分隔符括住。用戶可以隨後選擇正確的替代單詞，並且可以接收底層應用的進一步結果(例如，搜索結果、地圖結果，發送文本)。根據實例實施例，用戶可以利用初始轉化和每個校正轉化接收轉化結果顯示，所述轉化結果可以包括底層應用的進一步結果(例如，搜索結果、地圖結果)。
如在此進一步討論的那樣，圖I是用於交互式語音識別的系統100的方框圖。如圖I所示，系統100可以包括交互式語音識別系統102，語音識別系統102包括可以獲取與第一話語關聯的第一多個音頻特徵106的輸入獲取組件104。例如，所述音頻特徵可以包括與可包括一個或多個單詞的人類短語話語關聯的音頻信號。例如，所述音頻特徵可以包括與人類字母表字母話語(例如，人拼出一個或多個單詞)關聯的音頻信號。例如，所述音頻特徵可以包括處理與話語關聯的音頻信號(例如，從模擬信號到數值化數字形式的處理)所得到的音頻數據，所述音頻數據還能被壓縮以用於保存，或者用於網絡上的輕型傳輸。根據實例實施例，交互式語音識別系統102可以包括能夠存儲在計算機可讀存儲介質中的可執行指令，如下所論述。根據一個實例實施例，所述計算機可讀存儲介質可以包括任何數量的存儲設備，以及任何數量的存儲介質類型，包括分布式設備。例如，實體存儲庫(repository) 108可以包括一個或多個資料庫，並且可通過資料庫接口組件110進行訪問。數據處理領域的技術人員將理解，存在許多用於存儲此處所述存儲庫信息的技術，例如各類資料庫配置(例如，SQL SERVERS)和非資料庫配置。根據實例實施例，交互式語音識別系統102可以包括存儲第一多個音頻特徵106的存儲器112。在此上下文中，「存儲器」可以包括被配置為存儲數據和/或指令的單個存儲器設備或多個存儲器設備。進一步地，存儲器112可以跨多個分布式存儲設備。根據實例實施例，用戶接口組件114可以管理用戶116和交互式語音識別系統102之間的通信。用戶116可以與接收設備118關聯，接收設備118可以與顯示器120和其他輸入/輸出設備關聯。例如，顯示器120可以被配置為通過內部設備總線通信或通過至少一個網絡連接與接收設備118通信。根據實例實施例，交互式語音識別系統102可以包括網絡通信組件122，該組件可以管理交互式語音識別系統102和能夠通過至少一個網絡124與交互式語音識別系統102通信的其他實體之間的網絡通信。例如，該至少一個網絡124可以包括網際網路、至少一個無線網絡或至少一個有線網絡中的至少一個。例如，至少一個網絡124可以包括蜂窩網絡、無線電網絡或任何支持交互式語音識別系統102的數據傳輸的網絡類型。例如，網絡通信組件122可以管理交互式語音識別系統102和接收設備118之間的網絡通信。例如，網絡通信組件122可以管理用戶接口組件114和接收設備118之間的網絡通信。根據實例實施例，交互式語音識別系統102可以與接收設備118直接通信(圖I未示出)，而非通過網絡124執行(如圖I所示)。例如，交互式語音識別系統102可以駐留在一個或多個後端伺服器上，或者駐留在桌面設備或行動裝置上。例如，儘管圖I未示出，但是用戶116可以與接收設備118直接交互，接收設備118可以承載至少一部分交互式語音識別系統102、至少一部分設備處理器128和顯示器120。根據實例實施例，系統100的各部分可以作為多個設備上的分布式模塊操作，也可以通過一個或多個網絡或連接與其他部分通信，或者可以託管在單個設備上。語音轉文本組件126可以根據與音頻特徵106關聯的音頻信號分析，通過設備處理器128獲取與第一話語的第一語音到文本轉化132關聯的第一文本結果130,第一文本結果130包括至少一個第一單詞134。例如，可以通過語音識別操作，通過語音識別系統136獲取第一語音到文本轉化132。例如，語音識別系統136可以駐留在與交互式語音識別系統102的其他組件相同的設備上，或者可以通過網絡連接與交互式語音識別系統102通信。
在本上下文中，「處理器」可以包括被配置為處理與處理系統關聯的指令的單個處理器或多個處理器。因此，處理器可以包括多個以並行和/或分布的方式處理指令的處理器。儘管在圖I中將設備處理器128描繪為交互式語音識別系統102的外部處理器，但是數據處理領域的技術人員將理解，設備處理器128可以實現為單個組件，或者實現為位於交互式語音識別系統102和/或其任何元件內部或外部的分布式單元。片段相關組件138可以獲取第一多個音頻特徵106的第一相關部分140，所述相關部分與第一語音到文本轉化132到至少一個第一單詞134關聯。例如，用戶116發出的諸如多單詞短語「ONE MICROSOFT WAY」的街道地址的話語可以與音頻特徵關聯，所述音頻特徵包括與「ONE」話語關聯的第一組音頻特徵，與「MICROSOFT」話語關聯的第二組音頻特徵，與「WAY」話語關聯的第三組音頻特徵。由於這三個單詞話語可以按順序產生，因此所述第一、第二和第三組音頻特徵可以基於這三組當中基本不重疊的定時間隔。對於該實例，片段相關組件138可以獲取第一相關部分140 (例如，第一組音頻特徵)，所述相關部分與第一語音到文本轉化132到至少一個第一單詞134關聯(例如，第一組音頻特徵106的第一語音到文本轉化132部分，與「ONE」話語關聯)。
結果遞送組件142可以啟動輸出弟一文本結果130和弟一多個首頻特徵106的弟一相關部分140。例如，第一文本結果130可以包括指示「WON」是同音異義詞「ONE」話語的語音到文本轉化的第一單詞134。例如，「WON」和「ONE」均可與關聯於「ONE」話語的第一組音頻特徵相關。對於該實例，結果遞送組件142可以啟動輸出文本結果130和相關部分140 (例如，與「ONE」話語關聯的第一組音頻特徵)。校正請求獲取組件144可以獲取包括至少一個第一單詞是第一語音到文本轉化錯誤的指示，以及音頻特徵的第一相關部分140的校正請求146。例如,校正請求獲取組件144可以獲取包括「WON」是第一語音到文本轉化錯誤的指示，以及相關部分140 (例如，與「ONE」話語關聯的第一組音頻特徵)的校正請求146。根據實例實施例，搜索請求組件148可以根據與第一話語的第一語音到文本轉化132關聯的第一文本結果130啟動第一搜索操作。例如，搜素請求組件148可以將搜索請求150發送到搜尋引擎152。例如，如果第一文本結果130包括「WON MICROSOFT WAY」，則可以針對「WON MICROSOFT WAY」請求搜索。根據實例實施例，結果遞送組件142可以啟動輸出帶有所述第一搜索操作的結果154的第一文本結果130和第一多個音頻特徵106的第一相關部分140。例如，結果遞送組件142可以啟動輸出與「WON MICROSOFT WAY」關聯的帶有搜索結果的第一文本結果130。根據實例實施例，語音轉文本組件126可以根據與第一多個音頻特徵106關聯的音頻信號分析，通過設備處理器128獲取與第一話語的第一語音到文本轉化132關聯的第一文本結果130，第一文本結果130包括多個文本替代156，至少一個第一單詞134包括在所述多個第一文本替代156中。例如，用戶116發出的諸如多單詞短語「ONE MICROSOFTWAY」街道地址的話語可以與音頻特徵關聯(相關)，所述音頻特徵包括與「ONE」話語關聯的第一組音頻特徵，與「MICROSOFT」話語關聯(相關)的第二組音頻特徵，與「WAY」話語關聯(相關)的第三組音頻特徵。例如，多個文本替代156 (例如，與「ONE」話語關聯的音頻特徵轉化)可以包括同音異義詞或近同音異義詞「WON」、「ONE」、「WAN」和「EUN」。根據實例實施例，與第一語音到文本轉化132到至少一個第一單詞134關聯的第一多個音頻特徵106的第一相關部分140與多個第一文本替代156關聯。對於「ONEMICROSOFT WAY」實例，第一相關部分140可以包括與「ONE」話語關聯的第一組音頻特徵。因此，該實例第一相關部分140可以與多個第一文本替代156 *「W0N」、「0NE」、「WAN1P「EUN」關聯。根據實例實施例，多個第一文本替代156中的每個替代與指示文本到語音轉化正確概率的相應轉化分數158關聯。例如，語音識別系統136可以執行與「ONE MICROSOFTWAY」話語關聯的音頻特徵106的文本轉語音分析，並且可以提供短語中包括的三個單詞中每個單詞的文本替代。例如，每個替代可以與指示特定關聯替代為音頻特徵106的相關部分140的「正確」文本到語音轉化的概率的轉化分數158關聯。根據實例實施例，可以提供具有最高轉化分數158的(多個)替代作為第一單詞134 (例如，針對面向用戶116的第一顯示，或針對第一搜索請求)。根據實例實施例，至少一個第一單詞134可以與指示多個第一文本替代156當中最高文本到語音轉化正確概率的第一轉化分數158關聯。根據實例實施例，輸出第一文本結果130包括輸出多個第一文本替代156和相應轉化分數158。例如，結果遞送組件142可以啟動輸出第一文本替代156和相應轉化分數158。根據實例實施例，結果遞送組件142可以啟動輸出第一文本結果130、第一多個音頻特徵106的第一相關部分140，以及至少一部分相應轉化分數158。對於「ONE MICROSOFTWAY」實例用戶話語，結果遞送組件142可以啟動輸出「WON MICROSOFT WAY」以及每個單詞的替代(例如，「WON」、「ONE」、「WAN」、「EUN」 -以及「WAY」、「WEIGH」、「WHEY」)、第一多個音頻特徵106的相關部分(例如，與「ONE」話語關聯的第一組音頻特徵以及與「WAY」話語關聯的第三組音頻特徵)，以及它們的相應轉化分數(例如，「WON」的分數為0. 5，「ONE」的分數為0. 4，「WAY」的分數為 0. 4，「WEIGH」的分數為 0. 3)。根據實例實施例，校正請求獲取組件144可以獲取校正請求146，其包括有關至少一個第一單詞134是第一語音到文本轉化錯誤的指示，以及第一多個音頻特徵106的一個或多個第一相關部分140，以及至少一部分相應轉化分數158或與第二話語關聯的第二多個音頻特徵106，該第二話語對應於與基於至少一個第一單詞134的第一語音到文本轉化錯誤的校正關聯的言語輸入。例如，校正請求146可以包括有關「WON」是第一語音到文本轉化錯誤的指示，以及第一相關部分140 (例如，與「ONE」話語關聯的第一組音頻特徵)，以及相應轉化分數158 (例如，「WON」的分數為0. 5，「ONE」的分數為0. 4)。例如，校正請求146可以包括有關「WON」是第一語音到文本轉化錯誤的指示，以及與「ONE」的另一話語關聯的第二多個音頻特徵106，作為校正話語。圖2是示出根據實例實施例的圖I中系統的實例操作的流程圖。在圖2a的實例中，可以獲取與第一話語關聯的第一多個音頻特徵(202)。例如，輸入獲取組件104可以獲取與第一話語關聯的第一多個音頻特徵106，如上所述。可以根據與音頻特徵關聯的音頻信號分析，獲取與第一話語的第一語音到文本轉化關聯的第一文本結果，所述第一文本結果包括至少一個第一單詞(204)。例如，可以根據與音頻特徵106關聯的音頻信號分析，通過設備處理器128獲取與所述第一話語的第一語音到文本轉化132關聯的第一文本結果130，第一文本結果130包括至少一個第一單詞134，如上所述。可以獲取與第一語音到文本轉化到至少一個第一單詞關聯的第一多個音頻特徵的第一相關部分(206)。例如，片段相關組件138可以獲取與第一語音到文本轉化132到至少一個第一單詞134關聯的第一多個音頻特徵106的第一相關部分(140)，如上所述。可以啟動輸出第一文本結果和第一多個音頻特徵的第一相關部分(208)。例如，結果遞送組件142可以啟動輸出第一文本結果130和第一多個音頻特徵106的第一相關部分140，如上所述。可以獲取包括有關至少一個第一單詞是第一語音到文本轉化錯誤的指示，以及第一多個音頻特徵的第一相關部分的校正請求(210)。例如，校正請求獲取組件144可以獲取包括有關至少一個第一單詞是第一語音到文本轉化錯誤的指示，以及音頻特徵的第一相關部分140的校正請求146，如上所述。根據實例實施例，可以根據與第一話語的第一語音到文本轉化關聯的第一文本結果，啟動第一搜索操作(212)。例如，搜索請求組件148可以根據與第一話語的第一語音到文本轉化132關聯的第一文本結果130啟動第一搜索操作，如上所述。根據實例實施例，可以啟動輸出帶有所述第一搜索操作結果的第一文本結果和第一多個音頻特徵的第一相關部分(214)。例如，結果遞送組件142可以啟動輸出帶有所述第一搜索操作結果154的第一文本結果130和第一多個音頻特徵106的第一相關部分140，如上所述。在圖2b中，根據實例實施例，可以根據與第一多個音頻特徵關聯的音頻信號分析，獲取與第一話語的第一語音到文本轉化關聯的第一文本結果，所述第一文本結果包括多個文本替代，至少一個第一單詞包括在所述多個第一文本替代中(216)。例如，語音轉文本組件126可以根據與第一多個音頻特徵106關聯的音頻信號分析，通過設備處理器128獲取與第一話語的第一語音到文本轉化132關聯的第一文本結果130,第一文本結果130包括多個文本替代156，至少一個第一單詞134包括在多個第一文本替代156中，如上所述。根據實例實施例，與第一語音到文本轉化到至少一個第一單詞關聯的第一多個音頻特徵的第一相關部分與多個第一文本替代關聯(218)。例如，與第一語音到文本轉化132到至少一個第一單詞134關聯的第一多個音頻特徵106的第一相關部分140與多個第一文本替代156關聯，如上所述。根據實例實施例，多個第一文本替代中的每個替代可以與指示文本到語音轉化正確概率的相應轉化分數關聯(220)。例如，多個第一文本替代156中的每個替代與指示文本到語音轉化正確概率的相應轉化分數158關聯，如上所述。根據實例實施例，至少一個第一單詞可以與指示多個第一文本替代當中最高文本到語音轉化正確概率的第一轉化分數關聯。根據實例實施例，輸出第一文本結果可以包括輸出多個第一文本替代和相應轉化分數(222)，例如，至少一個第一單詞134可以與指示多個第一文本替代156當中最高文本到語音轉化正確概率的第一轉化分數158關聯，如上所述。例如，輸出第一文本結果130可以包括輸出多個第一文本替代156和相應轉化分數158，如上所述。根據實例實施例，可以啟動輸出第一文本結果、第一多個音頻特徵的第一相關部分，以及至少一部分相應轉化分數(224)。例如，結果遞送組件142可以啟動輸出第一文本結果130、第一多個音頻特徵106的第一相關部分140，以及至少一部分相應轉化分數158，如上所述。根據實例實施例，可以獲取校正請求，其包括有關至少一個第一單詞是第一語音到文本轉化錯誤的指示，以及第一多個音頻特徵的一個或多個第一相關部分，以及至少一部分相應轉化分數或與第二話語關聯的第二多個音頻特徵(226)，該第二話語對應於與基於至少一個第一單詞的第一語音到文本轉化錯誤的校正關聯的言語輸入。例如，校正請求獲取組件144可以獲取包括有關至少一個第一單詞134是第一語音到文本轉化錯誤的指示，以及第一多個音頻特徵106的第一相關部分140的一個或多個，以及至少一部分相應轉化分數158或與第二話語關聯的第二多個音頻特徵106，該第二話語對應於與基於至少一個第一單詞134的第一語音到文本轉化錯誤的校正關聯的言語輸入，如上所述。圖3是示出根據實例實施例的圖I中系統的實例操作的流程圖。在圖3a的實例中，可以獲取與第一話語關聯的音頻數據(302)。例如，輸入獲取組件104可以獲取與第一話語關聯的音頻數據，如上所述。可以根據與音頻數據關聯的音頻信號分析，獲取與第一話語的第一語音到文本轉化關聯的文本結果，所述文本結果包括多個對應於至少一個單詞的可選文本替代(304)。例如，語音轉文本組件126可以根據與音頻特徵106關聯的音頻信號分析，通過設備處理器128獲取與第一話語的第一語音到文本轉化132關聯的第一文本結果130，如上所述。可以啟動顯示包括文本替代中的第一個的文本結果的至少一部分(306)。例如，可通過顯示器120上的接收設備118啟動顯示。可以接收指示文本替代中第二個的選擇指示(308)。例如，可以通過接收設備118接收所述選擇指示，如下面進一步描述的那樣。根據實例實施例，所述獲取文本結果可以包括通過設備處理器根據基於文本替代的第一個的搜索查詢獲取搜索結果(310)。例如，可以在接收設備118上接收文本結果130和搜索結果154，如下面進一步描述的那樣。例如，結果遞送組件142可以啟動輸出帶有第一搜索操作的結果154的第一文本結果130，如上所述。在圖3b中，根據實例實施例，音頻數據可以包括根據基於第一話語獲取的音頻信號的定量分析，或基於第一話語獲取的音頻信號，確定的一個或多個音頻特徵(312)。根據實例實施例，可以根據基於文本替代中的第二個的搜索查詢獲取搜索結果(314)。例如，可以在接收設備118上接收搜索結果154，如下面進一步描述的那樣。例如，搜索請求組件148可以根據文本替代中的第二個啟動搜索操作。根據實例實施例，可以啟動顯示搜索結果的至少一部分(316)。例如，可以通過顯示器120上的接收設備118啟動顯示搜索結果154的至少一部分，如下面進一步描述的那樣。根據實例實施例，所述獲取與第一話語的第一語音到文本轉化關聯的文本結果可以包括獲取與第一話語的第一語音到文本轉化的轉化部分到文本替代中的第二個相關的第一段音頻數據，以及多個轉化分數，其中所述多個可選文本替代中的每個替代與指示文本到語音轉化正確概率的轉化分數中相應的一個關聯。根據實例實施例，文本替代中的·第一個與指示多個可選文本替代當中最高文本到語音轉化正確概率的第一轉化分數關聯(318)。
根據實例實施例，可以啟動傳輸指示文本替代中第二個的選擇指示和音頻數據的第一部分(320)。例如，接收設備118可以啟動將指示文本替代中的第二個的選擇指示和音頻數據的第一部分傳輸到交互式語音識別系統102。例如，接收設備118可以啟動將校正請求146傳輸到交互式語音識別系統102。根據實例實施例，所述啟動顯示包括文本替代中的第一個的文本結果的至少一部分可以包括啟動顯示以下一項或多項由文本分隔符分隔的列表、下拉列表，或者包括與彈出顯示框中至少文本替代中的第二個的顯示關聯的可選連結的文本替代中的第一個的顯示(322) ο圖4是示出根據實例實施例的圖I中系統的實例操作的流程圖。在圖4a的實例中，可以獲取與第一話語關聯的第一多個音頻特徵(402)。例如，輸入獲取組件104可以獲取與第一話語關聯的第一多個音頻特徵106，如上所述。可以根據與音頻特徵關聯的音頻信號分析獲取與第一話語的第一語音到文本轉化關聯的第一文本結果，所述第一文本結果包括至少一個第一單詞(404)。例如，語音轉文本組件126通過設備處理器128獲取第一文本結果130，如上所述。例如，接收設備118例如可以通過結果遞送組件142從交互式語音識別系統102接收第一文本結果130。可以獲取與至少一個第一單詞關聯的第一語音到文本轉化的至少第一部分相關的第一組音頻特徵(406)。例如，片段相關組件138可以獲取與第一語音到文本轉化132到至少一個第一單詞134關聯的第一多個音頻特徵106的第一相關部分(140)，如上所述。例如，接收設備118例如可以通過結果遞送組件142從交互式語音識別系統102獲取與至少一個第一單詞關聯的第一語音到文本轉化的至少第一部分。可以啟動顯示包括至少一個第一單詞的第一文本結果的至少一部分(408)。例如，接收設備118可以啟動顯示，如下面進一步描述的那樣。可以接收指示第一語音到文本轉化中錯誤的選擇指示，所述錯誤與至少一個第一單詞關聯(410)。例如，接收設備118可以啟動顯示，如下面進一步討論的那樣。例如，校正請求獲取組件144可以通過校正請求146獲取選擇指示，如上所討論的那樣。根據實例實施例，第一話語的第一語音到文本轉化可以包括第一話語的非特定人語音識別轉化(412)。在圖4b中，根據實例實施例，可以根據指示錯誤的選擇指示和第一話語的第一語音到文本轉化的分析獲取第二文本結果(414)。例如，語音轉文本組件126可以獲取第二文本結果。例如，結果遞送組件142可以啟動輸出第二文本結果。例如，接收設備118可以獲取第二文本結果。根據實例實施例，可以啟動傳輸指示第一語音到文本轉化中錯誤的選擇指示，以及與關聯於至少一個第一單詞的第一語音到文本轉化的至少第一部分相關的音頻特徵集(416)。例如，接收設備118可以啟動到交互式語音識別系統102的傳輸。根據實例實施例，可以接收指示第一語音到文本轉化中錯誤的選擇指示，所述錯誤與至少一個第一單詞關聯，可以包括以下一項或多項接收有關用戶觸摸至少一個第一單詞顯示的指示，根據包括至少一個第一單詞的替代列表的顯示接收用戶選擇指示，根據與至少一個第一單詞關聯的一個或多個替代的下拉菜單的顯示接收用戶選擇指示，或者根據與至少一個第一單詞關聯的一個或多個替代顯示的彈出窗口顯示接收用戶選擇指示(418)。例如，接收設備118可以從用戶116處接收選擇指示，如下面進一步討論的那樣。例如，輸入獲取組件104例如可以從接收設備118接收選擇指示。在圖4c中，根據實例實施例，第一文本結果可以包括不同於至少一個單詞的第二單詞(420)。例如，第一文本結果130可以包括從音頻特徵106轉化而來的多單詞短語中的第二單詞。例如，所述第二單詞可以包括用戶116輸入的搜索查詢的第二關鍵字的語音識別轉化。根據實例實施例，可以獲取與關聯於所述第二單詞的第一語音到文本轉化的至少第二部分相關的第二組音頻特徵，其中與至少一個單詞相比，所述第二組音頻特徵基於第一話語中基本不重疊的定時間隔(422)。例如，所述第二組音頻特徵可以包括與關聯於多單詞短語中不同於至少一個單詞的第二單詞的用戶話語的音頻信號關聯的音頻特徵。例如，多單詞短語「ONE MICROSOFT WAY」的用戶116的話語可以與音頻特徵關聯，所述音頻特徵包括與「ONE」話語關聯的第一組音頻特徵，與「MICROSOFT」話語關聯的第二組音頻特徵，與「WAY」話語關聯的第三組音頻特徵。由於這三個單詞話語按順序出現，因此所述第一、第二和第三組音頻特徵可以基於這三組當中3個基本不重疊的定時間隔。根據實例實施例，可以獲取與第二話語關聯的第二多個音頻特徵，所述第二話語與關聯於至少一個第一單詞的錯誤校正關聯的言語輸入關聯(424)。例如，用戶116可以選擇第一返回文本結果130中的單詞進行校正，並且可以再次說出想說的單詞作為第二話語。然後可以將與所述第二話語關聯的第二多個音頻特徵發送到校正請求獲取組件(例如，通過校正請求146)以便由交互式語音識別系統102進一步處理，如上所述。根據實例實施例，校正請求146可以包括有關至少一個第一單詞不是第二多個音頻特徵的文本到語音轉化候選的指示。根據實例實施例，可以根據關聯於第二多個音頻特徵的音頻信號分析，獲取與第二話語的第二語音到文本轉化關聯的第二文本結果，所述第二文本結果包括至少一個不同於第一單詞的校正單詞(426)。例如，接收設備118例如可以通過結果遞送組件142從交互式語音識別系統102獲取第二文本結果130。例如，可以響應於校正請求146來獲取第二文本結果130。根據實例實施例，可以啟動傳輸指示第一文本到語音轉化中錯誤的選擇指示，以及與第二話語關聯的第二多個音頻特徵(428)。例如，接收設備118可以啟動將選擇指示傳輸到交互式語音識別系統102。圖5描繪了與圖I中系統的實例交互。如圖5所示，交互式語音識別系統102可以從用戶設備503 (例如，接收設備118)獲取音頻特徵502 (例如，音頻特徵106)。例如，用戶(例如，用戶116)可以說出短語(例如，「ONE MICROSOFT WAY」)，並且用戶設備503可以接收此話語作為音頻信號，所述音頻信號可以由交互式語音識別系統102獲取作為音頻特徵502，如上所述。交互式語音識別系統102獲取音頻特徵識別，並提供包括文本結果130的響應504。如圖5所示，響應504包括相關音頻片段506 (例如，音頻特徵106的部分140)、文本字符串508以及與每個轉化單詞關聯的轉化概率510。例如，響應504可以由用戶設備503獲取。根據實例實施例，如下所述，語音信號(例如，音頻特徵106)可以被發送到雲處理系統進行識別。然後可以將識別的語句發送到用戶設備。如果所述語句被正確識別，則用戶設備503可以執行與應用有關的操作(例如，搜索地圖)。數據處理領域的技術人員將理解，可以使用多種類型設備作為用戶設備503。例如，用戶設備503可以包括一個或多個行動裝置、一個或多個桌面設備，或者一個或多個伺服器。進一步地，交互式語音識別系統102可以駐留在後端伺服器上，與用戶設備503分離，或者可以整體地或部分地駐留在用戶設備503上。如果交互式語音識別系統102對一個或多個單詞進行錯誤分類，則用戶(例如，用戶116)可以指示不正確識別的單詞。錯誤分類的單詞(或其指示符)可以被發送到交互式語音識別系統102。根據實例實施例，可以返回下一可能的單詞(在淘汰不正確識別的單詞之後)，也可以將k個類似單詞發送到用戶設備503，具體取決於用戶設置。在第一種情況下，如果單詞是正確轉化，則用戶設備503可以執行所需動作，在第二種情況下，用戶可以從類似發音單詞中選擇一個(例如，其中文本替代156中的一個)。如圖5所示，根據實例實施例，在給定從音頻信號提取的特徵S(例如，梅爾頻率倒譜係數(MFCC)，這是一個發音建模數學係數)的情況下，可使用「P (WI S) 」概率分布表指示單詞W的概率。圖6描繪了根據實例實施例的與圖I中系統的實例交互。如圖6所示，交互式語音識別系統102可以從用戶設備503 (例如，接收設備118)獲取音頻特徵602 (例如，音頻特徵106)。例如，用戶(例如，用戶116)可以說出短語(例如，「ONE MICROSOFT WAY」)，並且用戶設備503可以接收此話語作為音頻信號，所述音頻信號可以由交互式語音識別系統102獲取作為音頻特徵602，如上所述。交互式語音識別系統102獲取音頻特徵識別，並提供包括文本結果130的響應604。如圖6所示，響應604包括相關音頻片段606 (例如，音頻特徵106的部分140)、文本字符串608以及與每個轉化的單詞關聯的轉化概率610。例如，響應604可以由用戶設備503獲取。系統發送識別的語句「WON MICROSOFT WAY"(608)之後，用戶然後可以指示不正確識別的單詞「W0N」612。單詞「W0N」612然後可以由交互式語音識別系統102獲取。交互式語音識別系統102然後可以提供包括相關音頻片段616 (例如，相關部分140)、下一可能的單詞618 (例如，「0ΝΕ」)，以及與每個轉化的單詞關聯的轉化概率620的響應614 ;然而，不正確識別的單詞「WON」可以從顯示給用戶的文本替代中省略。因此，用戶設備503可以獲取用戶初始話語要表達的短語(例如「ONE MICROSOFT WAY」)。圖7描繪了與圖I中系統的實例交互。如圖7所示，交互式語音識別系統102可以從用戶設備503 (例如，接收設備118)獲取音頻特徵702 (例如，音頻特徵106)。如上所述，用戶(例如，用戶116)可以說出短語(例如，「ONE MICROSOFT WAY」)，並且用戶設備503可以接收此話語作為音頻信號，所述音頻信號可以由交互式語音識別系統102獲取作為音頻特徵702。交互式語音識別系統102獲取音頻特徵702的識別，並提供包括文本結果130的響應704。如圖7所示，響應704包括相關音頻片段706(例如，音頻特徵106的部分140)、文本字符串708以及與每個轉化單詞關聯的轉化概率710。例如，響應704可以由用戶設備503獲取。·
系統發送識別的語句「WON MICROSOFT WAY"(708)之後，用戶然後可以指示不正確識別的單詞「W0N」712。單詞「W0N」712然後可以由交互式語音識別系統102獲取。交互式語音識別系統102然後可以提供包括相關音頻片段716 (例如，相關部分140)、下面可能的單詞718 (例如，「ONE、WHEN、ONCE... 」)，以及與每個轉化單詞關聯的轉化概率720的響應714 ;然而，不正確識別的單詞「WON」可以從顯示給用戶的文本替代中省略。因此，用戶設備503然後可以選擇其中一個單詞並且可以執行他/她的所需動作(例如，搜索地圖)。根據實例實施例，交互式語音識別系統102可以為用戶提供再次說出不正確識別的單詞的選擇。如果所需單詞不包括在k個類似發音單詞(例如，文本替代156)中，則此功能很有用。根據實例實施例，用戶可以再次說出不正確識別的單詞，如下面進一步討論的那樣。再次說出的單詞的音頻信號(或音頻特徵)以及指示不正確識別的單詞(例如，「WON」)的標記然後可以被發送到交互式語音識別系統102。交互式語音識別系統102然後可以識別單詞並在給定信號S或k個可能的單詞的情況下，將可能的單詞W提供給用戶設備503，如下面進一步討論的那樣。圖8描繪了與圖I中系統的實例交互。如圖8所示，交互式語音識別系統102可以從用戶設備503 (例如，接收設備118)獲取音頻特徵802 (例如，音頻特徵106)。如上所述，用戶(例如，用戶116)可以說出短語(例如，「ONE MICROSOFT WAY」)，並且用戶設備503 可以接收此話語作為音頻信號，所述音頻信號可以由交互式語音識別系統102獲取作為音頻特徵802。交互式語音識別系統102獲取音頻特徵802的識別，並提供包括文本結果130的響應804。如圖8所示，響應804包括相關音頻片段806(例如，音頻特徵106的部分140)、文本字符串808以及與每個轉化單詞關聯的轉化概率810。例如，響應804可以由用戶設備503獲取。系統發送識別的語句「WON MICROSOFT WAY"(808)之後，用戶然後可以指示不正確識別的單詞「W0N」，並且可以再次說出單詞「ONE」。單詞「WON」以及與再次說出的單詞812關聯的音頻特徵然後可以由交互式語音識別系統102獲取。交互式語音識別系統102然後可以提供包括相關音頻片段816 (例如，相關部分140)、下一最可能的單詞818 (例如，「0ΝΕ」)，以及與每個轉化單詞關聯的轉化概率820的響應814 ;然而，不正確識別的單詞「WON」可以從顯示給用戶的文本替代中省略。圖9描繪了與圖I中系統的實例交互。如圖9所示，交互式語音識別系統102可以從用戶設備503 (例如，接收設備118)獲取音頻特徵902 (例如，音頻特徵106)。如上所述，用戶(例如，用戶116)可以說出短語(例如，「ONE MICROSOFT WAY」)，並且用戶設備503可以接收此話語作為音頻信號，所述音頻信號可以由交互式語音識別系統102獲取作為音頻特徵902。交互式語音識別系統102獲取音頻特徵902的識別，並提供包括文本結果130的響應904。如圖9所示，響應904包括相關音頻片段906(例如，音頻特徵106的部分140)、文本字符串908以及與每個轉化單詞關聯的轉化概率910 ;然而，不正確識別的單詞「WON」可以從顯示給用戶的文本替代中省略。例如，響應904可以由用戶設備503獲取。系統發送識別的短語「WON MICROSOFT WAY"(908)之後，用戶然後可以指示不正確識別的單詞「W0N」，並且可以再次說出單詞「ONE」。單詞「WON」以及與再次說出的單詞912關聯的音頻特徵然後可以由交互式語音識別系統102獲取。交互式語音識別系統102然後可以提供包括相關音頻片段916 (例如，相關部分140)、下面k個最可能的單詞918 (例如，「ONE、WHEN、ONCE...，，)，以及與每個轉化單詞關聯的轉化概率920的響應914。這樣，用戶然後可以選擇其中一個單詞並且可以執行他/她的所需動作(例如，搜索地圖)。圖10描繪了根據實例實施例的圖I中系統的實例用戶接口。如圖IOa所示，用戶設備1002可以包括文本框1004和應用活動區域1006。如圖IOa所示，交互式語音識別系統102提供對「WON MICROSOFT WAY」話語的響應，所述響應可以在文本框1004中顯示。根據實例實施例，用戶然後可以根據選擇技術選擇不正確轉化的單詞(例如，「W0N」)，所述選擇技術包括觸摸不正確的單詞或通過在不正確的單詞上執行拖動來選擇它。根據實例實施例，用戶設備1002可以在顯示應用活動區域1106中顯示應用活動(例如,搜索結果)。例如，所述應用活動可以隨著文本框1004中顯示的每個文本字符串版本(例如，原始轉化短語、校正的轉化短語)進行修改。如圖IOb所示，用戶設備1002可以包括文本框1008和應用活動區域1006。如圖IOb所示，交互式語音識別系統102提供對「 {WON、ONE} MICROSOFT {WAY、WEIGH} 」話語的響應，所述響應可以在文本框1008中顯示。因此，替代字符串列表在分隔符文本括號內顯示(例如，替代「WON」和「0ΝΕ」)，以便用戶可以從每個列表選擇正確的替代。如圖IOc所示，用戶設備1002可以包括文本框1010和應用活動區域1006。如圖IOc所示，交互式語音識別系統102提供對「WON MICROSOFT WAY」話語的響應，所述響應可以在文本框1010中顯示，其中單詞「WON」和「WAY」顯示為文本替代下拉列表的下拉菜單。例如，與「WON」關聯的下拉菜單可以顯示為由菜單1012指示(例如，指示文本替代「WON」、「WHEN」、「0NCE」、「WAN」、「EUN」)。根據實例實施例，菜單1012還可以顯示為響應於選擇可選文本的彈出菜單，所述可選文本包括文本框1004或1008中的「WON」。此處討論的實例技術可以在校正請求中提供錯誤分類的單詞，從而通過用戶反饋提供系統學習，從可能的候選中刪除先前嘗試中返回的單詞，從而提供識別精確性，降低系統負荷，並且降低首次嘗試之後的轉化嘗試的帶寬需求。此處討論的實例技術可以提供改進的識別精確性，因為會從將來考慮作為話語部分轉化的候選中省略被用戶識別為錯誤分類的單詞。此處討論的實例技術可以通過發送錯誤分類的單詞而非發送整個語句的語音信號來提供降低的系統負荷，其可以降低處理和帶寬資源的負荷。此處討論的實例技術可以根據分段語音識別(例如，一次校正一個單詞)提供識別精確性。根據實例實施例，交互式語音識別系統102可以根據神經網絡、隱馬爾可夫模型、線性判別分析中的一項或多項，或者任何應用於識別語音的建模技術來利用識別系統。例如，可以使用 Lawrence Rabiner 和 Biing-Hwang Juang 所著的「Fundamentals of SpeechRecognition(Prentice_Hall 出版，1993 年)，，或 Lawrence R. Rabiner 所著的「A Tutorialon Hidden Markov Models and Selected Applications in Speech Recognition (發表於電子電氣工程師協會(IEEE)會報，第77卷，No. 2，1989年)」中討論的語音識別技術。多年以來，線上環境一直注重客戶隱私和保密性。因此，確定交互式語音到文本轉化的實例技術可以使用通過與關聯應用或服務的一個或多個訂閱協議提供許可的用戶所提供的數據。此處描述的各種技術實現可以實現在數字電子電路，或計算機硬體、固件、軟體，或者它們的組合中。所述實現可以被實施為電腦程式產品，即，有形地包含在信息載體中的電腦程式，例如，包含在機器可用或機器可讀存儲設備(例如，諸如通用串行總線(USB)存儲設備、磁帶、硬碟驅動器、緊緻盤、數字視頻盤(DVD)等之類的磁介質或數字介質)或傳播信號中，以便由數據處理裝置(例如，可編程處理器、計算機或多臺計算機)執行或控制所述數據處理裝置的操作。諸如上述(多個)電腦程式之類的電腦程式可通過包括編譯語言或解釋語言的任何形式的程式語言來編寫，並且可通過任何形式來部署，其中包括部署為單獨的程序或部署為模塊、組件、子例程，或者適合於在計算環境中使用的其他單元。可實現上述技術的電腦程式可被部署為在一臺計算機，或者位於一個站點或跨多個站點分布且通過通信網絡互連的多臺計算機上執行。方法步驟可由執行電腦程式的一個或多個可編程處理器來執行，從而通過操作輸入數據並產生輸出來執行功能。所述一個或多個可編程處理器可以並行地執行指令，以及/或者可以通過分布式配置進行布置以執行分布式處理。所述方法步驟還可以由可實現為例如FPGA (現場可編程門陣列)或ASIC (專用集成電路)的專用邏輯電路來執行並且裝置可以實現為該專用邏輯電路。適合於執行電腦程式的處理器例如包括通用和專用微處理器，以及任何類型的數字計算機的任何一個或多個處理器。一般而言，處理器將從只讀存儲器或隨機存取存儲器或兩者接收指令和數據。計算機元件可以包括至少一個用於執行指令的處理器以及一個或多個用於存儲指令和數據的存儲設備。一般而言，計算機還可以包括一個或多個用於存儲數據的海量存儲設備，或者在操作上連接到所述一個或多個海量存儲設備，以便從海量存儲設備接收數據或向其傳送數據或二者，所述海量存儲設備例如包括磁碟、磁光碟或光碟。適合於承載電腦程式指令和數據的信息載體包括所有形式的非易失性存儲器，例如其中包括諸如EPROM、EEPROM及快閃記憶體設備的半導體存儲設備；諸如內置硬碟或可移動磁碟的磁碟；磁光碟；以及⑶ROM和DVD-ROM盤。所述處理器和存儲器可以附帶專用邏輯電路或集成在專用邏輯電路中。為了提供與用戶的交互，可以在計算機上實施所述實現，該計算機具有諸如陰極射線管(CRT)或液晶顯示屏(LCD)監視器的用於向用戶顯示信息的顯示設備、以及用戶向計算機提供輸入所用的鍵盤和指點設備(例如，滑鼠或軌跡球)。也可以使用其他類型設備來提供與用戶的交互；例如，提供給用戶的反饋可以是任何形式的傳感反饋，例如，視覺反饋、聽覺反饋或觸覺反饋；來自用戶的輸入可以通過任何形式接收，其中包括聲學輸入、語音輸入或觸覺輸入。所述實現可以在包括後端組件(例如，作為數據伺服器)或包括中間件組件(例如，應用伺服器)或包括前端組件(例如，具有用戶與所述實現交互所用的圖形用戶接口或Web瀏覽器的客戶端計算機)，或此類後端、中間件或前端組件的任何組合的計算系統中實施。組件可以通過任何數字數據通信形式或介質(例如，通信網絡)進行互連。通信網絡實例包括區域網(LAN)和諸如網際網路的廣域網(WAN)。儘管以特定於結構特徵和/或方法行為的語言描述主題，但是需要理解，所附權利要求中定義的主題並不一定限於上述特定特徵或行為。相反，公開上述特定特徵和行為是作為實現權利要求的實例形式。儘管如此處描述的那樣，已經示出所述實現的特定特徵，但是本領域的技術人員將想打許多修改、替代、更改以及等價操作。因此將理解，所附權利要求旨在涵蓋落在實施例範圍內的所有此類修改和變化。
權利要求
1.一種有形地包含在計算機可讀存儲介質中並包括可執行代碼的電腦程式產品，所述可執行代碼導致至少一個數據處理裝置獲取(302)與第一話語關聯的音頻數據；根據與所述音頻數據關聯的音頻信號分析，通過設備處理器(128)獲取(304)與所述第一話語的第一語音到文本轉化(132)關聯的文本結果(130)，文本結果(130)包括多個對應於至少一個單詞的可選文本替代(156)；啟動(306)顯示包括文本替代(156)中第一個的文本結果(130)的至少一部分；以及接收(308)指示文本替代(156)中第二個的選擇指示。
2.根據權利要求I的電腦程式產品，其中所述可執行代碼被配置為導致至少一個數據處理裝置根據基於文本替代(156)中第二個的搜索查詢獲取(314)搜索結果(154);以及啟動(316)顯示搜索結果(154)的至少一部分。
3.一種方法，包括獲取(402)與第一話語關聯的第一多個音頻特徵(106)；根據與音頻特徵(106)關聯的音頻信號分析，通過設備處理器(128)獲取(404)與所述第一話語的第一語音到文本轉化(132)關聯的第一文本結果(130)，第一文本結果(130)包括至少一個第一單詞(134)；獲取(406)與關聯於至少一個第一單詞(134)的第一語音到文本轉化(132)的至少第一部分相關的第一組音頻特徵；啟動(408)顯示包括至少一個第一單詞(134)的第一文本結果(130)的至少一部分；以及接收(410)指示第一語音到文本轉化(132)中錯誤的選擇指示，所述錯誤與至少一個第一單詞(134)關聯。
4.根據權利要求3的方法，其中所述第一話語的第一語音到文本轉化(132)包括(412)所述第一話語的非特定人語音識別轉化。
5.根據權利要求3的方法，進一步包括根據所述指示錯誤的選擇指示和所述第一話語的第一語音到文本轉化(132)的分析獲取(414)第二文本結果。
6.根據權利要求3的方法，其中接收指示第一語音到文本轉化(132)中錯誤的選擇指示，其中所述錯誤與至少一個第一單詞(134)關聯，包括(418)以下一項或多項接收有關用戶觸摸至少一個第一單詞顯示的指示，根據包括至少一個第一單詞的替代列表顯示接收用戶選擇指示，根據與至少一個第一單詞關聯的一個或多個替代的下拉菜單顯示接收用戶選擇指示，或者根據與至少一個第一單詞關聯的一個或多個替代的顯示的彈出窗口顯示接收用戶選擇指示。
7.根據權利要求3的方法，進一步包括獲取(424)與第二話語關聯的第二多個音頻特徵(106)，所述第二話語與關聯於至少一個第一單詞(134)的錯誤校正關聯的言語輸入關聯；以及根據與第二多個音頻特徵(106)關聯的音頻信號分析，通過設備處理器(128)獲取(426)與所述第二話語的第二語音到文本轉化(132)關聯的第二文本結果(130)，第二文本結果(130)包括至少一個不同於第一單詞(134)的校正單詞。
8.根據權利要求7的方法，進一步包括啟動(428)傳輸指示第一語音到文本轉化(132)中錯誤的選擇指示，以及與所述第二話語關聯的第二多個音頻特徵(106)。
9.一種系統,包括輸入獲取組件(104)，用於獲取與第一話語關聯的第一多個音頻特徵(106)；語音轉文本組件(126)，用於根據與音頻特徵(106)關聯的音頻信號分析，通過設備處理器(128)獲取與所述第一話語的第一語音到文本轉化(132)關聯的第一文本結果(130)，第一文本結果(130)包括至少一個第一單詞(134)；片段相關組件(138)，用於獲取第一多個音頻特徵(106)的第一相關部分(140)，所述第一相關部分與第一語音到文本轉化(132)到至少一個第一單詞(134)關聯；結果遞送組件(142)，用於啟動輸出第一文本結果(130)和第一多個音頻特徵(106)的第一相關部分(140);以及校正請求獲取組件(144)，用於獲取包括有關至少一個第一單詞是第一語音到文本轉化錯誤的指示，以及第一多個音頻特徵(106)的第一相關部分(140)的校正請求(146)。
10.根據權利要求9的系統，進一步包括搜索請求組件(148)，用於根據與所述第一話語的第一語音到文本轉化(132)關聯的第一文本結果(130)啟動第一搜索操作，其中結果遞送組件(142)啟動輸出帶有所述第一搜索操作的結果(154)的第一文本結果(130)和第一多個音頻特徵(106)的第一相關部分(140)。
11.一個或多個存儲指令的計算機可讀存儲介質，當由計算設備執行時，導致所述計算設備執行如權利要求3-8中任一項所述的方法。
全文摘要
一種交互式語音識別。可以獲取與第一話語關聯的第一多個音頻特徵。可以根據與所述音頻特徵關聯的音頻信號分析，獲取與所述第一話語的第一語音到文本轉化關聯的第一文本結果，所述第一文本結果包至少一個第一單詞。可以獲取與關聯於至少一個第一單詞的第一語音到文本轉化的至少第一部分相關的第一組音頻特徵。可以啟動顯示包括至少一個第一單詞的第一文本結果的至少一部分。可接收指示第一語音到文本轉化中錯誤的選擇指示，所述錯誤與至少一個第一單詞關聯。
文檔編號G10L15/26GK102915733SQ20121046272
公開日2013年2月6日申請日期2012年11月16日優先權日2011年11月17日
發明者M.S.B.塞加爾, M.M.拉扎申請人:微軟公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

交互式語音識別的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法