使用地理信息的聲學模型適配的製作方法
2023-12-08 23:15:06 4
專利名稱:使用地理信息的聲學模型適配的製作方法
使用地理信息的聲學模型適配
相關串請的交叉引用
本申請要求標題為ACOUSTIC MODEL ADAPTATION USING GEOGRAPHIC INFORMATION、於2010年5月26日提交的第12/787,568號美國申請的優先權,通過援引將 其公開內容併入於此。技術領域
本說明書涉及語音識別。
背景技術:
行動裝置的用戶可以例如通過在鍵盤上鍵入或者向麥克風中口述來錄入文字。在 話音輸入的背景中,自動化搜索識別(「ASR」)引擎可能在與特定語言關聯的聲音基於用 戶的口音而變化時準確識別口述單詞有困難。例如在由紐約人或者波士頓人口述時,典型 ASR引擎可能識別單詞「park」分別為單詞「pork」或者「pack」。發明內容
一般而言,在本說明書中描述的主題內容的一個創新方面可以體現於方法中,這 些方法用於ASR引擎自動地訓練、選擇、生成或者否則適配在地理位置上專屬(或者「地理 專屬」)於一個或者多個地理區域的一個或者多個聲學模型。聲學模型應用於用位置信息 進行「地理標註」的音頻信號(或者「採樣」或者「波形」)以通過比較音頻信號與聲音的統 計表示來執行語音識別,這些聲音組成特定語言的每個單詞。一個或者多個聲學模型可以 包括在地理位置上專屬於單個地理區域或者多個地理區域的單個聲學模型。
如本說明書中所用,「地理標註」的音頻信號指代已經與位置元數據(例如地理位 置元數據或者相對位置元數據)或者地理空間元數據關聯或者用該元數據「標註」的信號。 除其他以外,位置元數據可以包括導航坐標如緯度和經度、海拔信息、方位或者航向信息、 與位置關聯的名稱或者地址信息、相對位置或者方向信息或者引用位置類型的信息。
用於適配聲學模型的方法包括接收多個行動裝置在多個地理位置記錄的地理標 注的音頻信號並且使用地理標註的音頻信號中的至少部分來適配一個或者多個聲學模型。 在接收行動裝置在地理位置之一內或者附近記錄的講話時,ASR引擎可以使用一個或者多 個適配的聲學模型對講話執行語音識別。顯然可以在接收講話之前、期間或者之後適配聲 學模型。
講話可以對應於任何類型的話音輸入、比如向話音搜索查詢系統、口授系統或者 對話系統的輸入。在話音搜索查詢系統的情境中,「搜索查詢」包括在用戶請求搜尋引擎執 行搜索查詢時用戶向搜尋引擎提交的一個或者多個查詢檢索詞,其中「檢索詞」或者「查詢 檢索詞」包括一個或者多個全部或者部分單詞、字符或者字符串。除其他以外,搜索查詢的 「結果」(或者「搜索結果」)包括引用如下資源的統一資源標識符(URI),搜尋引擎確定該 資源響應於搜索查詢。除其他以外,搜索結果可以比如包括標題、預覽圖像、用戶等級、地圖或者方向、對應資源的描述或者已經從對應資源自動或者手動提取或者否則與對應資源關 聯的文字摘錄。
一般而言,在本說明書中描述的主題內容的另一創新方面可以實現於包括以下動 作的方法中接收與行動裝置記錄的講話對應的音頻信號;確定與行動裝置關聯的地理位 置;針對地理位置適配一個或者多個聲學模型;並且使用針對地理位置適配的一個或者多 個聲學模型對音頻信號執行語音識別。
這些方面的其它實施例包括配置成執行方法的動作的對應系統、裝置和在計算機 存儲設備上編碼的電腦程式。
這些和其它實施例可以各自可選地包括以下特徵中的一個或者多個特徵。在各 種例子中,適配一個或者多個聲學模型還包括在接收與講話對應的音頻信號之前適配一個 或者多個聲學模型;適配一個或者多個聲學模型還包括在接收與講話對應的音頻信號之後 適配一個或者多個聲學模型;動作還包括接收與多個行動裝置在多個地理位置記錄的音頻 對應的地理標註的音頻信號;並且針對地理位置適配一個或者多個聲學模型還包括使用地 理標註的音頻信號的子集針對地理位置適配一個或者多個聲學模型;動作還包括針對地 理標註的音頻信號中的每個地理標註的音頻信號確定在與行動裝置關聯的地理位置和與 地理標註的音頻信號關聯的地理位置之間的距離;並且選擇與在與行動裝置關聯的地理位 置的預定距離內的地理位置關聯、或者與在與關聯於行動裝置的地理位置最近的N個地理 位置之中的地理位置關聯的地理標註的音頻信號作為地理標註的音頻信號的子集;動作還 包括選擇與也與行動裝置關聯的地理位置關聯的地理標註的音頻信號作為地理標註的音 頻信號的子集;動作還包括基於與行動裝置關聯的地理位置和基於與講話關聯的情境數據 選擇地理標註的音頻信號的子集;情境數據包括對行動裝置記錄講話時的時間或者日期進 行引用的數據、對行動裝置在記錄講話時測量的速度或者運動量進行引用的數據、引用移 動設備的設置的數據或者引用行動裝置的類型的數據;適配聲學模型包括使用地理標註的 音頻信號的子集作為訓練集來訓練高斯混合模型(GMM);講話代表話音搜索查詢或者向數 字口授應用或者對話系統的輸入;確定地理位置還包括從行動裝置接收引用地理位置的數 據;確定地理位置還包括確定與行動裝置關聯的以往地理位置或者默認地理位置;動作還 包括生成講話的一個或者多個候選轉錄;並且使用一個或者多個候選轉錄來執行搜索查 詢;針對地理位置適配一個或者多個聲學模型還包括從已經針對多個地理位置生成的多個 聲學模型之中選擇針對與行動裝置關聯的地理位置生成的一個或者多個聲學模型;針對地 理位置適配一個或者多個聲學模型還包括向單個聲學模型使用的特徵空間中併入引用地 理位置的數據;向單個聲學模型使用的特徵空間中併入引用地理位置的數據還包括向單個 聲學模型使用的特徵空間中併入值,其中值包括梅爾頻率倒頻譜係數和地理坐標;針對地 理位置適配一個或者多個聲學模型還包括向在單個聲學模型中包括的狀態信息中併入引 用地理位置的數據;和/或針對地理位置適配一個或者多個聲學模型還包括推導與地理 位置關聯的變換矩陣;並且將變換矩陣應用於單個通用聲學模型。
可以實施在本說明書中描述的主題內容的具體實施例以實現以下優點中的一個 或者多個優點。可以提高語音識別準確度。可以使用準確地反映口音、方言或存在於給定 語言中的語音模式中的差異的講話以及可以跨不同的地理區域發生的講話來適配聲學模 型。語音識別可以在伺服器側處執行,而非在客戶端設備上執行,以允許增強處理優化並且增加計算效率。
在附圖和下文描述中闡述在本說明書中描述的主題內容的一個或者多個實施例 的細節。主題內容的其它潛在特徵、方面和優點將從該描述、附圖和權利要求中變得清楚。
圖1是使用地理標註的音頻以增強語音識別準確度的例子系統的圖。
圖2和圖3是例子過程的流程圖。
圖4是例子過程的泳道圖。
各種附圖中的相似標號指示相似要素。
具體實施方式
圖1是使用地理標註的音頻以增強語音識別準確度的例子系統100的圖。圖1也 圖示了在狀態(a)至⑴期間在系統100內的數據流以及在狀態⑴期間在系統100的移 動設備102上顯示的用戶接口 101。簡言之,系統100適配地理專屬於一個或者多個地理區 域的一個或者多個聲學模型。聲學模型應用於用位置信息進行地理標註的音頻信號,以通 過比較音頻信號與聲音的統計表示來執行語音識別,這些聲音組成特定語言的每個單詞。
更具體而言,系統100包括通過一個或者多個網絡106與伺服器104和ASR引擎 105通信的行動裝置102。伺服器104可以是搜尋引擎、口授引擎、對話系統或者任何如下 其它引擎或者系統,該引擎或者系統使用轉錄的語音或者調用使用轉錄的語音的軟體應用 以執行某個動作。網絡106可以包括無線蜂窩網絡、無線區域網(WLAN)或者W1-Fi網絡、 第三代(3G)或者第四代(4G)移動電信網絡、專用網絡如內部網、公用網絡如網際網路或者其 任何適當組合。狀態(a)至(i)描繪當系統100執行例子過程時出現的數據流。狀態(a) 至(i)可以是時序狀態,或者它們可以在與所示序列不同的序列中出現。
根據圖1中所示例子過程,ASR引擎105從各種設備(例如行動裝置102或者其 它移動或者非行動裝置)接收地理標註的音頻信號107至109並且使用地理標註的音頻信 號107至109針對一個或者多個地理位置適配一個或者多個地理專屬聲學模型111。地理 專屬聲學模型111可以包括適配成地理專屬於一個地理位置或者多個地理位置的一個單 個聲學模型,或者地理專屬聲學模型111可以包括共同適配成地理專屬於一個地理位置或 者各自適配成地理專屬於不同地理位置的兩個或者更多聲學模型。
當接收與行動裝置102記錄的講話113對應的音頻信號112時,確定與移動設 備102(或者行動裝置102的用戶114( 「波士頓Bob」))關聯的一個或者多個地理位置。 ASR引擎105使用地理專屬聲學模型111來轉錄講話113,這些聲學模型匹配於與行動裝置 102 (或者行動裝置102的用戶114)關聯的地理位置或者ASR引擎105確定這些聲學模型 適合於這些地理位置。從ASR引擎105向伺服器104傳達一個或者多個候選轉錄115。當 伺服器104是搜尋引擎時,伺服器104使用候選轉錄115來執行一個或者多個搜索查詢、生 成搜索結果116並且向行動裝置102傳達搜索結果116用於顯示。
更具體而言,在狀態(a)期間,通過網絡106向ASR引擎105傳達地理標註的音頻 信號107至109。一般而言,地理標註的音頻信號107至109中的一個或者多個音頻信號包 括不同用戶的話音。可以在狀態(a)期間向ASR引擎105傳達更少或者更多地理標註的音頻信號。
雖然在地理標註的音頻信號107至109中編碼的話音中的若干語音可以共享共同 語言,但是口述共同語言的不同話音可以具有與不同地理區域相關的不同口音(即「地理 相關」語音)。因而與音頻信號107至109關聯的地理位置可以用來按照地理區域(並且 因此按照口音、方言或者語音模式)對音頻信號聚類並且適配一個或者多個聲學模型111 以更好地識別表現特定地理相關口音、方言或者語音模式的語音。除了話音之外,地理標註 的音頻信號107至109也可以包括在特定位置(自然地或者以別的方式)出現的周圍聲音 或者環境噪聲。
在狀態(b)期間,ASR引擎105接收地理標註的音頻信號107至109並且在音頻 信號匯集中(例如在計算機可讀存儲介質上)存儲地理標註的音頻信號107至109 (或者 其部分)。如下文描述的那樣,ASR引擎105存儲的音頻信號匯集用於訓練、構建、生成或者 否則適配一個或者多個地理專屬聲學模型111,這些聲學模型用來對地理標註的音頻信號 和講話執行語音識別。
在圖1中,ASR引擎105接收已經用引用位置「紐約市」的元數據117標註的音頻 信號107。另外,ASR引擎105接收已經用引用位置「波士頓」的元數據118和引用「城市」 地理位置類型(即因為「波士頓」是城市)的元數據119標註的音頻信號108。此外,ASR 引擎105接收已經用引用位置「新英格蘭」的元數據120和引用位置「波士頓」(「波士頓」 是「新英格蘭」內的城市)的元數據121標註的音頻信號109。與相應音頻信號關聯的地理 標註的位置可以指代行動裝置的位置、用戶、講話引用的位置、默認位置、ASR引擎105、網 絡106或者網絡106的部分或者一些其它位置。
元數據117至121 (或者其一些部分)可以如圖所示由向ASR引擎105傳達元數 據117至121的設備與音頻信號107至109關聯。取而代之,元數據117至121 (或者其一 些部分)可以由ASR引擎105、搜尋引擎104或者由另一伺服器在接收未標註的音頻信號之 後基於推斷行動裝置102 (或者行動裝置102的用戶114)的位置來與音頻信號107至109關聯。
音頻信號107至109可以各自包括相對高質量音頻、比如十六千赫茲無損音頻的 兩秒(或者更多)摘錄。元數據可以引用設備(或者設備的用戶)在記錄、捕獲、生成或者 否則獲得音頻時的位置,或者元數據可以引用設備(或者設備的用戶)在記錄、捕獲、生成 或者否則獲得音頻之前或者之後的時間的位置。可以向ASR引擎105人工上傳音頻信號107 至109,或者對於選擇參與的用戶,可以自動獲得並且向ASR引擎105傳達音頻信號107至 109而無需在向ASR引擎105傳達每個音頻信號之前的顯式用戶激勵。
元數據117至121可以用任何數目的不同格式或者細節或者粒度水平描述位置。 例如,元數據117至121可以包括標識地理區域的二維坐標(例如緯度和經度)、地址或者 信息。當在移動車輛中記錄音頻信號時,元數據117至121可以描述車輛的路徑(例如包 括起點和終點以及運動數據)。此外,元數據117至121可以在位置類型方面描述位置(例 如「移動車輛」、「在海灘上」、「在飯館中」、「在高樓中」、「南亞」、「農村區域」、「有建築噪聲的 某處」、「遊樂園」、「在船艇上」、「室內」、「地下」、「在街道上」、「森林」)。
另外,元數據117至121可以在有界區域方面描述位置(例如表達為限定有界 區域的坐標集)或者可以使用區域標識符、比如州名或者標識符、城市名、慣用名(例如「中央公園」、「唐人街」、「TriBeca」)、國名或者任意限定區域的標識符(例如「房間/區域 ABC123」)。單個音頻信號可以與描述一個位置或者位置類型或者多個位置和/或位置類型 的元數據關聯。
ASR引擎105或者行動裝置102可以處理元數據117至121以調整位置信息的細 節水平(例如以確定與特定坐標集關聯的州),或者位置信息可以被離散化(例如通過選擇 沿著路徑的具體點或者與路徑關聯的區域)。可以通過指定或者添加位置類型元數據、例如 通過向其關聯地理坐標與海灘位置關聯的音頻信號添加「在海灘上」標籤或者通過向包括 在背景中交談的多個人的聲音的音頻信號添加「有許多人的某處」標籤來調整元數據的細 節水平,當特定音頻信號與引用兩個或者更多位置的元數據關聯時,ASR引擎105可以通過 去除引用位置中的一個或者多個位置的元數據來過濾音頻信號。
元數據引用的地理位置也可以轉換成離散化的特徵以減少可能不同位置的數目。 這可以例如通過減少緯度和經度坐標的解析度(例如從O. 001度減少至I度或者5度)或 者通過將緯度和經度坐標轉換成地理位置的名稱(例如通過使用在國家、州、城市或者省 份之間的邊界限定的區域)來完成。
由於ASR引擎105適配一個或者多個聲學模型111以增強對包括不同口音的話音 的識別,所以用來適配一個或者多個聲學模型111的音頻信號應當包括不同用戶在不同地 理位置的語音、口音和方言。就這一點而言,ASR引擎105可以使用語音活動檢測器以驗證 ASR引擎105存儲的音頻信號匯集包括語音存在於其中的音頻信號並且濾除或者以別的方 式標識或者排除僅包括環境噪音或者環境聲音的音頻信號(或者音頻信號的部分)。例如 ASR引擎105可以去除音頻信號的與在用戶口述之前或者之後出現或者在單詞之間的停頓 之間出現的背景噪聲對應的部分。ASR引擎105存儲的音頻信號匯集可以包括數以十計、數 以百計、數以千計、數以百萬計或者數以億計的音頻信號。
ASR引擎105對存儲或者不存儲特定音頻信號(或者其部分)的判決可以分別基 於確定用戶的語音在音頻信號中被編碼或者未被編碼。取而代之,ASR引擎105存儲音頻 信號可以包括標識音頻信號的包括用戶的語音的部分、通過去除未包括用戶的語音的部分 或者通過關聯元數據、該元數據引用包括用戶的語音的部分來變更音頻信號並且存儲變更 的音頻信號。音頻信號的環境噪聲或者環境聲音部分可以由ASR引擎105存儲用於其它目 的、例如構建地理專屬噪聲模型。
與音頻信號107或者109關聯的其它情境數據或者元數據也可以由ASR引擎105 存儲。例如ASR引擎105存儲的音頻信號可以在一些實施方式中包括其它元數據標籤、比 如指示背景語音(例如自助餐廳聊天)是否存在於音頻信號內的標籤、標識獲得特定音頻 信號的日期的標籤(例如用來確定採樣年齡)、標識行動裝置102的用戶114的口音的標 籤、標識行動裝置102的用戶114設置的地點的標籤(例如標識用戶114偏好英國英語或 者美國英語的標籤)或者標識特定音頻信號是否以一些方式從匯集的在相同或者相似位 置獲得的其它音頻信號偏離的標籤。例如標籤可以標識無口音或者有重口音(例如南非口 音)的用戶正在與不同重口音(例如澳大利亞口音)關聯的地理區域中使用行動裝置以避 免使用未準確反映與特定地理區域關聯的口音的音頻信號來適配聲學模型。
ASR引擎105可以可選地過濾音頻信號以排除滿足或者未滿足其它標準的特定音 頻信號。例如ASR引擎105可以判決不存儲如下音頻信號,該音頻信號比某一年齡更老或者包括可以唯一標識個人或者可以用別的方式在性質上專有或者私有的背景聊天。在附加 例子中,可以在與音頻信號關聯的元數據中標註如下數據,該數據引用是否人工或者自動 上傳ASR引擎105存儲的音頻信號,並且可以僅使用自動上傳的那些音頻信號或者僅使用 人工上傳的那些音頻信號來適配一個或者多個聲學模型111,或者可以在適配聲學模型期 間向每個上傳類別分配不同加權。
雖然顯式標籤可以應用於ASR引擎105存儲的音頻信號以引用特定地理位置,但 是在其它實施方式中,可以比如當可以推導在音頻信號與地理位置之間的關聯性時,無需 或者未使用顯式標籤。例如可以通過處理搜索日誌(例如用伺服器104存儲)以推斷用於 特定音頻信號的地理位置來隱式地關聯地理位置與音頻信號。因而,ASR引擎105 『接收』 地理標註的音頻信號可以包括獲得未用地理位置明確標註的音頻信號並且推導和關聯用 於音頻信號的一個或者多個地理標籤。
在狀態(c)期間,通過網絡106從行動裝置102向ASR引擎105傳達音頻信號112。 音頻信號112包括行動裝置012 (例如在用戶隱式地或者顯式地發起語音搜索查詢時)記 錄的講話113 (如本地波士頓人、比如「波士頓Bob」可以口述的「Pahk yah kah」,它是措詞 「停放您的汽車」的表音轉錄)。音頻信號112包括引用地理位置「波士頓」的元數據123。 除了包括講話113之外,音頻信號112也可以包括環境音頻摘錄、比如在口述講話113之前 或者之後記錄的兩秒音頻摘錄。儘管在圖1中圖示了講話113為語音查詢,但是在其它例 子實施方式中,講話可以是向口授系統或者相對話系統的語音輸入。
可以使用與ASR引擎105存儲的音頻信號關聯的地理位置相同或者不同的細節水 平來限定與音頻信號112關聯的地理位置(「波士頓」)。例如可以表達與ASR引擎105存 儲的音頻信號關聯的地理位置為地理區域,而可以表達與音頻信號112關聯的地理位置為 地理坐標。當細節水平不同時,ASR引擎105可以處理元數據117至121的地理元數據123 以對準相應細節水平,從而可以更容易執行子集選擇過程。
元數據123可以由行動裝置102 (或者行動裝置102對用戶114)在記錄講話113 時基於當前地理位置來與音頻信號112關聯並且可以與音頻信號112 —起從行動裝置102 向ASR引擎105傳達。取而代之,元數據可以由ASR引擎105基於ASR引擎105推斷的用 於行動裝置102 (或者行動裝置102的用戶114)的地理位置來與音頻信號112關聯。
ASR引擎105或者行動裝置102可以使用用戶的日曆時間表、(例如如存儲於ASR 引擎105或者伺服器104的用戶帳戶中或者如從行動裝置102傳達的)用戶偏好、默認位 置、以往位置(例如行動裝置102的GPS模塊計算的最新位置)、用戶在提交語音搜索查詢 時顯式提供的信息、根據講話113本身、三角測量(例如WiFi或者小區塔三角測量)、在移 動設備102中的GPS模塊或者推算定位(dead reckoning)來推斷地理位置。元數據123 可以包括準確度信息,該信息指定地理位置確定的準確度,從而表示行動裝置102(或者移 動設備102的用戶114)在記錄講話113時的時間實際上在元數據123指定的特定地理位 置的可能性。
在附加例子中,ASR引擎105或者行動裝置102可以使用用戶在所有他的講話內的 平均位置、用戶的「家鄉位置」(例如如用戶顯式地指定或者根據口音推斷的、用戶當前居住 的位置或者他成長並且他的口音來自的位置)、代表用戶在一些近來時間段內的位置的『平 滑』、當前位置與用戶的家鄉位置的組合(例如根據兩個二維緯度和經度推導的四維信號)或者作為連續二維緯度和經度信號的當前位置位置來推斷地理位置。
也可以與音頻信號112 —起包括其它元數據。例如與音頻信號一起包括的元數據 可以包括與相應行動裝置102關聯的位置或者地點。例如地點可以描述行動裝置102在其 中註冊的區域或者行動裝置102的用戶114的語言或者方言以及其它可選參數。語音識別 模塊124可以使用這一信息以選擇、訓練、生成或者以別的方式適配與行動裝置102的情境 匹配的噪聲、話音、聲學、流行度或者其它模型。
在狀態(d)期間,ASR引擎105選擇ASR引擎105已經接收的音頻信號的子集並 且使用聲學模型適配模塊125以使用音頻信號的子集來訓練、生成或者以別的方式適配一 個或者多個聲學模型111 (例如高斯混合模型(GMM))。例如可以使用ASR引擎105選擇的 音頻信號的子集作為用於一個或者多個聲學模型111的訓練集。
子集可以包括ASR引擎105存儲的音頻信號中的所有或者少於所有音頻信號。這 一選擇可以通過比較來自音頻信號107至109的聲學信息與來自音頻信號112的聲學信息 來出現以產生更準確反應在不同口音之間的實際地理邊界的子集。
一般而言,一個或者多個聲學模型111與噪聲模型、語言模型和/或其它模型一起 應用於音頻信號112以將口述講話113轉譯或者轉錄成一個或者多個文字候選轉錄115並 且向候選轉錄115生成語音識別置信度分數。具體而言,一個或者多個聲學模型111包括組 成特定語言的每個單詞的聲音的統計表示,並且噪聲模型用於噪聲抑制或者噪聲補償。兩 種模型增強口述講話113在ASR引擎105看來的可理解性。
更具體而言,聲學模型適配模塊125可以使用音頻信號108和109針對與音頻信 號112關聯的地理位置(「波士頓」)適配聲學模型,因為地理標註音頻信號108和109為 已經在該地理位置或者附近或者在相同或者相似類型的位置被記錄。另外,除了音頻信號 108和109之外或者取而代之,音頻信號112本身也可以用來適配一個或者多個聲學模型 111。在針對特定地理位置適配聲學模型時,聲學模型適配模塊125基於可以與特定口音、 方言或者話音模式相關的標準來適配聲學模型。
在另一例子中,聲學模型適配模塊125可以使用被地理標註為已經在另一地理位 置(例如「紐約市」)或者附近或者在相同或者相似類型的位置被記錄的音頻信號107針對 另一地理位置適配聲學模型。如果聲學模型適配模塊125被配置成選擇被地理標註為已經 在與音頻信號112關聯的地理位置附近(例如在預定義距離內)被記錄的音頻信號,那麼 如果「紐約市」在「波士頓」的預定義距離內,則聲學模型視頻模塊125也可以使用標註「紐 約市」的音頻信號107針對「波士頓」適配一個或者多個聲學模型111。
除了使用位置標準之外,其它情境數據也可以用來選擇由ASR引擎105用來適配 一個或者多個聲學模型111的音頻信號的子集或者調整特定音頻信號對一個或者多個聲 學模型111的適配具有的影響的權值。例如ASR引擎15可以選擇如下音頻信號的子集,這 些音頻信號的情境數據指示它們比預定義時間段更長或者更短,或者這些音頻信號的情境 數據指示它們滿足某一質量或者近因標準。另外,ASR引擎105可以選擇如下音頻信號作 為子集,這些音頻信號的情境信息指示它們是使用具有與行動裝置102相似的音頻子系統 的行動裝置來記錄的。
可以用來選擇音頻信號的子集的其它情境數據可以在一些例子中包括時間信息、 日期信息、對特定行動裝置在記錄期間測量的速度或者運動數量進行引用的數據、其它設備傳感器數據、設備狀態數據(例如藍牙耳機、揚聲器電話或者傳統輸入方法)、用戶標識 符(如果用戶選擇提供用戶標識符)或者標識行動裝置類型或者機型的信息。情境數據例 如可以提供在音頻信號112的記錄周圍環境的條件的指示。
在一個例子中,行動裝置102與音頻信號112 —起供應的情境數據可以指示移動 設備102在與水體關聯的區域中在步行速度以上行進。使用這一情境數據,ASR 105可以 推斷音頻信號112在船艇上被記錄並且可以選擇與「在船艇上」位置類型關聯的音頻信號 的子集以更好地識別「在船艇上」位置類型共有的口音、方言或者話音模式、比如漁夫或者 水手使用的口音、方言或者話音模式。
在另一例子中,行動裝置102與音頻信號112 —起供應的情境數據可以指示移動 設備102在農村區域中。基於這一情境數據,ASR引擎105可以推斷如果子集包括在城市 區域中記錄的音頻信號則不會提高語音識別的準確度。因而情境數據可以由聲學模型適配 模塊125用來選擇將用來適配一個或者多個聲學模型的音頻信號或者選擇用來識別特定 講話的適當聲學模型111。在一些實施方式中,聲學模型適配模塊125可以基於與音頻信號 關聯的地理位置和與音頻信號112關聯的地理位置的鄰近度來選擇ASR引擎105存儲的音 頻信號的加權組合。
聲學模型適配模塊125也可以使用音頻信號112本身中包括的音頻來適配一個 或者多個聲學模型111。例如聲學模型適配模塊125可以相對於音頻信號112的質量確定 ASR引擎105存儲的音頻信號的質量並且可以選擇僅使用ASR引擎105存儲的音頻信號、 僅使用音頻信號112或者使用其任何適當加權或者未加權組合來適配一個或者多個聲學 模型111。例如聲學模型適配模塊125可以確定音頻信號112包括很少講話或者ASR引擎 105針對該特定地理位置存儲包括多個講話的其它高質量音頻信號並且可以選擇適配聲學 模型而未使用音頻信號112 (或者向音頻信號112給予很少加權)。
在一些實施方式中,聲學模型適配模塊125選擇與N(例如五個、二十個或者五十 個)與關聯於音頻信號112的地理位置最近的地理位置關聯的音頻信號作為子集。當與音 頻信號112關聯的地理位置描述點或者地方(例如坐標)時,可以相對於該地理位置的幾 何形狀(例如圓形或者方形)限定幾何形狀,並且聲學模型適配模塊125可以選擇ASR引擎 105存儲的與全部或者部分位於限定的幾何形狀內的地理區域關聯的音頻信號作為子集。 當與音頻信號112關聯的地理位置描述區域時,聲學模型適配模塊125可以選擇ASR引擎 105存儲的與在區域的任何點的預定距離內的地理區域關聯的音頻信號作為子集。
如果已經在位置類型(即「在海灘上」、「城市」)方面限定與音頻信號112關聯的 地理位置,ASR引擎105可以選擇與相同或者相似位置類型關聯的音頻信號,即使與選擇的 音頻信號關聯的物理地理位置在物理上未在與音頻信號112關聯的地理位置附近。例如由 於全世界的衝浪運動員可以使用相似口音或者方言,所以可以用「在海灘上」元數據標註用 於在佛羅裡達海灘上記錄的音頻信號的聲學模型。在這樣做時,聲學模型適配模塊125可 以選擇如下音頻信號作為子集,這些音頻信號的關聯元數據指示它們也在海灘上被記錄, 儘管事實是可能已經在澳大利亞、夏威夷或者在冰島的海灘上記錄它們。
如果與音頻信號112關聯的地理位置未匹配於與ASR引擎105存儲的音頻信號關 聯的任何物理地理位置或者無高質量匹配(即匹配未滿足預定質量閾值),則聲學模型適 配模塊125可以基於匹配位置類型而不是匹配實際物理地理位置來選擇音頻信號的子集。其它匹配過程、比如聚類算法可以用來匹配音頻信號112與ASR引擎105存儲的音頻信號。
除了生成『通用』地理專屬聲學模型111之外,聲學模型適配模塊125也可以適配 以其它標準為目標或者專屬於其它標準的地理專屬聲學模型、比如進一步專屬於不同設備 類型或者當天時間的地理專屬聲學模型。可以基於檢測已經滿足閾值、比如確定ASR引擎 105存儲的閾值數目的音頻信號指代相同地理位置並且共享另一相同或者相似情境(例如 當天時間、當周日子、運動特性、設備類型等)來適配作為目標的聲學子模型。
可以在行動裝置102已經記錄講話113之前、期間或者之後適配一個或者多個聲 學模型111。例如來自與講話113相同或者相似的位置的多個音頻信號可以與處理講話113 並行處理並且可以用來實時或者近實時適配一個或者多個聲學模型111以更好地逼近在 記錄講話113時在包圍行動裝置102的地理區域中居住的人的口音、方言或者其它話音模 式。
適配一個或者多個聲學模型111可以使用至少四種方式來出現。例如可以針對每 個地理位置地理區域或者地點構建單獨聲學模型。根據這一方式,適配聲學模型114包括 從ASR引擎105已經針對多個地理位置構建的多個聲學模型之中選擇與關聯於音頻信號 112的地理位置匹配的特定地理專屬聲學模型。
根據第二方式,位置信息可以併入於聲學模型中。例如二維連續緯度和經度坐 標矢量可以直接堆疊於聲學模型使用的已經包括聲學特徵如梅爾頻率對數倒頻譜係數 (「MFCC」)的特徵空間中。根據這一方式,需要構建更少聲學模型,因為位置信息可以視為 用於單個聲學模型的規則訓練過程的部分。
更具體而言,用來適配模型的音頻信號(例如音頻信號107至109)劃分成幀(例 如25毫秒幀)。例如使用十個到四十個MFCC來推導每幀的對數倒頻譜表示以描述每個特 定幀的聲音。當使用特定幀來訓練模型時,如下數據集用來代表幀,該數據集包括與特定幀 關聯的MFCC和指代地理位置(例如地理坐標)的值二者。
根據第三方式,可以併入離散化的位置信息作為在聲學模型中包括的狀態信息的 部分。具體而言,聲學模型將狀態映射至特徵空間內的概率分布,從而除了當前音素以及關 於先前和後繼音素的一些情境信息之外也可以擴充狀態以包括位置信息。在訓練期間,對 於每幀,狀態可能未確切已知;有時僅狀態內的概率分布已知;在這一情況下,可以向狀態 內的概率分布中併入離散化的位置內的平滑連續位置分布或者概率密度函數。因而模型在 音素水平而不是聲學特徵水平存儲位置信息。
根據無需重新訓練聲學模型的第四方式,單個聲學模型用於語言內的所有位置, 然而基於地理位置以輕量級方式適配聲學模型。一種這樣的用於適配聲學模型的已知技術 使用最大似然線性回歸(「MLLR」),該MLLR推導變換矩陣,該變換矩陣應用於聲學模型空 間中的高斯係數或者聲學模型的輸入特徵應用以調整模型以與適配講話集匹配。音頻信號 112的地理位置可以用來限定地理區域,並且可以向MLLR適配算法中饋送ASR引擎105存 儲的與區域關聯的所有訓練音頻信號以產生可以用來變換聲學模型以與在該區域中發現 的口音匹配的矩陣。
更具體而言,可以針對特定區域和/或語言生成單個通用聲學模型、比如代表「美 國英語」的聲學模型。用來適配模型的音頻信號(例如音頻信號107至109)用來生成線性 變換,這些線性變換通過將通用聲學模型的係數與適當線性變換進行矩陣相乘來變換通用模型以與特定子區域中的口音匹配。生成線性變換和通過矩陣乘法適配通用聲學模型可以 在飛行中、例如在ASR引擎105已經接收音頻信號112之後出現。
在狀態(e)期間,ASR引擎105的語音識別模塊124使用用於與音頻信號112關 聯的地理位置的一個或者多個地理專屬聲學模型111對音頻信號112執行語音識別。當音 頻信號112包括對行動裝置102的設備類型進行描述的元數據時,ASR引擎105可以應用 專屬於與音頻信號關聯的地理位置和行動裝置102的設備類型二者的聲學模型。語音識別 模塊124可以生成與在音頻信號112中編碼的講話匹配的一個或者多個候選轉錄115和用 於候選轉錄的語音識別置信度值。
在狀態(f)期間,從ASR引擎105向伺服器104傳達語音識別模塊124生成的候 選轉錄115中的一個或者多個候選轉錄。當伺服器104是搜尋引擎時,可以使用候選轉錄 115作為由搜尋引擎用來執行一個或者多個搜索查詢的候選查詢檢索詞。ASR引擎105可 以在向伺服器104發送之前至少部分基於候選轉錄115的相應語音識別置信度分數對它們 排行。通過轉錄口述講話並且伺服器104提供候選轉錄,ASR引擎105可以向行動裝置102 提供話音搜索查詢能力、口授能力或者對話系統能力。
伺服器104可以使用候選查詢檢索詞來執行一個或者多個搜索查詢並且可以生 成引用搜索結果126和127的文件116。文件116可以是標記語言文件、比如可擴展標記語 言(XML)或者超文本標記語言(HTML)文件。
伺服器104在一些例子中可以包括用來在網際網路內發現參考文獻的網上搜索引 擎、用來發現企業或者個人的電話簿型搜尋引擎或者另一專門化搜尋引擎(例如提供對諸 如餐館和電影院信息、醫療和藥品信息等娛樂清單的引用的搜尋引擎)。在狀態(h)期間, 伺服器104向行動裝置102提供引用搜索結果126至127的文件116。
在狀態⑴期間,行動裝置102在用戶接口 101上顯示搜索結果126和127。用戶 接口 101包括搜索框129,該搜索框顯示具有最高語音識別置信度分數的候選查詢檢索詞 (「停放您的汽車」);替代查詢檢索詞建議區域130,該區域顯示簡化113可能已經預計的 另一候選查詢檢索詞(「Parker Cole」或者「Parka Card」);搜索結果126,該搜索結果包 括指向用於「波士頓停車」的資源的連結;以及搜索結果127,該搜索結果包括指向用於「劍 橋停車場」的資源的連結。
圖2是例子過程200的流程圖。簡言之,過程200包括接收與行動裝置記錄的講 話對應的音頻信號;確定與行動裝置關聯的地理位置;針對地理位置適配一個或者多個聲 學模型;並且使用針對地理位置適配的一個或者多個聲學模型對音頻信號執行語音識別。
更具體而言,當過程200開始時,接收與行動裝置記錄的講話對應的音頻信號 (202)。講話可以包括語音搜索查詢或者可以是向口授或者對話應用或者系統的輸入。講 話可以包括關聯情境數據、比如時間、日期、在記錄地理標註的音頻信號期間測量的速度或 者運動數量或者記錄地理標註的音頻信號的設備類型。
確定與行動裝置關聯的地理位置(204)。例如可以從行動裝置接收引用特定地理 位置的數據或者可以標識與行動裝置關聯的以往地理位置或者默認地理位置。
針對地理位置適配一個或者多個聲學模型(206)。可以通過針對每個地理標註的 音頻信號確定在特定地理位置和與地理標註的音頻信號關聯的地理位置之間的距離並且 選擇在特定地理位置的預定距離內或者與在與特定地理位置最近的N個地理位置之中的地理位置關聯的那些地理標註的音頻信號來選擇用於適配音頻模型的地理標註的音頻信 號的子集。
適配一個或者多個聲學模型可以包括從已經針對多個地理位置生成的多個聲學 模型之中選擇針對與行動裝置關聯的地理位置生成的一個或者多個聲學模型或者向一個 或者多個聲學模型使用的特徵空間中併入引用地理位置的數據(例如地理坐標)。取而代 之,適配一個或者多個聲學模型可以包括向在聲學模型中包括的狀態信息中併入引用地理 位置的數據或者推導與地理位置關聯的變換矩陣;並且將變換矩陣應用於通用聲學模型。
可以通過標識與特定地理位置關聯的地理標註的音頻信號和/或通過標識與講 話在聲學上相似的地理標註的音頻信號來選擇地理標註的音頻信號的子集。可以基於特定 地理位置和與講話關聯的情境數據選擇地理標註的音頻信號的子集。生成聲學模型可以包 括使用地理標註的音頻信號的子集作為訓練集來訓練GMM。
對音頻信號執行語音識別(208)。執行語音識別可以包括生成講話的一個或者多 個候選轉錄。可以使用一個或者多個候選轉錄來執行搜索查詢,或者可以提供候選轉錄中 的一個或者多個候選轉錄作為數字口授應用的輸出。取而代之,可以提供候選轉錄中的一 個或者多個候選轉錄作為向對話系統的輸入以允許計算機系統與特定行動裝置的用戶對 話。
圖3是另一例子過程300的流程圖。簡言之,過程300包括接收地理標註的音頻 信號並且至少部分基於與每個地理標註的音頻信號關聯的特定地理位置生成多個聲學模 型。可以在基於講話執行語音識別時至少部分基於與講話的地理位置選擇這些聲學模型中 的一個或者多個聲學模型。
更具體而言,當過程300開始時,接收與音頻對應的地理標註的音頻信號(302)。 地理標註的音頻信號可以在特定地理位置由行動裝置記錄。可以處理接收的地理標註的音 頻信號以排除音頻信號的部分,這些部分未包括行動裝置對用戶的語音。可以接收並且存 儲在一個或者多個地理位置記錄的多個地理標註的音頻信號。
可選地,接收與地理標註的音頻信號關聯的情境數據(304)。地理標註的音頻信號 可以包括時間、日期、在記錄地理標註的音頻信號期間測量的速度或者運動數量或者記錄 地理標註的音頻信號的設備類型。
適配一個或者多個聲學模型(306)。可以針對特定地理位置或者可選地針對位置 類型使用地理標註的音頻信號的子集來適配每個聲學模型。可以通過針對每個地理標註的 音頻信號確定在特定地理位置和與地理標註的音頻信號關聯的地理位置之間的距離並且 選擇在特定地理位置的預定距離內或者與在與特定地理位置最近的N個地理位置之中的 地理位置關聯的那些地理標註的音頻信號來選擇理標註的音頻信號的子集。可以通過標識 與特定地理位置關聯的地理標註的音頻信號來選擇地理標註的音頻信號的子集。可以基於 特定地理位置和與地理標註的音頻信號關聯的情境數據二者選擇地理標註的音頻信號的 子集。生成聲學模型可以包括使用地理標註的音頻信號的子集來訓練高斯混合模型(GMM)。
接收特定行動裝置記錄的講話(308)。講話可以包括語音搜索查詢。講話可以包 括關聯情境數據、比如時間、日期、在記錄地理標註的音頻信號期間測量的速度或者運動數 量或者記錄地理標註的音頻信號的設備類型。
確定地理位置(310)。例如可以從行動裝置的GPS模塊接收引用特定地理位置的數據。
選擇聲學模型(312)。可以從針對多個地理位置適配的多個聲學模型之中選擇聲 學模型。情境數據可以可選地有助於從用於特定地理位置的多個聲學模型之中選擇特定聲 學模型。
使用選擇的聲學模型對講話執行語音識別(314)。執行語音識別可以包括生成講 話的一個或者多個候選轉錄。可以使用一個或者多個候選轉錄來執行搜索查詢。
圖4示出了用於使用地理標註的音頻來增強語音識別準確度的過程400的例子的 泳道圖。過程400可以由行動裝置402、ASR引擎404和搜尋引擎406實施。行動裝置402 可以向ASR引擎404提供音頻信號、比如音頻信號或者與講話對應的音頻信號。雖然圖示 了僅一個行動裝置,但是行動裝置402可以代表向過程400貢獻音頻信號和語音查詢的大 量行動裝置402。ASR引擎404可以基於音頻信號適配聲學模型並且可以在執行語音識別 時將一個或者多個聲學模型應用於傳入語音搜索查詢。ASR引擎405可以向搜尋引擎406 提供對語音搜索查詢內的講話的轉錄以完成語音搜索查詢請求。
過程400始於行動裝置402向ASR引擎404提供408地理標註的音頻信號。音頻 信號可以將行動裝置402的語音的音頻與關於記錄音頻的位置的指示一起包括。可選地, 地理標註的音頻信號可以包括例如形式為元數據的情境數據。ASR引擎404可以在音頻數 據存儲庫中存儲地理標註的音頻信號。
行動裝置402向ASR引擎404提供410講話。講話例如可以包括語音搜索查詢。 記錄講話可以可選地包括例如在記錄講話之前或者之後簡短記錄的音頻採樣。
行動裝置402向ASR引擎404提供412地理位置。行動裝置在一些例子中可以提 供使用GPS模塊來檢測的導航坐標、最新(但是未必與記錄並行的)GPS讀數、默認位置、根 據先前提供的講話推導的位置或者通過推算定位或者發射塔三角測量來估計的位置。移動 設備402可以可選地向ASR引擎404提供情境數據、比如傳感器數據、設備機型標識或者設 備設置。
ASR引擎404適配414聲學模型。可以部分通過訓練GMM來適配聲學模型。可以 基於行動裝置402提供的地理位置適配聲學模型。例如從在行動裝置402的位置或者附近 的位置提交的地理標註的音頻信號可以有助於聲學模型。可選地,行動裝置402提供的情 境數據可以用來過濾地理標註的音頻信號以選擇與其中記錄講話的條件最適合的音頻信 號。例如可以按照當周日子或者當天時間過濾在行動裝置402提供的地理位置附近的地理 標註的音頻信號。如果與行動裝置402提供的講話一起包括音頻採樣,則可以可選地在聲 學模型中包括音頻採樣。
ASR引擎104對提供的講話執行語音識別416。可以使用由ASR引擎適配的聲學 模型將行動裝置402提供的講話轉錄成一個或者多個查詢檢索詞集。
ASR引擎404向搜尋引擎406轉發418生成的轉錄。如果ASR引擎404生成多個 轉錄,則可以可選地以置信度為序對轉錄排行。ASR引擎404可以可選地向搜尋引擎406提 供情境數據、比如地理位置,搜尋引擎406可以使用該情境數據對搜索結果過濾或者排行。
搜尋引擎406可以使用轉錄來執行420搜索操作。搜尋引擎406可以對與轉錄檢 索詞有關的一個或者多個URI定位。
搜尋引擎406向行動裝置402提供422搜索查詢結果。例如搜尋引擎406可以轉發HTML代碼,該代碼生成定位的URI的可視列表。
已經描述多個實施方式。然而將理解可以進行各種修改而未脫離公開內容的精神 實質和範圍。例如可以在重新排序、添加或者去除步驟時使用上文所示流程的各種形式。因 而其它實施方式在所附權利要求的範圍內。
可以在數字電子電路中或者在包括本說明書中公開的結構及其結構等效物的計 算機軟體、固件或者硬體中或者在它們中的一項或者多項的組合中實施本說明書中描述的 實施例和所有功能操作。實施例可以實施為一個或者多個電腦程式產品、即在計算機可 讀介質上編碼的用於由數據處理裝置執行或者控制數據處理裝置的操作的電腦程式指 令的一個或者多個模塊。計算機可讀介質可以是機器可讀存儲設備、機器可讀存儲基板、存 儲器設備、實現機器可讀傳播信號的物質組成或者它們中的一項或者多項的組合。術語「數 據處理裝置」涵蓋用於處理數據的所有裝置、設備和機器、例如包括一個可編程處理器、一 個計算機或者多個處理器或者計算機。裝置除了包括硬體之外還可以包括為討論的計算機 程序創建執行環境的代碼、例如構成處理器固件、協議棧、資料庫管理系統、作業系統或者 它們中的一項或者多項的組合的代碼。傳播信號是人為生成的信號、例如為了對信息編碼 用於向適當接收器裝置發送而生成的、機器生成的電、光學或者電磁信號。
可以用包括編譯或者解譯語言的任何形式的程式語言編寫電腦程式(也稱為 程序、軟體、軟體應用、腳本或者代碼),並且可以用任何形式部署它、包括作為獨立程序或 者作為適合用於在計算環境中使用的模塊、部件、子例程或者其它單元。電腦程式未必對 應於文件系統中的文件。程序可以存儲於保持其它程序或者數據的文件的部分中(例如存 儲於標記語言文檔中的一個或者多個腳本)、專用於討論的程序的單個文件中或者多個協 同文件(例如存儲一個或者多個模塊、子程序或者代碼部分的文件)中。電腦程式可以 被部署成在一個計算機上或者在位於一個地點或者分布於多個地點並且由通信網絡互連 的多個計算機上執行。
在本說明書中描述的過程和邏輯流程可以由一個或者多個可編程處理器執行,該 處理器執行一個或者多個電腦程式以通過對輸入數據操作並且生成輸出來執行功能。過 程和邏輯流程也可以由專用邏輯電路、例如FPGA(現場可編程門陣列)或者ASIC(專用集 成電路)執行,並且裝置也可以實施為該專用邏輯電路。
適合於執行電腦程式的處理器例如包括通用和專用微處理器二者和任何種類 的數字計算機的任何一個或者多個處理器。一般而言,處理器將從只讀存儲器或者隨機存 取存儲器或者二者接收指令和數據。
計算機的基本單元是用於執行指令的處理器以及用於存儲指令和數據的一個或 者多個存儲器設備。一般而言,計算機也將包括用於存儲數據的一個或者多個海量存儲設 備、比如磁碟、光磁碟或者光碟或者操作地耦合成從該海量存儲設備接收數據或者向該海 量存儲設備傳送數據或者二者。然而計算機無需具有這樣的設備。另外,計算機可以嵌入於 另一設備中,聊舉數例,該另一設備例如是寫字板計算機、行動電話、個人數字助理(PDA)、 移動音頻播放器、全球定位系統(GPS)接收器。適合於存儲電腦程式指令和數據的計算 機可讀介質包括所有形式的非易失性存儲器、介質和存儲器設備、例如包括半導體存儲器 設備如EPROM、EEPROM和快閃記憶體設備;磁碟如內部硬碟或者可拆卸盤;光磁碟;以及⑶ROM和 DVD-ROM盤。處理器和存儲器可以由專用邏輯電路補充或者併入於專用邏輯電路中。
為了提供與用戶的交互,實施例可以實施於計算機上,該計算機具有用於向用戶 顯示信息的顯示設備、例如CRT(陰極射線管)或者LCD(液晶顯示器)監視器以及用戶可 以用來向計算機提供輸入的鍵盤和指示設備、比如滑鼠或者跟蹤球。其它種類的設備也可 以用來提供與用戶的交互;例如向用戶提供的反饋可以是任何形式的感官反饋比如視覺反 饋、聽覺反饋或者觸覺反饋;並且可以用包括聲音、話音或者觸覺輸入的任何形式接收來自 用戶的輸入。
實施例可以實施於計算系統中,該計算系統包括後端部件、例如作為數據伺服器 或者包括中間件部件、例如應用伺服器或者包括前端部件、例如具有如下圖形用戶接口或 者網上瀏覽器的客戶端計算機或者這樣的後端、中間件或者前端部件中的一個或者多個部 件的任何組合,用戶可以通過該圖形用戶接口或者網上瀏覽器與實施方式交互。系統的部 件可以由任何數字數據通信形式或者介質、比如通信網絡互連。通信網絡的例子包括局域 網(「LAN」)和廣域網(「WAN」)、例如網際網路。
計算系統可以包括客戶端和伺服器。客戶端和伺服器一般相互遠離並且通常通過 通信網絡交互。客戶端和伺服器的關係藉助電腦程式來出現,這些電腦程式在相應計 算機上運行並且相互具有客戶端-伺服器關係。
儘管本說明書包含許多細節,但是這些不應解釋為對公開內容的或者可以要求保 護的內容的範圍的限制、但是實際上解釋為對具體實施方式
特有的特徵的描述。也可以在 單個實施例組合實施本說明書中在單獨實施例的背景中描述的某些特徵。反言之,也可以 在多個實施例中單獨或者在任何適當子組合中實施在單個實施例的背景中描述的各種特 徵。另外,雖然上文可以描述特徵為在某些實施例中作用並且甚至起初這樣要求保護,但是 在一些情況下可以從要求保護的組合中去除來自該組合的一個或者多個特徵,並且要求保 護的組合可以涉及子組合或者子組合的變化。
類似地,儘管在附圖中以特定順序描繪操作,但是這不應理解為要求以所示特定 順序或者以依次順序執行這樣的操作或者執行所有所示操作以實現希望的結果。在某些境 況中,多任務和並行處理可以是有利的。另外,在上文描述的實施例中分離各種系統部件不 應理解為在所有實施例中要求這樣的分離,並且應當理解描述的程序部件和系統一般可以 一起集成於單個軟體產品中或者封裝到多個軟體產品中。
在其中提到HTML文件的每個實例中,可以替換為其它文件類型或者格式。例如 HTML文件可以替換為XML、JS0N、明文或者其它類型的文件。另外當提到表或者散列表時, 可以使用其它數據結構(比如電子數據表、關係資料庫或者結構化文件)。
這樣已經描述具體實施例。其它實施例在所附權利要求的範圍內。例如在權利要 求中記載的動作可以按不同順序來執行並且仍然實現希望的結果。
權利要求
1.一種系統,包括 一個或者多個計算機;以及 計算機可讀介質,耦合到所述ー個或者多個計算機,具有存儲於所述計算機可讀介質上的指令,所述指令在由所述ー個或者多個計算機執行時,使所述ー個或者多個計算機執行操作,所述操作包括 接收與行動裝置記錄的講話對應的音頻信號, 確定與所述行動裝置關聯的地理位置, 針對所述地理位置適配ー個或者多個聲學模型,以及 使用針對所述地理位置適配的所述ー個或者多個聲學模型對所述音頻信號執行語音識別。
2.根據權利要求1所述的系統,其中適配ー個或者多個聲學模型還包括在接收與所述講話對應的所述音頻信號之前適配ー個或者多個聲學模型。
3.根據權利要求1所述的系統,其中適配ー個或者多個聲學模型還包括在接收與所述講話對應的所述音頻信號之後適配ー個或者多個聲學模型。
4.根據權利要求1所述的系統,其中 所述操作還包括接收與多個行動裝置在多個地理位置中記錄的音頻對應的地理標註的音頻信號;以及 針對所述地理位置適配ー個或者多個聲學模型還包括使用所述地理標註的音頻信號的子集、針對所述地理位置適配ー個或者多個聲學模型。
5.根據權利要求4所述的系統,其中所述操作還包括 針對所述地理標註的音頻信號中的每個地理標註的音頻信號確定在與所述行動裝置關聯的所述地理位置和與所述地理標註的音頻信號關聯的地理位置之間的距離;以及 選擇與在與所述行動裝置關聯的所述地理位置的預定距離內的地理位置關聯、或者與在與關聯於所述行動裝置的所述地理位置最近的N個地理位置之中的地理位置關聯的所述地理標註的音頻信號作為所述地理標註的音頻信號的所述子集。
6.根據權利要求4所述的系統,其中所述操作還包括 選擇與也與所述行動裝置關聯的所述地理位置關聯的所述地理標註的音頻信號作為所述地理標註的音頻信號的所述子集。
7.根據權利要求4所述的系統,其中所述操作還包括基幹與所述行動裝置關聯的所述地理位置和與所述講話關聯的情境數據來選擇所述地理標註的音頻信號的所述子集。
8.根據權利要求7所述的系統,其中所述情境數據包括對所述行動裝置記錄所述講話時的時間或者日期進行引用的數據、對所述行動裝置在記錄所述講話時測量的速度或者運動量進行引用的數據、引用所述行動裝置的設置的數據或者引用所述行動裝置的類型的數據。
9.根據權利要求4所述的系統,其中適配所述聲學模型包括使用所述地理標註的音頻信號的所述子集作為訓練集來訓練高斯混合模型(GMM)。
10.根據權利要求1所述的系統,其中所述講話代表語音搜索查詢或者向數字口授應用或者對話系統的輸入。
11.根據權利要求1所述的系統,其中確定所述地理位置還包括從所述行動裝置接收引用所述地理位置的數據。
12.根據權利要求1所述的系統,其中確定所述地理位置還包括確定與所述行動裝置關聯的以往地理位置或者默認地理位置。
13.根據權利要求1所述的系統,其中所述操作還包括 生成所述講話的一個或者多個候選轉錄;以及 使用所述ー個或者多個候選轉錄來執行搜索查詢。
14.根據權利要求1所述的系統,其中針對所述地理位置適配ー個或者多個聲學模型還包括 從已經針對多個地理位置生成的多個聲學模型之中選擇針對與所述行動裝置關聯的所述地理位置生成的所述ー個或者多個聲學模型。
15.根據權利要求1所述的系統,其中針對所述地理位置適配ー個或者多個聲學模型還包括 向單個聲學模型使用的特徵空間中併入引用所述地理位置的數據。
16.根據權利要求15所述的系統,其中向所述單個聲學模型使用的特徵空間中併入引用所述地理位置的數據還包括向所述單個聲學模型使用的特徵空間中併入值,其中所述值包括梅爾頻率倒頻譜係數和地理坐標。
17.根據權利要求1所述的系統,其中針對所述地理位置適配ー個或者多個聲學模型還包括向在單個聲學模型中包括的狀態信息中併入引用所述地理位置的數據。
18.根據權利要求1所述的系統,其中針對所述地理位置適配ー個或者多個聲學模型還包括 推導與所述地理位置關聯的變換矩陣;以及 將所述變換矩陣應用於單個通用聲學模型。
19.ー種用電腦程式編碼的計算機存儲介質,所述程序包括在由一個或者多個計算機執行時使所述ー個或者多個計算機執行操作的指令,所述操作包括 接收與行動裝置記錄的講話對應的音頻信號; 確定與所述行動裝置關聯的地理位置; 針對所述地理位置適配ー個或者多個聲學模型;以及 使用針對所述地理位置適配的所述ー個或者多個聲學模型對所述音頻信號執行語音識別。
20.一種計算機實現的方法,包括 接收與行動裝置記錄的講話對應的音頻信號; 確定與所述行動裝置關聯的地理位置; 針對所述地理位置適配ー個或者多個聲學模型;以及 使用針對所述地理位置適配的所述ー個或者多個聲學模型對所述音頻信號執行語音識別。
全文摘要
用於增強語音識別準確度的方法、系統和裝置、包括在計算機存儲介質上編碼的電腦程式。在一個方面中,一種方法包括接收與行動裝置記錄的講話對應的音頻信號;確定與行動裝置關聯的地理位置;針對地理位置適配一個或者多個聲學模型;並且使用針對地理位置適配的一個或者多個聲學模型對音頻信號執行語音識別。
文檔編號G10L15/065GK103038817SQ201180021722
公開日2013年4月10日 申請日期2011年5月23日 優先權日2010年5月26日
發明者M·I·洛伊德, T·克裡斯特詹森 申請人:谷歌公司