一種在聲音信道上進行語音識別的方法和裝置的製作方法

2023-05-18 06:43:11 4

專利名稱：一種在聲音信道上進行語音識別的方法和裝置的製作方法
背景技術：
語音識別技術對訪問自動系統正變得越來越普及。例如，語音識別可用來遠程操縱自動聲音應答系統、訪問允許聲音的網際網路門戶、控制家庭自動化系統等等。但是，許多聲音信道可能並未設計成可以適應語音識別技術中的改進。對於無線通信技術尤其是這樣。所以，有在聲音信道上改進語音識別的需要，例如在移動或蜂窩式通信系統中所發現的。

在本發明的權利要求部分中具體地指出和清楚地要求了被認為是本發明實施例的主題。但是，關於構成和操作方法兩者的本發明的實施例，與其目標、特徵和優點一同，當與附圖一起閱讀時，可以通過參考下面詳細的描述被最好地理解，其中圖1是適於實現本發明的一個實施例的系統；圖2是根據本發明一個實施例的源節點的方框圖；圖3是根據本發明一個實施例的語音識別編碼器的方框圖；圖4是根據本發明一個實施例的目的地節點的方框圖；圖5是根據本發明一個實施例的語音識別解碼器的方框圖；圖6是由根據本發明一個實施例的語音識別系統執行的編程邏輯的第一方框流程圖；圖7是由根據本發明一個實施例的語音識別系統執行的編程邏輯的第二方框流程圖；圖8是根據本發明一個實施例的取代(subrogation)覆蓋的例子。
具體實施例方式
本發明的實施例可指通過聲音編碼/解碼器(「聲碼器(vocoder)」)取代而完成的分布式語音識別。聲碼器取代可指用更低帶寬替代來替換傳統的聲音壓縮方案，此替代是被設計來提高語音識別性能的。這裡使用的術語「替換」可指將一組信息的全部或一部分替換為另一組信息。本發明的一個實施例描述了建立協議的一種方法，用於當適於提供語音識別信息時切換到較低帶寬方案，例如響應於來自自動系統的提示的聲音命令。更具體而言，本發明的一個實施例編碼來自一個端點的語音特徵，並將該語音特徵覆蓋到代表所編碼語音的聲碼器比特流上。隨後另一個端點可接收並解碼該語音特徵以用於語音識別模塊或設備。
本發明的一個實施例可包括一種方法和裝置，用於在一個聲音信道上進行語音識別，例如是移動或蜂窩式通信系統的一部分的聲音信道。本發明的一個實施例可包括語音識別編碼器和語音識別解碼器。語音識別編碼器可將代表語音的信息比特替換為代表語音特徵的信息比特。該語音特徵可在網絡的聲音信道上傳輸，例如無線網絡。語音識別解碼器可接收該語音特徵並進行語音識別。編碼和解碼語音特徵以替換語音的過程在這裡可稱為「取代」。
本發明的實施例可有幾個優點。例如，移動或蜂窩式通信系統利用射頻(RF)來在設備之間傳輸信息。RF可分成一個或多個聲音信道。但是，這些聲音信道在可傳輸的信息量方面是有限的，所述信息量通常按照帶寬(BW)來衡量。為了最好地利用現有的移動通信聲音信道的BW，許多移動系統採用壓縮技術來減少需要用來代表語音的比特數。本發明的一個實施例可通過將代表語音的比特替換為代表所述語音的語音特徵的比特而來進一步減少此數量。此外，語音特徵可在替換過程之前壓縮，從而進一步減少用來代表語音特徵的比特數。本發明的此實施例可使用帶附加硬體和/或軟體的傳統無線技術來實現，所述附加硬體和/或軟體用來實現這裡描述的功能。
在此詳細描述中，給出了大量的具體細節以提供對本發明實施例的充分理解。但是，本領域的技術人員將理解沒有這些具體細節也可以實現本發明。在其它情況下，沒有詳細地描述公知的方法、過程、元件和電路，以免不必要地模糊本發明的實施例。能夠理解，這裡公開的具體的結構上和功能上的細節可以是代表性的而不一定限定本發明的範圍。
本發明的實施例可以包括功能，其可以實現為由處理器執行的軟體、硬體電路或結構或者二者的結合。所述處理器可以是通用或專用處理器，例如來自由Intel公司、摩託羅拉股份公司、昇陽電腦股份公司和其它公司製造的處理器系列的處理器。所述軟體可以包括為本發明的實施例實現某種功能的編程邏輯、指令或數據。軟體可以存儲於機器可存取的介質或計算機可讀介質，例如只讀存儲器(ROM)、隨機存取存儲器(RAM)、磁碟(例如軟盤和硬碟)、光碟(例如CD-ROM)或任何其它數據存儲介質。在本發明的一個實施例中，介質可以以壓縮和/或加密的格式存儲編程指令以及在由處理器執行之前可能必須由安裝器編譯或安裝的指令。或者，本發明的實施例可以實現為具體的硬體元件，其包含用於執行所述功能的硬連線邏輯，或者由被編程的通用計算機元件和定製硬體元件的任何組合來實現。
值得注意的是，任何在說明書中提到的「一個實施例」或「實施例」是指所描述的與實施例有關的具體的特徵、結構或特性被包括在本發明的至少一個實施例中。說明書中不同位置中出現的短語「在一個實施例中」不一定都是指相同的實施例。
現在詳細參照附圖，其中自始至終類似的部分由相同的標號標明，圖1圖示了適於實現本發明的一個實施例的系統。圖1是語音識別系統100的方框圖。語音識別系統100可包括通過網絡104連接的源節點102和目的地節點106。在本發明的一個實施例中，源節點102可包括例如移動臺(MS)，例如行動電話或蜂窩式電話。在本發明的一個實施例中，目的地節點106可包括例如移動基站(BS)或行動電話交換局(MTSO)。在本發明的一個實施例中，網絡104包括無線網絡，其使用RF頻譜來作為通信介質以在源節點102和目的地節點106之間傳輸信息。
值得注意的是，所描述的關於BS、MS、MTSO或網絡的任何取代功能可以在系統100的其它地方實現而仍然落在本發明的範圍之內。例如，對MS的取代能力的檢測可由BS、MS、MTSO或網絡中的其它地方啟動而仍然落在本發明的範圍之內。
目的地節點106可包括應用伺服器，所述應用伺服器配置有硬體和/或軟體，以作為能夠接受語音識別輸出的自動系統(未示出)而進行操作。語音識別輸出可包括，例如聲轉文(speech to text)輸出。這裡使用的術語「自動系統」可指一個以受限的人類幹預來操作的系統。自動系統的一個例子可包括，例如IVR(交互式語音應答)系統、網際網路聲音門戶、家庭自動化系統和自動目錄輔助應用，儘管本發明的實施例並不局限於此。
圖2是根據本發明一個實施例的源節點的方框圖。圖2圖示了可代表例如源節點102的源節點200。在本發明的一個實施例中，源節點200可包括麥克風202、轉換器204、聲碼器206、語音識別編碼器208和收發器210。
在本發明的一個實施例中，麥克風202可從例如講話人接收模擬語音信號。麥克風202可將模擬語音信號發送到轉換器204。
在本發明的一個實施例中，轉換器204可以是例如模數(A/D)轉換器。轉換器204可將模擬語音信號轉換成以比特流或比特序列表示的數字語音信號。每一比特可代表例如一(1)或零(0)。轉換器204可將比特流發送到聲碼器206和語音識別編碼器208。
聲碼器206可實施任何傳統的聲音壓縮算法以減少數字語音信號。例如，在本發明的一個實施例中，聲碼器206可實施符合1996年3月批准的題為「Dual Rate Speech Coder For Multimedia Communications Transmittingat 5.3 and 6.3k/bps」的國際電信聯盟推薦(ITU Recommendation)G.723.1(「G.723規範」)的聲音壓縮方案。在另一個例子中，聲碼器206可實施符合與全球移動通信系統(GSM)相關的任何標準的聲音壓縮方案。
在本發明的一個實施例中，聲碼器206可實施產生比這裡描述的取代過程更高BW的聲音壓縮算法。聲碼器206還可將包括數字語音信號的比特流組織成離散的幀。一個幀可代表具有固定或可變長度的一個邏輯組的比特。聲碼器206可將這些幀發送到語音識別編碼器208。
語音識別編碼器208改進語音識別並降低聲音信道的BW要求，所述聲音信道可以是網絡104的一部分。語音識別編碼器208可從數字語音信號中提取語音特徵並壓縮該語音特徵以形成比特幀。壓縮語音特徵的幀可隨後覆蓋從聲碼器206接收的壓縮語音幀，並傳遞到收發器210以在網絡104上傳輸。可參考圖3更詳細地討論語音識別編碼器208。
收發器210可包括用於MS、BS或MTSO的發送器、接收器和邏輯區。發送器可將低電平音頻信號轉換成RF載波頻率中的成比例平移。接收器可將低電平RF信號放大並解調為它們原始的音頻形式。控制區可通過插入或提取合適的系統控制消息來協調此操作。收發器210可連接到天線組件(未示出)。
圖3是根據本發明一個實施例的語音識別編碼器的方框圖。圖3圖示了一種語音識別編碼器300，其可實施為例如源節點102的一部分。語音識別編碼器300可包括例如，特徵編碼器302、空特徵生成器(emptyfeature factory)308、發聲端指針(utterance endpointer)310、特徵覆蓋器312和能力監視器314。
特徵編碼器302還可包括特徵提取器304和特徵壓縮器306。特徵提取器304可從輸入語音信號中提取語音特徵，所述輸入語音信號例如是來自轉換器204的數字語音信號。語音特徵可包括例如特徵向量。在本發明的一個實施例中，特徵提取器304可按照以下標準來提取語音特徵，即2000年4月批准的題為「Speech Processing，Transmission and Qualityaspects(STQ)；Distributed speech recognition；Front-end feature extractionalgorithm；Compression algorithms」的歐洲電信標準協會標準(ETSIStandard)ES 201 108 v.1.1.2(「Aurora規範」)。
在本發明的另一個實施例中，輸入語音信號可代表由麥克風202所收到並傳遞到語音識別編碼器300的模擬語音信號。任何用於提取語音特徵的傳統算法都可由特徵提取器304來實現並落在本發明的範圍之內。特徵壓縮器306可使用任何傳統的壓縮算法來將語音特徵壓縮成減少的比特數。已壓縮語音特徵可被傳遞到特徵覆蓋器312。
空特徵生成器308可提供由特徵覆蓋器312在轉換器的沉默周期期間使用的固定低比特率向量。這些向量可以是預定的並且不象在特徵編碼器302中那樣從轉換器中提取。在特徵覆蓋器312中使用特徵編碼器302或空特徵生成器308可由發聲端指針310中的發聲端點確定來控制。
發聲端指針310可實施任何傳統的聲音活動檢測方案，以確定語音發聲的起點和終點並識別沉默周期。特徵覆蓋器312可使用此信息來控制用語音特徵或沉默周期覆蓋在聲碼器比特流上。發聲端指針310可監控語音並可向特徵覆蓋器312表明有效的語音。如果能力監視器314表明此模式是合適的則可隨後覆蓋特徵。當講話人停止說話時，發聲端指針310可表明沒有語音活動並可使用來自空特徵生成器308的「空特徵」。這對諸如保持與BS 106同步是所期望的。
特徵覆蓋器312可將已壓縮的語音特徵組織成比特幀，其幀的大小與諸如聲碼器206所使用幀的大小相匹配。如果需要的話，此功能還可實施為特徵編碼器302的一部分。特徵覆蓋器312可將代表由聲碼器206編碼的語音的比特幀替換為代表由特徵編碼器302編碼的語音特徵的比特幀。特徵覆蓋器312還可用各種信令模式來改寫聲碼器比特，所述信令模式被用來控制取代過程，例如表明取代能力、取代起點和終點以及其它協議類型信息。
能力監視器314可檢測目的地節點是否能夠接受取代比特流。能力監視器314可監視要求語音識別信息的請求。語音識別信息可包括例如對聲音命令的提示和取代標識。這裡所指的術語「聲音命令提示」可包括從諸如IVR系統的自動系統來的任何對所說出的信息的請求。取代標識可以是例如嵌入在聲碼器比特流中的預定義比特模式。在本發明的一個實施例中，比特模式可以是聽不到的或者幾乎聽不到的，以免用戶分心。一旦檢測到，能力監視器314則可通知語音識別編碼器開始傳輸的取代方案。如果目的地節點不能接受取代比特流，則可繞過語音識別編碼器而恢復正常的聲碼器操作。這可由在特定的時間間隔內收到聲音命令提示而未收到取代標識來表明。由於無線聲音信道的「有損」性質，可以使用權重匹配算法來檢測有或者沒有聲音命令提示和/或取代標識。
圖4是根據本發明一個實施例的目的地節點的方框圖。圖4圖示了可代表例如目的地節點106的目的地節點400。目的地節點400可包括，例如收發器402、聲碼器404和語音識別解碼器406。收發器402和聲碼器404分別類似於收發器210和聲碼器206。語音識別解碼器406的輸出可用於任何語音識別應用，例如自動系統的聲轉文應用。
圖5是根據本發明一個實施例的語音識別解碼器的方框圖。圖5圖示了語音識別解碼器500。語音識別解碼器500可包括起始監視器502、能力廣播器504、特徵解碼器506、特徵提取器512和語音識別模塊514。
特徵解碼器506還可包括特徵重構器508和特徵解壓縮器510。特徵重構器508可去掉取代信令欄位，並將一個或多個幀中從源節點接收的語音特徵分段連結成完整的語音特徵包。重構的包可被發送到特徵解壓縮器510。
特徵解壓縮器510可從被壓縮的語音特徵包重組語音特徵。特徵解壓縮器510還可應用由語音識別編碼器提供的任何糾錯。語音特徵可被傳遞到語音識別模塊514。
語音識別模塊514可將語音特徵解碼成文本。語音識別模塊514可代表自包含(self-contained)語音識別引擎的一個子集，因為它不輸入數字語音信號並且不應用特徵提取。相反，它接收從源節點發送來的預先提取的特徵作為輸入。所述文本可用於任何自動系統或傳統的聲轉文應用。
特徵提取器512可類似於語音識別編碼器302的特徵提取器304。在目的地節點不具有取代能力的情況下，特徵提取器512可從由聲碼器404解碼的語音中提取語音特徵。在此情況下，起始監視器502可發送一個信號到語音識別模塊514，以使用特徵提取器512的輸出來進行語音識別，而不是使用特徵解碼器506的輸出。
可進一步參考圖6到8和所附的例子來描述系統100到500的操作。雖然這裡給出的圖6到8可包括具體的處理邏輯，但可以理解處理邏輯僅僅提供了如何實施這裡所描述的一般功能的例子。此外，給定處理邏輯中的每個操作並不必要以給出的順序來進行，除非表明必須如此。
圖6是由根據本發明一個實施例的語音識別系統執行的編程邏輯的第一方框流程圖。圖6圖示了進行語音識別的編程邏輯600。在框602處可以接收代表語音的一組信號。在框604處，可在聲音信道上接收要求語音識別信息的請求。在框606處可從所述信號創建一組語音特徵。在框608處可在聲音信道上傳輸所述語音特徵。
在本發明的一個實施例中，所述請求可包括接收對聲音命令的提示。所述請求還可包括接收取代標識，例如預定義的位模式。在本發明的另一個實施例中，所述請求可僅僅包括一個取代標識。
在本發明的一個實施例中，可通過從語音信號中提取語音特徵來創建一組語音特徵。這些語音特徵可隨後被壓縮，並可將任何糾錯應用到被壓縮的語音特徵上。
在本發明的一個實施例中，語音特徵可通過創建代表語音的第一位流而在聲音信道上傳輸。可從例如特徵編碼器接收代表語音特徵的第二位流。第一位流可由第二位流替換，並在聲音信道上發送。
在本發明的一個實施例中，可通過接收代表語音的模擬音頻波形來創建第一位流。模擬音頻波形可轉換成數字音頻信號。可使用聲音編碼算法來壓縮數字音頻信號。
在本發明的一個實施例中，可通過為第一位流來確定起點和終點來用第二位流替換第一位流。還可為第二位流確定起點和終點。可用第二位流來替換第一位流並使用這些起點和終點來同步該替換。
在本發明的一個實施例中，可通過創建從第一位流的起點開始的位幀而使用這些起點和終點來用第二位流替換第一位流。可從第二位流的起點開始覆蓋位幀。可在聲音信道上發送所述幀。可重複此過程直到到達第二位流的終點。
在本發明的一個實施例中，可通過將起始標識插在第二位流的起點之前，並將結束標識插在第二位流的終點之後，而在聲音信道上發送第二位流。第二位流可和起始、結束標識一起被發送。
圖7是由根據本發明一個實施例的語音識別系統執行的編程邏輯的第二方框流程圖。圖7圖示了進行語音識別的編程邏輯700。在框702處，可在聲音信道上發送要求語音識別信息的請求。在框704處可在聲音信道上接收語音特徵。在框706處可使用所述語音特徵來識別語音。
在本發明的一個實施例中，可在聲音信道上以對聲音命令的提示和/或取代標識的形式來發送對語音識別的請求。取代標識可以是預定義的位模式。
在本發明的一個實施例中，可通過確定位流的起點和終點而在聲音信道上接收語音特徵。語音特徵可從起點開始重構。可解壓縮重構的語音特徵而形成原始的語音特徵。解壓縮的語音特徵可被發送到語音識別設備。可繼續此過程直到到達終點。
在本發明的一個實施例中，可通過從位流中提取糾錯信息來進行糾錯。可使用糾錯信息來確定語音特徵是否包括錯誤。
圖8是根據本發明一個實施例的取代覆蓋的例子。圖8中描述的取代覆蓋過程可使用網際網路協議(IP)電話的例子，該例子使用G.723規範和Aurora規範中所描述的技術，儘管本發明的實施例並不局限於此。一旦初始能力協議已經確認可以開始取代，就將較高BW包的位模式用較低BW包來替換。特徵覆蓋器和特徵重構器一起操作來進行位替換。在此例子中，一個Aurora特徵幀描述340毫秒(msec)的語音，而一個G.723幀則描述30毫秒的語音。構成特徵幀的144位部分可放置在連續的G.723幀中。根據Aurora規範，特徵同步和特徵頭部信息在實際的特徵位之前。這些操作對取代過程可以是透明的。可使用附加位來保持兩個端點之間的取代信令同步，所述兩個端點例如是源節點和目的地節點。取代同步位可表明整個特徵幀中哪部分是在G.723幀中發送的，並包括起始和停止特徵何時出現。在本發明的另一個實施例中，這可使用例如幀位的直方圖來完成。
更具體而言，圖8圖示了第一組幀802、第二組幀806、第三組幀808和取代同步塊804。在此例子中，幀組802包括八個幀802a到802h。在本發明的一個實施例中，根據G.723規範來生成這些幀。所有8個幀具有由共1392比特代表的240毫秒(msec)的語音，並且每個幀具有由174比特代表的30毫秒(msec)的語音。
幀組806也可包含8個幀806a-806h。在本發明的一個實施例中，根據Aurora規範來產生這些幀。幀組806也被分成30毫秒的幀，每個幀由144位代表。但是，語音特徵信息的單個30毫秒幀可代表相當於240毫秒的語音，由此用因子8來表示BW約簡(reduction)。取決於本發明具體實施例所使用的語音特徵提取技術，語音特徵信息可包括，例如特徵同步信息、特徵頭部信息和特徵包。特徵包可包括，例如代表語音特徵的位包。
如圖8所示，取代覆蓋過程可包括取一個語音特徵信息幀，加入諸如取代同步塊804的同步頭部，以及將此信息覆蓋在來自幀組802的語音幀上。例如，幀組806的幀806a可與取代同步塊804結合，並放在幀組802的幀802a上。類似地，幀組806的幀806b可與取代同步塊804結合，並放在幀組802的幀802b上。可繼續此覆蓋過程直到目的地節點處的語音識別解碼器已經接收到所有的特徵包。
可通過例子來更好地理解系統100到500的操作以及圖6到8。假定源節點102是諸如蜂窩電話的MS。假定目的地節點106是連接到應用伺服器上的BS，所述應用伺服器具有進行自動目錄輔助的軟體應用。源節點102和目的地節點106在無線網絡104上通信，無線網絡104包括用RF頻譜定義的聲音信道。用戶啟動與應用伺服器的連接。伺服器向用戶提供一些關於如何使用服務的介紹性信息。此信息使用正常的聲音壓縮方案來發送，這些方案例如GSM或G.723。
伺服器隨後給出聲音提示，要一個啟動目錄輔助搜索的名字。在目的地節點106，能力廣播器504可將包括聽不到或幾乎聽不到模式的取代標識注入正常的聲碼器位流，以表示此端點能夠接受取代位流。該模式可以是任何預定義的模式並是所使用的具體聲碼器的功能。在此例子中，可將G.723的增益位設成最低的設置，並可使用生理上不能接收的向量序列來作為信令模式。此模式可跨越幾個幀。在另一個例子中，還可採用心理聽覺掩碼(psycho-acoustical masking)來作為模式。取決於具體的聲碼器和模式方案，可能需要禁止能力廣播器504以使收聽者能聽到來自自動系統的應答。如果是這樣，可以配置能力廣播器504，用於允許和禁止諸如起始監視器502的取代起始監視器。
在源節點102處，能力監視器314可監視來自目的地節點106的取代標識。一旦檢測到，能力監視器314就可通知語音識別編碼器300開始取代方案，以傳輸用戶響應於自動系統的聲音提示而說出的人或企業的名字。如果能力監視器314未能檢測到取代標識，那麼可使用正常的聲音壓縮方案來將所說出的名字發送到自動系統。
在目的地節點106處，起始監視器502監視取代位流的開始。起始監視器502可通過在所收到的位流中接收取代模式的起始而檢測取代位流的開始。在此例子中，如果所述模式不為收聽者轉換成音頻信號，則所述模式並非必須是聽不到的。在切換到語音識別解碼過程期間，聲碼器可能輸出一個在約200毫秒的量級上的短的失真信號。在本發明的另一個實施例中，這可以通過增加系統等待時間來避免。在此例子中，起始監視器502檢測取代模式的開始，並向語音識別模塊514發送一個信號，以使用特徵解碼器506的輸出作為語音識別過程的輸入。起始監視器502可以這樣來切換此路徑，以使輸入的取代幀內容對於幀重構過程是位對齊的。
再參考源節點102，特徵編碼器302接收代表所說出的聲音命令的輸入語音信號，在此情況下聲音命令可以是一個名字。特徵編碼器302根據Aurora規範開始語音特徵提取過程。在此例子中，特徵提取器304為特徵提取使用16千赫、16位採樣大小。特徵提取器304將所提取的語音特徵或特徵向量發送到特徵壓縮器306。特徵壓縮器306將特徵向量壓縮成較低BW的位流，並可視情況而應用糾錯。此被壓縮的位流可傳遞到特徵覆蓋器312。
特徵覆蓋器312接收被壓縮的位流並開始取代覆蓋過程。特徵覆蓋器312接收代表來自聲碼器206的語音的位流，並用信令模式和特徵向量重寫聲碼器位。一旦能力監視器314檢測到取代標識，則特徵覆蓋器312可在聲碼器包中傳輸固定開始的特徵模式。接著的可以是從特徵向量提取的順序位，所述順序位和聲碼器的合適幀的大小對齊。這可按照參考圖8所描述的過程來完成。
在目的地節點106，特徵重構器508可開始去掉取代信令欄位，並將從源節點接收的特徵分段連結回完整的特徵包。重構的特徵包可隨後發送到特徵解壓縮器510。特徵解壓縮器510可重組特徵向量，並應用由特徵壓縮器306提供的任何糾錯。特徵向量可隨後被傳遞到語音識別模塊514。
語音識別模塊514可接收特徵向量並將其轉換成文本，或在此情況下就是需要其號碼的人的名字。語音識別模塊514可包括例如某種意義上的自包含語音識別引擎，即它不進行特徵提取，相反它接收之前提取的特徵向量作為語音識別過程的輸入。語音識別模塊514可將所請求的名字的文本發送到自動目錄輔助軟體，以開始查號過程。
在一些情況下，目的地節點106可從一個不能發送取代位流的源節點接收聲音命令。在此情況下，起始監視器502可將語音識別模塊514的輸入切換成特徵提取器512的輸出。特徵提取器512類似於特徵提取器304，儘管在一些情況下可能需要配置特徵提取器512以使用由所使用的特定聲碼器提供的比特率和採樣大小。
在另一個例子中，在呼叫設置或建立期間可能出現由遠程端點對取代能力的檢測。這可減少或避免在逐個發聲的基礎上或每個語音信息請求的基礎上進行檢查過程的需要。在此例子中，一旦檢測到取代能力，則來自一個用戶在MS上的所有通信都可使用取代而在一個聲音信道上發送。但是，來自自動系統或BS的通信可根據傳統的聲音壓縮技術而在該聲音信道上發送。
如這裡所描述的，已經舉例說明了本發明的實施例的某些特徵，本領域技術人員現在可以想到許多修改、替代、改變和等同物。因而，應該理解所附權利要求是為了覆蓋所有落在本發明實施例的真實精神中的修改和改變。
權利要求
1.一種進行語音識別的方法，包括接收代表語音的一組信號；在聲音信道上接收對語音識別信息的請求；從所述信號創建一組語音特徵；以及在所述聲音信道上傳輸所述語音特徵。
2.如權利要求1所述的方法，其中所述接收所述請求包括接收對聲音命令的提示；以及接收取代標識。
3.如權利要求2所述的方法，其中所述取代標識是預定義的比特模式。
4.如權利要求1所述的方法，其中所述創建包括從所述信號提取所述語音特徵；以及壓縮所述語音特徵。
5.如權利要求4所述的方法，還包括將糾錯應用到所述被壓縮的語音特徵。
6.如權利要求4所述的方法，還包括確定所述信號中的沉默周期。
7.如權利要求1所述的方法，其中所述傳輸包括創建代表所述語音的第一比特流；接收代表所述語音特徵的第二比特流；將所述第一比特流用所述第二比特流替換；以及在所述聲音信道上發送所述第二比特流。
8.如權利要求7所述的方法，其中所述創建包括接收代表所述語音的模擬音頻波形；將所述模擬音頻波形轉換成數字音頻信號；以及使用聲音編碼算法來壓縮所述數字音頻信號。
9.如權利要求7所述的方法，其中所述替換包括確定所述第一比特流的起點和終點；確定所述第二比特流的起點和終點；以及使用所述起點和所述終點來將所述第一比特流用所述第二比特流替換。
10.如權利要求9所述的方法，其中所述使用所述起點和所述終點來將所述第一比特流用所述第二比特流替換，包括(a)從所述第一比特流的所述起點開始創建比特幀；(b)用所述第二比特流的所述起點來覆蓋所述比特幀；(c)在所述聲音信道上發送所述比特幀；以及(d)繼續(a)到(c)，直到到達所述第二比特流的所述終點。
11.如權利要求9所述的方法，其中所述發送包括將起始標識插在所述第二比特流的所述起點之前，並將結束標識插在所述第二比特流的所述終點之後；以及將所述起始和結束標識與所述第二比特流一起發送。
12.一種進行語音識別的方法，包括在聲音信道上發送對語音識別信息的請求；在所述聲音信道上接收所述語音特徵；以及使用所述語音特徵識別語音。
13.如權利要求12所述的方法，其中所述發送包括發送對聲音命令的提示；以及發送取代標識。
14.如權利要求13所述的方法，其中所述取代標識是預定義的比特模式。
15.如權利要求12所述的方法，其中所述接收包括(a)確定比特流的起點和終點；(b)從所述起點重構所述語音特徵；(c)解壓縮所述語音特徵；(d)將所述被解壓縮的語音特徵發送到語音識別設備；以及(e)進行(a)到(d)，直到到達所述終點。
16.如權利要求15所述的方法，還包括從所述比特流中提取糾錯信息；以及使用所述糾錯信息來確定所述語音特徵是否包括錯誤。
17.一種進行語音識別的系統，包括源節點，發送語音特徵；目的地節點，接收語音特徵並進行語音識別；和網絡，通過在聲音信道上覆蓋所述語音特徵來在所述源節點和所述目的地節點之間傳輸所述語音特徵。
18.如權利要求17所述的系統，其中所述源節點包括收發器，與所述目的地節點傳輸信息；能力監視器，監視來自所述收發器的對語音識別信息的請求；聲碼器，創建代表語音的第一比特流；特徵編碼器，創建代表所述語音的語音特徵的第二比特流；和特徵覆蓋器，用所述第二比特流覆蓋所述第一比特流，並將所述第二比特流發送到所述收發器以傳輸到所述目的地節點。
19.如權利要求17所述的系統，其中所述特徵編碼器包括特徵提取器，從所述語音提取所述語音特徵；和特徵壓縮器，將所述語音特徵壓縮成所述第二比特流。
20.如權利要求17所述的系統，其中所述目的地節點包括收發器，與所述源節點傳輸信息；能力廣播器，將語音識別請求傳輸到所述源節點；起始監視器，監視具有來自所述收發器的語音特徵的比特流；特徵解碼器，從所述比特流解碼所述語音特徵；和語音識別模塊，將所述語音特徵轉換為文本。
21.如權利要求20所述的系統，其中所述特徵解碼器包括特徵重構器，從所述比特流重構語音特徵；和特徵解壓縮器，解壓縮所述重構的語音特徵。
22.如權利要求17所述的系統，其中所述網絡是無線網絡。
23.一種語音識別編碼器，包括能力監視器，監視對語音識別信息的請求；聲碼器，創建代表語音的第一比特流；特徵編碼器，創建代表所述語音的語音特徵的第二比特流；和特徵覆蓋器，用所述第二比特流覆蓋所述第一比特流。
24.如權利要求23所述的語音識別編碼器，其中所述特徵編碼器包括特徵提取器，從所述語音提取所述語音特徵；和特徵壓縮器，將所述語音特徵壓縮成所述第二比特流。
25.一種語音識別解碼器，包括能力廣播器，傳輸語音識別請求；起始監視器，監視具有語音特徵的比特流；特徵解碼器，從所述比特流解碼所述語音特徵；和語音識別模塊，將所述語音特徵轉換為文本。
26.如權利要求25所述的語音識別解碼器，其中所述特徵解碼器包括特徵重構器，從所述比特流重構語音特徵；和特徵解壓縮器，解壓縮所述重構的語音特徵。
27.一種製品，包括存儲介質；所述存儲介質包括所存儲的指令，當所述所存儲的指令由處理器執行時，通過以下動作引起進行語音識別接收代表語音的一組信號；在聲音信道上接收對語音識別信息的請求；從所述信號創建一組語音特徵；以及在所述聲音信道上傳輸所述語音特徵。
28.如權利要求27所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起接收所述請求接收對聲音命令的提示；以及接收取代標識。
29.如權利要求27所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起所述創建從所述信號提取所述語音特徵；以及壓縮所述語音特徵。
30.如權利要求27所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起所述傳輸創建代表所述語音的第一比特流；接收代表所述語音特徵的第二比特流；將所述第一比特流用所述第二比特流替換；以及在所述聲音信道上發送所述第二比特流。
31.如權利要求30所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起所述創建接收代表所述語音的模擬音頻波形；將所述模擬音頻波形轉換成數字音頻信號；以及使用聲音編碼算法來壓縮所述數字音頻信號。
32.如權利要求30所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起所述替換確定所述第一比特流的起點和終點；確定所述第二比特流的起點和終點；以及使用所述起點和所述終點來將所述第一比特流用所述第二比特流替換。
33.如權利要求32所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起所述使用所述起點和所述終點來將所述第一比特流用所述第二比特流替換(a)從所述第一比特流的所述起點開始創建比特幀；(b)由所述第二比特流的所述起點來覆蓋所述比特幀；(c)在所述聲音信道上發送所述比特幀；以及(d)繼續(a)到(c)直到到達所述第二比特流的所述終點。
34.如權利要求32所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起所述發送將起始標識插在所述第二比特流的所述起點之前，並將結束標識插在所述第二比特流的所述終點之後；以及將所述起始和結束標識與所述第二比特流一起發送。
35.一種製品，包括存儲介質；所述存儲介質包括所存儲的指令，當所述所存儲的指令由處理器執行時，通過以下動作引起進行語音識別在聲音信道上發送對語音識別信息的請求；在所述聲音信道上接收所述語音特徵；以及使用所述語音特徵識別語音。
36.如權利要求35所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起所述發送發送對聲音命令的提示；以及發送取代標識。
37.如權利要求35所述的製品，其中當所述所存儲的指令由處理器執行時，還通過以下動作引起所述接收(a)確定比特流的起點和終點；(b)從所述起點重構所述語音特徵；(c)解壓縮所述語音特徵；(d)將所述被解壓縮的語音特徵發送到語音識別設備；以及(e)進行(a)到(d)直到到達所述終點。
38.如權利要求37所述的製品，其中當所述所存儲的指令由處理器執行時，還引起以下動作從所述比特流中提取糾錯信息；以及使用所述糾錯信息來確定所述語音特徵是否包括錯誤。
全文摘要
本發明描述了一種在聲音信道上進行語音識別的方法和裝置。其中接收一組語音信號，並且接收在聲音信道上的對語音識別信息的請求。從所述信號創建一組語音特徵，然後在所述聲音信道上傳輸所述語音特徵。
文檔編號G10L15/28GK1628339SQ02812850
公開日2005年6月15日申請日期2002年11月20日優先權日2001年11月30日
發明者戴維·格勞曼申請人:英特爾公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種在聲音信道上進行語音識別的方法和裝置的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法