新四季網

含有固定和可變語法塊的語言模型的語音識別裝置的製作方法

2023-07-03 06:44:46

專利名稱:含有固定和可變語法塊的語言模型的語音識別裝置的製作方法
技術領域:
本發明涉及一種語音識別裝置,它包含一種語言模型,該模型是根據稱為固定塊和可變塊的不同類語法塊確定的。
已知大量詞彙的連續語音識別系統的設計需要產生一個語言模型,它確定應用詞彙中一個給定詞以時間順序跟在一組詞中別的詞後面的概率。
這種語言模型必須能再現系統用戶通常使用的講話樣式支吾、迷惑的起始、想法的改變等等。
所用語言模型的質量極大地影響語音識別的可靠性。這種質量通常是用該語言模型的因惑性指數來測量,在原理上,該指數代表選擇的數目,這種選擇是系統對每一被解碼的詞必須做的。這一指數越低,質量越高。
語言模型需要把聲音信號轉換成詞的文本串,這是對話系統常用的步驟。然後,需要構建一種能理解的邏輯關係,使能理解口頭的提問,從而作出回答。
有兩種產生大詞彙語言模型的標準方法(1)所謂的N-語法統計模型,最常用的雙語法或三語法,其要點是,假定一個詞在句中的出現概率僅僅與前面的N個詞有關,那麼,它與句中的上下文無關。
考慮一個有1000個詞彙的三語法的例子,因為它有10003個可能的三元素組,所以,它必須確定10003的概率來定義一個語言模型,因此,需要佔用相當規模的存儲器和非常強的計算能力。為了解決這個問題,把詞分成組,這些組由模型設計者直接確定,或者由自組織方法推導出來。
這種語言模型是由文本大全自動構造的。
(2)第二種方法的要點是藉助於概率統計語法來描述語法,典型的是一種與上下文無關,依靠一組所謂Backus Naur公式或BNF公式中描述的規則來確定無上下文語法。
描述語法的規則通常是手寫的,但也可以自動推導出來。在這個方法中,可參考下面的文件「無上下文關係的概率統計語法的基本方法」,F.Jelinek,J.D.Lafferty R.L.Mercer,NATO ASI Series Vol.75pp.345-359,1992。
當把它們應用於自然語言系統的界面時,上面描述的模型產生了一些特殊的問題N-語法型語言模型(1)不能正確模擬句子中幾個隔開的語法子結構之間的關係。對於句法上正確發聲的句子來說,沒有什麼可保證在識別過程中遵守這些子結構,因此,很難確定是否該句子就是由一種或多種特殊句法結構習慣產生的這種句子或這種意義。
這些模型適合於連續的口授,但把他們應用到對話系統就有所提到的嚴重的缺陷。
另一方面,在N-語法型模型中,藉助於把最新實際發聲的詞組在一起來定義一組詞,就可能考慮到支吾和重複。
基於語法(2)的模型,可以使它正確模擬句子中隔開的遠程關係,也遵守特定的句法結構。對於一種給定的應用,所得到的語言的困惑常常比N-語法型模型低。
另一方面,他們很難適應摻入有支吾、迷惑的起始等的口語型語言的描述。特別地,這些與口語型語言有關的現象不能預測,因此,似乎很難依靠其自身的特性來設計基於語法規則的語法。
此外,覆蓋應用需要的規則數目很大,在沒有修改這種現有規則之前,很難考慮要加入到對話中的新句子。

發明內容
本發明的主題是一種語音識別裝置,包括聲音處理器,用於收集音頻信號,語言解碼器(6),用於確定對應於音頻信號的詞順序,解碼器包括語言模型(8),其特點是,語言模型(8)由兩組塊確定,第一組包括至少一個固定的句法塊,第二組包括至少一個可變句法塊。
這兩種句法塊的聯合,在從模擬句子元素間的依賴獲得好處的同時能使有關口語語言的問題容易得到解決,這種模擬藉助於一個固定句法塊的幫助是容易處理的。
根據一種特徵,第一組固定句法塊由BNF型語法確定。
根據另一種特徵,第二組可變句法塊由一個或多個n-語法網絡確定,n-語法網絡的數據由語法或一列短語表的幫助產生。
根據另一特徵,含在第二可變塊中的n-語法網絡包含允許識別下列口語現象的數據簡單支吾、簡單重複、簡單置換,想法改變,說話含糊。
通過確定兩類實體的組合形成最終的語言模型,本發明的語言模型就能把兩個系統的優點組合在一起。
固定的句法相對於某一實體保持不變,句法分析與它們相聯繫,而其它句法由n-語法型網絡來描述。
此外,根據改變的實施例,確定了由以前類型的一種快「觸發的」自由塊。
語言學解碼器使用聲學模型7和語言模型8,它們是基於假設搜索算法9實現的。例如,聲學模型是所謂的「隱式Markor」模型(或HMM)。在本實施例中使用的語言模型是基於一種有Backus Naur公式的句法規則幫助說明的語法。用該語法模型為搜索算法提供假設。後者,它是合適的識別引擎,在本實施例中,是一種基於Viferbi型算法的搜索算法,並稱為「n-最佳」。該n-最佳型算法確定了在句子分析的每一步的n個最可能的詞順序。在句子的末了,從這n個候選中選擇最可能的解決方案。
上一節中的概念本身已為業內人士所熟知,但特別與n-最佳算法有關的信息在下面的著作中給出「用於語言識別統計方法」F.Jelinek,MIT Press 1999 ISBN 0-262-10066-5 pp.79-84。其它算法也可實現。特別是「最大有效長度搜索」型算法,n-最佳算法只是它的一個例子。
本發明的語言模型使用圖2中說明的一類或兩類句法塊固定型塊,可變型塊。
固定句法塊是根據BNF型句法確定的,有五種規則如下(a)符號A=符號B|符號C(或符號)(b)符號A=符號B符號C(和符號)(c)符號A=符號B?(選項符號)(d)符號A=「辭典字」(辭典分配)(e)符號A=p{符號B,符號C,……符號X}(符號B符號C)(……)(符號I符號J)(所有列舉的符號的不重複置換具有這樣的限制符號B必須在符號C之前,符號I在符號J之前……)規則(e)的實現,在法國專利申請No.9915083中有詳細解說,題目是「Dispsitif de reconnaissance Vocale meltant en oeuvre une reglesyntaxiqne de permutation」(實現句法置換規則的語音識別裝置),THOMSon Mnltimedia on November,1999。
可變塊通過與以前相同的BNF句法、短語表,或根據詞彙表和相應的n-語法網絡,或根據把這三者聯合起來確定。但是,這一信息被系統地轉換到n-語法網絡中,並且,如果可變塊的確定是通過一個BNF文件來實現的話,那麼不能保證產生在句法上正確符合這一語法的唯一的句子。
可變塊是由下面公式的概率P(S)(在三語法情況下)確定的,P(S)表示n個詞Wi出現字串S的概率。
P(S)=II1,nP(Wi)其中P(Wi)=P(Wi|Wi-1,Wi-2)對於每一個可變塊,存在一個專門的塊出口字,該字在n-語法網絡中表現為與通常詞一樣,但是它沒有語音的線索並允許從該塊中退出。
一旦確定了這些句法塊(n-語法型或BNF型),它們可以再一次作作原子用於高階結構中在BNF塊中的情況下,較低水平的塊可用來代替辭典的用途,以及在其它規則中使用。
在n-語法型塊的情況下,較低水平的塊代替詞Wi,因此,幾個塊可以按照給定的概率連結起來。
一旦確定了n-語法網絡,它可與以前作為特殊符號描述的BNF語法相結合。多個n-語法網絡根據需要可結合在BNF語法中。用於BNF型塊確定的置換在識別引擎中按布爾變量的搜索算法進行處理,在常規地實現這種類型的修剪期間,布爾變量用於指向該搜索。
可以看到,可變塊出口符號也可解釋成用於對上述塊倒行的符號,該塊本身可以是固定的或可變的。
·觸發器的配置上述體系仍不足以描述大詞彙量人/機對話應用的語言模型。根據一個改變的實施例,增補了觸發器的機構。該觸發器能把某種意義給予一個詞或一塊,使它與某個元素相連繫。例如,假定詞「documentary」在音視節目的電子導視的上下文中被識別。這個詞可以與一組詞,如「Wildlife,Sports,tourism,等等」相聯繫。這些詞都有與「documentary」相關的意義,其中的一個可能就是期望與它相聯繫的一個。
為這樣做,我們將用block表示以前已描述過的一個塊,並且用block表示通過在識別算法過程中的一個瞬間完成的這一塊,也就是說,在n-最佳搜索算法中,它出現在當前被解碼的鏈中。
例如,我們可以有wish=I would like to go to|I want to visit.
city=Lyon|Paris|London|Rennes.
sentence=wishcity
於是wish將是「I would like to go to」為由Viterbi概率算法產生的通路的那一部分I would like to go to LyonI would like to go to ParisI would like to go to LondonI would like to go to Rennes並且將等於「I want to visit」為其它部分。因此,語言模型的觸發器可定義如下如果符號屬於問題中可能實現的給定的子組,那麼,另一個符號T(符號),它是當前符號的目標符號,可減少為它的正常擴展域的一個子部分,也就是說,如果在解碼鏈中沒有觸發器的話,減少為它的正常擴展域(簡化器觸發器),或者被激活並可用在從每一個屬於所謂「激活器候選者」(激活器觸發器)句法塊中在出口分出的非零分支因子中。
注意沒有必要描述觸發過程的所有塊。
符號的目標如果被用於語言模型中的多種方式,它可以是這一符號本身。
對於一個塊,可以只存在它的實現部分的一個子部分,該實現部分是觸發機構的一個分量,是補充而不是觸發器本身。
激活器觸發器的目標可以是一個可選的符號。
簡化器觸發機構,在我們的語言模型中,可處理話題一致的重複。關於觸發器概念的附加信息可在已列出的參考文件中找到,特別在p.245-253中。
激活器觸發機構可以模擬高度變化詞尾的語言中某種自由的句法組。
應注意到,激活器,它們的目標和關於目標的限制可以人工確定或用一個自動的處理來獲得,例如用最大墒方法。
·對口語的修正上面描述的結構確定了語言模型的句法,沒有對支吾、恢復、錯誤開始、想法改變,等等的修正,這些修正在一種口語式樣中是需要的。與口語有關的這些現象由於它們的不可預見性很難通過一種語法來識別。n-語法網絡比較適合於識別這類現象。
與口語有關的這些現象可分成五類簡單的支吾我想(errr……無聲)去裡昂。
簡單的重複其中句子的一部分(經常是限定詞和冠詞,但有時整塊句子),十分簡單地被重複我想去(去去去)裡昂。
簡單的置換在這一過程中,一種表達,沿著其方式,被同樣意義的另一種表達代替,但它們的句法結構是不同的我想訪問(errv去)裡昂。
改變想法在表達過程中,句子的一部分用不同意義的部分來校正我想去裡昂,(errr去巴黎)。
說話含糊不清我想去(巴黎Errr)巴黎。
前兩種現象最經常支吾約佔這些現象中的80%。
本發明的語言模型處理這些現象如下簡單支吾簡單支吾用創建與在相關語言中標記支吾的語言學痕跡有關的詞來處理,並且把他們當作在有關語言模型中同樣的其它詞一樣(緊接著靜音的出現概率,等等),並在該語音模型中(同清晰度,等等)。
已經注意到,簡單的支吾發生在句子專門的地方,例如在第一動詞與第二個動詞之間。為了對他們進行處理,根據本發明的規則的一個例子是動詞組=第一動詞n-語法網絡第二動詞
簡單重複簡單重複通過緩衝存儲器技術來處理,該存儲器包含有在解碼的這一步當前被分析的句子。在該語言模型中,存在有在緩衝存儲器中固定的分支概率。緩衝存儲器的出口以恢復緩存器激活之前達到的狀態與塊狀語言模型相聯。
實際上,緩存器包含句子當前段的最後一塊。並且這一塊可以重複。另一方面,如果它是倒數第二個塊,它決不可能用這樣一種緩存器來處理,並且整個句子必須重檢查。
當包含與冠詞有關的重複時,對於有關的句子,緩存器藉助於改變數和性包括該冠詞和它的有關的形式。
例如在法國,對「ele」的緩存包含「du」和「des」。事實上、性和數的修改是很經常的。
簡單置換和想法改變簡單置換用創建有關塊組來處理,在這些塊之間,簡單置換是可能的,也就是說,存在從某塊退出和分支到該組的一個其它塊起始的可能性。
對於簡單的置換,塊退出與同一組內,支持同樣意義的塊觸發相耦合。
對於想法改變,或者沒有觸發,或者觸發支持不同意義的塊。
不對觸發再分表,而對支吾用後驗分析分類是可能的。
說話含糊還可作為簡單重複來處理。
處理支吾這種模型的優點(除了簡單支吾之外)是關聯組的建立,考慮到語義學信息冗餘的存在,提高了關於無支吾句子的識別率。另一方面,計算的負擔較重。
權利要求
1.一種語音識別裝置(1),包括音頻處理器(2),用於收集音頻信號,語言解碼器(6),用於確定相應於音頻信號的詞順序,解碼器包括語言模型(8),其特徵在於語言模型(8)是由第一組塊和第二組塊確定,第一組塊至少是一個固定的句法塊,第二組塊至少是一個可變的句法塊。
2.根據權利要求1所述的設備,其特徵在於至少第一組的一個固定句法塊由BNF型語法確定。
3.根據權利要求1或2所述的設備,其特徵在於至少第二組的一個可變句法塊由一個或多個n-語法網絡確定,n-語法網絡的數據由一種語法的幫助或短語表的幫助產生。
4.根據權利要求3所述的設備,其特徵在於n-語法網絡包含相應於一個或多個下列現象的數據簡單支吾、簡單重複、簡單置換、想法改變、說話含糊。
全文摘要
本發明涉及一種語音識別裝置(1),包括一個聲音處理器(2),用於收集音頻信號,和一個語音學解碼器(6),用於確定相應於該音頻信號的詞順序。本發明裝置的語言學解碼器包括一個語言模型(8),它是在第一組塊和第二組塊的基礎上確定的,第一組塊至少是一個僅僅由語法確定的句法塊,第二組塊至少是一個由下列元素的一個,或這些元素的組合確定的句法塊一種語法,一組短語,一個n-語法網絡。
文檔編號G10L15/197GK1402867SQ0081656
公開日2003年3月12日 申請日期2000年11月29日 優先權日1999年12月2日
發明者克裡斯託夫·德洛內, 努爾-埃迪·塔齊尼, 弗雷德裡克·蘇夫萊 申請人:湯姆森許可貿易公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀