新四季網

一種聲學語言模型訓練方法和裝置製造方法

2023-12-08 23:17:26

一種聲學語言模型訓練方法和裝置製造方法
【專利摘要】本發明實施方式提出一種聲學語言模型訓練方法和裝置。方法包括:利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據;對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據;對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據;利用該有類別標籤的第二分詞數據獲取聲學語言模型。本發明實施方式擴大了語言模型囊括的詞彙數量,從而提高了語音識別系統的識別準確率。
【專利說明】一種聲學語言模型訓練方法和裝置
【技術領域】
[0001]本發明實施方式涉及自然語言處理【技術領域】,更具體地,涉及一種聲學語言模型訓練方法和裝置。
【背景技術】
[0002]隨著計算機使用的日益普及,人們越來越期望能夠與計算機直接進行語言交流,因為語言是人類進行溝通最方便、快捷、有效的方式。語音識別技術就是讓計算機通過識別和理解過程,把人類語音信號轉變為相應文本的一項技術,語言模型在其中扮演著提高語音識別正確率的重要角色。
[0003]由於硬體性能和軟體算法的局限,當前語音識別系統對語言模型大小有比較嚴格的限制。與此相對,語言模型隨包含詞彙數量的增加,其模型大小呈指數級增長。基於這兩個原因,語音識別系統可容納的詞彙數量是不能無限擴充的。當前技術條件下,語音識別系統的詞表容量上限在十幾萬的量級。對於詞表之外的詞彙,語音識別系統的識別準確率會下降很多。
[0004]而且,在正常語言環境下,存在著百萬量級的低頻詞彙。它們或者受關注時間較短(影視劇名),或者受限於地域(餐館飯店名),或者僅出現於某一專業領域(專業術語),等等多種因素導致,單個詞彙統計顯著性很小,但整體數量龐大的低頻詞彙現象。
[0005]因此,如何在不增加語言模型大小,以及儘量不損失模型計算精度的條件下,擴大語言模型囊括的詞彙數量是一個迫切需要解決的技術問題。

【發明內容】

[0006]本發明實施方式提出一種聲學語言模型訓練方法,以擴大語言模型囊括的詞彙數量,從而語音識別系統的識別準確率。
[0007]本發明實施方式提出一種聲學語言模型訓練裝置,以擴大語言模型囊括的詞彙數量,從而提高語音識別系統的識別準確率。
[0008]本發明實施方式的技術方案如下:
[0009]—種聲學語言模型訓練方法,該方法包括:
[0010]利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據;
[0011]對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據;
[0012]對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據;
[0013]利用該有類別標籤的第二分詞數據獲取聲學語言模型。
[0014]一種聲學語言模型訓練裝置,該裝置包括分詞單元、詞類替換單元、語言模型訓練單元和聲學語言模型獲取單元,其中:
[0015]分詞單元,用於利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據;
[0016]詞類替換單元,用於對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據;
[0017]語言模型訓練單元,用於對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據;
[0018]聲學語言模型獲取單元,用於利用該有類別標籤的第二分詞數據獲取聲學語言模型。
[0019]從上述技術方案可以看出,在本發明實施方式中,利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據;對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據;對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據;利用該有類別標籤的第二分詞數據獲取聲學語言模型。由此可見,應用本發明實施方式之後,實現了基於詞類分詞的聲學語言模型訓練。本發明實施方式可以採用類別標籤替換語言模型訓練文本中所有該類實體名,從而減少了語言模型中的詞彙數量,而且當同類實體名在計算概率時,都採用語言模型中對應類別標籤的參數。本發明實施方式擴大了語言模型囊括的詞彙數量,從而提高了語音識別系統的識別準確率。
[0020]而且,本發明實施方式解決了語音識別系統詞表容量有限所造成的詞表範圍之外的詞彙識別效果不佳的問題。
【專利附圖】

【附圖說明】
[0021]圖1為根據本發明實施方式聲學語言模型訓練方法流程圖;
[0022]圖2為根據本發明實施方式聲學語言模型訓練方法總體示意圖;
[0023]圖3為根據本發明實施方式聲學語言模型訓練裝置結構圖。
【具體實施方式】
[0024]為使本發明的目的、技術方案和優點更加清楚,下面結合附圖對本發明作進一步的詳細描述。
[0025]在本發明實施方式中,充分考慮到詞彙知識的以下特點:
[0026](I)、大量低頻詞彙是實體名,如:人名、書名、電影名等特徵;
[0027](2)、同一類型的實體名其上下文信息通常具有相似性,如果將同類的不同實體名放入相同的上下文中幾乎不影響句子的表意能力。比如:「我喜歡看「蠟筆小新」這部動畫片,,與「我喜歡看「櫻桃小丸子」這部動畫片其表意能力非常類似。
[0028]根據以上特點,本發明實施方式提出了一種基於詞類分詞的聲學語言模型訓練算法。
[0029]語言模型經常使用在許多自然語言處理方面的應用,如語音識別、機器翻譯、詞性標註、,句法分析和資訊檢索,等等。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑η元語法(N-gram)模型之原因。[0030]在本發明實施方式中,通過採用類別標籤,替換語言模型訓練文本中所有該類實體名。由於大量同類實體名在語言模型中被表示為同一個類別標籤,因此本發明實施方式可以減少語言模型中的詞彙數量。當同類實體名在計算概率時,都採用語言模型中對應類別標籤的參數。對於未出現在訓練文本中的實體名,只要代表這類實體名的類別標籤存在,也可認為它與類別標籤具有近似的概率分布。從效果上看,通過含有詞類的語言模型,能夠計算概率的詞彙數量,要遠遠大於該語言模型真實包含的詞彙和詞類數量。正好可以解決,語音識別系統詞表容量有限所造成的,詞表範圍之外的詞彙識別效果不佳的問題。
[0031]圖1為根據本發明實施方式聲學語言模型訓練方法流程圖。
[0032]如圖1所示,該方法包括:
[0033]步驟101:利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據。
[0034]在這裡,優選在利用無類別標籤的語言模型對訓練語料進行分詞之前,對訓練語料作歸一化處理。歸一化處理具體可以包括:大小寫轉換、全形半角轉換、時間數據格式統
——坐坐,寸寸ο
[0035]具體地,此處採用各種類型的分詞器使用初始的語言模型(即無類別標籤的語言模型)對訓練語料分詞,以獲得沒有類別標籤的分詞結果。
[0036]無類別標籤的語言模型可以是以概率統計理論為基礎,用來計算漢語語句概率的數學模型,它使得輸出正確語句的概率大於輸出錯誤語句的概率。例如,對於漢語輸入的漢語語句「說明此處漢語語句的概率」,在統計語言模型中,該漢語語句可以分解為若干個詞語,如:說明\此處\漢語\語句\的\概率。
[0037]對於一個包含m (m為自然數)個詞的漢語語句S = W1W2…Wm,根據Bayes理論,該漢語語句概率(輸出正確的概率)可以分解為包含多個詞語的條件概率的乘積,即:
【權利要求】
1.一種聲學語言模型訓練方法,其特徵在於,該方法包括: 利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據; 對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據; 對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據; 利用該有類別標籤的第二分詞數據獲取聲學語言模型。
2.根據權利要求1所述的聲學語言模型訓練方法,其特徵在於,所述對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據包括: 在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙,並將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
3.根據權利要求1所述的聲學語言模型訓練方法,其特徵在於,該方法在獲得有類別標籤的第二分詞數據之後,進一步包括: 判斷有類別標籤的第一分詞數據與有類別標籤的第二分詞數據的類別標籤替換位置是否相同,如果是,則利用該有類別標籤的第二分詞數據獲取聲學語言模型,如果不是,則對有類別標籤的第二分 詞數據執行詞類替換。
4.根據權利要求2所述的聲學語言模型訓練方法,其特徵在於,在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙之後,該方法進一步包括: 判斷在分類詞彙表中檢索出的詞彙長度是否大於預先設定的匹配詞長度門限值,如果是,則將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
5.根據權利要求2所述的聲學語言模型訓練方法,其特徵在於,在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙之後,該方法進一步包括: 判斷在分類詞彙表中檢索出的詞彙的出現頻率是否大於預先設定的詞頻門限值,如果是,則將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
6.根據權利要求1所述的聲學語言模型訓練方法,其特徵在於,該方法進一步包括: 在利用無類別標籤的語言模型對訓練語料進行分詞之前,對該訓練語料作出歸一化處理。
7.根據權利要求1所述的聲學語言模型訓練方法,其特徵在於,該方法進一步包括: 接收輸入語首; 利用該聲學語言模型針對輸入語音執行語音識別處理。
8.—種聲學語言模型訓練裝置,其特徵在於,該裝置包括分詞單元、詞類替換單元、語言模型訓練單元和聲學語言模型獲取單元,其中: 分詞單元,用於利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據; 詞類替換單元,用於對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據; 語言模型訓練單元,用於對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據; 聲學語言模型獲取單元,用於利用該有類別標籤的第二分詞數據獲取聲學語言模型。
9.根據權利要求8所述的聲學語言模型訓練裝置,其特徵在於, 詞類替換單元,用於在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙,並將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
10.根據權利要求8所述的聲學語言模型訓練裝置,其特徵在於, 語言模型訓練單元,進一步用於在獲得有類別標籤的第二分詞數據之後,判斷有類別標籤的第一分詞數據與有類別標籤的第二分詞數據的類別標籤替換位置是否相同,如果是,則使能聲學語言模型獲取單元,如果不是,則使能詞類替換單元對有類別標籤的第二分詞數據執行詞類替換。
11.根據權利要求9所述的聲學語言模型訓練裝置,其特徵在於, 詞類替換單元,用於在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙之後,進一步判斷在分類詞彙表中檢索出的詞彙長度是否大於預先設定的匹配詞長度門限值,如果是,則將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
12.根據權利要求9所述的聲學語言模型訓練裝置,其特徵在於, 詞類替換單元,用於在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙之後,進一步判斷在分類詞彙表中檢索出的詞彙的出現頻率是否大於預先設定的詞頻門限值,如果是,則將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標 籤。
13.根據權利要求8所述的聲學語言模型訓練裝置,其特徵在於,進一步包括語音識別單元; 語音識別單元,用於接收輸入語音,並利用該聲學語言模型針對輸入語音執行語音識別處理。
14.根據權利要求8所述的聲學語言模型訓練裝置,其特徵在於,進一步包括歸一化單元; 歸一化單元,用於在利用無類別標籤的語言模型對訓練語料進行分詞之前,對該訓練語料作出歸一化處理。
【文檔編號】G10L15/06GK103971677SQ201310040085
【公開日】2014年8月6日 申請日期:2013年2月1日 優先權日:2013年2月1日
【發明者】陸讀羚, 李露, 饒豐, 陳波, 盧鯉, 張翔, 王爾玉, 嶽帥 申請人:騰訊科技(深圳)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀