一種聲學語言模型訓練方法和裝置製造方法
2023-12-08 23:17:26
一種聲學語言模型訓練方法和裝置製造方法
【專利摘要】本發明實施方式提出一種聲學語言模型訓練方法和裝置。方法包括:利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據;對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據;對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據;利用該有類別標籤的第二分詞數據獲取聲學語言模型。本發明實施方式擴大了語言模型囊括的詞彙數量,從而提高了語音識別系統的識別準確率。
【專利說明】一種聲學語言模型訓練方法和裝置
【技術領域】
[0001]本發明實施方式涉及自然語言處理【技術領域】,更具體地,涉及一種聲學語言模型訓練方法和裝置。
【背景技術】
[0002]隨著計算機使用的日益普及,人們越來越期望能夠與計算機直接進行語言交流,因為語言是人類進行溝通最方便、快捷、有效的方式。語音識別技術就是讓計算機通過識別和理解過程,把人類語音信號轉變為相應文本的一項技術,語言模型在其中扮演著提高語音識別正確率的重要角色。
[0003]由於硬體性能和軟體算法的局限,當前語音識別系統對語言模型大小有比較嚴格的限制。與此相對,語言模型隨包含詞彙數量的增加,其模型大小呈指數級增長。基於這兩個原因,語音識別系統可容納的詞彙數量是不能無限擴充的。當前技術條件下,語音識別系統的詞表容量上限在十幾萬的量級。對於詞表之外的詞彙,語音識別系統的識別準確率會下降很多。
[0004]而且,在正常語言環境下,存在著百萬量級的低頻詞彙。它們或者受關注時間較短(影視劇名),或者受限於地域(餐館飯店名),或者僅出現於某一專業領域(專業術語),等等多種因素導致,單個詞彙統計顯著性很小,但整體數量龐大的低頻詞彙現象。
[0005]因此,如何在不增加語言模型大小,以及儘量不損失模型計算精度的條件下,擴大語言模型囊括的詞彙數量是一個迫切需要解決的技術問題。
【發明內容】
[0006]本發明實施方式提出一種聲學語言模型訓練方法,以擴大語言模型囊括的詞彙數量,從而語音識別系統的識別準確率。
[0007]本發明實施方式提出一種聲學語言模型訓練裝置,以擴大語言模型囊括的詞彙數量,從而提高語音識別系統的識別準確率。
[0008]本發明實施方式的技術方案如下:
[0009]—種聲學語言模型訓練方法,該方法包括:
[0010]利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據;
[0011]對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據;
[0012]對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據;
[0013]利用該有類別標籤的第二分詞數據獲取聲學語言模型。
[0014]一種聲學語言模型訓練裝置,該裝置包括分詞單元、詞類替換單元、語言模型訓練單元和聲學語言模型獲取單元,其中:
[0015]分詞單元,用於利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據;
[0016]詞類替換單元,用於對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據;
[0017]語言模型訓練單元,用於對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據;
[0018]聲學語言模型獲取單元,用於利用該有類別標籤的第二分詞數據獲取聲學語言模型。
[0019]從上述技術方案可以看出,在本發明實施方式中,利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據;對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據;對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據;利用該有類別標籤的第二分詞數據獲取聲學語言模型。由此可見,應用本發明實施方式之後,實現了基於詞類分詞的聲學語言模型訓練。本發明實施方式可以採用類別標籤替換語言模型訓練文本中所有該類實體名,從而減少了語言模型中的詞彙數量,而且當同類實體名在計算概率時,都採用語言模型中對應類別標籤的參數。本發明實施方式擴大了語言模型囊括的詞彙數量,從而提高了語音識別系統的識別準確率。
[0020]而且,本發明實施方式解決了語音識別系統詞表容量有限所造成的詞表範圍之外的詞彙識別效果不佳的問題。
【專利附圖】
【附圖說明】
[0021]圖1為根據本發明實施方式聲學語言模型訓練方法流程圖;
[0022]圖2為根據本發明實施方式聲學語言模型訓練方法總體示意圖;
[0023]圖3為根據本發明實施方式聲學語言模型訓練裝置結構圖。
【具體實施方式】
[0024]為使本發明的目的、技術方案和優點更加清楚,下面結合附圖對本發明作進一步的詳細描述。
[0025]在本發明實施方式中,充分考慮到詞彙知識的以下特點:
[0026](I)、大量低頻詞彙是實體名,如:人名、書名、電影名等特徵;
[0027](2)、同一類型的實體名其上下文信息通常具有相似性,如果將同類的不同實體名放入相同的上下文中幾乎不影響句子的表意能力。比如:「我喜歡看「蠟筆小新」這部動畫片,,與「我喜歡看「櫻桃小丸子」這部動畫片其表意能力非常類似。
[0028]根據以上特點,本發明實施方式提出了一種基於詞類分詞的聲學語言模型訓練算法。
[0029]語言模型經常使用在許多自然語言處理方面的應用,如語音識別、機器翻譯、詞性標註、,句法分析和資訊檢索,等等。由於字詞與句子都是任意組合的長度,因此在訓練過的語言模型中會出現未曾出現的字串(資料稀疏的問題),也使得在語料庫中估算字串的機率變得很困難,這也是要使用近似的平滑η元語法(N-gram)模型之原因。[0030]在本發明實施方式中,通過採用類別標籤,替換語言模型訓練文本中所有該類實體名。由於大量同類實體名在語言模型中被表示為同一個類別標籤,因此本發明實施方式可以減少語言模型中的詞彙數量。當同類實體名在計算概率時,都採用語言模型中對應類別標籤的參數。對於未出現在訓練文本中的實體名,只要代表這類實體名的類別標籤存在,也可認為它與類別標籤具有近似的概率分布。從效果上看,通過含有詞類的語言模型,能夠計算概率的詞彙數量,要遠遠大於該語言模型真實包含的詞彙和詞類數量。正好可以解決,語音識別系統詞表容量有限所造成的,詞表範圍之外的詞彙識別效果不佳的問題。
[0031]圖1為根據本發明實施方式聲學語言模型訓練方法流程圖。
[0032]如圖1所示,該方法包括:
[0033]步驟101:利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據。
[0034]在這裡,優選在利用無類別標籤的語言模型對訓練語料進行分詞之前,對訓練語料作歸一化處理。歸一化處理具體可以包括:大小寫轉換、全形半角轉換、時間數據格式統
——坐坐,寸寸ο
[0035]具體地,此處採用各種類型的分詞器使用初始的語言模型(即無類別標籤的語言模型)對訓練語料分詞,以獲得沒有類別標籤的分詞結果。
[0036]無類別標籤的語言模型可以是以概率統計理論為基礎,用來計算漢語語句概率的數學模型,它使得輸出正確語句的概率大於輸出錯誤語句的概率。例如,對於漢語輸入的漢語語句「說明此處漢語語句的概率」,在統計語言模型中,該漢語語句可以分解為若干個詞語,如:說明\此處\漢語\語句\的\概率。
[0037]對於一個包含m (m為自然數)個詞的漢語語句S = W1W2…Wm,根據Bayes理論,該漢語語句概率(輸出正確的概率)可以分解為包含多個詞語的條件概率的乘積,即:
【權利要求】
1.一種聲學語言模型訓練方法,其特徵在於,該方法包括: 利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據; 對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據; 對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據; 利用該有類別標籤的第二分詞數據獲取聲學語言模型。
2.根據權利要求1所述的聲學語言模型訓練方法,其特徵在於,所述對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據包括: 在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙,並將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
3.根據權利要求1所述的聲學語言模型訓練方法,其特徵在於,該方法在獲得有類別標籤的第二分詞數據之後,進一步包括: 判斷有類別標籤的第一分詞數據與有類別標籤的第二分詞數據的類別標籤替換位置是否相同,如果是,則利用該有類別標籤的第二分詞數據獲取聲學語言模型,如果不是,則對有類別標籤的第二分 詞數據執行詞類替換。
4.根據權利要求2所述的聲學語言模型訓練方法,其特徵在於,在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙之後,該方法進一步包括: 判斷在分類詞彙表中檢索出的詞彙長度是否大於預先設定的匹配詞長度門限值,如果是,則將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
5.根據權利要求2所述的聲學語言模型訓練方法,其特徵在於,在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙之後,該方法進一步包括: 判斷在分類詞彙表中檢索出的詞彙的出現頻率是否大於預先設定的詞頻門限值,如果是,則將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
6.根據權利要求1所述的聲學語言模型訓練方法,其特徵在於,該方法進一步包括: 在利用無類別標籤的語言模型對訓練語料進行分詞之前,對該訓練語料作出歸一化處理。
7.根據權利要求1所述的聲學語言模型訓練方法,其特徵在於,該方法進一步包括: 接收輸入語首; 利用該聲學語言模型針對輸入語音執行語音識別處理。
8.—種聲學語言模型訓練裝置,其特徵在於,該裝置包括分詞單元、詞類替換單元、語言模型訓練單元和聲學語言模型獲取單元,其中: 分詞單元,用於利用無類別標籤的語言模型對訓練語料進行分詞,以獲得無類別標籤的分詞數據; 詞類替換單元,用於對無類別標籤的分詞數據執行詞類替換,以獲得有類別標籤的第一分詞數據; 語言模型訓練單元,用於對有類別標籤的第一分詞數據進行訓練,以獲得有類別標籤的語言模型,並利用該有類別標籤的語言模型對該訓練語料進行分詞,以獲得有類別標籤的第二分詞數據; 聲學語言模型獲取單元,用於利用該有類別標籤的第二分詞數據獲取聲學語言模型。
9.根據權利要求8所述的聲學語言模型訓練裝置,其特徵在於, 詞類替換單元,用於在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙,並將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
10.根據權利要求8所述的聲學語言模型訓練裝置,其特徵在於, 語言模型訓練單元,進一步用於在獲得有類別標籤的第二分詞數據之後,判斷有類別標籤的第一分詞數據與有類別標籤的第二分詞數據的類別標籤替換位置是否相同,如果是,則使能聲學語言模型獲取單元,如果不是,則使能詞類替換單元對有類別標籤的第二分詞數據執行詞類替換。
11.根據權利要求9所述的聲學語言模型訓練裝置,其特徵在於, 詞類替換單元,用於在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙之後,進一步判斷在分類詞彙表中檢索出的詞彙長度是否大於預先設定的匹配詞長度門限值,如果是,則將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標籤。
12.根據權利要求9所述的聲學語言模型訓練裝置,其特徵在於, 詞類替換單元,用於在預先建立的分類詞彙表中檢索與該無類別標籤的分詞數據相同的詞彙之後,進一步判斷在分類詞彙表中檢索出的詞彙的出現頻率是否大於預先設定的詞頻門限值,如果是,則將檢索出詞彙的類別標籤設置為該無類別標籤的分詞數據的類別標 籤。
13.根據權利要求8所述的聲學語言模型訓練裝置,其特徵在於,進一步包括語音識別單元; 語音識別單元,用於接收輸入語音,並利用該聲學語言模型針對輸入語音執行語音識別處理。
14.根據權利要求8所述的聲學語言模型訓練裝置,其特徵在於,進一步包括歸一化單元; 歸一化單元,用於在利用無類別標籤的語言模型對訓練語料進行分詞之前,對該訓練語料作出歸一化處理。
【文檔編號】G10L15/06GK103971677SQ201310040085
【公開日】2014年8月6日 申請日期:2013年2月1日 優先權日:2013年2月1日
【發明者】陸讀羚, 李露, 饒豐, 陳波, 盧鯉, 張翔, 王爾玉, 嶽帥 申請人:騰訊科技(深圳)有限公司