新四季網

一種語音輸入方法、裝置和系統的製作方法

2023-06-12 21:47:51

一種語音輸入方法、裝置和系統的製作方法
【專利摘要】本發明實施例提供了一種語音輸入方法、裝置和系統,所述的方法包括:當接收到客戶端發送的語音數據時,判斷所述語音數據輸入時的輸入環境類型;識別出與所述語音數據對應的、且與所述輸入環境類型匹配的一個或多個候選識別文本;將所述一個或多個候選識別文本發送至所述客戶端;其中,所述一個或多個候選識別文本用於在所述客戶端顯示。本發明實施例中不同的輸入環境類型具有不同的語言特性,基於不同的輸入環境類型選擇不同的語言模型進行識別,提高了語言模型的性能,同時也提高了語音數據的識別準確度,更加符合用戶的意圖,提高了用戶體驗。
【專利說明】一種語音輸入方法、裝置和系統
【技術領域】
[0001]本發明涉及語音識別【技術領域】,特別是涉及一種語音輸入法方法、一種語音輸入裝置和一種語音輸入系統。
【背景技術】
[0002]目前,移動網際網路的快速發展帶動了諸如智慧型手機、平板電腦的智能行動裝置廣泛普及。但是受限於屏幕尺寸以及觸屏按鍵,在行動裝置特別是智慧型手機上打字非常困難,此時作為人機互動最方便自然的方式,語音輸入法正逐漸被廣大用戶所接受。
[0003]移動網際網路極大改變了網民訪問網際網路的方式,移動應用APP(Application,第三方應用程式)的出現進一步促使用戶使用移動網際網路的方式偏向垂直化,用戶在行動裝置上的使用方式也愈加直接、明確,例如用戶希望看視頻,會直接點擊視頻類的APP,在搜索框中輸入想看的視頻,直接點擊觀看。
[0004]目前的語音識別方法後臺均使用通用的識別系統,比如,用戶在視頻類的APP中輸入xiaoshuo,期望搜索曉說(高曉松的脫口秀),但是通用的識別系統則顯示首選結果為小說。
[0005]一方面,該識別系統識別準確度低,容易偏離了用戶的意圖,用戶體驗差;另一方面,用戶需要通過手動尋找自己所需的字詞,甚至要重新輸入,操作繁瑣,浪費設備資源。

【發明內容】

[0006]本發明實施例所要解決的技術問題是提供一種語音輸入法方法,用以解決語音識別準確率低的問題。
[0007]相應的,本發明實施例還提供了一種語音輸入法裝置和一種語音輸入系統,用以保證上述方法的實現及應用。
[0008]為了解決上述問題,本發明實施例公開了一種語音輸入方法,包括:
[0009]當接收到客戶端發送的語音數據時,判斷所述語音數據輸入時的輸入環境類型;
[0010]識別出與所述語音數據對應的、且與所述輸入環境類型匹配的一個或多個候選識別文本;
[0011]將所述一個或多個候選識別文本發送至所述客戶端;
[0012]其中,所述一個或多個候選識別文本用於在所述客戶端顯示。
[0013]優選地,所述判斷所述語音數據輸入時的輸入環境類型的步驟包括:
[0014]獲取所述語音數據輸入時的原始輸入環境信息;
[0015]在預置的輸入環境分類列表中查找與所述原始輸入環境信息對應的輸入環境類型。
[0016]優選地,所述原始輸入環境信息包括但不限於如下的至少一個:
[0017]第三方應用程式的標識,訪問的網站名稱,訪問的網站網址,輸入場景,通訊對象。
[0018]優選地,所述預置的輸入環境分類列表記錄有特定輸入環境類型和通用輸入環境類型,以及,所述特定輸入環境類型對應的特定輸入環境信息;
[0019]所述在預置的輸入環境分類列表中查找與所述原始輸入環境信息對應的輸入環境類型的步驟包括:
[0020]採用獲取的原始輸入環境信息與預置輸入環境分類列表中的所述特定輸入環境信息進行匹配;
[0021]當匹配成功時,判定所述原始輸入環境信息的輸入環境類型為所述特定輸入環境類型;
[0022]當匹配失敗時,判定所述原始輸入環境信息的輸入環境類型為所述通用輸入環境類型。
[0023]優選地,所述在預置的輸入環境分類列表中查找與所述原始輸入環境信息對應的輸入環境類型的步驟還包括:
[0024]判斷在歸屬所述通用輸入環境類型的原始輸入環境信息中,輸入的第一文本信息是否大於預設數量閾值;
[0025]若是,則分別採用所述特定輸入環境類型的特定輸入環境信息中輸入的文本信息集合,計算所述第一文本信息歸屬於所述特定輸入環境類型的第一歸屬概率;
[0026]分別採用所述第一歸屬概率計算所述原始輸入環境信息歸屬於所述特定輸入環境類型的第一置信度;
[0027]當所述第一置信度的最高值大於或等於預設的第一置信度閾值時,判定所述原始輸入環境信息歸屬於所述最高值所屬第一置信度的特定輸入環境類型。
[0028]優選地,通過以下公式計算所述第一置信度:
[0029]Conf (i) =CP (i)/sum (CP ⑴)
[0030]其中,Conf (i)為所述第一置信度,CP⑴為所述第一歸屬概率,sum O為求和函數,i為正整數且i小於或等於所述特定輸入環境類型的數量。
[0031]優選地,所述識別出與所述語音數據對應的、且與所述輸入環境類型匹配的一個或多個候選識別文本的步驟包括:
[0032]提取所述語音數據中的多幀語音信號的聲學特徵;
[0033]分別採用所述聲學特徵識別所述多幀語音信息對應的多個語音候選詞;
[0034]分別計算所述多個語音候選詞的應用概率;
[0035]獲得所述輸入環境類型對應的語言特徵信息;
[0036]採用所述輸入環境類型對應的語言特徵信息計算所述多個語音候選詞之間的連接概率;
[0037]將所述多個語音候選詞組合為所述語音數據對應的多個候選識別文本;
[0038]分別採用所述應用概率和所述連接概率計算對應的候選識別文本的識別評分,獲得識別評分最高的一個或多個候選識別文本。
[0039]優選地,所述語言特徵信息包括輸入環境分詞及對應的同現率,所述獲得獲得所述輸入環境類型對應的語言特徵信息的步驟包括:
[0040]確定當次所述輸入環境類型中的第二文本信息;
[0041]採用當前輸入環境類型中的第二文本信息,計算預置的訓練文本信息歸屬當前輸入環境類型的第二歸屬概率;[0042]分別採用所述第二歸屬概率計算所述訓練文本信息歸屬於當前輸入環境類型的
第二置信度;
[0043]當所述第二置信度大於或等於預設的第二置信度閾值時,將所述訓練文本文本劃分進當前輸入環境類型;
[0044]當所述訓練劃分完畢時,對所述輸入環境類型中的文本信息進行分詞處理,獲得輸入環境分詞;
[0045]統計所述輸入環境分詞在所述輸入環境類別中的詞頻數;
[0046]採用所述詞頻數計算所述輸入環境分詞的同現率。
[0047]優選地,當次所述輸入環境類型中的第二文本信息包括:
[0048]所述輸入環境類型中的原始文本信息;
[0049]和/ 或,
[0050]所述輸入環境類型中增長量大於預設增量閾值時的的文本信息。
[0051]優選地,所述同現率包括第一詞頻數與第二詞頻數的比值;
[0052]其中,所述第一詞頻數包括當前輸入環境分詞出現在目標輸入環境分詞之後的詞頻數;所述目標輸入環境分詞包括出現在當前輸入環境分詞之前的一個或多個輸入環境分詞;
[0053]所述第二詞頻數包括所述目標輸入環境分詞總的詞頻數。
[0054]優選地,通過以下公式計算所述第二置信度:
[0055]Conf (j) =CP (j) / sum (CP (j))
[0056]其中,Conf (j)為所述第二置信度,CP (j)為所述第二歸屬概率,sum O為求和函數,j為正整數且j小於或等於所述輸入環境類型的數量。
[0057]優選地,通過以下公式計算所述應用概率:
[0058]
【權利要求】
1.一種語音輸入方法,其特徵在於,包括: 當接收到客戶端發送的語音數據時,判斷所述語音數據輸入時的輸入環境類型; 識別出與所述語音數據對應的、且與所述輸入環境類型匹配的一個或多個候選識別文本; 將所述一個或多個候選識別文本發送至所述客戶端; 其中,所述一個或多個候選識別文本用於在所述客戶端顯示。
2.根據權利要求1所述的方法,其特徵在於,所述判斷所述語音數據輸入時的輸入環境類型的步驟包括: 獲取所述語音數據輸入時的原始輸入環境信息; 在預置的輸入環境分類列表中查找與所述原始輸入環境信息對應的輸入環境類型。
3.根據權利要求2所 述的方法,其特徵在於,所述原始輸入環境信息包括但不限於如下的至少一個: 第三方應用程式的標識,訪問的網站名稱,訪問的網站網址,輸入場景,通訊對象。
4.根據權利要求2所述的方法,其特徵在於,所述預置的輸入環境分類列表記錄有特定輸入環境類型和通用輸入環境類型,以及,所述特定輸入環境類型對應的特定輸入環境信息; 所述在預置的輸入環境分類列表中查找與所述原始輸入環境信息對應的輸入環境類型的步驟包括: 採用獲取的原始輸入環境信息與預置輸入環境分類列表中的所述特定輸入環境信息進行匹配; 當匹配成功時,判定所述原始輸入環境信息的輸入環境類型為所述特定輸入環境類型; 當匹配失敗時,判定所述原始輸入環境信息的輸入環境類型為所述通用輸入環境類型。
5.根據權利要求4所述的方法,其特徵在於,所述在預置的輸入環境分類列表中查找與所述原始輸入環境信息對應的輸入環境類型的步驟還包括: 判斷在歸屬所述通用輸入環境類型的原始輸入環境信息中,輸入的第一文本信息是否大於預設數量閾值; 若是,則分別採用所述特定輸入環境類型的特定輸入環境信息中輸入的文本信息集合,計算所述第一文本信息歸屬於所述特定輸入環境類型的第一歸屬概率; 分別採用所述第一歸屬概率計算所述原始輸入環境信息歸屬於所述特定輸入環境類型的第一置信度; 當所述第一置信度的最高值大於或等於預設的第一置信度閾值時,判定所述原始輸入環境信息歸屬於所述最高值所屬第一置信度的特定輸入環境類型。
6.根據權利要求5所述的方法,其特徵在於,通過以下公式計算所述第一置信度: Conf (i) =CP (i) /sum (CP (i)) 其中,Conf (i)為所述第一置信度,CP⑴為所述第一歸屬概率,sum O為求和函數,i為正整數且i小於或等於所述特定輸入環境類型的數量。
7.根據權利要求1或4所述的方法,其特徵在於,所述識別出與所述語音數據對應的、且與所述輸入環境類型匹配的一個或多個候選識別文本的步驟包括: 提取所述語音數據中的多幀語音信號的聲學特徵; 分別採用所述聲學特徵識別所述多幀語音信息對應的多個語音候選詞; 分別計算所述多個語音候選詞的應用概率; 獲得所述輸入環境類型對應的語言特徵信息; 採用所述輸入環境類型對應的語言特徵信息計算所述多個語音候選詞之間的連接概率; 將所述多個語音候選詞組合為所述語音數據對應的多個候選識別文本; 分別採用所述應用概率和所述連接概率計算對應的候選識別文本的識別評分,獲得識別評分最高的一個或多個候選識別文本。
8.根據權利要求7所述的方法,其特徵在於,所述語言特徵信息包括輸入環境分詞及對應的同現率,所述獲得獲得所述輸入環境類型對應的語言特徵信息的步驟包括: 確定當次所述輸入環境類型中的第二文本信息; 採用當前輸入環境類型中的第二文本信息,計算預置的訓練文本信息歸屬當前輸入環境類型的第二歸屬概率; 分別採用所述第二歸屬概率計算所述訓練文本信息歸屬於當前輸入環境類型的第二置信度; 當所述第二置信度大於或等於預設的第二置信度閾值時,將所述訓練文本文本劃分進當前輸入環境類型; 當所述訓練劃分完畢時,對所述輸入環境類型中的文本信息進行分詞處理,獲得輸入環境分詞; 統計所述輸入環境分詞在所述輸入環境類別中的詞頻數; 採用所述詞頻數計算所述輸入環境分詞的同現率。
9.根據權利要求8所述的方法,其特徵在於,當次所述輸入環境類型中的第二文本信息包括: 所述輸入環境類型中的原始文本信息; 和/或, 所述輸入環境類型中增長量大於預設增量閾值時的的文本信息。
10.根據權利要求8所述的方法,其特徵在於,所述同現率包括第一詞頻數與第二詞頻數的比值; 其中,所述第一詞頻數包括當前輸入環境分詞出現在目標輸入環境分詞之後的詞頻數;所述目標輸入環境分詞包括出現在當前輸入環境分詞之前的一個或多個輸入環境分詞; 所述第二詞頻數包括所述目標輸入環境分詞總的詞頻數。
11.根據權利要求8所述的方法,其特徵在於,通過以下公式計算所述第二置信度: Conf (j) =CP (j) /sum (CP (j)) 其中,Conf (j)為所述第二置信度,CP (j)為所述第二歸屬概率,sum O為求和函數,j為正整數且j小於或等於所述輸入環境類型的數量。
12.根據權利要求7或8所述的方法,其特徵在於,通過以下公式計算所述應用概率:MOf IW) 其中,為所述聲學特徵,= Iw15W2CkU為所述語音候選詞。
13.根據權利要求7或8所述的方法,其特徵在於,通過以下公式計算所述連接概率:
14.根據權利要求7或8所述的方法,其特徵在於,通過以下公式計算所述識別評分:
15.一種語音輸入裝置,其特徵在於,包括: 判斷單元,用於在接收到客戶端發送的語音數據時,判斷所述語音數據輸入時的輸入環境類型; 識別單元,用於識別出與所述語音數據對應的、且與所述輸入環境類型匹配的一個或多個候選識別文本; 第一發送單元,用於將所述一個或多個候選識別文本發送至所述客戶端;其中,所述一個或多個候選識別文本用於在所述客戶端顯示。
16.根據權利要求15所述的裝置,其特徵在於,所述判斷單元包括: 獲取模塊,用於獲取所述語音數據輸入時的原始輸入環境信息; 查找模塊,用於在預置的輸入環境分類列表中查找所述原始輸入環境信息對應的輸入環境類型。
17.根據權利要求16所述的裝置,其特徵在於,所述原始輸入環境信息包括但不限於如下的至少一個: 第三方應用程式的標識,訪問的網站名稱,訪問的網站網址,輸入場景,通訊對象。
18.根據權利要求16所述的裝置,其特徵在於,所述預置的輸入環境分類列表記錄有特定輸入環境類型和通用輸入環境類型,以及,所述特定輸入環境類型對應的特定輸入環境信息; 所述查找模塊包括: 匹配子模塊,用於採用獲取的原始輸入環境信息與預置輸入環境分類列表中的所述特定輸入環境信息進行匹配;當匹配成功時,調用第一判定子模塊,當匹配失敗時,調用第二判定子模塊; 第一判定子模塊,用於判定所述原始輸入環境信息的輸入環境類型為所述特定輸入環境類型; 第二判定子模塊,用於判定所述原始輸入環境信息的輸入環境類型為所述通用輸入環境類型。
19.根據權利要求18所述的裝置,其特徵在於,所述查找模塊還包括: 閾值判斷子模塊,用於判斷在歸屬所述通用輸入環境類型的原始輸入環境信息中,輸入的第一文本信息是否大於預設數量閾值;若是,則調用第一歸屬概率計算子模塊; 第一歸屬概率計算子模塊,用於分別採用所述特定輸入環境類型的特定輸入環境信息中輸入的文本信息集合,計算所述原始輸入環境信息歸屬於所述特定輸入環境類型的第一歸屬概率; 第一置信度計算子模塊,用於分別採用所述第一歸屬概率計算所述原始輸入環境信息歸屬於所述特定輸入環境類型的第一置信度; 第一歸屬判定子模塊,用於在所述第一置信度的最高值大於或等於預設的第一置信度閾值時,判定所述原始輸入環境信息歸屬於所述最高值所屬第一置信度的特定輸入環境類型。
20.根據權利要求15或18所述的裝置,其特徵在於,所述識別單元包括: 聲學特徵提取模塊,用於提取所述語音數據中的多幀語音信號的聲學特徵; 語音候選詞識別模塊,用於分別採用所述聲學特徵識別所述多幀語音信息對應的多個語音候選詞; 應用概率計算模塊,用於分別計算所述多個語音候選詞的應用概率; 語言特徵信息獲得模塊,用於獲得所述輸入環境類型對應的語言特徵信息; 連接概率計算模塊,用於採用所述輸入環境類型對應的語言特徵信息計算所述多個語音候選詞之間的連接概率; 候選識別文本組合模塊,用於將所述多個語音候選詞組合為所述語音數據對應的多個候選識別文本; 識別評分計算模塊,用於分別採用所述應用概率和所述連接概率計算對應的候選識別文本的識別評分,獲得識別評分最高的一個或多個候選識別文本。
21.根據權利要求19所述的裝置,其特徵在於,所述語言特徵信息獲得模塊包括: 第二文本信息確定子模塊,用於確定當次所述輸入環境類型中的第二文本信息; 第二歸屬概率計算子模塊,用於採用當前輸入環境類型中的第二文本信息,計算預置的訓練文本信息歸屬當前輸入環境類型的第二歸屬概率; 第二置信度計算子模塊,用於分別採用所述第二歸屬概率計算所述訓練文本信息歸屬於當前輸入環境類型的第二置信度; 輸入環境類型劃分子模塊,用於在所述第二置信度大於或等於預設的第二置信度閾值時,將所述訓練文本劃分進當前輸入環境類型; 分詞子模塊,用於在所述輸入環境類型中的第二文本信息劃分完畢時,對所述輸入環境類型中的文本信息進行分詞處理,獲得輸入環境分詞; 統計子模塊,用於統計所述輸入環境分詞在所述輸入環境類別中的詞頻數; 同現率計算子模塊,用於採用所述詞頻數計算所述輸入環境分詞的同現率。
22.根據權利要求21所述的裝置,其特徵在於,當次所述輸入環境類型中的第二文本信息包括: 所述輸入環境類型中的原始文本信息; 和/或,所述輸入環境類型中增長量大於預設增量閾值時的的文本信息。
23.根據權利要求21所述的裝置,其特徵在於,所述同現率包括第一詞頻數與第二詞頻數的比值; 其中,所述第一詞頻數包括當前輸入環境分詞出現在目標輸入環境分詞之後的詞頻數;所述目標輸入環境分詞包括出現在當前輸入環境分詞之前的一個或多個輸入環境分詞; 所述第二詞頻數包括所述目標輸入環境分詞總的詞頻數。
24.一種語音輸 入系統,其特徵在於,所述語音輸入系統包括伺服器和客戶端;其中, 所述伺服器包括: 第一接收單元,用於接收客戶端發送的語音數據; 判斷單元,用於在接收到客戶端發送的語音數據時,判斷所述語音數據輸入時的輸入環境類型; 識別單元,用於識別出與所述語音數據對應的、且與所述輸入環境類型匹配的一個或多個候選識別文本; 第一發送單元,用於將所述一個或多個候選識別文本發送至所述客戶端; 所述客戶端包括: 採集單元,用於採集語音數據; 第二發送單元,用於將所述語音數據發送至伺服器; 第二接收單元,用於接收伺服器發送的所述一個或多個候選識別文本;顯示單元,用於顯示所述一個或多個候選識別文本。
【文檔編號】G10L15/30GK103956169SQ201410156242
【公開日】2014年7月30日 申請日期:2014年4月17日 優先權日:2014年4月17日
【發明者】陳偉, 梁偉文, 邵俊堯 申請人:北京搜狗科技發展有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀