一種語音處理方法、裝置和智能終端與流程
2023-05-06 18:12:16

本申請涉及語音處理技術領域,特別是涉及一種語音處理方法、一種語音處理裝置和一種智能終端。
背景技術:
語音識別可以讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令。隨著終端技術的發展,越來越多的智能終端中已經加入的語音識別技術,即可以通過語音識別喚醒智能終端的相應功能,如解鎖、啟動應用等。
以通過語音識別進行解鎖為例,通常是接收用戶讀出包含固定內容的語音信號,從而識別該語音信號進行解鎖。這種解鎖僅識別語音信號對應文本內容,若識別的文本符合解鎖條件就能夠解鎖。但是,在公眾場合讀入語音時很容易被他人獲知,非用戶本人通過錄音片段也可順利解鎖,安全係數較低。
因此,目前需要本領域技術人員迫切解決的一個技術問題就是:提出一種語音處理方法、裝置和智能終端,以解決現有語音喚醒安全性較低的問題。
技術實現要素:
本申請實施例所要解決的技術問題是提供一種語音處理方法,以解決現有語音喚醒安全性較低的問題。
相應的,本申請實施例還提供了一種語音處理裝置和一種智能終端,用以保證上述方法的實現及應用。
為了解決上述問題,本申請公開了一種語音處理方法,包括:接收用戶輸入的語音信號;檢測所述語音信號與解密密令是否匹配,其中,所述解密密令包括生成的動態密令;當所述語音信號與解密密令匹配時,對所述語音信號進行響應。
可選的,還包括:採用所述用戶的聲紋模型對所述語音信號進行用戶驗 證。
可選的,還包括預先執行以下聲紋註冊步驟:依據訓練語音信號生成所述用戶的聲紋模型。
可選的,所述依據訓練語音信號生成所述用戶的聲紋模型,包括:對海量用戶的訓練語音信號進行預處理,將預處理得到的第一語音特徵進行訓練生成通用背景模型;對所述用戶的訓練語音信號進行預處理,確定所述用戶的第二語音特徵;利用第二語音特徵對通用背景模型進行迭代更新,生成所述用戶的聲紋模型。
可選的,利用第二語音特徵對通用背景模型進行迭代更新,生成所述用戶的聲紋模型,包括:採用所述第二語音特徵對通用背景模型進行最大後驗估計,生成所述用戶的聲紋模型。
可選的,還包括:依次接收用戶各次輸入的註冊語音信號,依據所述註冊語音生成所述用戶的訓練語音信號。
可選的,還包括:設定所述用戶的密令變換規則
可選的,所述設定所述用戶的密令變換規則,包括:獲取用戶輸入的密令參數和密令變量,將所述密令參數和密令變量構成密令變換規則。
可選的,採用所述用戶的聲紋模型對所述語音信號進行用戶驗證,包括:對所述語音信號進行預處理,確定第三語音特徵;採用所述第三語音特徵和所述用戶的聲紋模型進行匹配,依據匹配結果進行用戶驗證。
可選的,採用所述第三語音特徵和所述用戶的聲紋模型進行匹配,依據匹配結果進行用戶驗證,包括:採用所述用戶的聲紋模型對所述第三語音特徵進行匹配,確定第一分值;依據所述第一分值確定匹配結果的第二分值,將所述第二分值和驗證閾值進行比較;當所述第二分值超過驗證閾值時,確認用戶驗證通過;當所述第二分值未超過驗證閾值時,確認用戶驗證未通過。
可選的,確定第三語音特徵之後,還包括:採用所述通用背景模型對所述第三語音特徵進行匹配,確定第三分值;所述依據所述第一分值確定匹配結果的第二分值,包括:計算所述第一分值和第三分值的差值,將所述差值作為第二分值。
可選的,對語音信號進行預處理確定語音特徵的步驟包括:對語音信號進行分幀,獲取各幀的語音數據;對各幀語音數據進行特徵提取,確定語音特徵。
可選的,檢測所述語音信號是否與解密密令匹配,包括:對所述語音信號進行語音識別,轉換得到文本數據;檢測所述文本數據和解密密令是否匹配。
可選的,檢測所述語音信號是否與解密密令匹配之前,還包括:依據所述密令變換規則生成動態密令,將所述動態密令作為解密密令。
可選的,依據所述密令變換規則生成解密密令,包括:依據所述密令變量對密令參數進行組合,生成解密密令。
可選的,所述密令參數包括小於10的非負整數;所述密令變量包括:時間變量。
可選的,所述解密密令包括:年份、月份、日期、紀念日、節日中一種或兩種以上的組合。
可選的,所述對所述語音信號進行響應,包括:執行喚醒操作,其中,所述喚醒操作包括智能終端的解鎖操作。
可選的,還包括:當用戶驗證未通過,或語音信號與解密密令不匹配時,提示語音喚醒失敗。
本申請實施例還公開了一種語音處理裝置,包括:語音接收模塊,用於接收用戶輸入的語音信號;密令匹配模塊,用於檢測所述語音信號與解密密令是否匹配,其中,所述解密密令包括生成的動態密令;響應模塊,用於當所述語音信號與解密密令匹配時,對所述語音信號進行響應。
可選的,還包括:聲紋驗證模塊,用於採用所述用戶的聲紋模型對所述語音信號進行用戶驗證。
可選的,還包括:註冊模塊,用於預先執行聲紋註冊;所述註冊模塊,包括:聲紋模型生成子模塊,用於依據訓練語音信號生成所述用戶的聲紋模型。
可選的,所述聲紋模型生成子模塊,包括:預處理單元,用於對海量用 戶的訓練語音信號進行預處理;以及對所述用戶的訓練語音信號進行預處理,確定所述用戶的第二語音特徵;通用模型訓練單元,用於將預處理得到的第一語音特徵進行訓練生成通用背景模型;聲紋模型訓練單元,用於利用第二語音特徵對通用背景模型進行迭代更新,生成所述用戶的聲紋模型。
可選的,所述聲紋模型訓練單元,用於採用所述第二語音特徵對通用背景模型進行最大後驗估計,生成所述用戶的聲紋模型。
可選的,所述註冊模塊,還包括:訓練信號接收子模塊,用於依次接收用戶各次輸入的註冊語音信號,依據所述註冊語音生成所述用戶的訓練語音信號。
可選的,還包括:密令規則設定模塊,用於設定所述用戶的密令變換規則。
可選的,所述密令規則設定模塊,用於獲取用戶輸入的密令參數和密令變量,將所述密令參數和密令變量構成密令變換規則。
可選的,所述聲紋驗證模塊,包括:預處理子模塊,用於對所述語音信號進行預處理,確定第三語音特徵;驗證子模塊,用於採用所述第三語音特徵和所述用戶的聲紋模型進行匹配,依據匹配結果進行用戶驗證。
可選的,所述驗證子模塊,包括:聲紋模型匹配單元,用於採用所述用戶的聲紋模型對所述第三語音特徵進行匹配,確定第一分值;閾值驗證單元,用於依據所述第一分值確定匹配結果的第二分值,將所述第二分值和驗證閾值進行比較;當所述第二分值超過驗證閾值時,確認用戶驗證通過;當所述第二分值未超過驗證閾值時,確認用戶驗證未通過。
可選的,所述驗證子模塊,還包括:通用模型匹配單元,用於採用所述通用背景模型對所述第三語音特徵進行匹配,確定第三分值;所述驗證單元,用於計算所述第一分值和第三分值的差值,將所述差值作為第二分值。
可選的,所述預處理單元,用於對語音信號進行分幀,獲取各幀的語音數據;對各幀語音數據進行特徵提取,確定語音特徵。
可選的,所述預處理子模塊,用於對語音信號進行分幀,獲取各幀的語音數據;對各幀語音數據進行特徵提取,確定語音特徵。
可選的,所述密令匹配模塊,包括:語音識別子模塊,用於對所述語音信號進行語音識別,轉換得到文本數據;匹配子模塊,用於檢測所述文本數據和解密密令是否匹配。
可選的,還包括:密令生成模塊,用於依據所述密令變換規則生成動態密令,將所述動態密令作為解密密令。
可選的,所述密令生成模塊,用於依據所述密令變量對密令參數進行組合,生成解密密令。
可選的,所述密令參數包括小於10的非負整數;所述密令變量包括:時間變量。
可選的,所述解密密令包括:年份、月份、日期、紀念日、節日中一種或兩種以上的組合。
可選的,所述響應模塊,用於執行喚醒操作,其中,所述喚醒操作包括智能終端的解鎖操作。
可選的,還包括:提示模塊,用於當用戶驗證未通過,或語音信號與解密密令不匹配時,提示語音喚醒失敗。
本申請實施例還公開了一種智能終端,所述智能終端包括:存儲器、顯示器、處理器和輸入單元,其中,所述輸入單元包括:觸控螢幕;所述處理器用於執行本申請實施例所述的方法。
與現有技術相比,本申請實施例包括以下優點:
在本申請實施例中,採用動態生成的動態密令作為解密密令,從而在接收到用戶輸入的語音信號後,將語音信號與解密密令進行匹配,當所述語音信號與解密密令匹配時,對所述語音信號進行響應,從而基於動態的解密密令提高解密的安全。
附圖說明
圖1是本申請的一種語音處理方法實施例的步驟流程圖;
圖2是本申請實施例中的聲紋註冊及密令設置方法的步驟流程圖;
圖3是本申請實施例中的聲紋註冊的示意圖;
圖4是本申請的另一種語音處理方法實施例的步驟流程圖;
圖5是本申請實施例中用戶聲紋模型匹配的示意圖
圖6是本申請的另一種語音處理方法實施例中用戶驗證的步驟流程圖
圖7是本申請一種語音處理裝置實施例的結構框圖;
圖8a是本申請另一種語音處理裝置實施例的結構框圖;
圖8b是本申請另一種語音處理裝置實施例中聲紋模型生成子模塊的結構框圖;
圖8c是本申請另一種語音處理裝置實施例中驗證子模塊的結構框圖;
圖9是本申請一種智能終端實施例的結構框圖。
具體實施方式
為使本申請的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式對本申請作進一步詳細的說明。
本申請實施例的核心構思之一在於,提出一種語音處理方法和裝置,以解決現有語音喚醒安全性較低的問題。採用動態生成的動態密令作為解密密令,從而在接收到用戶輸入的語音信號後,將語音信號與解密密令進行匹配,當所述語音信號與解密密令匹配時,對所述語音信號進行響應,從而基於動態的解密密令提高解密的安全。
實施例一
參照圖1,示出了本申請的一種語音處理方法實施例的步驟流程圖,具體可以包括如下步驟:
步驟102,接收用戶輸入的語音信號。
隨著終端技術的發展,越來越多的用戶通過語音進行輸入與智能終端進行交互,如直接發出指令,喚醒某些功能等。
因此,用戶在使用智能終端時,可以通過觸發智能終端處於某種狀態時輸入語音,如在接收語音信號的應用中輸入,又如移動終端處於語音喚醒模式時,該語音喚醒模式即通過語音喚醒某些功能的模式,如解鎖,查找信息 等。相應可以接收用戶輸入的語音信號。
步驟104,檢測所述語音信號與解密密令是否匹配,其中,所述解密密令包括生成的動態密令。
基於語音可以執行喚醒操作,如對鎖定智能終端的解鎖,以及其他需要密碼的各種場景。針對語音解密相應需要配置解密密令,為了保證安全,本實施例中將動態密令作為解密密令,該動態密令是動態生成的密令,可以依據時間、位置等各種參數進行調整。在確定出當前的解密命令後,可以通過對語音信號的識別等操作,確定語音信號與解密密令是否匹配。
若是,即語音信號與解密密令匹配,執行步驟106;若否,即語音信號與解密密令不匹配,
步驟106,對所述語音信號進行響應。
當所述語音信號與解密密令匹配時,對所述語音信號進行響應,如執行解鎖操作,又如解密後執行登錄操作等。
綜上,採用動態生成的動態密令作為解密密令,從而在接收到用戶輸入的語音信號後,將語音信號與解密密令進行匹配,當所述語音信號與解密密令匹配時,對所述語音信號進行響應,從而基於動態的解密密令提高解密的安全。
實施例二
本申請實施例中,可以依據用戶的聲紋和動態密令共同執行語音喚醒,因此可以預先執行以下聲紋註冊步驟:依據訓練語音信號生成所述用戶的聲紋模型;以及設定所述用戶的密令變換規則。
參照圖2,示出了本申請實施例中的聲紋註冊及密令設置方法的步驟流程圖;
參照圖3,示出了本申請實施例中的聲紋註冊的示意圖。
步驟202,對海量用戶的訓練語音信號進行預處理,將預處理得到的第一語音特徵進行訓練生成通用背景模型。
可以預先收集各用戶輸入的語音信號作為訓練語音信號,從而對海量用 戶的訓練語音信號進行預處理,包括:對語音信號進行分幀,獲取各幀的語音數據;對各幀語音數據進行特徵提取,確定語音特徵。即對海量用戶對應訓練的音頻數據進行分幀處理,,獲取各幀的語音數據,然後執行特徵提取等處理步驟確定相應的特徵矩陣。再將預處理得到的第一語音特徵進行訓練,如通過gmm(gaussianmixturemodel,高斯混合模型)訓練得到ubm(universalbackgroundmodel,通用背景模型)。
步驟204,依次接收用戶各次輸入的註冊語音信號,依據所述註冊語音生成所述用戶的訓練語音信號。
為了對不同用戶的聲紋進行檢測,可以生成每個用戶對應的聲紋模型,因此還需要獲取各用戶的語音數據進行訓練,即在用戶註冊時獲取該用戶的註冊語音信號以執行訓練。
其中,為了保證聲紋模型的準確性,可以多次接收用戶輸入的註冊語音信號,對於用戶而言每次可以採用相對平穩的速度錄入相同的內容,對應接收用戶各次輸入的註冊語音信號,例如,用戶將0到9這十個數字勻速連續說三遍,從而可以得到三個註冊語音信號,將這三個註冊語音生成該用戶的訓練語音信號。
步驟206,對所述用戶的訓練語音信號進行預處理,確定所述用戶的第二語音特徵。
步驟208,利用第二語音特徵對通用背景模型進行迭代更新,生成所述用戶的聲紋模型。
在獲取到各次輸入的訓練語音信號後,可以對訓練語音信號進行訓練,從而生成該用戶的聲紋模型。首先可以對該用戶的訓練語音信號進行預處理,處理步驟可以於通用背景模型的預處理步驟類似,即對該用戶的訓練語音信號對應音頻數據進行分幀和特徵提取等預處理操作,確定所述用戶的第二語音特徵。然後再利用第二語音特徵對通用背景模型進行迭代更新,生成該用戶的聲紋模型。
本申請一個可選實施例中,利用第二語音特徵對通用背景模型進行迭代更新,生成所述用戶的聲紋模型,包括:採用所述第二語音特徵對通用背景 模型進行最大後驗估計,生成所述用戶的聲紋模型。即採用該用戶的第二語音特徵計算ubm模型的最大後驗估計(maximumaposteriori,map),依據該最大後驗估計更新ubm模型參數生成該用戶的聲紋模型。
在基於語音進行解密之前,不但可以執行聲紋註冊,還可以設置動態的解密密令的密令變換規則。
步驟210,獲取用戶輸入的密令參數和密令變量,將所述密令參數和密令變量構成密令變換規則。
在獲取註冊語音信號進行該用戶的聲紋模式訓練過程中,還可以配置該用戶的密令變換規則,從而基於該密令變換規則生成動態密令,以保證語音喚醒的安全。
可以獲取用戶輸入的密令參數和密令變量,該密令參數可以包括構成密令的各參數信息,如上述註冊語音信號輸入的0到9這十個數字,即所述密令參數包括小於10的非負整數,密令變量可以包括用於組合解密密令的變量信息,所述密令變量包括:時間變量。基於該密令參數、密令變量構成密令變換規則,密令變換規則可以採用多種靈活的規則,例如通過密令變量設置解密密令,也可以採用密令變量對密令參數進行組合來生成解密密令。
因此在基於密令變換規則生成解密密令時,所述解密密令包括:年份、月份、日期、紀念日、節日中一種或兩種以上的組合。例如對於小於10的非負整數,可以按照時間變量得到解密密令,如20151222,又如當月的紀念日、節日等,又如基於密令變量將當天的日期作為解密密令,當然也可以基於地點、時區等的變化,隨時調整解密密令對應的時間,從而解密密令可以依據執行喚醒的時間、地點等的區別而變更,如每次、每天、每月變更等。
在配置該用戶對應密令變換規則時,例如,配置解密密令為當天的日期、月份等,或者配置解密密令組合為xy,通過xy的運算確定解密密令,如xy分別為月份和日期,兩者相乘的結果作為解密密令,又如xy分別為2位數字,其中x表示當天是本月的第x天,可為01、02、…、31等;y表示當前時刻是y點,可為00、01、…、23等。密令規則還可為稍複雜的數字計算,當密令組合為ab,ab分別為2位數字,其中a表示用戶生日月 份與當前月份的計算和,b表示用戶愛人的生日月份與當前月份的計算和等。
在完成用戶聲紋模型的建立以及密令變換規則的配置後,可以依據該聲紋模型和密令變換規則執行該用戶的喚醒步驟,具體如下:
參照圖4,示出了本申請的另一種語音處理方法實施例的步驟流程圖,具體可以包括如下步驟:
步驟402,接收用戶輸入的語音信號。
用戶要執行語音喚醒等操作時,如執行語音解鎖,語音解密等操作,可以輸入語音信號,如在終端中觸發語音錄入的標識錄入音頻數據,對應終端接收用戶輸入的語音信號即錄入的音頻數據,開始執行喚醒的相關步驟。
步驟404,依據所述密令變換規則生成動態密令,將所述動態密令作為解密密令。
本實施例中,採用動態密令進行語音的密令匹配,因此在確定出當前需要執行喚醒後,可以所述密令變換規則生成動態密令,即依據所述密令變量對密令參數進行組合,生成解密密令。如將上述小於10的非負整數按照時間變量進行組合,得到當前的解密密令,如今天的日期,如本月的節日等。
步驟406,採用所述用戶的聲紋模型對所述語音信號進行用戶驗證。
先對用戶進行驗證,即採用所述用戶的聲紋模型對所述語音信號進行用戶驗證,可以將該用戶的語音信號輸入該聲紋模型進行匹配,確定相應的似然概率值,從而確定該用戶的語音信號與聲紋模型是否匹配。
其中,如圖5所示為用戶聲紋模型匹配的示意圖,如圖6所示採用所述用戶的聲紋模型對所述語音信號進行用戶驗證具體可以包括如下子步驟:
子步驟602,對所述語音信號進行預處理,確定第三語音特徵。
在依據聲紋模型進行用戶驗證時,可以先對語音信號進行預處理,預處理步驟包括:對語音信號進行分幀,獲取各幀的語音數據;對各幀語音數據進行特徵提取,確定語音特徵。通過分幀確定各幀的語音數據,然後對每幀的語音數據進行特徵提取,獲取該用戶的第三語音特徵。然後採用所述第三語音特徵和所述用戶的聲紋模型進行匹配,依據匹配結果進行用戶驗證。
子步驟604,採用所述用戶的聲紋模型對所述第三語音特徵進行匹配, 確定第一分值。
在進行聲紋模型匹配時,可以將該用戶的第三語音特徵輸入該用戶的聲紋模型,計算該第三語音特徵對該用戶的聲紋模型的似然概率,如採用對數似然打分平均算法計算似然概率,將似然概率的打分作為該用戶的第一分值。後續可以依據所述第一分值確定匹配結果的第二分值,從而依據第二分值對用戶進行驗證,即將所述第二分值和驗證閾值進行比較,依據比較結果確定驗證結果。
子步驟606,採用所述通用背景模型對所述第三語音特徵進行匹配,確定第三分值。
為了提高用戶驗證的準確性,本實施例還可以採用所述通用背景模型對所述第三語音特徵進行匹配,即依據第三語音特徵計算通用背景模型的對數似然概率的平均值,從而確定第三分值。
子步驟608,計算所述第一分值和第三分值的差值,將所述差值作為第二分值。
依據第一分值和第三分值來確定第二分值,可以計算第一分值和第三分值的差值,將該差值的絕對值作為第二分值。
子步驟610,判斷所述第二分值是否超過驗證閾值。
若是,即第二分值超過驗證閾值,執行子步驟612;若否,即第二分值未超過驗證閾值,執行子步驟614。
子步驟612,確認用戶驗證通過。
當所述第二分值超過驗證閾值時,確認用戶驗證通過。
子步驟614,確認用戶驗證未通過。
當所述第二分值未超過驗證閾值時,確認用戶驗證未通過。
從而基於ubm和該用戶的聲紋模式對用戶進行驗證。若驗證通過,執行步驟408,若驗證不通過,執行步驟414。
步驟408,對所述語音信號進行語音識別,轉換得到文本數據。
若用戶驗證通過,可以將所述語音信號與解密密令進行匹配。先對語音信號進行語音識別,如通過語音識別模型進行識別等,將語音信號轉換為文 本數據。
步驟410,檢測所述文本數據和解密密令是否匹配。
本實施例在確定需要執行喚醒操作時,已經生成了解密所需的解密密令,實際處理中,還可以在確定用戶驗證通過後動態生成解密密令。在識別出語音信號對應文本數據後,可以判斷文本數據和解密密令是否匹配。
若是,即判斷文本數據和解密密令匹配,執行步驟412;若否,即判斷文本數據和解密密令不匹配,執行步驟414。
步驟412,執行喚醒操作。
在確定用戶驗證通過,且語音信號對應文本數據和解密密令匹配時,可以對該語音信號進行響應,即執行響應的喚醒操作,其中,所述喚醒操作包括智能終端的解鎖操作。還可以包括解密操作等,此後可以進行終端的操作界面,或者執行登錄操作等
步驟414,提示語音喚醒失敗。
當用戶驗證未通過,或語音信號與解密密令不匹配時,提示語音喚醒失敗,如顯示語音喚醒失敗消息,或者直接語音提示執行提示,如輸出「密碼輸入錯誤」。此後用戶可以重新輸入語音信號執行喚醒操作。
本實施例中,在聲紋喚醒過程中,用戶只需要根據預先設定的密令變換規則確定解密密令,如為密令數字組合,則念出該密令數字組合以使終端錄入相應的語音信號即可。智能終端可以通過聲紋模型的比對以及數字組合識別解密密令。可以先通過與用戶聲紋模型比對判斷是否匹配,如不匹配,認定為錯誤用戶,如匹配,則進行數字語音識別,判斷識別結果同手機得到的當前密令是否一致,如密令一致,解鎖成功,如不一致,認定為錯誤用戶。
本實施例,可以在用戶註冊聲紋的同時設定密令變換規則,作為用戶聲紋喚醒時智能終端生成動態密令的依據。相應在用戶進行聲紋喚醒時,先進行聲紋比對排除錯誤用戶,在識別為正確用戶的前提下繼續進行語音識別並匹配密令做進一步判斷。
需要說明的是,對於方法實施例,為了簡單描述,故將其都表述為一系 列的動作組合,但是本領域技術人員應該知悉,本申請實施例並不受所描述的動作順序的限制,因為依據本申請實施例,某些步驟可以採用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬於優選實施例,所涉及的動作並不一定是本申請實施例所必須的。
實施例三
參照圖7,示出了本申請一種語音處理裝置實施例的結構框圖,具體可以包括如下模塊:
語音接收模塊702,用於接收用戶輸入的語音信號。
密令匹配模塊704,用於檢測所述語音信號與解密密令是否匹配,其中,所述解密密令包括生成的動態密令。
響應模塊706,用於當所述語音信號與解密密令匹配時,對所述語音信號進行響應。
綜上,採用動態生成的動態密令作為解密密令,從而在接收到用戶輸入的語音信號後,將語音信號與解密密令進行匹配,當所述語音信號與解密密令匹配時,對所述語音信號進行響應。
參照圖8a,示出了本申請另一種語音處理裝置實施例的結構框圖,具體可以包括如下模塊:
註冊模塊800,用於預先執行聲紋註冊。
密令規則設定模塊814,用於設定所述用戶的密令變換規則。
語音接收模塊802,用於接收用戶輸入的語音信號。
聲紋驗證模塊808,用於採用所述用戶的聲紋模型對所述語音信號進行用戶驗證。
密令匹配模塊804,用於檢測所述語音信號與解密密令是否匹配,其中,所述解密密令包括生成的動態密令。
響應模塊806,用於當所述語音信號與解密密令匹配時,對所述語音信號進行響應。
提示模塊810,用於當用戶驗證未通過,或語音信號與解密密令不匹配時,提示語音喚醒失敗。
密令生成模塊812,用於依據所述密令變換規則生成動態密令,將所述動態密令作為解密密令。
其中,所述註冊模塊800包括:
訓練信號接收子模塊8002,用於依次接收用戶各次輸入的註冊語音信號,依據所述註冊語音生成所述用戶的訓練語音信號。
聲紋模型生成子模塊8004,用於依據訓練語音信號生成所述用戶的聲紋模型。
參照圖8b,示出了本申請另一種語音處理裝置實施例中聲紋模型生成子模塊的結構框圖,具體可以包括如下模塊:
所述聲紋模型生成子模塊8004,包括:
預處理單元80042,用於對海量用戶的訓練語音信號進行預處理;以及對所述用戶的訓練語音信號進行預處理,確定所述用戶的第二語音特徵。
通用模型訓練單元80044,用於將預處理得到的第一語音特徵進行訓練生成通用背景模型。
聲紋模型訓練單元80046,用於利用第二語音特徵對通用背景模型進行迭代更新,生成所述用戶的聲紋模型。
其中,所述聲紋模型訓練單元,用於採用所述第二語音特徵對通用背景模型進行最大後驗估計,生成所述用戶的聲紋模型。
所述預處理單元80042,用於對語音信號進行分幀,獲取各幀的語音數據;對各幀語音數據進行特徵提取,確定語音特徵。
所述密令規則設定模塊814,用於獲取用戶輸入的密令參數和密令變量,將所述密令參數和密令變量構成密令變換規則。
所述聲紋驗證模塊808,包括:
預處理子模塊8082,用於對所述語音信號進行預處理,確定第三語音特徵。
驗證子模塊8084,用於採用所述第三語音特徵和所述用戶的聲紋模型進行匹配,依據匹配結果進行用戶驗證。
參照圖8c,示出了本申請另一種語音處理裝置實施例中驗證子模塊的 結構框圖,具體可以包括如下模塊:
所述驗證子模塊8084,包括:
聲紋模型匹配單元80842,用於採用所述用戶的聲紋模型對所述第三語音特徵進行匹配,確定第一分值;
閾值驗證單元80846,用於依據所述第一分值確定匹配結果的第二分值,將所述第二分值和驗證閾值進行比較;當所述第二分值超過驗證閾值時,確認用戶驗證通過;當所述第二分值未超過驗證閾值時,確認用戶驗證未通過。
通用模型匹配單元80844,用於採用所述通用背景模型對所述第三語音特徵進行匹配,確定第三分值;所述驗證單元80846,用於計算所述第一分值和第三分值的差值,將所述差值作為第二分值。
所述預處理子模塊8082,用於對語音信號進行分幀,獲取各幀的語音數據;對各幀語音數據進行特徵提取,確定語音特徵。
所述密令匹配模塊804,包括:
語音識別子模塊8042,用於對所述語音信號進行語音識別,轉換得到文本數據;
匹配子模塊8044,用於檢測所述文本數據和解密密令是否匹配。
所述密令生成模塊812,用於依據所述密令變量對密令參數進行組合,生成解密密令。
所述密令參數包括小於10的非負整數;所述密令變量包括:時間變量。
所述解密密令包括:年份、月份、日期、紀念日、節日中一種或兩種以上的組合。
所述響應模塊806,用於執行喚醒操作,其中,所述喚醒操作包括智能終端的解鎖操作。
本實施例中,在聲紋喚醒過程中,用戶只需要根據預先設定的密令變換規則確定解密密令,如為密令數字組合,則念出該密令數字組合以使終端錄入相應的語音信號即可。智能終端可以通過聲紋模型的比對以及數字組合識別解密密令。可以先通過與用戶聲紋模型比對判斷是否匹配,如不匹配,認定為錯誤用戶,如匹配,則進行數字語音識別,判斷識別結果同手機得到的 當前密令是否一致,如密令一致,解鎖成功,如不一致,認定為錯誤用戶。
本實施例,可以在用戶註冊聲紋的同時設定密令變換規則,作為用戶聲紋喚醒時智能終端生成動態密令的依據。相應在用戶進行聲紋喚醒時,先進行聲紋比對排除錯誤用戶,在識別為正確用戶的前提下繼續進行語音識別並匹配密令做進一步判斷。
對於裝置實施例而言,由於其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
實施例四
在上述實施例的基礎上,本實施例還公開了一種智能終端。
參照圖9,示出了本申請一種智能終端實施例的結構框圖,具體可以包括如下模塊:該智能終端900包括:存儲器910、顯示器920、處理器930和輸入單元940。
其中,該輸入單元940可用於接收用戶輸入的數字或字符信息,以及控制信號。具體地,本發明實施例中,該輸入單元940可以包括觸控螢幕941,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸控螢幕941上的操作),並根據預先設定的程式驅動相應的連接裝置。當然,除了觸控螢幕941,輸入單元940還可以包括其他輸入設備,如物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、滑鼠等。
顯示器920包括顯示面板,可選的,可以採用液晶顯示器(liquidcrystaldisplay,lcd)或有機發光二極體(organiclight-emittingdiode,oled)等形式來配置顯示面板。其中,觸控螢幕可以覆蓋顯示面板,形成觸摸顯示屏,當該觸摸顯示屏檢測到在其上或附近的觸摸操作後,傳送給處理器930以執行相應的處理。
在本發明實施例中,通過調用存儲該存儲器910內的軟體程序,和/或,模塊,和/或,數據,處理器930用於接收用戶輸入的語音信號;檢測所述語音信號與解密密令是否匹配,其中,所述解密密令包括生成的動態密令;當所述語音信號與解密密令匹配時,對所述語音信號進行響應。
可選的,還包括:採用所述用戶的聲紋模型對所述語音信號進行用戶驗 證。
可選的,還包括預先執行以下聲紋註冊步驟:依據訓練語音信號生成所述用戶的聲紋模型。
可選的,所述依據訓練語音信號生成所述用戶的聲紋模型,包括:對海量用戶的訓練語音信號進行預處理,將預處理得到的第一語音特徵進行訓練生成通用背景模型;對所述用戶的訓練語音信號進行預處理,確定所述用戶的第二語音特徵;利用所述第二語音特徵對通用背景模型進行迭代更新,生成所述用戶的聲紋模型。
可選的,利用第二語音特徵對通用背景模型進行迭代更新,生成所述用戶的聲紋模型,包括:採用所述第二語音特徵對通用背景模型進行最大後驗估計,生成所述用戶的聲紋模型。
可選的,還包括:依次接收用戶各次輸入的註冊語音信號,依據所述註冊語音生成所述用戶的訓練語音信號。
可選的,還包括:設定所述用戶的密令變換規則。
可選的,所述設定所述用戶的密令變換規則,包括:獲取用戶輸入的密令參數和密令變量,將所述密令參數和密令變量構成密令變換規則。
可選的,採用所述用戶的聲紋模型對所述語音信號進行用戶驗證,包括:對所述語音信號進行預處理,確定第三語音特徵;採用所述第三語音特徵和所述用戶的聲紋模型進行匹配,依據匹配結果進行用戶驗證。
可選的,採用所述第三語音特徵和所述用戶的聲紋模型進行匹配,依據匹配結果進行用戶驗證,包括:採用所述用戶的聲紋模型對所述第三語音特徵進行匹配,確定第一分值;依據所述第一分值確定匹配結果的第二分值,將所述第二分值和驗證閾值進行比較;當所述第二分值超過驗證閾值時,確認用戶驗證通過;當所述第二分值未超過驗證閾值時,確認用戶驗證未通過。
可選的,確定第三語音特徵之後,還包括:採用所述通用背景模型對所述第三語音特徵進行匹配,確定第三分值;所述依據所述第一分值確定匹配結果的第二分值,包括:計算所述第一分值和第三分值的差值,將所述差值作為第二分值。
可選的,對語音信號進行預處理確定語音特徵的步驟包括:對語音信號進行分幀,獲取各幀的語音數據;對各幀語音數據進行特徵提取,確定語音特徵。
可選的,檢測所述語音信號是否與解密密令匹配,包括:對所述語音信號進行語音識別,轉換得到文本數據;檢測所述文本數據和解密密令是否匹配。
可選的,檢測所述語音信號是否與解密密令匹配之前,還包括:依據所述密令變換規則生成動態密令,將所述動態密令作為解密密令。
可選的,依據所述密令變換規則生成解密密令,包括:依據所述密令變量對密令參數進行組合,生成解密密令。
可選的,所述密令參數包括小於10的非負整數;所述密令變量包括:時間變量。
可選的,所述解密密令包括:年份、月份、日期、紀念日、節日中一種或兩種以上的組合。
可選的,所述對所述語音信號進行響應,包括:執行喚醒操作,其中,所述喚醒操作包括智能終端的解鎖操作。
可選的,還包括:當用戶驗證未通過,或語音信號與解密密令不匹配時,提示語音喚醒失敗。
本說明書中的各個實施例均採用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領域內的技術人員應明白,本申請實施例的實施例可提供為方法、裝置、或電腦程式產品。因此,本申請實施例可採用完全硬體實施例、完全軟體實施例、或結合軟體和硬體方面的實施例的形式。而且,本申請實施例可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限於磁碟存儲器、cd-rom、光學存儲器等)上實施的電腦程式產品的形式。
在一個典型的配置中,所述計算機設備包括一個或多個處理器(cpu)、輸入/輸出接口、網絡接口和內存。內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內存等形式,如只讀存儲器(rom)或快閃記憶體(flashram)。內存是計算機可讀介質的示例。計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限於相變內存(pram)、靜態隨機存取存儲器(sram)、動態隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內存技術、只讀光碟只讀存儲器(cd-rom)、數字多功能光碟(dvd)或其他光學存儲、磁盒式磁帶,磁帶磁磁碟存儲或其他磁性存儲設備或任何其他非傳輸介質,可用於存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括非持續性的電腦可讀媒體(transitorymedia),如調製的數據信號和載波。
本申請實施例是參照根據本申請實施例的方法、終端設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些電腦程式指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理終端設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理終端設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些電腦程式指令也可存儲在能引導計算機或其他可編程數據處理終端設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到計算機或其他可編程數據處理終端設 備上,使得在計算機或其他可編程終端設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程終端設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
儘管已描述了本申請實施例的優選實施例,但本領域內的技術人員一旦得知了基本創造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優選實施例以及落入本申請實施例範圍的所有變更和修改。
最後,還需要說明的是,在本文中,諸如第一和第二等之類的關係術語僅僅用來將一個實體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關係或者順序。而且,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設備所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括所述要素的過程、方法、物品或者終端設備中還存在另外的相同要素。
以上對本申請所提供的一種語音處理方法和一種語音處理裝置,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本申請的方法及其核心思想;同時,對於本領域的一般技術人員,依據本申請的思想,在具體實施方式及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。