新四季網

一種基於聯合因子分析模型的行動裝置聲紋識別方法

2023-04-25 09:06:46 1

一種基於聯合因子分析模型的行動裝置聲紋識別方法
【專利摘要】本發明公開了一種基於聯合因子分析模型的行動裝置聲紋識別方法,包括背景模型庫訓練、用戶聲紋模型訓練(說話人訓練)和聲紋確認(說話人確認)三大部分,並採用聯合因子分析模型構建說話人空間、信道空間和殘差空間三個子空間,利用聯合因子分析模型技術,將聲紋識別系統移植到行動裝置端,使其成為一款可代替密碼的身份確認應用產品。本發明對聲紋識別在移動端應用的短板不足進行補充和改進,對說話人識別中的易變性幹擾,包括信道易變性和會話易變性進行估計和補償,使用戶可以通過較短的語音進行訓練和識別,並在不同背景環境下也能取得良好的識別效果。
【專利說明】一種基於聯合因子分析模型的行動裝置聲紋識別方法
【技術領域】
[0001]本發明公開了一種基於聯合因子分析模型的行動裝置聲紋識別方法,涉及聲紋識別【技術領域】。
【背景技術】
[0002]隨著模式識別技術的發展突破和電子設備運算速度和性能的提高,生物信息識別技術近年來在用戶身份確認領域中得到了飛速的發展。相較於傳統的密碼和PIN碼具有容易被竊取和複製的硬傷,生物信息(指紋、聲紋等)對於每一個用戶來說都具有唯一性,並且極難竊取複製。指紋識別由於其穩定、不易變化、不受外界條件影響等優點,已經被廣泛的應用在了打卡器和手持設備等電子產品中。聲紋識別技術也被應用在了保險箱解鎖、聲控門鎖和高檔轎車發動機啟動確認等領域。但在行動裝置上,尤其是智慧型手機端,聲紋識別在實用化過程中仍然有許多問題需要解決,主要有以下因素:
[0003]1.考慮到效率和便捷等因素,用戶用作訓練模型的語音不能多於30s,識別時的語音不能多於10s,這就帶來訓練數據不足的問題。
[0004]2.手機設備的易變性。由於不同型號智慧型手機的音頻處理晶片和算法的差異,讀取的音頻質量會有差別。
[0005]3.傳輸信道的易變性。由於蜂窩通信和VOIP等傳輸語音的技術對於語音的編解碼方式存在差異等。傳輸信道對語音的質量也有一定程度的畸變和損傷。
[0006]4.背景環境的易變性。由於行動裝置採集語音的地點無法固定。密閉環境、車廂、機場、戶外等,語音不可避免地會攜帶背景環境的信息,對聲紋模型(說話人模型)會有不同程度的影響。
[0007]5.聲紋的差異。同一用戶,說話時的語氣、感情、說話的內容和語種的不同也會對說話人模型帶來影響。
[0008]以上這些因素統稱為說話人識別中的易變性(variability)幹擾,其中,2、3、4統稱為信道易變性(channel variability), 5 稱為會話易變性(session variability)。
[0009]為了降低和消除以上這些幹擾對聲紋識別系統性能的影響,Patrick Kenny等研究者提出了一種在傳統的GMM-UBM (高斯混合模型-通用背景噪聲模型)聲紋識別系統基礎上的改進模型算法,稱為聯合因子分析(Joint Factor Analysis, JFA),如圖1所示。該方法在NIST2008說話人識別評比中取得了最優的成績,並且能夠有效處理易變性對聲紋模型帶來的幹擾。
[0010]JFA模型是一種兩層模型,基於經典的GMM-UBM框架。傳統的GMM-UBM模型已經驗證,不同聲紋模型的差異只在於每個高斯的均值向量,而每個高斯模型的權重和方差都可以直接來源於UBM的取值。傳統的UBM-GMM模型拋棄了訓練語音中大量的信道信息和會話信息。而JFA模型構建了三個子空間:說話人空間、信道空間和殘差空間,最終的高斯均值向量表徵為:
[0011]
【權利要求】
1.一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:包括背景模型庫訓練、用戶聲紋模型訓練和聲紋確認三部分,並採用聯合因子分析模型構建說話人空間、信道空間和殘差空間三個子空間;所述聯合因子分析模型的高斯均值向量表徵為:
Mki — mk+Ukxi+VkY s (i) +Dkzks (i) 其中,k代表第k個高斯模型,i代表某一個語音段,s(i)表不說話人s的某一語音段,mk表示獨立於說話人和會話內容的均值向量,Uk特徵信道矩陣,Vk表示特徵說話人矩陣,Dk表示殘差空間矩陣;Xi表示信道因子向量,ys(i)表示依賴於說話人的聲紋因子向量,zksW表示依賴於說話人和單個高斯模型的殘差因子向量; 所述背景模型庫訓練、用戶聲紋模型訓練和聲紋確認,具體如下: 一、背景模型庫訓練包括以下步驟: (1)採集行動裝置端的語料作為訓練數據; (2)對採集的語料進行平衡性分析,保持語音的長度相似,保證信道易變性和會話易變性的平衡; (3)對步驟(2)處理後的語料進行前端預處理,包括: (301)將語音信號分段加窗後 經過計算得出梅爾幅倒譜係數的特徵參數流; (302)以特徵參數流數據訓練通用背景模型(UBM); (303)將每一個語料利用最大後驗準則將其自適應到說話人模型上,再用構建特徵音空間的方法對表徵特定說話人模型的參數進行降維處理; (304)通過稀疏數據的EM算法最大化所有訓練數據中的整體似然度,針對所有說話人的語音段求統計量,構建特徵說話人矩陣Vk ; (4)構建特徵信道矩陣Uk,針對語料中某個固定說話人的語音段求統計量,特徵信道矩陣的維度固定為行動裝置端型號類型的數量; (5)構建殘差空間矩陣Dk,完善行動裝置端的聲紋識別背景模型庫建; 二、用戶聲紋模型訓練包括: 用戶由行動裝置端向伺服器端上傳一段訓練語音,行動裝置端對訓練語音進行預處理:伺服器端對訓練語音所對應的聲紋模型進行訓練和識別,伺服器端接收到訓練語音後,通過最大似然的辦法訓練模型,對信道因子向量X1、依賴於說話人的聲紋因子向量ys(i)、依賴於說話人和單個高斯模型的殘差因子向量zks(i)進行最大後驗概率估計,其中,ys(i)用以表徵該行動裝置端所對應的用戶的特徵向量,Xi和zks(i)用以補償信道易變性和會話易變性的幹擾; 伺服器端為行動裝置端所對應的用戶建立用戶聲紋模型,並將用戶聲紋模型返回到用戶的行動裝置端,用戶再上傳一段測試語音至伺服器端作為測試,並在伺服器端進行T-Norm和Z-Norm分數規整,用以放大用戶和其他人的分數區別,以此來設定門限值; 三、聲紋確認包括: 用戶輸入自己的一段解鎖語音至行動裝置,行動裝置端進行前端預處理之後將用戶解鎖語音信息發到伺服器端,伺服器端採用通用背景模型作為說話人的特徵向量,使用用戶的解鎖語音對殘差因子向量zks(i)和信道因子向量Xi進行估計,將估計後的參數與該行動裝置對應的註冊用戶的特徵向量ys(i)進行結合,計算解鎖語音對應的分數; 如果分數高於步驟二得到的門限值則確認用身份,解鎖行動裝置的使用權限,如果分數低於步驟二得到的門限值則拒絕解鎖行動裝置。
2.如權利要求1所述的一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:所述行動裝置端為手機或平板電腦。
3.如權利要求1所述的一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:在進行用戶聲紋模型訓練時,用戶由行動裝置端向伺服器端上傳的訓練語音長度大於30秒。
4.如權利要求1所述的一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:在進行用戶聲紋模型訓練時,用戶由行動裝置端向伺服器端上傳的測試語音長度為10秒。
5.如權利要求1所述的一種基於聯合因子分析模型的行動裝置聲紋識別方法,其特徵在於:在進行用戶聲紋確認時,用戶輸入的 解鎖語音長度為5秒至10秒。
【文檔編號】G10L15/30GK103730114SQ201310751242
【公開日】2014年4月16日 申請日期:2013年12月31日 優先權日:2013年12月31日
【發明者】李為, 朱傑, 姚國勤, 錢傳根, 杭樂 申請人:上海交通大學無錫研究院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀