一種聲紋識別方法和裝置製造方法

2023-10-09 21:08:39 3

一種聲紋識別方法和裝置製造方法
【專利摘要】本發明實施方式提出一種聲紋識別方法和裝置。方法包括：基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型；利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。通過深層神經網絡自動學習語音信號當中包含能夠抵禦噪聲幹擾的高層次說話人信息，可以有效抵禦噪聲幹擾。
【專利說明】一種聲紋識別方法和裝置
【技術領域】
[0001]本發明實施方式涉及身份認證【技術領域】，更具體地，涉及一種聲紋識別方法和裝置。
【背景技術】
[0002]聲紋識別(Voiceprint Recognition, VPR)是生物識別技術的一種，也稱為說話人識別(Speaker Recognition)。說話人識別包括兩類，即說話人辨認(SpeakerIdentification)和說話人確認(Speaker Verification)。說話人辨認用以判斷某段語音是若干人中的哪一個所說的，是「多選一」問題；而說話人確認用以確認某段語音是否是指定的某個人所說的，是「一對一判別」問題。
[0003]聲紋識別包括文本相關(Text-Dependent)和文本無關(Text-1ndependent)兩種。與文本有關的聲紋識別系統要求用戶按照規定的內容發音，每個人的聲紋模型逐個被精確地建立，而識別時也必須按規定的內容發音，因此可以達到較好的識別效果，但系統需要用戶配合，如果用戶的發音與規定的內容不符合，則無法正確識別該用戶。與文本無關的識別系統則不規定說話人的發音內容，模型建立相對困難，但用戶使用方便，可應用範圍較寬。
[0004]在現有的說話人識別技術中，主流的識別系統均採用譜基的特徵，如MFCC，PLP以及LPCC等。它們均來自比較直觀的語譜圖，容易受各種噪聲影響。而在說話人識別技術的應用場景當中，採集到的語音數據不太可能是乾淨的，並且其中包含的噪聲種類複雜，信噪比很差。如果使用傳統的底層譜基特徵，需要在特徵提取之後，再進行大量的特徵端、模型端以及得分端的噪聲補償，計算複雜度較大，消耗時間過長，並且不能完全的消除噪聲的影響。

【發明內容】

[0005]本發明實施方式提出一種聲紋識別方法，以抵禦噪聲幹擾。
[0006]本發明實施方式提出一種聲紋識別裝置，以抵禦噪聲幹擾。
[0007]本發明實施方式的技術方案如下:
[0008]一種聲紋識別方法，該方法包括:
[0009]基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型；
[0010]利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識；
[0011]接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。
[0012]一種聲紋識別裝置，該裝置包括深層神經網絡二級模型獲取單元、註冊單元和聲紋識別單元，其中:
[0013]深層神經網絡二級模型獲取單元，用於基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型；
[0014]註冊單元，用於利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識；
[0015]聲紋識別單元，用於接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。
[0016]從上述技術方案可以看出，在本發明實施方式中，基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型；利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。由此可見，應用本發明實施方式之後，可以有效地從底層語譜特徵入手，通過深層神經網絡自動學習語音信號當中包含能夠抵禦噪聲幹擾的高層次說話人信息，從而可以有效抵禦噪聲幹擾。
[0017]另外，可以將本發明實施方式應用於特徵提取端，在有計算開銷限制的環境下，能夠直接獲取魯棒性特徵用於說話人識別應用。在沒有計算資源限制的環境下，在獲取這種特徵之後，本發明實施方式仍然可以通過原來的信道補償算法，並且可以獲得進一步的性能提升。
【專利附圖】

【附圖說明】
[0018]圖1為根據本發明實施方式聲紋識別方法流程圖；
[0019]圖2為根據本發明實施方式的深層神經網絡基本單元示意圖；
[0020]圖3為根據本發明實施方式的深層神經網絡層疊示意圖；
[0021]圖4為根據本發明實施方式深層神經網絡二級模型建立過程示意圖；
[0022]圖5為根據本發明實施方式說話人註冊過程示意圖；
[0023]圖6為根據本發明實施方式說話人測試過程示意圖；
[0024]圖7為根據本發明實施方式說話人聲紋識別裝置結構示意圖。
【具體實施方式】
[0025]為使本發明的目的、技術方案和優點更加清楚，下面結合附圖對本發明作進一步的詳細描述。
[0026]首先，說話人辨識是一種多分類問題，而說話人確認是一個二分類問題，多分類問題可以轉換成多個二分類問題。因此可以利用說話人確認問題為例，闡述本發明實施方式的相關細節。
[0027]實際上，本領域技術人員可以意識到，本發明實施方式同樣適用於說話人辨識問題。
[0028]文本無關的說話人識別由於不需要存儲特定的文本密碼，而直接使用說話人的語音作為密碼，可以廣泛的應用在網際網路用戶身份認證等安全領域，本發明實施方式尤其適用於針對文本無關的應用。[0029]傳統的說話人識別系統採用GMM-UBM技術框架，首先利用包含大量說話人的語音數據訓練一個說話人無關的通用背景模型(Universal Background Model, UBM),然後利用可以獲得的少量當前說話人的語音數據，通過最大後驗概率(Maximum A Posteriori, MAP)或者最大似然線性回歸(Maximum Likelihood Linear Regression, MLLR)準則，訓練得到說話人的模型。
[0030]在現有技術中，在做說話人身份判決的時候，分別針對待測試語音數據計算說話人對應的GMM模型和UBM模型似然度，並通過對數似然比(Logistic Likelihood Ratio,LLR)這個度量來計算最終的得分。對於說話人確認任務來說，通過比較與預先設定的一個門限(Threshold)的關係，來進行判決，而對於說話人識別來說，模型得分高的則為說話人識別結果。
[0031]由於測試語音數據和訓練語音數據存在信道不匹配的問題，現有技術給識別過程帶來不必要的幹擾，因此信道補償技術就顯得尤為重要。傳統的說話人識別任務中，使用聯合因子分析(Joint Factor Analysis, JFA)的方法來去除各種可能的信道幹擾帶來的性能損失。
[0032]由於聯合因子分析系統訓練和測試需要消耗較多的系統資源，I因子方法近年來被廣泛的使用。它通過因子分析方法，訓練一個能夠反映整句語音數據的載荷空間，然後提取載荷因子，即I因子來表徵語音數據中包含的信息，再通過線性區分性分析(Linear Discriminant Analysis, LDA)和類內協方差規整(Within-Class CovarianceNormalization, WCCN)消除不必要的非說話人信息，之後可以採用餘弦距離(CosineKernel)或者LLR測度，計算相似度，然後再進行說話人身份判定。
[0033]然而，現有的說話人識別技術，基本採用的均是譜基的特徵，如MFCC，PLP以及LPCC等。這些特徵均來自比較直觀的語譜圖，容易受各種噪聲影響。而在說話人識別技術的應用場景當中，採集到的語音數據很難為乾淨，並且其中包含的噪聲種類複雜，信噪比很差。如果使用傳統的底層譜基特徵，需要在特徵提取之後，再進行大量的特徵端，模型端，以及得分端的噪聲補償。計算複雜度較大，消耗時間過長，並且不能完全的消除噪聲的影響。在人類感知的實驗中，獲知音高，基頻，共振峰，以及習慣用語等高層特徵不易受噪聲影響，但是現有的說話人識別方法均不能將這些信息直接應用於真實環境的說話人識別。
[0034]在本發明實施方式中，有效地從底層語譜特徵入手，通過深層神經網絡的方法自動學習語音信號當中包含能夠抵禦噪聲幹擾的高層次的說話人信息。
[0035]神經網絡方法通過多個層次的網絡結構來模擬人類對於聲音信息處理的過程。神經網絡的輸入為原始的底層聲學特徵，隨著經過的處理層次的增多，其獲取的信息越來越偏向於具有一定物理含義，具有一定抽象概念的信息。本發明實施方式通過這上述過程有效提取說話人高層身份信息。
[0036]可以將本發明實施方式應用於特徵提取端，在有計算開銷限制的環境下，可以直接獲取魯棒性特徵用於說話人識別的應用。在沒有計算資源限制的環境下，在獲取這種特徵之後，仍然可以通過原來的信道補償算法，並且可以獲得進一步的性能提升。
[0037]由於深層神經網絡在訓練的過程中，包含了使用未標註數據的預訓練步驟，以及使用標註數據的精細調節步驟。因此本發明實施方式還可以使用大量的無標註數據，在某種程度上解決大數據應用的問題，只需要標註少量的數據便可以應用全部數據。[0038]圖1為根據本發明實施方式聲紋識別方法流程圖。
[0039]如圖1所示，該方法包括:
[0040]步驟101:基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
[0041]在這裡，可以從無標註語音數據中提取無標註語音底層聲紋特徵；再基於該無標註語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網絡初級模型。然後，從有標註語音數據中提取有標註語音底層聲紋特徵；再基於該有標註語音底層聲紋特徵對深層神經網絡初級模型進行訓練，以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網絡二級模型。
[0042]其中，無標註語音數據是無說話人信息標註的語音數據，而有標註語音數據是有說話人信息標註的語音數據。
[0043]在一個實施方式中，可以應用稀疏編碼限制規則或最大交互熵規則，基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
[0044]在一個實施方式中，可以基於相同說話人的不同語音數據所獲得的高層聲紋特徵之間距離變小，以及不同說話人的相同語音數據所獲得的高層聲紋特徵之間距離變大的方式，對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
[0045]步驟102:利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識。
[0046]在這裡，可以從說話人註冊語音中提取說話人底層聲紋特徵，利用該深層神經網絡二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵；再在說話人高層聲紋特徵與說話人標識之間建立對應關係。
[0047]步驟103:接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。
[0048]在這裡，可以從測試語音數據中提取測試語音底層聲紋特徵；基於該深層神經網絡二級模型，根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵；再基於該測試語音高層聲紋特徵確定說話人標識。
[0049]在一個實施方式中，可以基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並建立該測試語音高層聲紋特徵的高斯模型；再計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離，並基於該距離確定說話人標識。
[0050]比如:在說話人確認中，可以判斷該測試語音高層聲紋特徵的高斯模型與待確認說話人所註冊的高層聲紋特徵的高斯模型之間的距離，是否低於預先設定的門限值，如果是，則確認該測試語音的說話人為該註冊的待確認說話人。
[0051]在說話人辨識中，可以判斷該測試語音高層聲紋特徵的高斯模型與待辨識說話人群所註冊的高層聲紋特徵的高斯模型之間的距離中的最小值，並判定該距離最小值所對應的註冊說話人為說話人。
[0052]基於上述流程，下面對本發明實施方式進行更加具體的闡述。
[0053]本發明實施方式主要包括兩部分內容:首先是構造用於提取反映高層說話人身份信息特徵的深層神經網絡二級模型，然後再利用提取之後的身份信息特徵實現說話人識別。
[0054]下面對深層神經網絡的結構進行說明。
[0055]圖2為根據本發明實施方式的深層神經網絡基本單元示意圖；圖3為根據本發明實施方式的深層神經網絡層疊示意圖。
[0056]如圖2和圖3所示，用於獲取說話人相關的高層聲紋特徵的深層神經網絡是一個具有多層次的網絡結構，每層之間均可以通過某些映射函數相互連接。其中任意相連的兩層，都採用具有重建功能的結構，稱之為深層神經網絡的基本單元。
[0057]比如，基本單元可以是消除幹擾的自動編碼器(Denoising Autoencoders,DAs)或者限制性波爾茲曼機(Restrictive Boltzmann Machines, RBMs),等等。
[0058]以DAs為例進行說明，它是一個2層的雙向映射網絡，即包含輸入層和輸出層，如圖2所示。X對於輸入層，輸入特徵通過映射函數f 映射為輸出層y。同時輸出層y，也可以通過映射函數g 重新映射到輸入層，稱之為重建特徵z。通過最小重建誤差準則(X與z之間的距離最小)，這裡的訓練數據並不需要說話人信息標註，就可以非監督地訓練出映射函數f 和g 。映射函數為線性映射函數，正向映射f 其形式為Wx+b，W為映射矩陣，X為輸入矢量，b為偏移向量。反向映射g 其形式為W』y+c，W』為正向映射函數中映射矩陣W的轉置，c為偏移向量。DAs在由輸入層X映射到輸出層y的過程中，添加了一定程度的隨機噪聲，這個添加的噪聲，可以避免基本單元陷入過訓練的問題。
[0059]在介紹了任意相連的2層基本結構之後，可以然後通過層疊的方式，將多個基本單元堆積起來，由下至上的構成一個深層的神經網絡。
[0060]如圖3所示，x_>hl為第一個基本單元，hl_>h2為第二個基本單元，hi是第一個基本單元的輸出矢量，同時是第二個基本單元的輸入矢量。
[0061]具體的，hi在作為第二個基本單元的輸入矢量之前，需要通過將矢量hi的每一維數值都通過sigmoid函數。由於sigmoid函數的輸出是一個[O, I]之間的數值,在這裡設定一個隨機數，使其均勻分布在[0，I]之間，然後比較sigmoid函數的輸出與設定的隨機數，如果sigmoid的輸出大，則將hi在這個維度上的數值設為1，反之設為O。這樣，在深層神經網絡的構建當中，人為添加了一定程度的隨機性，可以在學習到已有模式特徵基礎上，既能夠產生一些類似的新模式特徵，也能消除同樣模式噪聲的幹擾。
[0062]由於深層神經網絡的每一層都具備重建功能，可以利用貪婪算法，由下至上逐層地訓練深層神經網絡結構。這個網絡結構的最初輸入特徵，就是底層的聲紋特徵，而經過多個網絡層次的處理，最終輸出的特徵就是包含一定物理意義，具有抽象意義的高層聲紋特徵。通過這一步驟訓練得到的網絡結構，可以保證高層特徵以最小的代價重建初始特徵，並沒有起到區分說話人信息和幹擾信息的作用。
[0063]在獲得映射網絡結構的初級模型之後，為了在高層特徵之中去除非說話人的噪聲影響，需要進一步調節當前的網絡結構模型。這裡需要相對少量的標註數據，即需要知曉語音數據和它對應的說話人身份信息。
[0064]圖3中，底層特徵如果為X，那麼獲得高層特徵將是hk。在這個步驟之前，hk當中代表說話人信息還有另外的噪聲信息，這個步驟需要保留說話人信息，而抑制噪聲信息。
[0065]在一個實施方式中，可以提出2個限制手段。首先:對於輸入端輸入相同說話人的不同語音數據的時候，輸出層獲得的特徵之間的距離應該變小，而當輸入端輸入不同的說話人的語音數據的時候，輸出層獲得的特徵之間的距離應該變大(這裡輸出層對應圖3中hk)。其次，為了保證輸出特徵可以重建輸入特徵，減小獲取說話人信息帶來的其他損耗，也兼顧新結構對於語音數據的重建誤差。可以綜合考慮上述2個限制，構造目標函數，然後利用神經網絡訓練的反向傳播算法(Back Propagation, BP),進一步調節深層神經網絡的結構。在這一步驟之後，獲得網絡同樣拓撲結構的深層神經網絡二級模型，但是模型的各種參數，如Wn等和初級模型不一樣。
[0066]在將神經網絡初級模型精細調節為深層神經網絡的二級模型的過程中，使深層神經網絡二級模型具有提取高層說話人信息能力的時候。這個步驟在深層神經網絡提取特徵當中至關重要，除了上述實施方式之外，可以利用其他不同的目標函數，比如深層神經網絡輸出層的稀疏編碼限制規則，最大交互熵規則等規則，本發明實施方式對此並無限定。
[0067]通過深層神經網絡二級模型，就可以將底層的聲紋特徵，映射為說話人相關的高層聲紋特徵。
[0068]在獲得底層的聲紋信息之後，如MFCC的特徵序列之後，可以將這些特徵輸入訓練好的深層神經網絡的二級模型，然後在神經網絡的輸出端收集輸出矢量，這是一個矢量序列，即為高層的聲紋特徵。
[0069]如圖2和圖3所示，將底層特徵X輸入深層神經網絡二級模型，可以得到hk這個高層特徵。如果輸入的底層特徵是一個時間序列，即Ιχ1，X2，，...，χη}，輸出也將是一個時間序列，即 Ihk1，hk2,，...，hkn}
[0070]圖4為根據本發明實施方式深層神經網絡二級模型建立過程示意圖。
[0071]如圖4所示，在構造深層神經網絡二級模型的過程中，首先收集包含大量語音數據，其中並不需要對這批數據進行身份信息的標註，即不需要表明每句語音數據是有哪個人說的這樣信息。通常，優選期望語音資料庫中儘量包含大量的說話人。
[0072]然後，通過底層聲紋特徵提取處理將輸入的語音數據轉換成底層聲紋信息，常用的有MFCC，LPCC和PLP等特徵，這些特徵比較容易受環境噪聲。可以定義噪聲為:在地鐵，機場，車站，餐館等地方採集的語音；說話人高興，生氣，憤怒或者著急等情態下收集的語音；在麥克風，固定電話，行動電話下收集的語音數據，等等。
[0073]還可以使用如上所述收集的沒有標註的語音數據的底層聲紋特徵，建立用於提取高層聲紋特徵提取的深層神經網絡初級模型。這個映射結構，可以將底層特徵映射到高層，但是這個高層信息中，包含大量的說話人無關的信息。
[0074]接著，可以收集少量語音數據，這些語音數據包含說話人身份信息的標註，同樣對這批數據進行底層特徵提取，然後聯合上一步驟得到的神經網絡初級模型，通過精細調節處理建立深層神經網絡的二級模型，這個深層神經網絡二級模型可以將底層特徵完全的映射為說話人相關的模型，極大程度上消除非說話人的噪聲影響。
[0075]建立完深層神經網絡二級模型之後，可以利用該深層神經網絡二級模型註冊說話人，以及執行說話人識別處理。
[0076]圖5為根據本發明實施方式說話人註冊過程示意圖。
[0077]如圖5所示，本發明實施方式可以利用深層神經網絡二級模型提取說話人的註冊信息的高層特徵序列，並針對該高層說話人註冊信息序列建立高斯模型，以獲取說話人模型參數。[0078]具體包括:首先獲取說話人發出的註冊語音數據，並對註冊語音數據執行底層聲紋特徵提取，以獲取註冊語音底層聲紋特徵，再結合利用深層神經網絡二級模型提取註冊語音高層聲紋特徵，並針對註冊語音高層聲紋特徵建立高斯模型，即為說話人註冊模型。
[0079]圖6為根據本發明實施方式說話人測試過程示意圖。
[0080]如圖6所示，本發明實施方式可以利用深層神經網絡二級模型提取高層說話人測試信息序列，並針對該高層說話人測試信息序列建立測試高斯模型，獲取測試模型參數。然後通過計算註冊高斯模型與測試高斯模型之間的KL距離，識別說話人的身份。
[0081]具體包括:首先獲取說話人發出的測試語音數據，並對測試語音數據執行底層聲紋特徵提取，以獲取測試語音底層聲紋特徵，再結合利用深層神經網絡二級模型提取測試語音高層聲紋特徵，並針對測試語音高層聲紋特徵建立高斯模型，即為說話人測試模型。然後，將該說話人測試模型與說話人註冊模型進行比較，以確定最終的說話人身份。
[0082]實際上，可以通過多種方式執行說話人測試模型與說話人註冊模型的比較過程，比如計算說話人測試模型與說話人註冊模型之間的KL距離。在說話人確認中，可以判斷該說話人測試模型與說話人註冊模型之間的距離，是否低於預先設定的門限值，如果是，則確認該測試語音的說話人為該註冊的待確認說話人。
[0083]在說話人辨識中，可以判斷該說話人測試模型與待辨識說話人群所註冊的模型之間的距離中的最小值，並判定該距離最小值所對應的註冊說話人為說話人。
[0084]基於上述詳細分析，本發明實施方式還提出了一種聲紋識別裝置。
[0085]圖7為根據本發明實施方式說話人聲紋識別裝置結構示意圖。
[0086]如圖7所示，該裝置包括深層神經網絡二級模型獲取單元701、註冊單元702和聲紋識別單元703，其中:
[0087]深層神經網絡二級模型獲取單元701，用於基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型；
[0088]註冊單元702，用於利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識；
[0089]聲紋識別單元703，用於接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。
[0090]在一個實施方式中，深層神經網絡二級模型獲取單元701，用於從無標註語音數據中提取無標註語音底層聲紋特徵，基於無標註語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網絡初級模型。
[0091]在一個實施方式中，深層神經網絡二級模型獲取單元701，用於從有標註語音數據中提取有標註語音底層聲紋特徵，基於該有標註語音底層聲紋特徵對深層神經網絡初級模型進行訓練，以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網絡二級模型。
[0092]在一個實施方式中，深層神經網絡二級模型獲取單元701，用於應用稀疏編碼限制規則或最大交互熵規則，基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
[0093]在一個實施方式中，深層神經網絡二級模型獲取單元702，用於基於相同說話人的不同語音數據所獲得的高層聲紋特徵之間距離變小，以及不同說話人的相同語音數據所獲得的高層聲紋特徵之間距離變大的方式，對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
[0094]優選地，註冊單元702，用於從說話人註冊語音中提取說話人底層聲紋特徵，利用該深層神經網絡二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵；在說話人高層聲紋特徵與說話人標識之間建立對應關係。
[0095]在一個實施方式中，聲紋識別單元703，用於從測試語音數據中提取測試語音底層聲紋特徵；基於該深層神經網絡二級模型，根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵；基於該測試語音高層聲紋特徵確定說話人標識。
[0096]在一個實施方式中，聲紋識別單元703，用於基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並建立該測試語音高層聲紋特徵的高斯模型；計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離，並基於該距離確定說話人標識。
[0097]可以將圖7所示裝置集成到各種網絡的硬體實體當中。比如，可以將聲紋識別裝置集成到:功能手機、智慧型手機、掌上電腦、個人電腦(PO、平板電腦或個人數字助理(PDA)，等等設備之中。
[0098]實際上，可以通過多種形式來具體實施本發明實施方式所提出的聲紋識別裝置。比如，可以遵循一定規範的應用程式接口，將聲紋識別裝置編寫為安裝到自然語言處理伺服器中的插件程序，也可以將其封裝為應用程式以供用戶自行下載使用。當編寫為插件程序時，可以將其實施為ocx、dll、cab等多種插件形式。也可以通過Flash插件、RealPlayer插件、MMS插件、MI五線譜插件、ActiveX插件等具體技術來實施本發明實施方式所提出的聲紋識別裝置。
[0099]可以通過指令或指令集存儲的儲存方式將本發明實施方式所提出的聲紋識別方法存儲在各種存儲介質上。這些存儲介質包括但是不局限於:軟盤、光碟、DVD、硬碟、快閃記憶體、U 盤、CF 卡、SD 卡、MMC 卡、SM 卡、記憶棒(Memory Stick)、xD 卡等。
[0100]另外，還可以將本發明實施方式所提出的聲紋識別方法應用到基於快閃記憶體(Nandflash)的存儲介質中，比如U盤、CF卡、SD卡、SDHC卡、MMC卡、SM卡、記憶棒、xD卡等。
[0101]綜上所述，在本發明實施方式中，基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型；利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。由此可見，應用本發明實施方式之後，可以有效地從底層語譜特徵入手，通過深層神經網絡自動學習語音信號當中包含能夠抵禦噪聲幹擾的高層次說話人信息，從而可以有效抵禦噪聲幹擾。
[0102]另外，可以將本發明實施方式應用於特徵提取端，在有計算開銷限制的環境下，能夠直接獲取魯棒性特徵用於說話人識別應用。在沒有計算資源限制的環境下，在獲取這種特徵之後，本發明實施方式仍然可以通過現有的信道補償算法，並且可以獲得進一步的性能提升。
[0103]以上所述，僅為本發明的較佳實施例而已，並非用於限定本發明的保護範圍。凡在本發明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。
【權利要求】
1.一種聲紋識別方法，其特徵在於，該方法包括: 基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型；利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識；接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。
2.根據權利要求1所述的聲紋識別方法，其特徵在於，所述基於無標註語音數據建立深層神經網絡初級模型包括: 從無標註語音數據中提取無標註語音底層聲紋特徵；基於該無標註語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網絡初級模型。
3.根據權利要求1所述的聲紋識別方法，其特徵在於，所述基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型包括: 從有標註語音數據中提取有標註語音底層聲紋特徵；基於該有標註語音底層聲紋特徵對深層神經網絡初級模型進行訓練，以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網絡二級模型。
4.根據權利要求1所述的聲紋識別方法，其特徵在於，所述基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型包括: 應用稀疏編碼限制規則或最大交互熵規則，基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
5.根據權利要求1所述的聲紋識別方法，其特徵在於，所述基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型包括: 基於相同說話人的不同語音數據所獲得的高層聲紋特徵之間距離變小，以及不同說話人的相同語音數據所獲得的高層聲紋特徵之間距離變大的方式，對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
6.根據權利要求1所述的聲紋識別方法，其特徵在於，所述利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識包括: 從說話人註冊語音中提取說話人底層聲紋特徵，利用該深層神經網絡二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵；在說話人高層聲紋特徵與說話人標識之間建立對應關係。
7.根據權利要求1所述的聲紋識別方法，其特徵在於，所述基於該深層神經網絡二級模型從測試語音數據中提取高層聲紋特徵，並且基於該高層聲紋特徵確定說話人標識包括: 從測試語音數據中提取測試語音底層聲紋特徵；基於該深層神經網絡二級模型，根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵；基於該測試語音高層聲紋特徵確定說話人標識。
8.根據權利要求1所述的聲紋識別方法，其特徵在於，所述基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識包括: 基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並建立該測試語音高層聲紋特徵的高斯模型；計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離，並基於該距離確定說話人標識。
9.一種聲紋識別裝置，其特徵在於，該裝置包括深層神經網絡二級模型獲取單元、註冊單元和聲紋識別單元，其中: 深層神經網絡二級模型獲取單元，用於基於無標註語音數據建立深層神經網絡初級模型，並且基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型；註冊單元，用於利用該深層神經網絡二級模型註冊說話人高層聲紋特徵與說話人標識；聲紋識別單元，用於接收測試語音數據，基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並且基於該測試語音高層聲紋特徵確定說話人標識。
10.根據權利要求9所述的聲紋識別裝置，其特徵在於，深層神經網絡二級模型獲取單元，用於從無標註語音數據中提取無標註語音底層聲紋特徵，基於無標註語音底層聲紋特徵建立用於提取高層聲紋特徵的深層神經網絡初級模型。
11.根據權利要求9所述的聲紋識別裝置，其特徵在於，深層神經網絡二級模型獲取單元，用於從有標註語音數據中提取有標註語音底層聲紋特徵，基於該有標註語音底層聲紋特徵對深層神經網絡初級模型進行訓練，以獲取用於提取與說話人相關的高層聲紋特徵的深層神經網絡二級模型。
12.根據權利要求9所述的聲紋識別裝置，其特徵在於，深層神經網絡二級模型獲取單元，用於應用稀疏編碼限制規則或最大交互熵規則，基於有標註語音數據對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
13.根據權利要求9所述的聲紋識別裝置，其特徵在於，深層神經網絡二級模型獲取單元，用於基於相同說話人的不同語音數據所獲得的高層聲紋特徵之間距離變小，以及不同說話人的相同語音數據所獲得的高層聲紋特徵之間距離變大的方式，對該深層神經網絡初級模型進行訓練，以獲取深層神經網絡二級模型。
14.根據權利要求9所述的聲紋識別裝置，其特徵在於，註冊單元，用於從說話人註冊語音中提取說話人底層聲紋特徵，利用該深層神經網絡二級模型從說話人底層聲紋特徵中獲取說話人高層聲紋特徵；在說話人高層聲紋特徵與說話人標識之間建立對應關係。
15.根據權利要求9所述的聲紋識別裝置，其特徵在於，聲紋識別單元，用於從測試語音數據中提取測試語音底層聲紋特徵；基於該深層神經網絡二級模型，根據測試語音底層聲紋特徵獲取測試語音高層聲紋特徵；基於該測試語音高層聲紋特徵確定說話人標識。
16.根據權利要求9所述的聲紋識別裝置，其特徵在於，聲紋識別單元，用於基於該深層神經網絡二級模型從測試語音數據中提取測試語音高層聲紋特徵，並建立該測試語音高層聲紋特徵的高斯模型；計算該測試語音高層聲紋特徵的高斯模型與所註冊的高層聲紋特徵的高斯模型之間的距離，並基於該距離確定說話人標識。
【文檔編號】G10L17/20GK103971690SQ201310032846
【公開日】2014年8月6日申請日期:2013年1月28日優先權日:2013年1月28日
【發明者】王爾玉, 盧鯉, 張翔, 劉海波, 李露, 饒豐, 陸讀羚, 嶽帥, 陳波申請人:騰訊科技（深圳）有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種聲紋識別方法和裝置製造方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法