新四季網

訓練聲學特徵提取模型的方法、裝置、設備和計算機存儲介質與流程

2023-12-11 23:54:32 1


【技術領域】

本發明涉及計算機應用技術領域,特別涉及一種訓練聲學特徵提取模型的方法、裝置、設備和計算機存儲介質。



背景技術:

隨著人工智慧的不斷發展,語音交互已經成為最自然的交互方式之一得到日益推廣,聲音識別技術也越來越得到人們的重視。在聲音識別技術中,聲學特徵的提取是核心技術,其可以用於用戶識別、驗證或分類等。

在現有聲學特徵提取模型中,越來越多的採用了深度神經網絡,在使用深度神經網絡進行模型訓練過程中,採用的大多是softmax回歸方式。但這種softmax回歸方式在特徵空間很大時,性能較差且準確性也較低。



技術實現要素:

本發明提供了一種訓練聲學特徵提取模型的方法、裝置、設備和計算機存儲介質,以便於提高模型訓練的性能和準確性。

具體技術方案如下:

本發明提供了一種訓練聲學特徵提取模型的方法,該方法包括:

將從各用戶標識對應的語音數據中分別提取的第一聲學特徵,作為訓練數據;

基於分類誤差最小準則訓練基於深度神經網絡的初始模型,直至達到預設的第一停止條件;

利用三元組損失層替換所述初始模型中的softmax層,構成聲學特徵提取模型,並繼續訓練所述聲學特徵提取模型,直至達到預設的第二停止條件,所述聲學特徵提取模型用於輸出語音數據的第二聲學特徵;

其中所述三元組損失層用於最大化相同用戶的第二聲學特徵之間的相似度且最小化不同用戶的第二聲學特徵之間的相似度。

根據本發明一優選實施方式,所述第一聲學特徵包括:fbank64聲學特徵。

根據本發明一優選實施方式,所述基於深度神經網絡的初始模型包括:深度神經網絡、池化層和softmax層;

所述深度神經網絡用於對各語音數據的第一聲學特徵進行學習,輸出幀級別的第二聲學特徵;

所述池化層用於對幀級別的第二聲學特徵進行句子平均化處理,得到句子級別的第二聲學特徵;

softmax層用於將句子級別的第二聲學特徵映射至各用戶標識對應的分類上。

根據本發明一優選實施方式,所述分類誤差最小準則包括交叉熵準則。

根據本發明一優選實施方式,所述深度神經網絡包括:卷積神經網絡cnn、殘差卷積神經網絡rescnn或者門控遞歸單元gru。

根據本發明一優選實施方式,所述第一停止條件包括以下至少之一:

迭代值趨於收斂;

所述初始模型在測試集上的性能趨於收斂。

根據本發明一優選實施方式,所述三元損失層具體用於利用所述各語音數據的第二聲學特徵計算三元組損失,利用所述三元組損失對所述深度神經網絡進行調參,以最小化所述三元組損失;

其中,所述三元組損失體現不同用戶的第二聲學特徵之間的相似度與相同用戶的第二聲學特徵之間的相似度的差值狀況。

根據本發明一優選實施方式,所述第二停止條件包括以下至少一種:

迭代值趨於收斂;

所述聲學特徵提取模型在測試集上的性能趨於收斂。

本發明還提供了一種提取聲學特徵的方法,其特徵在於,該方法包括:

提取待處理語音數據的第一聲學特徵;

將所述第一聲學特徵輸入聲學特徵提取模型,得到待處理語音數據的第二聲學特徵;

其中所述聲學特徵提取模型是採用上述訓練聲學特徵提取模型的方法預先訓練得到的。

本發明還提供了一種訓練聲學特徵提取模型的裝置,該裝置包括:

訓練數據獲取單元,用於將從各用戶標識對應的語音數據中分別提取的第一聲學特徵,作為訓練數據;

初始模型訓練單元,用於基於分類誤差最小準則訓練基於深度神經網絡的初始模型,直至達到預設的第一停止條件;

提取模型訓練單元,用於利用三元組損失層替換所述初始模型中的softmax層,構成聲學特徵提取模型,並繼續訓練所述聲學特徵提取模型,直至達到預設的第二停止條件,所述聲學特徵提取模型用於輸出語音數據的第二聲學特徵;

其中所述三元組損失層用於最大化相同用戶的第二聲學特徵之間的相似度且最小化不同用戶的第二聲學特徵之間的相似度。

根據本發明一優選實施方式,所述第一聲學特徵包括:fbank64聲學特徵。

根據本發明一優選實施方式,所述基於深度神經網絡的初始模型包括:深度神經網絡、池化層和softmax層;

所述深度神經網絡用於對各語音數據的第一聲學特徵進行學習,輸出幀級別的第二聲學特徵;

所述池化層用於對幀級別的第二聲學特徵進行句子平均化處理,得到句子級別的第二聲學特徵;

softmax層用於將句子級別的第二聲學特徵映射至各用戶標識對應的分類上。

根據本發明一優選實施方式,所述分類誤差最小準則包括:交叉熵準則。

根據本發明一優選實施方式,所述深度神經網絡包括:卷積神經網絡cnn、殘差卷積神經網絡rescnn或者門控遞歸單元gru。

根據本發明一優選實施方式,所述第一停止條件包括以下至少之一:

迭代值趨於收斂;

所述初始模型在測試集上的性能趨於收斂。

根據本發明一優選實施方式,所述三元損失層具體用於利用所述各語音數據的第二聲學特徵計算三元組損失,利用所述三元組損失對所述深度神經網絡進行調參,以最小化所述三元組損失;

其中,所述三元組損失體現不同用戶的第二聲學特徵之間的相似度與相同用戶的第二聲學特徵之間的相似度的差值狀況。

根據本發明一優選實施方式,所述第二停止條件包括以下至少一種:

迭代值趨於收斂;

所述聲學特徵提取模型在測試集上的性能趨於收斂。

本發明還提供了一種提取聲學特徵的裝置,該裝置包括:

預處理單元,用於提取待處理語音數據的第一聲學特徵;

特徵提取單元,用於將所述第一聲學特徵輸入聲學特徵提取模型,得到待處理語音數據的第二聲學特徵;

其中所述聲學特徵提取模型是由上述訓練聲學特徵提取模型的裝置預先訓練得到的。

本發明還提供了一種設備,所述設備包括:

一個或多個處理器;

存儲裝置,用於存儲一個或多個程序,

當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現上述方法。

本發明還提供了一種包含計算機可執行指令的存儲介質,所述計算機可執行指令在由計算機處理器執行時用於執行上述方法。

由以上技術方案可以看出,在本發明中首先基於分類誤差最小準則訓練基於深度神經網絡的初始模型,直至達到預設第一停止條件後,利用三元組損失層替換初始模型中的softmax層,繼續訓練聲學特徵提取模型,直至達到預設的第二停止條件。這種預訓練+調整的模型訓練方式,相比較單純採用softmax回歸的訓練方式,在較大特徵空間上能夠提高模型訓練的性能和準確性。

【附圖說明】

圖1為本發明實施例提供的訓練聲學特徵提取模型的方法流程圖;

圖2為本發明實施例提供的基於深度神經網絡的初始模型的結構圖;

圖3為本發明實施例提供的堆疊殘差塊的示意圖;

圖4為本發明實施例提供的聲學特徵提取模型的結構圖;

圖5為本發明實施例提供的提取聲學特徵的方法流程圖;

圖6為本發明實施例提供的訓練聲學特徵提取模型的裝置結構圖;

圖7為本發明實施例提供的提取聲學特徵的裝置結構圖;

圖8為實現本發明實施方式的示例性計算機系統/伺服器的框圖。

【具體實施方式】

為了使本發明的目的、技術方案和優點更加清楚,下面結合附圖和具體實施例對本發明進行詳細描述。

在本發明實施例中使用的術語是僅僅出於描述特定實施例的目的,而非旨在限制本發明。在本發明實施例和所附權利要求書中所使用的單數形式的「一種」、「所述」和「該」也旨在包括多數形式,除非上下文清楚地表示其他含義。

應當理解,本文中使用的術語「和/或」僅僅是一種描述關聯對象的關聯關係,表示可以存在三種關係,例如,a和/或b,可以表示:單獨存在a,同時存在a和b,單獨存在b這三種情況。另外,本文中字符「/」,一般表示前後關聯對象是一種「或」的關係。

取決於語境,如在此所使用的詞語「如果」可以被解釋成為「在……時」或「當……時」或「響應於確定」或「響應於檢測」。類似地,取決於語境,短語「如果確定」或「如果檢測(陳述的條件或事件)」可以被解釋成為「當確定時」或「響應於確定」或「當檢測(陳述的條件或事件)時」或「響應於檢測(陳述的條件或事件)」。

本發明的核心思想為:將整個聲學特徵提取模型的訓練分為預訓練(pre-training)階段和調整(fine-tuning)階段。在預訓練階段中基於分類誤差最小準則訓練基於深度神經網絡的初始模型,在調整階段利用三元組損失層替換softmax層,繼續進行模型訓練,得到最終的聲學特徵提取模型。下面結合實施例對該方法進行詳細描述。

圖1為本發明實施例提供的訓練聲學特徵提取模型的方法流程圖,如圖1所示,該方法可以包括以下步驟:

在101中,將從各用戶標識對應的語音數據中分別提取的第一聲學特徵,作為訓練數據。

在本發明中進行聲學特徵提取模型的訓練時,需要首先對訓練數據中的語音數據進行低層聲學特徵的提取,即進行預處理。其中該低層聲學特徵相對於高層聲學特徵粒度更粗,包含信息量也更粗;相反,經過聲學特徵提取模型處理後得到的高層聲學特徵相對於低層聲學特徵粒度更細,包含信息量也更細緻,更適於建立聲紋模型,以進行用戶聲紋的建立。在本發明實施例中,為了對這兩種聲學特徵進行區分,將對語音數據進行預處理後得到的低層聲學特徵稱為第一聲學特徵;將經過聲學特徵提取模型對低層聲學特徵進行處理後,得到的高層聲學特徵稱為第二聲學特徵。

本步驟中,可以預先採集已知用戶的語音數據,在選擇訓練數據時可以對這些語音數據有一些質量要求,例如選取清晰度較好的語音數據,再例如刪除長度過長或過短的語音數據,等等。

對於採集到的語音數據首先進行預處理,從中提取各語音數據的第一聲學特徵。如前面所述的,該第一聲學特徵是低層的聲學特徵。在本發明實施例中可以採用fbank(mel-scalefilterbank,梅爾標度濾波器組)特徵作為第一聲學特徵。例如,以25ms為一幀、10ms為步長提取語音數據的fbank特徵。但本發明並不限於fbank特徵,還可以採用其他特徵作為第一聲學特徵。

這樣,就可以得到各用戶標識對應的第一聲學特徵,從而構成訓練數據。其中本發明並不限定用戶標識的具體類型,可以是任意類型的標識,只要能夠區分用戶即可。在訓練數據中可以包含同一用戶對應的不同語音數據的第一聲學特徵,不同用戶對應的語音數據的第一聲學特徵,等等。訓練數據中各第一聲學特徵均具有對應的用戶標識作為標籤。

在102中,基於分類誤差最小準則訓練基於深度神經網絡的初始模型,直至達到預設的第一停止條件。

本步驟中涉及的基於深度神經網絡的初始模型如圖2中所示,主要包括以下三層:深度神經網絡、池化層和softmax層。

其中,深度神經網絡用於對各語音數據的第一聲學特徵進行學習,輸出幀級別的第二聲學特徵。

深度神經網絡可以採用cnn、gru(gatedrecurrentunit,門控遞歸單元)等,當然也可以採用其他諸如rnn、lstm等其他類型的深度神經網絡。由於cnn相比較rnn、lstm等而言,能夠更加有效地減小頻譜變化以及將頻譜相關性在聲學特徵中進行體現,因此在本發明實施例中優選cnn這種類型的深度神經網絡。

然而,儘管深度神經網絡具有很好地學習能力,但更難進行訓練,在一定深度情況下準確性反而下滑。為了解決該問題,本發明可以基於cnn使用但不限於resnet(residualnet,殘差網絡)型cnn,或者採用gru。

首先對resnet型cnn進行介紹。

resnet可以用於簡化cnn的訓練。resnet包括若干resblock(堆疊殘差塊),各resblock包括低層輸出和高層輸入間的直接連接。如圖3中所示,各resblock可以定義為:

h=f(x,wi)+x

其中,x和h分別表示resblock的輸入和輸出。f表示堆疊的非線性層的映射函數。

如圖3所示,resblock可以包括兩個卷積層和兩個激活層。其中,兩個卷積層可以包括諸如3×3的過濾器和1×1的stride(步幅)。每個resblock包括相同的結構,並且跳轉連接是對x的相同映射。若通道的數量增加,則可以使用一個卷積層(例如具有5×5的過濾器和2×2的stride)。因此,頻率維度始終在卷積層中保持恆定。經過研究發現,語音識別在時間維度上對stride並不敏感。在本發明實施例中,可以使用如下relu函數作為所有激活層的非線性處理:

σ(x)=min{max{x,0},20}

下面對gru進行介紹。

gru相比較lstm而言,訓練速度更快且發散程度更小。本發明實施例中深度神經網絡層可以採用多個gru構成。例如,每個gru可以包括一個5×5過濾器和2×2stride的卷積層,能夠減少時域和頻域的維度,從而允許gru的計算速度更快。緊接著卷積層的是三個具有1024個單元的前向gru層,在時間維度上進行循環。在gru中也可以採用諸如relu進行激活。

深度神經網絡的上層是池化層(pooling),池化層用於對深度神經網絡輸出的幀級別的第二聲學特徵進行句子平均化處理,得到句子級別的第二聲學特徵。

池化層的輸出h'可以採用如下公式:

其中,t為句子包含的幀數目,x'(t)為池化層的輸入。

經過池化層的處理,使得本發明實施例提供的聲學特徵提取模型能夠處理不同時長的語句,解決了文本無關的情況。

另外,在池化層中還可以包括仿射層(圖2中未示出),用於將句子級別的第二聲學特徵投射到預設的維度,例如投射到512維度。

本實施例中基於深度神經網絡的初始模型實際上是一個多分類模型,其輸出層為softmax層,主要作用是將句子級別的第二聲學特徵映射至各用戶標識對應的分類上。

在本發明中實際上預訓練的過程來初始化深度神經網絡的參數,使得初始化深度神經網絡能夠最小化softmax層的分類誤差。然後再使用三元組損失來繼續進行模型訓練,調整深度神經網絡的參數。其中,分類誤差最小準則可以包括交叉熵準則。由於softmax層和交叉熵準則為現有技術中已有的概念,在此不做詳述。

由於softmax層對應的是多分類,因此通常訓練樣本存在多少個用戶,softmax層就對應有多少個節點。因為訓練樣本通常採用上萬個用戶作為發聲者來採集樣本,因此,softmax層就存在上萬個節點。

上述的第一停止條件可以體現在收斂速度或性能達到一定程度上,例如迭代值趨於收斂,或者初始模型在測試集上的性能趨於收斂。舉個例子,在初始模型的預訓練過程中,會進行分類誤差的迭代,從而實現深度神經網絡的參數調整。但隨著訓練的進行,該分類誤差會趨於收斂,例如連續若干次的迭代值的變化率小於預設閾值,則可以認為分類誤差趨於收斂。再舉個例子,在訓練過程中,可以將初始模型在測試集上進行測試,測試集可以是由不同於訓練數據的已知用戶的語音數據構成,利用初始模型在測試集上進行測試,提取第二聲學特徵,並利用提取的第二聲學特徵進行用戶識別等測試,判斷eer或acc等是否逐漸趨於收斂。

在103中,利用三元組損失層替換初始模型中的softmax層,構成聲學特徵提取模型,並繼續訓練該聲學特徵提取模型,直至達到預設的第二停止條件,該聲學特徵提取模型用於輸出語音數據的第二聲學特徵。

經過上述替換後,聲學特徵提取模型的結構可以如圖4所示,深度神經網絡和池化層仍保持訓練後的初始模型的情況不變,將softmax層替換為了三元組損失層。

三元組損失層用於最大化相同用戶的第二聲學特徵之間的相似度且最小化不同用戶的第二聲學特徵之間的相似度。具體地,三元組損失層可以利用各語音數據的第二聲學特徵計算三元組損失,利用三元組損失對深度神經網絡進行調參,以最小化三元組損失。其中三元組損失體現不同用戶的第二聲學特徵之間的相似度與相同用戶的第二聲學特徵之間的相似度的差值狀況。

優選地,在池化層和三元組損失層之間還可以包括長度標準化層,長度標準化層用於將仿射層輸出的句子級別的第二聲學特徵的長度進行規整,使模為1。

本發明實施例中,三元損失層採用三元損失對深度神經網絡層進行反饋訓練,以最小化相同用戶的第二聲學特徵之間的相似度且最大化不同用戶的第二聲學特徵之間的相似度。

三元損失層可以採用三個樣本作為輸入:錨樣本,包括一個用戶的句子級別的第二聲學特徵;正樣本,包括與錨樣本同一用戶的另一句子級別的第二聲學特徵;負樣本,包括與錨樣本不同用戶的句子級別的第二聲學特徵。將上述樣本構成一個三元組。

三元損失層對深度神經網絡層進行反饋,以使得錨樣本和正樣本之間的餘弦相似度(在本發明實施例中樣本之間的相似度採用餘弦相似度體現,但不排除其他相似度計算方式)大於錨樣本和負樣本之間的餘弦相似度。形式上,

其中,為三元組i中錨樣本a和正樣本p之間的餘弦相似度。為三元組i中錨樣本a和正樣本n之間的餘弦相似度。訓練目標是找到這些相似度中的最小邊緣α。即計算三元組損失,該三元組損失體現不同用戶的第二聲學特徵之間的相似度與相同用戶的第二聲學特徵之間的相似度的差值狀況。例如該三元組損失的計算函數l可以為:

其中,n為三元組的數目,操作符[x]+=max(x,0)。

計算出的三元組損失反饋給深度神經網絡層,以不斷調整深度神經網絡層的參數,從而逐漸訓練深度神經網絡,最終最小化利用提取的第二聲學特徵計算的三元組損失。達到第二停止條件後,此次訓練過程結束,得到聲學特徵提取模型。

第二停止條件與第一停止條件類似的,可以包括迭代值趨於收斂,或者聲學特徵提取模型在測試集上的性能趨於收斂。

在採用上述訓練方法訓練得到聲學特徵提取模型後,就可以利用聲學特徵提取模型進行聲學特徵的提取。提取過程可以如圖5中所示。包括以下步驟:

在501中,提取待處理語音數據的第一聲學特徵。

本步驟是對待處理語音數據的預處理,即從中提取第一聲學特徵,該第一聲學特徵是低層的聲學特徵。此處提取的第一聲學特徵的類型和方式與圖1所示實施例中步驟101中提取第一聲學特徵的類型和方式一致。在此不再贅述。

在502中,將提取出的第一聲學特徵輸入聲學特徵提取模型,得到待處理語音數據的第二聲學特徵。

對於預先訓練得到的聲學特徵提取模型,由於其從訓練數據中已經完成從第一聲學特徵到第二聲學特徵的自學習,因此將步驟501中提取出的待處理語音數據的第一聲學特徵輸入聲學特徵提取模型,聲學特徵提取模型就能夠輸出待處理語音數據的第二聲學特徵。該第二聲學特徵可以為句子級別的高層聲學特徵。

在得到待處理語音數據的第二聲學特徵後,可以利用第二聲學特徵進行後續應用的處理,在503a中,利用待處理語音數據的第二聲學特徵,註冊該待處理語音數據所對應用戶標識的聲紋模型,或者在503b中,將待處理語音數據的第二聲學特徵與已註冊的各用戶標識的聲紋模型進行匹配,確定待處理語音數據對應的用戶標識。

在503a中,若待處理語音數據對應的用戶標識已知,則可以利用提取的第二聲學特徵註冊該用戶標識對應的聲紋模型。在註冊聲紋模型時,可以將提取的第二聲學特徵進行處理後,作為聲紋信息存儲於聲紋模型庫中。可以利用用戶標識對應的一個或多個第二聲學特徵來進行聲學模型的註冊,具體註冊過程本發明不做具體限制。

在503b中,若待處理語音數據對應的用戶標識未知,則可以利用提取的第二聲學特徵與聲紋模型庫中各已註冊的聲紋模型進行匹配,例如通過計算提取的第二聲學特徵與聲紋模型庫中各聲紋模型之間相似度的方式進行匹配。若匹配到某個聲紋模型,則可以確定該待處理語音數據對應該匹配到的聲紋模型對應的用戶標識。

上述503a和503b是本發明實施例提供的兩種在提取語音數據的第二聲學特徵後,對其的應用方式,當然除了這兩種應用方式之外,還可以進行其他應用,本發明不做一一窮舉。

上述方法可以應用於語音識別系統中,執行主體可以為對應裝置,該裝置可以是位於用戶設備的應用,或者還可以為位於用戶設備的應用中的插件或軟體開發工具包(softwaredevelopmentkit,sdk)等功能單元。其中,用戶設備可以包括但不限於諸如:智能移動終端、智能家居設備、網絡設備、可穿戴式設備、智能醫療設備、pc(個人計算機)等。其中智能行動裝置可以包括諸如手機、平板電腦、筆記本電腦、pda(個人數字助理)、網際網路汽車等。智能家居設備可以包括智能家電設備,諸如智能電視、智能空調、智能熱水器、智能冰箱、智能空氣淨化器等等,智能家居設備還可以包括智能門鎖、智能電燈、智能攝像頭等。網絡設備可以包括諸如交換機、無線ap、伺服器等。可穿戴式設備可以包括諸如智能手錶、智能眼鏡、智能手環、虛擬實境設備、增強現實設備、混合現實設備(即可以支持虛擬實境和增強現實的設備)等等。智能醫療設備可以包括諸如智能體溫計、智能血壓儀、智能血糖儀等等。

圖6為本發明實施例提供的訓練聲學特徵提取模型的裝置結構圖,如圖6所示,該裝置可以包括:訓練數據獲取單元01、初始模型訓練單元02和提取模型訓練單元03。其中各組成單元的主要功能如下:

訓練數據獲取單元01負責將從各用戶標識對應的語音數據中分別提取的第一聲學特徵,作為訓練數據。

可以預先採集已知用戶的語音數據,在選擇訓練數據時可以對這些語音數據有一些質量要求,例如選取清晰度較好的語音數據,再例如刪除長度過長或過短的語音數據,等等。

對於採集到的語音數據首先進行預處理,從中提取各語音數據的第一聲學特徵。如前面所述的,該第一聲學特徵是低層的聲學特徵。在本發明實施例中可以採用fbank特徵作為第一聲學特徵。例如,以25ms為一幀、10ms為步長提取語音數據的fbank特徵。但本發明並不限於fbank特徵,還可以採用其他特徵作為第一聲學特徵。

初始模型訓練單元02負責基於分類誤差最小準則訓練基於深度神經網絡的初始模型,直至達到預設的第一停止條件。

基於深度神經網絡的初始模型可以如圖2中所示,主要包括以下三層:深度神經網絡、池化層和softmax層。

深度神經網絡可以採用cnn、gru等,當然也可以採用其他諸如rnn、lstm等其他類型的深度神經網絡。由於cnn相比較rnn、lstm等而言,能夠更加有效地減小頻譜變化以及將頻譜相關性在聲學特徵中進行體現,因此在本發明實施例中優選cnn這種類型的深度神經網絡。

然而,儘管深度神經網絡具有很好地學習能力,但更難進行訓練,在一定深度情況下準確性反而下滑。為了解決該問題,本發明可以基於cnn使用但不限於resnet型cnn,或者採用gru。

深度神經網絡的上層是池化層(pooling),池化層用於對深度神經網絡輸出的幀級別的第二聲學特徵進行句子平均化處理,得到句子級別的第二聲學特徵。

經過池化層的處理,使得本發明實施例提供的聲學特徵提取模型能夠處理不同時長的語句,解決了文本無關的情況。

另外,在池化層中還可以包括仿射層(圖2中未示出),用於將句子級別的第二聲學特徵投射到預設的維度,例如投射到512維度。

本實施例中基於深度神經網絡的初始模型實際上是一個多分類模型,其輸出層為softmax層,主要作用是將句子級別的第二聲學特徵映射至各用戶標識對應的分類上。

在本發明中實際上預訓練的過程來初始化深度神經網絡的參數,使得初始化深度神經網絡能夠最小化softmax層的分類誤差。然後再使用三元組損失來繼續進行模型訓練,調整深度神經網絡的參數。其中,分類誤差最小準則可以包括交叉熵準則。由於softmax層和交叉熵準則為現有技術中已有的概念,在此不做詳述。

由於softmax層對應的是多分類,因此通常訓練樣本存在多少個用戶,softmax層就對應有多少個節點。因為訓練樣本通常採用上萬個用戶作為發聲者來採集樣本,因此,softmax層就存在上萬個節點。

上述的第一停止條件可以體現在收斂速度或性能達到一定程度上,例如可以包括但不限於以下至少之一:

迭代值趨於收斂,或者初始模型在測試集上的性能趨於收斂。舉個例子,在初始模型的預訓練過程中,會進行分類誤差的迭代,從而實現深度神經網絡的參數調整。但隨著訓練的進行,該分類誤差會趨於收斂,例如連續若干次的迭代值的變化率小於預設閾值,則可以認為分類誤差趨於收斂。再舉個例子,在訓練過程中,可以將初始模型在測試集上進行測試,測試集可以是由不同於訓練數據的已知用戶的語音數據構成,利用初始模型在測試集上進行測試,提取第二聲學特徵,並利用提取的第二聲學特徵進行用戶識別等測試,判斷eer或acc等是否趨於收斂。

提取模型訓練單元03負責利用三元組損失層替換初始模型中的softmax層,構成聲學特徵提取模型,並繼續訓練聲學特徵提取模型,直至達到預設的第二停止條件,聲學特徵提取模型用於輸出語音數據的第二聲學特徵;其中三元組損失層用於最大化相同用戶的第二聲學特徵之間的相似度且最小化不同用戶的第二聲學特徵之間的相似度。

經過上述替換後,聲學特徵提取模型的結構可以如圖4所示,深度神經網絡和池化層仍保持訓練後的初始模型的情況不變,將softmax層替換為了三元組損失層。

三元組損失層用於最大化相同用戶的第二聲學特徵之間的相似度且最小化不同用戶的第二聲學特徵之間的相似度。具體地,三元組損失層可以利用各語音數據的第二聲學特徵計算三元組損失,利用三元組損失對深度神經網絡進行調參,以最小化三元組損失。其中三元組損失體現不同用戶的第二聲學特徵之間的相似度與相同用戶的第二聲學特徵之間的相似度的差值狀況。

優選地,在池化層和三元組損失層之間還可以包括長度標準化層,長度標準化層用於將仿射層輸出的句子級別的第二聲學特徵的長度進行規整,使模為1。

本發明實施例中,三元損失層採用三元損失對深度神經網絡層進行反饋訓練,以最大化相同用戶的第二聲學特徵之間的相似度且最小化不同用戶的第二聲學特徵之間的相似度。

三元損失層可以採用三個樣本作為輸入:錨樣本,包括一個用戶的句子級別的第二聲學特徵;正樣本,包括與錨樣本同一用戶的另一句子級別的第二聲學特徵;負樣本,包括與錨樣本不同用戶的句子級別的第二聲學特徵。將上述樣本構成一個三元組。

三元損失層對深度神經網絡層進行反饋,以使得錨樣本和正樣本之間的餘弦相似度(在本發明實施例中樣本之間的相似度採用餘弦相似度體現,但不排除其他相似度計算方式)大於錨樣本和負樣本之間的餘弦相似度。即計算三元組損失,該三元組損失體現不同用戶的第二聲學特徵之間的相似度與相同用戶的第二聲學特徵之間的相似度的差值狀況。

計算出的三元組損失反饋給深度神經網絡層,以不斷調整深度神經網絡層的參數,從而逐漸訓練深度神經網絡,最終最小化利用提取的第二聲學特徵計算的三元組損失。達到第二停止條件後,此次訓練過程結束,得到聲學特徵提取模型。

第二停止條件與第一停止條件類似的,可以以包括迭代值趨於收斂,或者聲學特徵提取模型在測試集上的性能趨於收斂。

圖7為本發明實施例提供的提取聲學特徵的裝置結構圖,如圖7所示,該裝置可以包括:預處理單元11和特徵提取單元12。其中各組成單元的主要功能如下:

預處理單元11負責提取待處理語音數據的第一聲學特徵。該第一聲學特徵的類型和提取方式與圖6中數據獲取單元01獲取訓練數據時所採用的第一聲學特徵的類型和提取方式一致。例如,第一聲學特徵可以採用fbank特徵。

特徵提取單元12負責將第一聲學特徵輸入聲學特徵提取模型,得到待處理語音數據的第二聲學特徵。

圖8示出了適於用來實現本發明實施方式的示例性計算機系統/伺服器012的框圖。圖8顯示的計算機系統/伺服器012僅僅是一個示例,不應對本發明實施例的功能和使用範圍帶來任何限制。

如圖8所示,計算機系統/伺服器012以通用計算設備的形式表現。計算機系統/伺服器012的組件可以包括但不限於:一個或者多個處理器或者處理單元016,系統存儲器028,連接不同系統組件(包括系統存儲器028和處理單元016)的總線018。

總線018表示幾類總線結構中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速埠,處理器或者使用多種總線結構中的任意總線結構的局域總線。舉例來說,這些體系結構包括但不限於工業標準體系結構(isa)總線,微通道體系結構(mac)總線,增強型isa總線、視頻電子標準協會(vesa)局域總線以及外圍組件互連(pci)總線。

計算機系統/伺服器012典型地包括多種計算機系統可讀介質。這些介質可以是任何能夠被計算機系統/伺服器012訪問的可用介質,包括易失性和非易失性介質,可移動的和不可移動的介質。

系統存儲器028可以包括易失性存儲器形式的計算機系統可讀介質,例如隨機存取存儲器(ram)030和/或高速緩存存儲器032。計算機系統/伺服器012可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統存儲介質。僅作為舉例,存儲系統034可以用於讀寫不可移動的、非易失性磁介質(圖8未顯示,通常稱為「硬碟驅動器」)。儘管圖8中未示出,可以提供用於對可移動非易失性磁碟(例如「軟盤」)讀寫的磁碟驅動器,以及對可移動非易失性光碟(例如cd-rom,dvd-rom或者其它光介質)讀寫的光碟驅動器。在這些情況下,每個驅動器可以通過一個或者多個數據介質接口與總線018相連。存儲器028可以包括至少一個程序產品,該程序產品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執行本發明各實施例的功能。

具有一組(至少一個)程序模塊042的程序/實用工具040,可以存儲在例如存儲器028中,這樣的程序模塊042包括——但不限於——作業系統、一個或者多個應用程式、其它程序模塊以及程序數據,這些示例中的每一個或某種組合中可能包括網絡環境的實現。程序模塊042通常執行本發明所描述的實施例中的功能和/或方法。

計算機系統/伺服器012也可以與一個或多個外部設備014(例如鍵盤、指向設備、顯示器024等)通信,在本發明中,計算機系統/伺服器012與外部雷達設備進行通信,還可與一個或者多個使得用戶能與該計算機系統/伺服器012交互的設備通信,和/或與使得該計算機系統/伺服器012能與一個或多個其它計算設備進行通信的任何設備(例如網卡,數據機等等)通信。這種通信可以通過輸入/輸出(i/o)接口022進行。並且,計算機系統/伺服器012還可以通過網絡適配器020與一個或者多個網絡(例如區域網(lan),廣域網(wan)和/或公共網絡,例如網際網路)通信。如圖所示,網絡適配器020通過總線018與計算機系統/伺服器012的其它模塊通信。應當明白,儘管圖8中未示出,可以結合計算機系統/伺服器012使用其它硬體和/或軟體模塊,包括但不限於:微代碼、設備驅動器、冗餘處理單元、外部磁碟驅動陣列、raid系統、磁帶驅動器以及數據備份存儲系統等。

處理單元016通過運行存儲在系統存儲器028中的程序,從而執行各種功能應用以及數據處理,例如實現一種訓練聲學特徵提取模型的方法,可以包括:

將從各用戶標識對應的語音數據中分別提取的第一聲學特徵,作為訓練數據;

基於分類誤差最小準則訓練基於深度神經網絡的初始模型,直至達到預設的第一停止條件;

利用三元組損失層替換所述初始模型中的softmax層,構成聲學特徵提取模型,並繼續訓練所述聲學特徵提取模型,直至達到預設的第二停止條件,所述聲學特徵提取模型用於輸出語音數據的第二聲學特徵;

其中所述三元組損失層用於最小化相同用戶的第二聲學特徵之間的相似度且最大化不同用戶的第二聲學特徵之間的相似度。

再例如,實現一種提取聲學特徵的方法,可以包括:

提取待處理語音數據的第一聲學特徵;

將所述第一聲學特徵輸入聲學特徵提取模型,得到待處理語音數據的第二聲學特徵。

上述的電腦程式可以設置於計算機存儲介質中,即該計算機存儲介質被編碼有電腦程式,該程序在被一個或多個計算機執行時,使得一個或多個計算機執行本發明上述實施例中所示的方法流程和/或裝置操作。例如,被上述一個或多個處理器執行的方法流程,可以包括:

將從各用戶標識對應的語音數據中分別提取的第一聲學特徵,作為訓練數據;

基於分類誤差最小準則訓練基於深度神經網絡的初始模型,直至達到預設的第一停止條件;

利用三元組損失層替換所述初始模型中的softmax層,構成聲學特徵提取模型,並繼續訓練所述聲學特徵提取模型,直至達到預設的第二停止條件,所述聲學特徵提取模型用於輸出語音數據的第二聲學特徵;

其中所述三元組損失層用於最小化相同用戶的第二聲學特徵之間的相似度且最大化不同用戶的第二聲學特徵之間的相似度。

再例如,被上述一個或多個處理器執行的方法流程,可以包括:

提取待處理語音數據的第一聲學特徵;

將所述第一聲學特徵輸入聲學特徵提取模型,得到待處理語音數據的第二聲學特徵。

隨著時間、技術的發展,介質含義越來越廣泛,電腦程式的傳播途徑不再受限於有形介質,還可以直接從網絡下載等。可以採用一個或多個計算機可讀的介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是——但不限於——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、可攜式計算機磁碟、硬碟、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或快閃記憶體)、光纖、可攜式緊湊磁碟只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。

計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以採用多種形式,包括——但不限於——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用於由指令執行系統、裝置或者器件使用或者與其結合使用的程序。

計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括——但不限於——無線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設計語言或其組合來編寫用於執行本發明操作的電腦程式代碼,所述程序設計語言包括面向對象的程序設計語言—諸如java、smalltalk、c++,還包括常規的過程式程序設計語言—諸如「c」語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作為一個獨立的軟體包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或伺服器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡——包括區域網(lan)或廣域網(wan)連接到用戶計算機,或者,可以連接到外部計算機(例如利用網際網路服務提供商來通過網際網路連接)。

由以上描述可以看出,本發明提供的方法、裝置、設備和計算機存儲設備可以具備以下優點:

1)在本發明中首先基於分類誤差最小準則訓練基於深度神經網絡的初始模型,直至達到預設第一停止條件後,利用三元組損失層替換初始模型中的softmax層,繼續訓練聲學特徵提取模型,直至達到預設的第二停止條件。這種pre-training+fine-tuning的模型訓練方式,相比較單純採用softmax回歸的訓練方式,在較大特徵空間上能夠提高模型訓練的性能和準確性。

2)這種pre-training+fine-tuning的模型訓練方式,相比較直接利用三元組損失訓練聲學特徵提取模型的方式,除了具備更高的訓練效率之外,經過試驗證明,具有更高的驗證集準確率(acc)和等錯誤率(eer)。

3)本發明中優選rescnn或gru類型的深度神經網絡,從而在採用較高層級深度的神經網絡情況下,也能夠保證特徵提取的準確性,且提高深度神經網絡的訓練速度。

4)本發明在訓練聲學特徵提取模型的過程中,對深度神經網絡的輸出進行池化和句子標準化處理,使得該模型除了能夠對文本相關的語音數據進行特徵提取之外,也能夠對文本無關的語音數據進行很好地特徵提取。

5)經過試驗後發現,本發明能夠更好的處理大規模的語音數據並且能夠很好地適應不同語言的處理。

在本發明所提供的幾個實施例中,應該理解到,所揭露的方法和裝置,可以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位於一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。

另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用硬體加軟體功能單元的形式實現。

以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包含在本發明保護的範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀