新四季網

一種數據質量的評估方法及評估系統與流程

2023-12-12 05:53:47


本發明涉及一種數據質量的評估方法及評估系統,屬於數據分析領域。



背景技術:

語音識別技術需要大量的說話人語音數據,該語音數據用來模擬真實應用場景中的用戶語音輸入,計算機運用深度學習等算法從該語音數據中進行處理生成語音識別模型,從而運用於真實場景的用戶語音識別中。語音數據是計算機學習的基礎,語音數據的質量對語音識別技術的準確性有決定性的作用,尤其是深度學習算法對語音數據有極大的依賴性,計算機迫切需要高質量的語音數據。

現有技術對語音數據的質量評估主要有兩種方法,第一種方法主要用於傳統的語音通信網絡傳輸中,通過語音信號層的分析來判斷語音的清晰度,然而這種方法不適用於語音識別技術的語音數據評價。第二種方法主要用於教育領域,說話人按照預先設定的文本進行朗讀,通過分析說話人聲音和文本的差異性來判斷說話人的朗讀準確性。語音識別需要的語音數據有不同的質量要求,清晰度及文本差異性並不是決定性因素,然而目前並沒有一種專門評估語音數據的質量評估方法。



技術實現要素:

針對上述問題,本發明的目的是提供一種專門評估語音數據的數據質量的評估方法及評估系統。

為實現上述目的,本發明採取以下技術方案:一種數據質量的評估方法,其特徵在於,包括以下步驟:

1)獲取說話人的待評估語音數據;

2)獲取待評估語音數據的採樣參數;

3)計算待評估語音數據的評估指標;

4)根據採樣參數和評估指標計算說話人待評估語音數據中所有單條語音數據的質量分數;

5)根據所有單條語音數據的質量分數計算該說話人待評估語音數據的質量分數;

6)重複步驟1)~5)計算所有說話人待評估語音數據的質量分數;

7)獲取說話人的特徵;

8)根據說話人的特徵和預先設定的質量目標計算匹配度,並根據匹配度和所有說話人待評估語音數據的質量分數計算整體待評估語音數據的質量分數。

進一步地,採樣參數包括採樣格式、採樣率、採樣頻率和聲道數。

進一步地,計算評估指標具體為:評估指標包括截幅比例、低音量比例、前後靜音長度和信噪比,其中:

截幅比例:

截幅比例=超過預先設定截幅閾值的採樣點數目/採樣點總數(1)

低音量比例:

低音量比例=小於預先設定低音閾值的採樣點數目/採樣點總數(2)

前後靜音長度:設定從待評估語音數據的開頭位置向後平移,檢測出連續超過預先設定靜音閾值的採樣點作為前靜音結束位置,則:

前靜音長度=前靜音結束位置(3)

設定從待評估語音數據的結束位置向前平移,檢測出連續超過預先設定靜音閾值的採樣點作為後靜音開始位置,則:

後靜音長度=語音數據長度-後靜音開始位置(4)

信噪比:

snr=10lg(ps/pn)(5)

其中,snr為信噪比,ps為信號有效功率,pn為噪音有效功率。

進一步地,計算單條語音數據的質量分數具體為:說話人待評估語音數據中單條待評估語音數據的質量分數為分別基於採樣參數和評估指標進行計算後再進行綜合計算,單條語音數據的質量分數在0~1之間,基於採樣參數的單條語音數據質量分數為各個採樣參數權重的乘積:

qp(d)=w(採樣格式)*w(採樣率)*w(採樣頻率)*w(聲道數)(6)

其中,qp(d)為基於採樣參數的單條語音數據質量分數,w(採樣格式)為採樣格式的權重,w(採樣率)為採樣率的權重,w(採樣頻率)為採樣頻率的權重,w(聲道數)為聲道數的權重,每一採樣參數的權重在0~1之間;基於評估指標的單條語音數據質量分數為各個評估指標權重的乘積:

qe(d)=w(截幅比例)*w(低音量比例)*w(前靜音長度)*w(後靜音長度)*w(信噪比)(7)

其中,qe(d)為基於評估指標的單條語音數據質量分數,w(截幅比例)為截幅比例的權重,w(低音量比例)為低音量比例的權重,w(前靜音長度)為前靜音長度的權重,w(後靜音長度)為後靜音長度的權重,w(信噪比)為信噪比的權重,每一評估指標的權重在0~1之間;綜上,單條語音數據的質量分數q(d)為:

q(d)=qp(d)*qe(d)(8)

進一步地,計算該說話人待評估語音數據的質量分數具體為:說話人待評估語音數據的質量分數為綜合說話人待評估語音數據的所有單條語音數據的質量分數並求平均值,即:

其中,q(s)為說話人待評估語音數據的質量分數,q(di)為說話人第i條單條語音數據的質量分數,n為說話人所有單條語音數據的數量。

進一步地,說話人的特徵包括說話人年齡、說話人性別、說話人籍貫、錄音設備、錄音方式和錄音環境。

進一步地,計算整體待評估語音數據的質量分數具體為:

a)預先設定質量目標:質量目標通常對待評估語音數據的錄音設備、錄音方式、錄音環境以及不同說話人的年齡比例、性別比例和籍貫比例進行要求;

b)計算匹配度:對所有說話人按特徵分別創建目標向量和實際向量,分別計算所有說話人的各特徵目標向量和實際向量的相似度:

上述公式(10)進一步表示為:

其中,cosθ為相似度,ak為目標向量a的第k個目標向量,bk為實際向量b的第k個實際向量,n為目標向量a或實際向量b的個數;根據公式(11)計算所有說話人的各特徵相似度,並根據計算的各特徵相似度計算整體待評估語音數據與預先設定質量目標的匹配度:

m=年齡相似度*性別相似度*籍貫相似度*錄音設備相似度*錄音方式相似度*錄音環境相似度(12)

其中,m為整體待評估語音數據與預先設定質量目標的匹配度;

c)計算整體待評估語音數據的質量分數:整體待評估語音數據的質量分數為所有說話人的待評估語音數據質量分數的平均值乘以整體待評估語音數據與預先設定質量目標的匹配度,即:

其中,q(all)為整體待評估語音數據的質量分數,q(si)為第i個說話人待評估語音數據的質量分數,m為說話人的數量。

一種數據質量的評估系統,其特徵在於,該評估系統包括:一用於獲取說話人待評估語音數據的待評估語音數據獲取單元;一用於獲取待評估語音數據採樣參數的待評估語音數據採樣參數獲取單元;一用於計算待評估語音數據評估指標的待評估語音數據評估指標計算單元;一用於根據採樣參數和評估指標計算說話人待評估語音數據中所有單條語音數據的質量分數的單條語音數據質量分數計算單元;一用於根據所有單條語音數據的質量分數計算該說話人待評估語音數據的質量分數的待評估語音數據質量分數計算單元;一用於獲取說話人特徵的特徵獲取單元;以及,一用於根據說話人特徵和預先設定的質量目標計算匹配度,並根據匹配度和所有說話人待評估語音數據的質量分數計算整體待評估語音數據的質量分數的整體待評估語音數據質量分數計算單元。

本發明由於採取以上技術方案,其具有以下優點:1、本發明根據採樣參數和評估指標計算說話人待評估語音數據的質量分數,並通過說話人特徵、預先設定的質量目標計算所有說話人的整體待評估語音數據的質量分數,相對於以往只能通過人工抽查以及使用語音數據後對語音識別設備準確率提升的效果來評估語音數據質量好壞的方法,本發明可以幫助語音識別設備研發企業或機構在事前進行更準確、更高效的語音數據質量評估,還可以幫助語音數據提供商發現語音數據的問題並及時採取優化措施。2、本發明通過獲取採樣參數、評估指標和說話人特徵等各種影響語音識別性能的因素,進而能夠保障語音數據質量評估的準確性,可以廣泛應用於語音識別技術領域中。

附圖說明

圖1是本發明的流程示意圖。

具體實施方式

以下結合附圖來對本發明進行詳細的描繪。然而應當理解,附圖的提供僅為了更好地理解本發明,它們不應該理解成對本發明的限制。

如圖1所示,本發明提供的數據質量的評估方法具體包括以下內容:

1、獲取說話人的待評估語音數據

待評估語音數據可以為有意識錄製的待評估語音數據,例如:說話人在室內通過手機等設備每人按照事先準備好的句子進行朗讀後保存的語音數據,也可以為無意識錄製的待評估語音數據,例如:企業客服和說話人通話完成後自動保存的語音數據。

2、獲取待評估語音數據的採樣參數

採樣參數通常由錄音設備及存儲設置決定,可以通過讀取文件屬性或文件頭獲取,採樣參數包括採樣格式(pcm、wav和mp3等)、採樣率(8位或16位)、採樣頻率(8khz、16khz、44khz和48khz等)和聲道數(單聲道和立體聲)。

3、計算待評估語音數據的評估指標

在說話人錄製語音時,由於說話人的原因影響語音數據質量的情況有多種,例如說話人的音量過高或過低、噪音過大、說話人沒有錄音完整、說話錄音不自然等,本發明的數據質量的評估方法針對主要影響語音數據質量的評估指標進行計算,評估指標包括:

截幅比例:待評估語音數據是由一系列連續的採樣點構成,每一採樣點均代表音量的高低,以16khz、16位的wav待評估語音數據為例,該待評估語音數據的峰值為32768,截幅是指說話人音量超過峰值從而造成削波,通過統計待評估語音數據中超過預先設定截幅閾值(如截幅閾值設定為30000)的採樣點數目計算截幅比例:

截幅比例=超過預先設定截幅閾值的採樣點數目/採樣點總數(1)

低音量比例:通過待評估語音數據中小於預先設定低音閾值的採樣點數目計算低音量比例:

低音量比例=小於預先設定低音閾值的採樣點數目/採樣點總數(2)

前後靜音長度:說話人因為操作錄音設備的原因容易出現在設備還未開啟錄製時就搶先說話以及未說完停止錄製的情況,因此需要對前後靜音長度進行計算。設定從待評估語音數據的開頭位置向後平移,檢測出連續超過預先設定靜音閾值的採樣點作為前靜音結束位置,則:

前靜音長度=前靜音結束位置(3)

從待評估語音數據的結束位置向前平移,檢測出連續超過預先設定靜音閾值的採樣點作為後靜音開始位置,則:

後靜音長度=語音數據長度-後靜音開始位置(4)

信噪比:通過現有技術中音頻信噪比的計算方法對信噪比snr進行計算:

snr=10lg(ps/pn)(5)

其中,ps為信號有效功率,pn為噪音有效功率。

此外,其他的評估指標可以通過人工進行判斷,包括說話人語速是否正常、說話人說話是否自然、說話人的說話內容與原始文本的差異性。

4、計算單條語音數據的質量分數

說話人待評估語音數據中單條待評估語音數據d的質量分數為分別基於採樣參數和評估指標進行計算後再進行綜合計算,單條語音數據d的質量分數在0~1之間。

基於採樣參數的單條語音數據質量分數qp(d)為各個採樣參數權重的乘積:

qp(d)=w(採樣格式)*w(採樣率)*w(採樣頻率)*w(聲道數)(6)

其中,w(採樣格式)為採樣格式的權重,w(採樣率)為採樣率的權重,w(採樣頻率)為採樣頻率的權重,w(聲道數)為聲道數的權重,每一採樣參數的權重在0~1之間,均可以根據經驗值得出,經驗值可以根據實際情況進行設置,但需符合以下規則:

採樣格式:mp3的權重<pcm的權重=wav的權重;

採樣率:8位的權重<16位的權重;

採樣頻率:8khz的權重<16khz的權重<44khz的權重<48khz的權重;

聲道數:單聲道的權重<立體聲的權重。

基於評估指標的單條語音數據質量分數qe(d)為各個評估指標權重的乘積:

qe(d)=w(截幅比例)*w(低音量比例)*w(前靜音長度)*w(後靜音長度)*w(信噪比)(7)

其中,w(截幅比例)為截幅比例的權重,w(低音量比例)為低音量比例的權重,w(前靜音長度)為前靜音長度的權重,w(後靜音長度)為後靜音長度的權重,w(信噪比)為信噪比的權重,每一評估指標的權重在0~1之間,均可以根據經驗值得出,經驗值可以根據實際情況進行設置,但需符合以下規則:

截幅比例:截幅比例越大,權重越小;

低音量比例:低音量比例越大,權重越小;

前靜音長度:前靜音長度大於閾值(通常為0.2~0.5s之間)時,權重最大,否則前靜音長度越小,權重越小;

後靜音長度:後靜音長度大於閾值(通常為0.2~0.5s之間)時,權重最大,否則後靜音長度越小,權重越小;

信噪比:信噪比越小,權重越小。

綜上,單條語音數據d的質量分數q(d)為:

q(d)=qp(d)*qe(d)(8)

5、計算說話人待評估語音數據的質量分數

說話人待評估語音數據的質量分數q(s)為綜合說話人待評估語音數據的所有單條語音數據d的質量分數並求平均值,即:

其中,q(di)為說話人第i條單條語音數據的質量分數,n為說話人所有單條語音數據的數量。

6、重複步驟1~5,計算所有說話人待評估語音數據的質量分數。

7、獲取說話人的特徵

說話人的特徵可以包括說話人年齡、說話人性別、說話人籍貫、錄音設備(手機、麥克風等)、錄音方式(朗讀、自然、電話呼入、電話呼出等)以及錄音環境(室內、室外、車載等)。

8、計算整體待評估語音數據的質量分數

1)預先設定質量目標

質量目標通常對待評估語音數據的錄音設備、錄音方式、錄音環境以及不同說話人的年齡比例、性別比例和籍貫比例進行要求,具體質量目標可以根據實際情況進行設定,例如某質量目標為1000名說話人,男女各半,年齡在6~60歲均勻分布,籍貫在全國各省均勻分布,錄音設備為手機,錄音方式為朗讀,錄音環境為室內。

2)計算匹配度

對所有說話人按特徵為年齡、性別、籍貫、錄音設備、錄音方式和錄音環境分別創建一目標向量和一實際向量,例如性別的目標要求為500男500女,實際語音數據為600男400女,則性別的目標向量為,實際向量為。

分別計算所有說話人的各特徵目標向量和實際向量的相似度,相似度可以通過現有向量相似度計算方法例如夾角餘弦法進行計算,即對於目標向量a=和實際向量b=,可以採用夾角餘弦的概念衡量兩個向量間的相似度cosθ:

上述公式(10)可以進一步表示為:

其中,ak為目標向量a的第k個目標向量,bk為實際向量b的第k個實際向量,n為目標向量a或實際向量b的個數。

根據公式(11)計算所有說話人的各特徵相似度,並根據計算的各特徵相似度計算整體待評估語音數據與預先設定質量目標的匹配度m:

m=年齡相似度*性別相似度*籍貫相似度*錄音設備相似度*錄音方式相似度*錄音環境相似度(12)

3)計算整體待評估語音數據的質量分數

整體待評估語音數據的質量分數q(all)為所有說話人的待評估語音數據質量分數的平均值乘以整體待評估語音數據與預先設定質量目標的匹配度m,即:

其中,q(si)為第i個說話人待評估語音數據的質量分數,m為說話人的數量。

根據計算的整體待評估語音數據的質量分可以幫助語音識別設備研發企業或機構在使用語音數據前對語音數據進行更準確、更高效的質量評估,還可以幫助語音數據提供商發現語音數據的問題並及時採取優化措施。

基於上述數據質量的評估方法,本發明還提出一種數據質量的評估系統,該評估系統包括待評估語音數據獲取單元、待評估語音數據採樣參數獲取單元、待評估語音數據評估指標計算單元、單條語音數據質量分數計算單元、待評估語音數據質量分數計算單元、特徵獲取單元以及整體待評估語音數據質量分數計算單元;其中,

待評估語音數據獲取單元用於獲取說話人的有意識待評估語音數據或無意識待評估語音數據。待評估語音數據採樣參數獲取單元用於獲取說話人待評估語音數據的採樣格式、採樣率、採樣頻率和聲道數等採樣參數,並將獲取的採樣參數發送到單條語音數據質量分數計算單元。待評估語音數據評估指標計算單元用於計算包括截幅比例、低音量比例、前後靜音長度和信噪比等的待評估語音數據評估指標,並將計算的評估指標發送到單條語音數據質量分數計算單元。單條語音數據質量分數計算單元用於根據接收的採樣參數和評估指標計算說話人待評估語音數據中所有單條語音數據的質量分數並發送到待評估語音數據質量分數計算單元。待評估語音數據質量分數計算單元用於根據接收的所有單條語音數據的質量分數計算該說話人待評估語音數據的質量分數並發送到整體待評估語音數據質量分數計算單元。特徵獲取單元用於獲取說話人年齡、說話人性別、說話人籍貫、錄音設備、錄音方式以及錄音環境等特徵並發送到整體待評估語音數據質量分數計算單元。整體待評估語音數據質量分數計算單元用於根據接收的說話人特徵和預先設定的質量目標計算匹配度,並根據匹配度和所有說話人待評估語音數據的質量分數計算整體待評估語音數據的質量分數。

上述各實施例僅用於說明本發明,其中各部件的結構、連接方式和製作工藝等都是可以有所變化的,凡是在本發明技術方案的基礎上進行的等同變換和改進,均不應排除在本發明的保護範圍之外。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀