新四季網

聲音信號分離系統及方法

2023-06-06 08:45:36 1

專利名稱:聲音信號分離系統及方法
技術領域:
本發明是有關於一種信號分離系統及方法,特別是指一種聲音信號分離系統及方法。
背景技術:
盲信號源分離(Blind Source Separation,以下簡稱BSS)技術是在不確定信號源數目和信號信息內容的情形下,將接收到的由多個單一信號源所混合在一起的信號,分離出原來個別的單一信號源。
例如在雞尾酒會上有許多人的講話聲、及背景音樂等多個聲音信號源,透過許多的麥克風一起接收進來,該BSS技術即是要將背景音樂及每一人的講話聲音個別地還原出來。
由dx(dx為大於1的整數)個麥克風分別接收到聲音信號x1(t),x2(t),...xdx(t),該多個接收到的聲音信號x1(t),x2(t),...xdx(t)經過取樣(sampling)後可成為離散形式(discrete)的混合聲音信號(acousticmixture)x(n)=[x1(n)...xdx(n)]T,且x(n)可用式(1)表示x(n)=k=1rs(n-k)A(k)]]>式(1)其中,矩陣s(n)=[s1(n)...sds(n)]T為ds個獨立的聲音源,而A(k)代表各個獨立的聲音源到各個麥克風的傳輸環境的脈衝響應(impulse response),且A(k)的維數為ds×dx,而r表示該脈衝響應A(k)的階數(order)。因此,由式(1)可知每一個混合聲音信號是原來的聲音源與該傳輸環境的脈衝響應作卷積運算(convolution)的結果。
而已知的BSS技術主要是利用該等混合聲音信號x1(n)...xdx(n)去找到一個好的分離矩陣(separated matrix)W(k),並將該分離矩陣W(k)與該多個混合聲音信號x1(n)...xdx(n)分別作卷積運算,以得到分離信號z(n)=[z1(n)...zds(n)],如式(2)。
z(n)=k=1rx(n-k)W(k)]]>式(2)且如果能正確的計算出最佳化的分離矩陣W(k),使該分離矩陣W(k)等於該脈衝響應A(k)的逆矩陣(inverse matrix),則該等分離聲音z1(n)...zds(n)將分別與對應的該等聲音源s1(n)...sds(n)完全相同。
而已知的BSS的技術是假設原來的每一個聲音源s1(n)...sds(n)內的信號點彼此在統計上是相互獨立,所以沒有空間相關(spatial correlation),且計算出的分離矩陣W(k)也會使每一個分離聲音z1(n)...zds(n)的信號點間沒有空間相關和時間相關(temporal correlation)。但因為每一個原始聲音源s1(n)...sds(n)內的信號點彼此間具有很大的時間相關,且每一個混合的聲音信號內的信號點彼此間也有空間相關及時間相關。因此,已知的BBS技術直接使用該多個混合聲音信號,將無法找出較佳的分離矩陣W(k),並且會使得每一個分離信號z1(n)...zds(n)的信號點間失去時間相關,而與原來聲音源不相同,導致分離的效果不好。
已知的另一種BSS技術是K.Kokkinakis、V.Zarzoso及Asoke K.Nandi共同於2003年的期刊4th International Symposium on IndependentComponent Analysis and Blind Signal Separation提出的論文「基於線性預測分析的聲音混合的盲分離(Blind Separation of Acoustic Mixtures Basedon Linear Prediction Analysis)」中所揭露。
參閱圖1,該BSS技術包含下列步驟(T1)一個線性預測(Linear Prediction)處理步驟將該多個混合聲音信號x1(n)...xdx(n)經由線性預測處理成為該多個餘留信號r1(n)...rdx(n)。
該線性預測處理是要儘量地消除每一個混合聲音信號x1(n)...xdx(n)的信號點間的時間相關,即使用式(3)分別對該等混合聲音信號x1(n)...xdx(n)作處理ri(n)=xi(n)-k=1qxi(n-k)ai(k)]]>式(3)其中,i代表第i個麥克風11分別接收到且經過取樣後的混合聲音信號xi(n),而ai(k)是線性預測係數,q是階數,且ai(k)的計算方法已於上述2003年K.Kokkinakis、V.Zarzoso及Asoke K.Nandi的論文中揭露。
並且值得注意的是,步驟(T1)仍無法完全或大幅消除每一個混合聲音信號x1(n)...xdx(n)的信號點間的時間相關,故計算出的每一個餘留信號r1(n)...rdx(n),其信號點彼此間雖然比混合聲音信號x1(n)...xdx(n)的信號點彼此間的時間相關性低,但仍具有時間相關。
步驟(T2)對該多個餘留信號做獨立成份分析處理(IndependentComponent Analysis,以下簡稱ICA)。
該ICA處理為已知的技術,可參考由P.Common於1994年的期刊Signal Processing中提出的論文「獨立成分分析,一種新概念?(IndependentComponent Analysis,a new concept?)」。
已知的ICA處理方法主要是從該多個餘留信號r1(n)...rdx(n)去計算該分離矩陣W(k),且在計算該分離矩陣W(k)的過程中,該ICA處理方法可以有效地消除每一個餘留信號r1(n)...rdx的信號點彼此間的空間相關。
而計算該分離矩陣W(k)的方法是先隨機產生一個初始Wr(k),且將此初始Wr(k)代入式(4)以得到信號m(n)m(n)=k=1ux(n-k)Wr(k)]]>式(4)其中,u為階數。
然後再將該初始Wr(k)及式(4)計算出的信號m代入式(5)以得到一修正參數ΔWτ(k)W(k)=-a(r=0L{off_diag(m(k-L))mT(k-L-+r))Wr(k)]]>式(5)其中,在式(5)中,a代表學習率(Learning Rate),off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為正整數且代表混合聲音信號的信號點數目。
然後再根據式(6)將該修正參數ΔWτ(k)與一Wold(k)(即該初始Wr(k))相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k) 式(6)並將式(6)計算出的Wnew(k)當作另一個新的Wr(k)代回式(4)以更新該信號m的值,且將新的Wr(k)及更新後的m代入式(5)以得到更新後的修正參數ΔWτ(k),再根據式(6)得到更新後的Wnew(k)。並依此遞歸方式重複計算式(4)、式(5)及式(6),直到式(5)計算出的ΔWτ(k)趨近於0,此時由式(6)計算出的Wnew(k)即為該分離矩陣W(k)。
另外,在計算出分離矩陣W(k)後,步驟(T2)再根據式(2)將該多個混合聲音信號x1(n)...xdx(n)與該分離矩陣W(k)作卷積運算即可得到該等分離信號z1(n),z2(n),...zds(n)。
已知該BSS技術在步驟(T1)時只消除了少數該多個混合聲音信號的時間相關,而在音高(pitch)位置的時間相關並無法完全去除,且在步驟(T2)中,也無法進一步使每一個餘留信號內的信號點彼此間的時間相關降至零。故在步驟(T2)中計算出的分離矩陣仍無法達到最佳化,所以分離出來的信號z1(n)...zds(n)仍無法與對應的原始的聲音源s1(n)...sds(n)完全相同,造成分離信號的效果不佳。
此外,在步驟(T1)中,該線性預測的前置處理除了無法消除音高位置的時間相關外,另一個缺點是階數q必須超過50,而使式(3)在計算上顯得相當複雜及耗費時間。

發明內容
因此,本發明的目的是提供一種可以提高聲音分離效果的聲音信號分離系統。
本發明的另一個目的是提供一種聲音信號分離方法,該方法可以從混合的聲音信號較佳地分離出原來的聲音源。
於是,本發明聲音信號分離系統,適用於將複數混合聲音信號分離出至少一個單一聲音源。該聲音信號分離系統包含音高預測模塊,可根據下式消除每一個混合聲音信號內的信號點彼此間的時間相關yi(n)=xi(n)-k=1pi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理後的前置信號,而p是階數,且βi(k)是音高預測係數,而Dk是音高位置,並且βi(k)及Dk的計算方式如下i(D)=n=1Lyi(n)yi(n-D)n=1Lyi(n)yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數目,D的值可為1到L的正整數,且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D。
線性預測模塊,與該音高預測模塊電連接,以下式可進一步繼續消除每一個前置信號y1(n)...ydx(n)之信號點彼此間的時間相關以得到相對應的餘留信號r1(n)...rdx(n)。
ri(n)=yi(n)-k=1qyi(n-k)ai(k)]]>
獨立成份分析處理模塊,與該線性預測模塊電連接,並接收該等餘留信號,且可從該等餘留信號中計算出一分離矩陣,並可將該分離矩陣與該等混合聲音信號作卷積運算以分離出至少一個該單一聲音源。
於是,本發明聲音信號分離方法,適用於將複數混合聲音信號分離出至少一個單一聲音源。該聲音信號分離方法包含下列步驟(A)以下式消除每一個混合聲音信號內的信號點間的時間相關yi(n)=xi(n)-k=1pi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理後的前置信號,而p是階數,βi(k)是音高預測係數,Dk是音高位置,且βi(k)及Dk的計算方式如下i(D)=n=1Lyi(n)yi(n-D)n=1Lyi(n)yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數目,D的值可為1到L的正整數,且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D。
(B)進一步繼續消除每一前置信號y1(n)...ydx(n)的信號點彼此間的時間相關以得到相對應的餘留信號r1(n)...rdx(n)ri(n)=yi(n)-k=1qyi(n-k)ai(k)]]>其中,yi(n)為第i個前置信號,ri(n)為第i個餘留信號,而ai(k)是線性預測係數,q是階數。
(C)根據該等餘留信號計算出一分離矩陣。
(D)以該分離矩陣與該等混合聲音信號作卷積運算來分離出至少一個該單一聲音源。
本發明的功效在於音高預測模塊能大幅消除該等混合聲音信號的時間相關,進而使該分離矩陣能夠最佳化,因此能夠提高聲音信號的分離效果。


圖1是已知的BSS技術的流程圖,其中包括一線性預測處理步驟;圖2是本發明的聲音信號分離系統的優選實施例的系統方塊圖;及圖3是本發明優選實施例的流程圖。
具體實施例方式
有關本發明的前述及其它技術內容、特點與功效,在以下配合參考圖式的一個優選實施例的詳細說明中,將可清楚地理解。
參見圖2,本發明聲音信號分離系統的優選實施例包含聲音接收模塊1、音高預測模塊2、線性預測模塊3、獨立成份分析處理模塊4(以下簡稱ICA處理模塊)及聲音播放單元5。
該聲音接收模塊1包括dx個麥克風11及一個取樣單元12。該等麥克風11可分別接收聲音信號,且以下為了方便說明,將第i個麥克風11接收的聲音信號以xi(t)表示,而xi(t)是連續性的聲音信號。且值得注意的是,在本實施例中,該多個麥克風11的個數至少要有兩個。
該取樣單元12與該音高預測模塊2電連接,且可對該對麥克風11接收到的聲音信號x1(t)...xi(t)進行取樣,並將取樣後且呈離散形式的混合聲音信號x1(n)...xdx(n)輸入到該音高預測模塊2中。在本實施例中,該取樣單元12是以每秒8000次的取樣頻率(sampling rate)將連續的聲音信號x1(t)...xdx(t)分別取樣後成為離散形式的混合聲音信號x1(n)...xdx(n)。因此每一混合聲音信號x1(n)...xdx(n)每秒都有8000個取樣點,而本發明的取樣頻率也可以不限於每秒8000次。
此外,在本實施例中,是將每30ms的混合聲音信號x1(n)...xi(n)中的取樣點當作一個音幀(frame)。而接收的聲音信號xi(t)是經過該取樣單元12以每秒8000次的取樣頻率取樣後成為混合聲音信號xi(n),因此一個音幀包括該混合聲音信號xi(n)中的30/1000×8000=240個取樣點。但一個音幀也可以是其它時間長度,而不限於30ms中的混合聲音信號x1(n)...xi(n)的取樣點,例如一個音幀也可以包括xi(n)中所有的取樣點。
該音高預測模塊2與該取樣單元12及該線性預測模塊3電連接,並且該音高預測模塊2讀進從該取樣單元12輸出的該音幀的混合聲音信號x1(n)...xi(n),並根據式(7)消除每一個混合聲音信號的信號點間的時間相關後成為前置信號y1(n)...yi(n),並且輸出該等前置信號y1(n)...ydx(n)至該線性預測模塊3。
yi(n)=xi(n)-k=1pi(k)xi(n-Dk)]]>式(7)其中,在式(7)中,p是階數,且βi(k)是音高預測係數(Pitch PredictionCoefficient),而Dk是音高位置(Pitch Position),且βi(k)及Dk的計算方式如式(8)i(D)=n=1Lyi(n)yi(n-D)n=1Lyi(n)yi(n)]]>式(8)其中,L是音幀的長度,即是一個音幀中所包含的信號點數目。而D的值可為1到L的正整數,且將不同的D值代入式(8)中可得到不同的βi(D)的值。而在式(7)中,βi(k)是式(8)中βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D,即k=1時之βi(1)則是式(8)中βi(D)的最大值,且D1即是使βi(D)值最大的D。而k=2時的βi(2)則是式(8)中βi(D)的第二大值,且D2即是使βi(D)的值為第二大的D。
且值得注意的是,在式(7)中,階數p只要算到p=1或是p=2就可以比已知技術大幅消去該多個混合聲音信號的時間相關。
該線性預測模塊3與該ICA處理模塊4電連接,並且讀進從該音高預測模塊2輸出的該音幀之前置信號y1(n)...ydx(n),並根據式(9)的線性預測法,消除該多個前置信號y1(n)...ydx(n)的信號點間的時間相關後成為餘留信號r1(n)...rdx(n),並且輸出該多個餘留信號r1(n)...rdx(n)至該ICA處理模塊4。
ri(n)=yi(n)-k=1qyi(n-k)ai(k)]]>式(9)其中,q是階數,且線性預測係數ai(k)的計算方式為已知的技術,在此不再贅述。
該ICA處理模塊4可接收該線性預測模塊3處理後的餘留信號r1(n)...rdx(n),並根據先前技術所述的式(4)、式(5)及式(6)消除其信號點間的空間相關後得到一個分離矩陣W(k)。且再依此分離矩陣並根據先前技術所述的式(2)計算出分離信號z1(n)...zds(n),並將該多個分離信號z1(n)...zds(n)輸出至該聲音播放單元5。而因為該ICA處理為已知的技術且在先前技術中已說明,故在此不再詳細說明。
該聲音播放單元5可接收從該ICA處理模塊4輸出的該音幀中的分離信號zi(n),並且可將該分離信號zi(n)播放出來。
本發明聲音信號分離系統的一個優選實施例能夠從dx個混合聲音信號x1(n),x2(n),...xdx(n)分離出ds個分離信號z1(n),z2(n),...zds(n)。
參見圖3,本發明的聲音信號分離系統使用的方法包含下列步驟(S1)由dx個麥克風11分別接收dx個連續性的聲音信號x1(t)...xi(t),其中每個xi(t)為時間的函數。
(S2)將dx個麥克風11接收的聲音信號x1(t)...xdx(t)經該取樣單元12以每秒8000次的取樣頻率分別取樣後成為離散形式的dx個混合聲音信號x1(n)...xdx(n)。
(S3)該音高預測模塊2從該取樣單元12讀進一個音幀中該多個混合聲音信號是所有取樣點x1(n)...xdx(n),n=1...240。並根據式(7)、式(8)大幅消除每個混合聲音信號是信號點間在音高位置的時間相關以得到該音幀中的前置信號y1(n)...ydx(n)。
(S4)該線性預測模塊3根據式(9)更完全地消除該多個前置信號y1(n)...ydx(n)的信號點間的時間相關以得到該音幀中的餘留信號r1(n)...rdx(n)。
(S5)該ICA處理模塊4接收該多個餘留信號r1(n)...rdx(n),並根據式(4)、式(5)及式(6)計算出該分離矩陣W(k)。
(S6)該ICA處理模塊4以該分離矩陣W(k)及該音幀中的混合聲音信號x1(n)...xdx(n),n=1...240的取樣點,經由式(2)做卷積運算求取該音幀中相對應的分離信號zi(n),n=1...240的240個值。
(S7)將步驟(S6)得到的分離信號zi(n)用該聲音播放單元5播出。並在執行完畢後跳到步驟(S3)。並繼續針對下一音幀依序執行步驟(S3)~(S7)。並重複步驟(S3)~(S7)直到已處理完每一音幀。
值得注意的是,本發明也可只包含該音高預測模塊2、該線性預測模塊3及該ICA處理模塊4,而不需包含該聲音接收模塊1及該聲音播放單元5。即待分析的混合聲音信號x1(n)...xdx(n)不一定需要透過麥克風11接收進來,也可透過網絡下載、電性接口,或是儲存媒體直接輸入到該音高預測模塊2中。例如可將外界資料庫中的混合聲音信號x1(n)...xdx(n)從一個通用串行總線(Universal Serial Bus,USB)接口輸入,或是用光碟機讀取光碟上儲存的該等混合聲音信號x1(n)...xdx(n)的方式,將待處理的混合信號x1(n)...xdx(n)輸入到該音高預測模塊2中。而經由該ICA處理模塊4處理完後的數據也可送至其它系統中進行後續的應用,並不一定要播放出來。
此外,本發明也可只包含該音高預測模塊2及該ICA處理模塊4,而不需包含該線性預測模塊3。且即使移除該線性預測模塊3仍可有效地改善已知技術的缺失,此外,由於該線性預測模塊3計算的方式較為複雜且需耗費較多的計算時間,故移除該線性預測模塊3則也可使本發明比已知技術節省計算時間。而此時,由該音高預測模塊2輸出的前置信號y1(n)...ydx(n)則直接送至該ICA處理模塊4,而該ICA處理模塊4此時則不再由該餘留信號去計算出該分離矩陣W(k),而是直接根據前置信號y1(n)...ydx(n)來計算分離矩陣W(k)。且同時,本發明的聲音信號分離方法則不需包括步驟(S4),且在步驟(S5)中,該ICA處理模塊4則是根據該音高預測模塊2處理完後的前置信號y1(n)...ydx(n)來計算分離矩陣W(k)。
綜合上述,因為本發明的音高預測模塊2可大幅消除每一個混合聲音信號的信號點間在該音高位置的時間相關,故可使該分離矩陣達到最佳化,故分離出的該多個分離信號即可較不失真而能與原來的該多個聲音源相同。而且,該音高預測模塊2所使用的式(7)中,階層p只要是1或是2就足夠,故可以簡化計算複雜度及節省計算時間。
以上所說明的僅是本發明的優選實施例,而不能以此限定本發明實施的範圍,本領域技術人員在不脫離所附權利要求所限定的精神和範圍的情況下對本發明內容所作的簡單的等效變化與修飾,皆屬於本發明涵蓋的範圍。
權利要求
1.一種聲音信號分離系統,適用於將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離系統包含音高預測模塊,可根據下式大幅消除每一個混合聲音信號內的信號點彼此間的時間相關yi(n)=xi(n)-k=1pi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理後的前置信號,而p是階數,且βi(k)是音高預測係數,Dk是音高位置,而βi(k)及Dk的計算方式如下i(D)=n=1Lyi(n)yi(n-D)n=1Lyi(n)yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數目,D的值可是1到L的正整數,且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;及獨立成份分析處理模塊,與該音高預測模塊電連接,並接收該音高預測模塊處理後的前置信號,且可根據該等前置信號計算出一個分離矩陣,並可將該分離矩陣與該多個混合聲音信號作卷積運算以分離出至少一個該單一聲音源。
2.根據權利要求1所述的聲音信號分離系統,其中,該獨立成份分析處理模塊以獨立成份分析法計算出該分離矩陣。
3.根據權利要求1所述的聲音信號分離系統,其中,該獨立成份分析處理模塊根據下式分離出至少一個該單一聲音源z(n)=k=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(s)]為ds個該多個分離出的單一聲音源,而W(k)為分離矩陣,x(n)=[x1(n)...xdx(n)]為dx個該多個混合聲音信號,且dx及ds為正整數,r為階數。
4.根據權利要求1所述的聲音信號分離系統,其中,計算該分離矩陣W(k)的方法是先隨機產生一個初始Wr(k),且將該初始Wr(k)代入下式以得到一個信號m(n),其中u是階數m(n)=k=1ux(n-k)Wr(k)]]>然後利用該信號m(n)及該初始Wr(k)代入下式以得到一個修正參數ΔWτ(k)W(k)=-a(r=0L{off_diag(m(k-L))mT(k-L-+r))Wr(k)]]>其中,a代表學習率,off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為一正整數且代表該混合聲音信號的信號點數目,且以該初始Wr(k)作為Wold(k),然後根據下式將該修正參數ΔWτ(k)與該Wold(k)的值相加以得到一個Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)並再以該Wnew(k)作為更新後的Wr((k),重複遞歸計算出更新後的m(n)、修正參數ΔWτ(k)及Wnew(k),且直到計算出的修正參數ΔWτ(k)趨近於0,此時的Wnew(k)即為該分離矩陣W(k)。
5.根據權利要求1所述的聲音信號分離系統,還包括多個麥克風及一個取樣單元,且每一個麥克風與該取樣單元電連接並可接收連續性的聲音信號,而該取樣單元則可對該多個麥克風接收到的聲音信號取樣以成為該多個離散形式的混合聲音信號。
6.根據權利要求1所述的聲音信號分離系統,還包括一個聲音播放單元,該聲音播放單元與該獨立成份分析模塊電連接,且可將該獨立成份分析處理模塊分析出的聲音源播放出來。
7.一種聲音信號分離系統,適用於將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離系統包含音高預測模塊,可根據下式消除每一個混合聲音信號內的信號點彼此間的時間相關yi(n)=xi(n)-k=1pi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理後的前置信號,而p是階數,且βi(k)是音高預測係數,而Dk是音高位置,並且βi(k)及Dk的計算方式如下i(D)=n=1Lyi(n)yi(n-D)n=1Lyi(n)yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數目,D的值可為1到L的正整數,且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;線性預測模塊,與該音高預測模塊電連接,可進一步繼續消除每一個前置信號y1(n)...ydx(n)的信號點彼此間的時間相關以得到相對應的餘留信號r1(n)...rdx(n)ri(n)=yi(n)-k=1qyi(n-k)ai(k)]]>其中,yi(n)為第i個前置信號,ri(n)為第i個餘留信號,而ai(k)是線性預測係數,q是階數;及獨立成份分析處理模塊,與該線性預測模塊電連接,並接收該多個餘留信號,且可從該多個餘留信號中計算出一個分離矩陣,並可將該分離矩陣與該多個混合聲音信號作卷積運算以分離出至少一個該單一聲音源。
8.根據權利要求7所述的聲音信號分離系統,其中,該獨立成份分析處理模塊以獨立成份分析法計算出該分離矩陣。
9.根據權利要求7所述的聲音信號分離系統,其中,該獨立成份分析處理模塊根據下式分離出至少一個該單一聲音源z(n)=k=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]為ds個該多個分離出的單一聲音源,而W(k)為分離矩陣,x(n)=[x1(n)...xdx(n)]為dx個該多個混合聲音信號,且dx及ds為正整數,r為階數。
10.根據權利要求7所述的聲音信號分離系統,其中,計算該分離矩陣W(k)的方法是先隨機產生一個初始Wr(k),且將該初始Wr(k)代入下式以得到一個信號m(n),其中u是階數(n)=k=1ux(n-k)Wr(k)]]>然後利用該信號m(n)及該初始Wr(k)代入下式以得到一個修正參數ΔWτ(k)W(k)=-a(r=0L{off_diaf(m(k-L))mT(k-L-+r))Wr(k)]]>其中,a代表學習率,off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為一正整數且代表該混合聲音信號的信號點數目,且以該初始Wr(k)作為Wold(k),然後根據下式將該修正參數ΔWτ(k)與該Wold(k)的值相加以得到一個Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)並再以該Wnew(k)作為更新後的Wr(k),重複遞歸計算出更新後的m(n)、修正參數ΔWτ(k)及Wnew(k),且直到計算出的修正參數ΔWτ(k)趨近於0,此時的Wnew(k)即為該分離矩陣W(k)。
11.根據權利要求7所述的聲音信號分離系統,還包括多個麥克風及一個取樣單元,且每個麥克風與該取樣單元電連接並可接收連續性的聲音信號,而該取樣單元則可對該多個麥克風接收到的聲音信號取樣以成為離散形式的混合聲音信號。
12.根據權利要求7所述的聲音信號分離系統,還包括一個聲音播放單元,該聲音播放單元與該獨立成份分析模塊電連接,且可將該獨立成份分析處理模塊分析出的聲音源播放出來。
13.一種聲音信號分離方法,適用於將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離方法包含下列步驟(a)以下式消除每一個混合聲音信號內的信號點間的時間相關yi(n)=xi(n)-k=1pi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理後的前置信號,而p是階數,βi(k)是音高預測係數,Dk是音高位置,且βi(k)及Dk的計算方式如下i(D)=n=1Lyi(n)yi(n-D)n=1Lyi(n)yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數目,D的值可為1到L的正整數,且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;(b)根據該多個前置信號計算出一個分離矩陣;及(c)以該分離矩陣與該等混合聲音信號作卷積運算來分離出至少一個該單一聲音源。
14.根據權利要求13所述的聲音信號分離方法,其中,在步驟(c)中根據下式分離出至少一個該單一聲音源z(n)=k=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]為ds個該多個分離出的單一聲音源,而W(k)為該分離矩陣,x(n)=[x1(n)...xdx(n)]為dx個該多個混合聲音信號,且dx及ds為正整數,r為階數。
15.根據權利要求13所述的聲音信號分離方法,其中,在步驟(b)中,以獨立成份分析法計算出該分離矩陣。
16.根據權利要求13所述的聲音信號分離方法,其中,計算該分離矩陣W(k)的方法是先隨機產生一個初始Wr(k),且將該初始Wr(k)代入下式以得到一個信號m(n),其中u是階數m(n)=k=1ux(n-k)Wr(k)]]>然後利用該信號m(n)及該初始Wr(k)代入下式以得到一個修正參數ΔWτ(k)W(k)=-a(r=0L{off_diag(m(k-L))mT(k-L++r))Wr(k)]]>其中,a代表學習率,off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為一正整數且代表該混合聲音信號的信號點數目,且以該初始Wr(k)作為Wold(k),然後根據下式將該修正參數ΔWτ(k)與該Wold(k)的值相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)並再以該Wnew(k)作為更新後的Wr(k),重複遞歸計算出更新後的m(n)、修正參數ΔWτ(k)及Wnew(k),且直到計算出的修正參數ΔWτ(k)趨近於0,此時的Wnew(k)即為該分離矩陣W(k)。
17.根據權利要求13所述的聲音信號分離方法,其中,該多個混合聲音信號是對多個麥克風接收到的聲音信號取樣後得到的。
18.一種聲音信號分離方法,適用於將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離方法包含下列步驟(A)以下式消除每一個混合聲音信號內的信號點間的時間相關yi(n)=xi(n)-k=1pi(k)xi(n-Dk)]]>其中,xi(n)為第i個混合聲音信號,yi(n)為第i個處理後的前置信號,而p是階數,βi(k)是音高預測係數,Dk是音高位置,且βi(k)及Dk的計算方式如下i(D)=n=1Lyi(n)yi(n-D)n=1Lyi(n)yi(n)]]>其中,L是每一個混合聲音信號中所包含的信號點數目,D的值可為1到L的正整數,且將不同的D值代入上式中可得到不同的βi(D)的值,而βi(k)即是βi(D)的第k大值,而Dk是使βi(D)呈第k大值的D;(B)進一步繼續消除每一個前置信號y1(n)...ydx(n)的信號點彼此間的時間相關以得到相對應的餘留信號r1(n)...rdx(n)ri(n)=yi(n)-k=1qyi(n-k)ai(k)]]>其中,yi(n)為第i個前置信號,ri(n)為第i個餘留信號,而ai(k)是線性預測係數,q是階數;(C)根據該多個餘留信號計算出一個分離矩陣;及(D)以該分離矩陣與該多個混合聲音信號作卷積運算來分離出至少一個該單一聲音源。
19.根據權利要求18所述的聲音信號分離方法,其中,在步驟(D)中根據下式分離出至少一個該單一聲音源z(n)=k=1rx(n-k)W(k)]]>其中,z(n)=[z1(n)...zds(n)]為ds個該多個分離出的單一聲音源,而W(k)為該分離矩陣,x(n)=[x1(n)...xdx(n)]為dx個該多個混合聲音信號,且dx及ds為正整數,r為階數。
20.根據權利要求18所述的聲音信號分離方法,其中,在步驟(C)中,以獨立成份分析法計算出該分離矩陣。
21.根據權利要求18所述的聲音信號分離方法,其中,計算該分離矩陣W(k)的方法是先隨機產生一個初始Wr(k),且將該初始Wr(k)代入下式以得到信號m(n),其中u是階數m(n)=k=1ux(n-k)Wr(k)]]>然後利用該信號m(n)及該初始Wr(k)代入下式以得到一個修正參數ΔWτ(k)W(k)=-a(r=0L{off_diag(m(k-L))mT(k-L-+r))Wr(k)]]>其中,a代表學習率,off_diagΦ是取矩陣非對角線的值,τ和r為時間指標,L為一正整數且代表該混合聲音信號的信號點數目,且以該初始Wr(k)作為Wold(k),然後根據下式將該修正參數ΔWτ(k)與該Wold(k)的值相加以得到Wnew(k)Wnew(k)=Wold(k)+ΔWτ(k)並再以該Wnew(k)作為更新後的Wr(k),重複遞歸計算出更新後的m(n)、修正參數ΔWτ(k)及Wnew(k),且直到計算出的修正參數ΔWτ(k)趨近於0,此時的Wnew(k)即為該分離矩陣W(k)。
22.根據權利要求18所述的聲音信號分離方法,其中,該多個混合聲音信號是對多個麥克風接收到的聲音信號取樣後得到的。
全文摘要
一種聲音信號分離系統,適用於將多個混合聲音信號分離出至少一個單一聲音源,該聲音信號分離系統包含音高預測模塊,可消除每個混合聲音信號內的信號點彼此間的時間相關成為相對應的前置信號。線性預測模塊,與該音高預測模塊電連接,可進一步繼續消除每個前置信號的信號點彼此間的時間相關以得到相對應的餘留信號。獨立成分分析處理模塊,與該線性預測模塊電連接,並接收該多個餘留信號,且可從該多個餘留信號中計算出一個分離矩陣,並可將該分離矩陣與該多個混合聲音信號作卷積運算以分離出至少一個該單一聲音源。
文檔編號G10L21/028GK1808571SQ20051000554
公開日2006年7月26日 申請日期2005年1月19日 優先權日2005年1月19日
發明者林哲民, 吳建明 申請人:松下電器產業株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀