一種全景聲揚聲器體感實時交互系統及交互方法與流程
2023-07-11 04:50:27 1

本申請涉及音頻處理技術領域,特別涉及一種全景聲揚聲器體感實時交互系統及交互方法。
背景技術:
隨著音頻處理技術的不斷發展,音頻的質量也在不斷攀升。目前,人們對於音頻的需求已經不僅僅在於要求更高的音質,而是想要獲得沉浸式的音效體驗。
當前,人們可以在家中安裝家庭音響,從而構成環繞的立體音效。然而,家庭音響的音頻揚聲器無法滿足人們對於音樂的全方位互動需求。當前,人們希望音頻揚聲器播放的音樂能夠隨著自己肢體的動作而實時發生改變。例如,人們希望能夠隨時改變整個聲場的環繞效果以及隨時調整各個音軌在回放聲場中的方位和運動軌跡。
然而,現有的音頻揚聲器無法滿足人們的這種需求。
技術實現要素:
本申請的目的在於提供一種全景聲揚聲器體感實時交互系統及交互方法,能夠通過用戶的肢體動作實時地對音頻揚聲器播放的音頻信號進行調整。
為實現上述目的,本申請一方面提供了一種全景聲揚聲器體感實時交互系統,所述系統包括全景聲場信號轉換單元、揚聲器陣列信號轉換單元以及體感設備,其中:所述全景聲場信號轉換單元,用於將至少一個聲源信號轉換為具備預設格式的全景聲場信號;其中,所述全景聲場信號為ambisonic格式信號,包括各個聲源信號的能量以及方位角和俯仰角信息;所述體感設備,用於向所述全景聲場信號轉換單元發送控制信號,以改變所述全景聲場信號中各個聲源信號的方位角和俯仰角;其中,所述控制信號通過所述體感設備中的至少一個感應器生成;所述揚聲器陣列信號轉換單元,用於將改變了方位角和俯仰角的全景聲場信號轉換為揚聲器陣列信號,並通過按照預設布局進行配置的至少一個音箱播放所述揚聲器陣列信號;其中,所述揚聲器陣列信號中信號的數量與所述音箱的數量一致。
進一步地,所述全景聲場信號包括一階ambisonic格式信號和高階ambisonic格式信號;
對於一階ambisonic格式信號,共有四個聲道信號,其中包括用於表徵全方向聲波的第一聲道信號以及用於分別表徵三個垂直方向聲波的第二聲道信號、第三聲道信號以及第四聲道信號;相應地,當所述聲源信號為音頻對象的信號時,所述第一聲道信號、第二聲道信號、第三聲道信號以及第四聲道信號分別按照下述公式確定:
其中,W表示所述第一聲道信號,X表示所述第二聲道信號,Y表示所述第三聲道信號,Z表示所述第四聲道信號,si表示第i個聲源信號,θi表示第i個聲源信號的方位角,φi表示第i個聲源信號的俯仰角,k表示所述聲源信號的總數。
進一步地,所述全景聲場信號轉換單元包括:判斷模塊,用於在所述聲源信號為聲場錄音信號時,判斷所述聲場錄音信號的類型;轉換模塊,用於當所述聲場錄音信號為ambisonic A格式的信號時,將所述ambisonic A格式的信號轉換為ambisonic B格式的信號;當所述聲場錄音信號為第一階的ambisonic格式的信號時,通過upmix的方式將所述第一階的ambisonic格式的信號轉換為第二階的ambisonic格式的信號;其中,所述第二階高於所述第一階;當所述聲源信號為對象音頻時,將所述對象音頻信號轉換為ambisonic格式信號。
進一步地,所述感應器包括光學傳感器、慣性傳感器以及機械傳感器中的至少一種。
進一步地,所述揚聲器陣列信號轉換單元按照下述公式轉換得到所述揚聲器陣列信號:
其中,[L1 L2 … LN]T表示所述揚聲器陣列信號,G表示解碼矩陣,[W1 X1 Y1 Z1]T表示一階ambisonic B格式的全景聲場信號,N表示所述音箱的數量。
進一步地,所述解碼矩陣由所述音箱的布局確定。
為實現上述目的,本申請另一方面還提供一種全景聲揚聲器體感實時交互方法,所述方法包括:其中,所述全景聲場信號為ambisonic格式信號,包括各個聲源信號的能量以及方位角和俯仰角信息;通過體感設備向所述全景聲場信號轉換單元發送控制信號,以改變所述全景聲場信號中各個聲源信號的方位角和俯仰角;其中,所述控制信號通過所述體感設備中的至少一個感應器生成;利用揚聲器陣列信號轉換單元將改變了方位角和俯仰角的全景聲場信號轉換為揚聲器陣列信號,並通過按照預設布局進行配置的至少一個音箱播放所述揚聲器陣列信號;其中,所述揚聲器陣列信號中信號的數量與所述音箱的數量一致。
進一步地,所述全景聲場信號包括一階ambisonic格式信號和高階ambisonic格式信號;對於一階ambisonic格式信號,共有四個聲道信號,其中包括用於表徵全方向聲波的第一聲道信號以及用於分別表徵三個垂直方向聲波的第二聲道信號、第三聲道信號以及第四聲道信號;相應地,當所述聲源信號為音頻對象的信號時,所述第一聲道信號、第二聲道信號、第三聲道信號以及第四聲道信號分別按照下述公式確定:
其中,W表示所述第一聲道信號,X表示所述第二聲道信號,Y表示所述第三聲道信號,Z表示所述第四聲道信號,si表示第i個聲源信號,θi表示第i個聲源信號的方位角,φi表示第i個聲源信號的俯仰角,k表示所述聲源信號的總數。
進一步地,利用全景聲場信號轉換單元將至少一個聲源信號轉換為具備預設格式的全景聲場信號包括:在所述聲源信號為聲場錄音信號時,判斷所述聲場錄音信號的類型;當所述聲場錄音信號為ambisonic A格式的信號時,將所述ambisonic A格式的信號轉換為ambisonic B格式的信號;當所述聲場錄音信號為第一階的ambisonic格式的信號時,通過upmix的方式將所述第一階的ambisonic格式的信號轉換為第二階的ambisonic格式的信號;其中,所述第二階高於所述第一階;當所述聲源信號為對象音頻時,將所述對象音頻信號轉換為ambisonic格式信號。
進一步地,所述揚聲器陣列信號按照下述公式確定:
其中,[L1 L2 … LN]T表示所述揚聲器陣列信號,G表示解碼矩陣,[W1 X1 Y1 Z1]T表示一階ambisonic B格式的全景聲場信號,N表示所述音箱的數量。
由上可見,本申請可以將常規的聲源信號轉換為全景聲場信號,該全景聲場信號可以體現聲源信號的方位角和俯仰角。用戶通過體感設備,可以將自身的肢體動作轉換為控制信號,該控制信號可以改變全景聲場信號中的方位角和俯仰角,從而使得用戶的肢體動作能夠對全景聲場信號進行調節,調節後的全景聲場信號可以通過按照預設布局進行配置的音箱進行播放。隨著控制信號對方位角和俯仰角的影響,可以改變各個音箱播放的信號分量的大小,從而使得各個信號分量在空間疊加的聲波矢量產生變化,從而達到通過肢體動作調節音效的效果。
附圖說明
圖1為本申請一個實施方式中實時交互系統的結構示意圖;
圖2為本申請一個實施方式中實時交互方法的流程圖。
具體實施方式
為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施方式中的附圖,對本申請實施方式中的技術方案進行清楚、完整地描述,顯然,所描述的實施方式僅僅是本申請一部分實施方式,而不是全部的實施方式。基於本申請中的實施方式,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其它實施方式,都應當屬於本申請保護的範圍。
請參閱圖1,本申請實施方式提供一種全景聲揚聲器體感實時交互系統,所述系統包括全景聲場信號轉換單元100、揚聲器陣列信號轉換單元200以及體感設備300。
其中,所述全景聲場信號轉換單元100,用於將至少一個聲源信號轉換為具備預設格式的全景聲場信號;其中,所述全景聲場信號為ambisonic格式信號,包括各個聲源信號的能量以及方位角和俯仰角信息。
所述體感設備300,用於向所述全景聲場信號轉換單元發送控制信號,以改變所述全景聲場信號中各個聲源信號的方位角和俯仰角;其中,所述控制信號通過所述體感設備中的至少一個感應器生成。
所述揚聲器陣列信號轉換單元200,用於將改變了方位角和俯仰角的全景聲場信號轉換為揚聲器陣列信號,並通過按照預設布局進行配置的至少一個音箱播放所述揚聲器陣列信號;其中,所述揚聲器陣列信號中信號的數量與所述音箱的數量一致。
在本實施方式中,所述體感設備可以實現用戶肢體動作的捕捉,並將捕捉的動作轉換為能夠控制音效的控制信號。該控制信號可以通過低功率藍牙設備傳輸給所述全景聲場信號轉換單元。所述全景聲場信號轉換單元通過輸入的控制信號來改變音頻信號的方位、音色、節奏、音高等信息,並將輸出聲音通過按照預設布局進行排列的多隻音箱回放出來,從而實現通過肢體動作控制聲音回放的功能。在實施過程中,佩戴體感設備的用戶只需通過簡單的動作,就能操作音樂的音量大小、開關、音色、節奏、音高和方位等多種音效功能。當然,體感設備也可以用來同步控制現場燈光系統等設備,配合音樂表演元素進行實時同步演出。在本實施方式中,所述體感設備可以具備加速計、陀螺儀與磁力計等一系列感應器。所述體感設備甚至可以檢測手臂肌肉活動的細節數據(例如壓力),從而可以在音頻信號播放過程中進行更加細節的調控。
在本實施方式中,所述全景聲場信號包括一階ambisonic格式信號和高階ambisonic格式信號;對於一階ambisonic格式信號,共有四個聲道信號,其中包括用於表徵全方向聲波的第一聲道信號以及用於分別表徵三個垂直方向聲波的第二聲道信號、第三聲道信號以及第四聲道信號;相應地,當所述聲源信號為音頻對象的信號時,所述第一聲道信號、第二聲道信號、第三聲道信號以及第四聲道信號分別按照下述公式確定:
其中,W表示所述第一聲道信號,X表示所述第二聲道信號,Y表示所述第三聲道信號,Z表示所述第四聲道信號,si表示第i個聲源信號,θi表示第i個聲源信號的方位角,φi表示第i個聲源信號的俯仰角,k表示所述聲源信號的總數。
在本實施方式中,一階的ambisonic B格式的全景聲場信號可以表示為[W X Y Z]T。
此外,還可以將音頻對象的信號轉換為更高階的ambisonic格式的信號。將音頻對象的信號轉換為一階、二階以及三階的ambisonic格式的信號可以參閱表1。
表1 0至3階的ambisonic格式的信號轉換
在本實施方式中,所述全景聲場信號轉換單元還可以包括:
判斷模塊,用於在所述聲源信號為聲場錄音信號時,判斷所述聲場錄音信號的類型;
轉換模塊,用於當所述聲場錄音信號為ambisonic A格式的信號時,將所述ambisonic A格式的信號轉換為ambisonic B格式的信號;當所述聲場錄音信號為第一階的ambisonic格式的信號時,通過upmix的方式將所述第一階的ambisonic格式的信號轉換為第二階的ambisonic格式的信號;其中,所述第二階高於所述第一階;當所述聲源信號為對象音頻時,將所述對象音頻信號轉換為ambisonic格式信號。
在本實施方式中,所述揚聲器陣列信號轉換單元可以按照下述公式轉換得到所述揚聲器陣列信號:
其中,[L1 L2 … LN]T表示所述揚聲器陣列信號,G表示解碼矩陣,[W1 X1 Y1 Z1]T表示一階ambisonic B格式的全景聲場信號,N表示所述音箱的數量。
具體地,所述解碼矩陣可以通過求偽逆矩陣來得出。在本實施方式中,音箱的布局決定了上述的解碼矩陣。偽逆矩陣(pseudo-inverse)是常用的求解方法,可以使用比如Matlab函數G=pinv(C)=CT(C*CT)-1來求解得到。其中C是重編碼矩陣,用來實現從揚聲器信號到ambisonic信號的映射。
在本實施方式中,體感設備通常基於光學或慣性傳感器,基於慣性的運動感應器套件,通常包括加速度計、陀螺儀和磁力計。在運動跟蹤和絕對方向方面每種感應器都有自己固有的強項和弱點。因此常用做法是採用感應器「融合」(sensor fusion)將來自各感應器的信號組合在一起,產生一個更加精確的運動檢測結果。從而利用這個信息來控制聲源的位置和運動軌跡。也就是說,通過體感設備可以產生控制信號,該控制信號可以影響上述每個聲源在空間中的方位角和俯仰角,從而達到交互的目的。在本實施方式中,所述感應器包括光學傳感器、慣性傳感器以及機械傳感器中的至少一種。本系統同時支持兩種方位變化(1)改變聲源在聽覺空間中的位置而聽者位置固定;(2)改變聽者的位置而固定聲源位置。
需要說明的是,Ambisonic A格式在這裡是指聲場麥克風錄製的原始聲場信號格式,比較常見的是4路正四面體聲場麥克風,當然並不局限於此。Ambisonic B格式是指經過轉換的通用的聲場格式。具體轉換矩陣根據聲場麥克風的類型而不同。此外,從低階到高階Ambisonic所需要的上混(upmixing)模塊通常需要對聲場進行主成分和環境成分的分析。
請參閱圖2,本申請還提供一種全景聲揚聲器體感實時交互方法,所述方法包括:
S1:利用全景聲場信號轉換單元將至少一個聲源信號轉換為具備預設格式的全景聲場信號;其中,所述全景聲場信號為ambisonic格式信號,包括各個聲源信號的能量以及方位角和俯仰角信息;
S2:通過體感設備向所述全景聲場信號轉換單元發送控制信號,以改變所述全景聲場信號中各個聲源信號的方位角和俯仰角;其中,所述控制信號通過所述體感設備中的至少一個感應器生成;
S3:利用揚聲器陣列信號轉換單元將改變了方位角和俯仰角的全景聲場信號轉換為揚聲器陣列信號,並通過按照預設布局進行配置的至少一個音箱播放所述揚聲器陣列信號;其中,所述揚聲器陣列信號中信號的數量與所述音箱的數量一致。
在本實施方式中,所述全景聲場信號包括一階ambisonic格式信號和高階ambisonic格式信號;對於一階ambisonic格式信號,共有四個聲道信號,其中包括用於表徵全方向聲波的第一聲道信號以及用於分別表徵三個垂直方向聲波的第二聲道信號、第三聲道信號以及第四聲道信號;相應地,當所述聲源信號為音頻對象的信號時,所述第一聲道信號、第二聲道信號、第三聲道信號以及第四聲道信號分別按照下述公式確定:
其中,W表示所述第一聲道信號,X表示所述第二聲道信號,Y表示所述第三聲道信號,Z表示所述第四聲道信號,si表示第i個聲源信號,θi表示第i個聲源信號的方位角,φi表示第i個聲源信號的俯仰角,k表示所述聲源信號的總數。
在本實施方式中,利用全景聲場信號轉換單元將至少一個聲源信號轉換為具備預設格式的全景聲場信號包括:
在所述聲源信號為聲場錄音信號時,判斷所述聲場錄音信號的類型;
當所述聲場錄音信號為ambisonic A格式的信號時,將所述ambisonic A格式的信號轉換為ambisonic B格式的信號;
當所述聲場錄音信號為第一階的ambisonic格式的信號時,通過upmix的方式將所述第一階的ambisonic格式的信號轉換為第二階的ambisonic格式的信號;其中,所述第二階高於所述第一階;
當所述聲源信號為對象音頻時,將所述對象音頻信號轉換為ambisonic格式信號。
在本實施方式中,所述揚聲器陣列信號按照下述公式確定:
其中,[L1 L2 … LN]T表示所述揚聲器陣列信號,G表示解碼矩陣,[W1 X1 Y1 Z1]T表示一階ambisonic B格式的全景聲場信號,N表示所述音箱的數量。
由上可見,本申請可以將常規的聲源信號轉換為全景聲場信號,該全景聲場信號可以體現聲源信號的方位角和俯仰角。用戶通過體感設備,可以將自身的肢體動作轉換為控制信號,該控制信號可以改變全景聲場信號中的方位角和俯仰角,從而使得用戶的肢體動作能夠對全景聲場信號進行調節,調節後的全景聲場信號可以通過按照預設布局進行配置的音箱進行播放。隨著控制信號對方位角和俯仰角的影響,可以改變各個音箱播放的信號分量的大小,從而使得各個信號分量在空間疊加的聲波矢量產生變化,從而達到通過肢體動作調節音效的效果。
上面對本申請的各種實施方式的描述以描述的目的提供給本領域技術人員。其不旨在是窮舉的、或者不旨在將本發明限制於單個公開的實施方式。如上所述,本申請的各種替代和變化對於上述技術所屬領域技術人員而言將是顯而易見的。因此,雖然已經具體討論了一些另選的實施方式,但是其它實施方式將是顯而易見的,或者本領域技術人員相對容易得出。本申請旨在包括在此已經討論過的本發明的所有替代、修改、和變化,以及落在上述申請的精神和範圍內的其它實施方式。