多媒體處理方法及多媒體處理裝置製造方法

2023-06-23 00:32:21 6

多媒體處理方法及多媒體處理裝置製造方法
【專利摘要】本申請實施例公開了一種多媒體處理方法及多媒體處理裝置，所述方法包括：根據一聲音數據確定一發聲對象；分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息；獲取用戶相對於用於呈現所述圖像數據的一顯示屏的位置；獲取所述顯示屏的顯示參數；根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息確定所述發聲對象對應於所述用戶的感覺聲源位置。本申請實施例的多媒體處理技術使得對應於不同的多媒體呈現裝置以及不同的用戶位置，都能在多媒體呈現過程中獲得統一的對象的感覺聲源位置和視覺感覺位置。
【專利說明】多媒體處理方法及多媒體處理裝置
【技術領域】
[0001]本申請涉及多媒體【技術領域】，尤其涉及一種多媒體處理方法及多媒體處理裝置。【背景技術】
[0002]目前的多媒體裝置通常包含圖像顯示和聲音播放兩部分，由於圖像顯示與聲音播放通常由不同器件完成，因此，這兩部分一般只有時間上的關聯，沒有空間上的關聯。常見的多媒體裝置的尺寸從幾吋(如手機設備、平板電腦)到幾十吋(如筆記本、臺式機、電視屏幕)再到上百吋(戶外廣告屏幕)，差異較大，一般對應的聲音播放器件的尺寸和分布也會有較大差異。本申請的發明人發現，由於目前的視頻文件格式大多沒有考慮聲音的空間信息，會導致客戶端難以準確的恢復聲音效果，帶來用戶對一發聲對象的視覺呈現和聽覺呈現上的不統一。

【發明內容】

[0003]本申請要解決的技術問題是:提供一種多媒體處理技術，使得對應3不同的多媒體呈現裝置以及不同的用戶位置，都能在多媒體呈現過程中獲得統一的對象的感覺聲源位置和視覺感覺位置。
[0004]第一方面，本申請提供了一種多媒體處理方法，包括:
[0005]根據一聲音數據確定一發聲對象；
[0006]分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息；
[0007]獲取用戶相對於用於呈現所述圖像數據的一顯示屏的位置；
[0008]獲取所述顯示屏的顯示參數；
[0009]根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息確定所述發聲對象對應於所述用戶的感覺聲源位置。
[0010]第二方面，本申請提供了一種多媒體處理方法，包括:
[0011]根據一聲音數據確定一發聲對象；
[0012]分析與所述聲音數據相關聯的三維圖像數據，得到與所述發聲對象對應的左眼圖像內容信息和右眼圖像內容信息；
[0013]根據至少一參考顯示屏的顯示參數以及所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差，得到所述發聲對象與所述至少一參考顯示屏的呈現對應的至少一參考真實視差。
[0014]第三方面，本申請提供了一種多媒體處理方法，包括:
[0015]獲取一多媒體數據，所述多媒體數據包括相互關聯的聲音數據、三維圖像數據以及對象信息數據，所述對象信息數據包括:所述聲音數據對應的至少一發聲對象中的每個發聲對象對應的至少一參考真實視差，所述至少一參考真實視差與分別對應於至少一顯示參數的至少一參考顯示屏的呈現對應；[0016]獲取用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置；
[0017]獲取所述顯示屏的顯示參數；
[0018]根據所述用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置、所述顯示屏的顯示參數以及所述對象信息數據確定所述至少一發聲對象對應於所述用戶的感覺聲源位置。
[0019]第四方面，本申請提供了一種多媒體處理裝置，包括:
[0020]發聲對象確定模塊，用於根據一聲音數據確定一發聲對象；
[0021]圖像內容獲取模塊，用於分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息；
[0022]用戶位置獲取模塊，用於獲取用戶相對於用於呈現所述圖像數據的一顯示屏的位置；
[0023]顯示參數獲取模塊，用於獲取所述顯示屏的顯示參數；
[0024]聲源位置確定模塊，用於根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息確定所述發聲對象對應於所述用戶的感覺聲源位置。
[0025]第五方面，本申請提供了一種多媒體處理裝置，包括:
[0026]發聲對象確定模塊，用於根據一聲音數據確定一發聲對象；
[0027]圖像內容獲取模塊，用於分析與所述聲音數據相關聯的三維圖像數據，得到與所述發聲對象對應的左眼圖像內容信息和右眼圖像內容信息；
[0028]參考真實視差獲取模塊，用於根據至少一參考顯示屏的顯示參數以及所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差，得到所述發聲對象與所述至少一參考顯示屏的呈現對應的至少一參考真實視差。
[0029]第六方面，本申請提供了一種多媒體處理裝置，包括:
[0030]多媒體數據獲取模塊，用於獲取一多媒體數據，所述多媒體數據包括相互關聯的聲音數據、三維圖像數據以及對象信息數據，所述對象信息數據包括:所述聲音數據對應的至少一發聲對象中的每個發聲對象對應的至少一參考真實視差，所述至少一參考真實視差與分別對應於至少一顯示參數的至少一參考顯示屏的呈現對應；
[0031]用戶位置獲取模塊，用於獲取用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置；
[0032]顯示參數獲取模塊，用於獲取所述顯示屏的顯示參數；
[0033]聲源位置確定模塊，用於根據所述用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置、所述顯示屏的顯示參數以及所述對象信息數據確定所述至少一發聲對象對應於所述用戶的感覺聲源位置。
[0034]本申請實施例的至少一個實施方案根據用戶相對於多媒體呈現的位置以及對象的視覺呈現確定發聲對象的感覺聲源位置，使得對發聲對象的呈現可以達到視覺和聽覺的統一。此外，本發明實施例的至少一個實施方案根據所述感覺聲音位置對相關的聲音數據進行處理，使得處理後的聲音數據與當前的聲音播放模塊、顯示模塊以及用戶位置相適應，從而對應於各種大小、分布的多媒體裝置以及用戶相對於多媒體裝置的不同位置，都可以準確的恢復聲音數據與所述圖像數據對應的聲音信息的聲音效果，提高用戶體驗。【專利附圖】

【附圖說明】
[0035]圖1為本申請實施例的一種多媒體處理方法的流程圖；
[0036]圖2和圖3分別為本申請實施例的一種多媒體處理方法的二維和三維圖像呈現的應用場景示意圖；
[0037]圖4為本申請實施例一種多媒體處理方法的流程圖；
[0038]圖5為本申請實施例一種多媒體處理方法的流程圖；
[0039]圖6為本申請實施例一種多媒體處理方法的流程圖；
[0040]圖7為本申請實施例一種多媒體處理裝置的結構示意框圖；
[0041]圖7a_7c為本申請實施例三種多媒體處理裝置的結構示意框圖；
[0042]圖8為本申請實施例一種多媒體處理裝置的結構示意框圖；
[0043]圖8a為本申請實施例一種多媒體處理裝置的結構示意框圖；
[0044]圖9為本申請實施例一種多媒體處理裝置的結構示意框圖；
[0045]圖9a為本申請實施例一種多媒體處理裝置的結構示意框圖；
[0046]圖10為本申請實施例一種多媒體處理裝置的結構示意框圖。
【具體實施方式】
[0047]下面結合附圖(若干附圖中相同的標號表示相同的元素)和實施例，對本申請的【具體實施方式】作進一步詳細說明。以下實施例用於說明本申請，但不用來限制本申請的範圍。
[0048]本領域技術人員可以理解，本申請中的「第一」、「第二」等術語僅用於區別不同步驟、設備或模塊等，既不代表任何特定技術含義，也不表示它們之間的必然邏輯順序。
[0049]在本申請的下述描述中，所述「感覺聲音位置」為用戶聽到一聲音之後在大腦中形成的該聲音對應的聲源位置，例如:在立體聲呈現中，可以通過用戶左右耳聲音的相差來確定所述感覺聲源位置；所述「視覺感覺位置」為用戶看到一對象的圖像之後在大腦中形成的該對象對應的空間位置，其中，例如:在三維顯示中，可以通過用戶的兩眼視差來確定該空間位置。
[0050]由於種種原因，多媒體數據進行視覺呈現以及對應的聽覺呈現時，對於一發聲對象，用戶對對象視覺感覺和聽覺感覺的位置有可能會不統一，例如感覺看到的對象在一個位置，而聽到的對象在另外一個位置，這樣會給用戶帶來空間上的錯亂感。特別是當用戶有可能在相對於呈現設備的不同的位置體驗所述多媒體數據的呈現時，在不同的位置可能會有不同的不統一感覺。
[0051]為此，如圖1所示，本申請實施例提供了一種多媒體處理方法，包括:
[0052]SllO根據一聲音數據確定一發聲對象；
[0053]S120分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內
容信息；
[0054]S130獲取用戶相對於用於呈現所述圖像數據的一顯示屏的位置；
[0055]S140獲取所述顯示屏的顯示參數；
[0056]S150根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息確定所述發聲對象對應於所述用戶的感覺聲源位置。
[0057]這裡所述聲音數據以及與所述聲音數據相關聯的圖像數據例如可以為一音視頻多媒體數據中包含的聲音數據和圖像數據。
[0058]本申請實施例根據用戶相對於多媒體呈現的位置以及對象的視覺呈現確定發聲對象的感覺聲源位置，使得對發聲對象的呈現可以達到視覺和聽覺的統一。
[0059]下面對本申請實施例所述多媒體處理方法的各步驟進行進一步說明。
[0060]SllO根據一聲音數據確定一發聲對象。
[0061]在本申請實施方式中，所述步驟SllO根據聲音數據確定一發聲對象的方式可以包括多種:
[0062]I)根據聲音數據得到一聲音具有的特定特徵，再根據該特定特徵確定所述發聲對象。
[0063]在本實施方式中，所述特定特徵包括以下的至少一種:頻率、周期、變化規律以及與一特徵值提取算法對應的特徵值。這裡，當所述特定特徵為與一特徵值提取算法對應的特徵值時，所述具有特定特徵的聲音為具有所述特徵值的聲音，即通過所述特徵值提取算法對所述聲音對應的聲音數據進行處理，能夠得到所述特徵值。
[0064]在一個可能的實施方式中:
[0065]可以通過模式匹配算法，例如神經網絡(Neural Network)、高斯混合模型(Gaussian Mixture Model)等,識別所述聲音數據中的聲音的所述特定特徵,再通過模式匹配得到該特定特徵對應的發聲對象。
[0066]例如:通過所述模式匹配算法對所述聲音數據進行模式匹配，發現所述聲音數據中包含與語音對應的數據，則此時，所述具有特定特徵的聲音即為語音，所述發聲對象為語音發聲對象，例如:所述發聲對象為人。這裡，例如，所述語音的特定特徵包括:特定的周期、頻譜、短時能量等等，當通過所述模式匹配算法確認所述聲音數據中包含上述具有特定的周期、頻譜、短時能量等等的聲音分量時，則認為聲音數據中包含語音相關數據。
[0067]或者，例如當識別出聲音為狗叫聲時，則該聲音的發聲對象為狗。
[0068]當然，在一些可能的實施方式中，所述聲音信息可能為所述聲音的一些特定特徵值，例如上述的周期、頻率或者為算法對應的特徵值等。在之後的步驟中直接通過所述特定特徵值來與所述圖像數據中對應的圖像的特徵值進行特徵值之間的匹配，而不需要再進行語義識別。
[0069]2)根據與聲音數據對應的元數據中記載的信息確定所述發聲對象。
[0070]在本實施方式中，例如，所述元數據記載:聲音數據的某一時間段對應於一女人發出的語音，則可以根據所述元數據確定該時間段對應的發聲對象為一女人。
[0071]當然，本領域的技術人員可以知道，除了上述列出的兩種方法外，其它合適的聲音數據分析方法也可以用於本申請實施例的步驟Slio中來確定所述發聲對象。
[0072]S120分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息。
[0073]在本申請實施例中，所述發聲對象對應的圖像內容信息包括所述發聲對象對應的像素集合的信息，例如該像素集合包含的哪些像素以及各像素的位置信息等。
[0074]在本申請中，獲取所述圖像內容信息的方式有多種，包括:
[0075]I)通過圖像識別分區方法(所述圖像識別分區方法為已有技術，這裡不再贅述)對圖像數據進行分區得到與所述發聲對象相對應的像素集合，進而得到與所述發聲對象對應的圖像內容信息。
[0076]當然，在本發明實施例的另外一種實施方式中，也可以根據步驟SllO中所述的，通過聲音信息中對應的特定特徵值與圖像區域對應的圖像特徵值直接進行匹配，得到與所述發聲對象對應的圖像內容信息。
[0077]在一些情況下，例如，圖像數據對應的圖像中有多個人時，當檢測到聲音數據中對應有語音對應的聲音時，有可能會出現難以確認所述語音對應於圖像中哪個人的情況。因此，在本發明實施例中，所述方法還包括:
[0078]根據所述聲音數據得到所述發聲對象對應的原始感覺聲源位置。
[0079]所述分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息包括:
[0080]根據所述發聲對象對應的原始感覺聲源位置分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息。
[0081]其中，當所述聲音數據為多軌聲音數據時，可以根據所述多軌聲音數據得到所述聲音對應的原始聲源位置。例如通過TDOA (Time Difference of Arrival,到達時間差)等方法，利用不同軌道聲音數據中與所述聲音對應的聲音數據分量之間的相差來計算出該聲音的原始感覺聲源位置。
[0082]然後，根據所述原始感覺聲源位置以及圖像中各對象所在的位置，可以更加準確地確定所述聲音信息對應的發聲對象與圖像內容信息之間的對應關係。
[0083]2)根據與圖像數據對應的圖像元數據得到與所述發聲對象對應的圖像內容信息。
[0084]在該實施方式中，所述圖像數據中有可能包括圖像元數據，所述圖像元數據中包含所述圖像數據對應的某一幀或多幀圖像中的對象對應的圖像內容信息。例如，所述圖像數據對應某一幀圖像中包含一個人、一條狗、一面牆以及一張椅子，則所述圖像元數據中包含:
[0085]對象1:人；對象I對應的像素集合的位置:(01x1，Olyl ；01x2, 01y2)；
[0086]對象2:狗；對象2對應的像素集合的位置:(02x1，02yl ；02x2, 02y2)；
[0087]對象3:牆；對象3對應的像素集合的位置(03x1，03yl ；03x2, 03y2)；
[0088]對象4:椅子；對象4對應的像素集合的位置:(04x1，04yl ；04x2, 04y2)。
[0089]當然，在其它實施方式中，所述圖像元數據中可能包括更加詳細的信息，例如人的各部分(頭、手臂、軀幹、腿等)及對應的像素集合；此外，還可能還包括對象的一些特徵信息，例如人的特徵還包括:小孩、男性等，狗的特徵還包括:黑色、拉布拉多等。
[0090]在本實施方式中，可以直接根據所述聲音信息對應的發聲對象,例如發聲對象為狗，去所述圖像數據的圖像元數據中尋找與所述發聲對象對應的對象的圖像內容信息，而不需要再對圖像數據進行圖像識別分區等處理。
[0091]在一種可能的實施方式中，所述聲音數據相關的元數據與所述圖像元數據可以為同一元數據，其中記載有發聲對象與圖像內容信息之間的對應關係，即用戶可以直接由所述元數據得到聲音信息對應的發聲對象對應的圖像內容信息。
[0092]S130獲取用戶相對於用於呈現所述圖像數據的一顯示屏的位置。
[0093]在本申請實施例中，所述顯示屏可以為電視、電腦顯示器等直接顯示的裝置，也可以為投射儀的投射顯示面，此外，在一種可能的實施方式中，所述顯示屏的顯示面還有可能並非一個二維顯示面(如平面和曲面)，其還有可能是一個立體顯示區域，例如體像素顯示的區域。
[0094]在本實施方式中，所述用於呈現所述圖像數據為根據所述圖像數據進行對應的顯示，例如，所述圖像數據為視頻數據，則這裡的呈現即為播放所述視頻數據；所述圖像數據為圖片數據，則這裡的呈現為顯示所述圖片數據對應的圖片。
[0095]在本申請實施例中，所述用戶相對於所述顯示屏的位置包括:用戶相對於所述顯示屏的方向和距離。這裡，可以在所述顯示屏上或者與所述顯示屏對應的一位置設置一個參考點，例如以顯示屏的顯示中心為所述參考點，獲取所述用戶相對於所述參考點的方向和距離。
[0096]在一些實施方式中，可以通過一圖像傳感器來獲取所述相對位置；在另一些實施方式中，還可以通過深度傳感器來獲取所述相對位置；此外，還可以通過一些定位裝置來獲取所述相對位置。當然，本領域技術人員還可以通過其它合適的方式來獲取該相對位置。
[0097]S140獲取所述顯示屏的顯示參數。
[0098]S150根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息確定所述發聲對象對應於所述用戶的感覺聲源位置。
[0099]在本實施方式中，所述顯示屏的顯示參數包括:所述顯示屏整體顯示區域的尺寸(例如大小、形狀)和解析度信息。本領域的技術人員可以知道，所述顯示參數還有可能包括其它信息，這裡不贅述。
[0100]在本申請實施例中，所述步驟S150包括:
[0101]根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息得到所述發聲對象對應於所述用戶的視覺感覺位置；
[0102]根據所述視覺感覺位置確定所述發聲對象對應於所述用戶的感覺聲源位置。
[0103]在一種可能的實施方式中，所述圖像數據為二維圖像數據。在該實施方式中，根據所述顯示屏的顯示參數以及所述圖像內容信息可以得到所述發聲對象在所述顯示屏上對應的顯示區域，再根據所述用戶相對於顯示屏的位置可以得到所述用戶相對於所述顯示區域的方向和距離。此時所述發聲對象對應於所述用戶的視覺感覺位置位於所述用戶與所述顯示區域的連線方向上。例如，如2圖所示，對應於第一用戶位置202，所述發聲對象對應的所述視覺感覺位置203在所述第一用戶位置202與所述發聲對象在所述顯示屏205上的顯示區域201的第一連線204上；對應於第二用戶位置202』，所述發聲對象對應的所述視覺感覺位置203』在所述第二用戶位置202』與所述顯示區域201的第二連線204』上。
[0104]其中，在一些可能的實施方式中，可以根據所述發聲對象對應的顯示區域的大小，來決定視覺感覺位置的深度信息等，例如，根據近大遠小的原則，相同的發聲對象在整體顯示區域上對應的顯示區域越大，則對應的視覺感覺位置越靠近用戶，否則越遠離用戶。
[0105]在另一種可能的實施方式中，所述圖像數據為三維圖像數據，所述圖像內容信息包括左眼圖像內容信息和右眼圖像內容信息。用戶通過看到的對象的左右眼視差來得到發聲對象的視覺感覺位置。
[0106]在本實施方式中，所述得到所述發聲對象對應於所述用戶的視覺感覺位置包括:
[0107]根據所述顯示屏的顯示參數，將所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差轉換為與所述顯示屏的呈現對應的真實視差；[0108]根據所述用戶相對於所述顯示屏的位置以及所述真實視差得到所述發聲對象對應於所述用戶的視覺感覺位置。
[0109]在本實施方式中，根據顯示屏的尺寸以及解析度信息等顯示參數以及所述左眼圖像內容信息和右眼圖像內容信息包含的像素信息將所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差轉換成真實視差，例如，所述左眼圖像內容信息對應的像素集合與所述右眼圖像內容信息對應的像素集合之間水平相差10個像素，根據所述顯示屏的顯示參數，每個像素的水平顯示寬度為0.5毫米，則該水平相差的10個像素視差在所述顯示屏上會對應水平方向上5毫米的真實視差。
[0110]根據上面所述的真實視差和所述用戶相對於所述顯示屏的位置，通過計算可以得到對應發聲對象對應於所述用戶的感覺聲源位置。
[0111]如圖3所示，在一個實施方式中，發聲對象的左眼圖像內容信息與右眼圖像內容信息分別對應於顯示屏301上顯示的左眼圖像302和右眼圖像303，在用戶相對於所述顯示屏位置分別為第一位置304和第二位置304』時，所述發聲對象對應於所述用戶的視覺感覺位置分別在305和305』(所述用戶的視覺感覺位置即為用戶的左眼306和右眼307分別看到的左眼圖像302和右眼圖像303的會聚位置)。
[0112]在本實施方式中，所述根據所述視覺感覺位置確定所述發聲對象對應於所述用戶的感覺聲源位置為，將所述視覺感覺位置確定為所述發聲對象對應於所述用戶的感覺聲源位置。
[0113]由圖3也可以看出，當發聲對象對應於一個原始感覺聲源位置時，如果不根據用戶的所述相對位置對感覺聲源位置進行修正，在一些位置，會使得用戶的視覺感覺位置與感覺聲源位置之間出現不一致的問題。
[0114]因此，在本申請實施例的一種可能的實施方式中，根據所述視覺感覺位置修正所述原始感覺聲音位置，得到所述發聲對象對應於所述用戶的感覺聲源位置。
[0115]在一種可能的實施方式中，所述方法還可能包括:
[0116]存儲所述用戶對應於所述顯示屏的位置、所述顯示屏的顯示參數、所述發聲對象對應的圖像內容信息以及所述發聲對象對應於所述用戶的感覺聲音位置之間的對應關係。
[0117]通過把上述過程中的數據進行存儲，可以使得同樣的多媒體數據(包括所述聲音數據及所述相關的圖像數據)再在相同或相似的多媒體裝置上播放時，可以減少一些數據處理的步驟，提高效率。
[0118]除了上面通過計算得到所述感覺聲源位置外，在一種可能的實施方式中，所述方法還包括:
[0119]獲取用戶對應於所述顯示屏的位置、顯示屏的顯示參數、發聲對象對應的圖像內容信息以及發聲對象對應於所述用戶的感覺聲音位置之間的對應關係。
[0120]該對應關係可以是從本地獲取的，例如上面所述的之前的處理過程中存儲的；或者還可以是從外部獲取的，例如伺服器獲取。
[0121]所述步驟S150中可以根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數、所述圖像內容信息以及所述對應關係確定所述發聲對象對應於所述用戶的感覺聲源位置。這樣，在本地不需要進行比較費時的計算，本地的實現更加方便、快速。
[0122]如圖4所示，在一種可能的實施方式中，所述方法還包括:[0123]S160根據所述發聲對象對應於所述用戶的所述感覺聲源位置以及當前聲音播放參數對所述聲音數據進行處理，得到所述發聲對象對應於所述用戶的感覺聲源位置對應的聲音數據。
[0124]在本實施方式中，所述當前聲音播放參數包括當前聲音播放模塊的參數信息，例如:聲音播放模塊的分布、大小、性能等參數。
[0125]在一種可能的實施方式中，所述聲音播放模塊包括多個聲音播放單兀；
[0126]所述當前聲音播放參數包括:當前多個聲音播放單元的參數信息。
[0127]這裡,所述聲音播放單元的參數信息例如包括:所述聲音播放單元的分布、大小、性能、對應的聲音數據軌道等參數。
[0128]在本實施方式中，所述發聲對象對應於所述用戶的感覺聲源位置對應的聲音數據為，當通過與所述聲音播放參數對應的聲音播放模塊來對所述處理後的聲音數據進行聲音播放時，用戶聽到的所述發聲對象對應的聲音後，感覺到該聲音的聲源位置為所述感覺聲源位置。
[0129]下面分別以所述聲音數據為單軌聲音數據和多軌聲音數據為例進一步說明本實施方式的步驟S160。
[0130]在一種可能的實施方式中，當所述聲音數據為單軌聲音數據，並且所述聲音播放模塊包括位置分開分布的多個聲音播放單元時，所述根據所述感覺聲源位置以及當前聲音播放參數對所述聲音數據進行處理可以為:
[0131]根據所述感覺聲源位置以及當前的聲音播放參數確定與所述感覺聲音位置對應的聲音播放單兀，並處理所述聲音數據使得所述發聲對象對應的聲音僅從所述確定的聲音播放單元播出。
[0132]以所述聲音播放模塊為設置在顯示屏顯示區域表面的透明薄膜聲音播放模塊為例，其被劃分成沿著所述顯示屏顯示區域表面分布的多個聲音播放單元，當所述聲音數據對應一狗叫聲時，則對所述聲音數據進行處理，使得與顯示屏上顯示的狗頭部的位置對應的聲音播放單元播放狗叫聲。
[0133]在另一種可能的實施方式中，當所述聲音數據為多軌聲音數據，並且所述聲音播放模塊包括位置分開分布的多個聲音播放單元時，所述根據所述感覺聲源位置以及當前聲音播放參數對所述聲音數據進行處理可以為:
[0134]根據所述感覺聲源位置以及當前的聲音播放參數調整各軌道的聲音數據中所述發聲對象對應的聲音數據分量的相位和/或幅度，使得調整後的多軌聲音數據在所述聲音播放模塊播放出的所述聲音給受眾的感覺是從所述感覺聲源位置發出的。
[0135]在一種實施方式中，例如可以通過WFS(Wave Field Synthesis,波場合成)算法根據感覺聲音位置以及聲音播放單元的參數等，合成與所述聲音對應的新的聲音數據分量，再根據所述聲音數據分量對所述聲音數據進行調整，得到處理後的聲音數據。當然，除了上述的WFS算法外，本發明實施例還可以通過其它合適的聲音合成算法來得到所述處理後的聲音數據。
[0136]本領域的技術人員可以知道，當聲音數據中包含多個發聲對象時，通過上面的方法可以得到所述多個發聲對象分別對應於用戶的感覺聲源位置。此外，當有多個用戶在關注所述多媒體呈現時，通過上面的方法也可以得到同一發聲對象分別對應於每個用戶的感覺聲源位置。
[0137]如圖5所不,一種多媒體處理方法，包括:
[0138]S510根據一聲音數據確定一發聲對象；
[0139]S520分析與所述聲音數據相關聯的三維圖像數據，得到與所述發聲對象對應的左眼圖像內容信息和右眼圖像內容信息；
[0140]S530根據至少一參考顯示屏的顯示參數以及所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差，得到所述發聲對象與所述至少一參考顯示屏的呈現對應的至少一參考真實視差。
[0141]這裡所述至少一參考顯示屏的顯示參數可以為一基準顯示屏的顯示參數,或者為常見的顯示參數不同的一些顯示屏的顯示參數。這裡所述的顯示參數包括顯示屏的尺寸和解析度信息。例如，常見的顯示屏的顯示參數參見下表:
[0142]表一:顯示屏的顯示參數表
[0143]
【權利要求】
1.一種多媒體處理方法,其特徵在於,包括: 根據一聲音數據確定一發聲對象；分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息；獲取用戶相對於用於呈現所述圖像數據的一顯示屏的位置；獲取所述顯示屏的顯示參數；根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息確定所述發聲對象對應於所述用戶的感覺聲源位置。
2.如權利要求1所述的方法，其特徵在於，所述確定所述發聲對象對應於所述用戶的感覺聲源位置包括: 根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息得到所述發聲對象對應於所述用戶的視覺感覺位置；根據所述視覺感覺位置確定所述感覺聲源位置。
3.如權利要求2所述的方法，其特徵在於，所述圖像數據為三維圖像數據，所述圖像內容信息包括左眼圖像內容信息和右眼圖像內容信息；所述得到所述發聲對象對應於所述用戶的視覺感覺位置包括: 根據所述顯示屏的顯示參數，將所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差轉換為與所述顯示屏的呈現對應的真實視差；根據所述用戶相對於所述顯示屏的位置以及所述真實視差得到所述發聲對象對應於所述用戶的視覺感覺位置。
4.如權利要求2所述的方法，其特徵在於，所述方法包括: 根據所述聲音數據得到所述發聲對象對應的原始感覺聲源位置。
5.如權利要求4所述的方法，其特徵在於，所述分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息包括: 根據所述發聲對象對應的原始感覺聲源位置分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息。
6.如權利要求4所述的方法，其特徵在於，所述根據所述視覺感覺位置確定所述感覺聲源位置包括: 根據所述視覺感覺位置修正所述原始感覺聲音位置，得到所述感覺聲源位置。
7.如權利要求1所述的方法，其特徵在於，所述方法還包括: 根據所述發聲對象對應於所述用戶的所述感覺聲源位置以及當前聲音播放參數對所述聲音數據進行處理，得到與所述感覺聲源位置對應的聲音數據。
8.如權利要求7所述的方法，其特徵在於，所述當前聲音播放參數包括:當前聲音播放模塊的參數信息。
9.如權利要求8所述的方法,其特徵在於,所述聲音播放模塊包括多個透明聲音播放單元，所述多個透明聲音播放單元至少部分覆蓋所述顯示屏的顯示區域。
10.如權利要求1所述的方法，其特徵在於，所述顯示屏的顯示參數包括:所述顯示屏整體顯示區域的尺寸和解析度信息。
11.如權利要求1所述的方法，其特徵在於，所述方法還包括: 存儲所述用戶對應於所述顯示屏的位置、所述顯示屏的顯示參數、所述發聲對象對應的圖像內容信息以及所述發聲對象對應於所述用戶的感覺聲音位置之間的對應關係。
12.如權利要求1所述的方法，其特徵在於，所述根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息確定所述發聲對象對應於所述用戶的感覺聲源位置包括: 獲取用戶對應於所述顯示屏的位置、顯示屏的顯示參數、發聲對象對應的圖像內容信息以及發聲對象對應於所述用戶的感覺聲音位置之間的對應關係；根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數、所述圖像內容信息以及所述對應關係確定所述感覺聲源位置。
13.—種多媒體處理方法,其特徵在於,包括: 根據一聲音數據確定一發聲對象；分析與所述聲音數據相關聯的三維圖像數據，得到與所述發聲對象對應的左眼圖像內容信息和右眼圖像內容信息；根據至少一參考顯示屏的顯示參數以及所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差，得到所述發聲對象與所述至少一參考顯示屏的呈現對應的至少一參考真實視差。
14.如權利要求13所述的方法，其特徵在於，所述方法包括: 根據所述聲音數據得到所述發聲對象對應的原始感覺聲源位置。
15.如權利要求14所述的方法，其特徵在於，所述分析與所述聲音數據相關聯的三維圖像數據，得到與所述發聲對象對應的左眼圖像內容信息和右眼圖像內容信息包括: 根據所述發聲對象對應的原始感覺聲源位置分析與所述聲音數據相關聯的三維圖像數據，得到與所述發聲對象對應的左眼圖像內容信息和右眼圖像內容信息。
16.—種多媒體處理方法,其特徵在於,包括: 獲取一多媒體數據，所述多媒體數據包括相互關聯的聲音數據、三維圖像數據以及對象信息數據，所述對象信息數據包括:所述聲音數據對應的至少一發聲對象中的每個發聲對象對應的至少一參考真實視差，所述至少一參考真實視差與分別對應於至少一顯示參數的至少一參考顯示屏的呈現對應；獲取用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置；獲取所述顯示屏的顯示參數；根據所述用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置、所述顯示屏的顯示參數以及所述對象信息數據確定所述至少一發聲對象對應於所述用戶的感覺聲源位置。
17.如權利要求16所述的方法，其特徵在於，所述方法還包括: 根據所述發聲對象對應於所述用戶的所述感覺聲源位置以及當前聲音播放參數對所述聲音數據進行處理，得到與所述感覺聲源位置對應的聲音數據。
18.如權利要求16所述的方法，其特徵在於，所述方法還包括: 獲取用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置、所述顯示屏的顯示參數、所述對象信息數據以及發聲對象對應於所述用戶的感覺聲源位置之間的對應關係；所述確定所述感覺聲源位置包括: 根據所述用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置、所述顯示屏的顯示參數、所述對象信息數據以及所述對應關係確定所述感覺聲源位置。
19.一種多媒體處理裝置，其特徵在於，包括: 發聲對象確定模塊，用於根據一聲音數據確定一發聲對象；圖像內容獲取模塊，用於分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息；用戶位置獲取模塊，用於獲取用戶相對於用於呈現所述圖像數據的一顯示屏的位置；顯示參數獲取模塊，用於獲取所述顯示屏的顯示參數；聲源位置確定模塊，用於根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息確定所述發聲對象對應於所述用戶的感覺聲源位置。
20.如權利要求19所述的裝置，其特徵在於，所述聲源位置確定模塊包括: 視覺位置確定單元，用於根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數以及所述圖像內容信息得到所述發聲對象對應於所述用戶的視覺感覺位置；聲源位置確定單元，用於根據所述視覺感覺位置確定所述感覺聲源位置。
21.如權利要求20所述的裝置，其特徵在於，所述圖像數據為三維圖像數據，所述圖像內容信息包括左眼圖像內容信息和右眼圖像內容信息；所述視覺位置確定單元包括: 真實視差獲取子單元，用於根據所述顯示屏的顯示參數，將所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差轉換為與所述顯示屏的呈現對應的真實視差；視覺位置確定子單元，用於根據所述用戶相對於所述顯示屏的位置以及所述真實視差得到所述發聲對象對應於所述用戶的視覺感覺位置。
22.如權利要求20所述的裝置，其特徵在於，所述裝置包括: 原始聲源位置確定模塊，用於根據所述聲音數據得到所述發聲對象對應的原始感覺聲源位置。
23.如權利要求22所述的裝置，其特徵在於，所述圖像內容獲取模塊進一步用於: 根據所述發聲對象對應的原始感覺聲源位置分析與所述聲音數據相關聯的圖像數據，得到與所述發聲對象對應的圖像內容信息。
24.如權利要求22所述的裝置，其特徵在於，所述聲源位置確定單元進一步用於: 根據所述視覺感覺位置修正所述原始感覺聲音位置，得到所述感覺聲源位置。
25.如權利要求19所述的裝置，其特徵在於，所述裝置還包括: 聲音數據處理模塊，用於根據所述發聲對象對應於所述用戶的所述感覺聲源位置以及當前聲音播放參數對所述聲音數據進行處理，得到與所述感覺聲源位置對應的聲音數據。
26.如權利要求25所述的裝置，其特徵在於，所述當前聲音播放參數包括:當前聲音播放模塊的參數信息。
27.如權利要求26所述的裝置，其特徵在於，所述聲音播放模塊包括多個透明聲音播放單元，所述多個透明聲音播放單元至少部分覆蓋所述顯示屏的顯示區域。
28.如權利要求19所述的裝置，其特徵在於，所述顯示屏的顯示參數包括:所述顯示屏整體顯示區域的尺寸和解析度信息。
29.如權利要求19所述的裝置，其特徵在於，所述裝置還包括: 存儲模塊，用於存儲所述用戶對應於所述顯示屏的位置、所述顯示屏的顯示參數、所述發聲對象對應的圖像內容信息以及所述發聲對象對應於所述用戶的感覺聲音位置之間的對應關係。
30.如權利要求19所述的裝置，其特徵在於，所述裝置還包括: 對應關係獲取模塊，用於獲取用戶對應於所述顯示屏的位置、顯示屏的顯示參數、發聲對象對應的圖像內容信息以及發聲對象對應於所述用戶的感覺聲音位置之間的對應關係; 所述聲源位置確定模塊進一步用於，根據所述用戶相對於所述顯示屏的位置、所述顯示屏的顯示參數、所述圖像內容信息以及所述對應關係確定所述發聲對象對應於所述用戶的感覺聲源位置。
31.一種多媒體處理裝置，其特徵在於，包括: 發聲對象確定模塊，用於根據一聲音數據確定一發聲對象；圖像內容獲取模塊，用於分析與所述聲音數據相關聯的三維圖像數據，得到與所述發聲對象對應的左眼圖像內容信息和右眼圖像內容信息；參考真實視差獲取模塊，用於根據至少一參考顯示屏的顯示參數以及所述左眼圖像內容信息和右眼圖像內容信息之間的像素視差，得到所述發聲對象與所述至少一參考顯示屏的呈現對應的至少一參考真實視差。
32.如權利要求31所述的裝置，其特徵在於，所述裝置包括: 原始聲源位置確定模塊，用於根據所述聲音數據得到所述發聲對象對應的原始感覺聲源位置。
33.如權利要求32所述的裝置，其特徵在於，所述圖像內容獲取模塊進一步用於: 根據所述發聲對象對應的原始感覺聲源位置分析與所述聲音數據相關聯的三維圖像數據，得到與所述發聲對象對應的左眼圖像內容信息和右眼圖像內容信息。
34.一種多媒體處理裝置，其特徵在於，包括: 多媒體數據獲取模塊，用於獲取一多媒體數據，所述多媒體數據包括相互關聯的聲音數據、三維圖像數據以及對象信息數據，所述對象信息數據包括:所述聲音數據對應的至少一發聲對象中的每個發聲對象對應的至少一參考真實視差，所述至少一參考真實視差與分別對應於至少一顯示參數的至少一參考顯示屏的呈現對應；用戶位置獲取模塊，用於獲取用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置；顯示參數獲取模塊，用於獲取所述顯示屏的顯示參數；聲源位置確定模塊，用於根據所述用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置、所述顯示屏的顯示參數以及所述對象信息數據確定所述至少一發聲對象對應於所述用戶的感覺聲源位置。
35.如權利要求34所述的裝置，其特徵在於，所述裝置還包括: 聲音數據處理模塊，用於根據所述發聲對象對應於所述用戶的所述感覺聲源位置以及當前聲音播放參數對所述聲音數據進行處理，得到與所述感覺聲源位置對應的聲音數據。
36.如權利要求34所述的裝置，其特徵在於，所述裝置還包括: 對應關係獲取模塊，用於獲取用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置、所述顯示屏的顯示參數、所述對象信息數據以及發聲對象對應於所述用戶的感覺聲源位置之間的對應關係；所述聲源位置確定模塊進一步用於: 根據所述用戶相對於用於呈現所述三維圖像數據的一顯示屏的位置、所述顯示屏的顯示參數、所述對象信息數據以及所述對應關係確定所述感覺聲源位置。
【文檔編號】H04N13/00GK103905810SQ201410099115
【公開日】2014年7月2日申請日期:2014年3月17日優先權日:2014年3月17日
【發明者】杜琳, 施偉申請人:北京智谷睿拓技術服務有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

多媒體處理方法及多媒體處理裝置製造方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法