新四季網

用於視頻電話的關注區提取的製作方法

2024-03-03 18:00:15

專利名稱:用於視頻電話的關注區提取的製作方法
技術領域:
本揭示案涉及數字視頻編碼和解碼,且更明確地說涉及用於視頻電話(VT)應用的 處理關注區(ROI)信息的技術。
背景技術:
已為編碼數字視頻序列建立了許多不同的視頻編碼標準。舉例來說,移動圖片專家 組(MPEG)已開發出許多標準,包含MPEG-l、 MPEG-2和MPEG-4。其它實例包含國 際電信聯盟(ITU) H.263標準和新興的ITUH.264標準。這些視頻編碼標準通常支持通 過以壓縮方式編碼數據而改進視頻序列的傳輸效率。
視頻電話(VT)允許用戶共享視頻和音頻信息以支持例如視頻會議的應用。示範性 視頻電話標準包含由會話啟始協議(SIP)界定的那些標準、ITUH.323標準和ITUH.324 標準。在VT系統中,用戶可發送並接收視頻信息,僅接收視頻信息,或僅發送視頻信 息。接收者通常以視頻信息從發送者傳輸的形式查看所接收的視頻信息。
已提議對視頻信息的選定部分進行優先編碼。舉例來說,發送者可指定以較高質量 編碼關注區(ROI)以用於傳輸到接收者。發送者可能希望向遠程接收者強調所述ROI。 儘管發送者可能希望關注視頻場景內的其它對象,ROI的典型實例是人臉。利用對ROI 的優先編碼,與非ROI區相比,接收者能夠較清楚地查看ROI。

發明內容
本揭示案針對用於視頻電話(VT)的關注區(ROI)處理技術。根據所述揭示的技 術,本地接收者裝置界定由遠程發送者裝置編碼和傳輸的視頻,即遠端視頻的ROI信息。 所述本地接收者裝置將所述ROI信息傳輸到所述遠程發送者裝置。所述發送者裝置使用 由所述接收者裝置傳輸的所述ROI信息,對視頻場景內的ROI應用優先編碼,例如較高 質量編碼或誤差防護。以此方式,接收者裝置能夠遠程控制對由發送者裝置編碼的遠端 視頻的ROI編碼。
除了接收遠端視頻外,接收者還可經裝備以發送視頻,即近端視頻。因此,參與VT 通信的裝置可對稱地充當視頻信息的發送者和接收者兩者。充當接收者時,每一裝置可 定義遠端ROI信息以用於由作為發送者的遠程裝置編碼的視頻。並且,充當發送者時, 每一裝置可定義近端ROI信息以用於傳輸到作為接收者的另一裝置的視頻信息。發送者 或接收者裝置可稱為"ROI感知的",是指其能夠處理由另一裝置提供的ROI信息以支持 對ROI視頻編碼的遠程控制。
遠端ROI信息允許接收者控制發送者裝置進行的遠程ROI編碼以較清楚地査看所接 收的視頻場景內的對象或區。近端ROI信息允許發送者控制本地ROI編碼以強調所傳輸 的視頻場景內的對象或區。因此,發送者對ROI的優先編碼可基於由接收者或發送者產 生的ROI信息。另外,接收者裝置可(例如)通過應用例如誤差隱蔽、解塊或去鳴振技 術的較高質量後處理來基於ROI信息而優先解碼ROI。
為了促進ROI處理,本揭示案進一步預期用於ROI選擇、ROI映射、ROI提取、ROI 信令、ROI跟蹤,和對接收者裝置的存取驗證以允許對發送者裝置的ROI編碼進行遠程 控制的技術。ROI選擇可依賴於預定義的ROI樣式、口頭或文本ROI描述,或用戶劃定 的ROI。 ROI映射涉及將選定的ROI樣式轉譯為ROI映射,其可採取適宜由視頻編碼器 使用的宏區塊(MB)映射的形式。
ROI信令可涉及從接收者向發送者裝置進行ROI信息的帶內或帶外信令。ROI跟蹤 涉及響應於ROI運動而動態調節ROI映射。存取驗證可涉及出於遠程ROI控制以及解決 本地與遠程用戶或多個遠程用戶之間的ROI控制衝突的目的而向接收者裝置授予存取權 和等級。
ROI提取可涉及處理對關注區(ROI)的用戶描述以基於所述描述而產生指定所述 ROI的信息。可基於指定ROI的信息來編碼近端視頻以增強近端視頻的ROI相對於非 ROI區域的圖像質量。用戶描述可基於文本、圖形或語音。提取模塊應用適當處理以從 用戶描述中產生ROI信息。提取模塊可駐存在視頻通信裝置本地,或駐存在經配置以進 行ROI提取的不同的中間伺服器中。
在一個實施例中,本揭示案提供一種方法,其包括從遠程裝置接收指定由本地裝置 編碼且由遠程裝置接收的近端視頻內的關注區(ROD的信息,和基於ROI來編碼近端 視頻以增強視頻的ROI相對於非ROI區域的圖像質量。
在另一實施例中,本揭示案提供一種視頻編碼裝置,所述視頻編碼裝置包括關注 區(ROI)引擎,其從遠程視頻通信裝置接收指定傳輸到遠程裝置的近端視頻內的關注區
(ROI)的信息;和視頻編碼器,其編碼近端視頻以增強視頻的ROI相對於非ROI區域的
圖像質量。
在額外實施例中,本揭示案提供一種方法,其包括產生指定由遠程裝置傳輸且由本 地裝置接收的遠端視頻內的關注區(ROI)的信息,和將所述信息傳輸到遠程裝置以用於 基於ROI來編碼遠端視頻以增強視頻的ROI相對於非ROI區域的圖像質量。
在又一實施例中,本揭示案提供一種視頻編碼裝置,所述視頻編碼裝置包括關注 區(ROI)引擎,其產生指定從遠程裝置接收的遠端視頻內的關注區(ROI)的信息;和 視頻編碼器,其編碼近端視頻並將指定ROI的信息和經編碼的近端視頻一起傳輸以由遠 程裝置使用來基於ROI而編碼遠端視頻以增強遠端視頻的ROI相對於非ROI區域的圖像 質量。
在另一實施例中,本揭示案提供一種方法,其包括從用戶處接收由本地裝置產生的 近端視頻內的關注區(ROI)的描述,基於所述描述產生指定ROI的信息,和基於指定 ROI的信息來編碼近端視頻以增強近端視頻的ROI相對於非ROI區域的圖像質量。 在額外實施例中,本揭示案提供一種視頻編碼裝置,所述視頻編碼裝置包括關注 區(ROI)引擎,其接收對由所述裝置編碼的近端視頻內的關注區(ROI)的描述,並基 於所述描述產生指定ROI的信息;和視頻編碼器,其編碼近端視頻以增強視頻的ROI相 對於非ROI區域的圖像質量。
在又一實施例中,本揭示案提供一種視頻編碼系統,所述視頻編碼系統包括第一 視頻通信裝置,其編碼近端視頻;第二視頻通信裝置,其從第一視頻通信裝置接收近端 視頻,其中所述第二視頻通信裝置產生對由所述第一視頻通信裝置產生的近端視頻內的 關注區(ROI)的用戶描述;和中間伺服器,其結構上不同於所述第一和第二視頻通信裝 置,且其基於所述描述產生指定ROI的信息,其中第一視頻通信裝置基於指定ROI的信 息來編碼近端視頻以增強近端視頻的ROI相對於非ROI區域的圖像質量。
本文描述的技術可實施在硬體、軟體、固件或其任何組合中。如果實施在軟體中, 那麼可通過計算機可讀媒體來部分實現所述技術,所述計算機可讀媒體包括含有指令的 程序代碼,所述程序代碼當被執行時會進行本文描述的方法中的一種或一種以上方法。
附圖和以下描述內容中陳述了一個或一個以上實施例的細節。從描述內容和附圖以 及從權利要求書中將了解其它特徵、目的和優點。


圖1是說明併入有ROI感知視頻編解碼器(CODEC)的視頻編碼和解碼系統的方框
圖。
圖2是說明與無線通信裝置相關聯的顯示器上呈現的視頻場景內的ROI的定義的圖。 圖3是說明併入有ROI感知CODEC的通信裝置的方框圖。
圖4是說明具有ROI感知CODEC且進一步併入有ROI提取模塊的另一通信裝置的 方框圖。
圖5是說明經由中間提取伺服器的分布式ROI提取的方框圖。 圖6是說明用於多個視頻電話會話的分布式ROI提取的方框圖。 圖7A-7D是說明供用戶選擇的預定義的ROI樣式的圖。
圖8是說明在接收者裝置處產生ROI信息以在遠程發送者裝置處控制對近端視頻的 優先ROI編碼的流程圖。
圖9是說明處理來自接收者裝置的ROI信息以便結合ROI跟蹤而在發送者裝置處對 近端視頻進行優先ROI編碼的流程圖。
圖10是說明處理來自接收者裝置的ROI信息以便結合用戶驗證而在發送者裝置處對 近端視頻進行優先ROI編碼的流程圖。
圖ll是說明選擇預定義的ROI樣式的流程圖。
圖12是說明通過擴展和收縮ROI模板來定義所顯示的視頻場景中的ROI樣式的圖。 圖13是說明通過拖動ROI模板來定義所顯示的視頻場景中的ROI樣式的圖。 圖14是說明通過用鐵筆在觸控螢幕幕上劃定ROI區域來定義所顯示的視頻場景中的 ROI樣式的圖。
圖15是說明使用具有待動態提取和跟蹤的指定的ROI對象的下拉式菜單來定義所顯 示的視頻場景中的ROI樣式的圖。
圖16是說明使用具有映射到如圖7A-7D中預定義的ROI樣式的指定的ROI對象的 下拉式菜單來定義所顯示的視頻場景中的ROI樣式的圖。
圖17是說明使用ROI描述界面來定義所顯示的視頻場景中的ROI樣式的流程圖。
圖18是說明解決發送者與接收者裝置之間的ROI衝突的流程圖。
圖19是說明遠端視頻內的ROI宏區塊的優先解碼的流程圖。
具體實施例方式
圖1是說明併入有ROI感知視頻編解碼器(CODEC)的視頻編碼和解碼系統10的 方框圖。如圖1所示,系統10包含第一視頻通信裝置12和第二視頻通信裝置14。通信 裝置12、 14通過傳輸信道16連接。傳輸信道16可以是有線或無線媒體。系統10支持
視頻通信裝置12、 14之間的用於視頻電話的雙向視頻傳輸。裝置12、 14可以大體上對 稱的方式操作。然而,在一些實施例中,視頻通信裝置12、 14中的一者或兩者可經配置 以僅用於單向通信以支持ROI感知視頻串流。
對於雙向應用,互逆編碼、解碼、多路復用(MUX)和多路分解(DEMUX)組件 可提供在信道16的相對端。在圖1的實例中,視頻通信裝置12包含MUX/DEMUX組件 18、 ROI感知視頻CODEC 20和音頻CODEC 22。類似地,視頻通信裝置14包含 MUX/DEMUX組件26、 ROI感知視頻CODEC 28和音頻CODEC 30。每一 CODEC 20、 28為"ROI感知的",是指其能夠處理由另一視頻通信裝置12、 14遠程提供或由其自身 的視頻通信裝置本地提供的ROI信息。
視頻通信裝置12、 14可實施為經裝備以用於視頻串流、視頻電話或兩者的無線移動 終端或有線終端。為此,視頻通信裝置12、 14可進一步包含適當的無線發射、接收、調 制解調和處理電子元件以支持無線通信。無線移動終端的實例包含移動無線電話、移動 個人數字助理(PDA)、移動計算機或裝備有無線通信能力和視頻編碼和/或解碼能力的 其它移動裝置。有線終端的實例包含臺式計算機、視頻電話、網絡設備、機頂盒、交互 式電視等。視頻通信裝置12、 14中任一者可經配置以發送視頻信息、接收視頻信息,或 發送並接收視頻信息。
對於視頻電話應用,通常需要裝置12支持視頻發送和視頻接收能力兩者。然而,還 預期串流視頻應用。在視頻電話且尤其是藉助無線通信的移動視頻電話中,帶寬是重要 的關注因素。因此,將額外編碼位選擇性地分配到ROI或其它優先編碼步驟可改進視頻 的一部分的圖像質量,同時維持總體編碼效率。對於優先編碼,可將額外位分配到ROI, 同時可將減少的數目的位分配到非ROI區(例如,視頻場景中的背景)。
通常,系統10使用用於視頻電話(VT)應用的關注區(ROI)處理技術。然而,此 類技術也可應用於視頻串流應用,如上文所提及。出於說明的目的,將假定,每一視頻 通信裝置12、 14能夠作為視頻信息的發送者和接收者兩者而操作,且藉此作為VT會話 中的全額參與者而操作。對於從視頻通信裝置12傳輸到視頻通信裝置14的視頻信息, 視頻通信裝置12是發送者裝置且視頻通信裝置14是接收者裝置。相反,對於從視頻通 信裝置14傳輸到視頻通信裝置12的視頻信息,視頻通信裝置12是接收者裝置且視頻通 信裝置14是發送者裝置。當討論將由本地視頻通信裝置12、 14編碼和傳輸的視頻信息 時,所述視頻信息將稱為"近端"視頻。當討論將由遠程視頻通信裝置12、 14編碼並從 遠程視頻通信裝置12、 14接收的視頻信息時,所述視頻信息將稱為"遠端"視頻。
根據所揭示的技術,當作為接收者裝置操作時,視頻通信裝置12或14界定針對從 發送者裝置接收的遠端視頻信息的ROI信息。再次,從發送者裝置接收的視頻信息稱為 "遠端"視頻信息,因為其是從處於通信信道的遠端的另一 (發送者)裝置接收的。同樣, 針對從發送者裝置接收的視頻信息而界定的ROI信息稱為"遠端"ROI信息。遠端ROI 通常是指遠端視頻內最引起遠端視頻的接收者關注的區。接收者裝置解碼遠端視頻信息 並將經解碼的遠端視頻經由顯示裝置呈現給用戶。用戶在遠端視頻所呈現的視頻場景內 選擇ROI。
接收者裝置基於用戶選擇的ROI而產生遠端ROI信息,並將遠端ROI信息發送到發 送者裝置。遠端ROI信息可採取ROI宏區塊(MB)映射的形式,其依據駐存在ROI內 的宏區塊來界定ROI。 ROI MB映射可用1標記處於ROI內的MB,且用0標記ROI外 部的MB,以容易地識別包含在ROI中(1)以及排除在ROI外(0)的MB。 MB是形 成幀的一部分的視頻區塊。MB的大小可為16X16個像素。然而,其它MB大小是可能 的。因此,MB可指代任何視頻區塊,包含(但不限於)例如MPEG-l、MPEG-2和MPEG-4、 ITUH.263、 ITUH.264的特定視頻編碼標準或任何其它標準內定義的宏區塊。
通過使用由接收者裝置傳輸的遠端ROI信息,發送者裝置將優先編碼應用於視頻場 景內的相應的ROI。明確地說,可將額外編碼位分配到ROI,同時可將減少的數目的編 碼位分配到非ROI區,藉此改進ROI的圖像質量。以此方式,接收者裝置能夠遠程控制 發送者裝置對遠端視頻信息進行的ROI編碼。優先編碼例如通過ROI區域中的優先位分 配或優先量化,而將與視頻場景的非ROI區域相比更高質量編碼應用於ROI區域。經優 先編碼的ROI允許接收者裝置的用戶較清楚地査看對象或區。舉例來說,與視頻場景的 背景區相比,接收者裝置的用戶可能希望較清楚地查看臉部或某一其它對象。
當作為發送者裝置操作時,視頻通信裝置12或14也可定義針對由發送者裝置傳輸 的視頻信息的ROI信息。再次,發送者裝置中產生的視頻信息稱為"近端"視頻,因為 其是在通信信道的近端產生的。由發送者裝置產生的ROI信息稱為"近端"ROI信息。 近端ROI通常是指發送者希望向接收者強調的近端視頻的區。因此,ROI可由接收者裝 置用戶指定為遠端ROI信息,或由發送者裝置用戶指定為近端ROI信息。發送者裝置將 近端視頻經由顯示裝置呈現給用戶。與發送者裝置相關聯的用戶在近端視頻所呈現的視 頻場景內選擇ROI。發送者裝置使用用戶選擇的ROI來編碼近端視頻,使得相對於非ROI 區域,近端視頻中的ROI被(例如)以較高質量編碼進行優先編碼。
由發送者裝置處的本地用戶選擇的近端ROI允許發送者裝置的用戶強調視頻場景內
的區或對象,且藉此使這些區或對象引起接收者裝置用戶的關注。值得注意的是,由發 送者裝置用戶選擇的近端ROI無需傳輸到接收者裝置。事實上,發送者裝置在將近端視 頻傳輸到接收者裝置之前使用所選擇的近端ROI信息在本地編碼所述近端視頻。然而, 在一些實施例中,發送者裝置可將ROI信息發送到接收者裝置以允許應用優先解碼技術, 例如較高質量誤差校正(如誤差隱蔽)或後處理(如解塊和去鳴振濾波器)。
如果ROI信息由發送者裝置和接收者裝置兩者提供,那麼發送者裝置應用從接收者 裝置接收的遠端ROI信息或本地產生的近端ROI信息來編碼近端視頻。發送者裝置與接 收者裝置提供的近端與遠端ROI選擇之間可能出現ROI衝突。此類衝突可能需要解決, 例如由本地用戶主動解決或根據所規定的存取權和等級來解決,如本揭示案中其它地方 將描述。在任一情況下,發送者裝置均基於由發送者裝置本地提供的近端ROI信息或由 接收者裝置遠程提供的ROI信息來優先編碼ROI。
為了促進ROI處理,本揭示案進一步預期用於ROI選擇、ROI映射、R0I信令、ROI 跟蹤,和對接收者裝置的存取驗證以允許對發送者裝置的ROI編碼進行遠程控制的技術。 如將描述,接收者裝置或發送者裝置應用的不同的ROI選擇技術可涉及選擇預定義的 ROI樣式、口頭或文本ROI描述,或用戶的ROI劃定。在接收者裝置中,ROI映射涉及 將選定的遠端或近端ROI樣式轉譯為ROI映射,其可採取宏區塊(MB)映射的形式。 ROI信令可涉及從接收者裝置向發送者裝置進行遠端ROI信息的帶內或帶外信令。ROI 跟蹤涉及響應於ROI運動而動態調節由接收者裝置產生的遠端ROI映射或由發送者本身 產生的本地近端ROI。存取驗證可出於對遠端ROI的遠程控制以及解決接收者與發送者 裝置之間的ROI控制衝突的目的而涉及向接收者裝置授予存取權和等級。
系統IO可支持根據會話啟始協議(SIP)、 ITUH.323標準、ITUH.324標準或其它標 準的視頻電話。每一視頻CODEC 20、 28根據例如MPEG-2、 MPEG-4、 ITU H.263或ITU H.264的視頻壓縮標準而產生經編碼的視頻數據。如圖1中進一步展示,視頻CODEC 20、 28可與各自音頻CODEC22、 30集成,且包含適當的MUX/DEMUX組件18、 26以處理 數據流的音頻和視頻部分。MUX/DEMUX單元18、 26可符合ITU H.223多路復用器協 議或例如用戶數據報協議(UDP)的其它協議。
圖2是說明與無線通信裝置38相關聯的顯示器36上呈現的視頻場景34內的ROI 32 的定義的圖。在圖2的實例中,ROI32是矩形區,其含有視頻場景34中呈現的人的臉部 39,但ROI可含有需要改進或增強的編碼的任何圖像或對象。在VT應用中,視頻場景 34中呈現的人通常將是遠程發送者裝置的用戶,其是與作為接收者裝置操作的無線通信
裝置38的用戶進行的視頻會議的一方。ROI32構成為遠端R01,因為其定義從遠程發送 者裝置傳輸的視頻場景中的ROI。根據本揭示案,遠端ROI32被傳輸到發送者裝置以指 定對ROI內的視頻場景區域的優先編碼。以此方式,接收者裝置38的本地用戶能夠遠程 控制遠端ROI 32的圖像質量。如將描述,遠端ROI32的大小、形狀和位置可以是固定 或可調節的,且可以多種方式予以定義、描述或調節。
ROI 32允許接收者裝置用戶較清晰地査看視頻場景34內的個別對象,例如人的臉部 39。 ROI32內的臉部39相對於視頻場景34的非ROI區域(例如,背景區)而被以較高 圖像質量進行編碼。以此方式,用戶能夠較清楚地查看面部表情、唇部活動、眼部活動 等。然而,或者可使用ROI 32來指定除了臉部以外的任何對象。 一般來說,VT應用中 的ROI可能非常主觀且可能由於用戶不同而不同。所需的ROI還取決於如何使用VT。 在一些情況下,VT可用於查看和評估對象,與視頻會議形成對比。
舉例來說,丈夫可使用VT應用來展示其想要在機場禮品店購買的禮物。丈夫可能 希望以及時且交互的方式從他的妻子那裡獲得第二種意見。這樣做,他可以立即作出決 定,因為他所搭乘的班機馬上就要出發了。在這種情況下,ROI是覆蓋丈夫正考慮的禮 物的區。通過允許妻子(或丈夫)選擇ROI,有可能實現針對所述特定ROI的較好編碼 或較好的服務質量,且藉此允許妻子較清楚地查看禮物。
作為另一實例,兩個或兩個以上工程師可進行涉及在白板上演示和討論各種等式或 圖表的VT通話。在這種情況下,遠程用戶可能希望以較好的圖像質量査看白板的一區 域,例如更清楚地看到等式的細節。為此,遠程用戶選擇包含所述等式的ROI。另外, 當一工程師向白板進行添加時,遠程用戶可能希望移動ROI以跟蹤新添加到白板的主題。 遠程用戶指定ROI的能力可顯著改進技術討論過程中信息的交換。
本文描述的ROI技術不僅改進ROI的視頻質量,而且改進兩個用戶之間的視頻交互。 一般來說,常規VT應用僅僅將兩個單向視頻傳輸組合且任何交互均是口頭進行。在常 規VT應用中,視頻側通常不存在交互。允許接收者裝置用戶在VT通話期間至少具有對 從發送者裝置接收的視頻內容的有限控制可允許更多的視頻交互。
以此方式,VT應用可經設計使得接收者裝置用戶可選擇ROI,並將ROI信息發送回 發送者裝置以對ROI進行優先處理,例如較高質量編碼(例如,通過分配較多編碼位) 或較強誤差防護(例如,內部MB更新)。實際上,通過指定遠端ROI,接收者裝置用戶 可遠程控制發送者裝置編碼器。另外,此遠端ROI信息可由裝置中的ROI感知視頻解碼 器使用,所述ROI感知視頻解碼器接收遠端視頻以進行較好的後處理,例如誤差隱蔽、
解塊或去鳴振。由經編碼視頻的接收者對視頻編碼器的遠程控制不同於僅僅控制遠程攝 像機的搖攝、傾斜、變焦或焦距。相比之下,通過遠程ROI處理,用戶能夠影響應用於 特定區的編碼的質量。然而,在一些實施例中,可提供遠程攝像機控制與遠程視頻編碼 器控制組合。
圖3是說明併入有ROI感知CODEC的視頻通信裝置12的方框圖。儘管圖3描繪圖 1的視頻通信裝置12,但可類似地構造視頻通信裝置14。再次,視頻通信裝置12或14 可充當接收者裝置、發送者裝置,以及優選地接收者和發送者裝置兩者。如圖3所示, 視頻通信裝置12包含ROI感知CODEC 20、視頻俘獲裝置40和用戶界面42。儘管圖3 中展示信道16,但為了便於說明省略了 MUX/DEMUX和音頻組件。視頻俘獲裝置40可 以是與視頻通信裝置12集成或可操作地耦合到視頻通信裝置12的視頻攝像機。在一些 實施例中,舉例來說,視頻俘獲裝置40可與行動電話集成以形成所謂的視頻攝像機電話。 以此方式,視頻俘獲裝置40可支持移動VT應用。
用戶界面42可包含顯示裝置,例如液晶顯示器(LCD)、等離子屏幕、投影儀顯示 器,或可與視頻通信裝置12集成或可操作地耦合到視頻通信裝置12的任何其它顯示設 備。顯示裝置向視頻通信裝置12的用戶呈現視頻圖像。視頻圖像可包含由視頻俘獲裝置 40在本地獲得的近端視頻,以及從發送者裝置遠程傳輸的遠端視頻。另外,用戶界面42 可包含多種用戶輸入媒體中的任一者,包含硬鍵、軟鍵、各種指向裝置、觸筆等,以用 於由視頻通信裝置12的用戶輸入信息。在一些實施例中,用戶界面42的顯示裝置和用 戶輸入媒體可與行動電話集成。視頻通信裝置12的用戶依賴於用戶界面42來査看遠端 視頻以及(視情況)查看近端視頻。另外,用戶依賴於用戶界面42來輸入信息以用於定 義或選擇遠端ROI以及(視情況)近端ROI。
如圖3中進一步展示,ROI感知CODEC20包含ROI引擎44、 ROI感知視頻編碼器 46和ROI感知視頻解碼器48。ROI感知視頻編碼器46編碼從視頻俘獲裝置40獲得的近 端視頻("近端視頻")以用於傳輸到遠程接收者裝置。再次,術語"近端"表示在視頻 通信裝置12內本地產生的視頻,這與從遠程視頻通信裝置(例如,視頻通信裝置14) 接收的"遠端"視頻形成對比。在圖3的實例中,ROI感知視頻編碼器46使用從遠程接 收器獲得的近端ROI信息("遠程近端ROr)來優先編碼近端ROI。遠程接收者是與遠 程視頻通信裝置14相關聯的用戶。
從遠程用戶的視角來看,遠程近端ROI當由遠程裝置14傳輸時是遠程遠端R01,且 從裝置12的本地用戶的視角來看當其被接收時稱為遠程近端R01。也就是說,作為發送者或接收者的裝置12、14的視角決定了認為視頻和ROI適用於近端還是遠端視頻。再次, 遠程控制遠程裝置14處的視頻編碼的本地裝置12的用戶指定遠端R01。然而,當遠程 裝置14的用戶接收到遠端ROI時,其被認為是遠程近端ROI,因為其關於正由本地裝置 14編碼的近端視頻。 一般來說,出於本揭示案中使用的標記的目的,視角是重要的。
視情況,ROI感知視頻編碼器46可使用從視頻通信裝置14的本地用戶獲得的近端 ROI信息("本地近端ROr)。本地近端ROI也可稱為發送者驅動的ROI,因為其由經編 碼近端視頻的發送者產生。本地近端ROI信息由本地編碼器46使用且通常不發送到另一 視頻通信裝置14,除非遠程裝置14中的視頻解碼器經設計以將優先解碼應用於由發送 者裝置12的用戶指定的近端R01。遠程近端ROI也可稱為接收器驅動的ROI,因為其由 經編碼近端視頻的遠程接收器產生。遠程近端ROI允許由視頻通信裝置12產生的視頻的 接收者控制ROI感知編碼器46進行的ROI編碼,而本地近端ROI允許由視頻通信裝置 12產生的視頻的發送者控制ROI感知編碼器46進行的ROI編碼。在一些情況下,如將 要描述,遠程和本地ROI定義可能衝突,從而需要衝突解決。
本地和遠程近端ROI信息可提供到ROI感知編碼器46作為近端ROI宏區塊(MB) 映射("近端ROI MB映射")。近端ROI MB映射識別駐存在接收器近端ROI或發送者近 端ROI內的特定MB。 ROI感知編碼器46以較高質量編碼、較強誤差防護或兩者來優先 編碼近端視頻中的ROI,以改進當例如遠程視頻通信裝置14處的遠程用戶查看時ROI 的圖像質量。對於ROI的較好的誤差防護在無線電話應用中可能尤其合乎需要。接著將 所產生的經編碼近端視頻("經編碼近端視頻")傳輸到遠程裝置"。
如將解釋,ROI感知視頻編碼器46還傳輸已由視頻通信裝置12的本地用戶針對從 遠程視頻通信裝置14接收的遠端視頻而產生的遠端ROI信息("遠端ROI")。遠端ROI 充當針對由遠程視頻通信裝置14編碼的視頻的接收器驅動的R01。實際上,由視頻通信 裝置12傳輸的遠端ROI信息允許至少部分控制由遠程視頻通信裝置14產生的遠端視頻 的編碼器,正如由ROI感知解碼器48接收的遠程近端R01由視頻通信裝置12使用以控 制ROI感知視頻編碼器46—樣。以此方式,每一視頻通信裝置12、 14能夠影響由另一 裝置產生的遠端視頻中的ROI編碼。
由視頻通信裝置12傳輸的遠端ROI信息可作為帶內或帶外信令信息而傳輸。在帶內 信令的情況下,遠端ROI信息可內嵌在傳輸到遠程視頻通信裝置14的經編碼近端視頻位 流中。舉例來說,在MPEG4位流格式中,存在稱為"user—data"的欄位,其可用於內嵌 描述位流的信息。"user—data"欄位或其它位流格式中的類似欄位可用於內嵌遠端ROI
信息而不會違反位流順應性。或者,ROI信息可通過例如隱寫術的所謂的數據隱藏技術 而內嵌在視頻位流中。
ROI感知視頻解碼器48經配置以在user_data欄位中或從遠程裝置傳入的遠端視頻 內的其它地方尋求ROI信息。在帶外信令的情況下,可使用例如ITU H.245或SIP的信 令協議來傳達遠端ROI信息。在任一情況下,遠端ROI信息可釆取界定遠端ROI的位置 和/或大小的ROI MB映射或物理坐標的形式。 一旦解碼器48接收到遠端視頻位流,其 就基於與遠程發送者裝置約定的格式檢索ROI信息,並將ROI信息傳遞到存取驗證模塊 58以獲得存取許可,以用於在將遠程近端ROI提供到視頻編碼器56之前進行近端ROI 控制。
除了控制遠程視頻編碼器以優先編碼遠端視頻中的ROI外,遠端ROI信息還可應用 於本地視頻解碼器以優先解碼遠端視頻中的ROI內的MB。舉例來說,如圖3中進一步 展示,由ROI映射器54產生以用於傳輸到遠程編碼器的相同遠端ROI MB映射可提供到 ROI感知視頻解碼器48。ROI感知視頻解碼器48使用ROI MB映射來優先解碼從遠程視 頻通信裝置14接收的遠端視頻內的MB。舉例來說,ROI感知視頻解碼器48可與非ROI MB相比向ROIMB應用更好的後處理。額外地或作為替代,ROI感知視頻解碼器48可 與非ROI MB相比向ROI MB應用更健壯的誤差隱蔽技術。以此方式,ROI感知視頻解 碼器48依賴於由本地用戶產生的遠端ROI信息來優先解碼傳入的遠端視頻的ROI部分 以實現增強的圖像質量。
ROI感知視頻解碼器48從遠程視頻通信裝置(例如,圖1的視頻通信裝置14)接收 傳入的遠端視頻。ROI感知視頻解碼器48解碼遠端視頻並將經解碼的視頻提供到用戶界 面42以在顯示裝置上呈現給本地用戶。另外,如上所述,ROI感知視頻解碼器48從遠 程視頻通信裝置14接收遠程近端ROI信息("遠程近端ROI")。 ROI感知視頻解碼器48 接收到的近端ROI信息由遠程視頻通信裝置14的用戶產生以指定由視頻通信裝置12傳 輸的視頻中的ROI。如上所述,ROI感知視頻解碼器48接收到的遠程近端ROI信息用於 遠程控制ROI感知視頻編碼器46以優先編碼由視頻通信裝置12產生的近端視頻中的 ROI。如上所述,通過帶內或帶外信令技術來傳輸遠程近端ROI。
進一步參看圖3, ROI感知視頻編碼器46和ROI感知視頻解碼器48與ROI引擎44 交互。ROI引擎44處理本地和遠程近端ROI信息以用於編碼和傳輸來自視頻俘獲裝置 40的近端視頻位流。另夕卜,ROI引擎44處理經由用戶界面42提供的遠端ROI信息以用 於編碼並傳輸到遠程視頻通信裝置14。 ROI引擎44包含ROI控制器52、 ROI映射器54、
ROI跟蹤模塊56和驗證模塊58。在一些實施例中,ROI跟蹤模塊56和驗證模塊58可以 是任選的。
ROI感知視頻編碼器46、 ROI感知視頻解碼器48、 ROI控制器52、 ROI映射器54、
ROI跟蹤模塊56和驗證模塊58可以多種方式形成,作為離散功能模塊或作為包含歸屬 於每一模塊的功能性的單片式模塊。在任一情況下,ROI感知CODEC 20的各個組件(包 含ROI引擎44、視頻編碼器46和視頻解碼器48)可實現在硬體、軟體、固件或其組合 中。舉例來說,此類組件可作為在一個或一個以上微處理器或數位訊號處理器(DSP)、 一個或一個以上專用集成電路(ASIC)、 一個或一個以上現場可編程門陣列(FPGA)或 者其它等效集成或離散邏輯電路上執行的軟體過程而操作。如果實施在軟體中,那麼可 通過計算機可讀媒體來部分實現所述技術,所述計算機可讀媒體包括含有指令的程序代 碼,所述程序代碼當在處理器或DSP中執行時會進行本文描述的方法中的一種或一種以 上方法。
在操作中,視頻通信裝置12的用戶選擇由視頻俘獲模塊40產生的近端視頻或由ROI 感知視頻解碼器48解碼的遠端視頻,以在與用戶界面42相關聯的顯示裝置上査看。在 一些實施例中,畫中畫(PEP)功能性可允許用戶同時查看近端視頻和遠端視頻。為了出 於ROI定義的目的而查看近端或遠端視頻,用戶可操縱用戶界面42來調用ROI定義模 式。預設地,視頻通信裝置12可處理視頻編碼和解碼而不考慮R01。通過進入ROI定義 模式,用戶激活視頻通信裝置12的ROI感知編碼和解碼方面。或者,ROI感知編碼和解 碼可為預設模式。
當呈現遠端視頻時,用戶使用多種技術中的任一者來指示遠端視頻中的ROI,將對 所述技術進行更詳細描述。遠端ROI在視頻場景內突出顯示用戶關注的或需要較高圖像 質量的區或對象。用戶界面42基於用戶輸入產生遠端ROI指示。ROI信息可由ROI引 擎44進一步處理以產生遠端ROI信息以用於傳輸到視頻通信裝置14。
或者,用戶可選擇從視頻俘獲模塊40獲得的近端視頻以用於ROI定義。當呈現近端 視頻時,用戶可視情況使用與用於遠端視頻中的ROI指示的技術類似或相同的技術來指 示近端視頻中的ROI。近端ROI或遠端ROI可在VT通話開始時被初始指定或在VT通 話過程期間的任何時間被指定。在一些實施例中,初始ROI可由本地用戶或遠程用戶更 新,或通過ROI跟蹤模塊56自動更新。如果ROI被自動更新,那麼用戶不需要繼續輸 入ROI信息。事實上,將基於用戶的初始輸入而維持ROI,直到用戶改變或中止ROI為 止。
用戶界面42基於用戶提供的指示而產生本地近端ROI指示。與遠端ROI指示一樣, 近端ROI指示可由ROI引擎44進一步處理。近端ROI指示突出顯示(即,通過增加圖 像質量)視頻場景內的用戶希望向遠程用戶強調的區或對象。本地用戶可通過經由用戶 界面42選擇預定義的ROI樣式或劃定ROI樣式來選擇近端ROI或遠端ROI。劃定ROI 樣式可涉及用鐵筆進行徒手繪製,或對預設ROI樣式重新設計大小或重新定位。
在圖3的實例中,用戶界面42將本地近端ROI指示(如果提供的話)和遠端ROI 指示提供到ROI引擎44內的ROI控制器52。另夕卜,ROI控制器52經由驗證模塊58從 ROI感知視頻解碼器48接收遠程近端ROI。明確地說,ROI感知視頻解碼器48檢測所 接收的遠端視頻流內遠程近端ROI信息的存在,或經由帶外信令的遠程近端ROI信息的 存在,且將遠程近端ROI信息提供到驗證模塊58。本地近端ROI和遠端ROI指示可依 照各個近端視頻或遠端視頻的視頻幀內的坐標來表達。ROI的坐標可以是視頻幀內的x-y 坐標。然而,x-y坐標經處理以產生ROIMB映射,以由編碼器46或解碼器48使用,如 將解釋。
ROI控制器54處理本地近端R01、遠程近端ROI和遠端ROI,並將它們施加到ROI 映射器54。 ROI映射器54將各個ROI坐標轉換為宏區塊(MB)映射。更明確地說,ROI 映射器54產生遠端MB映射,其指定遠端視頻內的對應於由本地用戶指示的遠端ROI 的MB。另外,ROI映射器54產生近端ROIMB映射,其指定近端視頻內的對應於本地 近端ROI、遠程近端ROI或兩者的組合的MB。
對於預定義的ROI樣式,ROI映射較簡單。每一預定義的ROI樣式可具有同樣被預 定義的指定MB映射。然而,對於劃定的、重新定位或重新設計大小的ROI樣式,ROI 映射器54選擇最符合由用戶指定的ROI樣式的坐標的MB邊界。舉例來說,如果指定的 ROI橫穿MB,那麼ROI映射器54將ROI邊界置於相關MB的外部邊緣或內部邊緣處。 換句話說,ROI映射器54可經配置以僅將完全處於ROI內的MB包含在ROI MB映射中, 或者還包含部分處於ROI內的MB。在任一情況下,ROI包含一組最近似於指定的ROI 的完整MB。再次,視頻編碼器46或視頻解碼器48在MB層級操作,且通常將需要將 ROI轉譯為MB映射。通過將個別MB指定為包含在ROI中或排除在ROI外,ROI MB 映射允許以不規則或非矩形形狀定義ROI。
ROI感知視頻編碼器46在經編碼的近端視頻內或通過帶外信令將遠端R01 MB映射 傳輸到遠程視頻通信裝置14。近端ROI MB映射不傳輸到遠程視頻通信裝置14。事實上, 近端ROI MB映射由ROI感知視頻編碼器46使用,以便在傳輸到遠程視頻通信裝置14
之前以較高質量編碼或較強誤差防護而優先編碼近端視頻中的指定的MB。因此,ROI 感知視頻編碼器46將經編碼的近端視頻與經優先編碼的ROI以及遠端ROI信息傳輸到 遠程視頻通信裝置14。
ROI跟蹤模塊56跟蹤近端視頻的ROI區中的變化。如果VT應用駐存在移動視頻通 信裝置內,舉例來說,用戶可能不時地移動,從而導致用戶的位置相對於先前指定的ROI 發生變化。另外,即使當用戶位置穩定時,ROI內的其它對象也可能移出ROI區。舉例 來說,湖面上的小船可隨著波浪運動而上下顛簸或左右移動。為了避免當發生移動時用 戶需要重新定義ROI,可提供ROI跟蹤模塊56以自動跟蹤ROI區內的對象。
在圖3的實例中,ROI跟蹤模塊56從由ROI感知視頻編碼器46產生的經編碼的近 端視頻接收運動信息。運動信息可採取經編碼的近端視頻內的MB的運動向量的形式, 從而允許通過ROI映射器54對ROI MB映射定義進行閉環控制。基於運動信息,ROI 跟蹤模塊56產生對近端ROI MB映射的遞增位置調節,並將調節提供到ROI映射器54。 位置調節可採取如包含在ROI中或排除在ROI外的MB狀態變化的形式。
如果運動信息指示ROI的大量移動,那麼ROIMB映射中MB的狀態可能改變。通 常,處於ROI外部邊界處的MB的狀態將發生改變。響應於位置調節,ROI映射器54 使由近端ROIMB映射指定的ROI移位,使得ROI位置以逐幀為基礎適應於經編碼的近 端視頻內的運動。ROI跟蹤模塊56和ROI映射器54協作以在視頻場景內檢測到運動時 自動調節ROI位置。以此方式,ROI引擎44調節ROI以跟蹤R01內移動的對象。
驗證模塊58用於解析遠程用戶的ROI權利,包含個別用戶的權利和多個用戶之間的 權利的優先性。當ROI感知視頻解碼器48從遠程視頻通信裝置14接收遠程近端ROI時, 其將遠程近端ROI提供到ROI引擎44。然而,在一些情況下,由遠程用戶指定的遠程近 端ROI可能與由本地用戶指定的本地近端ROI衝突。舉例來說,本地和遠程用戶可指定 視頻場景內的重疊ROI或完全不同的ROI。在此情況下,可提供驗證模塊58以解決ROI 衝突。
在一些實施例中,驗證模塊58可應用所謂的"主-從"機制來協調在給定時間應使 用哪一近端ROI信息(本地或遠程)。明確地說,在發送者接收接收器驅動的ROI信息 之前,發送者是近端ROI主裝置且控制其近端ROI。換句話說,在視頻通信裝置12處接 收到遠程近端ROI之前,本地用戶控制近端ROI。因而遠程用戶是近端ROI"從屬裝置" 且不控制近端ROI,除非主裝置(即,本地用戶)授予控制近端ROI的存取權。
一旦本地用戶向遠程用戶授予存取權,本地用戶就不再控制其近端ROI。事實上,
與視頻通信裝置14相關聯的遠程用戶獲得對於由視頻通信裝置12產生的近端視頻的近 端ROI的控制權,且成為近端ROI的主裝置。遠程用戶可保持控制權直到本地用戶明確 地撤消存取特權或以另外的方式拒絕遠程用戶的存取為止,或者直到遠程用戶中止ROI 選擇位置為止,在此情況下主ROI控制權可歸還於本地用戶。
一旦ROI感知視頻解碼器48接收經編碼的遠端視頻(如果有的話),其就基於與發 送者約定的格式從視頻位流中檢索遠程近端ROI信息。再次,近端ROI信息可內嵌在經 編碼的遠端視頻中或通過帶外信令發送。在任一情況下,ROI感知視頻解碼器48將遠程 近端ROI傳遞到驗證模塊58以在經由ROI控制器52和ROI映射器54將遠程近端ROI 發送到ROI感知視頻編碼器46之前獲得存取許可。驗證模塊58將存取權限制於特定用 戶,使得用戶在不經本地用戶授權的情況下不能控制編碼過程。
驗證模塊58可經配置以授予並管理存取權,並在一個或一個以上遠程用戶之間進行 平衡。舉例來說,本地用戶可向選定的遠程用戶授予存取權。因此,本地用戶可允許一 些遠程用戶控制近端ROI並禁止其它遠程用戶控制近端ROI。並且,本地用戶可向遠程 用戶分派相對存取等級或優先權。以此方式,本地用戶可指定遠程用戶之間的存取等級 的階層,使得在多個遠程用戶同時請求ROI控制權的情況下, 一些遠程用戶與其它遠程 用戶相比在控制近端ROI方面可具有優先權。舉例來說,在多方視頻會議過程中多個遠 程用戶可能同時請求ROI控制權。在此類情況下,ROI控制權通常將專門授予給一個用 戶,其為本地用戶,或者如果控制權是由本地用戶授予的,那麼其為遠程用戶中的選定 一者。
在一些實施例中,驗證模塊58還可負責資源監視以確定本地視頻通信裝置12是否 具有啟用ROI感知視頻處理的能力。如果本地裝置不具有充足的處理資源來在給定時間 支持遠程ROI控制或滿足特定類型的ROI請求,那麼驗證模塊58撤消遠程ROI控制存 取權或拒絕ROI請求。作為一實例,由通信信道強加的帶寬限制或本地處理負荷可能導 致拒絕遠程ROI控制。作為另一實例,這些限制可能允許使用預配置的ROI樣式,而不 是所劃定或描述的ROI樣式。驗證模塊58可通過將狀態消息內嵌在待發送到遠程裝置的 傳出經編碼近端視頻中來向遠程裝置通知所述ROI決策。
另外,可向個別遠程用戶授予不同的存取等級來控制遠程用戶可控制近端ROI的程 度。舉例來說,遠程用戶可限於僅在經本地用戶批准時才可選擇一組預定義的ROI樣式、 特定的ROI位置或大小或ROI的規格。因此,驗證模塊58可自動解析遠程用戶對於近 端ROI的控制,或通過與本地用戶交互而協商對於遠程用戶的近端ROI控制權的主動批
準。舉例來說,當遠程用戶請求存取權以控制近端ROI時,驗證模塊58可經由用戶界面 42向本地用戶提交詢問以請求批准遠程用戶ROI控制權。
驗證模塊58可以多種方式中的任一者跟蹤遠程用戶的存取等級。如上所述,本地用 戶可主動地批准來自遠程用戶的控制近端ROI的請求,並主動地控制向遠程用戶授予的 存取等級。或者,本地用戶可在存儲與遠程用戶相關聯的信息(包括存取權或等級)的 視頻通信裝置12中的存儲器內維持地址簿。所述地址簿可採取具有遠程用戶和相關聯的 存取等級的列表的資料庫的形式。當遠程用戶請求近端ROI控制權時,驗證模塊58從地 址簿檢索相關的存取權信息,並自動應用驗證過程來解析本地用戶、遠程用戶以及可能 若干遠程用戶之間的ROI控制權。如果遠程用戶未列在地址簿中,那麼本地用戶可選擇 將遠程用戶添加到地址簿並具有適用的存取權。
在一些情況下,本地用戶可超越(override)為地址簿中的特定遠程用戶指定的預設 存取等級。舉例來說,驗證模塊58可允許本地用戶在VT通話過程期間在不同的遠程用 戶之間主動地重新配置ROI控制優先權,或進行千涉以作為本地用戶重新獲得對近端 ROI的專有控制權。本地用戶與驗證模塊58之間在維持地址簿或主動管理ROI控制權請 求時的交互由圖3中的存取控制信息(ACCESS CONTROL INFO)表示。
當自動或主動批准遠程用戶的近端ROI控制權時,驗證模塊58將遠程近端ROI傳 遞到ROI控制器52以用於由近端ROI映射器54進行處理和映射。或者,即如果未提供 遠程近端ROI或本地用戶已選擇排斥遠程用戶而控制近端ROI,那麼ROI控制器52處 理由本地用戶經由用戶界面42提供的本地近端ROI。
驗證模塊58用於解決本地與遠程用戶之間的ROI衝突。預設地,驗證模塊58應用 主-從概念,依照所述主-從概念,本地用戶具有近端ROI控制權。當向遠程用戶授予具 有最高等級的存取權時,遠程用戶完全控制視頻通信裝置12的ROI感知視頻編碼器46 的近端ROI選擇。否則,本地用戶具有近端ROI控制權,其超越由遠程用戶作出的任何 近端ROI選擇。
儘管可向遠程用戶授予存取權,但本地用戶在近端ROI控制過程中將佔優勢,因為 遠程用戶的存取權通常比本地用戶的存取權具有較低等級。因此,如果本地用戶選擇指 定近端ROI,那麼將忽視遠程用戶作出的任何近端ROI選擇。另一方面,如果本地用戶 不指定近端ROI,那麼分派給遠程用戶的存取權的等級有效,且遠程用戶能夠控制近端 ROI。然而,如上所述,本地用戶仍可選擇超越預設的主-從關係並放棄給予本地用戶的 最高等級的存取權。
圖4是說明具有ROI感知CODEC且進一步併入有ROI提取模塊60的另一視頻通 信裝置12'的方框圖。圖4的視頻通信裝置12'與圖3的視頻通信裝置12幾乎一致。然而, 視頻通信裝置12'進一步包含ROI提取模塊60以基於來自用戶的輸入形成本地近端ROI 和遠端ROI。除了簡單地處理對預設置的ROI樣式的選擇或允許用戶對預設ROI進行劃 定、重新定位或重新設計大小,ROI提取模塊60還允許本地用戶通過口頭或文本ROI 描述來指定ROI。明確地說,ROI提取模塊60基於由本地用戶提供的ROI描述來產生本 地近端ROI或遠端ROI。
ROI描述的實例包含例如"臉部"、"移動對象"、"唇部"、"人體"、"背景"等項目 的文本或口頭輸入。可能非常需要對這些對象的優先編碼。舉例來說,對唇部或臉部的 優先編碼可較好地表現面部表情、吐詞等。文本輸入可被鍵入或從由用戶界面42呈現的 菜單中選擇。可通過向與視頻通信裝置12'相關聯的麥克風中說話來提供口頭輸入。在每 一情況下,本地用戶"描述"ROI而不是選擇或劃定ROI。 ROI提取模塊60將所述描述 轉換為適用的近端或遠端視頻場景內的一組坐標。在使用口頭ROI描述的情況下,用戶 界面42或ROI提取模塊60可包含常規的語音識別能力。明確地說,ROI提取模塊60 可基於一個或一個以上經識別的項目來產生指定ROI的信息。
ROI提取模塊60通過應用經配置以檢測所需的ROI的常規預編碼處理算法來自動選 擇ROI坐標。明確地說,ROI提取模塊60可應用一算法來根據視頻ROI處理領域的技 術人員已知的常規技術進行臉部檢測、特徵提取、對象分割或跟蹤。舉例來說,ROI提 取模塊60可應用依賴於基於視頻輸入數據的像素的亮度或色度值進行ROI識別的常規技 術。
常規臉部檢測方案通常涉及使用膚色作為指導來識別臉部與非臉部像素。正ICE學 報Inf. & Syst, 2003年1月,第E86-D巻,第1期,第101-108頁,C.-W. Lin、 Y.-J. Chang 和Y.-C. Chen的"A low-complexity face-assisted coding scheme for low bit-rate video telephony"中以及正EE學報On Circuits and Systems for Video Technology, 1999年6月, 第9巻,第4期,第551-564頁,D. Chai和K. N. Ngan的"Face segmentation using skin-color map in videophone applications"中描述了常規臉部檢測方案的實例。
當本地用戶依據"臉部"描述ROI時,ROI提取模塊60視情況分析近端或遠端視頻, 以自動識別臉部並將與所識別的臉部相關聯的坐標指定為ROI。 ROI提取模塊60接著將 坐標傳遞到ROI控制器52以用於由ROI映射器54進行處理和映射。值得注意的是,R01 提取模塊60視情況處理本地近端ROI描述或遠端ROI描述,將所述描述映射到適當的
提取算法,並自動分析適用的經預編碼的近端視頻或經解碼的遠端視頻以自動提取適當 的ROI。
為了支持自動ROI檢測,ROI提取模塊60從視頻俘獲裝置40接收近端視頻,並從 ROI感知視頻解碼器48接收遠端視頻。使用來自用戶界面42的本地近端ROI描述或遠 端ROI描述,以及自動化檢測算法,ROI提取模塊60視情況產生本地近端ROI和遠端 ROI,以便應用於ROI控制器52。在每一情況下,ROI提取模塊60將本地近端ROI描 述或遠端ROI描述轉換為最符合適用描述的坐標。在此情況下,用戶不需要劃定ROI。 另夕卜,用戶不被限定於一組預定義的ROI樣式。事實上,ROI控制器52主動地檢測近端 視頻內與ROI描述匹配的適當區。
ROI映射器54將ROI坐標映射到視頻幀內的相關宏區塊(MB),並產生近端或遠端 ROI MB映射。實際上,ROI映射器54將來自ROI控制器52的ROI坐標轉譯成視頻編 碼器46可理解的格式。明確地說,視頻編碼器46經裝備以在MB層級,即在逐個MB 基礎上處理編碼。為此,ROI映射器54產生近端或遠端視頻的ROI MB映射。ROI MB 映射識別落在指定的ROI內的MB,使得視頻編碼器46可向那些MB應用優先編碼。
除了處理ROI描述外,ROI提取模塊60還可經裝備以處理由本地用戶從一組預定義 的樣式中選擇的或由本地用戶劃定、重新定位或重新設計大小的ROI樣式。因此,視頻 通信裝置12'可大體上如關於圖3的視頻通信裝置12所描述的那樣產生ROI信息,但進 一步併入有ROI提取模塊60以處理由本地用戶以文本或口頭形式輸入的ROI描述。在 便於本地用戶使用方面,ROI提取模塊60可能是合乎需要的。然而, 一些視頻通信裝置 可能不具有足夠的處理能力來支持ROI提取模塊60。因此,ROI提取模塊60表示根據 本揭示案的視頻通信裝置的一個合乎需要的但任選的組件。
在一些實施例中,ROI提取模塊60可處理不僅由本地用戶而且由遠程用戶產生的 ROI描述。以此方式,在一些裝置中可遠程地而非在本地執行提取功能性。舉例來說, 特定視頻通信裝置14可能不具有足夠的本地資源或能力來支持對於由裝置14的用戶提 供的ROI描述的ROI提取。然而,另一視頻通信裝置12可能較好地經裝備以進行ROI 提取。在此情況下,預期本地ROI提取可被卸載或分配到遠程視頻通信裝置。
為了支持遠程提取,可以多種方式將ROI描述提供到遠程裝置。舉例來說,口頭描 述可包含在傳輸到遠程裝置的音頻流中。文本ROI描述以及預定義的ROI樣式或劃定的 ROI樣式同樣可(例如)通過將此信息內嵌在經編碼的視頻流中而傳輸到遠程裝置。因 此,從一個裝置發送到另一裝置的ROI信息可採取預處理的ROIMB映射或ROI的任何
其它指示或描述的形式,所述指示或描述包含在施加到遠程編碼器之前需要在遠程裝置 處進行處理的指示或描述。
圖5是說明經由中間提取伺服器61的分布式ROI提取的方框圖。如圖5所示,視頻 通信裝置12、 14可向中間提取伺服器61提供足夠的信息使得可提取ROI。舉例來說, 每一裝置12、 14可提供各自的本地近端ROI描述、遠端ROI描述、經編碼或原始近端 視頻,和經編碼遠端視頻。作為從近端裝置提供經編碼遠端視頻的替代方法,ROI提取 伺服器61可直接從遠端裝置接收遠端視頻。使用此信息,提取伺服器61產生遠端ROI 和本地近端ROI中的一者或兩者,並將它們提供到各自裝置12、 14。提取伺服器61可 以是位於通信網絡內的任何地方的伺服器,且可通過有線媒體、無線媒體或兩者的組合 耦合到裝置12、 14。提取伺服器61可相對於視頻通信裝置12、 14定位在遠距離,或與 裝置12、 14中的一者定位在一起。然而,在許多情況下,提取伺服器61可以是遠程服 務器。 一般來說,提取伺服器61將在結構上不同於視頻通信裝置12、 14。
提取伺服器61可與提取模塊60非常類似地起作用,但遠程、分布式地操作,使得 不需要在裝置12、 14內本地執行ROI提取。以此方式,ROI提取的處理成本可分布到可 能具有較大處理能力的不同裝置。與ROI提取模塊60—樣,提取伺服器61可處理用戶 的例如口頭、文本或圖形描述的不同類型的ROI描述。為此,ROI提取伺服器61可包含 適宜的能力(例如,語音識別能力)來處理所述描述。另外,ROI提取伺服器61可裝備 有視頻解碼能力以允許分析視頻和提取ROI,以及編碼能力以重新編碼視頻和內嵌ROI 信息(視需要)。
圖6是說明用於多個視頻電話會話的分布式ROI提取的方框圖。在圖6的實例中, ROI提取伺服器61操作以處理多個視頻通信裝置12A-14A、 12B-14B、 12C-14D到 12N-14N之間的VT會話的ROI提取。以此方式,ROI提取伺服器61並行執行多個ROI 提取任務以支持正在給定通行網絡上進行的各種VT會話。
圖7A-7D是說明供本地或遠程用戶選擇的預定義的ROI樣式的圖。圖7A-7D的ROI 樣式是出於實例的目的,且不應認為具有限定性。圖7A展示與無線通信裝置38相關聯 的顯示器36上呈現的視頻場景34內的ROI 62。 ROI 62是在視頻場景34內大體上居中 的基本矩形。矩形ROI 62的主要長度在視頻場景34內垂直延伸。在許多情況下,預定 義的居中矩形ROI 62將有效地俘獲人臉,即參與VT通話的遠程用戶的臉部。
圖7B展示另一R0164,其採取具有在視頻場景34內水平延伸的主要長度的矩形的 形式。ROI64在視頻場景34內大體上居中,且可有效地俘獲例如車輛、船隻、產品、演
示等對象。
圖7C展示另一 ROI 66,其形狀經設計以俘獲參與VT通話的遠程用戶的臉部和肩部。 或者,ROI66可俘獲例如單向視頻串流應用中提供新聞廣播的報導者、集會的主持人或 會議的發言者的臉部和肩部。在任何情況下,預定義的ROI66均聚焦於人類VT參與者 或演示者,並實現對所述人員的物理特徵的優先編碼。
圖7D展示在視頻場景34內並排呈現的一組兩個ROI 68、 70。在圖5D的實例中, ROI6S、 70可有效地俘獲並排就座或站立的兩個人的臉部。以此方式,兩個參與者的臉 部可被優先編碼以支持面部表情和移動的較髙圖像質量。
圖7A-7D中描繪的預定義的ROI樣式是出於說明的目的。可提供具有替代位置或形 狀的其它預定義的ROI樣式。舉例來說, 一些ROI樣式倘若可映射到MB邊界則可具有 圓形或不規則形狀。
在一些實施例中,可允許用戶對選定的ROI樣式重新設計大小或重新定位。常規的 指針和轉角拖動技術可用於實現重新設計大小和重新定位。另外,可通過轉角拖動或通 過明確地指定縮放百分比來實現對ROI大小的重新縮放。當然,當ROI變大時,優先編 碼的程度由於帶寬限制的緣故而減小。因此,在一些情況下,可在視頻通信裝置12內實 行最大ROI大小。
圖8是說明在接收者裝置處產生遠端ROI信息以在發送者裝置處控制近端視頻中的 優先ROI編碼的流程圖。圖8中描繪的過程可實施在圖3的視頻通信裝置12或圖4的視 頻通信裝置12'內。在操作中,視頻通信裝置12內的ROI感知視頻解碼器48解碼來自遠 程發送者裝置(例如,視頻通信裝置14 (圖l))的遠端視頻(72)。 一旦解碼遠端視頻, 接收者裝置12的用戶界面42就顯示遠端視頻以供本地用戶查看(74)。
如果本地用戶不請求ROI選擇(76),那麼不採取行動且解碼遠端視頻的下一幀(72)。 然而,如果請求ROI選擇(76),那麼用戶界面42接受來自本地用戶的遠端ROI信息(78)。 ROI控制器52和ROI映射器54接著協作以產生遠端ROI MB映射(80)。 ROI感知編碼 器46將遠端ROI MB映射內嵌在經編碼的近端視頻中並藉此將遠端ROI映射傳輸到編碼 遠端視頻的遠程發送者裝置14 (82)。遠端ROIMB映射指定與遠程視頻通信裝置14相 關聯的編碼器應對待發送到視頻通信裝置12的遠端視頻的相關ROI內的MB應用優先編 碼。
圖9是說明處理來自接收者裝置的近端ROI信息以便結合ROI跟蹤而在發送者裝置 處在近端視頻中進行優先ROI編碼的流程圖。在圖9的實例中,用戶界面42接收由視頻
俘獲裝置40產生的近端視頻流,並向本地用戶呈現近端視頻(84)。如果本地用戶或遠 程用戶均不請求近端ROI選擇(86),那么正常編碼每一視頻幀內的所有MB (88),即 不對ROI內的MB進行任何優先編碼。接著將經編碼的近端視頻發送到遠程接收者裝置 14 (89)。
然而,如果本地用戶或遠程用戶請求近端ROI選擇(86),那麼ROI控制器52和 ROI映射器54處理相關近端ROI信息以產生近端ROIMB映射(90)。如果近端ROI由 本地用戶和遠程用戶兩者指定,那麼驗證模塊58可進行幹涉以有利於ROI中的一者地解 決衝突。當接收到近端ROI MB映射時(90), ROI感知視頻編碼器46通過應用較高質 量編碼、較強誤差防護或兩者來優先編碼所述ROI內的MB (92)。
跟蹤模塊56通過監視由ROI感知視頻編碼器46產生的運動信息來跟蹤近端視頻內 的ROI位置(94)。如果未檢測到ROI中的位移(96),那麼應用現有ROI映射來編碼近 端視頻內的ROI MB (100),且將經編碼的近端視頻發送到遠程接收者裝置(102)。如 果檢測到ROI中的位移(96),那麼視頻跟蹤模塊56在編碼近端視頻(100)之前基於運 動信息來調節ROIMB映射(98)。
圖10是說明處理來自接收者裝置的ROI信息以便結合用戶驗證而在發送者裝置處在 近端視頻中進行優先ROI編碼的流程圖。圖10描繪圖3或4的驗證模塊58允許遠程用 戶控制近端ROI的操作,且為了簡便假定未指定任何本地近端ROI。如圖10所示,對於 由視頻通信裝置12中的視頻俘獲裝置40產生的近端視頻流(104),驗證模塊58確定視 頻通信裝置14的遠程用戶是否已求遠程近端R01 (106)。
如果未請求任何遠程近端ROI (106),且未指定任何本地近端ROI,那么正常編碼 近端視頻中的所有MB (110)。然而,如果請求了遠程近端ROI (106),那麼驗證模塊 58接著確定請求近端ROI的遠程用戶是否經驗證(108)。明確地說,驗證模塊58可通 過參考存儲在視頻通信裝置12本地的地址簿來自動確定遠程用戶的存取權。或者,驗證 模塊58可經由用戶界面42主動地詢問本地用戶,以獲得對由遠程用戶進行近端ROI控 制的存取權的批准或拒絕。
如果遠程用戶未經驗證(108),那么正常編碼近端視頻中的所有MB (110)。然而, 如果遠程用戶經驗證(108),那麼向遠程用戶授予近端ROI控制權。在此情況下,ROI 控制器52和ROI映射器54處理來自遠程用戶的近端ROI信息並產生近端MB映射(112)。 使用近端MB映射,ROI感知編碼器46優先編碼由近端MB映射識別的MB (114)。視 頻通信裝置12接著將經編碼的近端視頻發送到遠程視頻通信裝置14 (116)。
圖ll是說明選擇預定義的ROI樣式的流程圖。 一旦ROI感知視頻解碼器48解碼從 遠程視頻通信裝置14接收的遠端視頻(118),就經由用戶界面42向本地用戶顯示遠端 視頻(120)。如果本地用戶請求ROI選擇(122),那麼用戶界面42顯示例如圖7A-7D 所示的ROI樣式的預定義ROI樣式的菜單(124)。或者,用戶可提供ROI描述或對ROI 樣式進行劃定、重新定位或重新設計大小。然而,在圖ll的實例中,操作集中於呈現預 定義的ROI樣式。當本地用戶選擇預定義的ROI樣式時(126), ROI控制器52和R01 映射器54基於選定的樣式定義ROIMB映射(128)。 ROI感知視頻編碼器46將ROI MB 映射內嵌在經編碼的近端視頻內並將ROI MB映射傳輸到遠程視頻通信裝置14 (130) 以用於優先編碼遠端視頻中的ROI。
圖12是說明通過擴展和收縮ROI模板132來定義所顯示的視頻場景34中的ROI樣 式的圖。圖12大體上對應於圖2,但說明可由用戶重新設計大小的ROI模板132的呈現。 在圖12的實例中,可通過對ROI模板的轉角的一者進行轉角拖動以擴展和收縮ROI模 板來對ROI模板132重新設計大小。轉角拖動以擴展ROI模板132的結果由經擴展的 ROI模板134表示。轉角拖動導致ROI模板132的大小增加或減小,但維持相對的長寬 縮放比例。然而,在一些實施例中,也可允許用戶拖動ROI模板132的一側以便增加或 減小ROI模板的大小,同時還改變長寬縮放比例。可使用鐵筆結合觸控螢幕幕或使用與視 頻通信裝置12的用戶界面42相關聯的另一指向裝置來實現拖動。其它指向裝置可包含 操縱杆、觸摸墊、滾輪、跟蹤球等。
圖13是說明通過拖動ROI模板132來定義所顯示的視頻場景中的ROI樣式的圖。 明確地說,圖13展示通過將ROI模板拖動到視頻場景34內的另一位置135來重新定位 ROI模板132。可通過鐵筆和觸控螢幕幕或與用戶界面42相關聯的另一指向裝置來實現拖 動。
圖14是說明通過用鐵筆138在觸控螢幕幕上劃定ROI樣式136來定義所顯示的視頻場 景中的ROI樣式的圖。在圖14的實例中,通過徒手描繪來產生ROI樣式136。 ROI控制 器52和ROI映射器54協作以將與劃定的ROI樣式相關聯的坐標轉換成MB映射,所述 MB映射識別視頻場景34內的大致落在ROI樣式136內的MB。如圖12、 13和14所示 的ROI樣式的定義可適用於近端視頻或遠端視頻內的ROI。
圖15是說明使用具有待動態跟蹤的指定的ROI對象的下拉式菜單140來定義所顯示 的視頻場景中的ROI樣式的圖。如圖15所示,用戶界面42呈現下拉式菜單140,其呈 現例如"臉部"、"唇部"、"背景"和"移動"的ROI描述。本地用戶選擇下拉式菜單中
的條目之一作為所需的ROI描述。作為響應,ROI提取模塊60 (圖4)視情況分析近端 視頻或遠端視頻,以檢測對應於描述的ROI樣式。作為下拉式菜單140的替代,用戶可 經由用戶界面42輸入文本或向麥克風口頭說出文本。在每一情況下,使用例如皮膚-色 調檢測、對象分割或類似技術的常規的特徵檢測算法來使選定的ROI與適當的ROI樣式 匹配。當選定ROI樣式時,ROI控制器52和ROI映射器54產生適當的ROIMEI映射。 圖15中的過程稱為"動態的",是指每一ROI描述必須動態地與考慮中的特定視頻場景 內的ROI樣式匹配。
圖16是說明使用具有映射到如圖7A-7D中的預定義的ROI樣式的指定的ROI對象 的下拉式菜單142來定義所顯示的視頻場景中的ROI樣式的圖。如圖16所示,用戶界面 42呈現下拉式菜單142,其呈現例如"單一臉部"、"雙臉部"、"頭部/肩部"和"對象" 的ROI描述。本地用戶選擇下拉式菜單中的條目之一作為所需的ROI樣式。作為響應, ROI控制器52使選定的ROI樣式與相應的預定義的ROI樣式(如圖7A-7D中描繪的ROI 樣式)匹配。因此,不同於圖15所示的ROI描述,靜態ROI樣式不需要視頻分析。事 實上,ROI控制器52和ROI映射器54產生對應於下拉式菜單142中的選擇的預配置的 ROIMB映射。再次,作為下拉式菜單142的替代,用戶可經由用戶界面42輸入文本或 向麥克風口頭說出文本。圖15中的過程稱為"靜態的",是指每一ROI樣式對應於預定 義的ROI樣式和MB映射。
圖17是說明使用ROI描述界面來定義所顯示的視頻場景中的ROI樣式的流程圖。 圖17所示的過程可與圖15的下拉式菜單或其它輸入媒體結合使用。如圖17所示,ROI 感知視頻解碼器48解碼從遠程發送者裝置14接收的遠端視頻(144)。用戶界面42接著 向本地用戶顯示遠端視頻(146)。如果本地用戶不請求對於遠端視頻的ROI選擇(148), 那麼不將任何ROI信息發送到遠程視頻通信裝置14。然而,如果請求了 ROI選擇(148), 那麼用戶界面42呈現例如圖17的下拉式菜單140的ROI描述界面(150)。
當接收到本地用戶ROI描述時(152), ROI控制器52和ROI映射器54基於描述選 擇ROI樣式(154)並基於選定的ROI樣式定義ROI MB映射(156)。再次,可通過使 用常規檢測技術分析遠端視頻並使ROI描述與遠端視頻內的特定MB匹配來確定選定的 ROI樣式。當產生遠端ROIMB映射時,ROI感知視頻編碼器12將遠端ROIMB映射內 嵌在經編碼的近端視頻中並將其傳輸到遠程視頻通信裝置14以用於優先編碼遠端ROI。
圖18是說明發送者與接收者裝置12、 14之間的ROI衝突的解決的流程圖。明確地 說,圖18說明驗證模塊58 (圖3或圖4)解決由本地用戶指定的近端ROI與由遠程用戶
指定的近端ROI之間的衝突的操作。當在發送者裝置處產生近端視頻時(160),驗證模 塊58確定近端ROI是否已由本地用戶或遠程用戶請求(162)。如果不是,那么正常編碼 所有MB (164)而不優先編碼ROI,且將所產生的經編碼的視頻發送到接收者視頻通信 裝置14 (166)。
如果請求了近端ROI (162),那麼驗證模塊58確定由本地用戶指定的近端ROI與由 遠程用戶指定的近端ROI之間是否存在衝突(168)。如果未指定遠程近端ROI,或如果 本地與遠程近端ROI —致,那麼驗證可將選定的近端ROI傳遞到ROI控制器52以進行處理。
如果不存在本地近端ROI,但已選擇遠程近端ROI,那麼驗證模塊58可允許應用遠 程近端ROI。或者,在一些實施例中,僅當通過本地用戶交互或通過地址簿中記錄的存 取等級而向遠程用戶授予了明確存取權時,驗證模塊58才可允許應用遠程近端R01。如 果不存在ROI衝突,那麼ROI映射器54基於適用的近端ROI產生近端MB映射並將其 施加到ROI感知視頻編碼器46。 ROI感知視頻編碼器46接著優先編碼近端視頻的ROI 內的MB (172)。
如果本地與遠程近端ROI之間存在衝突(168),那麼驗證模塊58確定例如在視頻通 信裝置12內本地存儲的地址簿中是否已分派了存取等級(174)。如果分派了存取等級 (174),那麼驗證模塊58根據存取等級解決ROI衝突(176)。舉例來說,針對遠程用戶 而存儲的存取等級可指示應超越於本地用戶而向遠程用戶授予ROI控制權。如果未分派 存取等級(174),那麼驗證模塊58從本地用戶處尋求對遠程ROI控制的許可(178)。明 確地說,驗證模塊58可經由用戶界面42提交詢問以請求批准遠程用戶進行近端ROI控 制。
如果本地用戶給予批准,那麼驗證模塊58將遠程近端ROI傳遞到ROI控制器52以 進行處理。如果未給予批准,那麼ROI控制器52處理本地近端ROI。在任一情況下, ROI感知視頻編碼器46使用選定的ROI來優先編碼近端視頻內的落在所述ROI內的MB (172),並將經編碼的近端視頻讀出到遠程接收者裝置14 (166)。在一些情況下,驗證 模塊58不僅可解決本地用戶與遠程用戶之間的ROI衝突,而且可能解決若干遠程用戶之 間的ROI衝突。本地用戶可主動地向遠程用戶中的一者授予控制近端ROI的存取權,或 分派將各個遠程用戶的ROI控制權區分優先次序的相對存取等級。通常,專門向一個用 戶(例如,本地用戶,或遠程用戶中的一者)授予控制ROI的存取權。
圖19是說明遠端視頻內的R0I宏區塊的優先解碼的流程圖。如圖19所示,當從遠
程發送者裝置14接收到遠端視頻時(180),本地接收者裝置12中的ROI感知視頻解碼 器48確定遠程R0I是否已由本地用戶指定(182)。如果不是,那麼ROI感知視頻解碼 器48正常編碼遠端視頻中的所有MB(184)。然而,如果遠端ROI信息由本地用戶指定, 那麼ROI感知視頻解碼器48優先解碼所接收的遠端視頻中的ROIMB (186)。可通過相 對於應用於非ROI MB的內插等式和誤差隱蔽技術,應用較高質量內插等式或較健壯的 誤差隱蔽技術來優先解碼ROI MB。優先解碼可包含例如較高質量解塊或去鳴振濾波器 的優先後處理。
本文描述的技術可實施在硬體、軟體、固件或其任何組合中。如果實施在軟體中, 那麼可通過計算機可讀媒體來部分實現所述技術,所述計算機可讀媒體包括含有指令的 程序代碼,所述程序代碼當執行時會進行上文描述的方法中的一種或一種以上方法。在 此情況下,計算機可讀媒體可包括例如同步動態隨機存取存儲器(SDRAM)的隨機存取 存儲器(RAM)、只讀存儲器(ROM)、非易失性隨機存取存儲器(NVRAM)、電可擦除 可編程只讀存儲器(EEPROM)、 FLASH存儲器、磁性或光學數據存儲媒體等。
程序代碼可由一個或一個以上處理器執行,所述一個或一個以上處理器例如一個或 一個以上數位訊號處理器(DSP)、通用微處理器、專用集成電路(ASIC)、現場可編程 邏輯陣列(FPGA)或其它等效集成或離散邏輯電路。在一些實施例中,本文描述的功能 性可提供在經配置以用於編碼和解碼的專門軟體模塊或硬體單元內,或併入在組合的視 頻編解碼器(CODEC)中。
已描述各種實施例。這些和其它實施例在所附權利要求書的範圍內。
權利要求
1.一種方法,其包括從用戶處接收對由本地裝置產生的近端視頻內的關注區(ROI)的描述;基於所述描述產生指定所述ROI的信息;以及基於所述指定所述ROI的信息來編碼所述近端視頻以增強所述近端視頻的ROI相對於非ROI區域的圖像質量。
2. 根據權利要求1所述的方法,其中所述描述是文本描述。
3. 根據權利要求l所述的方法,其中所述描述是口頭描述。
4. 根據權利要求3所述的方法,其進一步包括通過語音識別來處理所述口頭描述,和 基於一個或一個以上經識別的項來產生所述指定所述ROI的信息。
5. 根據權利要求l所述的方法,其中所述描述是圖形描述。
6. 根據權利要求5所述的方法,其中所述圖形描述是作為所述用戶劃定在用戶界面屏 幕上的區域而接收的。
7. 根據權利要求l所述的方法,其進一步包括從本地裝置的用戶接收所述描述,和在 所述本地裝置內處理所述描述以產生所述指定所述ROI的信息。
8. 根據權利要求1所述的方法,其進一步包括從本地裝置的用戶接收所述描述,和在 不同於所述本地裝置的中間伺服器內處理所述描述以產生所述指定所述ROI的信息。
9. 根據權利要求l所述的方法,其進一步包括從遠程裝置的用戶接收所述描述,其中 所述描述界定關於由所述本地裝置編碼的近端視頻的所述ROI,且其中所述指定所 述ROI的信息內嵌在從所述遠程裝置接收的經編碼遠端視頻內。
10. 根據權利要求l所述的方法,其進一步包括從遠程裝置的用戶接收所述描述,其中 所述描述界定關於由所述本地裝置編碼的近端視頻的所述ROI,且其中通過帶外信 令從所述遠程裝置接收所述指定所述ROI的信息。
11. 根據權利要求l所述的方法,其進一步包括產生指定從所述遠程裝置接收的經編碼 遠端視頻內的ROI的信息,和將所述ROI信息和所述經編碼的近端視頻一起傳輸到 所述遠程裝置。
12. 根據權利要求l所述的方法,其進一步包括解碼從所述遠程裝置接收的經編碼遠端 視頻以增強所述遠端視頻中的ROI區域相對於所述遠端視頻的非ROI區域的圖像質量。
13. 根據權利要求1所述的方法,其進一步包括基於所述指定所述ROI的信息來產生宏 區塊(MB)映射,所述MB映射識別處於所述ROI內的MB。
14. 根據權利要求l所述的方法,其進一步包括從本地裝置的用戶接收所述描述,其中所述描述界定關於由所述本地裝置編碼的 近端視頻的所述ROI:監視與所述經編碼近端視頻相關聯的運動信息; 基於所述運動信息來調節所述ROI;以及 基於所述經調節的ROI來編碼所述近端視頻。
15. 根據權利要求14所述的方法,其進一步包括基於所述指定所述ROI的信息來產生 宏區塊(MB)映射,所述MB映射識別處於所述ROI內的MB,且其中調節所述 ROI包含基於所述運動信息將MB的狀態修改為包含在所述ROI中或排除在所述 ROI夕卜。
16. —種視頻編碼裝置,其包括-關注區(ROI)引擎,其接收對由所述裝置編碼的近端視頻內的關注區(ROI)的 描述,並基於所述描述產生指定所述ROI的信息;以及視頻編碼器,其編碼所述近端視頻以增強所述視頻的ROI相對於非ROI區域的圖像質量。
17..根據權利要求16所述的裝置,其中所述描述是文本描述。
18. 根據權利要求16所述的裝置,其中所述描述是口頭描述。
19. 根據權利要求18所述的裝置,其進一步包括提取模塊,所述提取模塊通過語音識 別來處理所述口頭描述,並基於一個或一個以上經識別的項來產生所述指定所述 ROI的信息。
20. 根據權利要求16所述的裝置,其中所述描述是圖形描述。
21. 根據權利要求20所述的裝置,其中所述圖形描述是作為所述用戶劃定在用戶界面 屏幕上的區域而接收的。
22. 根據權利要求16所述的裝置,其中所述ROI引擎從所述裝置的用戶接收所述描述, 其中所述描述界定關於所述近端視頻的所述ROI。
23. 根據權利要求16所述的裝置,其中所述ROI引擎將所述描述傳輸到中間伺服器以 用於產生所述指定所述ROI的信息。
24. 根據權利要求16所述的裝置,其中所述ROI引擎從遠程視頻通信裝置的用戶接收 所述描述,所述描述界定關於由所述視頻通信裝置編碼的近端視頻的所述ROI,且 所述指定所述ROI的信息內嵌在從所述遠程裝置接收的經編碼遠端視頻內。
25. 根據權利要求16所述的方法,其中所述ROI引擎從遠程視頻通信裝置的用戶接收 所述描述,所述描述界定關於由所述視頻通信裝置編碼的近端視頻的所述ROI,且 通過帶外信令從所述遠程裝置接收所述指定所述ROI的信息。
26. 根據權利要求25所述的裝置,其中所述ROI引擎產生指定從所述遠程裝置接收的 經編碼遠端視頻內的ROI的信息,並將所述ROI信息和所述經編碼近端視頻一起傳 輸到所述遠程裝置。
27. 根據權利要求16所述的裝置,其進一步包括視頻解碼器,所述視頻解碼器解碼從 所述遠程裝置接收的經編碼遠端視頻以增強所述遠端視頻中的ROI區域相對於所述 遠端視頻的非ROI區域的圖像質量。
28. 根據權利要求16所述的裝置,其進一步包括基於所述指定所述ROI的信息來產生 宏區塊(MB)映射,所述MB映射識別處於所述ROI內的MB。
29. 根據權利要求16所述的裝置,其進一步包括跟蹤模塊,所述跟蹤模塊監視與所述 經編碼近端視頻相關聯的運動信息,並基於所述運動信息來調節所述ROI,其中所 述編碼器基於所述經調節的ROI來編碼所述近端視頻。
30. 根據權利要求29所述的裝置,其進一步包括映射器模塊,所述映射器模塊基於所 述指定所述ROI的信息來產生宏區塊(MB)映射,所述MB映射識別處於所述ROI 內的MB,其中所述跟蹤模塊通過基於所述運動信息將MB的狀態修改為包含在所 述ROI中或排除在所述ROI外來調節所述ROI。
31. —種計算機可讀媒體,其包括指令以促使處理器從用戶處接收對由本地裝置產生的 近端視頻內的關注區(ROI)的描述,基於所述描述產生指定所述ROI的信息,並 基於所述指定所述ROI的信息來編碼所述近端視頻以增強所述近端視頻的ROI相對 於非ROI區域的圖像質量。
32. 根據權利要求31所述的計算機可讀媒體,其中所述描述是文本描述。
33. 根據權利要求31所述的計算機可讀媒體,其中所述描述是口頭描述。
34. 根據權利要求33所述的計算機可讀媒體,其中所述指令促使所述處理器通過語音 識別來處理所述口頭描述,並基於一個或一個以上經識別的項來產生所述指定所述 ROI的信息。
35. 根據權利要求31所述的計算機可讀媒體,其中所述描述是圖形描述。
36. 根據權利要求35所述的計算機可讀媒體,其中所述圖形描述是作為所述用戶劃定 在用戶界面屏幕上的區域而接收的。
37. 根據權利要求31所述的計算機可讀媒體,其中所述指令促使所述處理器從本地裝 置的用戶接收所述描述。
38. 根據權利要求31所述的計算機可讀媒體,其中所述指令促使所述處理器在所述本 地裝置內產生所述指定所述ROI的信息。
39. 根據權利要求31所述的計算機可讀媒體,其中所述指令促使所述處理器從遠程裝 置的用戶接收所述描述,其中所述描述界定關於由所述本地裝置編碼的近端視頻的 所述ROI。
40. 根據權利要求31所述的計算機可讀媒體,其中所述描述內嵌在從所述遠程裝置接 收的遠端視頻內。
41. 根據權利要求31所述的計算機可讀媒體,其中通過帶外信令從所述遠程裝置接收 所述描述。
42. 根據權利要求31所述的計算機可讀媒體,其中所述指令促使所述處理器產生指定 從所述遠程裝置接收的經編碼遠端視頻內的ROI的信息,並將所述ROI信息和所述 經編碼的近端視頻一起傳輸到所述遠程裝置。
43. 根據權利要求42所述的計算機可讀媒體,其中所述指令促使所述處理器解碼從所 述遠程裝置接收的所述經編碼遠端視頻以增強所述遠端視頻中的ROI區域相對於所 述遠端視頻的非ROI區域的圖像質量。
44. 根據權利要求31所述的計算機可讀媒體,其中所述指令促使所述處理器基於所述 指定所述ROI的信息來產生宏區塊(MB)映射,所述MB映射識別處於所述ROI 內的MB。
45. 根據權利要求31所述的計算機可讀媒體,其中所述指令促使所述處理器從本地裝 置的用戶接收所述描述,所述描述界定關於由所述本地裝置編碼的近端視頻的所述 ROI,且所述指令促使所述處理器監視與所述經編碼近端視頻相關聯的運動信息, 基於所述運動信息來調節所述ROI,並基於所述經調節的ROI來編碼所述近端視頻。
46. 根據權利要求45所述的計算機可讀媒體,其中所述指令促使所述處理器基於所述 指定所述ROI的信息來產生宏區塊(MB)映射,所述MB映射識別處於所述ROI 內的MB,且所述指令促使所述處理器通過基於所述運動信息將MB的狀態修改為 包含在所述ROI中或排除在所述ROI外來調節所述ROI。
47.—種視頻編碼系統,其包括第一視頻通信裝置,其編碼近端視頻;第二視頻通信裝置,其從所述第一視頻通信裝置接收所述近端視頻,其中所述第 二視頻通信裝置產生對由所述第一視頻通信裝置產生的所述近端視頻內的關注區 (ROI)的用戶描述;中間伺服器,其結構上不同於所述第一和第二視頻通信裝置,且其基於所述描述 產生指定所述ROI的信息,其中所述第一視頻通信裝置基於所述指定所述ROI的信息來編碼所述近端視頻以 增強所述近端視頻的ROI相對於非ROI區域的圖像質量。
全文摘要
本揭示案針對用於視頻電話(VT)應用的關注區(ROI)處理技術。根據所述揭示的技術,接收者裝置界定由發送者裝置傳輸的視頻信息(即遠端視頻信息)的ROI信息。所述接收者裝置將所述ROI信息傳輸到所述發送者裝置。所述發送者裝置使用由所述接收者裝置傳輸的所述ROI信息對視頻場景內的ROI應用優先編碼。可應用ROI提取來處理對關注區(ROI)的用戶描述以基於所述描述產生指定所述ROI的信息。所述用戶描述可基於文本、圖形或語音。提取模塊應用適當處理以從所述用戶描述中產生所述ROI信息。所述提取模塊可駐存在視頻通信裝置本地,或駐存在經配置以進行ROI提取的不同的中間伺服器中。
文檔編號H04N7/26GK101171841SQ200680014872
公開日2008年4月30日 申請日期2006年3月8日 優先權日2005年3月9日
發明者哈立德·希勒米·厄勒-馬列, 李彥輯, 蔡明章 申請人:高通股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀