帶有視頻時間上變換的處理方法和設備的製作方法

2023-05-23 22:13:51 2

專利名稱：帶有視頻時間上變換的處理方法和設備的製作方法
帶有視頻時間上變換的處理方法和設備發明領域本發明涉及可視通信系統，具體地，本發明涉及一種用於在可視電話系統中提供時間的上變換(temporal up-convers ion )以便增強可視圖像質量的方法和設備。發明背景一般來說，視頻質量對於可視電話應用的全球接受性而言是一個關鍵特徵。極其關鍵和重要的是可視電話系統把在另一側的情景儘可能精確地帶給最終用戶，以便增強用戶的情境意識(situational awareness) 且由此增強視頻呼叫的感知質量。雖然電視會議系統自從多年前被首次引入以來已經得到了相當大的關注，但它們一直沒有變得非常流行，而且還沒有出現這些系統的廣泛突破。這大體上是由於以下原因通信帶寬的不充足的可利用性導致視頻和音頻傳輸的不可接受地又低又差的質量，諸如低的解析度、斑駁的圖像和長的延遲。然而，新近的能夠提供足夠通信帶寬的技術創新正變得更廣泛地可用于越來越多數量的最終用戶。而且，帶有集成的顯示器、相機、話筒、揚聲器的強大計算系統一一諸如PC、行動裝置等等一一的可用性正快速增長。由於上述的這些原因，人們可以預期在消費者電視會議系統的使用和應用中的一個突破和更高的質量前景，因為電視會議解決方案的視聽質量變成了在這個大需求的市場上最重要的區別因素之一。一般地說，已提出和實現了許多用於改進電視會議圖像的傳統算法和具體地，這樣的建議(參閱例如 S. Daly等人的"Face-Based Visually-Optimized Image Sequence Coding (基於面部的視覺優化的圖像序列編碼)"，0-8186-8821-1/98，第443-447頁，IEEE)旨在基於對感興趣區域(ROI)和不感興趣區域(RONI)的選擇來改進^L頻編碼效率。特別地，所建議的編碼以這樣一種方式被執行，即大多數比特被分派給ROI 而較少的比特被分派給RONI。因此，總的比特速率保持為恆定的，但在解碼後，ROI圖像的質量高於R0NI中圖像的質量。其它的建議，諸如Bober 等人的US 2004/0070666 Al,主要提出在應用視頻編碼之前的智能變焦技術，使得相機視場中的人通過數字手段而放大，以致不相關的背景圖像部分不被傳送。換句話說，這種方法通過只編碼每個所捕獲圖像的經選擇的感興趣區域而傳送圖像。然而，以上所描述的傳統技術由於多種因素而並不經常令人滿意。並未對所捕獲的圖像執行進一步的處理或分析以抗衡在視頻通信系統的傳輸中對圖像質量有害的影響。而且，雖然改進的編碼方案可能給出可接受的結果，^旦它們不能獨立地全面(across the board)應用於所有的編碼方案，並且這樣的技術需要首先實施特定的視頻編碼和解碼技術。另外，這些技術中沒有一個技術適當地解決了電視電信會議呼叫的較低情境意識和較差感知質量的問題。發明內容因此，本發明的目的是提供一種有效地應對圖像質量增強的新的和改進的方法和設備，它解決了上述的問題，並可以是成本經濟的和簡單易行的。為此，本發明涉及一種處理視頻圖像的方法，它包括以下步驟檢測在視頻應用的圖像中的至少一個人；估計與圖像中所檢測到的人相關聯的運動；把圖像分割成至少一個感興趣區域和至少一個不感興趣區域，其中感興趣區域包括圖像中所檢測到的人；以及通過在感興趣區域中使用比在不感興趣區域中所應用的更高的幀速率，而對包括該圖像的視頻信號施加時間幀處理。還可以包4舌一個或多個以下的特徵。在本發明的一個方面，時間幀處理包括對感興趣區域施加的時間幀上變換處理(temporal frame-up conversion processing )。在另一個方面，時間幀處理包括對不感興趣區域施加的時間幀下變換處理(temporal frame down-convers ion processing )。在又一個方面，該方法還包括把來自時間幀上變換處理步驟的輸出信息與來自時間幀下變換處理步驟的輸出信息相組合，以生成增強的輸出圖像。而且，可視圖像質量增強步驟可以在與該圖像相關聯的視頻信號的或是傳送端處或是接收端處執行。而且，檢測在視頻應用的圖像中所識別的個人的步驟可包括檢測圖像中的嘴唇活動，以及檢測圖像中的音頻語音活動。另外，對感興趣區域施加時間幀上變換處理的步驟可以僅僅在檢測到嘴唇活動和/或音頻語音活動時才實行。在其它方面，該方法還包括把圖像分割成至少第一感興趣區域和第二感興趣區域，選擇第一感興趣區域以通過增加幀速率來施加時間幀上變換處理，並且維持第二感興趣區域的幀速率不變。本發明還涉及一種被配置來處理視頻圖像的設備，其中該設備包括檢測模塊，配置來檢測在視頻應用的圖像中的至少一個人；運動估計模塊，配置來估計與圖像中所檢測到的人相關聯的運動；分割模塊，配置來把圖像分割成至少一個感興趣區域和至少一個不感興趣區域，其中感興趣區域包括圖像中所檢測到的人；以及至少一個處理模塊，配置來通過在感興趣區域中使用比在不感興趣區域中所應用的更高的幀速率、而對包括該圖像的視頻信號施加時間幀處理。在從屬權利要求中還敘述了該方法和設備的其它特徵。實施例可以具有一個或多個以下的優點。本發明通過使得與參加者或正在講話的人相關聯的可視圖像相對於圖像的其餘部分更加清晰，而有利地增強了電視會議系統對於相關圖像部分的視覺感知，並且提高了情境意識水平。而且，本發明可應用於傳送端，這導致較高的視頻壓縮效率，因為相對多的比特被分派給增強的感興趣區域(ROI)而相對少的比特被分派給不感興趣區域(R0NI)，導致在相同的比特速率下對於重要的和相關的視頻數據諸如面部表情等的改進的傳輸處理過程。另外，本發明的方法和設備允許與可視電話實現中可使用的任何編碼方案相獨立的應用。本發明不需要視頻編碼也不需要視頻解碼。而且，本方法可以在可視電話的相機一側應用於改進的相機信號，或者它可以在顯示器一側應用於改進的顯示信號。所以，本發明在傳送端和接收端都可以被應用。作為又一個優點，用於檢測面部的識別處理過程可以通過組合各種面部檢測技術或模態(modality)——諸如嘴唇活動檢測器和/或音頻定位(audio localization)算法--而被做得更魯棒和更防失敗(failproof)。另外，作為另一個優點，可以保護和節省計算，因為僅僅在ROI中施加運動補償內插。
所以，通過本發明的實現，視頻質量大大地增強，通過提高個人的情境意識並由此提高視頻呼叫的感知質量，而有助於可視電話應用的更好的接受。特別是，本發明能夠傳送更高質量的面部表情，以用於圖像的增強的可懂度，和用於運送不同類型的面部情緒和表情。通過提高這種類型的在當今組中的情境意識，電視會議應用相當於增加了用途和可靠性，特別是當電話會議的參加者或個人例如不熟悉其它參加者時。
參考在以下的說明、附圖中所描述的實施例以及根據權利要求，本發明的這些和其它方面將變得明白並且將得以闡明。

圖l是按照本發明的、用於圖像質量增強的改進方法的其中一個實施
例的示意性功能框圖2是按照圖1的、用於圖像質量增強的改進方法的其中一個實施例的流程圖3是按照本發明的、用於圖像質量增強的改進方法的另一個實施例的流程圖4是按照本發明的、用於圖像質量增強的改進方法的另一個實施例的流程圖5是按照本發明的、用於圖像質量增強的改進方法的另一個實施例的流程圖6是按照本發明的、用於圖像質量增強的改進方法的另一個實施例的示意性功能框圖7是按照本發明的、對於多人電視會議會話而顯示的用於圖像質量增強的示意性功能框圖8是按照本發明的、對於多人電視會議會話而顯示的用於圖像質量
增強的另一個示意性功能框圖9是一個流程圖，它圖示了按照圖8的、在用於圖像質量增強的改進方法的其中一個實施例中所使用的方法步驟；
圖10顯示作為示例的情形從視頻應用取得的典型的圖像；
圖ll顯示按照本發明的、面部跟蹤機制的實現；
圖12圖示了 R0I/R0NI分割處理過程的應用；圖13圖示了基於頭部和肩部模型的R0I/R0NI分割；圖14圖示了按照本發明的其中一個實施例的幀速率變換；以及圖15圖示了在ROI和RONI區域之間的邊界區域中實施的優化技術。優選實施例說明本發明應對例如在可視電話系統中圖像內的人的感知增強以及電視電信會議會話的情境意識的增強。參照圖1，相對於把圖像質量增強施加到例如單人電視會議會話來解釋本發明的本質特徵。在傳送端，"視頻入"10信號(Vin)被輸入到相機，並變為被記錄的相機信號。另一方面，"視頻出"12信號是將被編碼和傳送的信號V^。換句話說，在接收端，信號IO是接收的和解碼的信號，而信號 12被發送到最終用戶的顯示器。為了實施本發明，需要應用圖像分割技術來對包含會議呼叫的參加者的ROI進行選擇。所以，可以使用面部跟蹤模塊14來在圖像中尋找有關面部位置和尺寸的信息20。各種面部檢測算法在本領域是為人熟知的。例如，為了在圖像中找出人的面部，可以使用膚色檢測算法或膚色檢測與橢圓形目標邊界搜索的組合。替換地，可以使用搜索圖像中關鍵特徵的附加方法來識別面部。所以，在本發明中可以整合許多用來尋找和應用有效目標分類器的可用的魯棒方法。在識別圖像中參加者的面部之後，使用運動估計模塊16來計算運動矢量域18。此後，利用有關面部位置和尺寸的信息20，例如通過使用簡單的頭部和肩部模型來圍繞參加者執行R0I/R0NI分割模塊22。替換地，可以在逐塊的基礎上使用運動檢測(不是運動估計)來跟蹤ROI。換句話說，通過把在其中檢測到運動的塊聚合起來而形成一個目標，讓R0I是具有大多數運動的塊的目標。另外，使用運動檢測的方法免除了 (save)圖像處理技術的計算複雜性。接著，進行R0I/R0NI處理。對於R0I段24,在R0I段24內像素通過用於視覺增強的時間幀速率上變換模塊26而被在視覺上強調。對於R0NI 段28,這與要削弱(de-emphasized )的其餘圖像部分的時間幀下變換才莫塊30相組合。然後，R0I和R0NI處理的輸出在重組合才莫塊32中相組合，以形成"輸出，，信號12 (V。ut)。通過使用R0I/R0NI處理，R0I段24對照不太有關的R0NI段28 ;波在視覺上被改進，並產生更重要的前景。40圖示了在圖l上所描述的本發明的基本步驟。在第一"輸入"步驟42,即，視頻信號^f皮輸入到相機，並變為^f皮記錄的相機信號。接著，通過使用多個現有的算法而在面部跟蹤模塊14 (圖1所示) 中執行面部檢測步驟44。此外，實行運動估計步驟46來生成(48)運動矢量，它們稍後分別被需要來對ROI或RONI進行上變換或下變換。如果在步驟44中已經檢測到面部，則執行ROI/RONI分割步驟50,這導致對於ROI段的生成步驟52和對於R0NI的生成步驟54。 ROI段然後經受使用由步驟48生成的運動矢量的運動補償幀上變換步驟56。類似地， R0NI段經受幀下變換步驟58。隨後，經處理的ROI和R0NI段在組合步驟 60中被組合，以便在步驟62中產生輸出信號。另外，在面部檢測步驟44 中，如果還沒有檢測到面部，則在步驟64(測試"下變換嗎？")，如果圖像要受到下變換處理，則執行下變換步驟66。另一方面，如果圖像要維持不變，則無需步驟66，僅僅繼續進行到步驟62 (直接連接)，以生成未經處理的輸出信號。現在參照圖3到5，提供對於圖2的方法步驟的附加的優化。取決於電視電信會議的參加者是否正在講話，ROI上變換處理過程可被修改和優化。在圖3上，流程圖70圖示了與圖2所描述的流程圖40上的相同的步驟，在面部檢測步驟44之後有附加的嘴唇檢測步驟71。換句話說，為了識別誰在講話，人們可以在視頻圖像中施加嘴唇活動檢測，以及可以通過使用圖像序列中的嘴唇活動檢測來測量語音活動檢測。例如，可以使用用於自動讀唇的傳統技術或各種各樣的視頻嘴唇活動檢測算法來測量嘴唇活動。因此，當與在傳送端和接收端都可以使用的其它模態相組合時，用於嘴唇活動檢測機制的步驟71的添加使得面部跟蹤或檢測步驟44更魯棒。這樣，目的是僅在個人或參加者正在講話的情況下，才通過向R0I段給予增加的幀速率而在視覺上支持語音活動的發生。圖3還顯示僅僅當嘴唇檢測步驟71為肯定(Y)時才實行ROI上變換步驟56。如果沒有嘴唇檢測，則流程圖70繼續進行到下變換步驟64，其最終導致生成視頻出信號的步驟62。現在參照圖4,在流程圖80上，實施附加^t態。由於面部跟蹤或檢測步驟44不能被保證總是無錯誤的面部檢測，所以它可能在沒有發現真人的地方識別一個面部。然而，通過將面部跟蹤和^:測的^支術與諸如嘴唇活動(圖3)和音頻定位算法那樣的模態相組合，面部跟蹤步驟44可被做成更魯棒的。所以，圖4加上了使用音頻入步驟81、後跟音頻檢測步驟82的優化，音頻;險測步驟82與^f見頻入步驟42和面部;f全測步驟44並^"地同時工作。換句話說，當因為有人正在談話而可得到音頻時，可以使用語音活動檢測器。例如，可以使用一個基於對音頻信號中非穩態事件的檢測的、與音調檢測器相組合的語音活動檢測器。在傳送端，也就是，在音頻入步驟 81，"音頻入"信號是話筒輸入。在接收端，"音頻入"信號是所接收並解碼的音頻。所以，為了音頻活動檢測的增加的確定性，對於各個檢測器輸出，通過邏輯與(AND)來執行組合的音頻/視頻語音活動檢測。同樣地，圖4顯示了僅僅當音頻檢測步驟82肯定地檢測到音頻信號時才實行流程圖80上的ROI上變換步驟56。如果已經檢測到音頻信號，則跟在面部的肯定檢測之後執行R0I/R0NI分割步驟50，後隨的是ROI上變換步驟56。然而，如果還沒有檢測到音頻語音，則流程圖80繼續進行到下變換步驟64，這最終導致生成視頻出信號的步驟62。參照圖5,流程圖90圖示了實施音頻語音活動和視頻嘴唇活動檢測處理過程的組合。因此，圖3和圖4組合地導致流程圖90，提供了用於識別或檢測感興趣的個人或參加者並正確地分析ROI的非常魯棒的手段。此外，圖6顯示了用於被應用到一人電視會議會話的圖像質量增強的、實施音頻語音檢測和視頻嘴唇活動檢測步驟的流程圖90的示意性功能框圖。類似於圖l所描述的功能特徵，在傳送端，輸入信號IO(VJ被輸入到相機/輸入設備，並變為被記錄的相機信號。"音頻入"輸入信號(Ain)ll 沿相同的線路被輸入，並且應用音頻算法模塊13來檢測是否可以檢測到任何語音信號。同時，嘴唇活動檢測模塊15分析視頻入信號，以確定在接收的信號中是否有任何嘴唇活動。因此，如果音頻算法模塊l3產生一個真或假語音活動標誌17，其證實為真，則ROI上變換模塊26剛一接收到R0I段24，就為該ROI段24執行幀速率上變換。同樣地，如果嘴唇活動檢測模塊15檢測出一個真或假嘴唇活動標誌19為真，則剛一接收到ROI 段24,模塊26就為該ROI段24執行幀速率上變換。現在參照圖7,如果在傳送端，多個話筒是可用的，則可以實施非常魯棒的和有效的方法來尋找講話人的位置。也就是，為了增強對人的檢測和識別，特別是識別正在講話的多個人或參加者，音頻和視頻算法的組合是非常有力的。特別是在傳送端，這可以在多感覺(multi-sensory )的音頻數據(而不是單音頻)可用時被應用。替換地，為了使系統還要更加魯棒和能夠精確地識別正在講話的那些人，人們可以在視頻中應用嘴唇活動 ;險測，這既可以在傳送端也可以在^l妄收端應用。在圖7上，對於多人可視電話會議會話，顯示了用於圖像質量增強的示意性功能框圖。當在傳送端存在多個人或參加者時，面部跟蹤模塊14 可以找出一個以上的面部，比如il總共N個(x N)。對於由面部跟蹤;漠塊 14檢測到的N個面部中的每個面部，即，對於N個面部位置和尺寸中的每個面部位置和尺寸，生成多人ROI/RONI分割模塊22N(22-l， 22-2， ...， 22N)，以用於例如根據頭部和肩部^f莫型再次對於N個面部產生的每個ROI和RONI 段。在檢測到兩個ROI的事件中，ROI選擇模塊2 3接著根據音頻算法模塊 1 3的結果來執行對ROI的選擇，這些ROI必須被處理以用於圖像質量增強，該音頻算法模塊13輸出該聲音源或多個聲音源的位置(x，y坐標)(連接21 給出聲音源的(x，y)位置)，包括語音活動標誌17，包括嘴唇活動檢測模塊 15的結果，即嘴唇活動標誌19。換句話說，對於多話筒會議系統，多個音頻輸入在接收端可用。然後，結合音頻算法來應用嘴唇活動算法，也可以確定語音或音頻所來自的方向和位置(x,y坐標)。這個信息可以相關於瞄準預定的ROI,他是圖像上當前正在講話的參加者。這樣，當面部跟蹤模塊14檢測到兩個或多個ROI時，ROI選擇模塊 23選擇與正在講話的人相關聯的ROI，以使得正在講話的這個人可被給予最大的視覺增強，讓電信會議會話的其餘人或參加者受到對照RONI背景的小的強調。此後，通過使用由運動估計模塊16輸出的信息，分開的ROI和RONI 段經受圖像處理步驟，由ROI上變換^^莫塊26在幀速率上變換中對ROI執行，以及由RONI下變換才莫塊30在幀速率下變換中對RONI執行。而且， ROI段可包括由面部跟蹤才莫塊14檢測到的全部數目的個人。假設遠離講話器的個人不參加電視電信會議呼叫，則ROI可以只包括這樣的所檢測到的面部或個人，即經對所檢測到的面部尺寸的檢查而是足夠近的，以及其面部尺寸大於圖像尺寸的一定的百分比。替換地，ROI段可以只包括正在講話的人、或者最後講話的人_從那時起再沒有其它人講話。現在參照圖8，其圖示了對於多人電視會議會話而顯示的、用於圖像質量增強的另一個示意性功能框圖。ROI選擇模塊23選擇兩個ROI。這可以是由這樣的事實引起的因為第一 ROI段24-1是與正講話的參加者或個人相關聯的，而第二 ROI段24-2是與已檢測到的其餘參加者相關聯的，所以這兩個ROI已^皮區分。如所示的，第一 ROI段24-1由R0I-1上變換模塊26-1進行時間上變換，而第二 ROI段24-2是維持不變的。正如先前的圖5和6的情形那樣，R0NI段28也可以由R0NI下變換才莫塊30進行時間下變換。參照圖9，流程圖100圖示了在上面參照圖8描述的、用於圖像質量增強的方法的其中一個實施例中所使用的步驟。事實上，流程圖100圖示了在圖8上所示的、也參照圖2到5予以描迷的各種模塊所遵循的基本步驟。依靠這些步驟，在第一"視頻入"步驟42中，即，視頻信號被輸入到相機，並變為被記錄的相機信號。這後面跟隨的是面部檢測步驟44和 R0I/R0NI分割步驟50，它導致數目為N的、用於ROI段的生成步驟52和用於R0NI段的生成步驟54。用於ROI段的生成步驟52包括用於R0I —1段的步驟52a、用於R0I_2段的步驟52b等等、以及用於R0I_N段的步驟"N。接著，在面部檢測步驟44和R0I/R0NI分割步驟50之後實行嘴唇檢測步驟71。也如圖8所示，如果嘴唇檢測步驟71是肯定的(Y)，則實行 R0I/R0NI選擇步驟102。以同樣的方式，"音頻入"步驟81後面跟隨的是與視頻入步驟42和面部檢測步驟44同時工作的音頻檢測步驟82,以及嘴唇檢測步驟71，以便提供更魯棒的機制和處理過程來精確地檢測感興趣的R0I區域。最終得到的信息在R0I/R0NI選擇步驟102中被使用。隨後，R0I/R0NI選擇步驟102生成經選擇的R0I段(104)，它經受幀上變換步驟56。 R0I/R0NI選擇步驟102還生成其它的R0I段(IOO ，在步驟64，如果使圖像受到下變換分析的判決是肯定的，則對於該其它R0I段執行下變換步驟66。另一方面，如果圖像要維持不變，則僅僅繼續進行到步驟60,把由步驟56生成的時間上變換的ROI圖像和由步驟54與"生成的R0NI圖像相組合，以在步驟62最終獲得未經處理的"視頻出"信號。現在參照圖10-15，其描述了被使用來達到圖像質量增強的技術和方法。例如，將更詳細地描述運動估計、面部跟蹤和檢測、R0I/R0NI分割、和R0I/R0NI時間變4灸處理的處理過程。參照圖10-12,其圖示了例如從用web相機拍攝的序列中取得的圖像110。例如，圖像110可以具有176 x 144或320 x 像素的解析度以及介於7. 5Hz至15Hz之間的幀速率，這可以典型地是現今的移動應用的情運動估計圖像110可被再劃分成8 x 8亮度值的塊。對於運動估計，例如可以使用3D遞歸搜索方法。結果是對於每個8 x 8塊的二維運動矢量。這個運動矢量可以由5(i,")表示，其中二維向量f包含8 x 8塊的空間x-和y-坐標，以及n是時間索引。在兩個原始輸入幀之間的某個時間實例處評價 (value)運動矢量域。為了使運動矢量域在兩個原始輸入幀之間的另一個時間實例處有效，人們可以執行運動矢量的重新定時。面部一企測現在參照圖11，面部跟蹤機制被使用來跟蹤個人112和114的面部。面部跟蹤4幾制通過找出個人112和114的膚色(面部^皮顯示為加深的)而找出面部。因此，可以使用皮膚檢測器技術。橢圓120和122指示已被找到和識別出的個人112和114的面部。替換地，面部檢測是在被訓練的分類器的基礎上#皮〗丸4亍，i者如在P. Viola和M. Jones, "Robust Rea卜time Object Detection (魯才奉的實曰於目標鬥全觀寸)，，，in Proceedings of the Second International Workshop on Statistical and Computational Theories of Vision—Modeling, Learning, Computing, and Sampling, Vancouver, Canada, July 13， 2001中給出的。基於分類器的方法具有的優點在於，它們在對抗改變的照明條件上是更魯棒的。另外，也可以僅檢測在所找到的面部附近的面部。個人118的面部因為頭部尺寸與圖像110 的尺寸相比起來太小而沒有被找到。所以，個人ll8 (在這種情形下)被正確地假設為沒有參加任何電視會議呼叫。如上所述，當面部跟蹤機制與來自視頻嘴唇活動檢測器的信息相組合、和/或與音頻源跟蹤器相組合時，面部跟蹤機制的魯棒性可被改善，其中該視頻嘴唇活動檢測器是在傳送端和接收端都可使用的，該音頻源跟蹤器需要多個話筒通道並在傳送端被實施。通過使用這些技術的組合，被面部跟蹤機制錯誤地找到的非面部可被適當地拒絕。R0I和RON I分割參照圖12, R0I/R0NI分割處理過程一皮應用到圖像110。在面部;險測處理過程後，對於在圖像110中所檢測到的每個面部，根據頭部和肩部才莫型來使用R0I/R0NI分割處理過程。包括個人的頭部和身體l24在內的個人 112的頭部和肩部輪廓124被識別和分離。這個粗略的頭部和肩部輪廓H4的尺寸不是關鍵的，但它應當足夠大，以保證個人112的身體被完全地包括在輪廓124內。此後，把時間上變換僅僅施加到這個ROI中的像素，這個ROI也就是在頭部和肩部輪廊124內的區域。 ROI和R0NI幀速率變換R0I/R0NI幀速率變換利用基於原始圖像運動矢量的運動估計處理過程。現在參照圖13,例如，在對於原始輸入圖像或畫面132A(在t=(n-l)T) 和132B (在t=nT)的三個圖130A-130C上，顯示了基於參照圖12所描述的頭部和肩部模型進行的R0I/R0NI分割。對於內插的畫面134(t=(n-oc)T ;圖130B)，在某個位置處的像素在以下情況中屬於ROI，即當在同一位置處、在領先的原始輸入畫面132A中該像素屬於那個畫面的ROI時，或者在同一位置處、在後隨的原始輸入畫面132B中該像素屬於那個畫面的ROI時，或二者都滿足時。換句話說，在內插的畫面134上的ROI區域 138B分別包括前一個和下一個原始輸入畫面132A和132B的ROI區域138A 和ROI區域138C。至於RONI區域140，對於內插的畫面134，屬於R0NI區域140的像素只是被從前一個原始輸入畫面132A複製，而在R0I中的像素通過運動補償被內插。這可以參照圖14被進一步地說明，其中T代表序列的幀周期，而n 代表整數幀索引。例如，參數oc ( (KoKl )給出例如在兩個原始輸入圖像 132A與132B之間的內插圖像134A的相對定時(在這種情形下，可以使用 ot =1/2 )。在圖14上，對於內插的畫面134A(且同樣地，對於內插的畫面1"B), 例如，標註為"p"和"q，，的像素塊位於R0NI區域14Q中，且在這些塊中的像素從之前的原始圖像中的同一個位置處被複製。對於內插的畫面1"A，在 R0I區域138中的像素值^皮計算為一個或多個隨後和在前的輸入原始畫面 (132A， 132B)的運動補償的平均值。在圖14上，圖示了兩個幀的內插。 f (a, b, a)類似於運動補償的內插結果。可以使用用於運動補償的內插技術的不同方法。因此，圖14顯示了這樣的幀速率變換技術，其中在R0I區域138中的像素是通過運動補償內插得到的，而在R0NI區域中的像素是通過幀重複得到的。另外，當圖像或畫面的背景是靜止時，在R0I與R0NI區域之間的過渡邊界在最終得到的輸出圖像中是看不見的，因為在ROI區域內的背景像素被用零運動矢量來內插。然而，當背景移動時——數位相機常常出現這種情形(例如，不穩的手運動)，在ROI與R0NI區域之間的邊界變為可見，因為在ROI區域內背景像素是用運動補償計算出來的，而在R0NI區域內背景像素是從在前的輸入幀複製的。現在參照圖15,當背景不是靜止時，對於在ROI與R0NI區域之間的邊界區域中的圖像質量的增強可以實施優化技術，如在圖150A和150B上所示的。具體地，圖15顯示了對於R0I/R0NI分割在t=(n-oc)T時估計的運動矢量域的實現。圖150A圖示了原始的情形，其中在RONI區域140中的背景上有運動。在R0NI區域140中的二維運動矢量由小寫字母符號 (a， b, c， d， e, f， g， h, ，k，l)表示，以及在R0I區域138中的運動矢量由大寫字母符號(A，B，C，D,E， F,G,H)代表。圖150B圖示了優化情形，其中R0I 138已通過線性內插的運動矢量被擴展，以便一旦背景開始移動則減輕 R0I/R0NI邊界152B的可視性。如圖15所示，可以通過在塊網格上擴展R0I區域138 (圖150B)、且作出逐漸的運動矢量過渡和對在擴展區域中的像素也應用運動補償內插分析，而減輕邊界區域152B的感知的可視性。為了當在背景中有運動時進一步地削弱過渡，人們可以對R0I擴展區域154中的像素在水平和垂直兩個方向上應用模糊((blurring)濾波器(例如，[1 2 1]/4)。雖然已圖示和描述了當前被認為是本發明的優選實施例的內容，但本領域普通技術人員將會理解可以在不背離本發明的真正範圍的情況下，做出各種其它修改，以及用等同物進行替換。具體地，雖然以上的描述主要涉及到電視電信會議，但所描述的圖像質量增強方法可以應用於任何類型的視頻應用，諸如在行動電話設備和平臺、家庭辦公平臺(比如PC)等等中實施的視頻應用。另外，可進行許多先進的視頻處理修改以使特定的情形適配於本發明的教導，而不背離這裡所描述的中心的創造性概念。此外，本發明的實施例可能並不包括上述的全部特性。所以，不打算讓本發明限於所公開的特定實施例，而是本發明包括屬於所附權利要求範圍內的所有實施例及其等同物。
權利要求
1.一種處理視頻圖像的方法，其中該方法包括-檢測(44)在視頻應用的圖像中的至少一個人；-估計(46)與該圖像中至少一個被檢測到的人相關聯的運動；-把該圖像分割(50)成至少一個感興趣區域和至少一個不感興趣區域，其中該至少一個感興趣區域包括該圖像中該至少一個被檢測到的人，以及-通過在該至少一個感興趣區域中使用比在該至少一個不感興趣區域中所應用的更高的幀速率，而對包括該圖像的視頻信號施加時間幀處理。
2. 權利要求l的方法，其中所述時間幀處理包括對該至少一個感興趣區域施加的時間幀上變換處理(56)。
3. 權利要求1或2的方法，其中所述時間幀處理包括對該至少一個不感興趣區域施加的時間幀下變換處理(58)。
4. 權利要求3的方法，還包括把來自時間幀上變換處理步驟的輸出信息與來自時間幀下變換處理步驟的輸出信息相組合(60),以生成(62) 增強的輸出圖像。
5. 前述權利要求中的任一項的方法，其中視覺圖像質量增強步驟是在與該圖像相關聯的視頻信號的或傳送端處或接收端處執行的。
6. 前述權利要求中的任一項的方法，其中檢測在視頻應用的圖像中所識別的至少一個人包括檢測(71)該圖像中的嘴唇活動。
7. 前述權利要求中的任一項的方法，其中檢測在視頻應用的圖像中所識別的至少一個人包括檢測(82)該圖像中的音頻語音活動。
8. 前述權利要求6和7中的任一項的方法，其中對感興趣區域施加時間幀上變換處理的步驟僅僅在被檢觀'J到嘴唇活動和/或音頻語音活動時才實行。
9. 前述權利要求中的任一項的方法，其中該方法還包括-把圖像分割(50)成至少第一感興趣區域和第二感興趣區域； -選擇(102)該第一感興趣區域，以通過提高幀速率來施加時間幀上變換處理；以及-維持該第二感興趣區域的幀速率不變。
10. 前述權利要求中的任一項的方法，其中對感興趣區域施加時間幀上變換處理包括提高與感興趣區域相關聯的像素的幀速率。
11. 前述權利要求中的任一項的方法，還包括在該圖像的塊網格(150B) 上擴展感興趣區域，以及通過對擴展的感興趣區域(154)中的像素施加運動補償內插而實行逐漸的運動矢量過渡。
12. 權利要求ll的方法，還包括通過對擴展的感興趣區域(154)中的像素在水平和垂直兩個方向上應用模糊濾波器而削弱邊界區域(152)。
13. —種配置來處理視頻圖像的設備，其中該設備包括-檢測模塊(14),配置來檢測在視頻應用的圖像中的至少一個人； _運動估計模塊(16)，配置來估計與該圖像中至少一個被檢測到的人相關聯的運動；-分割模塊(22)，配置來把該圖像分割成至少一個感興趣區域和至少一個不感興趣區域，其中該至少一個感興趣區域包括該圖像中該至少一個被4全測到的人；以及-至少一個處理模塊，配置來通過在該至少一個感興趣區域中使用比在該至少一個不感興趣區域中所應用的更高的幀速率，而對包括該圖像的 ^L頻信號施加時間幀處理。
14. 權利要求13的設備，其中所述處理模塊包括感興趣區域上變換模塊(26),其被配置來對該至少一個感興趣區域施加時間幀上變換處理。
15. 權利要求13或14的設備，其中所述處理模塊包括不感興趣區域下變換模塊(30),其被配置來對該至少一個不感興趣區域施加時間幀下變換處理。
16. 按照權利要求15的設備，還包括組合模塊(32),其被配置來把從感興趣區域上變換模塊得到的輸出信息與從不感興趣區域下變換模塊得到的輸出信息相組合。
17. 按照以上權利要求中的任一項的設備，還包括嘴唇活動檢測模塊 (15)。
18. 按照以上權利要求中的任一項的設備，還包括音頻語音活動模塊 (13)。
19. 按照以上權利要求中的任一項的設備，還包括感興趣區域選擇模塊(23)，其被配置來選擇第一感興趣區域以便進行時間幀上變換。
20. —種與權利要求13到19的任一項的設備相關聯的計算機可讀介質，其具有存儲在其上的指令序列，當該指令序列由設備的微處理器執行時致使該處理器-檢測(44)在視頻應用的圖像中的至少一個人；-估計(46)與該圖像中至少一個被檢測到的人相關聯的運動；-把該圖像分割(50)成至少一個感興趣區域和至少一個不感興趣區域，其中該至少一個感興趣區域包括該圖像中該至少一個被檢測到的人，以及-通過在該至少一個感興趣區域中使用比在該至少一個不感興趣區域中所應用的更高的幀速率，而對包括該圖像的視頻信號施加時間幀處理。
全文摘要
本發明提供了一種用於對視頻應用中的數字圖像進行視覺增強的改進方法和設備。具體地，本發明牽涉到用於面部或人的尋找的多模式情景分析，後隨有可視屏幕上的、對一個或多個參加者的視覺強調，或者是對一組參加者中正在講話的人進行視覺強調，以在電視會議呼叫期間達到改進的感知質量和情境意識。所述分析是藉助於分割模塊(22)來執行的，該分割模塊(22)允許定義至少一個感興趣區域(ROI)和一個不感興趣區域(RONI)。
文檔編號H04N7/26GK101223786SQ200680025487
公開日2008年7月16日申請日期2006年7月7日優先權日2005年7月13日
發明者H·貝爾特申請人:皇家飛利浦電子股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

帶有視頻時間上變換的處理方法和設備的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法