編碼區段視頻圖像的方法
2023-04-24 11:39:06 1
專利名稱:編碼區段視頻圖像的方法
技術領域:
本發明涉及視頻會議系統,並且特別涉及視頻壓縮和畫面布局的用戶控制。
背景技術:
在多種應用中都需要運動畫面的實時傳輸,如視頻會議、網絡聚會、TV廣播和可視電話。
傳統的視頻會議端點(end-point)包括轉動連接在攝像機底座上的攝像機鏡頭系統,用於拍攝所關注的場景,如會議桌的周圍以及會議參與者本身。攝像機鏡頭系統通常按這樣的方式連接到攝像機底座使得攝像機鏡頭系統可響應於一個或多個控制信號來移動。通過移動攝像機鏡頭系統,呈現給遠程的會議參與者的場景視圖根據該控制信號來改變。
另外,攝像機鏡頭系統可以側轉(pan)、俯仰(tilt)以及和變焦拉近(zoom in)和變焦推遠(zoom out)。側轉是指攝像機沿某個軸線水平移動,或從左向右,或從右向左(即沿X軸移動)。俯仰是指攝像機沿某個軸線垂直移動,或向上或向下(即沿Y軸移動)。變焦是通過改變焦距來控制視頻圖像的視野(即Z軸)。
鏡頭馬達連接至這種鏡頭機構,用於通過變焦拉近和變焦推遠來機械地改變視野。鏡頭馬達在鏡頭控制器的控制之下執行變焦功能。鏡頭馬達同攝像機所關聯的其他馬達(即俯仰馬達和側轉馬達驅動)是電子機械裝置,使用電能來機械操作例如提供給遠程參會者觀看的圖像。俯仰馬達和驅動包含在鏡頭系統中,並提供機械的手段用於垂直移動給遠程參會者觀看的圖像。
由攝像機拍攝的視頻圖像被顯示在顯示屏上,顯示屏操作在會議的近端和/或遠端側的顯示監視器上。顯示監視器可以是電視機、計算機、單獨的顯示器(如液晶顯示器「LCD」)等,並且可以被配置成接收用戶的輸入,以操縱在顯示器上顯示的圖像。
在用於傳統視頻會議應用的傳統攝像機中存在許多固有缺點。用於側轉、俯仰和變焦的電子機械裝置使得攝像機的製造成本大大增加。另外,這些裝置還降低了攝像機的整體可靠性。由於每個元件各有其故障率,攝像機的整體可靠性受到每個增加的電子機械元件影響。這主要是因為較之非移動的等價電子裝置,機械裝置更容易發生運動引起的故障。
還有,在與預定變焦相關的預置視圖之間的切換和用於拍攝和顯示圖像的尺寸設定,都需要一定的時間段來進行調整。這主要是因為要適應預置視圖之間的切換而需要的與機械裝置調整相關的滯後時間。例如,對於數據會議系統的啟動可能設置最大變焦推遠。當按動下一個預置(preset)按鈕時,可包括在「常規變焦」功能的「右側轉」。在傳統的攝像機中,和水平改變攝像機裝置與變焦鏡頭位置有關的機械裝置要花費一定時間來調整到新的預置等級,因此會使遠程參會者感到不便。
用於視頻會議應用的傳統攝像機的另一個缺點是這種攝像機主要被設計成對遠程參會者提供一個視圖。例如,如果在遠程參會者的場點要求帶有兩個視圖的顯示,如一個概觀畫面和一個變焦的畫面,就需要兩個獨立操作的攝像機。
面對面聚會的參會者通常會改變視野。典型情況下通過聚焦到講話者,一個聽眾可能試圖看到全部/若干參會者的全面情況。目前的視頻會議設備通常提供來自遠程場點的一幅圖像。該圖像常常是攝像機輸入的縮小版本。這當然有缺點,就是不可能進行快速改變以及視野之間的切換。
美國專利申請10/358,758公開了一種方法和裝置,通過響應來自遠端和近端的控制信號來減少/增加所拍攝和傳輸的像素數量,從而在攝像機鏡頭的可視角度內進行數字變焦、側轉和俯仰。按這種方式,用戶感覺在不需要任何機械改變的情況下來控制攝像機。但是視角範圍內的畫面區段的解析度仍然受限於攝像機的機械變焦,並且除了從攝像機的傳感器拍攝更多或更少可用像素之外沒有縮放。事實上,該申請僅公開了現有技術的視頻會議應用的數字變焦。
發明內容
特別,本發明公開了一種方法,利用可控制的變焦、側轉和俯仰,提供由一般視頻視圖內的某個邊界所限定的區段(sectional)視頻視圖,該一般視頻視圖是由端點的第一攝像機拍攝的,該方法包括連續拍攝正由編碼過程處理的該一般視圖的視頻圖像,建立表示該一般視圖的第一編碼視頻信號,至少產生第一當前視頻圖像的預測視頻圖像,以及從該第一當前視頻圖像減去該預測,其中所述編碼過程進一步包括步驟接收定義所述一般視頻圖像內所述邊界的控制信號,提取在所述第一當前視頻圖像或由第二攝像機拍攝的第二當前視頻圖像中位於所述邊界內的第一組像素值,通過從所述第一組像素值減去第二組像素值建立所述區段視頻圖像的剩餘,以及通過根據所述編碼過程進一步壓縮所述剩餘建立表示所述區段視頻圖像的第二編碼視頻信號。
為了使本發明更容易被理解,將參考附圖來進行討論,其中圖1示出了帶有通過矩形標出的所關注子區段的一般視圖;圖2示出了視頻會議端點,用於在不同顯示器中顯示一般視圖和所關注的子區段;
圖3是本發明的優選實施例的第一方面的圖示;圖4是本發明的優選實施例的第二方面的圖示;以及圖5是採用本發明的數字編解碼器的示例體系結構的原理圖示。
具體實施例方式
下面將通過描述優選實施例並通過參考附圖來討論本發明。但是,本領域的技術人員能夠理解,在本發明權利要求書所定義的本發明的範圍內,還可以有其他的應用和改型。在整個說明中,只討論一個選定視圖。本發明也同樣可用於多個選擇的視圖。
呈現運動畫面需要大量的信息,如通常通過用8個比特(1位元組)表示畫面中的每個像素來描述數字視頻。這樣的非壓縮視頻數據產生巨大的比特量,並且由於傳統通信網絡和傳輸線路的受限帶寬不能進行實時的傳輸。
因此,要實現實時視頻傳輸,需要進行很大程度的數據壓縮。常見的視頻編碼方法在諸如MPEG2、MPEG4、ITU-T/H.261至H.264的標準中描述。視頻數據在傳輸之前要經過四個主要的處理過程,即預測、變換、量化和熵編碼。
預測處理可顯著降低待傳輸視頻序列中每個畫面所需要的比特量。它利用該序列的一部分與該序列的其他部分的相似性。由於預測值對編碼器和解碼器都是已知的,因此只需要傳輸差異。表示該差異通常只需要少得多的容量。這種預測主要基於以前重新構造畫面的畫面內容,其中所述內容的位置由運動向量(motion vector)來定義。
本發明使用這種編碼技術的特性來提供在近端的遠端側的兩個畫面顯示或多個畫面顯示,而不需要在遠端側有多於一個的攝像機。為了敘述的簡明,這裡所述的實施例採用兩個畫面顯示,儘管本發明也可應用於多個畫面顯示。這種兩個畫面顯示可通過兩個監視器或經過分區的屏幕呈現在近端側。本發明用於改進觀看者選擇的靈活性,例如他想要仔細觀看的攝像機輸入中的那一部分。
根據本發明的優選實施例,一個圖像示出了在遠端側的場景的概觀圖像(主視圖),如會議室,而第二個圖像示出了該概觀圖像的子區段(所選擇的視圖)。圖1示出了攝像機拍攝的遠端側場景的區段。在該主視圖內,用矩形標出了所選擇的視圖。圖2示出了近端側的具有兩個監視器的端點,其中一個顯示主視圖,並且第二個顯示圖1中由矩形標出的所選擇視圖。
根據本發明的優選實施例,所選擇的視圖可根據主視圖的預測來編碼。如上所述,視頻編碼的一個步驟是根據以前的畫面來預測當前的視頻畫面,如ITU-T推薦的H.264中所描述的。傳統上,從當前畫面的所有實際像素值中減去畫面中所有像素的預測值。本發明的優選實施例提供來自主畫面的所要求子區段的預測數據的單獨提取,並且從相應的原始數據中減去它。這將建立所關注子區段的剩餘(residual)數據表示,而不需要所選擇視圖的單獨預測處理過程。在圖3中示出了該原理。
對於要按大尺寸在近端呈現的所選擇視圖,應該對所述剩餘數據添加某些數據或處理以改進可視性,或者優選執行主畫面中相應區域中的預測數據的縮放。
作為本發明優選實施例的第一方面的例子,如果主畫面具有CIF格式,這是標準的352×288像素的視頻格式,所選擇的視圖可按QCIF(176×144)提取。為了補償降低的解析度,可以執行至少兩個用於提供附加數據的可能步驟。一個步驟是相對於主畫面的幀頻(frame rate)增加所關注子區段的幀頻。如果主畫面的幀頻是15fps,所選擇視圖的幀頻可以增加至30fps。由於該子區段通常是主畫面中的某種特寫,它通常包含更多的運動,因此需要更平滑的呈現。另一個步驟是改變編碼處理中的量化率。如上所述,視頻數據在轉換成剩餘數據之後要進行量化。這種變換的目的是減少待傳輸的非零值的數量,而不會損失很多信息,並且量化剩餘值的目的是為了減少用於表示每個值的比特數。但是,在量化處理中,損失了某些信息,並且量化區間越大損失也越大。這在接收器上表現為量化噪聲。對於本發明中的所選擇視圖的「放大」畫面,量化噪聲會造成更大的幹擾。為了對此進行補償,子區段經過變換的剩餘數據可利用更高的解析度來量化,即較之量化主畫面所用的量化區間使用更小的量化區間。這將需要對每個值增加更多的比特數,但另一方面,子區段可按低解析度的格式如QCIF格式來編碼。
在本發明優選實施例的第二方面,所選擇的視圖較之主畫面具有更高的解析度。作為例子,可以按較之編碼器所使用解析度更高的解析度的格式來呈現由攝像機記錄的視圖。由攝像機拍攝的畫面可以按VGA格式(640×480)來提供,並且在編碼前縮小成CIF,如通過分別把VGA格式的一組像素值平均至用CIF格式表示一個像素的值。圖4示出了通過本發明如何使用這種處理。在左側是由攝像機拍攝的主視圖的VGA格式畫面的草圖。圍繞所選擇的視圖,提取對應於CIF格式的像素的矩形區域。提取CIF格式的主視圖預測數據中的相應矩形區域。然後縮放所提取的區域以匹配所提取VGA畫面的CIF格式,從該VGA畫面減去它。縮放機制可以是本領域技術人員所知道的任何技術,包括某種插值。所產生的剩餘數據被進一步編碼、傳輸並最終由接收器根據所使用的標準來解碼。
在本發明的第三方面,根據所選擇視圖的前一圖像來產生預測數據而不是從主視圖的預測中提取該數據。可通過傳統的預測技術來完成這種預測,如運動向量,但在所選擇的視圖上單獨執行預測。如果需要,對該預測數據進行縮放,然後從主視圖中相應的原始像素數據中將其減去,從而產生剩餘數據。這些方法的組合會給出更好的能力來處理不同的情形,如啟動,以及人員從視圖中移進和移出。
本發明的另外實施例包括第二攝像機,用於拍攝與第一攝像機所拍攝主視圖相同的視圖或大致相同的視圖。然後從由所述第二攝像機拍攝的視圖中提取所選擇視圖的原始數據,同時從由所述第一攝像機拍攝的主視圖中的所選擇視圖提取相應的預測數據。然後,從所述第二攝像機拍攝的視圖中所提取的原始數據減去從所述第一攝像機拍攝的主視圖的預測中所提取的預測數據,由此產生所選擇視圖的剩餘數據。這同樣也建立所關注子區段的剩餘數據表示,而不需要單獨的用於所選擇視圖的預測處理。
可以按照在近端或遠端側通過機械控制攝像機來提供變焦、俯仰和側轉的同樣方式來完成所選擇視圖的選擇處理。所述變焦、俯仰和側轉位置可通過遙控器或通過安裝在端點的攝像機跟蹤機構來控制。對本發明的情況,所述選擇不影響由攝像機拍攝的視圖,而影響主視圖內限定所選擇視圖的邊界的位置。例如,當用戶在其遙控器上按動變焦按鈕,主視圖內表示從該主畫面提取的像素子區段邊界的垂直和水平像素地址要相應地改變。本發明的另外的求精是當所選擇視圖朝主視圖邊界移動時,要通知攝像機做實際的側轉和變焦,以更好地展示主視圖中所選擇視圖的周圍環境,並給予用戶進一步移動的可能性。然後需要根據實際的攝像機移動重新計算所選擇視圖的位置數據。
圖5是本發明示例性實施例的體系結構的原理圖示。這裡,從光學輸入端(401)提供主視圖的原始像素數據。把該當前視頻畫面的像素數據存儲在第一存儲器電路(403)。用於該當前畫面的預測數據存儲在第二存儲器電路(404),並且由編碼處理器(406)根據當前和前一視頻畫面的像素數據並行地提供。如圖中所示,存儲器電路的數據是可尋址的,允許控制器(402)控制哪個像素數據被讀至編碼處理器(406)。然後控制器(402)可根據例如來自遙控器的外部控制信號,只從相應的存儲器電路提取所選擇視圖的當前像素數據和相應的預測數據。配置該編碼處理器以提供原始像素數據與相應預測數據的減法,並且分別提供用於本發明兩個方面的所需要數據的添加和縮放。優選地,編碼處理器還根據所使用的標準執行所有其他所需要的編碼步驟,然後按編碼的格式輸出主畫面的所選擇子區段。
會議呼叫的端點將交換視頻流和控制信號。控制信號可以在帶內(in-band)傳送,從而視頻流可包含命令、信息和用於可用視圖的視頻流。命令也可以在帶外(out of band)傳送,視頻數據包含在一個視頻流或覆蓋一個或多個視圖的幾個視頻流中。
權利要求
1.一種利用可控制變焦、側轉和俯仰來提供區段視頻視圖的方法,該區段視頻視圖由一般視頻視圖內的某個邊界限定,該一般視頻視圖是由端點的第一攝像機拍攝的,該方法包括連續拍攝正由編碼過程處理的該一般視圖的視頻圖像,建立表示該一般視圖的第一編碼視頻信號,至少產生第一當前視頻圖像的預測視頻圖像,以及從該第一當前視頻圖像減去該預測視頻圖像,其特徵在於所述編碼過程進一步包括步驟接收用於定義所述一般視頻圖像內所述邊界的控制信號,提取在所述第一當前視頻圖像或由第二攝像機拍攝的第二當前視頻圖像中位於所述邊界內的第一組像素值,通過從所述第一組像素值減去第二組像素值來建立所述區段視頻圖像的剩餘,以及通過根據所述編碼過程進一步壓縮所述剩餘來建立表示所述區段視頻圖像的第二編碼視頻信號。
2.如權利要求1所述的方法,其特徵在於所述第二組像素值是從位於所述邊界內的所述預測視頻圖像中提取的像素值。
3.如權利要求1所述的方法,其特徵在於進一步包括步驟向接收端點傳送該第一和第二編碼視頻信號,利用對應於該編碼過程的解碼過程來解碼該第一和第二編碼視頻信號,產生該一般視頻視圖和該區段視頻視圖。
4.如權利要求3所述的方法,其特徵在於進一步包括步驟在所述接收端點顯示該一般視頻視圖和該區段視頻視圖。
5.如前述權利要求中任何一項所述的方法,其特徵在於所述編碼過程還包括下述步驟的至少一個縮放所述第一組像素值以匹配所述第二組像素值,縮放所述第二組像素值以匹配所述第一組像素值。
6.如前述權利要求中任何一項所述的方法,其特徵在於所述編碼過程還包括下述步驟的至少一個相對於與所述第一編碼視頻信號相關聯的第一幀頻來調整與所述第二編碼視頻信號相關聯的第二幀頻,相對於與所述第一編碼視頻信號相關聯的第一數量的量化區間來調整與所述第二視頻編碼信號相關聯的第二數量的量化區間。
7.如前述權利要求中任何一項所述的方法,其特徵在於所述控制信號從連接至發送端點的第一選擇裝置發出。
8.如權利要求1~6中任何一項所述的方法,其特徵在於所述控制信號從連接至所述發送端點的第二選擇裝置發出。
9.如權利要求1~6中任何一項所述的方法,其特徵在於所述控制信號由發送端點中的攝像機跟蹤機構來提供。
10.如權利要求7或8所述的方法,其特徵在於所述選擇裝置是遙控器。
全文摘要
本發明使用視頻壓縮技術,利用單個的非機械式攝像機提供多個畫面顯示和畫面布局的用戶控制。根據本發明的優選實施例,根據主畫面的預測來編碼由攝像機拍攝的一般視圖內的所關注子區段。在該實施例的一個方面,在編碼過程中,執行該子區段中的預測像素值的縮放,以匹配相應的擴大解析度的原始像素數據,然後從該原始數據減去該預測以提供剩餘。在第二方面,相對於編碼該一般視圖,在編碼子區段時增加幀頻和量化區間數。
文檔編號H04N7/15GK101027905SQ200580032662
公開日2007年8月29日 申請日期2005年9月26日 優先權日2004年9月27日
發明者託姆爾瓦爾·約翰森 申請人:坦德伯格電信公司