用於生成場景的兩層、3d表示的系統和過程的製作方法

2023-06-20 08:33:21 5

專利名稱：用於生成場景的兩層、3d表示的系統和過程的製作方法
技術領域：
本發明涉及數字或數位化圖像的分層表示，尤其涉及用於生成場景的兩層、3D表示的系統和過程。
背景技術：
近幾年來，電視商業廣告和電影長片的觀眾已經看到用於創建停頓時間和改變照像機視點的幻覺的「凍結幀」效果。最早的商業廣告通過使用基於影片的系統來產生，該系統在沿著軌道排列的不同靜態照相機之間快速地跳躍以給出穿越凍結時間片移動的幻覺。
當它首次出現時，其效果是新鮮的，且看上去是很壯觀的，並且很快在很多產品中被模擬，其中最有名的看來是在名為「The Matrix」的電影中看到的「子彈時間」效果。不幸的是，這種效果是一次性的、預先-計劃的事件。視點軌道是提早安排的，而且花費了很多工時來產生所要求的內插場景。較新的系統是基於攝影機陣列，但是仍然依賴於具有很多攝像機以避免軟體場景內插。
這樣，現有系統不允許用戶在觀看基於動態圖像的場景時交互地改變到任何所期望的視點。在過去，在基於圖像的重現(IBR)上的大部分工作涉及重現靜態場景，採用了兩種著名的技術光場重現(Light Field Rendering)[11]和光照圖(Lumigraph)[7]。它們在高質量再現方面的成功起源於大量採樣圖像的使用，並且激發了本領域一大群工作。這個奠基工作的一種激動人心的潛在擴展涉及在觀看視頻時交互地控制視點。用戶交互地控制視頻視點的能力明顯地增強了視覺感受，允許諸如諸如新視點即時重播、改變戲曲中的視點、以及隨意地創建「凍結幀」視覺效果等多種應用。
然而，由於同步如此多的攝像機以及採集和存儲圖像的困難(和成本)，將IBR擴展到動態場景並不是無足輕重的。不僅僅在從多個視點捕捉、表示和再現動態場景中存在重大的障礙要克服，而且為了能夠交互地做此事提供一種相當進一步的複雜性。至今，實現這個目標的努力還不是非常令人滿意。
關於交互式視點視頻系統的基於視頻的再現方面，較一種早期的捕捉和再現動態場景的努力之一是Kanade等人的Virtualized Reality(可視化逼真)系統[10]，它包括圍繞一個5米網絡圓頂排列的51個攝像機。每個攝像機的解析度是512×512，且捕捉速率30fps。它們採用基於場景流公式[17]的三維像素著色[14]形式，在每個時間幀提取一個球狀表面表示。不幸的是，因為低解析度、匹配誤差和對象邊界的不正確處理，使結果看來並不切合實際。
Carranza等人[3]使用了圍繞一個房間分布的7個同步攝像機，它們面朝該房間的中心以捕捉3D人類運動。每個攝像機為CIF解析度(320×240)，且以15fps進行捕捉。它們使用一個3D人類模型作為在每個時間幀計算3D形狀的先驗。
Yang等人[18]設計了一個8×8的攝像機(每個320×240)網格，用於捕捉動態場景。它們不再存儲和再現數據，而是僅僅發送組成所期望的虛擬視圖所必需的光線。在它們的系統中，攝像機沒有被同步鎖相；相反，它們依賴於跨越6個PC的內部時鐘。攝像機捕捉速率是15fps，並且交互觀看速率是18fps。
上述系統中常見的是需要大量的圖像用於逼真再現，這部分地是因為場景幾何結構是未知的或僅僅大約知道。如果幾何結構被準確地知道，就可能充分地降低對圖像的要求[7]。一種提取場景幾何結構的實用方法是通過立體系統，並且為靜態場景提出了許多立體算法[13]。然而，對於採用帶動態場景的立體技術已經作出了少量的努力。作為Virtualized Reality工作[10]的一部分，Vedula等人[17]提出了一種使用2D光流和3D場景形狀來提取3D運動(即，場景形狀之間跨越時間的對應性)的算法。在他們的方法中，他們使用一種類似於三維像素著色[14]的投票方案，其中使用的度量是假設的三維像素位置適合該3D流等式的良好程度。
Zhang和kambhamettu[19]還集成了3D場景流和其框架中的結構。其3D仿射運動模型被局部地使用，具有空間正則化，並且採用色彩分段以保持不連續性。Tao等人[16]假設場景是分段平面的。他們還假設每個平面面片的恆定速率，以便約束動態深度映射估算。
在一個更加雄心勃勃的努力中，Carcerroni和Kutulakos[2]恢復具有已知光照位置的非剛性運動下的分段連續的幾何結構和反射率(Phong模型)。他們使該空間離散成表面元素(「面元(surfels)」)，並且對位置、方向和反射率參數執行搜索，以最大化地與觀察到的圖像的一致。
在一種對傳統的局部窗口匹配的有趣的改變中，Zhang等人[20]使用跨越空間和時間的匹配窗口。這種方法的優點是隨時間變化對亮度恆定性具有較少的依賴性。
活動測距技術也被應用於移動場景。Hall-Holt和Rusinkiewicz[8]使用隨時間變化的投影的邊緣編碼的條紋圖案。市場上還有一種以色列3DVSystems公司製造的稱為ZCamTM的商業系統，它是一種結合廣播攝影機使用的範圍檢測攝影機附加裝置。但是，它是一種昂貴的系統，並且只提供單一視點深度，使它較不適用於多視點視頻。
然而，不管立體和基於圖像的再現方面的所有進步，要再現動態場景的高質量、高解析度視圖仍然是非常困難的。如同在Light Field Rendering(光場再現)論文[11]中所建議的一種方法是僅僅基於輸入和虛擬攝相機的相對位置而簡單地對光線進行重新採樣。然而，如同在光照圖(Lumigraph)[7]和後續工作中所演示的，對場景幾何結構使用3D頂替器(impostor)或代理能夠極大地改進內插視圖的質量。另一種方法是創建單個紋理映射的3D模型[10]，但是這通常產生使用多個參考視圖的較差結果。還有另一種方法採用了需要3D代理的幾何結構輔助的基於圖像的再現方法。一種可能性是使用單個球狀多面體模型，如同在Lumigraph和Unstructured Lumigraph(未結構化光照圖)論文[1]中所述的。另一種可能性是使用每像素深度，如同在分層深度圖像(Layered Depth Images)中[15]、在立面(Facade)中的偏移深度映射[5]、或者帶深度的子畫面[15]。一般而言，對每個參考視圖使用不同的局部幾何結構代理[12，6，9]將產生高質量的結果。
然而，即使是多深度映射圖仍然在生成新視圖時展現再現的人為因素，即由於前景到背景轉移的突然特性而引起的圖形失真(鋸齒狀)，以及由於混合像素而引起的汙染色彩，當在新背景或對象上合成時，它們變得可見。
這個問題在本發明中通過一種獨特的輸入圖像的兩層、3D表示來解決。注意，該兩層、3D表示不僅僅能夠用來解決以上關於交互式視點視頻系統中再現新視圖的圖形失真問題，而且也能夠同樣有利地用於其它環境中。通常，任何數字或數位化圖像能夠使用這種兩層、3D表示來表示。
注意，在前面的段落中，以及在本說明書的其餘部分中，本描述引用包含在一對方括號中的數字標誌符標識的各種獨立的出版物。例如，這樣的引用可以通過敘述「參考文獻[1]」或者更簡單地「[1]」來標識。多個參考文獻將通過包含一個以上標誌符的一對方括號來標識，例如[2，3]。在具體實施方式
章節結尾處能夠找到包含對應於每個標誌符的出版物的參考文獻清單。

發明內容
本發明針對一種用於生成數字或數位化圖像的兩層表示的系統和過程。一般而言，該兩層包括一主層，它具有展示背景色和與圖像中的深度不連續區域的對應位置像素相關聯的背景視差的像素，以及展示色彩和與在這些深度不連續區域中未發現圖像的對應位置像素相關聯的的視差相關聯的像素。另一層是邊界層，它由展示前景色、前景視差和與深度不連續區域的對應位置像素相關聯的阿爾法值的像素構成。該深度不連續區域對應於圍繞在圖像中發現的深度不連續性的指定大小的區域。
該兩層表示是通過首先使用圖像的視差映射來標識所考慮的圖像中的深度不連續性的位置來生成的。深度不連續性出現在相鄰像素之間的視差值的差大於指定等級數的位置上。然後，圍繞標識在圍繞深度不連續性的指定大小的區域內發現的圖像的像素。下一步，使用一種修邊(matting)技術對深度不連續區域中的每個像素估算前景和背景色以及前景阿爾法值。另外，使用圖像的前景和背景部分中的鄰近視差的阿爾法加權平均，為深度不連續區域中的每個像素估算前景和背景視差值。然後，建立圖像的邊界層，它包括對應於深度不連續區域的像素的每一位置上一個像素。然後，向每一邊界層像素分配前景色、與深度不連續區域的對應像素相關聯的前景視差和阿爾法值。另外，建立圖像的主層。該主層包括對應於深度不連續區域的像素的每一位置上的一個像素，以及在不對應於深度不連續區域的像素的圖像的每一像素位置上的一個像素。與深度不連續區域的對應像素相關聯的背景色和背景視差值被分配給主層中對應位置像素的每一個，而與不在深度不連續區域的圖像像素相關聯的色彩和視差值被分配給主層中對應位置像素的每一個。注意，一旦對深度不連續區域的每一像素建立了前景色、前景視差和阿爾法值，這些區域的大小能夠使用傳統的擴張技術用一個指定的量來生長，以防止在從層中再現圖像期間出現破裂。
除了上文描述的益處之外，當結合附圖閱讀以下詳細描述時，本發明的其它優點將變得顯而易見。

當參考以下描述、所附權利要求書以及附圖時，可以更好地理解本發明的具體特徵、方面和優點，附圖中圖1是描述構成用於實現本發明的示例性系統的通用計算設備的圖示。
圖2是對照像素位置繪製像素行的視差值的曲線圖，其中視差值的突變臺階表示了一個深度不連續性。
圖3A和3B是圖示了用於根據本發明生成數字或數位化圖像的兩層表示的過程的流程圖。
圖4(a)-(e)是顯示在一組劈裂舞演員的圖像上應用圖3A-B的兩層圖像表示生成過程的結果的圖像。圖4(a)顯示主層色彩估算，圖4(b)表示主層視差估算。圖4(c)顯示邊界層色彩估算，圖4(d)表示邊界層視差估算。圖4(e)表示邊界層阿爾法值估算。注意，圖4(c)-(e)的圖像是求反顯示的，從而透明/空像素看上去是白色。
具體實施例方式
在以下本發明較佳實施例的描述中，參照了附圖，附託形成本發明的一部分，並且在其中作為說明示出了可在其中實施本發明的具體實施例。要理解，可使用其它實施例，並且可以作出結構變化，而不脫離本發明的範圍。
1.0計算環境在提供本發明的較佳實施例的描述之前，將描述其中能實現本發明的適用的計算環境的簡要概括描述。圖1示出了適用的計算系統環境100的例子。計算系統環境100僅僅是適用的計算環境的一個例子，並且不打算暗示對本發明的使用範圍或功能的任何限制。也不應將計算環境100解釋成相對於示例性操作環境100中示出的組件的任一個或其組合具有任何依賴或要求。
本發明可以用各種其它通用或專用計算系統環境或配置來運行。適用於本發明使用的公知的計算系統、環境和/或配置的例子包括但不限於個人計算機、伺服器計算機、手持或膝上型設備、多處理器系統、基於微處理器的系統、機頂盒、可編程消費電子設備、網絡PC、小型機、大型機、包括任何以上系統或設備的任一個的分布式計算環境等等。
本發明可以在諸如由計算機執行的程序模塊等計算機可執行指令的通用上下文中描述。一般而言，程序模塊包括完成特定任務或實現特定抽象數據類型的例程、程序、對象、組件、數據結構等等。本發明還可以在分布式計算環境中實踐，其中任務由通過通信網絡連結的遠程處理設備來完成。在分布式計算環境中，程序模塊可以位於本地或遠程計算機存儲介質中，包括存儲器存儲設備。
參照圖1，用於實現本發明的示例性系統包括計算機110形式的通用計算設備。計算機110的組件可包括但不限於處理單元120、系統存儲器130和將包括系統存儲器的各種系統組件耦合到處理單元120的系統總線121。系統總線121可以是若干種總線結構的任何一種，包括存儲器總線或存儲器控制器、外圍總線、和使用多種總線體系結構的任何一種的局部總線。作為例子，而非限制，這種體系結構包括工業標準結構(ISA)總線、微通道結構(MCA)、增強型ISA(EISA)總線、視頻電子技術標準協會(VESA)局部總線、以及外圍部件互連(PCI)總線(也稱為Mezzanine總線)。
計算機110通常包括各種計算機可讀介質。計算機可讀介質可以是可以由計算機110訪問的任何可用介質，包括易失性和非易失性介質、可移動和不可移動介質。作為例子，但非限制，計算機可讀介質可包含計算機儲存介質或通信介質。計算機儲存介質包括以任何方法和技術實現來存儲諸如計算機可讀指令、數據結構、程序模塊或其它數據等信息的易失性和非易失性、可移動和不可移動介質。計算機儲存介質包括，但不限於RAM、ROM、EEPROM、快閃記憶體或其它存儲器技術、CD-ROM、數字多功能盤(DVD)或其它光碟存儲、磁帶盒、磁帶、磁碟儲存或其它磁儲存設備，或者能夠用來存儲所要求的信息並能夠由計算機110訪問的任何其它介質。通信介質通常在載波或其它傳輸機制等已調製數據信號中具體化計算機可讀指令、數據結構、程序模塊或其它數據，並且包括任何信息遞送介質。術語「已調製數據信號」指其一個或多個特徵以在信號中編碼信息的方式而設置或改變的信號。作為例子，但非限制，通信介質包括有限介質，如有限網絡或直接線路連接，以及無線介質，如聲學、RF、紅外和其它無線介質。以上各種組合也應該被包括在計算機可讀介質的範圍之內。
系統存儲器130包括易失性和/或非易失性存儲器形式的計算機儲存介質，例如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132。基本輸入/輸出系統133(BIOS)包含如在啟動時幫助在計算機110中的元件之間傳輸信息的基本例程，通常儲存在ROM 131中。RAM 132通常包含處理單元120可直接訪問和/或當前正在操作的數據和/或程序模塊。作為例子，但非限制，圖1示出作業系統134、應用程式135、其它程序模塊136和程序數據137。
計算機110還可包括其它可移動/不可移動、易失性/非易失性計算機儲存介質。僅僅作為例子，圖1示出讀取或寫入不可移動、非易失性磁介質的硬碟驅動器141、讀取或寫入可移動、非易失性磁碟152的磁碟驅動器151、以及讀取或寫入可移動、非易失性光碟156，例如CD-ROM或其它光介質的光碟驅動器155。可用於示例性操作環境中的其它可移動/不可移動、易失性/非易失性計算機儲存介質包括但不限於磁帶盒、快閃記憶體卡、數字多功能盤、數字錄像帶、固態RAM、固態ROM等等。硬碟驅動器141通常通過不可移動存儲器接口(如接口140)連接到系統總線121，而磁碟驅動器151和光碟驅動器155通常由可移動存儲器接口(例如接口150)連接到系統總線121。
以上討論並且在圖1中示出的驅動器及其相關聯的計算機儲存介質為計算機110提供了計算機可讀指令、數據結構、程序模塊和其它數據的存儲。例如，在圖1中，硬碟驅動器141被示出為儲存作業系統144、應用程式145、其它程序模塊146和程序數據147。注意，這些組件可以與作業系統134、應用程式135、其它程序模塊136和程序數據137相同或不同。作業系統144、應用程式145、其它程序模塊146和程序數據147在此被給以不同的標號以表示至少它們是不同的副本。用戶可以通過輸入設備，如鍵盤162和定點設備161(通常指滑鼠、跟蹤球或觸摸墊)輸入命令和信息到計算機110。其它輸入設備(未示出)可包括話筒、操縱杆、遊戲墊、圓盤式衛星天線、掃描儀等等。這些和其它輸入設備經常通過耦合到系統總線121的用戶輸入接口160連接到處理單元120，但是也可以由其它接口和總線結構，如並行埠、遊戲埠或通用串行總線(USB)連接。監視器191或其它類型顯示設備也通過接口，如視頻接口190連接到系統總線121。除了監視器以外，計算機還可包括其它外圍輸入設備，如揚聲器197和印表機196，它們可以通過輸出外圍接口195連接。能夠捕捉圖像序列193的攝像機192(如數字/電子靜態或視頻攝像機，或者膠捲/照片掃描儀)也能夠作為個人計算機110的輸入設備被包括在內。此外，儘管僅僅描述了一臺攝像機，然而也可包括多臺攝像機，作為個人計算機110的輸入設備。來自一臺或多臺攝像機的圖像193通過適當的攝像機接口194輸入到計算機110。該接口194連接到系統總線121，因此允許圖像被路由到並儲存在RAM 132中，或者與計算機110相關聯的其它數據儲存設備之一中。然而，要注意，圖像數據也能夠從上述任一計算機可讀介質輸入到計算機110，而不要求使用攝像機192。
計算機110可以使用到一個或多個遠程計算機(如遠程計算機180)的邏輯連接在網絡環境中操作。遠程計算機180可以是個人計算機、伺服器、路由器、網絡PC、對等設備或其它普通網絡結點，並且通常包括許多或所有關於計算機110所描述的元件，儘管在圖1中僅僅示出了存儲器儲存設備181。在圖1中描述的邏輯連接包括區域網(LAN)171和廣域網(WAN)173，但是還可以包括其它網絡。這樣的網絡環境普遍存在於辦公室、企業範圍計算機網絡、內聯網和網際網路中。
當在LAN網絡環境中使用時，計算機110通過網絡接口或適配器170連接到LAN171。當在WAN網絡環境中使用時，計算機110通常包括數據機172或通過WAN173(例如網際網路)建立通信的其它裝置。數據機172可以是內置或者外置的，它可以通過用戶輸入接口160或者其它適當的機制連接到系統總線121。在網絡環境中，相對於計算機110所描述的程序模塊或其部分可以存儲在遠程存儲器儲存設備中。作為例子，但非限制，圖1示出遠程應用程式185駐留在存儲器設備181上。將會明白，示出的網絡連接是示例性的，並且可以使用在計算機之間建立通信鏈路的其它手段。
2.0兩層圖像表示現在已經討論了示例性操作環境，本描述章節的其餘部分將專門致力於對實施本發明的程序模塊的描述。一般而言，本發明涉及生成圖像的唯一兩層、3D表示，它便於其壓縮、傳輸和儲存。該表示在圖像是動態場景的視頻幀並且幀數據正被編碼以進行實時再現時特別有用。它還包括像素視差或者深度信息，由此提供了該表示的3D方面。圖像或幀是數字圖像，它或者由數字攝像機捕捉，或者如果不是，則在進一步處理之前被數位化。還要注意，數字圖像數據在它是通過使用攝像機捕捉場景的實際圖像而獲得的這一點上能夠是基於圖像的，或者是合成的圖像數據。
兩層表示是通過首先定位所考慮的圖像或幀的視差映射圖中的深度不連續來生成的。這些深度不連續被定義為大於指定視差等級數(例如，在本發明的測試實施例中為4級)的跳躍。所考慮的圖像的視差映射圖能夠以任何傳統的方式來獲得。然而，本發明的測試實施例採用一種新方法，它是本申請的發明人的題目為「ColorSegmentation-Based Stereo Reconstruction System And Process(基於色彩分段的立體重建系統和過程)」的共同提交的待決申請的主題，並且被轉讓給同一受讓人。該共同提交的待決申請提交於＿＿＿＿並被分配序列號＿＿＿＿。
下一步，在所考慮的圖像中發現的深度不連續性的附近標識小區域。這些小區域被定義為包括該深度不連續性的位置的3個像素內的所有像素。這在圖2中示出，其中像素行的視差值對照像素位置來繪製。視差值中的突變臺階表示一個深度不連續性，假設它大於指定的視差等級數。上述小區域被稱作為深度不連續區域，它是圍繞該不連續性建立的。在圖2的圖中表示的概況中，該區域具有跨越圖像中深度不一致性位置的寬度。如果該深度不連續性跟隨在圖像中一個對象的輪廓之後(往往是典型的情況)，則該深度不連續區域將合併以形成該輪廓之後的條紋。
沿著對象邊界的某些像素將接收來自前景和背景區域的影響。然而，如果在再現期間使用原始的混合像素色彩，則導致可見的人為因素。由此，重要的是分離這兩種影響。因此，下一步建立深度不連續區域中的每個像素的前景和背景色，如同是像素的不透明性(以阿爾法值的形式)。這是使用一種修邊技術來實現的。通常，修邊技術涉及通過估算起源於每個像素的前景和背景元素的色彩和不透明性，來提取圖像的前景元素和背景元素。像素的不透明性由範圍在0到1之間的阿爾法值定義。事實上，該阿爾法值定義了像素色彩可歸因於前景元素的百分比。一種典型的修邊操作的最終結果是為每個所考慮的像素標識前景色、背景色和阿爾法值。雖然任何修邊過程能夠用於本發明，然而測試的實施例採用在參考文獻[4]中描述的貝葉斯圖像修邊技術。要注意，參考文獻[4]還包含許多其它現有修邊技術的描述。
如上所述，本發明的一種主要應用涉及從與兩個實際場景圖像相關聯的視點中間的視點再現場景的虛擬圖像。雖然這是如何實現的細節並不在本發明的範圍之內，然而要注意，該過程通常涉及知道與每個像素相關聯的深度。為此，根據本發明的圖像表示包括像素深度(或者視差值，它能容易地被轉換成深度值)。雖然這些值對於來自前述的視差映射圖的大多數像素是可用的，，然而要注意，存在與被發現為與深度不連續性相鄰的混合像素相關聯的兩種深度，即與前景元素相關聯的深度和與背景相關聯的深度。這樣，在下一步，對深度不連續區域中的每一個像素估算前景和背景的深度(或視差)值。通常，這是分別通過使用圖像的前景和背景部分中的附近深度的阿爾法加權平均值來實現的。更具體地，前景視差通過使用來自深度不連續區域的原始前景區域內的像素的視差值的窗口(例如7×7像素)內的阿爾法加權平均值來找到。在圖2中，原始前景區域指視差不連續性左方的像素。背景視差通過深度不連續區域的原始背景區域內的視差值的窗口內的加權平均值來找到。用於對背景視差求平均值的權重被設置為等於1減去阿爾法值。
一旦建立了深度不連續區域的像素色彩、視差和不透明性，就形成了該圖像表示的兩個層。更具體地，與在深度不連續區域中發現的每個相應像素相關聯的先前計算的前景色、前景視差和阿爾法值被分配給該圖像的邊界層的對應位置像素。類似地，與在深度不連續區域中的每個相應像素相關聯的先前計算的背景色和背景視差值，連同圖像中不在深度不連續區域中的所有像素的色彩和視差值一起(從圖像和其視差映射圖中取得)，被分配給該圖像的主層的對應位置像素。
因此，所得的兩層圖像表示包括一邊界層，它為該層中的每一個像素標識前景色、前景視差和阿爾法值。另外，表示包含一主層，它為該層中與深度不連續區域相關聯的像素標識背景色和背景深度，並且為該層的每個其它像素標識色彩和視差值。這樣，能夠看到，主層將包括關於圖像中每個像素的像素信息，然而該數據將在該場景的一個圖像與下一個圖像之間相當類似。如果圖像是視頻幀，並且空間上如果要傳輸或存儲同一場景的多個圖像，則兩種場合在時間上都是真實的。這就造成使用標準圖像壓縮方法能夠高度壓縮主層。另外，邊界層將包含相對較少的數據，通常僅僅該圖像中的全部數量的像素一個小的百分比將包含在該層中。這樣，即使當隨著時間變化拍攝時，該數據可能在動態場景的一個圖像與下一個圖像之間發生顯著的改變，然而並沒有如此多的數據需要傳輸或存儲。因此，即使沒有壓縮，該數據也能夠被容易地傳輸和存儲。使用恰當的壓縮方案，能夠進一步減少數據量和能夠傳輸它的速度。按這種方式，上述兩層圖像表示提供了數據傳輸和存儲的所要求的簡易化，並使得實時再現變得切實可行。
現在，將參考圖3A-B中所示的流程圖來略述上述兩層圖像表示生成過程。首先，輸入將被表示的數字或數位化的圖像及其視差映射圖(處理動作300)。然後使用視差映射圖在圖像中標識深度不連續性位置(處理動作302)。下一步，標識在圍繞該深度不連續性的指定大小區域中發現的像素，並且將其指定為是在該圖像的深度不連續區域中(處理動作304)。使用修邊技術，下一步建立深度不連續區域中的每個像素的前景和背景色，及其阿爾法值(處理動作306)。另外，在處理動作308，對深度不連續區域中的每一像素估算前景和背景視差值。然後建立邊界層，它具有對應於深度不連續區域像素的像素(處理動作310)。與深度不連續區域中發現的每個相應像素相關聯的前景色、前景視差以及阿爾法值被分配給邊界層的對應像素(處理動作312)。也建立主層，它具有對應於該圖像的所有像素的像素(處理動作314)。在此情況下，與深度不連續區域中的像素相關聯的背景色和背景視差被分配給主層的對應像素，並且與不在深度不連續區域中的圖像像素相關聯的色彩和視差被分配給該主層的對應像素(處理動作316)。
能夠被結合到用於根據本發明的生成兩層圖像表示的上述過程一種改進涉及到在形成該圖像表示的邊界層和主層之前，擴張深度不連續區域的前景襯邊(matte)。這具有防止在從層再現圖像期間出現由於處理中的不準確度而發生的破裂的優點。更具體地，一旦為深度不連續區域的每一像素建立了前景色、前景視差和阿爾法值，這些區域的大小被增長指定量(例如1個像素)。在擴張期間添加到邊界層的新像素被分配與主層中的對應像素相同的色彩和視差值，以及阿爾法值1。
圖4(a)-(e)示出了在一組霹靂舞演員的圖像上應用根據本發明的兩層圖像表示生成過程的結果。圖4(a)示出了主層色彩估算，圖4(b)示出了主層視差估算。類似地，圖4(c)示出了邊界層色彩估算，圖4(d)示出了邊界層視差估算。最後，圖4(e)示出了邊界層的阿爾法估算。注意，圖4(c)-(e)的圖像被求反顯示，從而透明/空像素看上去為白色。注意僅僅少量信息是如何需要被發送以解決軟對象邊緣的，以及邊界層的不透明性和兩層中的色彩是如何被乾淨地恢復的。
注意，貫穿前面的描述，使用了圖像像素的視差值。然而，在生成過程的任一點上，這些值可以使用標準方法被轉換成深度值。在此情況下，主層和邊界層將包括深度信息，而不是包含在其中的像素的視差值。
3.0參考文獻[1]Buehler，C.、Bosse，M.、McMillan，L.、Gortler，S.J.和Cohen，M.F.，2001，UnstructuredLumigraph Rendering，Proceeding of SIGGRAPH 2001(8月)，425-432。
Carceroni，R.L.和Kutulakos，K.N.，2001，Multi-view scene capture by surfel samplingFrom video streams to non-rigid 3D motion，shape and reflectance，Eigth InternationalConference on Computer Vision(ICCV 2001)，第II卷，60-67。
Carranza，J.、Theobalt，C.、Magnor，M.A.和Seidel，H.-P，2003，Free-viewpoint videoof human actors，ACM Transactions on Graphics 22，3(7月)，569-577。
Chuang，Y.-Y等人，2001，Bayesian Approach to digital matting，Conference onComputer Vision and Pattern Recognition(CVPR′2001)，第II卷，264-271。
Debevec，P.E、Taylor，C.J.和Malik，J.，1996，Modeling and rendering architecture fromphotographsA hybrid geometry-and image-based approach，ComputerGraphics(SIGGRAPH′96)(8月)，11-20。
Debevec，P.E.、Yu，Y.和Borshukov，G.D.，1998，Efficient view-dependentimage-based rendering with projective texture-mapping，Eurographics RenderingWorkshop 1998，105-116。
Gortler，S.J.、Grzeszczuk，R.、Szeliski，R.和Cohen，M.F.，1996，The Lumigraph.Computer Graphics(SIGGRAPH』96)Pro-ceedings，ACM SIGGRAPH，43-54。
Hall-Holt，O.、和Rusinkiewicz，S.，2001，Stripe boundary codes for real-timestructured-light range scanning of moving objects，Eighth International Conference onComputer Vision(ICCV 2001)，第II卷，359-366。
Heigl，B.等人，1999，Plenoptic modeling and rendering from image sequences takenby hand-held camera，DAGM』99，94-101。
Kanade，T.、Rander，P.W.、和Narayanan，P.J.，1997，Virtualized realityconstructingvirtual worlds from real scenes，IEEE Mul-tiMedia Magazine 1，1(1月-3月)，34-47。
Levoy，M.、和Hanrahan，P.，1996，Light field rendering，In Computer Graphics(SIGGRAPH』96)Proceedings，ACM SIG-GRAPH，31-42。
Pulli，K.等人，1997，View-based renderingVisualizing real objects from scannedrange and color data，In Proceedings of the 8th Eurographics Workshop on Rendering。
Scharstein，D.和Szeliski，R.，2002，A taxonomy and evaluation of dense two-framestereo correspondence algorithms，International Journal of Computer Vision 47，1(5月)，7-42。
Seitz，S.M.和Dyer，C.M.，1997，Photorealistic scene reconstruction by voxelcoloring，In Conference on Computer Vision and Pattern Recognition(CVPR』97)，1067-1073。
Shade，J.、Gortler，S.、He，L.-W.和Szeliski，R.，1998，Layered depth images，ComputerGraphics(SIGGRAPH』98)Proceedings，ACM SIGGRAPH，Orlando，231-242。
Tao，H.、Sawhney，H.和Kumar，R.，2001，A global matching framework for stereocomputation，In Eighth International Conference on Computer Vision(ICCV 2001)，第I卷，532-539。
Vedula，S.、Baker，S.、Seitz，S.和Kanade，T.，2000，Shape and motion carving in 6D，Conference on Computer Vision and Pattern Recognition(CVPR』2000)，第II卷，592-598。
Yang，J.C.、Everett，M.、Buehler，C.和McMillan，L.，2002，A real-time distributedlight field camera，Eurographics Workshop on Rendering，P.Debevec和S.Gibson編輯，77-85。
Zhang，Y.、和Kambhamettu，C.，2001，On 3D scene flow and structure estimation，Conference on Computer Vision and Pattern Recognition(CVPR』2001)，第II卷，778-785。
Zhang，L.、Curless，B.和Seitz，S.M.，2003，Spacetime stereoShape recovery fordynamic scenes，Conference on Computer Vision and Pattern Recognition，367-374。
Zhang，Z.，2000，A flexible new technique for camera calibration，IEEETransactions on Pattern Analysis and Machine Intelligence 22，11，1330-1334。
權利要求
1.一種用於從圖像和圖像的視差映射圖生成數字或數位化圖像的兩層表示的計算機實現的過程，包括使用計算機以執行以下處理動作使用所述圖像的視差映射圖來標識所述圖像中的深度不連續性的位置；標識在圍繞所述深度不連續性的指定大小區域中發現的圖像的像素，並且將這些像素指定為在所述圖像的深度不連續區域中；為所述深度不連續區域中的每一像素估算前景和背景色以及阿爾法值；為所述深度不連續區域中的每一像素估算前景和背景視差值；估算圖像的邊界層，它包含在對應於所述深度不連續區域的像素的每個相應位置上的像素，其中，每個邊界層像素被分配與所述深度不連續區域的對應像素相關聯的前景色、前景視差和阿爾法值；以及建立所述圖像的主層，包括，在對應於所述深度不連續區域的像素的每個相應位置上的像素，其中，每個所述像素被分配與所述深度不連續區域的對應像素相關聯的背景色和背景視差值，以及在不對應於所述深度不連續區域的像素的每個位置上的像素，其中，每個所述像素被分配與所述圖像的對應像素相關聯的色彩和視差值。
2.如權利要求1所述的過程，其特徵在於，標識所述圖像中的深度不連續性的位置的處理動作包括把表現大於指定視差等級數的相鄰像素之間的視差值之差的任何位置標識為深度不連續性的動作。
3.如權利要求2所述的過程，其特徵在於，所述指定視差等級數是4。
4.如權利要求1所述的過程，其特徵在於，圍繞所述深度不連續性的指定大小區域被定義為從一被標識的深度不連續性位置在每個方向上擴展3個像素的區域。
5.如權利要求1所述的過程，其特徵在於，為所述深度不連續區域中的每一像素估算前景色和背景色以及阿爾法值的處理動作包括使用一修邊技術來估算所述色彩和阿爾法值的動作。
6.如權利要求1所述的處理過程，其特徵在於，為所述深度不連續區域中的每一像素估算前景和背景視差值的處理動作包括使用所述圖像的前景和背景部分中附近視差的阿爾法加權平均值來估算所述前景和背景視差值的動作。
7.如權利要求6所述的處理過程，其特徵在於，使用所述圖像的前景和背景部分中附近視差的阿爾法加權平均值來估算所述前景和背景視差值的處理動作包括以下動作通過將所述圖像的前景部分中的指定大小窗口中相鄰於所考慮的像素的每個像素分別乘以其阿爾法值，並且對所得乘積求平均值，來為每一深度不連續區域中的每一像素計算前景視差值；以及通過將所述圖像的背景部分中的指定大小窗口中相鄰於所考慮的像素的每個像素分別乘以1減去其阿爾法值，並且對所得的乘積求平均值，來為每一深度不連續區域中的每一像素計算背景視差值。
8.如權利要求1所述的過程，其特徵在於，還包括將對應於所述邊界層像素的區域擴張一指定量，並為每一添加的像素分配與所述主層中的對應像素相同的色彩和視差值以及阿爾法值1的處理動作。
9.如權利要求8所述的處理過程，其特徵在於，所述指定的擴張量是一個像素。
10.一種用於從圖像和圖像的像素深度映射圖生成數字或數位化圖像的兩層表示的系統，包括一通用計算設備；以及一電腦程式，它包括可以由所述計算設備執行的程序模塊，其中，所述電腦程式的程序模塊指示所述計算設備，使用所述圖像的深度映射圖來標識所述圖像中的深度不連續性的位置；標識在圍繞所述深度不連續性的指定大小區域中發現的圖像的像素，並且將這些像素指定為在所述圖像的深度不連續區域中；為所述深度不連續區域中的每一像素估算前景和背景色以及阿爾法值；為所述深度不連續區域中的每一像素估算前景和背景深度值；生成所述圖像的主層，它包含展現與所述深度不連續區域的對應地位置像素相關聯的背景色和背景深度的像素，以及表現與不在所述深度不連續區域中發現的圖像的對應位置像素相關聯的色彩和深度的像素，以及生成所述圖像的邊界層，它包含表現與所述深度不連續區域的對應位置像素相關聯的前景色、前景深度和阿爾法值的像素。
11.如權利要求10所述的系統，其特徵在於，用於標識所述圖像中的深度不連續性的位置的程序模塊包括用於將表現大於一指定量的相鄰像素之間的深度值之差的任何位置標識為深度不連續性的子模塊。
12.一種具有計算機可執行指令的計算機可讀介質，所述指令用於從圖像和圖像像素視差映射圖生成數字或數位化圖像的兩層表示，所述計算機可執行指令包括使用所述圖像的視差映射圖來標識所述圖像中的深度不連續性的位置；建立圍繞所標識的深度不連續性的指定大小的深度不連續區域；為所述深度不連續區域中的每個像素建立前景和背景色以及阿爾法值；為所述深度不連續區域中的每個像素建立前景和背景視差值；以及生成所述圖像的主層，它包含表現與所述深度不連續區域的對應位置像素相關聯的背景色和背景視差的像素，以及表現與不在所述深度不連續區域中發現的圖像的對應位置像素相關聯的色彩和視差的像素，以及生成所述圖像的邊界層，它包含表現與所述深度不連續區域的對應位置像素相關聯的前景色、前景視差和阿爾法值的像素。
13.一種數字或數位化圖像的兩層表示，包含一主層，它包含表現與深度不連續區域的對應位置像素相關聯的背景色和背景視差的像素，以及表現與不在深度不連續區域中發現的圖像的對應位置像素相關聯的色彩和視差的像素；以及一邊界層，它包含表現與深度不連續區域的對應位置像素相關聯的前景色、前景視差和阿爾法值的像素，其中所述深度不連續區域對應於圍繞使用所述圖像的視差映射在所述圖像中找到的深度不連續性的指定大小的區域。
全文摘要
提出了一種用於從圖像和圖像的像素視差映射圖生成數字或數位化圖像的兩層、3D表示的系統和過程。該兩層表示包括一主層，它含有表現與圖像中的深度不連續區域的對應位置像素相關聯的背景色和背景視差的像素，以及表現與不在這些深度不連續區域中發現的圖像的對應位置像素相關聯的色彩和視差的像素。另一層是邊界層，它由表現與深度不連續區域的對應位置像素相關聯的前景色、前景視差和阿爾法值的像素組成。該深度不連續區域對應於圍繞使用其視差映射圖在圖像中找到的深度不連續性的指定大小的區域。
文檔編號G06T15/20GK1716311SQ20051008209
公開日2006年1月4日申請日期2005年6月28日優先權日2004年6月28日
發明者C·孜特尼克三世, M·尤特坦戴樂, R·斯澤利司基, S·維恩德, S·B·康申請人:微軟公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用於生成場景的兩層、3d表示的系統和過程的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法