新四季網

基於多幀的數據流分割的方法和裝置的製作方法

2023-06-13 06:42:16

專利名稱:基於多幀的數據流分割的方法和裝置的製作方法
技術領域:
本發明涉及通過參數系或參數的子空間的推導和分析在大信號流中實現分組或分割的方法。尤其涉及視頻信號的時空分割的方法。
背景大信號流(如視頻信號或聲音信號)的數學參數化法存在統計估計問題和計算容量問題。信號流的分割可以減少這兩個問題。
首先,通過將信號流分成兩個或更多個特殊相互關聯的子組信號或分割信號,可以使產生的數據的數學表述需要更少的獨立參數。這就簡化了統計模型。
其次,因為更緊湊,每一分割模型還可以更易於控制和解釋,例如用於編輯時。
第三,在對信號流進行分割以後,各分割的計算處理可以比對整個數據流的處理在計算上更簡單,例如,減少了有效計算所需的高速存儲器。
為了從對數據流的分割獲得統計、計算上的這些優點,分割過程本身必須是在統計和計算上是有效的。本發明涉及如何獲取有關的可靠分割。
然而,本發明還可以應用於其他類型的信號如聲音信號,多幀數字視頻信號是一種主要的應用,因而將作為例子來描述。
視頻編碼中分割的使用在基於模型的視頻編碼中,圖象分割很重要應當將顯示隨各組幀而變化的一致相關空間圖形的象素組一起建模(model),因為這樣提供了最好的壓縮、可編輯性和可解釋性。
一個分割可以對應於一個物理對象,但也可以僅對應於一部分物理對象,或對應於一組幾個這樣的物理對象。也可以對應於非有形對象或現象,如陰影。
在基於面向統計模型的視頻編碼中,分割(『holon』)的最佳定義不同於編碼的目的對於純粹的壓縮目的,分割理想地對應於經最有效壓縮的象素組,但如果目的是為了對以後的視頻操作進行編碼,如編輯或視頻遊戲,那麼分割就理想地更加與物理對象有關。
分割過程必須是很穩健(robust)的,即,必須明顯地提供可接受的、統計有用的分割,可應用於許多相關的圖象幀。並且,它在計算上必須適合於cpu時間和存儲器要求。
某些現有的分割方法可參見Boyer,K.L.,Mirza,M.J.和Ganguly,G.(1994),The Robust Sequential EstimatorA General Approach and its Application to Surface Organization in Range Data.IEEETransactions on Pattern Analysis and Machine Intelligence 16,1994年10月10日,第987-1001頁;Guensel,B.和Panayirci,E.(1994),Segmentation of Range and Intensity ImageUsing Multiscale Markov Random Field Representation.Proceedings,IEEE Intl.Conf.on Image Proc.,Austin Texas,1994年11月13-16日,第II卷,第187-191頁,IEEEComputer Soc.Press Los Alamitos,CA,USA;Dellepiane,S.,Fontanta,F.和Vernazza,G.(1994),A Robust Non-IterativeMethod for Image Labelling Using Context.Proceedings,IEEE Intl.Conf.on ImageProc.,Austin Texas,1994年11月13-16日,第II卷,IEEE第207-211頁,ComputerSoc.Press Los Alamitos,CA,USA;以及Russ,J.C.(1995)The Image Processing Handbook,第2版,IEEEPress/CRCRPress,倫敦,第347-401頁,上述論文在此引述供參考。
視頻編碼的分割方法主要有兩種主要的類型靜態圖象分割和基於運動的分割。
靜態圖象分割是基於在單獨的圖象中限定空間強度模式。這種類型的分割的缺點是較難區分物體邊緣的內部和沿物體邊緣的空間的輪廓。
基於運動的分割涉及圖象強度是如何在圖象之間變化的。在自動視頻編碼中,分割通常是基於後者,並且是通過運動場的估計分析而獲得的。一種已建立的分割方法是估計兩個幀之間的運動場(比方說從參考幀R和另一幀n(這裡稱為『地址差別』DARn)),並且搜尋具有相似運動的DARn中的象素組。另外,重要的是象素在物理上是至少在其中一個圖象內相互靠近。DARn可以有一個、兩個或更多個運動維度。
可以使基於運動的分割一般化成基於變化的分割,這裡,變化還可以包括『強度差別』,即,各對幀對之間的強度變化D1Rn,例如,經運動補償和在不同的色彩信道上。
在將分割用於許多幀的情況下,由於統計過擬合(overfitting)的現象,並且因為選擇的幀可以是沒有充分代表了問題中其餘幀時,將分割基於僅僅一個幀或一對幀是不能令人滿意的。然而對分割中實際使用的幀或幀對會是很好的分割時,所獲得的分割對其他幀可以表示為很壞的分組。
為了在統計上找到對許多幀均有效的分割,必須搜尋許許多多這樣的幀,比方說,5-50個,找到在統計上相關的象素聚類。這樣是有缺點的。為了對這些幀單獨地進行分割,需要隨後協調不同的幀分割結果。每一幀分割對該幀輸入數據中的噪聲是敏感的。同時,為了存儲用於許多獨立幀的運動場,可以需要許多存儲器,並且為了同時執行對所有這些運動場的分割分析,在計算上是昂貴的。
發明目的本發明的目的是便於找到信號流中信號的分組,從而分組或分割對數個信號幀具有高統計穩健性和高有效性。
本發明的進一步目的是在使分割中所需數據量下降的有效計算方式下執行多幀分割。
本發明的進一步目的是確保分割可以按照前向或後向更新遞歸進行。
本發明的再一個目的是能夠在分割中採用不同類型的現象-時間運動和強度變化信息以及空間的連續性和間斷信息。
本發明的進一步的目的是估計分割信息,以便對後續運動信息和強度變化進行估計以及對這些信息進行雙線性(bilinear)建模(modelling)。
本發明的又一個目的是使分割能夠部分重疊。
本發明的再一個目的是使分割能夠部分透明(transparent)。
本發明的又一個目的是定義分割,從而一方面(對於統計穩定性)在內部系統相似性和嚴格性而另一方面(對於輸入數據的理想描述)在內部不均勻性和靈活性之間具有恰當的平衡。
發明概述本發明中,分割是根據數個相關幀的變化信息進行的,變化不僅僅在兩個幀之間。因而獲得的分割在統計上更可靠並具有更高的有效性。
在分割計算中表示許多變化的方式最好是通過公共的參數系或子空間模型,主要是採用根據公共參考位置的雙線性模型(modelling)。由於可以忽略某些基於噪聲的和其他的不重要的變化類型,這進一步提高了分割的統計準確性和有效性。通過減少分割中需要分析的變化數據的維度,這還減少了分割工作的計算複雜性。
在子空間表述本身是遞歸更新的情況下,子空間分割可以遞歸更新,這提供了計算上的優點。
分割中使用的變化信息可以多種多樣,可以是運動信息,也可以是密度變化信息。
本發明一般可以應用於信號流。尤其可以應用於數位訊號的時空分割和數字聲音數據的時間分割。
附圖簡述

圖1描述的是如何沿運動方向(這裡,DVRn是將每一象素沿縱向移動)從圖象R移動(卷繞)到接近的圖象n使一幀大小(具有nv×nh個象素)的運動場排列起來作為一維矢量(具有nv*nh個元素)。
圖2描述的是在同時形成兩個運動方向的情況下,縱向和橫向的兩個幀大小(每一幀有nv×nh個象素)的運動場DARn=[DVRn和DHRn]是如何排列起來的。更多維(例如深度變化)可以類似地包括在DARn中。
圖3描述的是如何通過兩個低階秩矩陣T*PT的雙線性積加上一個剩餘矩陣來構成一矩陣D(例如用於許多幀n=1,2,…的運動場DARn)的模型。
圖4描述的是從圖3得到的有關一個幀的參數。
圖5描述的是第三個較佳實施例,其中的運動估計和分割是分開執行的。
圖6描述的是第四個較佳實施例,其中的運動估計和分割是同時進行的。
描述標記和定義下文中,符號『*』需要時用作乘。符號『x』用來表示矩陣的維數(例如大小=n行×n列)。黑體字上標字母用來表示數據矩陣,黑體字下標字母用來表示數據矢量。
提取許多運動場的雙線性累計本發明的某些背景在專利申請WO 95/08240和WO 95/34172中給出。有關多幀分割、運動估計和雙線性模型之間協調的附加信息在上述專利申請「Methodand Apparatus for Coordination of Motion Determination over Multiple Frames」中給出。對數個幀分割阻塞之間有關深度估計的信息在上述專利申請「Method andApparatus for Depth Modelling and Providing Depth Information of Moving Objects」中給出。
運動場描述了一個圖象(比方說是參考幀R)中的象素是如何運動以便逼近另一圖象(比方說是n)的。這樣一個運動場其自身可以被看成是『圖象』,對每一運動維度具有一定值,例如,對於水平移動的一個圖象DHRn(零值=無水平移動,負值=左移,正值=右移),對於垂直移動的一個圖象DVRn(零值=無縱向移動,負值=上移,正值=下移)。
如圖1所示,每一運動場圖象(例如DVRn)可以排列起來,作為具有n個象素元素的一維矢量dn,每一個元素用於已給出移動信息的參照圖象中的每一象素。
如圖2所示,不同的運動維度可以在一個相同的矢量中一個個地排列起來,並且該矢量具有多重n個象素的元素。
當已經估計了一組這樣的運動場矢量時,對於幾個幀dn,n=1,2,...,n幀,它們可以作為矩陣D一起分析。
良好地建立起的雙線性模型(BLM),可作為逼近相關矢量組的方法(圖3)。雙線性因子模型(bilinear factor model)可以寫成一雙線性矩陣乘積加上一剩餘矩陣(參見H.Martens Naes,T.(1989)Multivariate Calibration.J.Wiley Sons LtdChichester UK,在此引述供參考)D=T*PT+E (1)這裡,D是要模擬的數據,-它的每一行用於要模擬的每一幀,並且每一列用於要同時模擬的每一象素變量(例如每一象素的一個水平運動元素和一個垂直運動元素。)T是所謂雙線性因子的時間標記,-它對每一已模擬的幀就有一行,而對每一已模擬的雙線性因子,(f,=1,2,…nf)則有一列。
PT是所謂的雙線性因子的空間標記(score),-它的每一列用於要同時模擬的每一象素變量,以及每一行用於每一雙線性因子模型f=1,2,...,nf。上角標T表示『轉置』。
E表示誤差或未模擬的剩餘-具有相同矩陣維度D。
對於幀R和給定幀n之間的運動場,雙線性模型(圖4)寫成dn=tn*PT+en(2)當來自一組幀或子幀的運動場DARn,n=1,2,...,或這些運動場的修改形式被定義為數據D時,跨越最大有效行空間D的載荷子空間PT多少代表了對序列中的幾個幀公共的移動信息。單獨用每一幀估計或用許多幀聯合估計(見下述)的幀的標記矢量(score vector)tn,n=1,2,...,用來將這一公共運動信息PT傳送回每一單獨的幀對。
幾個不同的幀可以用來從多幀分割的當前上下關係(context)中從D提取雙線性模型T*PT,例如,具有或沒有自適應前向和後向更新的基於QR規則的加權奇異值分解。下文中,它們將被稱為雙線性模擬(BLM)或主分量分析(PCA)。
有關雙線性模型方法的細節可參見Martens,H.and Naes,T.(1989)Multivariate Calibration.J.Wiley Sons Ltd,Chichester UK,by Martens,M.and Martens,H.1986Partial Least Squaresregression.InStatistical procedures in Food Research(J.R.piggott,ed.)ElsevierApplied Sciences London p.293-360,by Jackson,J.E.(1991)A User’s guide toprincipal components.J.Wiley Sons,Inc.New York,by Jolliffe,I.T.(1986)Principal Component Analysis.Springer Series in Statistics,Springer-Verlag NewYork,by Mardia,K.V.,Kent,J.T.and Bibby,J.M.(1979)Multivariate Analysis.Academic Press,Inc.,New York,by Sharat M.A.,IIIman,D.L.,and Kowalski,B.R.Chemometrics,J.Wiley Sons,New Youk 1986 and by Kung,S.Y.,Diamantaras,K.I.and Tauer,J.S.(1991)Neural Networks for extracting pure/constrainted/orientedprincipal components.InR.Vaccaro(ed)SVD and signal processing II.ElsevierScience Publishers 1991,pp57-81.這些文獻在此引述供參考。
重要的是要注意,對於本目的,雙線性模型不會是完全收斂的或相對於正交性、本徵值的分離等來說不會是最佳的;重要的事情是要找到用於逼近數據D的適當的子空間基。
正如上文中標題為「Method and Apparatus for Coordination of MotionDetermination」中所述及的那樣,雙線性模型可以遞增更新。
雙線性模型可以在由減去每一列的平均值構成的預處理以後執行。也可以取每一行的中間數據作為平均值。在根據雙線性模型進行重構時,必須將這些平均數據加回去。也可以採用更先進的預處理方法,比如,由J.Wiley Sons Ltd(英國Chichester)的Martens,H和Naes,T(1989)在Multivariate Calibration中描述的乘性散射校正(MSC)及其推廣(multiplicative scatter correction and its extensions),在此引述供參考。也可以採用包含平滑標記和載荷(smoothing of score and loadings)或對數據矩陣D中各個數據元素修改的雙線性模型參數估計方法。
如果信息對各個幀中的各個象素具有相當的可靠性或有效性,那麼該信息可以被用來權衡不同輸入數據的相對重要性可以接著對加權數據(weighted data)執行因子的雙線性性提取(bilinear extraction of factors)假設G=運動場DARn,n=1,2,...,(可能在確定列中心(column centering)以後)或對這些運動場修改,從一組幀對或分組幀對,並且假設D=V幀*G*V象素(3)這裡,V幀=幀的加權矩陣,例如,diag(1/sn,n=1,2,...),並且sn=幀n的不確定性標準偏差的估計量V象素=象素的加權矩陣,例如,diag(1/s象素,象素=1,2,...),並且s象素=象素pel的不確定性標準偏差的估計量。
這樣,具有高不確定性的象素(G中的列)降低加權(weighted down),但仍與其他比較確定的象素一起模擬。另外,確定象素和不確定象素的這種分開可以通過兩塊而不是一塊BLM來實現。可以將不確定的象素從較確定的象素的雙線性性模型中除去。可以通過如前述Martens Naes 1989的主分量回歸(principalcomponent regression,PCR)和部分最小平方回歸(partial least squares regression,PLSR)所描述的對不確定象素的載荷可用確定象素表的標記(score)的回歸來估計。這也適用於將象素從一個分割重新分配到另一分割,這裡,重新分配的象素的載荷必須相對於它們的新分割分配來估計。
雙線性模型的一個主要目的是實現大量輸入數據的緊縮表示。為了實現該目的,模型T*PT中所使用的『有效』因子數必須少,即,模型必須具有行秩(row rank)。該有效因子數可以用各種方式來估計,例如,如上述Marten Naes 1989所描述的在改變因子數以後通過交叉有效(cross validation)或從剩餘(residual)及槓桿作用(leverage)來估計。
前面定義或估計的載荷(『偽載荷』)可以用作數據矩陣D的模型的一部分。在這種情況下,通過將D投影到這些偽載荷來估計這些先驗因子(a priori factor)的標記(score),並且在該投影(加權回歸)以後對剩餘數據(residuals)進行雙線性模擬。
採用某種加權的或穩健再加權(robustly reweighted)的最小平方最小化,根據線性回歸、將dRn投影到PT上,來估計一個個別幀的標記。另外,也可以由如SIMPLEX最佳化(J.A.Nelder和R.Mead,』A simplex method for functionminimization』,Computer Journal,第7卷,第308-313頁)根據非線性迭代曲線擬合來進行。在該情況下,準則也可以是基於採用這些標記時所產生的解碼強度差錯(decoding intensity error)。
正如這裡所描述的那樣,變化信息dRn表示為參考位置中的運動場DARn,從而它與也在參考位置中表示的雙線性載荷P兼容。另外,變化信息可以表示在幀n中象素的位置上,例如,逆向運動場DAnR,並投影到載荷P的兼容形式上,即,用運動場DA將P暫時移動到同一位置上。
在一個公共圖象位置上表示來自許多幀的空間信息。
運動的雙線性模型的有效性取決於運動場是如何表示的。當某一剛體在一攝像機前的3維空間中移動(平移、旋轉,尺度改變(scaling))時,相應的運動場可以用低維度的雙線性模型來描述。非剛體的系統運動(例如,開始微笑的臉0也可以近似地用雙線性模型來逼近。
然而,當運動場(或其他的變化場)存儲在一個給定的代表系統中的D中時,低維度的雙線性模型基本上是有效的,從而有關某一對象的所有信息對所有幀來說均被存儲在同一象素位置上。這可以通過讓一組相關幀中的每一個幀的運動與一個給定的『參考圖象』R相關、並且存儲在該參考圖象的坐標系統中來實現。該參考圖象可以是如序列n=1,2,...,N中第一個、中間或最後的圖象或具有來自幾個幀的部分的某些合成圖象模型。
一個例子是IDLE編解碼型(按照WO 95/08240和WO95/34172),這裡,幾個(連續)幀的運動、強度變化和其他模型變化信息是直接或間接地相對於給定的相關幀組中給定的一類象素(空間『holon』)的公共的『擴展參考圖象模型』(『extended reference image model』)來表示的。在已經開始分割以前,整個起始參考圖象(例如序列中的第一個幀)被視為一個holon。空間分割的主要目的是接著將該起始空間holon分成各種數據結構,它們每一個自身都是簡單的、低維度的數學模型。
運動場估計可以直接從參考圖象IR到幀In執行,並且直接在D中分析。另外,運動場可以根據該參考圖象的運動(卷繞)形式來估計Im=移動(IR,由DARm)到In,-局部運動場DAmn被估計並且接著移動回到參考位置,例如通過產生Im的運動場的逆,產生運動估計DARn=DARm+移動(DAmn乘(by)DAmR)。
因此,本發明的一個優點是利用幾個幀的運動場的合成緊緻的、低秩(low-rank)累計(summary)和其他的變化場來增強和穩定視頻編碼中的分割。
類似地,分割可以在時間域中進行,以求得找到的某種空間模式的幀的分組。時間分割接著採用從相關時間系列的時間平移形式(例如,通過等式(1)描述的變化場的雙線性模擬得到的靜態幀標記的時間平移形式)的雙線性模擬得到的子空間信息(H.Martens M.Martens(1992)NIR Spectroscopy-appliedphilosophy.Proceedings,5th Internatl Conf.NIR Spectroscopy(K.I.Hildrum.ed)NorthHolland;pp1-10)。
基於多幀運動的分割的應用多幀運動場的雙線性累計(bilinear summary)可以以幾種方式應用在分割中。
在最佳實施例中模擬幀的次序是前向(forward)和順序(sequential)的。然而,次序也可以按照其他的準則來選擇,例如,按照在給定時刻是哪一個幀顯示出對模型改進是最需要的和最有潛力的(potential)。
基於雙線性模型的分割可以按金字塔方式(pyramidally)使用。一個這樣的例子是以減小的解析度(resolution)的方式對幀進行分割,以便識別序列中的主要的holons,並且接著用這些結果,作為在更高的幀解析度下同一過程的初步的臨時(tentative)輸入。
在較佳實施例中,運動估計、雙線性模擬和分割可以針對各個已經識別的holon(『輸入holons』)或針對完整的未分割的圖象In來進行。在任一種情況下,需要對所獲得的運動場作多個holon預處理或後處理、雙線建模和分割,以便解決輸入的holon之間的重疊。
一個這樣的預處理或後處理是基於存儲具有不確定holon資格(membership)的相鄰象素『暈圈(halo)』的每一holon的,即,僅可以暫時賦予某一holon的那一個(並且因此也暫時存儲在其他的holon中或作為獨立的不清楚象素表存儲)。在運動估計中,這種臨時的暈圈象素是特別處理的,例如,要被所有相關的holon所擬合,並且它們對不同holon的資格是按照運動估計的成功來更新的。這樣的暈圈象素具有低權(weight)或在雙線性模擬中是被動擬合的(fitted passively)(參見Principal Component Regression,Martens,H.和Naes,T.(1989),MultivariateCalibration.J.Wiley Sons Ltd,Chichester UK,在此引述供參考)。
附加變量原始數據矩陣G(等式(3))中的附加列可以從其他的數據塊的『外標記(externalscores』形成。這種『外標記』來源是來自某些其他數據域的雙線性模擬的標記,(例如,相同holon的運動補償的強度剩餘),來自其他holon的標記,最好呈非線性表示(見A.GifiNonlinear Multi-variateAnalysis.J.Wiley Sons Ltd Chichester 1990),使每一量化標記矢量量化並分析,作為指示矩陣(67頁)或在順序級(187頁),在此引述供參考,或來自不同空間解析度的相同holon的標記,來自外部數據如聲音的標記(例如這些相同幀的聲音振動能量譜的雙線性模擬以後)必須修改這種附加變量的權,從而它們的不確定性變得與要模擬的最終數據矩陣D(等式(1)和(2))中的經加權的象素的不確定性相似。
另一種柔和地組合不確定相似或外部標記而不強迫將信息加入到雙線性模型中去的方式是用二次模擬(two-modelling)來替換一塊(one-block)雙線性模擬,例如PLS回歸(見Martens,H.和Naes,T.(1989)Multivariate Calibration.J.Wiley SonsLtd,Chichester UK),或採用多塊或N方式(N-way)模擬,如Parafac(Sharaf,M.A.,IIIman,D.L.和Kowalski,B.R。Chemometrics,J.Wiley Sons,New York 1986)或Consensus PCA/PLS(參見Martens,M.和Martens,H.1986在Statistical Procedurein Food Research(J.R.Piggott出版)中的Partial Least Squares Regression,ElsevierApplied Sciences London第293-360頁,和Geladi,P.,Martens,H,Marten,M.,Kalvenes,S.和Esbensen,K.(1988)Multivariate Compearison of Laboratory ResultsProceding,Symp.Applied Statistics,Copenhagen,1988年1月25-27日(Per Thorboell出版),Uni.C,Copenhagen第16-30頁。這些在此引述供參考)。
這樣,不確定象素和外標記如果擬合良好則對模擬有正面貢獻,但如果不適合也不會對模擬有強的負面影響。不管怎樣,這些不確定的象素和外標記就被加入到所獲得的雙線性模型中。
來自當前解析度中和當前域的當前holon模型的標記可以接著用作其他holon或其他解析度下或其他域中的『外標記』。
較佳實施例採用多幀累計(summary)的分割的穩定性可以以不同的方式來實施。
在第一較佳實施例中,雙線性分割過程採用自頂向下的方法,除去來自輸入holon的分割不適合於一般holon模型的運動子空間中的象素區域被檢測作為局外者(outlier),並從其餘的輸入holon中分割出去。
在第二個較佳實施例中,分割採用自底向上的方法,試圖使穩定的種子點在輸入holon中生長成均勻、連貫的分割。
在第三個較佳實施例中,分割與運動估計和運動補償(圖5)分開,其間發生幀的運動場和其他被估計變化數據的雙線性模擬。
在第四個較佳實施例中,運動估計和實際分割組合(圖6),隨後是雙線性模擬。
在第五個較佳實施例中,雙線性模擬和分割過程是對一整個序列(sequence)完成的。
在第六個較佳實施例中,運動估計、雙線性模擬和分割及模型是對各個幀逐漸更新的。
在第七個較佳實施例中,將用於分割的雙線性模擬方法擴展成包括附加準則,而不只是說明的協方差,-在這種情況下,空間和時間平滑用作附加準則。還包括在雙線性模擬中加入輸入數據的行和列的再加權。
在第八個較佳實施例中,雙線性模擬與最佳標度改變相組合。從而在模型估計過程中不僅是加權而且是輸入數據本身也變化只要從初始低秩(low-rank)雙線性模型的數據元素(element)的預測不給出比元素的輸入值有明顯更壞的解碼結果,其輸入值就被其雙線性預測所取代。
較佳實施例第一個較佳實施例基於有關空間模型的局外(outlier)分析的分割圖5示出的是基於雙線性模型的分割的主要結構塊一運動估計器單元EstMov 520,一雙線性模擬單元EstBLM 540和一分割單元EstSegm 560,以及在它們之間的數據流。數據流的更詳細細節將在第三個較佳實施例中給出。
兩個第一實施例代表了分割單元EstSeg 560-自頂向下或自底向上的兩種結構。
在第一個較佳實施例中,儘可能原樣保留EstSeg單元560的holon輸入,但是如果該holon包含比其餘holon具有更明顯且一致性(consistently)不同的特性的部分,那麼,這些部分將被分裂(split)成分開的新的分割。另外,獨立的象素,例如沿holon的邊緣,其初步分類會有問題,那麼這些獨立的象素將被去掉,或者被識別為不可靠的局外者。
在下面具有線路編號的偽碼中描述實現該自頂向下holon分割的方法
單個幀分割首先描述一個單個幀和用於剛性運動物體的檢測的方法。
採用再加權的線性最小平方(squares)空間模擬,製作每一個這樣的潛在(potential)分割的空間模型假設一個給定幀n相對於參考幀R的縱向和橫向運動估計量在空間模擬中被當作被回歸量(regressand)Y處理Y=[DVRnDHRn] (701)。
假設回歸量X=[1vh](702)。
這裡v是象素縱向地址的列,而h是它們的橫向地址。
那麼由仿射變換的運動模型是Y=XB+F, (703)通過再加權的最小平方回歸估計3×2回歸係數矩陣B估計每一象素(行)的不確定性標準偏差s=[spel,pel=1,2,...,n象素](704)定義初始象素加權的矩陣W,例如,對所有象素表示為W=diag(1,1,1,1,......1npels)(705)當再加權過程是不收斂時 (706)B=(XTWX)-1XTWY(回歸係數估計)(710)F=Y-XB(剩餘)(720)R=f(F,S)(相對於噪聲電平矩陣s的剩餘)(730)這裡,Y中每一列的每一象素的剩餘f(pel,j)按象素的不定性標準偏差s(pel)劃分成r(pel,j)=f(pel,j)/s(pel) (735)W=f(R)(象素的更新加權) (740)例如,在所有Y變量j=1,2,...上累計的相對剩餘的函數w(pel,pel)=c/(c+r(pel,1)2+r(pel,2)2+...) (745)這裡,靈敏度係數c=例如1.0。
檢查收斂性例如,B是否穩定?(750)當再加權過程收斂時結束 (750)也可以採用除相對剩餘的和r(pel,1)2+r(pel,2)2+...以外的其他估計量,例如中值或某些其他的穩健的(robust)距離測度(measure)。
在該過程中,與多數象素所支持的空間模型不能良好擬合的象素將有較顯著大的相對剩餘R並因此被降低加權,以便減小它們在下一迭代中對係數B的估計量的影響,在下一迭代中它們的剩餘將更大,從而它們對收斂時最終空間模型B的估計量影響很小。
具有低最終加權(例如,w(pel,pel)<0.1)的象素被定義為不屬於輸入holon的局外者,並收集到一個新的分割內。該新的局外分割可以被提供到同樣的再加權回歸模擬,以檢查是否應當進一步分成更小的分割。所得的分割接著代表輸出結果565。
在重新定義(740)中象素的加權時,還可以引入相鄰的象素,以加強holon的空間連續性。也可以修改先驗的加權(705),例如,採用象素的更低的初始加權,而這些象素是由於閉塞而已知潛在無效或由於不滿意的雙線性模擬而尤其不確定的。
Y中每一元素(pel,j)的不確定性度量s(pel,j)可能已經估計,並且可以用來取代(745)中每一象素的總不確定性。該單獨的不確定性度量可以是不對稱的,從而可以不同地評估正的和負的剩餘。這相應於靠近強度邊緣的平坦強度區域中的象素的運動估計量(不對稱鬆弛部分(assymmetric slack))。象素可以移動遠離該邊緣,而不影響缺乏適合的合成強度,但不能移動到該邊緣以外的地方。
(710)中採用的全秩回歸(full-rank regression)可以用其他的估計器來取代,例如,如Martens,H.和Naes,T.(1989)在Multivariate Calibration(J.Wiley Sons Ltd,Chichester UK)中描述的類似於PLS回歸或其某些推廣的降秩的回歸方法(reduced-rank regression method)。
多幀分割這一基本自頂向下的分割方法可以用作多幀分割而不是將分割僅基於一個單幀的holon的運動場,採用被回歸量(regressand)Y=[DVRnDHRn]它可以基於幾個幀的運動場Y=[DVR1DHR1,DVR2DHR2,...,DVRnDHRk,...] (760)在該第一個較佳實施例中,它是基於比例載荷空間的,該空間跨越幾個模擬幀中holon的這些運動模式Y=[PVPH]=[pVR1pVR2,...,pVRJ,pHR1pHR2,...,pHRK] (770)這裡,選擇縱向和橫向移動的雙線性因子數(這裡是J和K),從而只採用有效的和可靠的因子(例如由對幀的交叉有效確認所判斷的)。例如,應當對因子載荷(PV和PH中的列)取比例,從而它們的不確定性方差是相同的。
回歸算子Y還可以被定義成包括強度信息,例如經運動補償的強度差圖象。
Y=[D1R1D1R2D1R3......D1Rn](775)這裡,D1Rn=為各個彩色度量(例如RGB)定義或定義為類似於亮度的某種累計的幀n與公共參考幀R之間經運動補償的強度差。另外,可以根據經運動補償的強度差用作來自雙線性性強度因子的載荷(loading)。
使這樣的經運動補償的強度差介於幀n和參考幀R之間的較佳方式是首先在運動估計器EstMov 520中建立幀的運動場,DA=[DVRnDHRn]和相應的深度估計量等,隨後用該DARn來移動(卷繞(warp))參考圖象,以產生InHat(即基於IR的幀In的近似),接著計算InHat和In之間的強度差,並最終用移動算子的逆DAnR1D1Rn=Move((InHat-In)乘DAnR),將該差移動回到參考位置。
這樣的強度信息可以與運動信息一起使用,或與運動信息分開使用。不管是在哪一種情況下,應當對列Y取比例,以反映它們對分割相對的所要求的影響,例如,與它們相對的平均估計不確定性方差成反比。
另一種空間結構模型計算有關(703)中剩餘F的空間結構模型可以是除(702)中採用的那一個以外的另一種類型。例如,X還可以包含地址v和h的平方和叉積項(參見Lancaster,P.和Salkauskas,K.(1986),Curve and Survace fitting,Academic Press,第133頁,在此引述供參考)。也可以採用樣條或分段多項式(Lancaster Salkauskas 1986,第245頁,在此引述供參考)。這樣的更高級模型可以有助於區分局外象素和起主要作用的平滑構成的不是仿射變換(affine transformation)的運動的象素。
X還可以包含一空間自回歸部分,該部分中具有包括在X中Y的空間平移形式,並且採用了秩減小回歸方法,如PLS回歸(參見H.Martens M.Martens(1992)NIR Spectroscopy-Applied Philosophy,Proceedings,5th Internatl Conf.NIRSpectroscopy(K.I.Hildrum,ed)North Holland;pp1-10)。該空間自回歸模型部分使得一方面可以區分應當降低加權的局外象素(outlier pixel),另一方面可以區分起主要作用的平滑運動的象素,它們既不是仿射變換結構,也不是holon中的空間多項式結構所良好描述的。
另一種分割邊界檢測機構可以引入附加信息,以便使分割邊界的精確定位最佳。一種這樣的信息源是如用Sobel濾波器(filter)檢測的參考圖象IR中的強度邊緣(J.C.RussThe ImageProcessing Handbook,2nd ed.,IEEE Press 1995,在此引述供參考)。如果Y的空間模擬以後的相對加權W 740表示某一分割邊界接近於這樣一個強度邊緣,那麼該分割邊界就移到該強度邊緣。
也可以採用更先進的統計方法來判斷分割邊緣。這種方法的一個例子可參見(Kok,F.Lai,』Deformable ContoursModelling,Extrction,Detection andClassification』,PhD Thesis,University of Wisconsin-Madison 1995,在此引述供參考);對於本申請,輸入信息可以是強度IR、強度剩餘DIRn(或這些的BLM累計)、空間剩餘F720、R730或模型加權W 740、以及/或Y數據本身。
第二個較佳實施例基於聚類分析的分割第二個較佳實施例代表輸入holon的分割的自底向上的方法。它由多幀運動數據或它們的雙線性累計的聚類分析組成。
幾個不同的聚類技術可以用來尋找象素組。聚類標準則和聚類算法的選擇定義了聚類的統計特性。例如,對每一運動方向(縱向、橫向、深度)可以選擇分開進行聚類分析或在各個方向上聯合進行分析。後者是一種較佳實施方法(但可以不選擇深度方向,至少是在編碼開始的時候)。
可以採用兩組主要的聚類技術對圖象平面不採用有關參數光滑性或相鄰關係的空間假設的聚類分析以及採用這種假設的聚類分析。
常規的聚類分析現在的目的是尋找顯示至少與P中的某些因子維度具有類似的運動模式的象素聚類,-即,至少在某些有效維度上顯示類似運動模式的象素。
根據雙線性運動子空間,可以採用幾種不同的聚類原則。根據公共或加權的Pythagorean距離度量以及歸一化(Mahalanobis)距離,可以計算時空距離。一種方法是標準的非分層聚類分析技術(Mardia,K.V.,Kent,J.T.and Bibby,J.M.(1979)Multivariate Analysis,Academic Press,Inc.,New York.,Gudersen,Bob(1983)AnAdaptive FCV Cluster Algorithm.International J.of Man-Machine Studies 19,第97-104頁,Benadek et al.Detection and Characteristics of Cluster Sub-Structures.SIAM J.of Applied Math 40,(2)1981年4月,Bezdek,J.C.and Pal,S.K.(1992)Fuzzy Models for Pattern Recognition.IEEE New York)。這種類型的聚類分析的一個例子是由Mardia,K.V.,Kent,J.T.and Bibby,J.M.(1979)Multivariate Analysis,Academic Press,Inc.New York第361-368頁中描述的劃分技術,該文獻在此引述供參考。
更詳細的聚類分析可參見Mardia,K.V.,Kent,J.T.和Bibby,J.M.(1979)Multivariate Analysis.Academic Press,Inc.,New York,第360-390頁,Benzdek etal.Detection and Characteristics of Cluster Sub-Structures.SIAM J.of Applied Math.40,(2)1981年4月,以及Bezdek,J.C.和S.K.(1992)Fuzzy Models for PatternRecognition.IEEE New York)。尤其是模糊聚類技術(見Gudersen,Bob(1983)AnAdaptive FCV Cluster Algorithm.International J.of Man-Machine Studies 19第97-104頁)更有用;在該技術中,雙線性模擬被用來使聚類的內部結構參數化,並且聚類可以部分重疊。分層聚類分析見Shraf,M.A.,Illman,D.L.和Kowalski,B.R.Chemometrics,J.Wiley Sons,紐約,1986年,第219頁。這些參考文獻在此引述供參考。
在圖象平面中具有空間連續性假設的聚類分析本實施例中,聚類分析搜尋具有類似運動模式的空間相關的象素。Boyer等人在1994年公開了一種圖象分割的方法,使得可以廣泛的-但不是唯一使用空間連續性(Boyer,K.L.,Mirza,M.J.和Ganguly,G.(1994)The Robust SequentialEstimatorA General Approach and Its Application to Surface Organization in RangeData.IEEE Transactions on Pattern Analysis and Machine Intelligence 16,1994年10月10日,第987-1001頁,在此引述供參考)。本發明的一個實施例是將他們從以一維(距離)測量一個幀(單個雷達圖象Z)的方法推廣到以採用來自幾個幀和多維(縱向移動、橫向移動和其他可能的特徵,見下述)的測量。
上述Boyer等人的分割技術可以小結如下*分析空間數據(在上述Boyer等人1994年的情況下範圍數據(rangedata)Z),以找到可以用作潛在(potential)分割起始點的充分大的平滑空間區域。
*採用再加權最小平方空間模擬,形成每一這種起始點的空間模型。
圍繞每一起始點,使Y變量(Y=Z)擬合空間模型和估計剩餘。在本較佳實施例中,採用的是線性模型Y=XB+F,它是用如上所述用於仿射變換(702)的運動模型X通過再加權最小平方最小化來擬合的。但在Z中也可以採用多項式和/或自回歸推廣(extension)。
*通過包括看上去是適合初步分割模型的相鄰象素、逐漸更新分割模型來使這樣的的潛在分割在局部地增長。這一增長過程一直繼續到沒有新的象素良好地適合holon的空間分割模型為止。
*試圖將每一空間模型擴展到圖象的其餘部分,以便搜尋可能屬於該分割的更多的遠端象素。
*合併與空間模型兼容的潛在分割。
*刪除(prune)並填入局外部分,並解決(resolve)沿分割邊緣部分的模糊點。
分割的精確邊緣可以用第一個實施例中描述的方法來使之最佳。
本發明中,上述技術除由Boyer等人用於雷達測距數據以外,還用於其他的空間參數數據。不再將Y定義為圖象的深度Z,而是將Y按照(701,760或770)定義為來自幾個幀的運動信息。也可以像第三個較佳實施例所描述的那樣,還包括強度信息(775)。
其他參數表示的模型在將數據變換成頻率域以後,另一個實施例將該分割技術應用於適用於1D、2D及更高維度(dimensional)的數據,該實施例在此不再詳述。經變換的數據可以表示成直接FFT的結果、以實部和虛部表示或以相位和幅度表示。也可以採用更複雜的表示。一個例子是採用相位相關表示。
應當指出,可以將應用於多幀分割的自頂向下和自底向上方法組合起來。例如,首先,對輸入holon進行自頂向下的分割分析,以便識別holon中不適合於大多數或主導結構的局外部分區域。其次,用自底向上的分割分析來搜尋局外部分區域內的均勻區域。
下面的兩個較佳實施例區分將運動估計與分割組合起來的兩種方式。
第三個較佳實施例分開的運動估計和分割在第三個較佳實施例(圖5)中,用於各個幀In,n=1,2,...的強度數據以及參考圖象IR505的強度數據被輸入到運動估計器520中。所得的運動估計DARn525被傳送到雙線性模擬單元EstBLM 540。形成的雙線性模型參數545被傳送到分割單元EstSegm 560,它產生分割結果565。
EstMov運算器520可以包含檢測內部初步分割指示符(indicator)如IR或In中的邊緣以及深度和空間新息的裝置,可以採用這些裝置,以便增強運動估計DARn525(例如,不使得運動場在明顯的初步分割邊界處模糊),並與運動估計一起傳送到其他的單元。
雙線性模型參數545主要由參數模擬運動數據DARn及其不確定性的參數構成,但也可以再包括有關經運動補償的強度變化DIRn等的參數。
在上述標題為「Method and Apparatus for Coordination of MotionDetermination Over Multiple Frames」的專利申請中給出了協調運動估計和雙線性模擬的一些相關的方法。
在該第一個實施例中採用了幾個反饋環路級首先,運動估計器EstMov 520採用了先前建立的初步分割信息,以便使邊緣、閉塞和深度的處理最佳運動場在跨越可靠初步分割邊界處不被平滑。
EstMov 520還採用了前述建立的雙線性模擬結果522,以便使運動估計對不確定的模糊和噪聲靈敏度穩定。這些初步信息521和522已經在用於前面的幀、其它金字塔形(pyramidal)幀鑑別或前面的迭代的單元EstNLB 540和EstSeg 560中分別獲得。
在雙線性模擬單元EstBLM 540中,雙線性模型是根據初步分割信息521單獨為每一初步分割(holon)而開發(develop)的。在雙線性模擬塊EstBLM 540中,可以處理來自其他相關holon和來自其holon關係不清楚的象素的信息,從而不會對雙線性模型產生不利的影響(例如,在類似於單個變量塊的雙線性模擬中具有低加權的額外(extra)X變量,或者如類似於X塊和Y塊的PLS2或PCR雙線性模擬的Y變量)。
因此相同,初步雙線性模型參數估計522可以與新的運動場DAR,n(n=1,2,...,525)一起形成(modelled),以產生用於運動以及選擇用於經運動補償的強度變化等的更新雙線性序列模型545。
第四個較佳實施例聯合運動估計和分割運動估計、深度評估和分割是相互獨立的過程,它們應當以整體(integrated)的方式來最佳地處理對待。在第三個較佳實施例中,運動估計和分割算子(operator)是通過初步雙線性結果521、522的反饋來協調的。在第四個較佳實施例中,這些算子是完全集成在一起的。在這種情況下,雙線性估計可以用較少的計算機工作量(power)來完成,這是因為它是單獨對相對完全獨立的分割進行運算的。
在該實施例中。按照圖6,輸入數據605和初步分割和雙線性模擬結果623被輸入到EstMov/EstSeg 620,該EstMov/EstSeg 620傳送有關找到的holon的運動場DARn及其估計的不確定性、閉塞等625和分割信息665。在EstBLM 640中,雙線性模型幾種針對每一holon單獨進行更新。另外,正如在第三個較佳實施例中所描述的那樣,可以臨時(tentatively)將holon間的關係和具有不清楚holon分類的象素降低加權,或定義為Y變量。
應當注意,對於圖5和圖6中描述的反饋結構,運動估計和分割也可以看成是雙線性模型估計的整體構成部分。在EstBLM540、640中,與傳統的奇異值分解或本徵值分解一樣,在收斂或完全穩定以前,不必進行估計過程。每一holon545所獲得的子空間改進了下一輪的運動估計和分割已經足夠了。因此,通過改進的運動估計和分割對輸入到EstBLM的輸入數據修改進可以被當成是雙線性估計過程分一部分。
下面的兩個實施例涉及在序列的幀之間進行協調。
第五個較佳實施例在一步中模擬整個幀序列。
在第五個較佳實施例中,整個序列要經過運動估計;接著將整個序列的這些運動估計提交進行雙線性模擬。最後,序列中holon的雙線性模型或多個模型用來進行分割。採用圖5進行描述,來自前一迭代(或金字塔形(pyramidal)分辨級)的雙線性模型結果522和分割521結果被反饋到運動估計520和雙線性模擬540中以便使這些估計過程穩定和方便。
採用經更新的雙線性運動和強度變化模型以及經更新的分割,可以接著重複整個序列的模擬。
第六個較佳實施例序列模型的逐漸更新在第六個較佳實施例中,雙線性模型545是在對每一幀n=1,2,...進行運動估計結束以後進行更新的。這可以對每一已經分開的holon分割而進行的,但也可以對幀中所有的holon來進行。分割565同樣可以在每一幀以後來更新。在較佳實施例中,除了沿holon邊緣進行的刪除過程以外,主要的再分割只有當運動數據清楚地顯示出需要這樣做時才是被允許的。
有關雙線性模型更新的進一步細節見上述專利申請「對多個幀進行運動判斷協調的方法和裝置」。
同樣,將各個幀引入模擬和分割的順序可以是不固定的。一旦對所有的幀進行了模擬和分割以後,可以再次對分割開始整個過程,但現在對雙線性模型和分割具有了更好的起始值。
估計的分割邊界中的估計不確定性與分割邊界信息一起被存儲起來,並用作後續的編碼步驟中。具有不清楚分割分類的象素,例如在圍繞所選分割邊界的區域中的象素被當作具有高不確定性來對待。在後續運動估計和雙線性模擬中,不確定性象素是如前所述給出低加權或通過主分量回歸(Martens Naes 1989)來被動擬合(passively fitted)的。在後續分割中,不確定性的象素包括在新的分割估計中,但給予低的先驗輸入加權(705)。
下面的兩個實施例涉及使雙線性模型參數估計適合於分割應用的特殊技術。
第七個較佳實施例採用附加平滑準則(smoothness criteria)來修改雙線性模擬用來獲取上述雙線性模型的雙線性參數估計可以被修改成需要或支持要被滿足的附加統計限制,比如需要或偏離要被平滑的T中的時間標記矢量或P中空間載荷矢量,至少在沒有發現初步分割邊界的地方。
這是在用於每一因子a的NIPALS算法迭代的內部完成的(見Marten,H.和Naes,T.(1989)Multivariate Calaibration.J.Wiley Sons Ltd,Chichester UK.),如用具有線標號的偽碼所示出的那樣對於每一因子a,每一新的迭代定義如下(810)通過將在前一因子以後將D中的剩餘數據投影到從前一迭代得到的平滑的比例標記矢量ta上來估計空間載荷矢量pa,raw的原始(raw)估計。
(820)提交這些原始空間載荷矢量pa,raw進行空間平滑pa=f(pa,raw)。平滑方法可以是簡單的箱車(boxcar)濾波器,或者是尋求一種方法,在跨越應當讓其不被平滑的明顯邊緣時,避免平滑。平滑載荷pa相對於先前估計因子[p1,p2,...,pa-1]的載荷正交化。
(830)通過將剩餘數據投影到被平滑的載荷pa上來估計原始標記ta,raw。
(840)提交該原始標記矢量,進行時間平滑,例如箱車平滑或更先進的平滑ta=f(ta,raw)。
(850)對經平滑的標記矢量ta取比例成長度1,并迭代重複該過程,直到充分收斂為止。
本實施例中雙線性模擬的進一步加強是將雙線性模型的迭代再加權最小平方擬合應用於該數據,以便減小局外幀或局外象素的影響等式(3)中的行的加權Vframes和列Vpels加權可以根據來自先前迭代中的低秩雙線性模型的校正剩餘,按照行和列的平均不確定性標準偏差的更新估計的逆來迭代更新。
其更詳細的描述見上述專利申請「Method and Apparatus for Coordination ofMotion Determination」。
第八個較佳實施例作為雙線性模擬一部分的基於規則的最佳標度在雙線性模擬540、640中,不僅可以改變雙線性模擬參數以獲取更好的模擬,而且在雙線性模型參數估計過程中可以改變輸入數據中的值,例如DARn。可以迭代修改用於幀和象素的運動數據dan,pel中的各個元素,從而更加符合從其他幀或象素得到的模型dan,pel=f(dan,pel(input(輸入)),dan,pelHat,Rules(規則)),這裡,對於雙線性模擬dan,pelHat=tn*Ppel。
規則的一個例子是if(如果dan,pelHat給出的運動擬合din,pel與dan,pel(input)給出的一樣或更好),and(dan,pelHat位於dan,pel(input)的統計不確定性範圍內),then(dan,pel=dan,pelHat)
else(dan,pel=dan,pel(input))。
除了數據元素dan,pel的這種離散定義以外,也可以採用dan,pelHat和dan,pel(input)比較連續的加權平均函數。
更詳細的描述見上述專利申請「Method and Apparatus for Coordination ofMotion Determination」。
上述組合又是一種實施例。
其他應用時間域中的雙線性結構分割上述分割/聚類技術可以用來判定適合於一起分析的幀(序列)的分組-以及檢測景象(scene)平移。一種實施例這進行幀強度的簡單雙線性模擬(可能的分組取樣(subsample)),並在標記空間T中進行非分層聚類分析(non-hierarchical clusteranalysis),以便尋找具有更多公共圖象材料的幀聚類。本實施例中最好進行穩健的單個聚類分析(robust single cluster analysis),以便能夠跟隨一單個聚類內的景象中的運動。
其他類型數據的應用另一個實施例是將上述原則應用於時間系列的數據,例如,聲音數據,以便定義時間分割。在這種情況下,空間運動場數據與時間卷繞(time warp)估計對應,而空間強度變化時間與時間強度變化數據對應。
用於解碼(幀的重構)的本發明的輸出的使用見WO 95/34172中的說明。
專業人員可以在後文中的權利要求的範圍內對本發明作各種修改。尤其是,術語「多個」可以被解釋成是「一個或一個以上』的意義。
權利要求
1.一種對圖象序列進行分割的方法,所述序列由幀構成,每一幀由輸入信號的取樣組成,其特徵在於,所述方法包含下述步驟(1)形成一參考圖象,所述參考圖象由從多個所述幀得到的取樣組成,(2)對從所述參考圖象到每一所述參考幀的運動進行估計,(3)將所述經估計的運動重新格式化成行矢量,(4)將所述行矢量集合到一運動矩陣內,(5)對所述運動矩陣進行主分量分析(Principal Component Analysis),從而得到一個由多個稱作為行矢量的載荷矢量組成的標記矩陣,和由多個稱作為行矢量的載荷矢量組成的載荷矩陣,從而每一標記矩陣對應於用於每一幀的一個元素,從而每一載荷矢量的每一元素對應於參考圖象的一個元素,從而所述標記矩陣的一列和一個載荷矢量一起構成一個因子,並且從而所述因子數小於或等於所述幀的數量,(6)將每一載荷重新格式化回到用作運動的同樣的格式,(7)根據所述重新格式化的載荷中的第一個進行分割。
2.如權利要求1所述的方法,其特徵在於,步驟(7)中的分割包含下述步驟(7a)在第一載荷中選擇一個位置,(7b)根據與所述選擇位置相鄰的元素形成一局部運動模型,(7c)在還沒有被分割的元素中選擇所述參考圖象的候選元素,(7d)確定所述第一載荷的所述候選元素與所述局部運動模型適配的良好程度,(7e)將滿足某一保真度的那些候選元素包括到所述局部運動模型中,其中,與所述局部運動模型適配的元素的集合代表了一個分割。
3.如權利要求2所述的方法,其特徵在於,所述局部運動模型包含了模型運動,作為仿射變換。
4.如權利要求2所述的方法,其特徵在於,所述局部運動模型包含了模型運動,作為多個分割多項式變換。
5.如權利要求2至4中任何一個權利要求所述的方法,其特徵在於,所述步驟(7d)由下述步驟代替(7d1)判定所述第一載荷中的多個進一步候選元素與所述局部模型中已經包括的元素子集適配的良好程度,所述子集是根據所述候選元素的位置為每一候選元素而選擇的。
6.如權利要求2至5中任何一個權利要求所述的方法,其特徵在於,有關所述保真度準則的步驟(7e)包含為每一候選元素,計算由候選元素的位置的局部運動模型而外插的運動與由載荷數量而通過乘以標記矢量而計算得到的運動之間的差異。
7.如權利要求2至6中任何一個權利要求所述的方法,其特徵在於,所述保真度準則還考慮到所述參考圖象中的每一元素的與所述運動場對應的不確定性。
8.如權利要求7所述的方法,其特徵在於,所述保真度準則是為所述參考圖象中的每一個元素而計算並作為與所述運動場對應的所述差異和所述不確定性之間的比值。
9.如權利要求8所述的方法,其特徵在於,所述不確定性對於多個空間方向中的每一個方向就有一個值與之對應,所述值中的一個被選擇用來計算與所述差異的方向有關的所述保真度準則。
10.如權利要求2至9中任何一個權利要求所述的方法,其特徵在於,所述方法進一步包含下述步驟(7f)更新所述局部運動模型。
11.如權利要求10所述的方法,其特徵在於,所述更新包含按照所述保真度準則來調整與元素對應的加權的步驟。
12.如權利要求10或11所述的方法,其特徵在於,步驟(7c)到(7f)重複多次。
13.如權利要求2至12中任何一個所述的方法,其特徵在於,它還進一步包含下述步驟(7g)使滿足所述保真度準則的元素的位置被分割,(7h)在已經被標記為分割的那些位置中選擇一個新的位置,(7I)重複步驟(7c)到(7h),直到滿足一個給定的收斂準則。
14.如權利要求1至13所述的方法,其特徵在於,除了採用所述第一因子以外,還採用多個因子。
15.如權利要求1至14中任何一個權利要求所述的方法,其特徵在於,除了執行有關主分量分析的步驟(5)以外,後續步驟除了直接對所述載荷矢量進行運算以外,是針對與每一所述幀對應的所述運動場而進行操作的。
16.一種提高對某一圖象序列分割的方法,所述序列由幀組成,每一幀由某一輸入信號的取樣組成,所述分割由所述參考圖象的多個分割代表,其特徵在於,所述方法包含下述步驟(1)對每一給定的輸入分割,執行權利要求1中的步驟(1)到(6),採用與所述給定輸入分割對應的強度加上相鄰元素層作為參考圖象,分割參考圖象的集合一起構成一個總的參考圖象,這裡,總的參考圖象中的每一個元素可以在一個以上的分割參考圖象中表示,(2)對於每一所述分割參考圖象中的每一元素,計算一保真度準則,(3)對於一個以上的分割參考圖象中表示的總的參考圖象中的每一元素,尋找哪一個分割給出最好的保真度,並從其他分割中除去該元素。
17.如權利要求1至15中任何一個權利要求所述的方法,其特徵在於,所述方法還包含下述步驟(8)根據保真度指示,形成勢能圖象,(9)對於每一分割,尋找與相鄰分割相鄰的邊界,(10)對於每一邊界,迭代地使其位置最佳,從而使能量和沿其軌跡最小,這裡,每一邊界內的參考圖象元素代表各個分割。
18.如權利要求17所述的方法,其特徵在於,所述勢能函數也還基於參考圖象強度梯度。
19.如權利要求17至18中任何一個權利要求所述的方法,其特徵在於,它還包含(11)對於序列中的每一幀,用通過將標記值與載荷矢量乘而計算的運動場或其重構的運動場,將該幀移回到參考位置,(12)將經運動的幀重新格式化成行矢量,(13)將所述行矢量集合到一強度矩陣中,(14)對強度矩陣進行主分量分析,產生稱為強度載荷矢量的行矢量和稱為強度標記矢量的列矢量,其中,所述勢能圖象也獨立於強度載荷矢量和強度標記矢量。
20.如權利要求17至19中任何一個權利要求所述的方法,其特徵在於,所述邊界的所述最佳化還包括使邊界的空間簡化最佳。
21.一種使某一圖象序列分割的方法,所述圖象序列由幀組成,每一幀由輸入信號的取樣組成,其特徵在於,所述方法包含下述步驟(1)形成一參考圖象,(2)估計一個幀的運動,為所述參考圖象中的每一元素產生一個在所述幀中的位置,(3)形成一回歸矩陣,所述回歸矩陣由列矢量構成,從而有一個與參考圖象的每一空間維度對應的列矢量,每一所述列對於所述參考圖象中的每一列包含所述元素的空間位置的一個元素,以及含有一的一個列矢量,(4)形成一個被回歸量矩陣,所述被回歸量矩陣由列矢量組成,從而有一個與參考圖象的每一空間維度對應的列矢量,每一列對每一元素包含所述幀中的估計位置的一個元素,(4)估計一回歸係數矩陣,從而所述被回歸量矩陣由所述回歸係數矩陣和所述回歸量矩陣的乘積來近似,(5)根據回歸剩餘,對所述參考圖象中的每一元素計算一資格測量,所述回歸剩餘計算為所述被回歸量矩陣減去回歸係數矩陣和回歸量矩陣的乘積,(6)根據步驟(5)中計算的資格測量形成一分割,其中,步驟(6)中形成的分割代表所述圖象序列的分割。
22.如權利要求21所述的方法,其特徵在於,步驟(4)中的所述估計是用穩健加權的最小平方回歸來進行的。
23.如權利要求21或22中所述的方法,其特徵在於,所述運動估計是對多個幀進行的,並且所述被回歸量矩陣含有用於每一合成運動場的每一空間維度的一個列矢量。
24.如權利要求21或22所述的方法,其特徵在於,運動估計是對所述系列中的每一幀進行的,主分量分析是對來自所述運動估計的結果進行的,被回歸量矩陣包含用於每一載荷矢量的一個列矢量。
25.如權利要求21至24中任何一個權利要求所述的方法,其特徵在於,所述被回歸量矩陣對每一幀還包含一個含有經運動補償的強度剩餘的列,所述運動補償的強度剩餘是按照估計的運動並減去參考圖象通過將每一幀運動到參考位置來形成的。
26.如權利要求21至24中的任何一個權利要求所述的方法,其特徵在於,主元素分析是對經運動補償的強度剩餘進行的,並且所述被回歸量矩陣還包括作為列的合成載荷矢量。
27.如權利要求21至26中任何一個權利要求所述的方法,其特徵在於,所述回歸量矩陣還包括作為列的所述空間位置的多項式。
28.如權利要求22至27中任何一個權利要求所述的方法,其特徵在於,所述經空間平移的被回歸量形式也包括在回歸量矩陣中的列中。
29.一種使圖象序列分割的方法,所述圖象序列由幀組成,每一幀由輸入信號的取樣構成,其特徵在於,所述方法由形式步驟構成(1)按照權利要求21至28中的任何一個權利要求所述的方法進行分割,(2)重複步驟(1),將分割以外處已經找到的所述參考圖象的那些部分廢棄掉,其中,每一步驟(1)的重複中找到的分割代表所述分割。
30.如權利要求21至28中任何一個權利要求所述的方法,其特徵在於,所述回歸是用區域增長的方法進行的。
31.一種使圖象序列分割的方法,所述圖象序列由幀構成,每一幀由輸入信號的取樣構成,其特徵在於,所述方法包含下述步驟(1)按照權利要求30中所述的方法進行分割,(2)重複步驟(1),將在該分割外已經找到的所述參考圖象的那些部分廢棄,其中,步驟(1)的每一重複中找到的分割一起代表所述分割。
32.如權利要求21至31中任何一個權利要求中所述的方法,其特徵在於所述被回歸量的不確定性是計算得到的,並且所述不確定性被用於估計所述回歸係數矩陣的時候。
33.如權利要求21至32中任何一個權利要求所述的方法,其特徵在於,被回歸量的不確定性是計算得到的,並且所述不確定性被用於計算所述資格測量的時候。
34.如權利要求21或23至33中任何一個權利要求所述的方法,其特徵在於,所述步驟(4)和(5)包含(4)在被回歸量列的空間中對取樣進行群分析,(5)根據所述群分析計算一資格測量。
35.一種使某一圖象序列分割的裝置,所述序列由幀構成,每一幀由輸入信號的取樣組成,其特徵在於,所述裝置包含(1)形成參考圖象的裝置,所述參考圖象由從多個所述幀得到的取樣組成,(2)估計從所述參考圖象到每一所述幀的運動,(3)將經估計的運動重新格式化成行矢量的裝置,(4)將所述行矢量集合到一運動矩陣中去的裝置,(5)對運動矩陣進行主分量分析的裝置,從而獲得由稱為標記矢量的多個列矢量構成的標記矩陣和由稱為載荷矢量的多個行矢量構成的載荷矩陣,從而每一標記矢量與用於每一幀的一個元素對應,從而每一載荷矢量的每一元素與參考圖象的一個元素對應,從而所述標記矩陣的一個列和一個載荷矢量一起構成一個因子,並且從而所述因子的數量小於或等於所述幀的數量,(6)將每一載荷重新格式化成與用作運動的同樣的格式的裝置,(7)根據多個重新格式化的載荷進行分割的裝置。
36.如權利要求35所述的裝置,其特徵在於,所述裝置適合於權利要求2至34中任何一個權利要求所述的方法。
全文摘要
本發明涉及通過開發和分析參數系或參數子空間在大的信號流中實現分組或分割的方法。對輸入信號的幀中的取樣分割的方法包含下述步驟:(1)形成一參考圖象,該圖象由從多個所述幀得到的取樣組成,(2)估計從所述參考圖象到每一所述幀的運動,(3)將經估計的運動重新格式化成行矢量,(4)將所述行矢量集合到一運動矩陣中,(5)對運動矩陣進行主分量分析,從而獲得由稱為標記矢量的多個列矢量構成的標記矩陣和由稱為載荷矢量的多個行矢量構成的載荷矩陣,從而每一標記矢量與用於每一幀的一個元素對應,從而每一載荷矢量的每一元素與參考圖象的一個元素對應,從而所述標記矩陣的一個列和一個載荷矢量一起構成一個因子,並且從而所述因子的數量小於或等於所述幀的數量,(6)將每一載荷重新格式化成與用作運動的同樣的格式,(7)根據多個重新格式化的載荷進行分割。
文檔編號G06T7/20GK1179223SQ96192717
公開日1998年4月15日 申請日期1996年3月22日 優先權日1996年3月22日
發明者哈拉爾德·奧高·馬滕斯, 讓·奧託·雷伯格 申請人:德國Idt國際數位技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀