新四季網

對象識別方法及其設備的製作方法

2023-06-29 06:07:06 3

專利名稱:對象識別方法及其設備的製作方法
技術領域:
本發明涉及一種用於識別包括在圖像中的對象的技術。
背景技術:
為了在本部分解釋對象識別的現有技術,將以通過識別所獲取的面部圖像而進行的身份識別為例。一般說來,有兩種使用面部圖像進行身份識別的方法。
第一種方法是模式匹配方法,該方法捕獲面部作為由各像素的濃度值的二維陣列表示的圖像模式,並且通過匹配圖像模式進行識別。以使用PCA(Principal Component Analysis,主成分分析)的本徵臉(eigenface)方法(例如,見美國專利號5,164,992)作為模式匹配方法的典型例子,並在下面說明本徵臉方法的基本框架。
本徵臉方法將PCA應用於大量面部圖像的濃度值模式以獲得被稱作本徵臉的標準正交基(orthonormal basis)。使用該標準正交基,將KL(Karhunen-Loeve)展開應用於任意面部圖像的濃度模式以獲得該模式的維度上壓縮的向量。最後,使用該向量作為用於識別的特徵向量,通過輸入模式的特徵向量和預先登記的登記模式的特徵向量之間的統計處理進行識別。已說明了本徵臉方法的基本框架。該基於PCA的方案必須從大量面部圖像中預先獲得本徵臉(平均臉),且用於生成本徵臉的面部圖像的光照變化和空間布局變化會影響精度。
作為第二種方法,存在通過匹配特徵向量進行識別的基於特徵的方法,該特徵向量通過提取表示面部的眼睛、嘴巴和鼻子等特徵的特徵點用數值表示特徵的形狀及其空間布局關係。以基於動態連結結構(Dynamic link architecture)的方案(例如,見美國專利號6,356,659)作為基於特徵的方法的典型例子,並在下面解釋該方案的基本框架。
在該方案中,將伽柏(Gabor)濾波器用於獲取作為特徵向量的局部紋理(local texture)信息,該伽柏濾波器從設置在面部模式上的大量採樣點(例如眼睛、嘴巴、鼻子和面部輪廓)中提取濃度特徵的周期性和方向性。計算將採樣點和節點關聯起來的圖,並且通過將特徵向量用作採樣點的空間布局信息和與採樣點相對應的節點的屬性值來創建該圖。通過彈性變形在輸入模式和預先登記的登記模式圖之間的節點中的空間布局信息、並選擇具有最高相似度的登記模式,來實現該識別處理(Dynamic graphmatching,動態圖匹配)。已說明了基於動態連結結構的方案的基本框架。
然而,由於基於動態連結結構的方案在計算採樣點處的屬性值時需要複雜的數值計算,並且需要動態圖匹配的處理,因此操作成本依賴於這些處理過程而上升。

發明內容
考慮到上述問題做出了本發明,本發明的目的是提供一種用於簡單地進行對象的單獨識別的技術。
為了獲得本發明的目的,例如,本發明的圖像處理方法包括以下配置。
即,一種用於執行識別包括在圖像中的對象的處理的圖像處理方法,其特徵在於,該方法包括檢測步驟,用於檢測包括在圖像中的感興趣對象的特徵;設置步驟,用於設置局部區域,該局部區域包括所述檢測步驟中檢測到的特徵中的、獲得對象的形狀和位置關系所需的特徵群;以及判斷步驟,用於基於在設置步驟中對感興趣對象設置的局部區域的特徵群,來判斷感興趣對象是不同個體中的哪一個。
為了獲得本發明的目的,例如,本發明的圖像處理設備包括以下配置。
即,一種用於執行單獨識別包括在圖像中的對象的處理的圖像處理設備,其特徵在於,該圖像處理設備包括檢測部件,用於檢測包括在圖像中的感興趣對象的特徵;設置部件,用於設置局部區域,該局部區域包括由所述檢測部件檢測到的特徵中的、獲得對象的形狀和位置關系所需的特徵群;以及判斷部件,用於基於由設置部件對感興趣對象設置的局部區域中的特徵群,來判斷感興趣對象是不同個體中的哪一個。
通過以下結合附圖的說明,本發明的其它特徵和優點將顯而易見,在全部附圖中,相同的附圖標記表示相同或者相似的部件。


包括在說明書中並且構成說明書一部分的附圖,示出了本發明的實施例,並且與說明書一起用來解釋本發明的原理。
圖1是示出根據本發明第四實施例的圖像處理設備的基本配置的框圖;圖2是示出根據本發明第一實施例的圖像處理設備的基本配置的框圖;圖3是用於識別包括在所拍攝的圖像中的人臉的處理的流程圖;圖4是示出在本發明第一實施例中使用的神經網絡的結構的圖;
圖5A~5H示出將從圖像中的人臉中提取的特徵;圖6是用於解釋步驟S 308中的歸一化處理的圖;圖7A~7C是用於解釋局部區域的設置的圖;圖8A是示出特徵向量的結構的例子的圖;圖8B示出根據本發明第二實施例的局部區域;圖9示出特徵和局部區域之間的關係;圖10示出通過疊加第二級的各檢測模塊的所有檢測輸出分布而生成的分布;圖11示出包括圖10所示的各分布的局部區域;以及圖12是示出根據本發明第三實施例的神經網絡的結構的圖。
具體實施例方式
現在根據附圖詳細說明本發明的優選實施例。
第一實施例該實施例將解釋一種提取包括在圖像中的對象、基於對象特徵的特徵點生成包括形狀信息和空間布局信息的用於識別的高階特徵向量、並且將高階特徵向量與通過學習算法生成的模型資料庫進行匹配以識別該對象的技術。
圖2是示出根據該實施例的圖像處理設備的功能配置的框圖。如圖2所示,假定將根據該實施例的圖像處理設備應用於攝像設備,該攝像設備包括圖像輸入單元20、圖像輸出單元21、對象檢測單元22、特徵提取單元23、局部區域設置單元24、特徵向量生成單元25、以及對象識別單元26。在該實施例中,這些單元通過硬體來實現。然而,這些單元可以以程序的形式存儲在攝像設備的ROM中,並且該攝像設備的CPU可以執行這些程序。
由包括鏡頭和CCD、CMOS等攝像元件的攝像系統(未示出)所拍攝的圖像信號被輸入到圖像輸入單元20。
圖像輸入單元20通過白平衡校正等已知的校正處理對來自攝像系統的圖像信號進行校正,並且將校正後的圖像信號輸出到圖像輸出單元21和對象檢測單元22。
圖像輸出單元21將來自圖像輸入單元20的圖像信號輸出到CRT、液晶顯示器等顯示裝置(未示出)。通過這種方式,將基於由攝像系統拍攝的圖像信號的圖像顯示在該顯示裝置的顯示屏上。
對象檢測單元22包括模仿人的神經迴路的神經晶片等專用晶片,或者FPGA、ASIC等通用晶片。對象檢測單元22檢測包括在來自圖像輸入單元20的圖像中的對象。
如在對象檢測單元22中一樣,特徵提取單元23包括模仿人的神經迴路的神經晶片等專用晶片,或者FPGA、ASIC等通用晶片。特徵提取單元23具有提取由對象檢測單元22檢測到的對象的特徵的功能。
局部區域設置單元24包括圖像處理專用處理器或者通用處理器,並且執行用於在由特徵提取單元23提取的特徵周圍設置區域的處理。
特徵向量生成單元25包括圖像處理專用處理器或者通用處理器,並且生成由局部區域設置單元24所設置的區域內的特徵向量。
對象識別單元26包括乘積和運算電路、比較器等簡單電路。對象識別單元26具有如下功能將由特徵向量生成單元25生成的特徵向量作為輸入值計算乘積和值,並且將該乘積和值與其自身所保持的資料庫進行比較。
下面說明由具有上述配置的攝像設備執行的處理,即用於識別包括在由該攝像設備所拍攝的圖像中的人臉的處理。
圖3是用於識別包括在所拍攝的圖像中的人臉的處理的流程圖。
在步驟S300,通過圖像輸入單元20輸入包括待識別對象的面部的圖像。在步驟S301,該圖像被輸出到圖像輸出單元21和對象檢測單元22。作為結果,由於圖像輸出單元21校正該圖像並且將校正後的圖像輸出到顯示裝置(未示出),因此從圖像輸出單元21輸入的圖像被顯示在該顯示裝置的顯示屏上。
在步驟S302,執行用於由對象檢測單元22從圖像輸入單元20輸入的圖像中檢測待識別的人臉的處理。作為檢測方法,用戶可以通過操作在攝像設備中配備的按鈕(未示出)或者觸摸面板型顯示屏上的按鈕在顯示屏上直接指定面部區域,或者可以使用已知的使用面部檢測模板等濾波器的模板匹配技術。
在該實施例中,使用基於神經網絡的面部檢測技術進行面部檢測。下面說明在步驟S302執行的基於神經網絡的面部檢測技術。注意,該技術對於本領域技術人員來說是已知的,請參照M.Matsugu,K.Mori,et.al,「Convolutional Spiking NeuralNetwork Model for Robust Face Detection」,2002,International Conference On Neural Information Processing(CONIP02)。
圖4是示出該網絡的結構的圖。如圖4所示,該神經網絡是分層神經網絡,並且包括用於從低階特徵開始順序識別高階特徵的結構。
附圖標記40表示來自圖像輸入單元20的圖像(輸入圖像)。附圖標記41表示包括檢測層41a和統合(integration)層41b的第一層(級)。附圖標記42表示包括檢測層42a和統合層42b的第二級。附圖標記43表示包括檢測層43a和統合層43b的第三級。附圖標記44表示第四級。
在第一級41中,檢測層41a從輸入圖像40中提取原始特徵,統合層41b對這些原始特徵進行統合。統合結果被輸入到第二級42中的檢測高階特徵的檢測層42a。如在第一級的統合層41b中一樣,統合層42b執行用於對由檢測層42a檢測到的特徵進行統合的處理。同樣,第三級43的檢測層43a使用第二級42中的統合層42b的統合結果來檢測高階特徵。如在第二級的統合層42b中一樣,統合層43b執行用於對由檢測層43a檢測到的特徵進行統合的處理。最後,第四級44使用第三級43的統合層43b的統合結果來檢測面部。
下面使用圖5A~5H說明待檢測的特徵。圖5A~5H示出將從圖像中的人臉中提取的特徵。
在該實施例中,在執行面部檢測處理時,在兩眼的內外眼角、嘴巴的兩端、眼睛和嘴巴的特徵附近獲取神經元的發火(firing)分布。將這些所獲取的分布稱作中間輸出分布或者檢測輸出分布。
第一級41用於檢測具有面部的特徵信息的特徵,且在該實施例中,檢測層41a和統合層41b都具有八個即第一到第八檢測模塊。例如,第一級可能具有到亮度變化或者線段方向提取程度的檢測水平。
接著,第二級42輸出以下輸出分布,例如表示由圖5B中的黑點所表示的右開V形邊緣特徵的檢測輸出分布、表示由圖5C中的黑點所表示的左開V形邊緣特徵的檢測輸出分布、表示由圖5D中的黑點所表示的線段邊緣1特徵的檢測輸出分布、以及表示由圖5E中的黑點所表示的線段邊緣2特徵的檢測輸出分布。
如圖5B所示,表示右開V形邊緣特徵的檢測輸出分布表示左眼的外眼角、右眼的內眼角和嘴巴的左端的檢測結果。如圖5C所示,表示左開V形邊緣特徵的檢測輸出分布表示右眼的外眼角、左眼的內眼角和嘴巴的右端的檢測結果。通過這種方式,V形邊緣特徵可以有效地檢測嘴巴的左端特徵507和右端特徵508、兩眼的外眼角特徵509和510、以及兩眼的內眼角特徵511和512,如圖5A所示。
同樣,線段邊緣1特徵和線段邊緣2特徵可以有效地檢測眼睛的上眼瞼513和下眼瞼514、以及上唇515和下唇516,如圖5A所示。
第三級43在接收到第二級42的特徵檢測結果時,輸出由圖5F中的黑點所表示的眼睛檢測輸出分布504和由圖5G中的黑點所表示的嘴巴檢測輸出分布505。
最後,第四級44基於第三級43的眼睛和嘴巴檢測結果,輸出由圖5H中的黑點所表示的面部檢測輸出分布506。
通過這種方式,較高的級(圖4右側的級)通過對由較低的級檢測到的特徵進行統合來執行用於檢測更粗糙的特徵的處理。如上所述,由於使用這種分層神經網絡的特徵檢測是現有技術,所以不再避開更多的解釋。
返回參照圖3,對象檢測單元22在步驟S303檢查在來自圖像輸入單元20的圖像中是否存在面部區域。通過判斷例如神經元的發火分布是否具有預定值或者更大值來實現該檢查處理。另外,如果在形成第四級的神經元群中存在具有等於或者高於預定值的輸出的神經元組,則可以判斷出「檢測到面部」。
在步驟S304,特徵提取單元23通過基於步驟S302中的中間神經元檢測輸出分布計算重心位置,來確定面部區域內的特徵(例如,眼睛和嘴巴)的空間布局。通過這種方式,可以提高特徵檢索精度和特徵提取速度。
注意,檢測輸出分布具有與輸入圖像相同的大小,並且形成檢測模塊的各個神經元對應於形成輸入圖像的像素。因此,當計算在檢測模塊的神經元中檢測到預定特徵的神經元群(即,輸出值等於或者高於預定值的神經元群)的重心位置時,可以獲得輸入圖像中該預定特徵的位置。
在該實施例中,通過計算在步驟S302中檢測為眼睛和嘴巴的神經元群的重心位置,獲得面部區域中的眼睛和嘴巴的位置(空間布局)。然後,在所獲得的位置(眼睛和嘴巴的位置)周圍設置各具有任意大小的區域,並且將該區域定義為特徵檢索範圍。該區域的大小包括待提取的特徵就可以了。
在步驟S305,特徵提取單元23進行輸入圖像的直方圖校正,以提高特徵提取精度。作為直方圖校正方法,可以使用已知的圖像處理技術。在該實施例中,通過對輸入圖像的G通道的範圍從「20」到「150」的亮度值進行線性插值、並將20及其以下的亮度值設置成亮度值「0」、將150及其以上的亮度值設置成亮度值「255」,來實現直方圖校正。注意,步驟S305中的直方圖校正處理不是必需的。
在步驟S306,特徵提取單元23對在步驟S304設置的檢索範圍應用面部特徵的特徵提取。作為提取方法,用戶可以通過操作配備在攝像設備中的按鈕(未示出)或者觸摸面板型顯示屏上的按鈕在顯示屏上直接指定面部特徵,或者可以使用已知的使用面部檢測模板等濾波器的模板匹配技術。在該實施例中,使用進行學習以從眼睛和嘴巴區域中檢測特徵的基於神經網絡的技術,並計算神經元的輸出分布的重心位置,從而檢測圖5A~5H所示的嘴巴的左右端特徵和兩眼的內外眼角特徵。至於坐標計算,如在步驟S302中所述的一樣,計算在檢測模塊中檢測到神經元的預定特徵的神經元群(即,輸出值等於或者高於預定值的神經元群)的重心位置,從而獲得輸入圖像中該預定特徵的位置。
在步驟S307,特徵提取單元23檢查在步驟S306提取的特徵的布局關係。也就是說,單元23檢查所提取的特徵坐標在描述對象時是否不合適。作為實際例子,在該實施例中,如果內眼角和外眼角的特徵坐標低於在步驟S304提取的面部區域的中心,則判斷出特徵提取結果是不充分的。如果允許輸入上下顛倒的面部圖像,則本發明不受該條件的限制。該條件取決於系統的使用情況,但是具有給定條件的特徵連續性檢查單元是必不可少的。
如果在步驟S307的檢查處理中判斷出特徵坐標是合適的,則流程進入步驟S308,並且特徵提取單元23對輸入圖像的大小進行歸一化。作為歸一化方法,可以使用已知的歸一化方案。在該實施例中,如圖6所示,基於在步驟S306提取的兩眼的內眼角位置獲得內眼角距離60,應用仿射變換以對所有輸入圖像將該距離60設置成相同的。圖6是用於解釋步驟S308中的歸一化處理的圖。
同時,檢測連接內眼角的直線的斜率61,並且應用考慮到轉動的仿射變換校正來應付轉動變化。注意,步驟S308中的歸一化處理不是必不可少的。
在步驟S309,特徵提取單元23獲取反映對象的形狀信息和空間布局信息的輸出分布。作為獲取輸出分布的方法,可以將已知的模板匹配技術等的相關值分布用作形狀信息,並且可以將特徵點之間的歐氏(Euclidian)距離直接計算為空間布局信息。在該實施例中,使用圖4所示的第一級中的一個特徵的檢測輸出分布來提取形狀信息。將第一級的一個特徵用作檢測輸出分布的原因如下。
第一級的檢測模塊使用BP(Back Propagation,反向傳播)方法(見M.Matsugu,K.Mori,et.al,「Convolutional SpikingNeural Network Model for Robust Face Detection」,2002,International Conference On Neural Information Processing(CONIP02))進行學習以提取第二級中所期望的特徵。因此,由第一級的檢測模塊所提取的特徵不能被唯一指定,但是第一級的檢測結果在大概觀察時可能具有與眼睛、鼻子、嘴巴和面部輪廓等局部特徵的邊緣提取處理幾乎相同的檢測水平。在這些模塊中,第八特徵檢測模塊的檢測輸出分布對各局部特徵的細節進行邊緣提取,並且忠實反映其形狀。因此,該檢測輸出分布被用作用於在隨後的處理中提取形狀信息的信息。這就是用第一級的一個特徵來提取形狀信息的原因。
由於三個特徵即第二級的右開V形邊緣特徵、左開V形邊緣特徵和線段邊緣1特徵的檢測輸出分布(500、501、502)檢測局部特徵的端部(端點、端側),即內眼角、外眼角、眼瞼、以及嘴巴的兩個端點,因此它們表示至少眼睛和嘴巴的局部特徵的相對位置關係。因此,這些檢測輸出分布被用作用於在隨後的處理中提取空間布局信息的信息。通過這種方式,空間布局信息不明確給出為各特徵之間的歐氏距離等的距離間隔。
如上所述,第一級的檢測結果被用作用於獲得眼睛、鼻子、嘴巴以及面部輪廓等局部特徵的形狀信息的信息,第二級的檢測結果被用作用於獲得表示眼睛和嘴巴等局部特徵的相對位置關係的空間布局信息的信息。
返回參考圖3,在步驟S310,局部區域設置單元24對在步驟S306提取的輸入圖像中的特徵的坐標應用仿射變換,以設置包括所述特徵的區域(局部區域)。例如,將以在步驟S306提取的輸入圖像中的各特徵的坐標為中心的矩形設置為局部區域。
局部區域具有正方形、矩形等任意形狀。局部區域的大小可以任意設置,但是其大小具有重要意義。儘管局部區域的大小取決於待識別的對象的大小,但是如在本實施例中一樣,當從真實環境圖像中進行身份識別時,如果設置具有大尺寸的局部區域,則由於該局部區域受環境變化等噪聲影響而不合適。另一方面,如果設置具有小尺寸的局部區域,則不能確定該區域是否具有識別對象所需的信息。在該實施例中,用於形狀信息提取的局部區域為具有7像素(垂直)×7像素(水平)大小的正方形形狀,用於空間布局信息提取的局部區域的大小為33像素(垂直)×63像素(水平)以及30像素(垂直)×23像素(水平)。這些區域大小僅是例子,可以考慮到取決於局部區域大小的影響來適當地確定區域大小。下面使用圖7A~7C詳細說明在本實施例中設置的局部區域。
如圖7A所示,第一級的第八特徵檢測模塊的檢測輸出分布700被用作用於形狀信息提取的信息,且如圖7B所示,對內眼角和外眼角、嘴巴的兩端等的區域701設置局部區域702~707。設置局部區域的面部區域不限於此,且可以對示出個人差異的鼻孔、鼻翼、上唇和下唇設置局部區域。
另一方面,如圖7B和7C所示,對由圖7B中的黑點所表示的左右V形邊緣檢測輸出分布(通過將兩個V形邊緣檢測輸出分布相加來獲取左右V形邊緣檢測輸出分布)和線段邊緣1檢測輸出分布設置局部區域711和715,以便當內眼角距離被歸一化時提取眼睛兩端之間的分離度或者提取眼睛和嘴巴的布局關係。同樣,在提取其它特徵時,可以為其它特徵區域設置局部區域。
也就是說,為了獲得局部區域711,首先計算內眼角中點709。通過計算在步驟S306計算的左右內眼角位置的中點來獲得內眼角中點709。以該內眼角中點709為中心,將包括左右內眼角位置和左右外眼角位置的區域計算為用於獲取眼睛分離度等布局信息的局部區域711。
另一方面,為了獲得局部區域715,將包括內眼角中點709和線段邊緣1檢測輸出分布的區域計算為用於獲取眼睛-嘴巴布局信息的局部區域715。由於內眼角中點709表示眼睛的空間布局,且線段邊緣1特徵表示嘴巴的空間布局,因此局部區域715內的檢測輸出分布表示眼睛和嘴巴之間的分離度,即空間布局信息。如上所述,設置局部區域。從局部區域內的檢測輸出分布中獲取形狀信息和空間布局信息。
返回參考圖3,在步驟S311,特徵向量生成單元25根據在步驟S310中設置的局部區域生成包括形狀信息和/或空間布局信息的特徵向量。如上所述,在該實施例中,形狀信息使用第一級的第八特徵檢測模塊的檢測輸出分布,空間布局信息使用第二級的三個特徵即右開V形邊緣特徵、左開V形邊緣特徵和線段邊緣1特徵的檢測輸出分布。
可以將模板匹配等的相關值分布用作檢測輸出分布。然而,由於該實施例使用神經網絡的檢測輸出分布,因此使用與局部區域中的像素相對應的神經元的發火值f。注意,發火值f落入範圍0≤f≤1內。因此,將特徵向量計算為具有與局部區域中的像素相對應的神經元的發火值的向量。圖8A示出特徵向量的結構的例子。在該實施例中,生成各特徵向量以包括形狀信息和空間布局信息。通過這種方式,特徵向量生成單元25對各局部區域生成特徵向量。
在生成特徵向量時,可以對包括在矩形區域中的各特徵分割該矩形區域,且可以對所分割的區域生成特徵向量。
返回參考圖3,在步驟S312,對象識別單元26將在步驟S311計算出的特徵向量輸入到預先準備的給定模型函數中以識別對象。作為數據比較方法,可以使用通過神經網絡或者最近鄰判斷法則等已知的模式識別技術生成的模型函數進行分類。在本實施例中,使用SVM(Support Vector Machine,支持向量機)學習算法,以利用待識別的登記者和除該登記者以外的人的特徵向量生成模型函數。使用SVM的原因是可以進行高速學習、泛化性能高、並且SVM得到了理論支持。下面說明SVM學習算法的模型函數的生成以及在該實施例中使用的輸入數據的分類流程。
SVM學習算法在網際網路上已經公開。本實施例的SVM學習算法使用在申請本發明時公開在「http://www.csie.ntu.edu.tw/~cjlin/libsvm」的libsvm-2.5。libsvm具有各種聚類類型和核函數。本實施例使用利用成本變量(cost variable)的被稱作C-SVC的聚類類型,並使用線性函數作為核函數。請參考以上URL所指定的主頁以獲得詳細內容。
首先解釋模型函數的生成流程。本實施例需要登記者的圖像數據和除登記者以外的人的圖像數據。接著,通過與圖3中的步驟S300~S311相同的處理流程,從各單獨圖像數據中提取所期望的特徵(本實施例中兩眼的內外眼角的特徵和嘴巴兩端的特徵)周圍的特徵向量。然後,生成指定這些特徵向量及其屬性(表示這些特徵向量是誰的特徵向量的信息)的學習數據文件,並且通過指定了聚類類型和核函數的SVM學習算法進行學習,即模型函數的生成。
下面詳細說明使用所生成的模型函數對輸入進行分類的處理。模型函數具有帶有多個兩類分類函數的格式。例如,假定有四個登記者,他們分別是A類、B類、C類和D類,除這些登記者以外的類為E類。此時,兩類分類函數是使用閾值(在生成模型函數時對兩類生成該閾值)來判斷A和B中的哪一個可能是輸入的函數。因此,輸入特徵向量在所有類,即A或者B、A或者C、A或者D、A或者E、B或者C、......,之間經過兩類分類,且通過多數判決處理確定最後的類。
通過該處理,可以從包括任意對象的圖像中識別出人。
第二實施例在第一實施例中,從第一級的一個特徵的檢測輸出分布中提取各局部特徵的形狀信息。然而,在該實施例中,還從第二級提取形狀信息。因此,除了用於生成特徵向量的局部區域不同之外,該實施例的處理流程與第一實施例中的基本相同。
圖8B示出根據該實施例的局部區域。圖9示出特徵和局部區域之間的關係。如圖9所示,根據通過步驟S306中的特徵提取所提取的作為特徵群的左眼外眼角特徵907、左眼內眼角特徵901、右眼內眼角特徵903、右眼外眼角特徵910、嘴巴左端特徵904、嘴巴右端特徵906,計算作為中點群的內眼角中點902、嘴巴中點905、左眼中點908、右眼中點909。接著,參考這些中點設置局部區域912~916。更具體地,設置分別以單個眼睛的大小為範圍的左眼局部區域912和右眼局部區域913、以嘴巴為範圍的嘴巴局部區域914、內眼角範圍的內眼角局部區域915以及眼睛-嘴巴範圍的眼睛-嘴巴局部區域916。這些局部區域的實際設置目的如下。
由在提取特徵向量時所使用的檢測輸出分布所表示的特徵量是重要的。該實施例使用圖4所示的第二級的檢測輸出分布。
在第二級中提取的特徵量包括圖5B中的右開V形邊緣、圖5C中的左開V形邊緣501、圖5D中的線段邊緣1以及圖5E中的線段邊緣2。對於由圖10的黑色區域所表示的「通過疊加第二級的檢測模塊的所有檢測輸出分布而形成的分布」設置局部區域(912~916)。圖11示出各局部區域。下面使用圖11說明局部區域的設置目的。由於左眼局部區域1100、右眼局部區域1101和嘴巴局部區域1102的檢測分布表示右開V形邊緣特徵和左開V形邊緣特徵即眼睛和嘴巴的端點特徵的檢測分布、和線段邊緣特徵即上下眼瞼特徵和上下唇特徵的檢測分布,所以可以提取眼睛和嘴巴各自的形狀信息。因此,可以提取質量與第一實施例的形狀信息的質量相當的特徵。而且,如在第一實施例中一樣,從眼睛-嘴巴局部區域1103中提取眼睛和嘴巴的空間布局信息,從眼睛局部區域1104中提取眼睛的分離度的空間布局信息。已解釋了設置如圖9所示的局部區域的目的。
最後,從局部區域中提取輸出分布,如在第一實施例中一樣,生成包括形狀信息和空間布局信息的高階特徵向量,並將該高階特徵向量輸入到模型函數以識別對象。
第三實施例基本處理流程與第一實施例中的相同。然而,該實施例採用基於圖12所示的神經網絡的檢測輸出分布作為特徵向量生成的檢測輸出分布。
圖12示出根據該實施例的神經網絡的結構。用於特徵提取的該神經網絡的結構如圖12所示。與在第一和第二實施例中使用的神經網絡不同,添加了上下眼瞼檢測模塊1210和1211以及上下唇檢測模塊1212和1213。
在該實施例中所使用的用於特徵提取的神經網絡1200中,如在第一實施例中一樣,在接收到來自輸入圖像1201的第一級1202的特徵檢測結果時,第二級1203中的左眼內眼角檢測模塊1204、左眼外眼角檢測模塊1205、右眼內眼角檢測模塊1206、右眼外眼角檢測模塊1207、嘴巴左端點檢測模塊1208、嘴巴右端點檢測模塊1209、上眼瞼檢測模塊1210、下眼瞼檢測模塊1211、上唇檢測模塊1212以及下唇檢測模塊1213檢測各特徵。
預先配置各檢測模塊以學習並檢測主要包括各局部特徵(左右內眼角、左右外眼角、嘴巴左右端點、上下眼瞼、上下唇)的各種局部特徵圖像。最後,圖12的神經網絡被用作特徵提取單元和根據特徵提取單元的特徵檢測輸出分布生成特徵向量的模塊。因此,由於該神經網絡具有已學習了各特徵的各種變化的檢測模塊,因此可以以比第一實施例更高的精度來提取特徵,該神經網絡將左右V形特徵檢測輸出分布和線段特徵檢測輸出分布作為特徵(左右內眼角、左右外眼角、嘴巴左右端點、上下眼瞼以及上下唇)的提取結果進行輸出。因此,檢測輸出分布自身足以反映各局部特徵的特性。
至於用於特徵向量生成的局部區域設置,可以採用與圖9所示相同的方式。由於如在第二實施例中一樣,可以從特徵提取神經網絡的結果中獲得特徵和中點群,因此如在第一實施例中一樣,基於其坐標來設置局部區域。特徵檢測模塊的檢測輸出分布被累加,並且還對該總和輸出分布設置局部區域,從而提取檢測輸出分布。基於該檢測輸出分布,生成均包括形狀信息和布局信息的高階特徵向量,且如在第一和第二實施例中一樣,將該高階特徵向量輸入到模型函數,從而識別對象。
第四實施例已經將根據第一到第三實施例中的每個實施例的圖像處理設備作為攝像設備進行了說明。也就是說,將該設備作為識別通過攝像輸入的圖像中的面部的設備進行了說明。在該實施例中,將該圖像處理設備應用於PC(personal computer,個人計算機)、WS(workstatin,工作站)等計算機。也就是說,在第一到第三實施例中,通過攝像將圖像輸入到設備中。然而,在該實施例中,通過將圖像從硬碟驅動器等外部存儲裝置裝載到該設備中的RAM上、或者通過I/F由該設備從外部接收圖像來獲取該圖像。該設備的CPU執行對該圖像的識別處理。
圖1是示出根據該實施例的圖像處理設備的基本配置的框圖。
附圖標記100表示控制整個設備並且使用存儲在RAM 101和ROM 102中的程序和數據執行後面說明的各處理的CPU。
附圖標記101表示包括當CPU 100執行各種處理時所需的工作區域、以及用於暫時存儲從外部存儲裝置105裝載的程序和數據的區域的RAM。
附圖標記102表示存儲引導程序、該設備的設置數據等的ROM。
附圖標記103表示包括鍵盤和滑鼠等指示裝置的操作單元,並且可以將來自用戶的各種指令輸入到CPU 100。
附圖標記104表示包括CRT、液晶顯示器等的顯示裝置,並且可以通過文本、圖像等顯示CPU 100的處理結果。
附圖標記105表示包括硬碟驅動器等大容量信息存儲裝置的外部存儲裝置。外部存儲裝置105保存OS(operating system,作業系統)、使CPU 100實現圖2所示的單元的功能的程序和數據。一些或者全部所述程序和數據在CPU 100的控制下被裝載到RAM101上。同樣,外部存儲裝置105保存包括待識別的對象的圖像數據、模型函數數據等,這些在需要時在CPU 100的控制下被裝載到RAM 101上。
附圖標記106表示I/F。通過該I/F 106與外部設備進行數據通信。例如,可以從與I/F 106連接的數位照相機或者其它計算機下載包括待識別的對象的圖像數據。注意,所下載的圖像數據被輸出到RAM 101、並且作為將由CPU 100處理的對象暫時存儲在那裡。
附圖標記107表示連接上述單元的總線。
根據上述各實施例的對象的單獨識別處理提供以下效果。
以身份識別為例,由於上述識別處理基於一些特徵(例如眼睛、嘴巴和鼻子)而不是全部特徵的局部區域,因此其受到圖像數據的光照變化和轉動變化的影響不大。由於通過面部檢測和特徵提取處理來獲取面部的空間布局或者面部特徵的空間布局,並且基於該信息設置局部區域,因此識別處理不受空間布局變化的影響。
因此,根據上述各實施例的識別處理相對於在本發明的背景技術中所述的預測取決於光照變化和空間布局變化的本徵臉方法來說,具有很大的優勢。而且,由於根據上述各實施例的識別處理使用檢測輸出分布作為為特徵向量生成部件的神經網絡的中間輸出結果,其可以作為面部檢測處理的一部分安裝,並可以實現緊湊型系統。因此,根據上述各實施例的識別處理相對於在本發明的背景技術中所述的動態連結結構來說,在處理成本上具有優勢。
其它實施例當照相機的CPU或者MPU讀出並且執行來自記錄介質(或者存儲介質)的程序代碼時,也實現了本發明的目的,所述記錄介質記錄可實現上述實施例的功能的軟體程序的程序代碼。在這種情況下,從記錄介質讀出的程序代碼自身實現上述實施例的功能,並且存儲該程序代碼的記錄介質構成本發明。
上述實施例的功能不僅可以通過由照相機執行所讀出的程序代碼來實現,而且還可以通過由運行在照相機上的作業系統(OS)基於程序代碼的指令執行的一些或者全部實際處理操作來實現。
而且,在將從記錄介質讀出的程序代碼寫入插入照相機中的功能擴展卡或者與照相機相連的功能擴展單元的存儲器中之後,上述實施例的功能可以通過配置在功能擴展卡或者功能擴展單元中的CPU等執行的一些或者全部實際處理操作來實現。
當將本發明應用於記錄介質時,該記錄介質存儲與上述流程圖(功能配置)相對應的程序代碼。
由於在不脫離本發明的精神和範圍的情況下,可以做出本發明許多明顯不同的實施例,因此應該理解,除了權利要求中所限定的以外,本發明不限於其特定的實施例。
優先權主張本申請主張在2004年6月28號提交的日本專利申請2004-190306號的優先權,其全部內容通過引用包括在此。
權利要求
1.一種圖像處理方法,用於執行識別包括在圖像中的對象的處理,其特徵在於,該方法包括檢測步驟,用於檢測包括在所述圖像中的感興趣對象的特徵;設置步驟,用於設置局部區域,該局部區域包括所述檢測步驟中檢測到的所述特徵中的、獲得所述對象的形狀和位置關系所需的特徵群;以及判斷步驟,用於基於在所述設置步驟中對所述感興趣對象設置的所述局部區域中的所述特徵群,來判斷所述感興趣對象是不同個體中的哪一個。
2.根據權利要求1所述的圖像處理方法,其特徵在於,所述判斷步驟包括以下步驟使用在所述設置步驟中對所述感興趣對象設置的所述局部區域中的特徵向量數據作為模型函數的輸入值,來判斷所述感興趣對象是不同個體中的哪一個,所述模型函數基於通過對各不同個體預先執行所述檢測步驟和所述設置步驟中的處理而獲得的所述局部區域中的特徵向量數據。
3.根據權利要求1或2所述的圖像處理方法,其特徵在於,所述檢測步驟包括以下步驟使用用於檢測包括在所述圖像中的對象的特徵的分層神經網絡,來提取包括在所述圖像中的所述感興趣對象的特徵。
4.根據權利要求3所述的圖像處理方法,其特徵在於,基於在所述分層神經網絡中用於檢測所述對象的局部特徵的邊緣的神經元群的輸出分布,來得到獲得所述形狀所需的特徵群。
5.根據權利要求3所述的圖像處理方法,其特徵在於,基於在所述分層神經網絡中用於檢測所述對象的局部特徵的端部的神經元群的輸出分布,來得到獲得所述位置關系所需的特徵群。
6.根據權利要求1~5中任一項所述的圖像處理方法,其特徵在於,所述判斷步驟包括以下步驟使用在所述設置步驟中對所述感興趣對象設置的所述局部區域中的特徵向量數據作為模型函數的輸入值,來判斷所述感興趣對象是不同個體中的哪一個,其中使用SVM(支持向量機)學習算法,利用待識別的對象和除該對象以外的個體的特徵向量生成所述模型函數。
7.根據權利要求1~6中任一項所述的圖像處理方法,其特徵在於,該方法還包括檢查步驟,該檢查步驟用於檢查在所述檢測步驟中檢測到的預定特徵的位置關係是否合適。
8.根據權利要求1~7中任一項所述的圖像處理方法,其特徵在於,該方法還包括歸一化步驟,該歸一化步驟用於基於在所述檢測步驟中檢測到的預定特徵的位置關係對所述圖像的大小和斜率進行歸一化。
9.一種圖像處理設備,用於執行識別包括在圖像中的對象的處理,其特徵在於,該設備包括檢測部件,用於檢測包括在所述圖像中的感興趣對象的特徵;設置部件,用於設置局部區域,該局部區域包括由所述檢測部件檢測到的所述特徵中的、獲得所述對象的形狀和位置關系所需的特徵群;以及判斷部件,用於基於由所述設置部件對所述感興趣對象設置的所述局部區域中的所述特徵群,來判斷所述感興趣對象是不同個體中的哪一個。
10.一種程序,其特徵在於,該程序使計算機執行根據權利要求1~8中任一項所述的圖像處理方法。
11.一種計算機可讀的存儲介質,其特徵在於,該存儲介質用於存儲根據權利要求10所述的程序。
全文摘要
特徵提取單元(23)提取包括在圖像中的感興趣對象的特徵。局部區域設置單元(24)設置包括獲得對象的形狀所需的特徵群的局部區域和包括獲得位置關系所需的特徵群的局部區域。特徵向量生成單元(25)計算所設置的局部區域中的特徵向量數據。對象識別單元(26)基於特徵向量來判斷感興趣對象是不同對象中的哪一個。
文檔編號G06T7/00GK1977286SQ20058002161
公開日2007年6月6日 申請日期2005年6月27日 優先權日2004年6月28日
發明者鈴木崇士, 森克彥, 真繼優和 申請人:佳能株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀