圖像智能模式識別搜索方法
2023-10-05 02:32:39 2
專利名稱:圖像智能模式識別搜索方法
技術領域:
本發明屬於計算機圖像模式識別領域,特別是針對網際網路搜尋引擎在搜索中動態生成的靜止圖像,提出了結合圖像注釋文本特徵和圖像自身度量值進行關聯分析的搜索方法。
背景技術:
圖像模式識別是指對圖像數據進行識別模式的自動化處理系統設計的研究。模式識別的一個重要應用領域是檢測特定類型的文本或圖像並對操作過程加以控制。模式(也被稱為對象、案例或樣本)是對象的「物理」描述,通常是信號、圖像或簡單的數值表。特徵是從模式得到的對分類有用的度量、屬性或基元。比如,在圖像識別中,一幅256×256的灰度圖可以得到65536個圖像度量值(光強),通常選取少量度量值作為特徵值以提高識別效率,但識別正確率也隨之下降了。模式識別系統的目標是要在表示空間和解釋空間之間找到一種映射關係。實現模式識別的基本方法包括數據聚類,用某種相似性度量的方法將數據組織成有意義的和有用的各組數據,解決方案是數據驅動的,不依賴於任何監督學習或指導,優點是分類精度較高,缺點是實現比較複雜,效率比較低。統計分類,屬於監督學習類型,基於用概率統計模型得到各類別的特徵向量分布,以對圖像進行分類。獲得特徵向量的分布基於一個類別已知的訓練樣本集(比如專家系統),用已知類別標籤的樣本集來訓練從而得知如何分類,實現較簡單,運行速度比較快,缺點是數據訓練樣本集很難準確確定以及分類精度比較低。神經網絡,是受人腦組織的生理學知識啟發而創立的,由一系列互相聯繫的相同的單元(神經元)組成,相互間的聯繫可以在不同的神經元之間傳遞增強或抑制信號。增強或抑制是通過調整相互間聯繫的權重係數實現。與統計分類方法相反,神經網絡與「模型」無關,表現出一種非監督學習下分類器的性能,具有能夠通過調整使得輸出在特徵空間中逼近任意目標的優點。存在的不足,一是數學表達很複雜並且不具有應用的通用性,二是從神經網絡本身得不到任何語義的信息。
目前,網際網路搜索已經不再局限於文本對象,越來越多地需要進行圖像、視頻等多媒體文件的搜索。各大搜尋引擎如Google、Yahoo、Live Search、Baidu、AltaVista等也提供了圖片搜索的功能,但主要是根據圖片的超鏈URL和圖片的關鍵字標註進行搜索。網際網路上圖像的檢索經歷了兩個階段第一階段是以關鍵字為基礎的檢索。第二階段是以圖像自身的內容為基礎的檢索。在基於關鍵字的圖像檢索系統中,需要先對所有的圖像進行關鍵字標註,然後才能使用全文檢索技術對圖像進行搜索。這種方法存在兩個方面的問題一是這種方法需要較多的人工參與,而且隨著圖像數目的增加,這種方法很難實現;第二個問題在於圖像所包含的信息量龐大,不同的人對於同一張圖像的理解也不相同,這就導致對圖像的標註沒有一個統一的標準,因而檢索的結果不能很好地符合用戶的需求。基於內容的檢索不同於基於關鍵字的檢索,它不需要過多的人工參與,而利用圖像自身的特徵(如顏色、紋理、形狀等)來進行檢索,具有較強的客觀性。但是,由於這些特徵並不代表圖像真正的語義信息,基於內容的檢索結果往往不令人滿意,有時會將不相關的廣告條、圖標、背景圖、按鈕也檢索出來。另外,如果關鍵字標註不存在,那麼圖像的真實含義將不得而知。
發明內容
為了克服現有圖像搜索技術的不足,本發明提出了圖像智能模式識別搜索方法,將圖像的超鏈URL分析與圖像自身內容模式識別相結合,並自動為圖像添加關鍵字。
技術方案首先由人類專家建立圖像的樣本訓練集資料庫,再結合基於文本的搜尋引擎技術和基於圖像內容的查詢技術,由網絡爬行器進行網際網路圖像的搜索,解析URL信息,將圖像URL及相關信息抓取到本地原始資料庫中;對圖像進行大小、格式初步過濾,將尺寸較小、格式不符合要求的圖像刪除,進行必要的解壓縮,圖像預分類等預處理;然後計算提取圖像的顏色特徵、紋理特徵、形狀特徵,得到相應的顏色、紋理、形狀特徵向量集,結合圖像URL信息一起保存到圖像基礎資料庫中,並為其建立索引;圖像基礎資料庫中的圖像與樣本訓練集進行特徵向量相似度計算,將圖像進行分類後保存到圖像分類資料庫中;接受用戶輸入的關鍵字或圖像描述,產生索引向量,與圖像分類資料庫中的圖像特徵向量進行相似度計算,將索引結果返回給用戶;用戶如果不滿意搜索結果,則對樣本訓練集資料庫和圖像分類資料庫進行自動調整,再次得出圖像檢索結果。
有益技術效果是結合了模式識別中非監督學習和監督學習的優點,提高了大規模網絡中圖片搜索的命中度,降低了得出圖片檢索結果的響應時間,並具備一定的智能模式識別分類功能。
具體實施例方式 為節省存儲空間、提高傳輸效率,網際網路上的圖像一般採用經過壓縮的JPEG、GIF、TIFF等格式,一般不採用BMP格式。目前在網際網路上使用最廣泛的是JPEG格式,JPEG(JointPhotographic Experts Group)是ISO、CCITT、IEC為連續色調靜態圖像聯合研製的第一個國際數字圖像壓縮標準。JPEG標準中定義了兩種不同性能的系統基本系統和擴展系統。基本系統將圖像分割成若干8×8的方塊,對每個方塊進行DCT變換,量化後的DC係數採用一維DPCM編碼,AC係數經過Z掃描後採用遊程編碼。最後對DPCM和遊程編碼的輸出使用哈夫曼編碼方法來降低冗餘度,解碼器只存儲兩個哈夫曼表。擴展系統能提供分層操作模式,每個圖像分量的編碼要經過多次掃描,從而提供空間解析度遞增的不同層次的圖像,每一層編碼輸出作為對上一層圖像編碼時的預測圖像。在網絡帶寬較窄的情況下,能夠較快地以最佳質量層進傳輸圖像。GIF(Graphics Interchange Format)是主要為數據流而設計的一種傳輸格式,可用於多圖像的順序傳輸和顯示,在網頁上經常出現的動畫圖標便是利用了GIF的這一特性。GIF按照順序被劃分為五個部分文件頭塊、邏輯屏幕描述塊、可選擇的色表(調色板)、圖像數據塊(或特殊目的塊)和尾塊,每個塊由每個字節中的標識碼或特徵碼標識。GIF採用的是LZW壓縮算法,該算法用一個字符串表保存數據流中的符號序列,每個字符串都有一個編碼作為它的索引值。
圖像通過兩種方式連結到HTML頁面內嵌式(InIine)和外鏈式(Reference). ①內嵌式這種方式通過使用IMG元素將圖像(一般為圖標或小尺寸圖像)嵌入HTML頁面。IMG元素使用SRC屬性來指定圖像的自身URL,使用ALT屬性來指定對圖像進行說明的文字。其基本格式為 ②外鏈式這種方式通過錨點元素(Anchor element)A來實現。A元素使用HREF屬性來指定連結圖像的URL。其基本格式為HYPERLINK TEXT 具體實現方法如下 (1)構建樣本訓練集。根據用戶喜好及網絡圖片現狀,挑選有代表性的JPEG圖片或GIF圖片保存在分類器中,比如劃分為自然、建築、人物、動物、植物等N類,針對每個分類建立數據集。比如「人物」類數據集(Human)包括K個含標準人臉的圖像,包括地球四大人種原型(H1,H2,H3和H4)的輪廓圖和各個原型從不同角度和距離拍攝的圖(分別記為Hij,其中i指典型模式的序號,j指角度的序號),原型經過處理後的圖像,添加了分段線性的輪廓線。確定輪廓時使用的是一種動態的輪廓跟蹤技術,不斷調整線段的數量。考慮到通用的情況,選擇提取分類圖像的文本描述、顏色、紋理、形狀作為各個分類的特徵向量C=C(Description,Color,Texture,Shape),建立各個分類初始的圖像特徵向量樣本訓練集。設置與各個分類圖像特徵向量的歐幾裡德距離的閾值Tij(1<=i<=N,1<=j<=4)和4個圖像特徵向量的初始權重係數Wj,計算出樣本訓練集的特徵向量索引 (2)圖像的爬行和獲取。在搜尋引擎伺服器後臺運行一個或多個網絡爬行器crawler(或稱網絡機器人robot、網絡蜘蛛spider),對一定範圍的網絡站點的HTML網頁進行爬行。當需要爬行的網絡規模小於設定值時,可採用通用的深度優先算法或寬度優先算法進行爬行;當網絡規模較大時,可採用並發蛙跳啟發式搜索算法(見另一發明專利)等比較適合大規模網絡爬行的效率較高的算法進行多線程爬行,可以根據搜索對象的特點,創建兩個或更多的線程並設置各個線程的運行優先級,控制每個線程的執行,使爬行進程的運行效率更高。如果只進行圖像的爬行,則對網絡爬行器設置URL過濾條件,根據HTML頁面的圖像連結方式解析含有諸如*.jpg、*.jpeg、*.gif等後綴的URL的連結文件及描述信息。採用時間戳技術,如果發現網頁上的圖像內容發生變化或者出現新的圖像網頁,則將頁面內所連結的圖像文件及文本注釋信息存儲到本地原始資料庫中。
(3)圖像特徵的提取。為了提高系統整體識別運行速度,考慮使用與樣本訓練集相同的圖像特徵作為四類特徵向量(文本描述Description,顏色Color,紋理Texture,形狀Shape)。從本地原始資料庫中讀取圖像,將圖像的注釋、URL地址等文本信息連接成字符串作為「文本描述」特徵向量。即Description=圖像注釋||URL地址。
其他類特徵向量的提取如下 ①「顏色」(Color)特徵向量的獲取。常用的顏色特徵空間包括一是最基本的RGB特徵空間,基於笛卡爾三維坐標系統,是一個立方體形狀,三個軸分別表示R(red紅色)、G(green綠色)和B(blue藍色),各個軸的取值範圍都是0到255。坐標原點(0,0,0)表示「黑色」,(255,0,0)表示「紅色」,(0,255,0)表示「綠色」,(0,0,255)表示「藍色」,(255,255,255)表示「白色」,從「黑色」到「白色」相連的立方體的對角線表示從「黑色」到「白色」的連續灰度值,立方體內其他各點表示不同的顏色。根據這個空間模型,每幅彩色圖像可以被分解到3個獨立的平面上。二是經過線性變換的特徵空間,包括用於PAL制式彩色標準的YUV顏色空間、用於NTSC制式彩色視頻標準的YIQ顏色空間和用於JPEG壓縮圖形格式的YCrCb顏色空間。三是經過線性變換和非線性變換的CIE(LUV)顏色空間。四是HSV顏色空間,HSV分別表示顏色的三種屬性色調(Hue)、飽和度(Saturation)和亮度(Value)。傳統的RGB表示方法實現很簡單,但不太滿足人眼的視覺特性和網際網路上圖片的特殊要求。HSV表示方法最滿足人眼特性,但實現很複雜,需要通過大量運算將RSB轉換為HSV。考慮到網際網路大規模圖像識別的問題,以及圖像格式大多為YCrCb表示方法。故提出一種比較快速實現的折衷辦法,首先判斷圖像的格式,如果為JPEG(JPG)格式,「顏色」特徵向量表示為三維向量Y、Cr、Cb的一維轉換形式,即顏色特徵向量其中Y=0.299R+0.587G+0.114B,Cr=0.5R-0.4187G-0.0813B,Cb=-0.1687R-0.3313G+0.5B;如果為BMP格式,則②「紋理」(Texture)特徵向量的獲取。紋理特徵是表示視覺的基本結構,主要包括粗糙性、方向性、對比度、周期性、凹凸性等。典型的紋理特徵包括Tamura紋理特徵、基於小波變換的紋理特徵、共現自回歸紋理特徵等。圖像的紋理分割是一項相當困難並且計算量很大的任務。因此,本發明提出比較簡單的實現方法,只計算粗糙度、對比度和方向性。粗糙度的計算1)計算移動平均數(moving average),對於2k×2k的窗口,移動平均數為 2)計算水平和垂直向的偏差 ck(i,j)=max(|ak(i-2k-1,j)-ak(i+2k-1,j)|,|ak(i,j-2k-1)-ak(i,j+2k-1)|) 3)確定窗口大小 4)計算平均窗口大小
對比度的計算 方向性是指圖像裡灰度值的方向。計算方向性需要以下四步 1)計算每個像素的梯度。梯度指此像素點周圍灰度值增加最快的方向。水平梯度等於左邊像素的三個灰度值與右邊像素的三個灰度值之間的偏差,而垂直梯度則是上下像素的三個灰度值偏差。
2)計算梯度向量的極坐標 3)計算傾斜向量角度的直方圖 nφ(k)表示滿足和|g|>t條件的像素點的比例。
4)得到直方圖以後,計算波峰(波谷到波谷)周圍的值的變化總和 方向性(Direction)=波谷到波谷之間變化的總和 考慮到紋理特徵中粗糙度和對比度對人眼感官佔的比例較大,因此紋理特徵向量 ③「形狀」(Shape)特徵向量的獲取。主要是針對容易辨別的圖像邊緣特徵的提取。邊緣檢測算子檢查每個像素的鄰域,並對灰度變化率進行量化,也包括方向的確定。大多數使用基於方向導數掩模求卷積的方法,實際應用中求導數是利用差分近似微分來進行。幾種常用的邊緣檢測方法包括Sobel邊緣檢測算子方法、Prewitt邊緣檢測算子方法、高斯-拉普拉斯算子檢測方法、Canny邊緣檢測方法。本發明採用比較簡單實用的長度、寬度、矩形度、圓形度相結合的方法。計算物體邊界點的最大和最小坐標值,就可得到物體的水平(L)和垂直跨度(W)以及它們之間的比值r=L/W,這樣的外接矩形是物體最小的外接矩形(MER-MinimumEnclosing Rectangle)。矩形度用物體的面積與其最小外接矩形的面積之比來刻畫,反映物體對其外接矩形的充滿程度,即R=A/Amer。圓形度用來刻畫物體邊界的複雜程度,它們在圓形邊界時取最小值。最常用的圓形度是周長的平方與面積的比,即C=P2/A。「形狀」特徵向量公式如下 Shape=C/r+r/R+R/C=(RC2+Cr2+rR2)/rRC 最後,得到圖像的特徵向量E=E(Description,Color,Texture,Shape)。將帶有特徵向量的圖像建立索引後保存到圖像基礎資料庫中。
(4)圖像的分類。從圖像基礎資料庫中讀取圖像,求出圖像的特徵向量與樣本訓練集中各個分類特徵向量的歐幾裡德距離,即Dij=|Eij-Cij|,其中1<=i<=N,1<=j<=4。相似度函數為1<=i<=N,1<=j<=4。其中,Wj是圖像特徵向量的權重係數,可以根據用戶的輸入自動調整。圖像的與各個分類樣本訓練集的相似度求出後,再求出最小值Fk=min(Fi)。將圖像經過hash函數變換h=(index)mod(INDEX(k))後,將圖像、圖像特徵向量及第k類訓練樣本特徵向量複製到與相應的圖像分類資料庫中,該分類的序列號為h。對存儲的圖像按照與訓練樣本特徵向量的相似度函數值F由小到大進行排序(值越小,表明圖像與訓練樣本越相似,排序也越靠前),序號為p,圖像新的索引為h+p。並按照尺寸比例,生成圖像的相應縮略圖(為了方便用戶辨別)。
(5)用戶檢索。在web客戶端界面展現給用戶為圖像搜索複合條件,包括圖像文字描述S1、顏色S2、紋理S3和形狀S4及條件的相應權重係數(Wj)』等,根據用戶的選擇,提交複合條件給web伺服器進行計算,得到用戶查找關鍵字然後,提交給後臺的資料庫檢索程序,首先與樣本訓練集資料庫中的特徵向量索引進行歐幾裡德距離計算,找出距離最小的值min(|key-INDEX(m)|),該最小值對應的分類號為m。然後,將key經過hash函數變換1=(key)mod(INDEX(m))後,在圖像分類資料庫中找到第1類圖像,將命中的圖像檢索結果按照相似程度返回給用戶,返回結果信息包括圖像特徵信息和縮略圖。用戶如果搜索結果不滿意,則可以更改檢索條件權重係數再次提交搜索請求。搜尋引擎後臺圖像處理程序則按照用戶提交的權重係數重新對樣本訓練集特徵向量索引進行計算,然後圖像分類器中的圖像特徵向量索引重新計算後按照第(4)步進行重新分類,最後將結果返回給用戶,直到用戶不再提交權重係數修改為止。
權利要求
1.一種圖像智能模式識別搜索方法,其特徵在於,首先由人類專家建立圖像的樣本訓練集資料庫,再結合基於文本的搜尋引擎技術和基於圖像內容的查詢技術,由網絡爬行器進行網際網路圖像的搜索,解析URL信息,將圖像URL及相關信息抓取到本地原始資料庫中;對圖像進行大小、格式初步過濾,將尺寸較小、格式不符合要求的圖像刪除,進行必要的解壓縮,圖像預分類等預處理;然後計算提取圖像的顏色特徵、紋理特徵、形狀特徵,得到相應的顏色、紋理、形狀特徵向量集,結合圖像URL信息一起保存到圖像基礎資料庫中,並為其建立索引;圖像基礎資料庫中的圖像與樣本訓練集進行特徵向量相似度計算,將圖像進行分類後保存到圖像分類資料庫中;接受用戶輸入的關鍵字或圖像描述,產生索引向量,與圖像分類資料庫中的圖像特徵向量進行相似度計算,將索引結果返回給用戶;用戶如果不滿意搜索結果,則對樣本訓練集資料庫和圖像分類資料庫進行自動調整,再次得出圖像檢索結果。
2.按照權利要求1所述的一種圖像智能模式識別搜索方法,其特徵在於,
(1)構建樣本訓練集;根據用戶喜好及網絡圖片現狀,挑選有代表性的JPEG圖片或GIF圖片保存在分類器中,比如劃分為自然、建築、人物、動物、植物等N類,針對每個分類建立數據集;比如「人物」類數據集(Human)包括K個含標準人臉的圖像,包括地球四大人種原型的輪廓圖和各個原型從不同角度和距離拍攝的圖分別記為Hij,其中i指典型模式的序號,j指角度的序號,原型經過處理後的圖像,添加了分段線性的輪廓線;確定輪廓時使用的是一種動態的輪廓跟蹤技術,不斷調整線段的數量;考慮到通用的情況,選擇提取分類圖像的文本描述、顏色、紋理、形狀作為各個分類的特徵向量C=C,建立各個分類初始的圖像特徵向量樣本訓練集;設置與各個分類圖像特徵向量的歐幾裡德距離的閾值Tij(1<=i<=N,1<=j<=4)和4個圖像特徵向量的初始權重係數Wj,計算出樣本訓練集的特徵向量索引
(2)圖像的爬行和獲取;在搜尋引擎伺服器後臺運行一個或多個網絡爬行器crawler(或稱網絡機器人robot、網絡蜘蛛spider),對一定範圍的網絡站點的HTML網頁進行爬行;當需要爬行的網絡規模小於設定值時,可採用通用的深度優先算法或寬度優先算法進行爬行;當網絡規模較大時,可採用並發蛙跳啟發式搜索算法等比較適合大規模網絡爬行的效率較高的算法進行多線程爬行,可以根據搜索對象的特點,創建兩個或更多的線程並設置各個線程的運行優先級,控制每個線程的執行,使爬行進程的運行效率更高;如果只進行圖像的爬行,則對網絡爬行器設置URL過濾條件,根據HTML頁面的圖像連結方式解析含有諸如*.jpg、*.jpeg、*.gif等後綴的URL的連結文件及描述信息;採用時間戳技術,如果發現網頁上的圖像內容發生變化或者出現新的圖像網頁,則將頁面內所連結的圖像文件及文本注釋信息存儲到本地原始資料庫中;
(3)圖像特徵的提取;為了提高系統整體識別運行速度,考慮使用與樣本訓練集相同的圖像特徵作為四類特徵向量(文本描述Description,顏色Color,紋理Texture,形狀Shape);從本地原始資料庫中讀取圖像,將圖像的注釋、URL地址等文本信息連接成字符串作為「文本描述」特徵向量;即Description=圖像注釋||URL地址;
其他類特徵向量的提取如下
①「顏色」(Color)特徵向量的獲取;常用的顏色特徵空間包括一是最基本的RGB特徵空間,基於笛卡爾三維坐標系統,是一個立方體形狀,三個軸分別表示R(red紅色)、G(green綠色)和B(blue藍色),各個軸的取值範圍都是0到255;坐標原點(0,0,0)表示「黑色」,(255,0,0)表示「紅色」,(0,255,0)表示「綠色」,(0,0,255)表示「藍色」,(255,255,255)表示「白色」,從「黑色」到「白色」相連的立方體的對角線表示從「黑色」到「白色」的連續灰度值,立方體內其他各點表示不同的顏色;根據這個空間模型,每幅彩色圖像可以被分解到3個獨立的平面上;二是經過線性變換的特徵空間,包括用於PAL制式彩色標準的YUV顏色空間、用於NTSC制式彩色視頻標準的YIQ顏色空間和用於JPEG壓縮圖形格式的YCrCb顏色空間;三是經過線性變換和非線性變換的CIE(LUV)顏色空間;四是HSV顏色空間,HSV分別表示顏色的三種屬性色調(Hue)、飽和度(Saturation)和亮度(Value);傳統的RGB表示方法實現很簡單,但不太滿足人眼的視覺特性和網際網路上圖片的特殊要求;HSV表示方法最滿足人眼特性,但實現很複雜,需要通過大量運算將RSB轉換為HSV;考慮到網際網路大規模圖像識別的問題,以及圖像格式大多為YCrCb表示方法;故提出一種比較快速實現的折衷辦法,首先判斷圖像的格式,如果為JPEG(JPG)格式,「顏色」特徵向量表示為三維向量Y、Cr、Cb的一維轉換形式,即顏色特徵向量其中Y=0.299R+0.587G+0.114B,Cr=0.5R-0.4187G-0.0813B,Cb=-0.1687R-0.3313G+0.5B;如果為BMP格式,則②「紋理」(Texture)特徵向量的獲取;紋理特徵是表示視覺的基本結構,主要包括粗糙性、方向性、對比度、周期性、凹凸性等;典型的紋理特徵包括Tamura紋理特徵、基於小波變換的紋理特徵、共現自回歸紋理特徵等;圖像的紋理分割是一項相當困難並且計算量很大的任務;因此,本發明提出比較簡單的實現方法,只計算粗糙度、對比度和方向性;粗糙度的計算1)計算移動平均數(moving average),對於2k×2k的窗口,移動平均數為
2)計算水平和垂直向的偏差
ck(i,j)=max(|ak(i-2k-1,j)-ak(i+2k-1,j)|,|ak(i,j-2k-1)-ak(i,j+2k-1)|)
3)確定窗口大小
4)計算平均窗口大小
對比度的計算
方向性是指圖像裡灰度值的方向;計算方向性需要以下四步
1)計算每個像素的梯度;梯度指此像素點周圍灰度值增加最快的方向;水平梯度等於左邊像素的三個灰度值與右邊像素的三個灰度值之間的偏差,而垂直梯度則是上下像素的三個灰度值偏差;
梯度計算
水平梯度
垂直梯度
2)計算梯度向量的極坐標
3)計算傾斜向量角度的直方圖
nφ(k)表示滿足和|g|>t條件的像素點的比例;
4)得到直方圖以後,計算波峰(波谷到波谷)周圍的值的變化總和
方向性(Direction)=波谷到波谷之間變化的總和
考慮到紋理特徵中粗糙度和對比度對人眼感官佔的比例較大,因此紋理特徵向量
③「形狀」(Shape)特徵向量的獲取;主要是針對容易辨別的圖像邊緣特徵的提取;邊緣檢測算子檢查每個像素的鄰域,並對灰度變化率進行量化,也包括方向的確定;大多數使用基於方向導數掩模求卷積的方法,實際應用中求導數是利用差分近似微分來進行;幾種常用的邊緣檢測方法包括Sobel邊緣檢測算子方法、Prewitt邊緣檢測算子方法、高斯-拉普拉斯算子檢測方法、Canny邊緣檢測方法;本發明採用比較簡單實用的長度、寬度、矩形度、圓形度相結合的方法;計算物體邊界點的最大和最小坐標值,就可得到物體的水平(L)和垂直跨度(W)以及它們之間的比值r=L/W,這樣的外接矩形是物體最小的外接矩形(MER-MinimumEnclosing Rectangle);矩形度用物體的面積與其最小外接矩形的面積之比來刻畫,反映物體對其外接矩形的充滿程度,即R=A/Amer;圓形度用來刻畫物體邊界的複雜程度,它們在圓形邊界時取最小值;最常用的圓形度是周長的平方與面積的比,即C=P2/A;「形狀」特徵向量公式如下
Shape=C/r+r/R+R/C=(RC2+Cr2+rR2)/rRC
最後,得到圖像的特徵向量E=E(Description,Color,Texture,Shape);將帶有特徵向量的圖像建立索引後保存到圖像基礎資料庫中;
(4)圖像的分類;從圖像基礎資料庫中讀取圖像,求出圖像的特徵向量與樣本訓練集中各個分類特徵向量的歐幾裡德距離,即Dij=|Eij-Cij|,其中1<=i<=N,1<=j<=4;相似度函數為1<=i<=N,1<=j<=4;其中,Wj是圖像特徵向量的權重係數,可以根據用戶的輸入自動調整;圖像的與各個分類樣本訓練集的相似度求出後,再求出最小值Fk=min(Fi);將圖像經過hash函數變換h=(index)mod(INDEX(k))後,將圖像、圖像特徵向量及第k類訓練樣本特徵向量複製到與相應的圖像分類資料庫中,該分類的序列號為h;對存儲的圖像按照與訓練樣本特徵向量的相似度函數值F由小到大進行排序,序號為p,圖像新的索引為h+p;並按照尺寸比例,生成圖像的相應縮略(5)用戶檢索;在web客戶端界面展現給用戶為圖像搜索複合條件,包括圖像文字描述S1、顏色S2、紋理S3和形狀S4及條件的相應權重係數(Wj)』等,根據用戶的選擇,提交複合條件給web伺服器進行計算,得到用戶查找關鍵字然後,提交給後臺的資料庫檢索程序,首先與樣本訓練集資料庫中的特徵向量索引進行歐幾裡德距離計算,找出距離最小的值min(|key-INDEX(m)|),該最小值對應的分類號為m;然後,將key經過hash函數變換l=(key)mod(INDEX(m))後,在圖像分類資料庫中找到第l類圖像,將命中的圖像檢索結果按照相似程度返回給用戶,返回結果信息包括圖像特徵信息和縮略圖;用戶如果搜索結果不滿意,則可以更改檢索條件權重係數再次提交搜索請求;搜尋引擎後臺圖像處理程序則按照用戶提交的權重係數重新對樣本訓練集特徵向量索引進行計算,然後圖像分類器中的圖像特徵向量索引重新計算後按照第(4)步進行重新分類,最後將結果返回給用戶,直到用戶不再提交權重係數修改為止。
全文摘要
本發明提出了圖像智能模式識別搜索方法。建立圖像樣本訓練集資料庫,結合基於文本的搜尋引擎技術和基於圖像內容的查詢技術,由網絡爬行器進行網際網路圖像搜索,解析URL信息,將圖像URL及相關信息抓取到本地原始資料庫;對圖像進行初步過濾,解壓縮,圖像預分類等預處理;然後計算提取圖像的顏色特徵、紋理特徵、形狀特徵,得到相應特徵向量集,結合圖像URL信息一起保存到圖像基礎資料庫中,並為其建立索引;圖像基礎資料庫中的圖像與樣本訓練集進行特徵向量相似度計算,將圖像進行分類後保存到圖像分類資料庫中;接受用戶輸入的關鍵字或圖像描述,產生索引向量,與圖像分類資料庫中的圖像特徵向量進行相似度計算,將索引結果返回給用戶。
文檔編號G06F17/30GK101211341SQ20061014834
公開日2008年7月2日 申請日期2006年12月29日 優先權日2006年12月29日
發明者蔡陽波, 勇 陳 申請人:上海芯盛電子科技有限公司