新四季網

注釋圖像的製作方法

2023-06-02 01:17:21 1

專利名稱:注釋圖像的製作方法
技術領域:
本說明書涉及圖像注釋(annotation)。
背景技術:
基於文本的圖像注釋仍然是計算機視覺和信息檢索界中的重要的實踐以及根本 問題。從實踐的角度來看,目前的圖像搜索解決方案未能將圖像內容有效地用於圖像搜索。 這通常導致有限適用性的搜索結果。給定輸入圖像,自動圖像注釋的目標是將反映圖像的視覺內容的幾個相關文本關 鍵詞(也被稱為標籤(label))分配給圖像。可以通過以多種方式中的任何方式將關鍵詞作 為元數據存儲在例如包括圖像的數字文件、帶有從關鍵詞到圖像的連結或引用的資料庫、 帶有聯結關鍵詞和圖像的數據的XML文件或其它中,來將關鍵詞分配給圖像(或將關鍵詞 與圖像相關聯)。隨著Web上和Web外迅速增長的圖像數據集合,魯棒的圖像搜索和檢索正快速成 為關鍵性需求。目前的網際網路圖像搜尋引擎通常採用基於文本的搜索來檢索相關圖像,而 忽略圖像內容。利用圖像內容來分配更豐富、更相關的關鍵詞集可以允許進一步將這些搜 索引擎的快速索引和檢索體系結構用於改進的圖像搜索。這產生了用有巨大實踐利益的相 關文本關鍵詞注釋圖像的問題。

發明內容
本說明書描述了與自動注釋圖像有關的技術。總的來說,可以將在本說明書中描 述的主題的一個方面具體化在一種由數據處理裝置執行的圖像注釋的方法中,所述方法包 括在數據處理裝置中接收輸入圖像,通過數據處理裝置的操作從存儲在計算機可讀介質上 的數字圖像集合中識別輸入圖像的一個或多個最近鄰圖像,其中一個或多個最近鄰圖像中 的每一個與相應的一個或多個圖像標籤相關聯,將多個圖像標籤分配給輸入圖像,其中多 個圖像標籤由數據處理裝置從與一個或多個最近鄰圖像相關聯的圖像標籤選擇,以及將輸 入圖像和輸入圖像與所分配的多個圖像標籤的關聯存儲在數據儲存庫中。在另一個方面中,一種計算機實現的方法包括接收輸入圖像,從圖像集合中識別 輸入圖像的多個排名的最近鄰圖像,其中排名的最近鄰圖像中的每一個與相應的一個或多 個圖像標籤相關聯,將單個圖像標籤分配給輸入圖像,其中單個圖像標籤從與多個排名的 最近鄰圖像相關聯的圖像標籤選擇,以及將具有分配的單個圖像標籤的輸入圖像存儲在數 據儲存庫中。前述方面的其它實施例包括相對應的系統、裝置和電腦程式產品。在另一個方面中,系統包括用於確定一個或多個參考圖像是輸入圖像的最近鄰圖像的裝置,一個或多個參考圖像共同地與多個圖像標籤相關聯,以及用於將兩個或多個圖 像標籤分配給輸入圖像的裝置,兩個或多個圖像標籤從與一個或多個參考圖像相關聯的多 個圖像標籤中選擇。可以將一個或多個圖像中的每一個與多個圖像標籤相關聯。這些和其 它實施例可以可選地包括下述特徵中的一個或多個。多個圖像可以從單個最近鄰圖像選 擇。分配多個圖像標籤可以包括根據與每一個最近鄰圖像相關聯的相應整體圖像距 離(whole-image distance)來對多個最近鄰圖像進行排序。每一個整體圖像距離可以表 示在輸入圖像和對應的最近鄰圖像之間的差異程度。分配多個圖像標籤可以進一步包括根據在數字圖像集合中相應的出現頻率對一 個或多個第一圖像標籤進行排名,其中一個或多個第一圖像標籤中的每一個與第一最近鄰 相關聯;以及基於對一個或多個第一圖像標籤的排名將第一圖像標籤中的至少一個分配給 輸入圖像。分配多個圖像標籤還可以包括對一個或多個第二圖像標籤進行排名,其中第二圖 像標籤中的每一個與一個或多個剩餘的最近鄰圖像相關聯,以及基於對一個或多個第二圖 像標籤的排名將第二圖像標籤中的至少一個分配給輸入圖像。對一個或多個第二圖像標籤的排名可以包括根據第二圖像標籤中的每一個與每 一個第一圖像標籤在數字圖像集合中的共同出現對一個或多個第二圖像標籤進行排序。替 選地或另外地,對一個或多個第二圖像標籤的排名可以包括根據第二圖像標籤中的每一個 在一個或多個剩餘的最近鄰圖像中的局部頻率對一個或多個第二圖像標籤進行排序。整體圖像距離可以包括特徵距離的組合,每一個特徵距離表示在與輸入圖像相關 聯的圖像特徵和與參考圖像相關聯的相應圖像特徵之間的差異程度。與輸入圖像相關聯的 圖像特徵和與參考圖像相關聯的相應圖像特徵每一個可以包括全局圖像特徵。替選地或另 外地,與輸入圖像相關聯的圖像特徵和與參考圖像相關聯的相應圖像特徵每一個可以包括 局部圖像特徵。整體圖像距離可以作為特徵距離的平均值而取得。平均值可以基於來自特徵距離 中的每一個的基本均等的貢獻。平均值可以基於來自特徵距離中的每一個的加權貢獻。可 以基於數字圖像集合來計算用於特徵距離中的每一個的權重,其中數字圖像集合是包括相 似和相異圖像對的訓練圖像組。特徵距離中的至少一個可以被計算為在輸入圖像的紋理特徵和參考圖像的對應 的紋理特徵之間的差異。特徵距離中的至少一個可以被計算為在輸入圖像的色彩特徵和參 考圖像的對應的色彩特徵之間的差異。可以實現在本說明書中描述的主題的特定實施例來實現下述優勢中的一個或多 個。在一些情況下,圖像注釋技術由最小訓練需求表徵。在某些實施方式中,將圖像注釋當 作檢索問題對待簡化了注釋過程。在附圖和下面的描述中闡述了本發明的一個或多個實施例的細節。本發明的其它 特徵、方面和優勢從描述、附圖以及權利要求將變得顯而易見。


圖1圖示了用關鍵詞注釋測試圖像的示例。
圖2A是提供確定輸入圖像的最近鄰的一般概述的流程圖。圖2B是提供取得複合距離的概述的流程圖。圖3是提供將來自輸入圖像的最近鄰的關鍵詞轉送到輸入圖像的一般概述的流 程圖。圖4示出了共同具有至少4個關鍵詞的圖像對的示例。圖5示出了共同具有零個關鍵詞的圖像對的示例。圖6和7示出了來自不同圖像數據集的示例圖像。圖8示出了已注釋的圖像的示例。圖9示出了已注釋的圖像的示例。圖10、11和12示出了分別在三個不同的圖像數據集中為多個不同的關鍵詞檢索 的最先的幾個圖像的示例。
具體實施例方式自動將關鍵詞分配給圖像允許檢索、索引、組織以及理解大型的圖像數據集合。本 說明書描述了用於將注釋作為檢索問題對待的圖像注釋的技術。所述技術利用低層級圖像 特徵以及基本距離測量的簡單組合來找到給定圖像的最近鄰。然後使用貪婪(greedy)標 籤轉送機制來分配關鍵詞。圖像注釋是艱巨的任務有兩個主要的原因第一,存在像素到謂項 (pixel-to-predicate)或語義鴻溝(gap)問題,其中僅使用例如色彩和紋理的低層級圖像 特徵來提取語義上有意義的實體是困難的。可靠地明確識別成千上萬的對象或種類當前是 未解決的問題。第二個困難是由於在訓練數據中的圖像區域和關鍵詞之間的對應性的缺乏 而產生。對於每一個圖像,可以訪問分配給整個圖像的關鍵詞,但是圖像的哪些區域對應於 這些關鍵詞是不知道的。這會妨礙分類器的直接學習,其中每一個關鍵詞被認為是單獨的 種類。本說明書描述了由最小訓練需求表徵的技術。針對若干標準數據集以及大型Web 數據集,所述技術超越了複雜的現有技術的圖像注釋方法。圖1圖示了用關鍵詞注釋測試圖像的示例。給定測試圖像2,可以從圖像訓練集4 找到它的最近鄰(例如,在一些特徵空間中用預先指定的距離測量定義的第一最近鄰10、 第二最近鄰20以及第三最近鄰30),並且將與最近鄰圖像相關聯的部分或全部關鍵詞分配 給輸入測試圖像2。在一些情況下,使用針對全局圖像特徵定義的簡單距離測量執行得比其 它注釋技術更好。在一些實施方式中,K-最近鄰而不只是最近一個用於分配關鍵詞。在多 個鄰居的情況下,可以使用貪婪方法來將適當的關鍵詞分配給輸入圖像,進一步增強注釋 性能。K-最近鄰方法可以被擴展以合併多個距離測量,其可以通過不同的特徵空間定 義。組合不同的距離或核心可以在對象識別任務中產生良好性能。將描述組合不同的距離 來創建注釋方法的兩種不同的方式。第一種方式是在適當地縮放每一個距離後計算不同距 離的平均值。第二種方式是基於使用已知為Lasso的稀疏邏輯回歸方法來選擇相關距離。 對於回歸方法,可以使用包含相似和相異圖像的訓練集。提供給注釋任務的典型訓練集不 直接包含這樣的信息。在一些實施方式中,通過從注釋訓練數據創建標註集來訓練Lasso。即使這樣的弱訓練的Lasso也提供了良好性能。在一些情況下,平均距離技術執行得與噪 聲Lasso技術一樣好或比噪聲Lasso技術更好。現將描述用於圖像注釋的方法族,其中方法是建立在看起來相似的圖像可能共享 關鍵詞的前提下。最後,圖像注釋包括從最近鄰轉送關鍵詞的過程。使用圖像特徵來構建 領域結構,導致取決於在輸入圖像和對應的參考圖像中的相應特徵之間的距離的概念的基 本模型。圖2A是提供確定輸入圖像的最近鄰的一般概述的流程圖。在一個或多個計算機 上實現的伺服器可操作來接收(200)數字輸入圖像。伺服器還可以接收從它選擇一個或多 個參考圖像的數字圖像集合。可以將數字圖像存儲在伺服器的數據儲存庫中或其它計算機 可讀介質上。伺服器然後取得(20 在輸入圖像與從數字圖像集合選擇的參考圖像之間的 整體圖像距離。整體圖像距離表示參考多個圖像特徵在作為整體的輸入圖像與作為整體的 參考圖像之間的差異程度。然後將整體圖像距離存儲(204)在伺服器的數字數據儲存庫 中。圖像特徵可以是全局的(從整個圖像生成)或局部的(從感興趣點生成)。全局 圖像特徵的示例包括色彩和紋理。色彩和紋理是圖像表示的兩個低層級視覺線索。常見色 彩描述符基於像素色彩值的粗直方圖。主要由於這些色彩特徵的有效性和計算的簡單性, 可以在圖像匹配和索引方案內利用這些色彩特徵。紋理是可以是圖像表示的組分的另一個 低層級視覺特徵。可以利用小波特徵捕捉圖像紋理。具體地,Gabor和Haar小波在創建稀 疏而有識別力的圖像特徵時非常有效。為了限制個體特徵的影響和偏向,以及為了最大化 所提取的信息量,利用了多個計算色彩和紋理特徵的簡單和容易的方法。生成來自圖像的在三個不同的色彩空間中的特徵。這些包括紅綠藍(RGB)、色相飽 和度值(HSV)和CIE 1976L,a*,b*{t (LAB)色彩空間。雖然RGB是用於圖像捕捉和顯示的 默認色彩空間,但是HSV和LAB兩者隔離RGB未捕捉的重要外觀特性。例如,HSV色彩空間 對照亮在值通道中的色彩的光量進行編碼,以及LAB的亮度通道意在反映人類光亮度感。 RGB特徵被計算為RGB像素值的規範化的三維直方圖,其中每一個通道中16個單元(bin)。 類似地,HSV(和LAB)特徵是在HSV(和LAB)色彩空間中的每通道16個單元的直方圖。為 了確定用於每一個色彩空間的距離測量,對來自CoreKK數據集的人類標註的訓練數據評 估用於直方圖和分布的三個距離測量(KL-偏差,Ll-距離以及L2-距離)。KL-偏差是在 兩個概率分布之間的差異的非交換測量。如果離散隨機變量的兩個分布是Pl和P2,則KL 偏差被計算為sum」(PI [i] *log (PI [i]/P2 [i]))。L1對於RGB和HSV執行得最好,而KL-偏 差被發現適於LAB距離。在本公開的剩餘部分,RGB和HSV距離暗指L1 (Manhattan)測量, 以及LAB距離暗指KL-偏差。也可以使用其它距離測量。例如,在一些情況下,可以使用餘 弦距離測量或堆土機距離(EMD)。圖像的紋理可以用Gabor和Haar小波表示。在本實施方式中,以三個尺度(scale) 和四個方向(orientation)用Gabor小波來過濾每一個圖像。十二個響應圖像被分成不相 重疊的區域,以及來自每一個區域的平均響應幅值被連成特徵向量(在整個文本中該特徵 被稱為「Gabor」)。第二特徵捕捉量化的Gabor相位。在十二個Gabor響應圖像的每一個 中的16x16塊上對在每一個響應像素處的相位角取平均。這些平均相位角被量化為3位 (8個值),並且被連成特徵向量(在整個文本中被稱為「GaborQ」)。L1距離用於Gabor和GaborQ 特徵。Haar過濾器是2x2邊緣過濾器。Haar小波響應由圖像與在三個不同方向(水平、 對角和垂直)的Haar過濾器的塊卷積來生成。通過執行與適當子採樣的圖像的卷積來獲 取在不同尺度的響應。在將圖像重新縮放到尺寸6虹64像素之後,通過將Haar響應幅值相 連來生成Haar特徵(該特徵正好被稱為「Haar」)。正如Gabor特徵,還考慮量化版本,其 中Haar響應的標記被量化成三個值(如果響應分別是零、正數或負數,則O、1或_1)。在 本公開的剩餘部分,該量化的特徵被稱為「HaarQ」。正如Gabor特徵,L1距離用於Haar和 HaarQ特徵。全局圖像特徵的其它示例包括「極小圖像」,其是被縮小到非常小的尺寸(例如, 縮略圖)以及逐像素比較的圖像d)Gist變換,其類似於對可操縱的過濾器的小波變換和 捕捉響應;3)幾何特徵的分布,諸如線或其它輪廓的統計;以及4)整個圖像的梯度方向的 直方圖。也可以使用其它全局圖像特徵。例如,前述全局圖像特徵的距離測量可以包括Li、 L2、KL偏差、餘弦和EMD。關於局部特徵,存在從圖像獲取特徵的兩個組成部分第一,存在「感興趣點檢 測」,其中識別圖像中的對在圖像之間進行匹配或比較將是有用的點或區域的位置。例如, 角落是常見的感興趣點。感興趣點檢測技術的示例包括但不限於邊緣檢測、斑點檢測、脊檢 測和仿射不變檢測。第二個步驟是「特徵提取」,其中從感興趣點生成描述性特徵向量。例 如,特徵向量可以描述在角落的領域中的色彩分布,或特徵向量可以描述角落的角度。其它 局部描述性特徵的示例包括但不限於尺度不變(例如,SIFT描述符)、旋轉不變、梯度幅值、 梯度方向和加速魯棒特徵(例如,SURF描述符)。如上所述,用七個圖像特徵(例如,3個色彩直方圖和4個紋理特徵)表示在本實 施方式中的每一個圖像。在不同的圖像中的對應的圖像特徵之間的距離是「基本距離」。「復 合距離」是在圖像之間的合併七個特徵中的部分或全部的距離測量。在一些實施方式中,復 合距離可以包括額外特徵。圖2B是提供取得複合距離的概述的流程圖。如前,在一個或多個計算機上實現的 伺服器接收(210)輸入圖像和參考圖像。隨後,從輸入和參考圖像中的每一個提取(212)七 個整體圖像特徵。所提取的特徵包括三個色彩特徵和四個紋理特徵。色彩特徵包括在RGB 色彩空間中的圖像色彩的直方圖、在HSV色彩空間中的圖像色彩的直方圖以及在LAB色彩 空間中的圖像色彩的直方圖。紋理特徵包括Gabor響應的幅值的向量、Gabor響應的量化 相位的向量、Haar響應的幅值的向量以及Haar響應的標記的向量。然後基於從輸入和參考圖像提取的特徵來取得(214)基本距離。對於RGB色彩空 間,基本距離是在RGB特徵向量中的每一個之間的L1距離。L1距離有時被稱為Manhattan 或城市塊距離。類似地,用於HSV色彩空間的基本距離是在HSV特徵向量之間的L1距離。 用於LAB色彩空間的基本距離是在LAB特徵向量之間的KL-偏差。使用L1距離測量來確定在輸入和參考圖像的Gabor、GaborQ, Haar和HaarQ特徵 之間的基本距離。通過對用於幾個不同的距離測量的小型訓練集評估每一個特徵的性能, 並且為每一個特徵選擇最佳,來確定用於每一個特徵的距離測量(Lp KL-偏差)。除1^和 KL-偏差外的距離測量也可以用於計算基本距離。例如,可以使用任何Lp距離,直方圖交集 或推土機距離(EMD),其是在一些區域上的兩個分布之間的差異的數學上的測量。
在為每一個整體圖像特徵獲取基本距離之後,對距離進行縮放016)。對於七個特 徵類型中的每一個,從將確保基本距離被限制在0和1之間,即基本距離被規範化的訓練數 據確定縮放條件。然後將縮放後的基本距離組合018)成複合距離。例如,簡單的基線方法包括對 基本距離的線性組合以產生複合距離測量。即,在輸入圖像和參考圖像之間的複合距離是 七個基本距離的平均總和。儘管使用了七個特徵,但是算法可以與任何數量的特徵(包括 一)一起容易地工作。在一個實施例中,通過允許每一個基本距離對總計組合距離均等地作出貢獻來獲 取線性組合。該方法被稱為聯合均等貢獻(JEC)。在另一個實施例中,非均勻地組合基本 距離,將優先考慮對於捕捉圖像相似性更相關的那些特徵,即對基本距離賦予權重。可以使 用稀疏邏輯回歸技術Lasso來獲取用於組合基本距離的權重。也可以利用額外方法。例 如,在一些實施例中,線性組合基於如在International Conference on Computer Vision 2007 上 Frome 等人的"Learning Globally-Consistent Local Distance Functions for Shape-Based Image Retrieval and Classification(max-margin) 方法。如果標記的訓練數據不可獲得,或如果標籤極其嘈雜,則組合來自不同特徵的距 離的簡單方式是使用JEC方法,其中每一個獨立基本距離對總計組合成本或距離均等地作 出貢獻。使Ii為第i個圖像,以及假設已提取了所提取的N個特徵
權利要求
1.一種系統,包括用於在一個或多個計算機中確定一個或多個參考圖像是輸入圖像的最近鄰圖像的裝 置,所述一個或多個參考圖像共同地與多個圖像標籤相關聯;以及用於在所述一個或多個計算機中將兩個或更多個圖像標籤分配給所述輸入圖像的裝 置,所述兩個或更多個圖像標籤是從與一個或多個參考圖像相關聯的所述多個圖像標籤中 選擇的。
2.根據權利要求1所述的系統,其中所述一個或多個參考圖像中的每一個與多個圖像 標籤相關聯。
3.一種由數據處理裝置執行的圖像注釋的方法,所述方法包括 在所述數據處理裝置中接收輸入圖像;通過所述數據處理裝置的操作從存儲在計算機可讀介質上的數字圖像集合中識別所 述輸入圖像的一個或多個最近鄰圖像,其中所述一個或多個最近鄰圖像中的每一個與相應 的一個或多個圖像標籤相關聯;將多個圖像標籤分配給所述輸入圖像,其中所述多個圖像標籤由所述數據處理裝置從 與所述一個或多個最近鄰圖像相關聯的所述圖像標籤選擇;以及將具有所分配的所述多個圖像標籤的所述輸入圖像存儲在數字數據儲存庫中。
4.根據權利要求3所述的方法,其中所述輸入圖像以包括作為元數據的所述多個圖像 標籤的圖像文件被存儲在所述數字數據儲存庫中。
5.根據權利要求3所述的方法,其中所述多個圖像標籤是從單個最近鄰圖像選擇的。
6.根據權利要求3所述的方法,其中分配多個圖像標籤包括根據與每一個最近鄰圖像相關聯的相應整體圖像距離來對所述多個最近鄰圖像進行 排序,每一個整體圖像距離表示在所述輸入圖像和對應的最近鄰圖像之間的差異程度;根據在所述數字圖像集合中出現的相應頻率對一個或多個第一圖像標籤進行排名,其 中所述一個或多個第一圖像標籤中的每一個與第一最近鄰相關聯;以及基於對所述一個或多個第一圖像標籤的所述排名將所述第一圖像標籤中的至少一個 分配給所述輸入圖像。
7.根據權利要求6所述的方法,其中將所述多個圖像標籤分配給所述輸入圖像進一步 包括對一個或多個第二圖像標籤進行排名,其中所述第二圖像標籤中的每一個與一個或多 個剩餘的最近鄰圖像相關聯;以及基於對所述一個或多個第二圖像標籤的所述排名將所述第二圖像標籤中的至少一個 分配給所述輸入圖像。
8.根據權利要求7所述的方法,其中對所述一個或多個第二圖像標籤的排名包括根據 所述第二圖像標籤中的每一個與每一個第一圖像標籤在所述數字圖像集合中的共同出現 對所述一個或多個第二圖像標籤進行排序。
9.根據權利要求7所述的方法,其中對所述一個或多個第二圖像標籤的排名包括根據 所述第二圖像標籤中的每一個在所述一個或多個剩餘的最近鄰圖像中的局部頻率對所述 一個或多個第二圖像標籤進行排序。
10.根據權利要求6所述的方法,其中所述整體圖像距離包括特徵距離的組合,每一個特徵距離表示在與所述輸入圖像相關聯的圖像特徵和與所述參考圖像相關聯的相應圖像 特徵之間的差異程度。
11.根據權利要求10所述的方法,其中與所述輸入圖像相關聯的所述圖像特徵和與所 述參考圖像相關聯的所述相應圖像特徵每一個包括全局圖像特徵。
12.根據權利要求10所述的方法,其中與所述輸入圖像相關聯的所述圖像特徵和與所 述參考圖像相關聯的所述相應圖像特徵每一個包括局部圖像特徵。
13.根據權利要求10所述的方法,進一步包括 作為所述特徵距離的平均值取得所述整體圖像距離。
14.根據權利要求13所述的方法,其中所述平均值基於來自所述特徵距離中的每一個 的均等貢獻。
15.根據權利要求13所述的方法,其中所述平均值基於來自所述特徵距離中的每一個 的加權貢獻。
16.根據權利要求15所述的方法,進一步包括基於所述數字圖像集合來計算用於所述特徵距離中的每一個的權重,其中所述數字圖 像集合是包括相似和相異圖像對的訓練圖像組。
17.根據權利要求10所述的方法,進一步包括將所述特徵距離中的至少一個計算為在所述輸入圖像的紋理特徵和所述參考圖像的 對應的紋理特徵之間的差異。
18.根據權利要求10所述的方法,進一步包括將所述特徵距離中的至少一個計算為在所述輸入圖像的色彩特徵和所述參考圖像的 對應的色彩特徵之間的差異。
19.一種系統,包括伺服器,所述伺服器實現在一個或多個計算機上並且可操作來執行操作,所述操作包括在所述伺服器中接收輸入圖像;通過所述伺服器的操作從存儲在計算機可讀介質上的數字圖像集合中識別所述輸入 圖像的一個或多個最近鄰圖像,其中所述一個或多個最近鄰圖像中的每一個與相應的一個 或多個圖像標籤相關聯;將多個圖像標籤分配給所述輸入圖像,其中所述多個圖像標籤是由所述伺服器從與所 述一個或多個最近鄰圖像相關聯的所述圖像標籤選擇的;以及將具有所分配的多個圖像標籤的所述輸入圖像存儲在數字數據儲存庫中。
20.根據權利要求19所述的系統,其中所述多個圖像標籤是從單個最近鄰圖像選擇的。
21.根據權利要求19所述的系統,其中分配多個圖像標籤包括根據與每一個最近鄰圖像相關聯的相應整體圖像距離來對所述多個最近鄰圖像進行 排序,每一個整體圖像距離表示在所述輸入圖像和對應的最近鄰圖像之間的差異程度;根據在所述數字圖像集合中出現的相應頻率對一個或多個第一圖像標籤進行排名,其 中所述一個或多個第一圖像標籤中的每一個與第一最近鄰相關聯;以及基於對所述一個或多個第一圖像標籤的所述排名將所述第一圖像標籤中的至少一個分配給所述輸入圖像。
22.根據權利要求21所述的系統,其中將所述多個圖像標籤分配給所述輸入圖像進一 步包括對一個或多個第二圖像標籤進行排名,其中所述第二圖像標籤中的每一個與一個或多 個剩餘的最近鄰圖像相關聯;以及基於對所述一個或多個第二圖像標籤的所述排名將所述第二圖像標籤中的至少一個 分配給所述輸入圖像。
23.根據權利要求22所述的系統,其中對所述一個或多個第二圖像標籤的排名包括根 據所述第二圖像標籤中的每一個與每一個第一圖像標籤在所述數字圖像集合中的共同出 現對所述一個或多個第二圖像標籤進行排序。
24.根據權利要求22所述的系統,其中對所述一個或多個第二圖像標籤的排名包括根 據所述第二圖像標籤中的每一個在所述一個或多個剩餘的最近鄰圖像中的局部頻率對所 述一個或多個第二圖像標籤進行排序。
25.根據權利要求21所述的系統,其中所述整體圖像距離包括特徵距離的組合,每一 個特徵距離表示在與所述輸入圖像相關聯的圖像特徵和與所述參考圖像相關聯的相應圖 像特徵之間的差異程度。
26.根據權利要求25所述的系統,其中與所述輸入圖像相關聯的所述圖像特徵和與所 述參考圖像相關聯的所述相應圖像特徵每一個包括全局圖像特徵。
27.根據權利要求25所述的系統,其中與所述輸入圖像相關聯的所述圖像特徵和與所 述參考圖像相關聯的所述相應圖像特徵每一個包括局部圖像特徵。
28.根據權利要求25所述的系統,其中所述伺服器可操作來執行進一步包括下述的操作作為所述特徵距離的平均值取得所述整體圖像距離。
29.根據權利要求觀所述的系統,其中所述平均值基於來自所述特徵距離中的每一個 的均等貢獻。
30.根據權利要求觀所述的系統,其中所述平均值基於來自所述特徵距離中的每一個 的加權貢獻。
31.根據權利要求30所述的系統,其中所述伺服器可操作來執行進一步包括下述的操作基於所述數字圖像集合來計算用於所述特徵距離中的每一個的權重,其中所述數字圖 像集合是包括相似和相異圖像對的訓練圖像組。
32.根據權利要求25所述的系統,其中所述伺服器可操作來執行進一步包括下述的操作將所述特徵距離中的至少一個計算為在所述輸入圖像的紋理特徵和所述參考圖像的 對應的紋理特徵之間的差異。
33.根據權利要求25所述的系統,其中所述伺服器可操作來執行進一步包括下述的操作將所述特徵距離中的至少一個計算為在所述輸入圖像的色彩特徵和所述參考圖像的 對應的色彩特徵之間的差異。
34.一種編碼有電腦程式的計算機存儲介質,所述程序包括當由數據處理裝置執行 時促使所述數據處理裝置執行操作的指令,所述操作包括在所述數據處理裝置中接收輸入圖像;通過所述數據處理裝置的操作從存儲在計算機可讀介質上的數字圖像集合中識別所 述輸入圖像的一個或多個最近鄰圖像,其中所述一個或多個最近鄰圖像中的每一個與相應 的一個或多個圖像標籤相關聯;將多個圖像標籤分配給所述輸入圖像,其中所述多個圖像標籤是由所述數據處理裝置 從與所述一個或多個最近鄰圖像相關聯的所述圖像標籤選擇的;以及將具有所分配的多個圖像標籤的所述輸入圖像存儲在數字數據儲存庫中。
35.根據權利要求34所述的計算機存儲介質,其中所述多個圖像標籤是從單個最近鄰 圖像選擇的。
36.根據權利要求34所述的計算機存儲介質,其中分配多個圖像標籤包括根據與每一個最近鄰圖像相關聯的相應整體圖像距離來對所述多個最近鄰圖像進行 排序,每一個整體圖像距離表示在所述輸入圖像和對應的最近鄰圖像之間的差異程度;根據在所述數字圖像集合中出現的相應頻率對一個或多個第一圖像標籤進行排名,其 中所述一個或多個第一圖像標籤中的每一個與第一最近鄰相關聯;以及基於對所述一個或多個第一圖像標籤的所述排名將所述第一圖像標籤中的至少一個 分配給所述輸入圖像。
37.根據權利要求36所述的計算機存儲介質,其中將所述多個圖像標籤分配給所述輸 入圖像進一步包括對一個或多個第二圖像標籤進行排名,其中所述第二圖像標籤中的每一個與一個或多 個剩餘的最近鄰圖像相關聯;以及基於對所述一個或多個第二圖像標籤的所述排名將所述第二圖像標籤中的至少一個 分配給所述輸入圖像。
38.根據權利要求37所述的計算機存儲介質,其中對所述一個或多個第二圖像標籤的 排名包括根據所述第二圖像標籤中的每一個與每一個第一圖像標籤在所述數字圖像集合 中的共同出現對所述一個或多個第二圖像標籤進行排序。
39.根據權利要求37所述的計算機存儲介質,其中對所述一個或多個第二圖像標籤的 排名包括根據所述第二圖像標籤中的每一個在所述一個或多個剩餘的最近鄰圖像中的局 部頻率對所述一個或多個第二圖像標籤進行排序。
40.根據權利要求36所述的計算機存儲介質,其中所述整體圖像距離包括特徵距離的 組合,每一個特徵距離表示在與所述輸入圖像相關聯的圖像特徵和與所述參考圖像相關聯 的相應圖像特徵之間的差異程度。
41.根據權利要求40所述的計算機存儲介質,其中與所述輸入圖像相關聯的所述圖像 特徵和與所述參考圖像相關聯的所述相應圖像特徵每一個包括全局圖像特徵。
42.根據權利要求40所述的計算機存儲介質,其中與所述輸入圖像相關聯的所述圖像 特徵和與所述參考圖像相關聯的所述相應圖像特徵每一個包括局部圖像特徵。
43.根據權利要求40所述的計算機存儲介質,可操作來促使數據處理裝置執行進一步 包括下述的操作作為所述特徵距離的平均值取得所述整體圖像距離。
44.根據權利要求43所述的計算機存儲介質,其中所述平均值基於來自所述特徵距離 中的每一個的均等貢獻。
45.根據權利要求43所述的計算機存儲介質,其中所述平均值基於來自所述特徵距離 中的每一個的加權貢獻。
46.根據權利要求45所述的計算機存儲介質,可操作來促使數據處理裝置執行進一步 包括下述的操作基於所述數字圖像集合來計算用於所述特徵距離中的每一個的權重,其中所述數字圖 像集合是包括相似和相異圖像對的訓練圖像組。
47.根據權利要求40所述的計算機存儲介質,可操作來促使數據處理裝置執行進一步 包括下述的操作將所述特徵距離中的至少一個計算為在所述輸入圖像的紋理特徵和所述參考圖像的 對應的紋理特徵之間的差異。
48.根據權利要求40所述的計算機存儲介質,可操作來促使數據處理裝置執行進一步 包括下述的操作將所述特徵距離中的至少一個計算為在所述輸入圖像的色彩特徵和所述參考圖像的 對應的色彩特徵之間的差異。
全文摘要
用於生成用於自動注釋圖像的數據的方法、系統和裝置,包括電腦程式產品。在一個方面中,方法包括接收輸入圖像,從圖像集合中識別輸入圖像的一個或多個最近鄰圖像,其中一個或多個最近鄰圖像中的每一個與相應的一個或多個圖像標籤相關聯,將多個圖像標籤分配給輸入圖像,其中多個圖像標籤是從與一個或多個最近鄰圖像相關聯的圖像標籤選擇的,以及將具有分配的多個圖像標籤的輸入圖像存儲在數據儲存庫中。在另一個方面中,方法包括將單個圖像標籤分配給輸入圖像,其中單個圖像標籤是從與多個排名的最近鄰圖像相關聯的標籤選擇的。
文檔編號G06Q50/00GK102105901SQ200980129633
公開日2011年6月22日 申請日期2009年4月17日 優先權日2008年6月6日
發明者桑吉夫·庫馬爾, 阿米什·馬卡迪亞 申請人:谷歌公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀