新四季網

用於使用移動裝置進行圖像辨識的系統和方法

2023-05-26 22:37:11 4

專利名稱:用於使用移動裝置進行圖像辨識的系統和方法
技術領域:
背景技術:
本發明的技術大體上涉及用於使用移動裝置來執行圖像辨識和視覺搜索的方法和設備,且更特定來說,涉及平臺和技術,其用於預處理在移動裝置上提取的圖像以提取圖像參數的縮減的集合,所述圖像參數的縮減的集合可被傳送到網絡辨識系統以識別所關注的對象,且基於所述識別來搜尋相關內容。蜂窩式通信技術和移動通信裝置中的進步(例如,相機和視頻記錄技術集成到此類通信裝置上、電子郵件和短消息接發服務集成到蜂窩式通信網絡中等)將更大的靈活性、處理能力和通信能力添加到已到處存在的移動通信裝置。結果,此類移動通信裝置已在消費者市場中變得更普遍,且許多消費者如今依賴於其移動通信裝置(例如,蜂窩式電話) 來拍照片和攝取視頻、在其社交網絡中交換消息、作出購買決策、進行金融交易,以及實行其它行為。基於受廣告內容和其投送的時機影響的既定接收方對內容的點擊和轉換速率,可對準、投送並定價廣告和其它信息內容。舉例來說,在日本,大量消費者已使用其蜂窩式電話來拍攝所印刷廣告中的條形碼的照片來獲得與所廣告的產品或服務相關聯的信息,且如果相關的廣告內容被迅速地發送到潛在的消費者的蜂窩式電話,則此廣告內容可能具有較高的轉換速率。潛在的消費者使用其蜂窩式電話來拍攝所印刷的廣告的照片,其隨後將具有所印刷的廣告的照片的多媒體消息接發服務(MMS)消息發送到伺服器。伺服器執行所述圖片與廣告資料庫的一對一匹配,且在大約三十到六十秒之後,伺服器將含有與所印刷的廣告相關聯的web連結的短消息接發服務(SMS)消息發送到潛在的消費者。然而,此類廣告和信息內容對準和遞送系統需要大量的帶寬來傳輸所印刷的廣告的圖片,且花費大量資源來匹配圖片與整個廣告資料庫。

發明內容
以下內容呈現一個或一個以上方面的簡化概要以便提供對此些方面的基本理解。 此概述並非所有所涵蓋方面的廣泛綜述,且既定不識別所有方面的關鍵或決定性要素,也不描繪任何或所有方面的範圍。其唯一目的是以簡化形式來呈現一個或一個以上方面的一些概念以作為稍後所呈現的更詳細描述的序言。
根據一個或一個以上方面中的本發明的教示,提供用於執行圖像辨識和移動視覺搜索的方法和設備,其中移動裝置用戶經由移動裝置來獲取圖像並接收與所述圖像相關聯的信息內容。在本發明的教示的一個或一個以上實施方案中,移動裝置可基於所獲取的圖像中的突出特徵群集而檢測、分類,和/或辨識一個或一個以上對象,且基於所述對象而產生視覺搜索查詢。所述視覺搜索查詢可包含所述所獲取的圖像或從中提取的查詢圖像以及與所述對象相關聯的元數據。移動裝置可將視覺搜索查詢無線地傳送到遠程伺服器,遠程伺服器可響應於所述視覺搜索查詢而產生信息內容,且其後,移動裝置可接收並呈現所述信息內容。根據一個實施方案,移動裝置可檢測對象並向用戶突出顯示所述對象,且接收指示至少一個選定對象的輸入。對象可包含,例如,標誌、設計、面部、地標、服裝、記號、自然或人造對象等。移動裝置可隨後基於選定對象而產生特徵向量,且將所述特徵向量與訓練圖像的圖像係數的集合進行比較以確定與選定對象匹配的匹配的訓練圖像。圖像係數的所述集合可存儲在移動裝置中。移動裝置可其後基於匹配的訓練圖像而分類和/或辨識選定對象,且基於匹配的訓練圖像而產生元數據。移動裝置還可例如通過修剪所獲取的圖像、壓縮所獲取的圖像、縮放所獲取的圖像以及將所獲取的圖像轉換到灰度級而基於選定對象從所獲取的圖像中提取查詢圖像。根據一個實施方案,移動裝置可包括傳感器,所述傳感器獲取與所獲取的圖像相關聯的上下文數據,且將所述上下文數據包含於視覺搜索查詢中。上下文數據可包含(例如)全球定位系統(GPS)定位、輔助式GPS (A-GPS)定位、伽利略系統定位、塔式三邊測量法定點、用戶輸入的文本或編輯信息、加速計讀數、陀螺儀讀數、溫度讀數等。根據一個實施方案,移動裝置可將視覺搜索查詢無線地傳送到圖像辨識系統中的遠程伺服器。在接收到包含查詢圖像和與所述查詢圖像中的至少一個對象相關聯的元數據的視覺搜索查詢後,遠程伺服器可即刻基於所述相關聯的元數據而辨識所述查詢圖像中的對象。舉例來說,遠程伺服器可基於相關聯的元數據而選擇訓練圖像的集合,將所述查詢圖像與所述訓練圖像的集合進行比較以確定與所述查詢圖像匹配的匹配的訓練圖像,且基於所述匹配的訓練圖像而辨識圖像中的對象。遠程伺服器可隨後基於所辨識的對象而產生信息內容,且響應於視覺搜索查詢而傳送信息內容。信息內容可包含(例如)名稱、價格、製造商、評論、優惠券和廣告。根據一個實施方案,遠程伺服器可接收視覺搜索查詢,所述視覺搜索查詢除了查詢圖像和相關聯的元數據之外還包含與查詢圖像相關聯的上下文數據。在此實施方案中, 遠程伺服器可基於所辨識的對象和上下文數據而產生信息內容,且其後響應於視覺搜索查詢而將信息內容傳送到移動裝置。根據一個實施方案,在一方面,因為移動裝置在無線地傳送視覺搜索查詢之前預處理所獲取的圖像,所以移動裝置可提取並發送所獲取的圖像的相關部分而不是整個所獲取的圖像,且因而提高傳送視覺搜索查詢的速度,且降低通信帶寬要求。另外,遠程伺服器可利用與查詢圖像相關聯的元數據和/或上下文數據來輔助辨識查詢圖像中的關注對象, 其使得遠程伺服器能夠集中於視覺搜索的範圍,且因而改進遠程伺服器以及整個圖像辨識系統的準確性、速度和效率。此外,遠程伺服器可使用相關聯的元數據和/或上下文數據來集中於或以其它方式裁剪信息內容,其可使得遠程伺服器且因此圖像辨識系統能夠響應於視覺搜索查詢而實時地或準實時地提供相關的信息內容。為了實現上述和相關目的,一個或一個以上方面包括在下文全面描述且在權利要求書中特定指出的特徵。以下描述和附圖詳細陳述一個或一個以上方面的某些說明性特徵。然而,這些特徵僅指示其中可採用各種方面的原理的數種方式,且此描述意在包含所有此些方面和其等效物。


併入本說明書中並構成本說明書的一部分的

本發明的教示的各方面,且與描述一起用以闡釋本發明的教示的原理。在圖中圖1說明與本發明的教示的一個方面相一致的示範性圖像辨識系統,其包含具有可攜式圖像傳感器的移動裝置和圖像辨識系統的後端中的遠程伺服器;圖2說明根據本發明的教示的一個實施方案的移動裝置的示範性配置;圖3說明與本發明的教示的一個實施方案相一致的用於促進並參與移動視覺搜索和圖像辨識的圖像辨識系統的後端的示範性配置;圖4說明根據本發明的教示的另一實施方案的由移動裝置執行以實現移動視覺搜索並促進圖像辨識的處理流程圖;圖5說明根據本發明的教示的又一實施方案的由圖像辨識系統執行以實現移動視覺搜索並促進圖像辨識的處理流程圖;以及圖6A到圖6D說明根據本發明的教示的再一實施方案的示範性移動視覺搜索的處
理序列。
具體實施例方式現將詳細參考本發明的教示的一個實施方案,其實例說明於附圖中。只要可能,將在整個圖式中使用相同的參考標號來指代相同或相似的部分。現在參考圖式來描述各個方面。在以下描述中,出於闡釋的目的,陳述大量特定細節以便提供對一個或一個以上方面的透徹理解。然而,可明顯地看出,所述方面可在沒有這些特定細節的情況下得以實踐。在本描述中,詞「示範性」用於指充當實例、例子或說明。任何在本文中被描述為 「示範性」的方面或設計不一定被理解為比其它方面或設計優選或有利。事實上,詞「示範性」的使用希望以具體方式來展現概念。另外,術語「或」意在指包含性的「或」而非排它性的「或」。即,除非另有指定或從上下文清楚地看出,否則短語「X使用A或B」意在指自然包含性排列中的任一者。S卩,以下例子中的任一者均滿足短語「X使用A或B」 =X使用A ;X使用B ;或X使用A及B兩者。此外,如本申請案及所附權利要求書中所使用的冠詞「 一,,通常應被理解成表示「 一個或一個以上」,除非另有指定或從上下文清楚地看出其是針對單數形式。另外,將按照可包含許多裝置、組件、模塊等的系統來呈現各個方面或特徵。應理解和了解,各種系統可包含額外裝置、組件、模塊等,和/或可不包含結合圖所論述的裝置、 組件、模塊等中的全部。也可使用這些方法的組合。本發明的教示的方面涉及用於經由移動裝置來執行視覺搜索和圖像辨識的系統和方法。更特定來說,在一個或一個以上方面中,且例如如圖1中大體上展示,提供在其中經由移動裝置130來起始移動視覺搜索和圖像辨識的平臺和技術,且其在時間圖像辨識系統120中執行。根據一個實施方案,且例如如圖1和圖2中大體上展示,移動裝置130獲取並預處理圖像100以起始移動視覺搜索。移動裝置130可基於圖像100中的突出特徵的群集或所關注的特徵來檢測一個或一個以上對象,且突出顯示檢測到的對象,例如圖案115, 且將所述對象與訓練圖像進行比較以分類或辨識所述對象。移動裝置可基於所分類或所辨識的對象而從所獲取的圖像中提取子圖像。移動裝置130還可基於所分類或所辨識的對象而產生元數據並獲取與圖像100相關聯的上下文數據(例如,全球定位系統(GPQ位置)。 移動裝置130可產生包含所獲取的圖像或從中提取的子圖像以及相關聯的元數據和/或上下文數據的視覺搜索查詢,且經由無線連接132和無線服務提供商150而將所述視覺搜索查詢傳送到遠程伺服器140。在一個或一個以上實例中,所提取的子圖像具有比所獲取的圖像的文件大小小的文件大小。因此,傳送包含所提取的子圖像而不是整個所獲取的圖像的視覺搜索查詢。此圖像縮減可提高傳送視覺搜索查詢的速度,並降低到伺服器或其它目的地的通信帶寬要求。根據一個實施方案,且例如如圖1和圖3中所展示,圖像辨識系統120的遠程伺服器140可接收視覺搜索查詢,且產生待經由移動裝置130呈現的信息內容。在接收到包含查詢圖像和與所述查詢圖像相關聯的元數據和/或上下文數據的視覺搜索查詢後,遠程伺服器140可即刻基於相關聯的元數據而辨識查詢圖像中的至少一個對象。遠程伺服器可基於所辨識的對象和相關聯的上下文數據而產生信息內容,且隨後將所述信息內容傳送到移動裝置130。其後,移動裝置130可響應於視覺搜索查詢而呈現所述信息內容。受益於與查詢圖像相關聯的元數據和/或上下文數據,遠程伺服器140可集中於視覺搜索的範圍,且因而改進遠程伺服器140以及整個圖像辨識系統120的準確性、速度和效率。此外,遠程伺服器140可使用相關聯的元數據和/或上下文數據來裁剪信息內容,其可使得遠程伺服器140且因此圖像辨識系統120能夠響應於視覺搜索查詢而實時地或準實時地提供相關的信息內容。移動裝置130所俘獲的圖像100或圖像100內的圖案115可含有對應於一個或一個以上對象的突出特徵的一個或一個以上群集(例如,特徵、所關注的對象等)。對象可包含(例如,但無任何限制)標誌、設計、面部、地標、服裝(例如,t恤、帽子、鞋子、口袋等)、 記號(例如,路牌、酒店記號等)、條形碼、廣告、雜誌、報紙、海報(例如,「一張」等)、廣告牌、布告、油畫、素描、其上顯示或投影圖像的背景幕、零售商品保養說明書、數字視頻光碟 (DVD)盒、張貼物、票、壓縮光碟(CD)盒、棒球卡、蘇打罐等,或其任何組合。在一個實例中, 圖像100或圖案115可為二維的,即使圖像100中所俘獲的對象或對象的表面不平坦和/ 或是二維的也如此。圖1展示圖像辨識系統120的一個實施方案,其中由具有可攜式圖像傳感器的移動裝置130俘獲圖像100和一個或一個以上圖案115。圖像辨識系統120可經提供以實現視覺搜索並遞送與圖像100中的對象和/或圖像100內的圖案115相關聯的信息內容。與對象相關聯的信息內容可包括視覺、聽覺或感官內容,或使得可訪問此類內容的位置描述符。舉例來說,信息內容可呈以下形式圖像、 文本、串流或非串流視頻、串流或非串流音頻、通用資源定位符(URL)、無線應用協議(WAP) 頁、超文本標記語言(HTML)頁、可擴展標記語言(XML)文檔、可執行程序、文件名稱、網際網路協議(IP)地址、電話呼叫、裝置或其它內容。可經由通信協議將信息內容傳送到移動裝置 130,所述通信協議例如為(無任何限制)電子郵件(e-mail)、多媒體消息接發服務(MMS)、 增強型消息接發服務(EMS)、短消息接發服務(SMS)、WAP推送、應用程式推送(例如,推送註冊等)、標準電話顯示,或例如傳輸控制協議(TCP)、IP、用戶數據報協議(UDP)、超文本傳遞協議(HTTP)和文件傳遞協議(FTP)等標準網際網路協議。如圖1中所示,圖像辨識系統120包括移動裝置130,移動裝置130俘獲、產生、獲取或以其它方式複製圖像100(其子圖像包含包含一個或一個以上對象的圖案115),且基於對象而產生視覺搜索查詢。圖像100是由移動裝置130俘獲的對象的電子表示。舉例來說,圖像100可為包括二維像素信息陣列的數據結構。移動裝置130的實例可包括任何移動電子裝置,例如(無任何限制)蜂窩式電話(「手機」)、個人數字助理(PDA)、數位相機,或適於在無線接入網絡(例如使用IEEE 802. 16標準(WiMAX)或IEEE 802. 11標準(Wi-Fi)操作的無線接入網絡)上操作的無線電話,或這些裝置中的兩者或兩者以上的電耦合集合, 例如與PDA有線或無線通信的數位相機。移動裝置130包括可攜式圖像傳感器(例如,如圖2中所示的圖像傳感器200等), 其可為能夠產生圖像100的任何電子裝置。舉例來說,可攜式圖像傳感器可包括電荷耦合裝置(CCD)傳感器或互補金屬氧化物半導體(CM0Q傳感器,以及用以將光圖案傳達到傳感器上並進而產生圖像100的一組光學鏡頭。在一個實施方案中,可攜式圖像傳感器被建置到移動裝置130上。在操作中,用戶在目標的大體方向上對準移動裝置130的可攜式圖像傳感器,且移動裝置130在俘獲覆蓋目標的區域後產生圖像100。移動裝置130還可檢索一個或一個以上所存儲的圖像或俘獲視頻的一個或一個以上幀以產生圖像100。舉例來說,作為使用可攜式圖像傳感器產生圖像的替代,移動裝置130可檢索存儲在130中的或經由通信協議(例如,電子郵件、匪S、EMS、SMS、HTTP、UDP等)發送的圖像以產生圖像100。在一個實施方案中,所檢索的圖像或所俘獲的幀可包含來自先前進行的視覺搜索的視覺搜索結果和/或用戶信息,且移動裝置130可獨立於或結合(例如,重疊於其上)圖像100來顯示視覺搜索結果和/或用戶註解。如將在下文更詳細地描述,移動裝置130可檢測圖像100 中的對象,且實時地或準實時地向用戶突出顯示或以其它方式指示對象中的一者或一者以上。關於在移動裝置130中集成的方面,可使用購自加利福尼亞州聖地牙哥市的高通公司的BREW 編程接口(BREW API)來執行或增加對象檢測。其它圖像檢測和辨識API或服務可用於將對象檢測集成於移動裝置130中,例如可在Java平臺、來自Sim微系統的微型編輯(Java ME )、來自 Symbian 有限公司的 Symb ian 0S,來自 Adobe 系統的 Flash Lite , 來自微軟公司的Windows Mobile ,來自蘋果公司的iPhone 0S,來自開放手持機聯盟的 Android 等下執行的API和服務。移動裝置130還可包含用以檢測位置、定位、定向、移動和/或與移動裝置130在產生圖像100時相關聯的其它上下文數據的能力。對移動裝置130的位置或定位的檢測和識別可例如使用各種定位服務來執行,例如全球定位系統(GPS)、輔助式GPS (A-GPS)、基於蜂窩式電話基站對經註冊的蜂窩式電話的三角測量法或三邊測量法的基站三角測量法或三邊測量法、歐洲伽利略定位系統,或其它定位或位置服務或技術。對移動裝置130的定向或移動的檢測和識別可例如使用各種服務來執行,例如內置傳感器(例如,如圖2中所示的傳感器290等),所述內置傳感器包含(例如)GPS單元、加速計、陀螺儀,和/或其它定向和移動檢測服務或技術。移動裝置130可進一步包含用戶輸入接口(例如,小鍵盤、麥克風等),所述用戶輸入接口可接收用戶輸入的文本或聽覺信息並提供所述文本或聽覺信息作為上下文數據。移動裝置130還可包含其它類型的傳感器,例如溫度傳感器,所述傳感器可提供其它類型的上下文數據。如圖1中所示,移動裝置130可經由無線連接132和由在圖像辨識系統120內操作的一個或一個以上無線伺服器支持的一個或一個以上基站135與無線服務提供商150通信。無線服務提供商150可隨後與一組資源通信,所述資源包含例如存儲用戶相關預訂、配置、定位和其它信息的用戶資料庫。在一個實施方案中,圖像辨識系統120可進一步包括遠程伺服器140,遠程伺服器 140與移動裝置130和無線服務提供商150聯合操作以實現視覺搜索並實時地、準實時地或以其它方式遞送與圖像100中的對象相關的信息內容。遠程伺服器140包括一個或一個以上伺服器142、144和146,其可通過跨越例如區域網(LAN)、內聯網或網際網路等一個或一個以上通信網絡的連接148而耦合。舉例來說,遠程伺服器140可包含消息接發伺服器142 中的一者或一者以上,以處置與無線服務提供商150和/或移動裝置130的通信,且響應於視覺搜索查詢而向移動裝置130遞送信息內容或提供對信息內容的訪問權,所述視覺搜索查詢可包含圖像數據、元數據和/或與圖像100相關聯的上下文數據;遠程伺服器140可包含內容伺服器144以存儲並提供信息內容;且遠程伺服器140可包含圖像辨識伺服器146 以確定遞送何信息內容和/或遞送信息內容的方式。在一個實施方案中,消息接發伺服器 142、內容伺服器144和圖像辨識伺服器146可駐留於不同物理位置處,且經由網際網路148 上的連接而以通信方式耦合。舉例來說,消息接發伺服器142和圖像辨識伺服器146可物理上駐留於由還管理無線服務提供商150的蜂窩式電話公司管理的位置處。同時,內容伺服器144可物理上駐留於廣告銷售網絡、銷售提供商、內容提供商、媒體提供商,或其它提供商或待遞送到移動裝置130的內容的源處。遠程伺服器140可經由一個或一個以上通信連接170耦合到無線服務提供商150, 所述一個或一個以上通信連接170可包含有線電鏈路(例如,Tl或T3線路等)、無線鏈路、 光學鏈路或其它通信耦合模式。無線服務提供商150可將蜂窩式電話或其它數字通信服務提供給電子裝置(例如,移動裝置130)的用戶。舉例來說,無線服務提供商150可為蜂窩式電話服務提供商(例如,Sprint Nextel公司等)、個人通信服務(PCS)提供商,或其它無線服務提供商。無線服務提供商150可包含一個或一個以上無線伺服器和基站135的網絡。移動裝置130可使用無線連接132上的多層次(例如,客戶端-伺服器等)軟體架構經由基站135與無線服務提供商150的無線伺服器通信。因而,移動裝置130可經由無線服務提供商150與遠程伺服器140通信,且遠程伺服器140可經由無線服務提供商150將相關的信息內容遞送到移動裝置130。遞送信息內容可包含向圖像辨識系統120的用戶呈現信息內容。舉例來說,可將信息內容傳輸到移動裝置130以例如在視覺顯示器上或在音頻揚聲器上向用戶呈現。現將參考圖2來說明與本發明的教示的一個或一個以上實施方案相一致的移動裝置130的示範性配置。移動裝置130(如圖1中所示)可包含至少一個天線202(例如, 發射接收器或包括輸入接口等的此類接收器的群組),其接收信號(例如,關於移動呼叫起始或其它信號交換、信號交換響應、移動應用數據傳遞、數據事件、數據事件響應、信號交換終止等);以及接收器204,其對所接收信號執行若干動作(例如,濾波、放大、下變頻等)。202可例如發射或接收對信號交換請求、數據事件請求等的響應。天線202和接收器 204還可與解調器206耦合,解調器206可解調所接收的信號,並將其提供給處理器208以進行處理。移動裝置130可另外包含存儲器210,其包含一個或一個以上計算機可讀媒體, 其在操作上耦合到處理器208且可存儲待執行的指令和待發射、接收、處理的數據等。處理器208可分析由天線202和/或移動裝置130的用戶輸入接口(未描繪)接收的信息,且/或產生供發射器218經由調製器216發射的信息。另外,處理器208可控制和/或參考移動裝置130的一個或一個以上資源或組件,所述資源或組件例如包含圖像傳感器200、解調器206、存儲器210、調製器216、發射器218、圖像檢測單元250、圖像辨識單元260和傳感器四0。處理器208還可執行運行時環境212(例如高通公司的BREW 、來自 Sun微系統的Java ME 、來自Symbian有限公司的Symbian 0S,來自Adobe系統的Flash Lite ,來自微軟公司的Windows Mobile ,來自蘋果公司的iPhone 0S,來自開放手持機聯盟的Android 等),以及應用程式集合214,或其它軟體、模塊、應用程式、邏輯、代碼等。在一個實施方案中,移動裝置130包含存儲器210以存儲計算機可讀數據(例如, 如圖ι中所示的圖像100、圖像係數庫262等)和計算機可執行軟體指令(例如,圖像檢測/ 辨識軟體270、運行時環境212、應用程式集合214等)。存儲器210可包括固態存儲器(例如,只讀存儲器、隨機存取存儲器、快閃記憶體等)、磁性硬碟驅動器、光學可讀媒體(例如, 壓縮光碟(⑶)或數字視頻光碟(DVD))等中的一者或一者以上。移動裝置130還可包括至少一個處理器208來執行存儲在存儲器210中的軟體指令。所述指令經執行以配置處理器 208來控制和/或執行(例如)圖像傳感器200、圖像檢測單元250和圖像辨識單元260的功能,如下文將例如關於圖4更詳細地描述。在一個實施方案中,將圖像感測能力和圖像檢測和/或辨識功能性展示為涉及由移動裝置130的圖像傳感器200、圖像檢測單元250和圖像辨識單元260進行的處理。舉例來說,圖像傳感器200可包括CXD傳感器或CMOS傳感器,以及一組光學鏡頭,其將光圖案傳達到傳感器上且進而產生圖像100。在操作中,用戶在目標的大體方向上對準移動裝置 130的圖像傳感器200,且圖像傳感器200在俘獲了覆蓋目標的區域後產生圖像100。移動裝置130還可檢索一個或一個以上所存儲的圖像或俘獲視頻的一個或一個以上幀以產生圖像100。在一個實施方案中,圖像傳感器200被建置到移動裝置130中。然而,圖像檢測和圖像辨識的功能性可完全駐留於移動裝置130中、遠程伺服器140中,或其任何組合中。 舉例來說,圖像檢測單元250和圖像辨識單元260可實施為存儲於移動裝置130的存儲器 210中並可由處理器208執行的圖像處理軟體的一個或一個以上集合(例如,圖像檢測/辨識軟體270等)。在一個實施方案中,圖像檢測/辨識軟體270可為移動裝置130及其組件提供到圖像傳感器200、圖像檢測單元250和/或圖像辨識單元沈0的功能性的接口。圖像檢測 /辨識軟體270可包含用於檢測圖像中的一種或一種以上對象類別和/或基於突出特徵群集而辨識圖像中的對象的算法。所述算法可包含(例如)標度不變特徵轉變(例如,SIFT、 SIFT++、LTI-Iib SIFT等)、加速穩健特徵(例如,SURF、SURF-d等)、擴張現實(例如, BazAR等),和所屬領域的技術人員已知的其它圖像檢測和辨識算法。圖像檢測/辨識軟體 270還可包含用於基於對應於圖像中的對象的突出特徵群集來檢測圖像中的一個或一個以上對象的類別或對其進行分類的算法,例如生物視覺皮質網絡(例如,體系最大化架構、HMAX等),和所屬領域的技術人員已知的其它對象分類算法。對象類別可包含(例如)自然對象,例如面部、動物、植物、陸地特徵等。對象類別還可包含(例如)人造對象,例如標誌、設計、建築物、地標、服裝、記號、交通工具等。雖然術語「對象的類別」和「對象類別」用於描述共享某些特性的對象集合,但可互換地使用所屬領域的技術人員已知的其它相似術語,例如對象的等級、對象的種類、對象的類型等。在一個實施方案中,移動裝置130可使用一個或一個以上算法來檢測圖像中的對象,使用相同或不同算法來檢測對象的類別,且/或使用相同或不同算法來辨識所述對象。 在一個實施方案中,移動裝置130可基於檢測到的對象類別來選擇辨識算法。舉例來說,移動裝置130可使用HMAX來檢測並分類圖像100中的對象,且隨後使用SIFT來辨識圖像100 中的被分類為人造對象的對象。在一個實施方案中,圖像檢測/辨識軟體270可包含用於檢測標誌的算法。標誌出現在幾乎每個用於銷售目的的產品尚,且標誌檢測算法可通過檢測標誌圖案及其在圖像內的邊界而促進移動視覺搜索。標誌可具有高度的對比度但有限的亮度和/或色彩水平, 且因而標誌圖案的亮度和/或色度直方圖可具有兩個主峰。基於這些檢測到的特性,可通過例如使用表1中所示的公式1獲取亮度(或在RGB分量被伽馬壓縮的情況下,為luma) 和色度分量的直方圖,而有效地檢測標誌圖案。表1-公式1 亮度和色度分量獲取
聯合分量二Y+Cb+ Cr,其中Y是亮度或丨uma分量,Cb是藍色色差色度分量,且Cr是紅色色差色度分量;
Bin=(聯合分 ) *歸一化_因子,其中歸一化_因子用於將聯合分量轉化為bin索引; 直方圖[bin] =直方圖[bin] +1_亮度和色度分量的直方圖可具有任何數目的bin。在一個實例中,16bin直方圖提供充分的解析度來區分標誌圖案的主峰。在獲取亮度和色度分量的直方圖之後,標誌檢測算法可定位直方圖中的最強的峰,通常為兩個。標誌檢測算法可確保直方圖的不同bin處的表示為(peakl,binl)和(peak2,bin2)的兩個最強峰滿足表2中所提供的準則。表2
Peakl + Peak2 >峰_閾值*圖像_大小 『 Peakl + Peak2 <差_閾值*圖像—大小
Abs(binl - bin2) > Bin_索弓丨_閾1_在檢測到標誌圖案後,標誌檢測算法可使用一維(I-D)投影算法來檢測標誌圖案邊界。I-D投影算法可使用(例如)表3中所提供的公式2來獲得最大聯合分量和最小聯合分量在X和Y方向上的增量。表3-公式2 I-D投影算法
X投影=每一列的Max (聯合分量)-Min (聯合分量); Y投影=每一行的Max (聯合分量)-Min (聯合分量)
標誌檢測算法可基於X投影和Y投影來確定標誌圖案邊界。在一個實例中,由於標誌圖案的X投影和Y投影波形尚的顯著增量,標誌檢測算法可有效地且在高置信度的情況下確定標誌圖案邊界。可由圖像檢測單元250使用存儲在圖像檢測/辨識軟體270中的標誌檢測算法,以檢測和/或定位圖像100內的一個或一個以上標誌,如下文將例如關於圖 4更詳細地描述。在一個實施方案中,圖像處理軟體可存取圖像係數庫沈2,圖像係數庫262可存儲可能的圖像候選者或訓練圖像的圖像係數。訓練圖像中的每一者可具有唯一地表示所述訓練圖像的係數或圖像係數的對應向量。圖像係數可包含形成對應訓練圖像的籤名的編號集合,且圖像係數的大小大體上對應於訓練圖像的類別。舉例來說,標誌(BREWGAMING MONKEY 標誌等)的圖像係數可具有約22x18x32位元組或約12千字節的大小,且人面部的圖像係數可具有大於一兆字節的大小。訓練圖像可使用分類算法(例如,HMAX、K-最近鄰、 支持向量機、神經網絡、隨機化樹,或所屬領域的技術人員已知的其它分類算法)基於包含於其中的對象而被分類。訓練圖像的圖像係數可存儲在圖像係數庫262中,且還可根據訓練圖像中的對象的類別、元數據(例如,對象類別、商標等),和/或與訓練圖像相關聯的上下文數據(例如,GPS位置、位置識別符等)而被編制索引。存儲在圖像係數庫沈2中的訓練圖像的圖像係數可由圖像檢測單元250和圖像辨識單元260用來分類、辨識,或以其它方式識別圖像100和/或圖案115內的一個或一個以上對象,如下文將例如關於圖4更詳細地描述。移動裝置130中的圖像處理軟體可進一步包括圖像編輯軟體,所述圖像編輯軟體可用於修剪、壓縮、縮放、轉換到灰度級,或以其它方式處理由圖像傳感器200俘獲的圖像 100,以提取或以其它方式產生包含圖案115的子圖像。舉例來說,可基於檢測到的、經分類的和/或所辨識出的對象來修剪或以其它方式處理圖像100。替代地或另外,可根據從移動裝置130的用戶接收到的或由所述用戶指定的指令或根據先前已由移動裝置130接收到的計算機可讀指令來修剪或以其它方式處理圖像100。可在任何合適的程式語言和/或開發環境(例如,BREW 、Java ME 、Symbian OS, Flash Lite , Windows Mobile 、iPhone OS.Android )中編寫圖像處理軟體。替代地或另外,圖像檢測單元250和圖像辨識單元沈0 可實施為移動裝置130中的硬體。所述硬體可包括包含無源和/或有源電子組件的電子電路。舉例來說,在一個實施方案中,所述硬體可實施於至少一個專用集成電路(ASIC)中。現將參看圖3來說明與本發明的教示的實施方案相一致的圖像辨識系統120的後端300的示範性配置,圖像辨識系統120包含可促進和/或參與圖像辨識和視覺搜索的遠程伺服器140和無線服務提供商150。在一個實施方案中,後端300可包含無線服務提供商150,無線服務提供商150具有接收器310,其經由接收天線306接收來自一個或一個以上移動裝置(例如,如圖1中所示的移動裝置130等)的一個或一個以上信號;以及發射器 322,其經由發射天線308將由調製器320調製的一個或一個以上信號發射到移動裝置。接收器310可接收來自接收天線306的信息,且可進一步包含接收與未接收或不能破譯的數據包相關的反饋數據的信號接收方(未圖示)。另外,接收器310在操作上與解調所接收的信息的解調器312相關聯。處理器314可分析由解調器312提供的經解調的符號和信息。處理器314進一步耦合到存儲器316,存儲器316可存儲促進和/或參與移動裝置、無線服務提供商150和/或遠程伺服器140之間的遠程通信的一個或一個以上應用程
18序318。舉例來說,應用程式318可包含主要應用程式,所述主要應用程式經配置以起始信號交換並將數據事件請求(例如,關於診斷信息、數據分析等)發送到移動裝置上操作的接收方應用程式。或者,應用程式318可包含次要應用程式,所述次要應用程式可接收信號交換請求並鑑定移動裝置上的起始應用程式。應用程式318可進一步包含用於產生和/或驗證識別應用程式318到移動裝置上的對應應用程式或移動裝置上的對應應用程式到應用程式318的識別符,或此些識別符的識別特定往返行程通信的遞增的規則。此外,所述規則可指定用於重新傳輸未確認的傳輸、重新起始信號交換請求和/或響應以及終止信號交換等的政策。因此,應用程式318可加入與駐留於移動裝置上的一個或一個以上應用程式(例如,如圖2中所示的應用程式集合214等)的移動通信,和/或與執行本文中所陳述的各種動作和功能相關的任何其它合適活動。在一個實施方案中,後端300可包含遠程伺服器140,遠程伺服器140與移動裝置 (例如,移動裝置130等)和無服務提供商150聯合操作以實現圖像辨識和視覺搜索。遠程伺服器140可包含消息接發伺服器142以處置與移動裝置和/或無線服務提供商150的通信,且響應於視覺搜索查詢而向移動裝置遞送信息內容或提供對信息內容的訪問權。舉例來說,消息接發伺服器142可接收視覺搜索查詢,所述視覺搜索查詢可包含圖像100或從圖像100中提取的一個或一個以上子圖像(例如,圖案115等),以及元數據和/或與圖像 100相關聯且由移動裝置產生的上下文數據,且隨後將所述視覺搜索查詢傳輸到圖像辨識伺服器146。對於另一實例,消息接發伺服器142可接收視覺搜索結果,所述視覺搜索結果可包含由內容伺服器144響應於視覺搜索查詢而產生的與圖像100或所提取的子圖像相關的信息內容,且隨後將所述視覺搜索結果傳輸到無線服務提供商150以用於傳輸到移動裝置。遠程伺服器140可包含圖像辨識伺服器146或與其通信以基於圖像數據、元數據, 與圖像100相關聯的上下文數據,和/或針對先前為了類似的視覺搜索查詢而提供的搜索結果的用戶反饋來辨識或以其它方式識別圖像100內的一個或一個以上對象或所提取的子圖像中的一者或一者以上。針對搜索結果的用戶反饋可例如包含關於搜索結果的準確性或相關性的二進位響應(例如,是/否、真/假、好/壞等)或縮放的響應(例如,從1到10 的比例)、針對搜索結果的用戶註解、響應於搜索結果的用戶後續動作(例如,點擊搜索結果中提供的連結或廣告等)等。圖像辨識伺服器146可進一步基於至少一個所辨識的對象、 元數據,和/或與圖像100相關聯的上下文數據,以及針對先前提供的搜索結果的任何用戶反饋而產生語義搜索結果。在一個實施方案中,圖像辨識伺服器146包含處理器360和存儲器362,存儲器362包含一個或一個以上計算機可讀媒體,所述一個或一個以上計算機可讀媒體在操作上耦合到處理器360且可存儲待執行的指令和待發射、接收、處理的數據等。 存儲器362可包括固態存儲器、磁性硬碟驅動器、例如⑶或DVD等光學可讀媒體等中的一者或一者以上。存儲在其中的指令經執行以配置處理器360來與圖像辨識系統120的其它組件聯合地控制和/或執行(例如)視覺搜索和圖像辨識。舉例來說,存儲器362可存儲圖像辨識軟體364以及圖像數據和係數庫366。圖像辨識軟體364可存取圖像係數庫366, 圖像係數庫366可存儲圖像數據和/或可能的圖像候選者或訓練圖像的係數並為其編制索弓丨。可使用分類算法(例如,HMAX、K-最近鄰、支持向量機、神經網絡、隨機化樹,或所屬領域的技術人員已知的其它分類算法)基於包含於訓練圖像中的對象而將訓練圖像分類。圖像係數庫366可根據訓練圖像中的對象的類別、元數據(例如,對象類別、商標等),和與訓練圖像相關聯的上下文數據(例如,GPS位置、位置識別符等)而為訓練圖像編制索引。訓練圖像中的每一者具有唯一地表示訓練圖像的數據和/或係數向量,所述數據和/或係數向量可存儲在圖像數據和係數庫366中且由圖像辨識軟體364使用來辨識圖像100或圖案 115內的一個或一個以上對象,如下文將例如關於圖5更詳細地描述。遠程伺服器140可進一步包含內容伺服器144或與其通信,以存儲、編制索引和提供信息內容,例如產品信息(例如,名稱、價格、製造商、規格、評論、廣告、優惠券、促銷等)、 到產品信息的引導連結、動作連結(例如,用於比較商店、保存到意願列表、與朋友共享、即時購買等的到線上零售商的連結)、名人信息(例如,與名人相關聯的姓名、個人簡介、產品和/或服務等)。地標信息(例如,與地標相關聯的名稱、歷史、產品和/或服務等),或其任何組合。內容伺服器144可響應於(例如)由圖像辨識伺服器146基於至少一個對象、元數據和/或與圖像100相關聯的上下文數據而產生的語義搜索查詢而提供相關信息內容。在一個實施方案中,內容伺服器144包含處理器340和存儲器342,存儲器342包含一個或一個以上計算機可讀媒體,所述一個或一個以上計算機可讀媒體在操作上耦合到處理器340且可存儲待執行的指令和待發射、接收、處理的數據等。存儲器342可包括固態存儲器、磁性硬碟驅動器、例如CD或DVD等光學可讀媒體等中的一者或一者以上。存儲在其中的指令經執行以配置處理器340來與圖像辨識系統120的其它組件聯合地基於圖像100 或圖案115而搜尋和提供相關信息內容。舉例來說,存儲器342可存儲用於搜尋引擎344 和信息內容資料庫;346的指令。搜尋引擎344可響應於來自移動裝置和/或圖像辨識伺服器146的搜索查詢而定位和提供相關信息內容。在所展示的實施方案中,在接收搜索查詢之前,內容伺服器144可執行對信息內容資料庫346和/或耦合到遠程伺服器140的其它計算機可讀數據存儲媒體的蠕動,以定位存儲在其中的信息內容並為其編制索引。因而,搜尋引擎344可響應於搜索查詢通過存取索引而定位相關信息內容。因此,信息內容伺服器144可基於由圖像辨識伺服器146產生的語義搜索查詢而確定將何信息內容遞送到移動裝置和/或如何遞送信息內容,例如信息內容和通信協議等的形式,如下文將例如關於圖5更詳細地描述。圖4和圖5說明根據本發明的教示的一個或一個以上方面的方法和/或流程圖。 為了易於闡釋,將方法描繪和描述為一系列動作。應理解並了解,本創新不受所說明的動作及/或動作次序的限制。舉例來說,動作可以各種次序及/或同時發生,且與本文中未呈現並描述的其它動作一起發生。此外,可能不需要所有所說明的動作來實施根據所主張的標的物的方法。此外,所屬領域的技術人員將理解並了解,方法可替代地經由狀態圖或事件而表示為一系列相關狀態。此外,應進一步了解,下文中及貫穿本說明書所揭示的方法能夠存儲於製品上以促進將所述方法運輸並傳送到計算機。如本文中所使用的術語「製品」既定涵蓋可從任何計算機可讀裝置、載體或媒體存取的電腦程式。圖4說明根據本發明的教示的一個或一個以上實施方案的可由移動裝置130(如圖1和圖2中所展示)執行以使用圖像辨識系統120(如圖1中展示)來搜索並促進圖像辨識的處理的流程圖。在410中,移動裝置130可通過獲取圖像(例如,如圖1中所示的圖像100,如圖6A中所示的圖像600等)而起始視覺搜索和圖像辨識。舉例來說,移動裝置 130的用戶在目標的大體方向上對準移動裝置130的圖像傳感器200,且移動裝置130可俘獲、產生、獲取或以其它方式複製表示所述目標的圖像。移動裝置130還可檢索一個或一個以上所存儲的圖像或俘獲視頻的一個或一個以上幀以產生圖像。舉例來說,作為使用圖像傳感器200產生圖像的替代,移動裝置130可檢索存儲在移動裝置130中的或經由通信協議(例如,電子郵件、匪S、EMS、SMS、HTTP、UDP等)發送的圖像以產生圖像。在一個實施方案中,所檢索的圖像或所俘獲的幀可包含來自先前進行的視覺搜索的視覺搜索結果和/或用戶信息,且移動裝置130可獨立於或結合(例如,重疊於其上)圖像100來顯示視覺搜索結果和/或用戶註解。接下來,在415中,移動裝置130可基於對應於所獲取的圖像中的對象的突出特徵群集而檢測一個或一個以上對象的存儲和位置。在一個實施方案中,移動裝置130可在不具有來自用戶的肯定輸入或其它動作(例如,按下快門)的情況下開始檢測對象;而是,移動裝置130可將連續獲取的圖像進行比較以確定圖像傳感器200何時靜止或已靜止了閾值時間周期,且因此可開始檢測對象。在另一實施方案中,移動裝置130可在來自用戶的肯定輸入或其它動作之後開始檢測對象。在一個實施方案中,可通過使用存儲在移動裝置130中的一個或一個以上圖像檢測算法(例如,存儲在如圖2中所示的圖像檢測/辨識軟體270和圖像檢測單元250中且由其執行的檢測算法等)來執行或增強對象檢測。可例如通過將關鍵點(例如,線、邊、脊、隅角、滴、T形交叉點或其它突出特徵)定位在圖像上來檢測對象,且隨後基於與關鍵點中的每一者相關聯的點或區來產生關鍵點向量。通過使用關鍵點向量,移動裝置130可定位圖像中的對象,且隨後針對對象中的每一者,移動裝置130可產生唯一地表示對應對象的特徵向量。可使用其它圖像檢測算法,包含(例如)HMAX、SIFT、SIFT++、LTI-lib SIFT,SURF, SURF-d、BazAR,或所屬領域的技術人員已知的其它圖像檢測算法。在一個實施方案中,可針對各種類別的對象執行對象檢測,例如,標誌、設計、面部、地標、服裝、記號、對象等。在一個方面中,可僅針對一個或一個以上預先選擇或用戶選擇的類別的對象來執行對象檢測。舉例來說,對象檢測可利用存儲在圖像檢測/辨識軟體 270中的標誌檢測算法來檢測和/或定位圖像中的僅標誌或類似於標誌的圖案。替代地或另外,移動裝置130可通過實時地產生對應於檢測到的對象的特徵向量,且將所述特徵向量與用於存儲在圖像係數庫262中的選定類別的對象的可能的圖像候選者或訓練圖像的圖像係數進行比較,而確定檢測到的對象的類別。訓練圖像中的每一者具有唯一地表示訓練圖像中的特徵的對應係數向量。在一個實施方案中,移動裝置130可通過計算向量之間的距離(例如,曼哈拉若尼斯(Manhalanobis)距離、歐幾裡得距離等)而將檢測到的對象的特徵向量與選定類別的訓練圖像的係數向量進行比較,以確定檢測到的對象的類別。在一個實施方案中,移動裝置130可檢測所獲取的圖像中的對象,之後增強所獲取的圖像以供人類觀看(例如,增強圖像的銳度、亮度和色彩的動態範圍等),且在移動裝置130的取景器或顯示器上顯示經增強的圖像。雖然經增強的圖像在美學上更令用戶愉悅,但此類增強可妨礙或甚至阻止移動裝置130準確地並有效地檢測圖像中的對象。在420中,移動裝置130可通過將指示符重疊於圖像上而突出顯示或以其它方式指示圖像的檢測到的對象。舉例來說,指示符可包含各種形式的擴張的現實圖形,例如,圍繞如圖1中所示的圖案115以及圍繞如圖6A和圖6B中所示的圖案610到620的指示符、 方框、靶心超連結等。如果移動裝置130在415中已確定檢測到的對象的類別,則移動裝置130可僅突出顯示經分類為一個或一個以上預先選定或用戶選定的類別的檢測到的對象。 接下來,在425中,移動裝置130可接收來自用戶的輸入以選擇經突出顯示的對象中的至少一者,例如,如圖6B中所示的選定圖案610。用戶輸入可包含肯定輸入或來自用戶的經由用戶輸入接口的其它動作。用戶輸入還可包含用戶靜止地握住移動裝置130,使得圖像傳感器 200集中於檢測到的對象中的一者上並持續閾值時間周期。接下來,在430中,移動裝置130可分類、辨識或以其它方式確定選定對象的特性。 移動裝置130可任選地精細化對應於選定對象的所產生的特徵向量。移動裝置130可通過將選定對象的特徵向量與用於存儲在圖像係數庫262中的一種或一種以上特徵的訓練圖像的圖像係數進行比較而確定選定對象的類別。如果移動裝置130已將選定對象分類(在 415中),則移動裝置130可保持選定對象的類別而不進一步將選定對象分類。在一個實施方案中,移動裝置130可將選定對象的特徵向量與存儲在圖像係數庫沈2中的訓練圖像的圖像係數進行比較,以辨識或以其它方式確定選定對象的特性。在一個實施方案中,移動裝置130可通過計算向量之間的距離(例如,曼哈拉若尼斯(Manhalanobis)距離、歐幾裡得距離等)而將選定對象的特徵向量與訓練圖像的係數向量進行比較,以找到與選定對象匹配的訓練圖像。如果移動裝置130找到與選定對象匹配的訓練圖像,則移動裝置130可基於匹配的訓練圖像來辨識選定對象。特徵向量的維度的數目直接與使特徵向量匹配所需的時間和處理功率相關,且因此可能需要最小化特徵向量的維度的數目。然而,特徵向量應具有足夠維度以具有區別且還對噪聲、檢測錯誤以及幾何和光度變形穩健。在435中,移動裝置130可基於與選定對象匹配的訓練圖像而產生與選定對象相關聯的元數據。舉例來說,如果移動裝置130使選定對象與BREW GAMING MONKEY 標誌的訓練圖像匹配,則移動裝置130可產生指示所述選定對象為BREW GAMING MONKEY 標誌或包含BREW GAMING 產品的元數據。或者,如果移動裝置130不可使選定對象與訓練圖像匹配,則移動裝置130可產生包含選定對象的特徵向量的元數據。在440中,移動裝置可獲取與所獲取的圖像相關聯的上下文數據。移動裝置130可在獲取圖像或處理所述圖像以檢測對象時獲取與移動裝置130相關聯的位置、定位、定向、 移動和/或其它上下文數據。舉例來說,上下文數據可包含在曾獲取圖像的地方的GPS位置。對於另一實例,上下文數據可包含在曾獲取圖像時移動裝置130的定向(例如,在廣告牌處向上、在雜誌處向下等)或環境溫度。對於又一實例,上下文數據可包含用戶輸入的文本或聽覺信息,例如類似於「在U. S. Open處」的文本或話音消息,類似於背景噪聲的被動信息,和類似於「左邊的女士是誰? 」或「左邊的女士穿的什麼」的指示。在一個實施方案中, 移動裝置130可在440中獨立地獲取上下文數據,或與在410到435中所執行的處理中的任一者同時進行。接下來,在445中,移動裝置130可基於所獲取的圖像而產生視覺搜索查詢,且將所述視覺搜索查詢傳送到圖像辨識系統120的後端300。視覺搜索查詢可包含到後端300 中的處理器或伺服器或在其中運行的進程的目的地地址,且可基於選定對象的類別而裁定所述目的地地址。在一個實施方案中,視覺搜索查詢可包含所獲取的圖像或基於選定對象從所獲取的圖像中提取的子圖像,以及與所獲取的圖像或所提取的子圖像相關聯的元數據和/或上下文數據。移動裝置130可基於選定對象來修剪、壓縮、縮放、轉換到灰度級或以其它方式處理所獲取的圖像以提取或以其它方式產生至少一個子圖像。
舉例來說,如圖1和圖6C中所說明,如果在430中將選定對象辨識為BREW GAMING MONKEY 標誌,則移動裝置130可修剪或以其它方式處理所獲取的圖像以提取包含所述標誌或其上附加了所述標誌的對象的子圖像(例如,t恤630、廣告、優惠券、帽子、一雙鞋等)。 替代地或另外,移動裝置130可根據從移動裝置130的用戶接收到的或由所述用戶指定的指令,或根據先前已由移動裝置130接收到的計算機可讀指令來修剪或以其它方式處理所獲取的圖像。在產生了視覺搜索查詢(其包含所獲取的圖像或所提取的子圖像以及與所獲取的圖像或所提取的子圖像相關聯的元數據和/或上下文數據)之後,移動裝置130可將視覺搜索查詢傳送到圖像辨識系統120的後端300。所提取的子圖像具有比所獲取的圖像的文件大小小的文件大小。因此,傳送包含所提取的子圖像而不是整個所獲取的圖像的視覺搜索查詢。此圖像縮減可再次提高傳送視覺搜索查詢的速度。另外,傳送包含所提取的子圖像而不是整個所獲取的圖像的視覺搜索查詢還可降低到伺服器或其它目的地的通信帶寬要求。在450中,移動裝置130可從後端300接收響應於視覺搜索查詢的視覺搜索結果並將其呈現給用戶。移動裝置130還可存儲視覺搜索結果和/或使所述視覺搜索結果於所述視覺搜索查詢相關聯,且可接收並存儲來自用戶的關於所述視覺搜索結果的註解。其後, 移動裝置130可經由通信協議來發射視覺搜索結果、視覺搜索查詢和/或用戶註解。視覺搜索結果可包含與所獲取的圖像中的選定對象相關聯的信息內容。舉例來說,如果選定對象是標誌(例如,如圖6B中所示的選定圖案610中的標誌等),則所述信息內容可包含產品信息(例如,產品商標650和產品類型660,如圖6D中所示),到產品信息的引導連結(例如,信息連結670)、相關產品(例如,相關產品690和廣告695)、用於比較商店、保存到意願列表、與朋友共享或即時購買的到線上零售商的連結(例如,購買連結680)等,或其任何組合。如果選定對象是名人的面部,則信息內容可例如包含名人的名字、他或她的個人簡介, 與名人相關聯的產品和/或服務,以及其它相關信息,或其任何組合。如果選定對象是地標,則信息內容可包含地標的名稱、歷史、與地標相關聯的產品和/或服務,以及其它相關信息,或其任何組合。在一個實施方案中,移動裝置130可從後端300接收關於視覺搜索結果的反饋請求,例如讓用戶對搜索結果的準確性或相關性進行評價的確認對話框、讓用戶對搜索結果進行註解的輸入對話框等。對各種類別和類型的圖像、元數據、上下文數據、視覺搜索查詢和結果、信息內容和用戶反饋機制的以上列舉僅用於說明目的,且並不打算以任何方式限制本發明的教示。圖5說明根據本發明的教示的一個實施方案的可由後端300(如圖3中所示)執行以使用圖像辨識系統120(如圖1中所示)來實現視覺搜索並促進圖像辨識的處理的流程圖。在510中,後端300中的遠程伺服器140(如圖1和圖3中所示)可經由無線連接 132和無線服務提供商150或所屬領域的技術人員已知的其它數據發射手段來接收視覺搜索查詢。如上文所描述,視覺搜索查詢可包含含有至少一個所關注的對象的圖像,和與所述圖像相關聯的元數據和/或上下文數據。出於說明的目的,基於圖像600 (如圖6C中所示) 而產生的示範性視覺搜索查詢可包含t恤630的圖像、指示所述圖像與BREWGAMING 相關聯的元數據,和指示曾在特定GPS位置處獲取所述圖像的上下文數據。接下來,在515中,遠程伺服器140可基於所述視覺搜索查詢而辨識或以其它方式識別圖像中的所關注的對象。遠程伺服器140可利用與圖像相關聯的元數據和/或上下文數據,以及與先前針對類似的視覺搜索查詢而提供的搜索結果相關聯的任何用戶反饋來輔助辨識所關注的對象,其使得遠程伺服器140能夠集中於或以其它方式限制視覺搜索的範圍,且因而改進圖像辨識系統120的準確性、速度和/或效率。在一個實施方案中,遠程伺服器140可執行存儲在圖像辨識伺服器146中的圖像辨識軟體364,以執行所述圖像與存儲在圖像數據和係數庫366中的圖像數據(例如,圖像光柵數據、圖像係數等)的一對一的匹配。遠程伺服器140可基於與所述圖像相關聯的元數據和/或上下文數據而集中於一對一的匹配。舉例來說,在接收到基於圖像600而產生的示範性視覺搜索查詢之後,遠程伺服器 140可集中於t恤630與和BREW GAMING 相關聯的所存儲的圖像數據的一對一的匹配。作為一對一的匹配的替代或除其之外,在515中,遠程伺服器140可執行圖像辨識軟體364以檢測圖像中的所關注的至少一個對象,且計算唯一地表示所關注的對象的特徵向量。遠程伺服器140可通過將特徵向量與存儲在圖像數據和係數庫366中的可能的圖像候選者或訓練圖像的圖像係數進行比較,而基於所計算的特徵向量來辨識所關注的對象。在一個實施方案中,遠程伺服器140可通過計算向量之間的距離(例如,曼哈拉若尼斯 (Manhalanobis)距離、歐幾裡得距離等)而使所計算的特徵向量與訓練圖像的係數向量匹配,以辨識所關注的對象。遠程伺服器140可隨後基於匹配的訓練圖像來辨識所關注的對象。遠程伺服器140可基於與所述圖像相關聯的元數據和/或上下文數據而集中於向量匹配。舉例來說,在接收到基於圖像600而產生的示範性視覺搜索查詢之後,遠程伺服器140 可集中於從t恤630計算的特徵向量與和BREW GAMING 相關聯的所存儲的圖像係數的匹配。在520中,遠程伺服器140可響應於視覺搜索查詢而基於所辨識的所關注的對象產生包含信息內容的視覺搜索結果。遠程伺服器140可基於所辨識的對象、元數據,和/ 或與圖像相關聯的上下文數據,以及與先前針對類似的視覺搜索查詢而提供的搜索結果相關聯的任何用戶反饋而執行語義搜索,以檢索與所辨識的對象相關聯和/或相關的信息內容。通過使用相關聯的元數據和/或上下文數據來集中於或以其它方式限制語義搜索的範圍,遠程伺服器140和因此圖像辨識系統120可響應於視覺搜索查詢提供更準確和/或更相關的信息內容。在一個實施方案中,遠程伺服器140可執行存儲在內容伺服器144中的搜尋引擎 344以執行針對存儲在信息內容資料庫346中的信息內容的語義搜索。遠程伺服器140可基於與所述圖像相關聯的元數據和/或上下文數據而集中於語義搜索。舉例來說,在接收到基於圖像600而產生的示範性視覺搜索查詢並辨識出t恤630包含BREW GAMING MONKEY 標誌的圖像之後,遠程伺服器140可執行對BREW GAMING 的語義搜索以檢索相關信息內容,例如產品信息(例如,產品商標650和產品類型660,如圖6D中所示),到產品信息的引導連結(例如,信息連結670)、相關產品(例如,相關產品690)、用於比較商店、保存到意願列表、與朋友共享或即時購買的到線上零售商的連結(例如,購買連結680)等,或其任何組合。對於進一步實例,遠程伺服器140可利用相關聯的上下文數據(例如,GPS位置、用戶輸入的文本或聽覺信息等)集中於語義搜索,以基於GPS位置來檢索相關信息內容,例如用於在所述GPS位置附近的商店處的相關產品690的廣告695 (如圖6D中所示)、在對應於所述GPS位置的附近商店處可得的優惠券和促銷等。對各種類型的搜索查詢、圖像、所關注的對象、元數據、上下文數據、視覺搜索查詢和結果和信息內容的以上列舉僅用於說明目的,且並不打算以任何方式限制本發明的教示。接下來,在525中,遠程伺服器140可經由無線連接132和無線服務提供商150或所屬領域的技術人員已知的其它數據發射手段來將包含相關信息內容的視覺搜索結果傳送或以其它方式提供給移動裝置130。移動裝置140還可傳送對關於視覺搜索結果的用戶反饋的請求,例如讓用戶對搜索結果的準確性或相關性進行評價的確認對話框、讓用戶對搜索結果進行註解的輸入對話框等。在530中,遠程伺服器140可出於任何目的而記錄視覺搜索查詢,所述目的例如為費用收集、報告、數據開採、用戶或產品簡檔、未來的銷售等。此外,遠程伺服器140可出於任何目的記錄與對應的視覺搜索查詢相關聯的或與視覺搜索查詢無關的視覺搜索結果。遠程伺服器140還可出於任何目的記錄對視覺搜索結果的用戶反饋和/或使用戶反饋與視覺搜索結果相關聯,所述目的例如為訓練圖像辨識軟體364和/ 或搜尋引擎344、費用收集、報告、數據開採、用戶或產品簡檔、未來的銷售等。另外,遠程伺服器140可高速緩衝視覺搜索結果以響應於與所述視覺搜索查詢等同或幾乎等同的未來的視覺搜索查詢而快速地提供搜索結果並最小化冗餘處理。此外,遠程伺服器140可與由圖像辨識系統120進行的對視覺搜索查詢的處理相關聯的統計數據,例如搜索時間、視覺搜索結果中的信息內容的相關性方面的置信度水平等。當本文中所描述的實施方案以軟體、固件、中間件、微代碼和/或程序代碼或代碼段實施時,其可存儲於例如存儲組件等計算機可讀存儲媒體中。代碼段可表示過程、函數、 子程序、程序、例程、子例程、模塊、軟體包、類,或者指令、數據結構或程序語句的任何組合。 可通過傳遞和/或接收信息、數據、自變量、參數或存儲器內容而將一代碼段耦合到另一代碼段或硬體電路。可使用包含存儲器共享、消息傳遞、權標傳遞、網絡發射等的任何合適手段來傳遞、轉發或發射信息、自變量、參數、數據等。對於軟體實施方案來說,可通過執行本文中所描述的功能的模塊(例如,程序、函數等)來實施本文中所描述的技術。軟體代碼可存儲於存儲器單元中且由處理器執行。存儲器單元可實施於處理器內或處理器外部,在實施於處理器外部的情況下,存儲器單元可經由此項技術中已知的各種手段以通信方式耦合到處理器。前述描述是說明性的,且所屬領域的技術人員可想到配置和實施方案方面的變化。舉例來說,可使用通用處理器、數位訊號處理器(DSP)、專用集成電路(ASIC)、現場可編程門陣列(FPGA)或其它可編程邏輯裝置、離散門或電晶體邏輯、離散硬體組件或其經設計以執行本文中所描述的功能的任何組合來實施或執行結合本文中所揭示的實施例而描述的各種說明性邏輯、邏輯塊、模塊和電路。通用處理器可以是微處理器,但在替代方案中,處理器可以是任何常規處理器、控制器、微控制器或狀態機。處理器還可實施為計算裝置的組合,例如,DSP與微處理器的組合、多個微處理器、一個或一個以上微處理器與DSP核心的聯合,或任何其它此類配置。在一個或一個以上示範性實施方案中,可以硬體、軟體、固件或其任何組合實施所描述的功能。對於軟體實施方案來說,可通過執行本文中所描述的功能的模塊(例如,程序、函數等)來實施本文中所描述的技術。軟體代碼可存儲於存儲器單元中且由處理器執行。存儲器單元可實施於處理器內或處理器外部,在實施於處理器外部的情況下,存儲器單元可經由此項技術中已知的各種手段以通信方式耦合到處理器。如果以軟體實施,則可將所述功能作為一個或一個以上指令或代碼存儲於計算機可讀媒體上或經由計算機可讀媒體來傳輸。計算機可讀媒體包括計算機存儲媒體與通信媒體兩者,通信媒體包括促進將電腦程式從一處傳遞到另一處的任何媒體。存儲媒體可為可由計算機存取的任何可用的有形媒體。以實例而非限制的方式,此類有形計算機可讀媒體可包括RAM、R0M、EEPR0M、⑶-ROM 或其它光碟存儲裝置、磁碟存儲裝置或其它磁性存儲裝置,或可用於載送或存儲呈指令或數據結構的形式的所要程序代碼且可由計算機存取的任何其它媒體。同樣,可恰當地將任何連接稱作計算機可讀媒體。舉例來說,如果使用同軸電纜、光纖電纜、雙絞線、數字訂戶線 (DSL)或例如紅外線、無線電和微波等無線技術從網站、伺服器或其它遠程源傳輸軟體,則所述同軸電纜、光纖電纜、雙絞線、DSL或例如紅外線、無線電和微波等無線技術包括於媒體的定義中。上述各者的組合也應包括在計算機可讀媒體的範圍內。本文中所描述的技術可用於各種無線通信系統中,例如,CDMA、TDMA、FDMA、OFDMA、 SC-FDMA和其它系統。術語「系統」和「網絡」常常可互換使用。CDMA系統可實施例如通用陸地無線電接入(UTRA)、cdma2000等無線電技術。UTRA包含寬帶CDMA (W-CDMA)和CDMA的其它變體。此外,cdma2000涵蓋IS-2000、IS-95和IS-856標準。TDMA系統可實施例如全球移動通信系統(GSM)等無線電技術。OFDMA系統可實施例如演進式UTRA(E-UTRA)、超移動寬帶(UMB)、IEEE 802. Il(Wi-Fi)、IEEE 802. 16 (WiMAX)、IEEE 802. 20、Flash-OFDM 等。 UTRA和E-UTRA是全球移動電信系統(UMTS)的部分。3GPP長期演進(LTE)是使用E-UTRA 的UMTS的版本,其在下行鏈路上採用OFDMA且在上行鏈路上採用SC-FDMA。UTRA、E_UTRA、 UMTS、LTE及GSM被描述於來自名為「第三代合作夥伴計劃」 (3GPP)的組織的文獻中。另外, 來自名為「第三代合作夥伴計劃2」(3GPP2)的組織的文獻中描述了 cdma2000和UMB。另外,所述無線通信系統可另外包括對等(例如,移動裝置到移動裝置)專用網絡系統,其經常使用不成對的未經許可的頻譜、802. XX無線LAN、藍牙(BLUETOOTH)及任何其它短程或長程無線通信技術。結合本文中所揭示的實施例而描述的方法或算法的步驟可直接以硬體、以由處理器執行的軟體模塊或以所述兩者的組合來體現。雖然已通過實例描述了方法,但可以與所說明的次序不同的次序或同時地執行所述方法的步驟。軟體模塊可駐留於RAM存儲器、快閃記憶體、ROM、EPROM、EEPR0M、寄存器、硬碟、可裝卸磁碟、CD-ROM,或此項技術中已知的任何其它形式的計算機可讀存儲媒體中。示範性存儲媒體耦合到處理器,使得處理器可從存儲媒體讀取信息以及將信息寫入到存儲媒體。在替代方案中,存儲媒體可與處理器成一體式。處理器及存儲媒體可駐留於ASIC中。ASIC可駐留於移動裝置中。在替代方案中,處理器和存儲媒體可作為離散組件駐留於移動裝置中。描述為單數或集成的其它資源可在一個實施方案中為複數或分布的,且描述為多個或分布的資源可在若干實施方案中為組合的。 相應地,本發明的教示的範圍既定僅受所附權利要求書限制。
權利要求
1.一種移動裝置,其包括 到伺服器的無線接口 ;以及處理器,其與所述無線接口通信,所述處理器經配置以起始處理,所述處理包括 獲取圖像;檢測所述所獲取的圖像中的一個或一個以上對象;產生與所述檢測到的對象中的至少一者相關聯的元數據;基於所述至少一個對象從所述所獲取的圖像中提取查詢圖像;產生視覺搜索查詢,其中所述視覺搜索查詢包含所述查詢圖像和所述元數據;經由所述無線接口將所述視覺搜索查詢傳送到所述伺服器;以及響應於所述視覺搜索查詢而接收並呈現與所述至少一個對象相關聯的信息內容。
2.根據權利要求1所述的移動裝置,其中產生元數據進一步包括 將所述檢測到的對象中的一者或一者以上分類為一對象類別; 突出顯示所述經分類的對象;接收指示所述經分類的對象中的選定一者的輸入;以及基於所述選定對象的所述對象類別而產生所述元數據。
3.根據權利要求2所述的移動裝置,其中將所述檢測到的對象中的一者或一者以上分類進一步包括基於所述檢測到的對象中的至少一者而產生特徵向量;將所述特徵向量與所述對象類別中的訓練圖像的圖像係數的集合進行比較,以確定所述對象類別中的與所述至少一個檢測到的對象匹配的匹配的訓練圖像,其中圖像係數的所述集合存儲在所述移動裝置中;以及基於所述匹配的訓練圖像而將所述檢測到的對象分類。
4.根據權利要求3所述的移動裝置,其中所述處理器實時地執行所述獲取、檢測、突出顯示和分類的操作。
5.根據權利要求3所述的移動裝置,其中所述對象類別包含標誌、設計、面部、地標、服裝、記號、自然對象或人造對象。
6.根據權利要求1所述的移動裝置,其中產生元數據進一步包括 突出顯示所述檢測到的對象;接收指示所述檢測到的對象中的選定一者的輸入;以及基於所述選定對象而產生所述元數據。
7.根據權利要求6所述的移動裝置,其中基於所述選定對象而產生所述元數據進一步包括將所述選定對象分類為一對象類別;以及基於所述選定對象的所述對象類別而產生所述元數據。
8.根據權利要求7所述的移動裝置,其中將所述視覺搜索查詢傳送到所述伺服器進一步包括基於所述選定對象的所述對象類別而產生用於所述視覺搜索查詢的目的地地址;以及根據所述目的地地址而將所述視覺搜索查詢傳送到所述伺服器。
9.根據權利要求1所述的移動裝置,其中從所述所獲取的圖像中提取查詢圖像進一步包括修剪所述所獲取的圖像、壓縮所述所獲取的圖像、縮放所述所獲取的圖像,或將所述所獲取的圖像轉換到灰度級。
10.根據權利要求1所述的移動裝置,其中產生元數據進一步包括 基於所述檢測到的對象中的至少一者而產生特徵向量;將所述特徵向量與訓練圖像的圖像係數的集合進行比較,以確定與所述檢測到的對象匹配的匹配的訓練圖像,其中圖像係數的所述集合存儲在所述移動裝置中; 基於所述匹配的訓練圖像而辨識所述檢測到的對象;以及基於所述匹配的訓練圖像而產生與所述所辨識的對象相關聯的所述元數據。
11.根據權利要求1所述的移動裝置,其中所述移動裝置包括上下文數據傳感器,且其中獲取圖像進一步包括經由所述上下文數據傳感器而獲取與所述所獲取的圖像相關聯的上下文數據,其中所述視覺搜索查詢進一步包含所述上下文數據。
12.根據權利要求11所述的移動裝置,其中所述上下文數據包括全球定位系統GPS定位、輔助全球定位系統A-GPS定位、伽利略系統定位、塔式三邊測量法定點、文本信息、聽覺信息、加速計讀數、陀螺儀讀數,或溫度讀數。
13.根據權利要求1所述的移動裝置,其中所述信息內容包含名稱、價格、製造商、評論、優惠券,或廣告。
14.一種執行圖像辨識的方法,其包括 通過移動裝置獲取圖像;檢測所述所獲取的圖像中的一個或一個以上對象;產生與所述檢測到的對象中的至少一者相關聯的元數據;基於所述至少一個對象從所述所獲取的圖像中提取查詢圖像;產生視覺搜索查詢,其中所述視覺搜索查詢包含所述查詢圖像和所述元數據;無線地傳送所述視覺搜索查詢;以及響應於所述視覺搜索查詢而接收並呈現與所述至少一個對象相關聯的信息內容。
15.根據權利要求14所述的方法,其中產生元數據進一步包括 將所述檢測到的對象中的一者或一者以上分類為一對象類別; 突出顯示所述經分類的對象;接收指示所述經分類的對象中的選定一者的輸入;以及基於所述選定對象的所述對象類別而產生所述元數據。
16.根據權利要求15所述的方法,其中將所述檢測到的對象中的一者或一者以上分類進一步包括基於所述檢測到的對象中的至少一者而產生特徵向量;將所述特徵向量與所述對象類別中的訓練圖像的圖像係數的集合進行比較,以確定所述對象類別中的與所述至少一個檢測到的對象匹配的匹配的訓練圖像,其中圖像係數的所述集合存儲在所述移動裝置中;以及基於所述匹配的訓練圖像而將所述檢測到的對象分類。
17.根據權利要求16所述的方法,其中所述移動裝置實時地執行所述獲取、檢測、突出顯示和分類的操作。
18.根據權利要求14所述的方法,其中產生元數據進一步包括 突出顯示所述檢測到的對象;接收指示所述檢測到的對象中的選定一者的輸入;以及基於所述選定對象而產生所述元數據。
19.根據權利要求18所述的方法,其中基於所述選定對象而產生所述元數據進一步包括將所述選定對象分類為一對象類別;以及基於所述選定對象的所述對象類別而產生所述元數據。
20.根據權利要求19所述的方法,其中無線地傳送所述視覺搜索查詢進一步包括 基於所述選定對象的所述對象類別而產生用於所述視覺搜索查詢的目的地地址;以及根據所述目的地地址而將所述視覺搜索查詢傳送到目的地。
21.根據權利要求14所述的方法,其中獲取圖像進一步包括經由所述移動裝置的上下文數據傳感器而獲取與所述所獲取的圖像相關聯的上下文數據,所述視覺搜索查詢進一步包含所述上下文數據。
22.一種用於執行圖像辨識的系統,其包括 用於通過移動裝置獲取圖像的裝置;用於檢測所述所獲取的圖像中的一個或一個以上對象的裝置; 用於產生與所述檢測到的對象中的至少一者相關聯的元數據的裝置; 用於基於所述至少一個對象從所述所獲取的圖像中提取查詢圖像的裝置; 用於產生視覺搜索查詢的裝置,其中所述視覺搜索查詢包含所述查詢圖像和所述元數據;用於無線地傳送所述視覺搜索查詢的裝置;以及用於響應於所述視覺搜索查詢而接收並呈現與所述至少一個對象相關聯的信息內容的裝置。
23.根據權利要求22所述的系統,其中所述用於產生元數據的裝置進一步包括 用於將所述檢測到的對象中的一者或一者以上分類為一對象類別的裝置; 用於突出顯示所述經分類的對象的裝置;用於接收指示所述經分類的對象中的選定一者的輸入的裝置;以及用於基於所述選定對象的所述對象類別而產生所述元數據的裝置。
24.根據權利要求23所述的系統,其中所述用於將所述檢測到的對象中的一者或一者以上分類的裝置進一步包括用於基於所述檢測到的對象中的至少一者而產生特徵向量的裝置; 用於將所述特徵向量與所述對象類別中的訓練圖像的圖像係數的集合進行比較,以確定所述對象類別中的與所述至少一個檢測到的對象匹配的匹配的訓練圖像的裝置;以及用於基於所述匹配的訓練圖像而將所述檢測到的對象分類的裝置。
25.根據權利要求M所述的系統,其中所述用於獲取、檢測、突出顯示和分類的裝置實時地執行。
26.根據權利要求22所述的系統,其中所述用於產生元數據的裝置進一步包括 用於突出顯示所述檢測到的對象的裝置;用於接收指示所述檢測到的對象中的選定一者的輸入的裝置;以及用於基於所述選定對象而產生所述元數據的裝置。
27.根據權利要求沈所述的系統,其中所述用於基於所述選定對象而產生所述元數據的裝置進一步包括用於將所述選定對象分類為一對象類別的裝置;以及用於基於所述選定對象的所述對象類別而產生所述元數據的裝置。
28.根據權利要求27所述的系統,其中所述用於無線地傳送所述視覺搜索查詢的裝置進一步包括用於基於所述選定對象的所述對象類別而產生用於所述視覺搜索查詢的目的地地址的裝置;以及用於根據所述目的地地址而將所述視覺搜索查詢傳送到目的地的裝置。
29.根據權利要求22所述的系統,其中所述用於獲取圖像的裝置進一步包括 用於經由所述移動裝置的上下文數據傳感器而獲取與所述所獲取的圖像相關聯的上下文數據的裝置,所述視覺搜索查詢進一步包含所述上下文數據。
30.一種電腦程式產品,其包含計算機可讀媒體,所述計算機可讀媒體存儲在由計算機執行時致使所述計算機執行圖像辨識的指令,所述指令包括用於致使所述計算機獲取圖像的至少一個指令;用於致使所述計算機檢測所述所獲取的圖像中的一個或一個以上對象的至少一個指令;用於致使所述計算機產生與所述檢測到的對象中的至少一者相關聯的元數據的至少一個指令;用於致使所述計算機基於所述至少一個對象而從所述所獲取的圖像中提取查詢圖像的至少一個指令;用於致使所述計算機產生視覺搜索查詢的至少一個指令,其中所述視覺搜索查詢包含所述查詢圖像和所述元數據;用於致使所述計算機無線地傳送所述視覺搜索查詢的至少一個指令;以及用於致使所述計算機響應於所述視覺搜索查詢而接收並呈現與所述至少一個對象相關聯的信息內容的至少一個指令。
31.根據權利要求30所述的電腦程式產品,其中所述用於致使所述計算機產生元數據的至少一個指令進一步包括用於致使所述計算機將所述檢測到的對象中的一者或一者以上分類為一對象類別的至少一個指令;用於致使所述計算機突出顯示所述經分類的對象的至少一個指令; 用於致使所述計算機接收指示所述經分類的對象中的選定一者的輸入的至少一個指令;以及用於致使所述計算機基於所述選定對象的所述選定對象類別而產生所述元數據的至少一個指令。
32.根據權利要求31所述的電腦程式產品,其中所述用於致使所述計算機將所述檢測到的對象中的一者或一者以上分類的至少一個指令進一步包括用於致使所述計算機基於所述檢測到的對象中的至少一者而產生特徵向量的至少一個指令;用於致使所述計算機將所述特徵向量與所述對象類別中的訓練圖像的圖像係數的集合進行比較,以確定所述對象類別中的與所述至少一個檢測到的對象匹配的匹配的訓練圖像的至少一個指令,其中圖像係數的所述集合存儲在所述計算機中;以及用於致使所述計算機基於所述匹配的訓練圖像而將所述檢測到的對象分類的至少一個指令。
33.根據權利要求32所述的電腦程式產品,其中所述用於致使所述計算機獲取、檢測、突出顯示和分類的至少一個指令致使所述計算機實時地獲取、檢測、突出顯示和分類。
34.根據權利要求30所述的電腦程式產品,其中所述用於致使所述計算機產生元數據的至少一個指令進一步包括用於致使所述計算機突出顯示所述檢測到的對象的至少一個指令; 用於致使所述計算機接收指示所述突出顯示的對象中的選定一者的輸入的至少一個指令;以及用於致使所述計算機基於所述選定對象而產生所述元數據的至少一個指令。
35.根據權利要求34所述的電腦程式產品,其中所述用於致使所述計算機基於所述選定對象而產生所述元數據的至少一個指令進一步包括用於致使所述計算機將所述選定對象分類為一對象類別的至少一個指令;以及用於致使所述計算機基於所述選定對象的所述對象類別而產生所述元數據的至少一個指令。
36.根據權利要求35所述的電腦程式產品,其中所述用於致使所述計算機無線地傳送所述視覺搜索查詢的至少一個指令進一步包括用於致使所述計算機基於所述選定對象的所述對象類別而產生用於所述視覺搜索查詢的目的地地址的至少一個指令;以及用於致使所述計算機根據所述目的地地址而將所述視覺搜索查詢傳送到目的地的至少一個指令。
37.根據權利要求30所述的電腦程式產品,其中所述用於致使所述計算機獲取圖像的至少一個指令進一步包括用於致使所述計算機經由所述移動裝置的上下文數據傳感器而獲取與所述所獲取的圖像相關聯的上下文數據的至少一個指令,所述視覺搜索查詢進一步包含所述上下文數據。
38.一種用於執行圖像辨識的系統,其包括 伺服器,其經配置以從移動裝置接收視覺搜索查詢,其中所述視覺搜索查詢包含圖像和與所述圖像中的至少一個對象相關聯的元數據,基於所述元數據而辨識與所述至少一個對象相關聯的所述圖像中的對象, 基於所述所辨識的對象而產生信息內容,以及響應於所述視覺搜索查詢而傳送所述信息內容。
39.根據權利要求38所述的系統,其中所述視覺搜索查詢進一步包含與所述圖像相關聯的上下文數據;且進一步其中所述伺服器經配置以基於所述所辨識的對象和所述上下文數據而產生所述信息內容。
40.根據權利要求39所述的系統,其中所述上下文數據包括全球定位系統GPS定位、輔助式全球定位系統A-GPS定位、伽利略系統定位、塔式三邊測量法定點、文本信息、聽覺信息、加速計讀數、陀螺儀讀數,或溫度讀數。
41.根據權利要求38所述的系統,其中所述伺服器進一步經配置以將所述圖像與訓練圖像進行比較以確定與所述圖像匹配的匹配的訓練圖像,其中所述訓練圖像是基於所述元數據而被選定,以及基於所述匹配的訓練圖像而辨識所述圖像中的所述對象。
42.根據權利要求38所述的系統,其中所述伺服器進一步經配置以 基於所述元數據而檢測所述圖像中的所述對象,產生所述對象的特徵向量,將所述特徵向量與訓練圖像的圖像係數進行比較以確定與所述對象匹配的匹配的訓練圖像,其中所述圖像係數是基於所述元數據而被選定,以及基於所述匹配的訓練圖像而辨識所述對象。
43.根據權利要求38所述的系統,其中所述對象包含標誌、設計、面部、地標、服裝、記號、自然對象或人造對象。
44.根據權利要求38所述的系統,其中所述信息內容包含名稱、價格、製造商、評論、優惠券,或廣告。
45.根據權利要求38所述的系統,其中所述伺服器進一步經配置以 存儲所述視覺搜索查詢,以及使所述信息內容與所述視覺搜索查詢相關聯。
46.一種執行圖像辨識的方法,其包括從移動裝置接收視覺搜索查詢,其中所述視覺搜索查詢包含圖像和與所述圖像中的至少一個對象相關聯的元數據;基於所述元數據而辨識與所述至少一個對象相關聯的所述圖像中的對象; 基於所述所辨識的對象而產生信息內容;以及響應於所述視覺搜索查詢而傳送所述信息內容。
47.根據權利要求46所述的方法,其中所述視覺搜索查詢進一步包含與所述圖像相關聯的上下文數據,且進一步其中產生信息內容包括基於所述所辨識的對象和所述上下文數據而產生所述信息內容。
48.根據權利要求47所述的系統,其中所述上下文數據包括全球定位系統GPS定位、輔助式全球定位系統A-GPS定位、伽利略系統定位、塔式三邊測量法定點、文本信息、聽覺信息、加速計讀數、陀螺儀讀數,或溫度讀數。
49.根據權利要求46所述的方法,其中辨識所述圖像中的對象進一步包括將所述圖像與訓練圖像的集合進行比較以確定與所述圖像匹配的匹配的訓練圖像,其中基於所述元數據而選擇訓練圖像的所述集合;以及基於所述匹配的訓練圖像而辨識所述圖像中的所述對象。
50.一種執行圖像辨識的系統,其包括用於從移動裝置接收視覺搜索查詢的裝置,其中所述視覺搜索查詢包含圖像和與所述圖像中的至少一個對象相關聯的元數據,用於基於所述元數據而辨識與所述至少一個對象相關聯的所述圖像中的對象的裝置;用於基於所述所辨識的對象而產生信息內容的裝置;以及用於響應於所述視覺搜索查詢而傳送所述信息內容的裝置。
51.根據權利要求50所述的系統,其中所述視覺搜索查詢進一步包含與所述圖像相關聯的上下文數據,且進一步其中所述用於產生信息內容的裝置包括用於基於所述所辨識的對象和所述上下文數據而產生所述信息內容的裝置。
52.根據權利要求51所述的系統,其中所述上下文數據包括全球定位系統GPS定位、輔助式全球定位系統A-GPS定位、伽利略系統定位、塔式三邊測量法定點、文本信息、聽覺信息、加速計讀數、陀螺儀讀數,或溫度讀數。
53.根據權利要求50所述的系統,其中所述用於辨識所述圖像中的對象的裝置進一步包括用於將所述圖像與訓練圖像的集合進行比較以確定與所述圖像匹配的匹配的訓練圖像的裝置,其中訓練圖像的所述集合是基於所述元數據而被選定;以及用於基於所述匹配的訓練圖像而辨識所述圖像中的所述對象的裝置。
54.一種電腦程式產品,其包括計算機可讀媒體,所述計算機可讀媒體存儲在由計算機執行時致使所述計算機執行圖像辨識的指令,所述指令包括用於致使所述計算機從移動裝置接收視覺搜索查詢的至少一個指令,其中所述視覺搜索查詢包含圖像和與所述圖像中的至少一個對象相關聯的元數據,用於致使所述計算機基於所述元數據而辨識與所述至少一個對象相關聯的所述圖像中的對象的至少一個指令;用於致使所述計算機基於所述所辨識的對象而產生信息內容的至少一個指令;以及用於致使所述計算機響應於所述視覺搜索查詢而傳送所述信息內容的至少一個指令。
55.根據權利要求M所述的電腦程式產品,其中所述視覺搜索查詢進一步包含與所述圖像相關聯的上下文數據,且進一步其中所述用於致使所述計算機產生信息內容的至少一個指令包括用於致使所述計算機基於所述所辨識的對象和所述上下文數據而產生所述信息內容的至少一個指令。
56.根據權利要求55所述的電腦程式產品,其中所述上下文數據包括全球定位系統 GPS定位、輔助式全球定位系統A-GPS定位、伽利略系統定位、塔式三邊測量法定點、文本信息、聽覺信息、加速計讀數、陀螺儀讀數,或溫度讀數。
57.根據權利要求M所述的電腦程式產品,其中所述用於致使所述計算機辨識所述圖像中的對象的至少一個指令進一步包括用於致使所述計算機將所述圖像與訓練圖像的集合進行比較以確定與所述圖像匹配的匹配的訓練圖像的至少一個指令,其中訓練圖像的所述集合是基於所述元數據而被選定;以及用於致使所述計算機基於所述匹配的訓練圖像而辨識所述圖像中的所述對象的至少一個指令。
全文摘要
實施方案涉及用於實時的圖像辨識和移動視覺搜索的系統和方法。例如蜂窩式電話等移動裝置獲取圖像且預處理所述所獲取的圖像以基於所述所獲取的圖像中檢測到的對象而產生視覺搜索查詢。所述視覺搜索查詢包含所述所獲取的圖像或從中提取的查詢圖像以及與所述檢測到的對象相關聯的元數據。所述移動裝置將所述視覺搜索查詢無線地傳送到遠程伺服器,且響應於所述視覺搜索查詢,所述遠程伺服器基於所述相關聯的元數據而辨識所述查詢圖像中的對象。所述遠程伺服器隨後基於所述所辨識的對象而產生信息內容,且將所述信息內容傳送到所述移動裝置以經由所述移動裝置進行呈現。
文檔編號G06K9/20GK102395966SQ201080016836
公開日2012年3月28日 申請日期2010年4月14日 優先權日2009年4月14日
發明者丹佛德爾·秋樂·山河, 張勇, 李翔尊, 約瑟夫·於惠·黃, 若澤·理查多·多斯桑託斯 申請人:高通股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀