從顯示多媒體控制並且請求信息的方法

2023-06-30 18:03:11

專利名稱：從顯示多媒體控制並且請求信息的方法
技術領域：
本發明涉及一種控制媒體的方法，具體地，本發明涉及一種使用面部識別以便檢索有用的信息的方法，所述有用的信息涉及通過識別請求這樣的信息的姿勢來在顯示多媒體中識別的特徵。
背景技術：
操作電子設備的用戶已經變得越來越依賴於電子遙控器(remote control)。電子遙控器允許用戶從遠處發出命令，通過紅外線(IR)和無線電信號向電子設備發出命令。在典型的家庭中，可以使用遙控器控制一個或多個電子設備，諸如電視機、有線電視接收器、CD播放器、視頻錄像機、DVD播放器、音頻接收器、計算機系統以及甚至照明設備。實際上，許多電子組件依靠通過遙控器的命令，其中遙控器僅可以訪問電子設備喜好 (preference)。雖然電子遙控器本質上已經變得非常複雜，但是它們的使用變得始終流行，尤其由於許多遙控器產生了對實況媒體的進一步可訪問性。許多電子消費者對增加與所有形式的多媒體(尤其是電視)的交互性具有更強的期望。電子消費者長期期望增加與多媒體的交互和參與。去除電子遙控器將不例外。使用人體姿勢來命令電子設備在科幻小說中已經被討論了多年。然而，隨著姿勢(gesture) 識別的進步，已經證明人類姿勢向電子輸出口(outlet)發出命令是有價值的。姿勢識別技術允許用戶在不需要使用其它機械裝置(諸如電子遙控器)的情況下，與電子設備交互。這種技術通常包括照相機讀取人體移動並且將從照相機收集的數據通信至計算機。計算機然後識別選擇的姿勢作為意圖用於電子設備的命令。例如，實踐中，用戶可將手指指向電視機或計算機屏幕以便移動光標或激活應用命令。在美國專利第7，283, 983號中公開了一種交互媒體系統，其教導了一種與攝像機耦接的計算機，以便提供一種用於利用成像以及識別技術的方法以結合印刷媒體(諸如圖書、教材、雜誌、海報、圖表、地圖、單獨頁面、包裹、遊戲卡片等)的使用而為人類用戶提供的增強的交互。該計算機系統使用基於視覺的傳感器來辨別印刷媒體並且檢索與該視圖對應的信息。傳感器然後辨別至少與媒體的一部分有關的第一用戶姿勢。計算機系統然後將該姿勢翻譯為命令，並且至少部分基於第一姿勢和檢索的信息，該系統電子地說出檢索的信息的至少一部分。人體姿勢可以源自任何身體運動或狀態，包括上述的手部移動。面部識別可通過區別那些姿勢來自哪裡並且濾除不相關移動來進一步協助運動檢測系統。雖然人類具有先天的能力在面部之間進行識別和區別，但是將相同的固有能力使用於計算機軟體中是相當困難的。然而，在過去的幾年中，已經更好地開發了該系統。使用計算機系統的面部識別允許來自數字圖像或視頻源的人的辨別和驗證。由於人類的面部具有許多的、可區別的特徵，可利用這些特徵的比較用於人的辨別。使用算法，計算機軟體可以比較特徵(諸如雙眼之間的距離、眼眶的深度、顴骨的形狀、以及許多其它面部特點)，並且然後將每個特點與現有的面部數據相比較。
授權給Agraham等人的美國專利第6，377，995號提供了一種使用面部和語音識別來對多媒體通信編排索引的方法和裝置，使得可以高效地檢索並重放選擇的多媒體通信的部分。該方法和裝置結合面部和聲音識別來辨別可包括數據或元數據的多播、多媒體電話會議的參與者。當音頻和視頻面部圖案(pattern) 二者匹配特定的參與者的語音和面部模型時，伺服器確定特定參與者的身份，並且然後基於參與者的語音和面部圖案的辨別來創建參與者的索引，由此使用索引來分割多媒體通信。深度感知照相機也是廣泛可用的並且用於控制媒體。視頻圖案識別軟體(諸如 Sony Eyetoy和Playstation Eye)，使用專用照相機在短範圍內通過照相機生成正在被觀看的深度圖，允許用戶使用運動、顏色檢測以及甚至使用內置麥克風的聲音來與媒體交互。授權給McCarty等人的美國專利第6，904，408號教導了一種用於定製用戶的網絡瀏覽體驗的網絡內容管理器。該管理器根據用戶的心理喜好來選擇適當的在線媒體，其被收集在傳統(legacy)資料庫中並且響應至少一個實時可觀察行為信號。皮膚溫度、脈搏率、心率、呼吸率、EMG、EEG、話音重音以及姿勢識別是行為響應中的一些，並且測量並分析心理指標(indicator)。通過視頻輸入的計算機分析來完成姿勢識別。面部的位置可以指示樂觀(upbeat)或悲觀(downbeat)態度，其中每分鐘眨眼的計數可用於指示焦慮度。姿勢識別已被證明有利於許多應用。然而，姿勢識別具有許多挑戰，包括姿勢識別軟體的魯棒性和準確性。對於基於圖像的姿勢識別，存在與裝備以及在視場中發現的噪聲量相關聯的局限。無意的姿勢以及背景移動妨礙發出的命令的完全識別。存在尤其使用人類的姿勢來控制媒體內容的需要。然而，先前方法已經採用了不具有魯棒性的姿勢識別技術。

發明內容
本發明提供一種使用姿勢來控制交互媒體的具有魯棒性的方法。一種從多媒體輸出口設備檢索元數據信息的方法，其中，所述方法遵循以下步驟 (1)使用面部檢測提取當前捕捉的圖像中的圖像熱點區域，( 使用姿勢識別來檢測至少一個圖像熱點區域中的人類的姿勢指示，( 確定該姿勢指示與對於富交互模塊預分配的命令是否匹配，(4)將對應所檢測的預分配的命令的信號發送至富交互模塊，(5)從發送自多媒體的電信號中提取媒體圖像熱點區域，(6)將使用姿勢識別在至少一個圖像熱點區域中檢測的任何人類的姿勢與設備屏幕上的特定像素相匹配，以及(7)從被分配給屏幕上的像素區域的元數據檢索信息。本發明還涉及一種媒體控制裝置，該媒體控制裝置具有具有圖像傳感器的照相機以及通過該圖像傳感器接收畫面圖像的輸入圖像模塊。輸入圖像模塊還通過存儲器，與面部檢測模塊以及姿勢識別模塊相連接。媒體控制接口從輸入圖像模塊接收命令並且向富交互模塊發出電信號，該富交互模塊附接多媒體輸出口設備，並且能夠從該多媒體輸出口設備接收並向其發送電圖像信號。

參照附圖，以下參照實施例來更加詳細地闡述本發明，附圖中圖1是多媒體控制系統使用的代表性裝備的框圖2是多媒體控制系統的透視圖；圖3是應用於照相機捕捉的圖像的面部檢測模塊的流程圖；圖4是使用面部檢測算法處理當前捕捉的圖像的面部檢測模塊的說明性表示；圖5是姿勢識別模塊的流程圖；圖6是使用姿勢識別算法處理當前捕捉的圖像的姿勢識別模塊的表示；圖7是表示使用面部檢測、與在多媒體設備上成像的多媒體進行富用戶交互的流程圖；圖8是富交互(rich interaction)的說明性表示；圖9是應用於多媒體設備發送的圖像信號的面部檢測模塊的流程圖。
具體實施例方式現在將更加詳細地描述本發明，其中在附圖中圖示了本發明的實施例。現在參照圖1，圖示了根據本發明的多媒體控制系統1。多媒體控制系統1包括圖像傳感器2、與存儲器5相連接的輸入圖像模塊4、媒體控制接口 6、與存儲器5相連接的面部檢測模塊10和姿勢識別模塊20、富交互模塊7以及多媒體輸出口設備8。圖像傳感器2，具體地是將光學圖像轉換為電信號的器件。在處理之前將電信號輸入至圖像模塊4並且存儲於存儲器5中。基本地，如圖2中進一步例示的，圖像傳感器2與數位照相機30協同使用。使用照相機30來捕捉並聚焦圖像傳感器2上的光。圖像傳感器2從多媒體用戶3捕捉多個靜止圖像，所述多媒體用戶3可能向或可能不向多媒體輸出口設備8發出命令。圖像傳感器 2完成將捕捉的光轉換為電輸出信號的任務，所述電輸出信號通過輸入圖像模塊4來處理。面部檢測和姿勢識別模塊10、20通過存儲器5與輸入圖像模塊4相連接，並且處理電信號，協同地確定用戶3是否已經執行發出的命令。照相機30可具有變焦透鏡(未示出)，其可將照相機的視場調整角度θ。這是第一種也是最基本的限制潛在噪聲的方法。多媒體用戶3可調整照相機30，從而照相機可聚焦於多媒體用戶3上。在一個實施例中，輸入圖像模塊4是可編程器件，諸如微處理器。雖然可以數位照相機30中集成地製造輸入圖像模塊4，但另一實施例可允許輸入圖像模塊4的單獨的構建，其與照相機30和圖像傳感器2分離，並且通過導線連接。輸入圖像模塊4具有存儲器組件5，其存儲由照相機30捕捉並且由圖像傳感器2 用信號通知的輸入圖像幀。在面部檢測模塊10和姿勢識別模塊20之間收集存儲的圖像並且將其存儲用於處理。媒體控制接口 6還是優選地以單一構建提供的輸入圖像模塊的另一組件。然而，提供媒體控制接口 6提供作為輸入圖像模塊4的外部組件是可能的。輸入圖像模塊4包含模塊10、20，其邏輯功能以及連通性根據與面部檢測和姿勢識別相關聯的算法被預編程。在本發明一個實施例中面部檢測和姿勢識別模塊10、20 二者均與輸入圖像模塊4集成地構建。如圖1所示，依據由面部檢測和姿勢識別模塊10、20算法確定的結果，輸入圖像模塊4將通過媒體控制接口 6向多媒體輸出口設備8提供命令。在一個實施例中，通過預分配的姿勢指示來預編程命令。姿勢識別模塊20將多個特定的姿勢指示識別為多媒體輸出口設備8要執行的特定命令。例如，如果用戶向其面部右側揮動其右手，則姿勢識別模塊將識別該姿勢為命令關閉多媒體輸出口設備8。然而，在其它實施例中，系統1將能夠允許用戶3編程其自身特定姿勢作為發出的命令。例如，用戶可以對系統1編程使得通過用戶向其面部左側揮動其左手作為關閉命令來觸發關閉命令。富交互模塊7從多媒體輸出口設備8中獲取信號以便將那些信號發送至輸入圖像模塊4用於處理在多媒體輸出口設備8上顯示的圖像。此外，富交互模塊7將用戶3指向與設備屏幕9上的特定點匹配。根據本發明並且圖1中圖示的多媒體控制系統1向用戶3提供一種控制媒體的方法，具體地，一種使用面部識別對與多媒體中的特徵有關的有用信息編排索引、並且然後識別請求關於對應特徵的信息的姿勢的方法。本發明的目的在於允許用戶3僅僅使用人類的姿勢，以具有魯棒性的方式檢索有關於多媒體輸出口裝置8上的圖形的元數據。通過照相機30和圖像傳感器2捕捉姿勢。然而，如果在分配的圖像熱點區域中執行姿勢，則將僅僅識別該姿勢，所述分配的圖像熱點區域由面部檢測模塊10執行的算法定義並提取。姿勢識別模塊20執行算法以便具有魯棒性地確定用戶執行的移動是否是實際發出的命令。如果姿勢識別模塊20確定移動是有意的命令，其將基於存儲器5中預分配的姿勢字典，進一步確定它是哪條命令。如圖2中進一步圖示的，用戶3可以使用人類姿勢指示14(諸如開/關、開始/停止、倒回/快進等等)來命令多媒體輸出口設備8，而不需要使用電子遙控裝置。多媒體輸出口設備8可以是各種電子設備，諸如電視或CPU監視器。然而，在本實施例中，多媒體輸出口設備8是電視機。如圖2中圖示的，照相機30捕捉視場31中的圖像。使用圖像傳感器2將當前捕捉的圖像Ci電子地用信號通知給輸入圖像模塊4以便由面部檢測模塊10處理。面部檢測模塊10確定視場31中的面部，分配以開始的面部區域11。基於這個被分配為的面部區域11，面部檢測模塊進一步提取並且分配圖像熱點區域12a、12b以便細化(refine)姿勢指示14的識別。使面部檢測模塊提取並分配僅僅一個熱點區域12a也是可能的。在這種情況下，甚至在更加改進的魯棒性的情況下，使用單個熱點區域1 來濾除不希望的運動。在所示的實施例中，通過面部區域&定義每個圖像熱點區域12a、12b，其中將第一圖像熱點區域1 分配到面部區域&正好左邊的區域並且將第二圖像熱點區域12b分配到面部區域&正好右邊的區域。在所示的實施例中，任一圖像熱點區域12a、12b的尺寸將依賴於面部區域的大小。面部區域&由實質上在頭頂以上的區域，以及實質上在檢測的面部以下的區域來定義。在所示的實施例中，可將面部區域以及圖像熱點區域12a、12b的大小校準到更小或更大的尺寸以便更好地細化人類的姿勢指示14的識別。只要它們靠近檢測的面部區域，則分配的熱點區域12a、12b的位置可以是靈活的，並且可以容易地辨別熱點區域12a、12b中捕捉的圖像C」例如，正好在頭部以下的分配的熱點區域12a、12b區域不是良好的候選項，這是由於在該區域中身體圖像將幹擾手部圖像。圖3是使用面部檢測的圖像熱點提取方法的流程圖，而圖4圖示了面部檢測方法的視覺表示。首先，照相機30捕捉當前捕捉的圖像Ci,其通過圖像傳感器2被轉換為電信號。將該信號作為文件存儲在存儲器5中，使得其可首先被面部檢測模塊10處理。面部檢測模塊10使用當前圖像Ci運行面部檢測算法13。面部檢測算法13處理當前捕捉的圖像文件Ci,檢測視場31中的任何面部。如上文所述，面部檢測算法13能夠檢測多個面部，並且分配面部區域(f1; f2，. . . fn)。初始地，面部檢測算法13從存儲器5獲得當前圖像Ci作為輸入文件。將識別的第一面部指定為面部區域f\。依據視場31內的面部的數目，算法將辨別其它面部區域，指定第二面部區域為f2...fn，其中η表示視場31內的面部的數目。如果算法未檢測到面部，則面部檢測模塊10將返回存儲器5並且使用新捕捉的圖像Cn來重複面部檢測算法13的操作。在辨別了面部之後，面部檢測模塊10將分別地辨別並指定面部的左邊區域和右邊區域作為圖像熱點區域12a、12b。將圖像熱點區域12a、12b用作掩蔽(mask)，以便濾除非熱點區域內無意的姿勢指示。一旦分配了圖像熱點區域12a、12b，則模塊將產生輸出文件。輸出文件由矩形陣列組成，其與面部區域&和圖像熱點區域12a、12b對應，所述圖像熱點區域12a、12b通過檢測的面部區域的尺寸來調節大小。輸出文件現在被存儲回存儲器5，使得其可被姿勢識別模塊20進一步處理。圖5是表示使用姿勢識別控制媒體的媒體指示的流程圖，而圖6圖示了姿勢識別以及媒體控制的指示的視覺表示。在將當前捕捉的圖像Ci文件從面部檢測模塊10讀取回存儲器5中之後，姿勢識別模塊20然後運行姿勢識別算法21。使用也在存儲器5中存儲的先前捕捉的圖像文件C^1，姿勢識別算法21首先計算當前捕捉的圖像Ci和先前捕捉的圖像C^1之間的差Di的絕對值。姿勢識別算法21還將侵蝕(erosion)操作應用於差Di以便首先去除小的區域，協助人類姿勢指示14的更加細化的識別。在所示的實施例中，使用cvErode函數來執行對差Di的侵蝕。cvErode函數使用特定的結構元素，該結構元素確定取得最小值的像素鄰域的形狀。雖然在所示的實施例中僅應用侵蝕函數一次，但在其它實施例中可將侵蝕函數應用於差Di若干次。由於捕捉的圖像Ci和Ch先前通過面部檢測模塊10被處理，並且被存儲在存儲器 5中，所以每個捕捉的Ci和Cp1包含分配的、提取的圖像熱點區域12a、12b。姿勢識別算法 21使用提取的圖像熱點區域12a、12b來掩蔽並過濾非熱點區域中的移動。結果，姿勢識別算法21關於非指定的圖像熱點區域中的運動來修改差Di,以建立運動歷史圖像(MHI)。使用運動歷史圖像(MHI)來檢測運動團點(blob)，並且姿勢識別算法21的進一步操作確定這些姿勢團點是否是實際的人類姿勢指示14。運動歷史圖像(MHI)在時間上量化並限定運動，以表示運動在圖像序列期間怎樣發生。在本發明中，姿勢識別模塊20檢查並識別特定區域(尤其圖像熱點區域12a、12b) 中的運動團點。每個運動歷史圖像(MHI)具有由時間戳的特定的圖像坐標χ、y辨別並定義的像素。圖像坐標x、y與在該像素中最後的運動有關。由於在圖像熱點區域12a、12b中檢測到運動，姿勢識別算法21修正運動歷史圖像(MHI)來創建結果運動團點的分層歷史。對於在圖像熱點區域12a、12b中檢測到的所有運動團點，姿勢識別算法21定位最大和最小的X、y像素坐標，並且表示最大值為lx、Iy以及最小值為sx、Sy。使用運動歷史圖像(MHI)的最大和最小的x、y像素坐標，姿勢識別算法21將首先確定Iy和Sy之間的差是否大於第一啟發式值T1 (Iy-Sy > T1)。如果該問題的答案為是，那麼姿勢識別算法21不將當前捕捉的圖像Ci識別作為具有識別的姿勢指示14。第一啟發式值T1可以統計地或依據實驗被確定，並且在安裝多媒體控制系統1之前被實現為算法。如果不存在識別的姿勢指示14，那麼姿勢識別算法21將停止處理Ci,並且以已經首先被面部檢測模塊10處理的新捕捉的圖像Cn重新開始。如果Iy和Sy之間的差不大於第一啟發式值T1,那麼姿勢識別算法21將移動至下一步驟，並且確定Ix和Sx之間的差是否大於第二啟發式值T2 (Ix-Sx > T2)。如果是，那麼姿勢識別算法21不將當前捕捉圖像Ci識別為具有識別的人類姿勢指示14，以新的捕捉圖像 Cn重新開始。否則，姿勢識別算法21將確定χ運動(Ix-Sx)是否小於y運動(Iy-Sy)。如果 χ運動小於y運動，那麼姿勢識別算法21將不識別當前捕捉的圖像Ci中的姿勢指示14，算法21將再次以新的捕捉圖像Cn重新開始。作為默認，如果姿勢識別算法21有待辨別並識別當前捕捉圖像Ci中的姿勢指示 14，但是在運動歷史圖像(MHI)中存在一些「足夠大」的成分，那麼姿勢識別算法21將確定存在「具有手部運動」。「足夠大」將是在系統1實施之前，統計地或通過實驗確定的啟發式閾值。如果存在三個連續捕捉的具有識別的「具有手部運動」的圖像，那麼姿勢識別模塊 10將通過媒體控制接口 6，向多媒體輸出口設備發出特定的命令。該「具有手部運動」應該為控制到多媒體輸出口設備8的特定命令的姿勢指示14。關於在哪裡識別「具有手部運動」，左邊圖像熱點區域1 或右邊圖像熱點區域12b，確定與「具有手部運動」有關的特定的控制命令。如上所討論的，特定的控制命令是對特定圖像熱點區域12a、12b預分配的，或者可由用戶3編程。如果在三個連續捕捉的圖像上識別出「具有手部運動」，則姿勢識別模塊20發送特定的命令。然後將該特定的命令發送至向多媒體輸出口設備8中繼對應電命令信號的媒體控制接口 6。將良好地定義用於傳送的(deferent)姿勢的所有姿勢指示，在多媒體控制系統1 中存儲預分配的命令。然而，在使用之前用戶3能夠定義其自身的命令是可能的。因此，如果在右圖像熱點區域12b中的揮手是定義的用以開啟多媒體輸出口設備8的姿勢，並且姿勢識別算法21將揮手識別為右圖像熱點區域12b中的姿勢指示14，那麼將發信號通知多媒體輸出口設備8開啟。相反，如果在左圖像熱點區域12a中的揮手是定義的關閉多媒體輸出口設備8的姿勢，並且姿勢識別算法21將左圖像熱點區域1 中的揮手識別為姿勢指示 14，那麼將發信號通知多媒體輸出口設備8關閉。當建立運動歷史圖像(MHI)時存在兩個實現方式，以便執行運動檢測。在一個實現方式中，使用整個捕捉圖像Ci來建立運動歷史圖像(MHI)。然而，在另一個實現方式中，僅使用熱點區域12a、12b圖像來建立運動歷史圖像(MHI)。當用戶3靜止時(即，非常小的或沒有頭部運動)，任一實現方式將導致相同的結果。然而，如果用戶3正在運動，則這些實現方式是不同的。在所示的實施例中，分配的熱點區域12a、12b與面部有關，並且面部可稍微移動。雖然在這些情況下運動檢測可能準確，但是頭部的移動將導致運動檢測中的錯誤是可能的。如果使用全部圖像來建立運動歷史圖像(MHI)，則在分配的熱點區域12a、12b中可能存在運動。然而，如果僅使用分配的熱點區域12a、12b來建立運動歷史圖像(MHI)，那麼因為濾除了外部運動，細化檢測是可能的。此外，在僅分配一個熱點區域12a的實施例中，需要更加強大的姿勢識別算法來識別熱點中的姿勢以便實現更高的準確度，包括僅從分配的熱點區域12a、12b建立的運動歷史圖像(MHI)。上面描述的裝置和方法可以用來控制任何交互多媒體輸出口設備8，從而面部檢測技術幫助定義並提取將運動的識別限制於那些圖像熱點區域12a、12b的圖像熱點區域 12a、12b，以非常魯棒性的方式通過人類的姿勢向輸出口設備發出命令控制。可進一步開發多媒體控制系統1來包括開啟富交互模塊7的命令。圖7是表示使用面部檢測與在設備顯示器上成像的多媒體顯示富交互的流程圖，而圖8圖示了富交互的視覺表示。圖9是應用於多媒體設備發送的圖像信號的面部檢測模塊的流程圖。一旦開啟，用戶3可以使用富交互模塊7，來從多媒體輸出口設備8中提取圖像信號用於在輸入圖像模塊4中處理，非常類似如上文所描述的處理照相機圖像信號。然而，發送自多媒體輸出口設備8的圖像信號包括元數據，其如果被請求，則可以隨後在設備屏幕9 上顯不。用戶3可以使用與視頻/圖像信號集成的元數據，請求關於屏幕上的人的信息。用戶可以通過指向屏幕來請求信息，尤其指向屏幕上的面部，該面部也使用面部檢測模塊10 被檢測到。輸入圖像模塊4通過面部檢測模塊10饋送媒體信號，面部檢測模塊10運行面部檢測算法13以便以如上所描述的相同的處理圖像信號的方式來識別設備屏幕9上的面部。面部檢測模塊檢測屏幕上的媒體面部區域40，並且分配本質上與媒體面部區域40的尺寸匹配的單個圖像熱點區域41。由於面部檢測模塊10向當前捕捉的圖像Ci分配圖像熱點區域12a、12b，所以富交互模塊7將在圖像熱點區域12a、12b中檢測的運動與媒體屏幕上的特定點一對一地相匹配。基本地，富交互模塊7使用姿勢識別模塊20來確定姿勢指示14在關於定製尺寸的圖像熱點區域12a、12b的何處出現。姿勢識別模塊20已經辨別了存在運動的特定的圖像坐標x、y。移動的交匯(meet)與邊界將與圖像熱點區域12a、12b的尺寸有關。富交互模塊7將圖像熱點區域12a、12b與設備屏幕的尺寸相匹配，成比例地匹配二者。在圖像熱點區域12a、12b中捕捉的移動將具有相對於圖像熱點區域12a、12b的尺寸的定義的坐標。姿勢識別模塊20確定與任一圖像熱點區域12a、12b中的移動有關的圖像坐標x、y。設備屏幕9還具有由設備屏幕9上的每個像素分配的媒體坐標。由於媒體熱點區域41覆蓋媒體坐標的定義區域，所以富交互模塊7將通過姿勢指示14定義的圖像坐標χ、y相對於設備屏幕9上的像素匹配。如果圖像坐標χ、y位於由媒體熱點區域41描述輪廓的媒體坐標區域內，那麼富交互模塊7命令多媒體輸出口設備8在屏幕上顯示與那個人40有關的元數據。由於媒體信號包含元數據，所以富交互模塊7可以過濾是否在設備屏幕9上顯示信息44以及在設備屏幕9上顯示什麼信息44。信息44在元數據中詳述，並且元數據將由屏幕上的像素區域定義。由於富交互模塊7已經確定了姿勢指示14相對於設備屏幕上的點在哪裡，所以富交互模塊7可以魯棒性地確定在設備屏幕9上顯示什麼信息(如果有的話)°在本發明的實施例中，富交互模塊7將向多媒體輸出口設備8提供命令，使得光標 43出現在設備屏幕9上。本發明通過以面部檢測技術補充姿勢識別而提供了優點，使得由人類的姿勢發出的命令更加具有魯棒性。前述的說明了實踐本發明的一些可能性。在本發明範圍與精神內的許多其它實施例是可能的。因此，以上描述意圖在於被視為說明性的而不是限制性的，並且本發明的範圍由所附權利要求以及它們的等效物的全部範圍給定。
權利要求
1.一種從多媒體設備中檢索元數據的方法，其中所述方法包括以下步驟使用面部檢測確定來自多媒體設備的捕捉的圖像中的運動區域；使用姿勢識別檢測至少一個運動區域中的運動；檢索被分配給該至少一個運動區域的像素的元數據。
2.如權利要求1所述的方法，其中，運動檢測還包括以下步驟使用當前捕捉的圖像 (Ci)確定運動區域。
3.如權利要求2所述的方法，還包括以下步驟使用當前捕捉的圖像(Ci)計算並分析該當前捕捉的圖像(Ci)與一當前捕捉的圖像(Ch)之間的差(Di)。
4.如權利要求3所述的方法，還包括以下步驟在差(Di)上應用侵蝕以便去除小的區域。
5.如權利要求4所述的方法，還包括以下步驟應用運動區域作為掩蔽以便濾除非運動區域。
6.如權利要求5所述的方法，還包括以下步驟添加差(Di)以便建立運動圖像。
7.如權利要求6所述的方法，其中，運動圖像是從捕捉的圖像建立的。
8.如權利要求6所述的方法，其中，運動圖像是從運動區域建立的。
9.如權利要求6所述的方法，還包括以下步驟發現全部檢測的運動連接的成分中的最大χ、y和最小χ、y的坐標，並且將每個表示為lx、ly> sx和sy。
10.如權利要求9所述的方法，還包括以下步驟執行算法以便確定該運動是否是控制媒體的命令。
11.如權利要求1所述的確定運動區域的方法，還包括以下步驟使用照相機獲得捕捉的圖像(Ci)。
12.如權利要求11所述的確定運動區域的方法，還包括以下步驟檢測捕捉的圖像 (Ci)中的面部以及將每個面部表示為F1、F2、F3、...而。
13.如權利要求12所述的方法，其中由每個面部的左右區域定義運動區域。
14.如權利要求13所述的方法，還包括以下步驟定義左運動區域上的姿勢的命令以及右運動區域上的姿勢的命令。
15.如權利要求1所述的確定運動區域的方法，還包括以下步驟從多媒體設備中檢索圖像信號。
16.如權利要求15所述的方法，還包括以下步驟檢測每個圖像信號中的面部以及將每個面部表示為F1、F2、F3、...而。
17.如權利要求16所述的方法，還包括以下步驟定義媒體圖像熱點區域為實質上在每個面部周圍的像素區域。
18.如權利要求10所述的算法，還包括以下步驟如果(ly-sy)大於第一啟發式值則不識別當前畫面。
19.如權利要求18所述的算法，其中，統計地確定第一啟發式值。
20.如權利要求18所述的算法，其中，通過實驗確定第一啟發式值。
21.如權利要求18所述的算法，還包括以下步驟如果(lx-sx)大於第二啟發式值則不識別當前畫面。
22.如權利要求21所述的算法，其中，統計地確定第二啟發式值。
23.如權利要求21所述的算法，其中，通過實驗確定第二啟發式值。
24.如權利要求21所述的算法，還包括以下步驟如果(ly-sy)> (Ιχ-sy)則不識別當前畫面。
25.如權利要求M所述的算法，還包括以下步驟如果(ly-sy)大於第一啟發式值， (lx-sx)大於第二啟發式值，(Iysy) > (Ιχ-sy)並且運動歷史中存在大於啟發式閾值的成分，則識別當前畫面為具有控制運動。
26.如權利要求25所述的算法，其中，統計地確定啟發式閾值。
27.如權利要求25所述的算法，其中，通過實驗確定啟發式閾值。
28.一種媒體控制裝置，包括照相機，其具有圖像傳感器；輸入圖像模塊，其從圖像傳感器接收畫面圖像；存儲器，其與輸入圖像模塊相連接；面部檢測模塊，其與輸入圖像模塊相連接；姿勢識別模塊，其與輸入圖像模塊相連接；媒體控制接口，其從輸入圖像模塊接收命令並且向富交互模塊輸出電信號；以及富交互模塊，其附接於多媒體輸出口設備，能夠從多媒體輸出口設備接收並向其發送電圖像信號。
29.如權利要求觀所述的媒體控制裝置，其中，圖像傳感器與照相機集成。
30.如權利要求觀所述的媒體控制裝置，其中，輸入圖像模塊與照相機集成。
31.如權利要求觀所述的媒體控制裝置，其中，輸入圖像模塊是微處理器。
32.如權利要求觀所述的媒體控制裝置，其中，存儲器、面部檢測模塊和姿勢識別模塊與輸入圖像集成。
33.如權利要求觀所述的媒體控制裝置，其中，媒體控制接口與輸入圖像模塊集成。
34.如權利要求觀所述的媒體控制裝置，其中，照相機、圖像傳感器、輸入圖像模塊、存儲器、面部檢測模塊、姿勢識別模塊、以及媒體控制接口被集成地構造為一個組件；以及媒體控制裝置是與多媒體輸出口設備連接的外部組件。
35.如權利要求觀所述的媒體控制裝置，其中，照相機、圖像傳感器、輸入圖像模塊、存儲器、面部檢測模塊、姿勢識別模塊、以及媒體控制接口被集成地構造為一個組件；以及媒體控制裝置是多媒體輸出口設備的內部組件。
全文摘要
本發明提供一種使用姿勢來控制交互媒體的具有魯棒性的方法。一種從多媒體輸出口設備檢索元數據信息的方法，其中，所述方法遵循以下步驟(1)使用面部檢測提取當前捕捉圖像中的圖像熱點區域，(2)使用姿勢識別來檢測至少一個圖像熱點區域中的人類的姿勢指示，(3)確定該姿勢指示是否與向富交互模塊預分配的命令匹配，(4)向富交互模發送對應所檢測的預分配的命令的信號，(5)從發送自多媒體的電信號中提取媒體圖像熱點區域，(6)使用姿勢識別來將至少一個圖像熱點區域中所檢測的人類的姿勢與設備屏幕上的特定像素相匹配，以及(7)從被分配至屏幕上的像素區域的元數據檢索信息。
文檔編號G06F3/01GK102301379SQ200980155816
公開日2011年12月28日申請日期2009年1月30日優先權日2009年1月30日
發明者張濤, 楊瑞多, 羅英申請人:湯姆森特許公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

從顯示多媒體控制並且請求信息的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法