用圖像幀中檢測到的文本信息分析視頻內容的系統和方法

2023-06-14 05:42:21 2

專利名稱：：用圖像幀中檢測到的文本信息分析視頻內容的系統和方法
技術領域：
：總的來說，本申請涉及視頻處理系統，更具體地說，涉及一種系統，用於在檢測到的視頻內容中文本屬性的基礎之上，分析視頻流，找出其特徵。
背景技術：
：數位電視(DTV)的出現、網際網路的普及以及象雷射唱盤(CD)和數位化視頻光碟(DVD)播放機這樣的消費多媒體電子產品的引入，為消費者提供了大量多媒體信息。隨著視頻內容越來越容易獲得以及訪問這些視頻內容的產品進入消費市場，對大量的多媒體數據進行搜索、編制索引和識別變得更加重要，更加富有挑戰性。許多出版物中都介紹了為視頻信號編制索引和分類的系統和方法，包括M.Abdel-Mottaleb等的「CONIVAS基於內容的圖像和視頻訪問系統」，ACM多媒體論文集，第427～428頁，波士頓，1996年；S-FChang等等的「視頻Q基於內容利用視覺線索的自動視頻搜索系統」，ACM多媒體論文集，第313～324頁，西雅圖，1994年；M.Christel等等的「信息數字視頻庫」，ACM評論，第38卷，第4期，第57～58頁，1995年；N.Dimitrova等等的「消費裝置中的視頻內容管理」，IEEE知識和數據工程學報，1998年11月；U.Gargi等等「在數字視頻資料庫中為文本事件編制索引」，模式識別國際會議，布裡斯班，第916～918頁，1998年8月；M.K.Mandal等等的「利用矩和小波的圖像索引編制」，IEEE消費電子學報，第42卷，第3期，1996年8月；以及S.Pfeiffer等等的「數字運動的自動摘要提取」，視覺通信和圖像表示雜誌，第7卷，第4期，第345～353頁，1996。在視頻流中檢測廣告也是一個非常活躍的研究領域。見R.Lienhart等等「關於電視廣告的檢測和識別」，IEEE多媒體計算和系統國際會議論文集，第509～516頁，1997；以及T.McGee等等「對電視節目進行分析以識別和剔除非情節片斷」，SPIE圖像和視頻資料庫中的存儲和讀取會議，SanJose，1999年1月。文件圖像中的文本識別在本領域中眾所周知。文件掃描儀和有關的光學字符識別(OCR)軟體俯拾即是，大家也十分了解。然而，圖像幀中的文本檢測和識別卻是少見的難題，跟印刷文件相比，需要完全不同的方法。印刷文件中的文本常常僅限於均勻背景(普通紙)上的單色字符，通常只需要簡單的閾值處理算法將文本跟背景分離。相反，按比例縮小的視頻圖像中的字符帶有很多的噪聲分量，包括無控制的照明狀態。還有，背景會頻繁地移動，文本字符會有不同的顏色、大小和字體。Ohya等等在1994年2月IEEE模式分析和機器智能學報第16卷第214～224頁上的文章「在場景圖像中的識別字符」，介紹了如何用本地閾值處理提取字符，以及通過在相鄰區域之間評估灰度級差別來檢測包含字符的圖像區域。Ohya等等還公開了合併具有相近和相似灰度級的檢測到的區域，從而產生字符模式候選對象的方法。A.Hauptmann等等在1995年秋季AAAI語言和視覺集成計算模型學術討論會上的文章「視頻片斷的文本、語音和視覺信息媒體計劃」中，介紹了如何利用視頻文本的空間環境和高對比度特性來合併相互鄰近，具有水平和垂直邊緣的區域從而檢測文本。R.Lienhart和F.Suber在1996年1月的SPIE圖像和視頻處理會議上的文章「視頻索引的自動文本識別」，討論了在視頻圖像中減少顏色數量的一種非線性紅、綠、藍(RGB)顏色系統。隨後的分裂和合併過程產生了具有相似顏色的均勻片斷。Lienhart和Suber採用各種試探方法來檢測均勻區域中的字符，包括前景字符、單色或者硬字符、尺寸受限字符和跟周圍區域相比具有高對比度的字符。1998年11月12日IEEE模式識別論文集第31卷第2055～2076頁上A.K.Jain和B.Yu的文章「圖像和圖像幀的自動文本定位」介紹了如何利用多值圖像分解對文本定位，並將圖像分成多個真實前景和背景圖像。J-C.Shim等等在1998年模式識別國際會議論文集第618～620頁上的文章「基於內容的注釋和檢索的自動視頻文本提取」，介紹了如何用廣義的區域標註算法尋找均勻區域以及分段和提取文本。識別出來的前景圖像被分成組，以確定文本的顏色和位置。其它有用的字符分段算法在K.V.Mardia等等1998年IEEE模式分析和機器智能學報第10卷第919～927頁上的文章「圖像分段的空間閾值處理方法」，以及A.Perez等等在1987年IEEE模式分析和機器智能第9卷第742～751頁上的文章「圖像分段的迭代閾值處理方法」中有介紹。然而，現有技術中的文本識別系統沒有將視頻內容中檢測到的文本的非語義屬性考慮在內。現有技術系統簡單地識別圖像文本的語義內容，並根據該語義內容為視頻剪輯編制索引。圖像文本的其它屬性，比方說在幀內的物理位置、持續時間、運動和/或節目中的臨時位置，都被忽略了。另外，還沒有做出過任何努力利用視頻內容來識別和編輯視頻剪輯。因此在這一領域中需要一種改進的視頻處理系統，它使用戶能夠搜索整個視頻剪輯文檔，有選擇地儲存和/或編輯包含圖像文本屬性符合用戶選擇的圖像文本屬性的所有或部分視頻剪輯。發明簡述為了解決現有技術中的上述缺陷，本發明公開一種視頻處理裝置，用於在視頻流中搜索或者過濾出用戶選擇的一個或者更多的圖像文本屬性。一般而言，在視頻流中進行「搜索」指的是根據用戶定義的輸入進行搜索，其中「過濾」一般是指一個自動過程，需要很少的用戶輸入，或者不需要用戶輸入。然而，在這一說明中，「搜索」和「過濾」可以互換使用。圖像處理器從視頻剪輯中檢測和提取視頻文本，確定提取的視頻文本的有關屬性，並將提取出來的圖像文本屬性跟用戶選擇的圖像文本屬性進行比較。如果它們相同，這一視頻處理裝置就可以修改、傳送、標註，否則根據用戶命令識別至少一部分視頻流。這一視頻處理裝置用用戶選擇的圖像文本屬性來搜索整個視頻剪輯文檔，以1)找出特定類型事件的位置，比方說新聞節目或者體育事件；2)找出描寫特定人物或群體的節目的位置；3)按照名字找出節目的位置；4)儲存或者去掉所有或者一些廣告，否則根據出現在視頻剪輯幀中的圖像文本對所有或者部分視頻剪輯進行分類、編輯和儲存。本發明的主要目的是提供一種視頻處理裝置，用於能夠分析圖像幀中圖像文本的系統，能夠根據收到的選中的至少一個圖像文本屬性，搜索和/或過濾視頻流。在一個示例性的實施方案裡，這一視頻處理裝置包括一個圖像處理器，能夠接收包括多個圖像幀的第一個視頻流，從多個圖像幀中檢測和提取圖像文本，確定提取出來的圖像文本的至少一個屬性，將提取出來的至少一個圖像文本屬性跟選中的至少一個圖像文本屬性進行比較，並且，如果在提取出來的至少一個圖像文本屬性跟選中的至少一個圖像文本屬性相同的情況下，執行1)根據第一個用戶命令修改第一個視頻流的至少一部分；2)根據第二個用戶命令傳送第一個視頻流的至少一部分；和3)根據第三個用戶命令為第一個視頻流的至少一部分做標記，這三項操作中的至少一項。根據本發明的一個示例性實施方案，提取出來的這至少一個圖像文本屬性說明多個圖像幀中的圖像文本屬性是水平滾動；垂直滾動；淡入淡出、特技效果和動畫效果中的一個。根據本發明的一個實施方案，提取出來的這至少一個圖像文本屬性說明多個圖像幀中的圖像文本屬性是一個人的名字；一群人的名字中的一個。根據本發明的另一個實施方案，提取出來的這至少一個圖像文本屬性說明多個圖像幀中的圖像文本是商業廣告的一部分。根據本發明的再一個實施方案，提取出來的這至少一個圖像文本屬性說明多個圖像幀中的圖像文本是出現在節目開頭；和節目結尾的文本。根據本發明的又一個實施方案，提取出來的至少一個圖像文本屬性說明這多個圖像幀中的圖像文本是節目名的一部分。根據本發明的一個實施方案，提取出來的這至少一個圖像文本屬性說明這多個圖像幀的圖像文本是新聞節目的一部分。根據本發明的另一個實施方案，提取出來的這至少一個圖像文本屬性說明這多個圖像幀的圖像文本是體育節目的一部分。前面已經大致地概括了本發明的特徵和技術優點，從而使本領域裡的技術人員能夠更好地理解本發明的以下詳細介紹。本發明的其它特徵和優點將在下面介紹，它們構成本發明權利要求的主體。本領域裡的技術人員應當明白，他們能夠很容易地利用這裡公開的概念和具體實施方案，以此為基礎改進或者設計其它結構，實現本發明的目的。本領域裡的技術人員還應當明白，廣義地說這種等價的結構沒有偏離本發明的實質和範圍。在發明詳述之前，首先為這一專利文獻從頭到為都要使用的某些詞和術語下一個定義可能會更好術語「包含(include)」和「包括(comprise)」，以及它們的派生詞，指的是包括(inclusion)而沒有限制；術語「或者」(「or」)的意思是包括(inclusive)，意思是和/或；術語「跟……有關(associatedwith)」和「跟它有關(associatedtherewith)」及其派生詞的意思是包括、被包括在內、相互連、包含、包含在內、連接到……或、跟……連接、耦合到……或與……相耦合、可以跟……連通、跟……協作、交叉、並列、接近、捆綁到……或與……相捆綁、具有，擁有、等等；術語「處理器」或者「控制器」指的是控制至少一項操作的任意裝置、系統或者它們的一部分，這種裝置可以用硬體、固件或者軟體來實現，或者用它們中的至少兩樣的組合來實現。應當指出，跟任意特定控制器有關的功能可以是集中式的或者分布式的，而不管是在本地或者遠處。另外，術語「視頻剪輯」可以指一個視頻片段、視頻序列、視頻內容等等。某些詞和短語的定義在整個這一專利文獻中給出。本領域裡的普通技術人員應當明白，在許多情況下，如果不是多數情況下，這些定義適用於定義的這些詞和短語現有的以及將來的用法。附圖簡述為了更全面地理解本發明及其優點，下面參考以下說明和附圖，其中相似的數字表示相似的對象，這些附圖中圖1說明的是本發明一個實施方案中的一種示例性圖像文本分析系統；圖2中的流程圖說明的是按照本發明一個實施方案中圖1所示示例性視頻處理裝置的文本提取和識別操作過程；圖3A和3B畫出了包含具有圖1所示視頻處理裝置能夠識別的所選屬性的圖像文本的圖像幀；圖4給出了一個示例性的圖像文本屬性表，包括本發明一個實施方案中系統定義的和用戶定義的圖像文本屬性；和圖5中的流程圖說明了本發明一個實施方案中圖1所示視頻處理裝置的圖像文本屬性分析操作。發明詳述下面討論的圖1～5，以及這一專利文獻中用於介紹本發明的原理的各種實施方案，都是用於進行說明的，無論如何都不應當理解為是要限制本發明的範圍。本領域裡的技術人員會明白，本發明的原理可以用任何合適的圖像文本分析系統來實現。圖1畫出了本發明一個實施方案的示例性圖像文本分析系統100。圖像文本分析系統100包括視頻處理裝置110、視頻源180、監視器185和用戶裝置190。視頻處理裝置110提供裝置，供分析接收到的視頻圖像使用。這包括完成本發明的過程，通過這些過程提取出視頻文本，根據系統或者用戶定義的文本屬性進行分析和分類。視頻源180提供視頻剪輯文檔供視頻處理裝置110搜索。視頻源180可以是天線、磁帶錄像機(VTR)、數位化視頻光碟(DVD)播放機/錄像機、視盤播放機/錄像機或者能夠儲存和傳送有或者沒有音頻的數字視頻圖像的類似裝置。視頻源180能夠提供一些短剪輯或者多個剪輯，包括更長的數位化視頻圖像。視頻源180可以包括任何已知格式的模擬或數字視頻數據，比方說MPEG-2、MJPEG等等。監視器185提供顯示視頻圖像的裝置，還可能配備了音頻裝置，如果需要的話。用戶裝置190表示一種或者多種外圍設備，可以被圖像文本分析系統100的用戶操作，將用戶輸入提供給這一系統。典型的外圍用戶輸入設備包括計算機滑鼠、鍵盤、光筆、遊戲操縱杆、觸摸表(atouch-table)和有關的攝像頭，和/或能夠選擇用來輸入、選擇和/或操作數據，包括所有或者部分顯示的視頻圖像，的任何其它裝置。用戶裝置190能夠選擇所需要的視頻文本識別屬性，輸入給視頻處理裝置110。用戶裝置190可能還包括輸出裝置，比方說彩色印表機，產生某一圖像、幀或者剪輯的硬拷貝。視頻處理裝置110包括圖像處理器120、RAM130、存儲器140、用戶I/O卡150、視頻卡160、I/O緩衝器170和處理器總線175。處理器總線175在視頻處理裝置110的各單元之間傳送數據。RAM130還包括圖像文本工作空間132和文本分析控制器134。圖像處理器120為視頻處理裝置110提供總的控制，並進行圖像文本分析系統100所需要的圖像處理，包括在系統選擇的和用戶選擇的屬性的基礎之上，分析圖像幀內的文本。這還包括完成編輯過程、處理數字視頻圖像，顯示在監視器185上，和/或儲存在存儲器140中，並在圖像文本分析系統100的各種單元之間傳送數據。圖像處理器120的需要和能力在本領域裡眾所周知，不需要更詳細地介紹，本發明所需要的除外。RAM130為視頻處理裝置110產生的臨時數據提供隨機存取存儲器，否則就不由該系統內的部件提供。RAM130包括圖像文本工作空間132和文本分析控制器134存儲器，以及圖像處理器120和有關裝置需要的其它存儲器。圖像文本工作空間132表示那一部分RAM130，在文本分析過程中，跟某一圖像幀有關的視頻圖像臨時儲存在那裡。圖像文本工作空間132為在一個視頻剪輯內修改幀而不影響原始數據提供裝置，這樣在晚些時候能夠恢復原始數據。在本發明的一個實施方案裡，文本分析控制器134表示那部分RAM130，它專用於儲存圖像處理器120執行的應用程式，這一應用程式根據系統或者用戶定義的文本屬性分析視頻圖像。文本分析控制器134可以採用著名的編輯技術，比方說場景之間的變形或者邊界檢測，以及跟本發明有關的視頻文本分析新技術。編輯控制器134還可以作為CD-ROM、計算機磁碟或者能夠載入存儲器140或者視頻源180中的那種可拆卸盤埠的其它存儲媒介上的一個程序。存儲器140包括一個或者多個盤系統，包括可拆卸盤(磁碟或者光碟)，用於永久性地儲存節目和其它數據，包括所需要的視頻和音頻數據。根據系統需要，存儲器140跟一個或者多個雙向總線連接，傳送視頻和音頻數據給視頻源180和系統的其餘部分以及從視頻源180和系統的其餘部分接收視頻和音頻數據。需要的話，存儲器140能夠以視頻速率傳送數據。存儲器140的容量足以儲存幾分鐘的視頻數據供編輯，包括文本屬性分析。根據應用的具體情況和圖像處理器120的能力，存儲器140可以配置成能夠儲存大量的視頻剪輯。用戶I/O卡150為用戶裝置190和圖像文本分析系統100的其它部分提供接口裝置。用戶I/O卡150將從用戶裝置190收到的數據轉換成接口總線175的格式，傳送給圖像處理器120或者RAM130，供圖像處理器120隨後訪問。用戶I/O卡150還傳送數據給印表機這樣的用戶輸出設備。視頻卡160通過數據總線175在監視器185和視頻處理裝置110之間提供接口。I/O緩衝器170通過總線175在視頻源180和圖像文本分析系統100之間提供接口。如上所述，視頻源180至少有一條雙向總線，用於連接I/O緩衝器170。I/O緩衝器170以需要的視頻圖像傳輸速率在它跟視頻源180之間傳送數據。在視頻處理裝置110內，I/O緩衝器170根據需要將從視頻源180收到的數據傳送給存儲器140、圖像處理器120或者RAM130。同時傳送視頻數據給圖像處理器120提供了按照收到的方式顯示視頻圖像的一種手段。圖2描述了一個流程圖200，它說明根據本發明的一個實施方案，視頻處理裝置110隨後進行的文本提取和識別操作。文本提取是針對一個一個圖像幀進行的，將M×N幀的原點(0,0)作為左上角。幀內的像素用(x,y)坐標表示，其中x表示像素的列(0～N)，y表示是第幾行(0～M)的像素。通道分離(步驟205)一開始，圖像處理器120分離視頻圖像一幀或者多幀的顏色，並儲存減少了顏色的圖像供文本提取時使用。在本發明的一個實施方案裡，圖像處理器120用紅-綠-藍(RGB)顏色空間模型來隔離圖像的紅色分量。紅色分量在檢測白色、黃色和黑色時更加有用，這些顏色是視頻文本採用的主要顏色。隔離出來的紅色幀提供了為這些頻繁使用的文本顏色提供了尖銳的高對比度邊緣。隔離出來的紅色幀圖像儲存在圖像文本工作空間132裡。在本發明的其它實施方案裡，圖像處理器120可以使用其它的顏色空間模型，比方說灰度級圖像或者YIQ圖像幀的Y分量。圖像增強(步驟210)進行進一步的處理之前，捕獲的紅色幀用下面的3×3掩碼增強-1-1-1-18-1-1-1-1另外，用一個中值濾波器去掉黑白點相間的噪聲(隨機噪聲)，比方說用R.C.Gonzalez和R.E.Woods在「數字圖像處理」中介紹的那種，該書於1992年由Addison-Wesley出版公司出版。邊緣檢測(步驟215)用以下掩碼檢測增強紅色圖像中的文本字符邊緣-1-1-1-112-1-1-1-1其中矩陣中的數字是邊緣算子的權。如果EDGE表示M×N邊緣圖像，那就可以用以下等式進行邊緣檢測其中0＜m＜M，0＜n＜N。wi,j值是邊緣掩碼的權，Fx+i,y+j表示圖像「F」的一個像素。在邊緣檢測過程中，幀的頂部和底部行以及左邊和右邊列的像素(也就是最外層的像素)被忽略。邊緣閾值是一個預先確定的閾值，可以是固定的，也可以是變化的。採用固定的閾值會出現大量黑白點相間的噪聲，隨後需要刪除這些噪聲點。還有，用固定閾值會導致文本周圍的固定邊緣斷斷續續，出現分裂了的字符。使用已知的開孔方法(例如先侵蝕然後再膨脹)會導致沿著黑白點相間的噪聲的文本部分丟失。因此，採用自適應閾值是對採用靜態閾值的一種改進。對於一個像素，如果將部分或者所有相鄰像素都標為邊緣，就為當前像素降低這一閾值以便將它標為邊緣。當前像素的閾值能否降低取決於標為邊緣的相鄰像素的個數。相鄰像素是邊緣這一事實增加了當前像素是邊緣的概率。採用更低的邊緣閾值來計算相鄰像素的降低了的閾值。這一點保證了當這些像素不是邊緣時它們不被標為邊緣。這一個過程可以反過來，如果它被邊緣像素包圍，那麼它就是一個邊緣像素。邊緣過濾(步驟220)一旦檢測到字符邊緣，圖像處理器120就進行初步的邊緣過濾，以去掉可能不包含文本或者其中的文本無法可靠地檢測的圖像區域。圖像處理器120可以在不同的級別上進行邊緣過濾。例如，邊緣過濾可以在幀一級或者子幀一級進行。在幀一級，如果幀中看起來包括邊緣的部分超出合理的比例，圖像處理器120就忽略或者濾掉這一幀，這種情況的出現可能是因為幀中有高密度的對象。一旦一幀被過濾掉，文本分析就進入到輸入的下一幀。在幀一級進行過濾時，圖像處理器120維持一個邊緣計數器，記錄這一圖像幀中邊緣點的個數。但這樣做會導致圖像某些清潔區的文本被丟失，還可能導致假否定。為了解決這些問題，圖像處理器120可以在子幀一級進行邊緣過濾。在「過分擁擠」的幀內找到文本，圖像處理器120將幀分成更小的區域也就是子幀。在本發明一個示例性實施方案裡，圖像處理器120將和幀分成三列像素和三行像素，得到6個子幀。圖像處理器120指定一個子幀計數器，用於對圖像每一個子部分進行邊緣計數。在這一示例性實施方案裡，圖像的三個垂直(列)子幀用三個計數器。每一個垂直子幀都覆蓋幀的三分之一區域。同理，圖像的三個水平(行)子幀用三個計數器。每一個水平子幀同樣覆蓋幀區域的三分之一。然後，圖像處理器120檢查每一個子幀區域，以確定子幀中的邊緣像素個數，用它的計數器反映這一數字。可以用更多的子幀來產生更小的子幀區域，以便獲得更多的清潔區域，在比三分之一個圖像更小的區域裡包含文本。字符檢測(步驟225)下一步，圖像處理器對前一步驟產生的邊緣進行連通分量(CC)分析。假定每一個文本字符都有一個連通的分量或者它的一部分。圖像處理器120將相隔某一距離的邊緣像素點合併起來(比方說8像素近鄰)，成為單獨一個連通分量結構。這一連通分量結構包含了互相連接在一起的像素的位置。這一結構還包含了最左邊、最右邊、頂部和底部的像素，以及這一結構的中心點的值(用x-和y-軸坐標來描述)。連通分量結構還包含構成連通分量的多個像素點的個數。像素點個數表示這一連通分量區域的面積。預先確定的系統和/或用戶閾值規定了連通分量區域的面積、高度和寬度的最大和最小值，以便判斷哪些連通分量應當通過下一步處理。超出閾值標準的連通分量被過濾掉。文本框檢測(步驟230)圖像處理器120根據左下方像素的位置將前一步驟中通過了判別式的連通分量按上升順序排序。圖像處理器根據(x，y)坐標位置排序，它表示像素的絕對位置，用y乘以列大小再加上x表示。排序以後的這一列連通分量被遍歷，然後將連通分量合併起來一起形成文本框。圖像處理器120將第一個連通分量，連通分量(1)，叫做第一個框，並作為初始或者當前框供分析使用。圖像處理器120測試每一個隨後的連通分量(i)，看它最底部的像素距離當前文本框最底部的像素是否在預定可接受像素行閾值以內。如果連通分量(i)距離當前框在幾行以內(例如2行)，那就很可能當前文本框和連通分量(i)屬於文本的同一行。行差閾值可以是固定的或者變化的，視需要而定。例如，閾值可以是當前文本框高度的一部分。為了防止將圖像中相隔太遠的連通分量合併到一起，進行第二次測試，看連通分量(i)跟文本框的列距離是不是小於一個列閾值。這一可變閾值是連通分量(i)寬度的倍數。如果文本框和連通分量(i)相隔很近，圖像處理器120就將連通分量(i)跟當前文本框合併。如果連通分量(i)不滿足跟當前文本框合併的判據，就從連通分量(i)開始一個新的文本框，作為它的第一個分量，並繼續遍歷。這一過程會導致圖像中一行文本出現多個文本框。圖像處理器120對初始字符合併過程產生的所有文本框進行第二級合併。這一次會將由於連通分量合併判據過於嚴格或者由於邊緣檢測不良，使同一個字符出現多個連通分量，從而被錯誤地理解為不同行文本的文本框合併起來。圖像處理器120按照一組條件將每一個框跟它後面的文本框進行比較。兩個文本框的多個測試條件是a)一個框跟另一個框底部的距離在行差閾值以內。還有，這兩個框水平方向的距離小於基於第一個框中平均字符寬度的可變閾值。b)這兩個框中每一個框的中心都位於另一個文本框的區域以內，或者c)這些文本框相互重疊。如果滿足上述條件中的任意條件，圖像處理器120就從文本框清單中刪去第二個框，並將它合併到第一個框中去。圖像處理器重複這一過程，直到所有文本框都兩兩一起測試過，並且儘可能地合併到一起。文本行檢測和增強(步驟235)圖像處理器120接收在步驟235中獲得的文本框作為文本行，只要它們符合面積、寬度和高度要求。對於每一個文本框，圖像處理器120都要提取對應於原始圖像文本框的子圖像。然後，圖像處理器120修改提取出來的子圖像，從而使文本作為白色背景上的黑色前景出現。這一修改是必要的，這樣這一步驟的輸出就能由光學字符識別(OCR)應用程式處理。圖像處理器120通過計算文本框中像素的平均灰度級值(AvgFG)來修改文本框圖像。同時計算文本框周圍區域(例如5個像素)的平均灰度級值(AvgBG)。在這一文本框內，圖像處理器120將超過AvgFG的所有像素標為白色，將低於AvgFG的所有像素標為黑色。同時計算標為白色的像素的平均灰度級Avg1和標為黑色的像素的平均灰度級Avg2。一旦文本框被轉換成黑白(二進位)圖像，圖像處理器120就將Avg1和Avg2跟AvgBG進行比較。平均值更接近AvgBG的區域被當作背景，其它區域被當作前景(或者文本)。例如，如果黑色區域的平均值更接近AvgBG，這一黑色區域就轉換成白色，反之亦然。這樣做保證了文本總是黑色，跟OCR程序的輸入相容。然後，圖像處理器120將提取出來的幀文本存入圖像文本工作空間132，這一過程針對下一幀從步驟205繼續下去。這一序列繼續下去，直到將文本從選定視頻剪輯的所有幀提取出來。一旦視頻圖像文本已經被識別和提取出來，圖像處理器120就會根據系統選定的或者用戶選定的文本屬性，進一步隔離和分析提取出來的文本。可以根據一幀或者一組幀內的文本，對視頻序列或者剪輯進行搜索或編制索引。例如，在一幀中出現「旅館」這個詞意味著很可能會在當前幀或者以後的幀中出現旅館的畫面。存在街道名稱和門牌號碼說明有可能出現城市場景。在搜索有公路的幀的時候，廣告牌文本的識別會很有幫助。還可能利用文本來分析和標註具體的圖像幀。例如，圖像處理器120可以識別和提取作為某一新聞節目的一部分廣播的，或者某一新聞記者播發的實況新報導。圖像處理器120可以通過搜索圖像文本中的關鍵字來做到這一點，包括「實況」、節目名(例如「晚間新聞4(NEWS4ATNITE)」)或者記者的名字(例如「卡爾·瓊斯」)。通過識別文本框，圖像處理器120能夠根據節目名、主持人名字、製片人名字、導演名字或者任何其它名字，為圖像幀和剪輯編制索引。這包括根據音樂組的名字(例如MTV和VH-1視頻剪輯)、現場訪問節目主持人或者嘉賓的名字等等，對圖像進行識別和分類。更進一步，體育節目可以通過提取頻繁出現在屏幕上的個人成績表而檢索到。例如，圖像處理器120可以搜索得分、隊名、運動員名字等等。股票市場信息可以被提取出來並編制索引。天氣信息也可以根據屏幕上的文本信息提取出來並編制索引。比賽過程中滾動的「紙帶」、現場訪問、新聞等等可以通過檢查對應於選定屬性的圖像文本而識別出來。屏幕紙帶發布最新天氣狀態、股票市場行情信息，以及其它信息，它們能夠通過屬性分析而識別和標註，並提取出來供將來使用。提取的紙帶信息可以看成獨立於廣播節目本身的信息，因為它跟它出現的節目視頻沒有關係。需要識別視頻片斷的關鍵幀時，分析跟幀的其餘內容有關的疊印字幕會很有用。這種疊印信息是視頻、音頻和文本(transcript)(閉路字幕或者電視文本廣播))信息的補充。這一文本可以跟鏡頭檢測算法一起使用，用於編輯視頻索引，產生其中有文本的關鍵幀。有文本的關鍵幀更有意義，比沒有文本的幀更能代表視頻序列。例如，有足球比賽分數的關鍵幀比沒有分數的幀更有用。此外，檢測廣告中文本的位置和大小可以跟其它屬性一起使用，從而可靠地檢測廣告。此外，視頻文本分析為分析其餘圖像視頻內容並對它們進行分類提供了一種新的手段。場景文本和它的屬性提供了視頻內容的線索。這有幾個優點，包括分析文本時需要的計算機存儲器容量和時間要少得多，而不是花很多時間和存儲器容量去分析視頻的視覺內容這一事實。例如，檢測滾動文本可以識別節目的開頭和結尾。於是，需要在有一組多個節目的視頻內找到節目邊界的時候，這一屬性可能非常有用。圖3A和3B給出了示例性的圖像幀305和350，它們包含有圖1中的視頻處理裝置110能夠識別的選定屬性的圖像文本。在所有視頻剪輯中，圖像幀305和350中的圖像文本不一定要同時出現在屏幕上。給出了圖像幀305和350以說明圖像文本的所選屬性，比方說滾動、位置、淡入淡出、短暫出現和關鍵字。在介紹本發明工作過程的時候為了簡潔和清楚起見，不同類型節目的圖像文本被組合成圖像幀305和350。圖像幀305表示從一個電視節目圖像幀中提取出來的文本。在這種情況下，系統/用戶已經選擇了區分水平滾動文本和垂直滾動文本的屬性，比方說跟節目片頭字幕或者幀底部的信息紙帶行有關的文本。通過識別在一系列幀中相同的文本來檢測滾動屬性，除非文本的位置從一幀到另一幀會不斷地緩慢偏移。此外，即使對於不滾動的節目片頭字幕，圖像處理器120仍然能夠通過識別只在屏幕上短暫出現的一系列文本消息，以及選擇進一步識別文本中的關鍵字，比方說「製片人」、「導演」、「主演」、「演員表」等等，來識別節目片頭字幕。利用選擇的垂直滾動屬性，圖像處理器120已經識別出了片頭字幕文本行310，它是虛線矩形框說明的一個向上滾動的文本區。利用選擇的水平滾動屬性，圖像處理器120已經識別出了滾動著預告文本消息(315的幀底部，它是如圖所示矩形框內的一則天氣消息，其中的文本朝觀眾的左側滾動。圖像幀350包含圖像文本的其它實例，這些圖像文本有很容易識別的特定屬性。例如，圖像幀350左上角的個人成績表文本355有三行文本。第一行說明是哪一個臺或者哪一個網絡，其餘兩行顯示比賽得分。圖像處理器120通過識別屏幕中具有類似於個人成績表文本355屬性的體育得分，可以識別體育節目。多數分數通常都是在屏幕的一個角落上顯示的，數值數據(也就是每一個隊的得分總和)跟個人成績表在垂直方向對齊。類似地，廣告文本360有跟廣告商有關的電話號碼的關鍵字屬性(例如「1-800-」)，廣告文本365有跟廣告商有關的網際網路地址的關鍵字屬性(例如www.[公司名].com)。此外，廣告文本360和廣告文本365都有另外一個文本屬性，也就是說它們都位於視頻圖像350中心附近，該文本屬性可以用於識別商業廣告。多數其它類型的文本都位於屏幕的底部或者角落裡。最後，文本區域370有一個關鍵字屬性(也就是「新聞」)，它說明了這一幀是新聞節目的一部分。文本區域375有另一個關鍵字屬性(也就是「實況」)，它說明顯示的文本幀是新聞節目的一部分。圖4給出了存儲器140中示例性的圖像文本屬性表400，它包括本發明一個實施方案中系統定義的和用戶定義的圖像文本屬性。表400中每一個系統/用戶定義的屬性分類都對應於一個屬性文件，它們可以是固定的或者變化的，就象圖1所示圖像文本分析系統的特定實施方案所確定的一樣。廣告屬性405代表商業廣告文本的特性，這些文本可以從一個文件裡取出來供查閱。跟廣告內容有關的屬性可以包括特定尺寸或者位置範圍以內的文本、短暫出現的文本、顯示的電話號碼、郵寄地址、網際網路地址和廣告內象「大減價銷售」、「廠家折扣」之類的關鍵字。節目名屬性410為系統/用戶提供了隔離視頻剪輯的手段，這些視頻剪輯中出現的文本說明了它屬於哪一類節目。節目名屬性410又一次包括大小和位置這樣的屬性，以及實際的節目名，比方說「Seinfeld」。節目名屬性410可以說明圖像處理器120隻應當在視頻剪輯中已經識別過的片斷(比方說開頭)中尋找節目名，以便刪除節目中在不同節目中出現的廣告。節目類型屬性415包括說明某類節目(體育、新聞、音樂視頻等等)的文本屬性。這些類型的節目可以按照前面介紹的方式，通過搜索個人成績表屬性來識別，這些屬性包括體育代表團關鍵字(例如NBA、NHL)、新聞節目關鍵字(例如「新聞」、「天氣」、「實況」)或者音樂視頻關鍵字(例如「製片人」、「錄製人」)。人名屬性420包括說明某一個人(「約翰·史密斯」)的文本，可以跟其它文本屬性(比方說新聞節目名、體育組織名稱等等)一起使用。公司名屬性425提供了檢查視頻剪輯中是否存在某一公司名的一種手段。例如，圖像處理器120可以在包圍棒球場的廣告牌上找到某一公司的名字。屬性選擇可以包括以前介紹過的文本特徵，用來搜索公司名的節目類型，具體公司名的顯示特性，某一新聞展覽中產品上顯示的公司名等等。事件屬性430指的是某類事件的文本屬性，比方說保齡球(SuperBowl)或者白宮簡報。在這一點上，事件屬性430跟節目類型屬性或者人名屬性非常相似。文本效果屬性435提供一組標準的文本特性，可以用於選擇和顯示。文本效果屬性435可以包括水平和垂直滾動、縮放(也就是縮小或者放大)、閃爍、波浪形(或者波紋)、剝離、擾亂、飛行、動畫和實況文本這樣的文本效果。網絡徽標屬性440指的是跟網絡標識徽標有關的文本屬性。這些屬性包括網絡名稱和徽標，供比較文本和最可能出現徽標的主幀區域時使用。網絡常常將它們的徽標淡輪廓線(或者水印)跟節目的屏幕圖像疊印在一起。文本外觀屬性445指的是圖像文本的一個或者多個特定特徵，比方說文本顏色、字體類型、文本高度、文本寬度或者文本位置。對於文本高度、文本寬度或者文本位置這種情形，尺寸或者位置可以採用絕對量(例如具體數量的像素或者具體範圍的像素)或者用相對量(例如屏幕尺寸的具體百分比或者百分比範圍)給出。圖5給出了流程圖500，它說明的是本發明一個實施方案中示例性視頻處理裝置110的圖像文本屬性分析操作。一組標準文本屬性可以由文本分析控制器134在系統初始化的時候存入存儲器140和/或修改或者通過用戶裝置190輸入。這樣，在默認方式下，圖像處理器120就可以從存儲器140，或者通過用戶裝置190的具體輸入，接收選擇的文本屬性(步驟505)。啟動了視頻文本分析以後，圖像處理器120檢測、提取和儲存選擇的圖像幀中的文本，就象參考圖2更詳細地介紹過的那樣(步驟510)。提取出來的文本的文本屬性被確定，並存入圖像工作空間132。然後，需要的時候，將提取的圖像文本跟選擇的屬性進行比較，結果存入圖像文本工作空間132和/或存儲器140(步驟515)。根據具體應用的情況，跟選擇的屬性相同的視頻圖像文本可以響應用戶命令通過已知的編輯過程進行修改(步驟520)。這一編輯可以包括，例如，清除所有廣告，或者，刪除節目只保留廣告。然後，得到的視頻文件和有關的分析過的文本可以做上標記，供檢索用，存入存儲器140，和/或轉給內部或者外部存儲器，供以後使用(步驟525)。雖然詳細地介紹了本發明，但是，本領域裡的技術人員應當明白，他們能夠進行各種修改、替換和更改，而不會偏離本發明廣義形式的實質和範圍。權利要求1．一種視頻處理裝置(110)，用於能夠分析圖像幀中圖像文本的系統(100)，該裝置能夠在收到選擇的至少一個圖像文本屬性的時候，對視頻流進行搜索和過濾操作中的一項操作，該視頻處理裝置(110)包括一個圖像處理器(120)，能夠接收包括多個圖像幀(305、350)的第一個視頻流，從這多個視頻流(305、350)中檢測和提取圖像文本，確定所提取圖像文本的至少一項屬性，比較提取的至少一個圖像文本屬性和選擇的至少一個圖像文本屬性，並在提取的至少一個圖像文本屬性和選擇的至少一個圖像文本屬性相同的情況下，至少完成以下操作之一-修改第一個視頻流的至少一部分；-傳送第一個視頻流的至少一部分；和-標註第一個視頻流的至少一部分。2．權利要求1的視頻處理裝置(110)，其中提取的至少一個圖像文本屬性說明所述多個圖像幀(305、350)中的所述圖像文本是以下中的一個水平滾動；垂直滾動；和淡入淡出。3．權利要求1的視頻處理裝置(110)，其中提取的至少一個圖像文本屬性說明所述多個圖像幀(305、350)中的圖像文本是以下文本中的一個一個人名；和一個群體名。4．權利要求1的視頻處理裝置(110)，其中提取的至少一個圖像文本屬性說明所述多個圖像幀(305、350)中的所述圖像文本是商業廣告的一部分。5．權利要求1的視頻處理裝置(110)，其中提取的至少一個圖像文本屬性說明所述多個圖像幀(305、350)中所述圖像文本是在以下情形之一中出現的節目開頭；和節目結尾。6．權利要求1的視頻處理裝置(110)，其中提取的至少一個圖像文本屬性說明所述多個圖像幀(305、350)中的所述圖像文本是節目名的一部分。7．權利要求1的視頻處理裝置(110)，其中提取的至少一個圖像文本屬性說明所述多個圖像幀(305、350)中的所述圖像文本是新聞節目的一部分。8．權利要求1的視頻處理裝置(110)，其中提取的至少一個圖像文本屬性說明所述多個圖像幀(305、350)中的所述圖像文本是體育節目的一部分。9．一種圖像文本分析系統(100)，包括一個視頻處理裝置(110)，能夠在收到選擇的至少一個圖像文本屬性的時候，完成搜索和過濾視頻流操作中的一項操作，該視頻處理裝置(110)包括-一個圖像處理器(120)，能夠接收包括多個圖像幀(305、350)的第一個視頻流，從多個圖像幀(305、350)中檢測和提取圖像文本，確定所提取的圖像文本的至少一個屬性，比較提取的至少一個圖像文本屬性和選擇的至少一項圖像文本屬性，並在所提取的至少一個圖像文本屬性跟所述選擇的至少一個圖像文本屬性相同的情況下，完成以下操作之一修改所述第一個視頻流中的至少一部分；傳送所述第一個視頻流中的至少一部分；和標註所述第一個視頻流的至少一部分；一個顯示監視器(185)，用於顯示第一個視頻流中的至少一部分；和一個用戶輸入裝置(190)。10．收到所選至少一個圖像文本屬性的時候，進行搜索和過濾操作中一項操作的方法，用於能夠分析圖像幀中圖像文本的系統，該方法包括以下步驟接收包括多個圖像幀(305、350)的第一個視頻流；從這多個圖像幀(305、350)中檢測和提取圖像文本；確定提取的圖像文本的至少一項屬性；比較提取的至少一個圖像文本屬性和選擇的至少一個圖像文本屬性；和根據在提取的至少一個圖像文本屬性跟選擇的至少一個圖像文本屬性之間的匹配，進行以下操作中的至少一項操作-修改第一個視頻流中的至少一部分；-傳送第一個視頻流中的至少一部分；和-標註第一個視頻流中的至少一部分。11．計算機能夠執行的步驟，儲存在計算機能夠讀出的存儲媒介(140)裡，用於能夠分析圖像幀(305、350)中圖像文本的系統，在收到選擇的至少一個圖像文本屬性的時候，對視頻流完成搜索和過濾這兩項操作中的一項操作，這些計算機可執行的步驟包括以下步驟接收包括多個圖像幀(305、350)的第一個視頻流；從這多個圖像幀(305、350)中檢測和提取圖像文本；確定提取的圖像文本的至少一項屬性；比較提取的至少一項圖像文本屬性和選擇的至少一項圖像文本屬性；和在提取的至少一項圖像文本屬性跟選擇的至少一項圖像文本屬性相同的情況下，完成以下操作中的至少一項操作-修改第一個視頻流中的至少一部分；-傳送第一個視頻流中的至少一部分；和-標註第一個視頻流中的至少一部分。12．權利要求11的計算機可讀存儲媒介(140)，其中提取的至少一個圖像文本屬性說明，多個圖像幀中的圖像文本屬性是水平滾動、垂直滾動、淡入淡出、縮放、波紋、飛行和閃爍中的一個。全文摘要公開了一種視頻處理裝置,用於視頻文本分析系統,在視頻流中搜索一個或者多個用戶選擇的圖像文本屬性。這一視頻處理裝置包括一個圖像處理器,能夠從圖像幀中檢測和提取圖像文本,確定提取的圖像文本的屬性,比較提取的圖像文本屬性和用戶選擇的圖像文本屬性,如果它們相同,就根據用戶命令修改、傳送和/或標註至少一部分視頻流。本發明採用用戶選擇的圖像文本屬性在視頻剪輯文檔中進行搜索,以1)找出特定類型的事件的位置,比方說新聞節目或者體育事件;2)找出特定人物或群體特寫節目的位置;3)用名字來定位節目;4)儲存或者去掉所有或者一些廣告,或者根據出現在視頻剪輯幀裡的圖像文本,對視頻剪輯的部分或者全部進行排序、編輯和儲存操作。文檔編號H04N5/278GK1295690SQ99804574公開日2001年5月16日申請日期1999年12月24日優先權日1999年1月28日發明者L·阿格尼霍特裡,N·迪米特羅瓦,J·H·埃倫巴爾斯申請人:皇家菲利浦電子有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用圖像幀中檢測到的文本信息分析視頻內容的系統和方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法