基於視頻識別與提取影片圖像的系統的製作方法
2023-12-12 13:17:07 1
專利名稱:基於視頻識別與提取影片圖像的系統的製作方法
技術領域:
本發明涉及一種基於視頻識別與提取影片圖像的系統。
背景技術:
隨著網絡信息的發展,音頻、圖像和視頻等多媒體內容目前在網際網路中佔據了很重要的位置,各行業對音視頻的使用越來越廣泛,如何從海量的音視頻信息中獲取有用的信息,即音視頻信息資源的識別和提取顯得日益重要,音視頻已成為網絡用戶最頻繁使用觀看的資源之一。目前的主流視頻播放器已經較好的解決了觀看視頻,但在音視頻識別與提取方面,這些播放器系統仍然沒有開發出這個功能,這使得音視頻資源自身的內容沒有被很好的識別,一些有用的資源被忽略,解決這個問題的途徑之一,就是利用識別技術從音視頻資源裡分析出可用的信息,再通過提取技術去索引這些資源,以達到提取有用信息的目的。鑑於以上內容,有必要提供一種基於視頻識別與提取影片圖像的系統,通過圖像識別技術對視頻中出現的人物形象、道具、品牌標識、場景、天氣狀況等視頻特徵進行分析, 並將分析數據整理存儲,並通過文字、圖片、視頻段等關鍵信息進行視頻檢索,針對靜態圖像及動態視頻圖像序列,完成圖像檢測、跟蹤及進行分離的系統。
發明內容
本發明針對以上問題的提出,而研製一種基於視頻識別與提取影片圖像的系統。 本發明採用的技術手段如下一種基於視頻識別與提取影片圖像的系統,其特徵在於包括如下步驟步驟1預處理伺服器將預處理視頻中的音頻部分轉化為標準的待識別語音;步驟2預處理伺服器將預處理視頻轉化為標準的待識別圖片即預處理伺服器先將視頻分割成獨立的鏡頭,然後通過選取每個鏡頭的關鍵幀來表示該鏡頭,從輸入的視頻中利用關鍵幀提取視頻文件中的多組圖片,並保持分離出來的圖片與原來的關鍵幀時間點一致,然後對圖片數據進行數字降噪處理,並將非標準像素點轉化為標準像素點後,輸出標準的待識別圖片,以此獲取圖片樣本庫;步驟3預處理伺服器將預處理視頻中的視頻字幕轉化為標準的待識別二值化圖像;將視頻文字尺寸、長寬、筆畫類型和筆畫密度提取,然後將視頻中的文本看作具有特徵的特殊符號,綜合視頻的時域特徵信息,進而轉化成待識別的二值化圖像;步驟4對待識別語音和圖片樣本庫以及二值化圖像進行特徵提取,即進行聲音的語調和波長特徵提取,圖像的顏色、紋理和形狀特徵提取,文字的尺寸、筆畫密度、對象信息和空間關係特徵提取;最後輸出標準的特徵值,以此獲得特徵資料庫;步驟5索引伺服器對被識別的視頻文件進行語音、圖像或文字進行特徵提取,然後索引伺服器將獲取的語音、圖像或文字的特徵同步驟4得的特徵資料庫中的特徵值進行相似度的比較,如果比較的結果滿足相似度80%以上,這個被識別的視頻文件中的語音、圖像或文字被識別,然後將被識別的語音、圖像或文字對應的圖像進行提取,並存儲在本地伺服器上,用於用戶調用;如果比較的結果不滿足相似度80%,返回到上述相似度的比較操作,再進行相似性匹配,直到滿足於匹配條件。所述步驟1中音頻部分轉化為標準的待識別語音的過程如下通過檢測音頻部分的聲音信號中是否有連續穩定的基音頻率或基波周期存在,在提取出音頻部分的數據,並保持了提取出來的音頻和原有的視頻在時間軸方向的一致,對原始語言進行處理,濾除掉背景噪聲,而後進行語音信號的預加重、語音分幀、端點檢測處理,音頻數據經過數字降噪技術處理後形成標準的待識別語音。所述步驟3還包括如下步驟將預處理視頻分割為獨立的鏡頭,根據上述特性在鏡頭段內利用字幕的出現與消失所引起的相繼兩幀的差別,定位出字幕區域,得到了原始圖像中出現文字的一系列矩形區域,將這些矩形區域分離出來,就得到了原圖像的一系列子圖像,從以上的文字塊中將背景去除,得到只含文字信息的二值圖像。同現有技術相比本發明具有如下有益效果1、提供廣告、服務等附加價值促進經濟的發展識別與提取影片圖像系統從某一方面來說,提高了網頁的積極性,吸引更多的用戶參與,在用戶互動的過程中,傳遞產品信息,增加產品的曝光度,提高產品的信息度,提升網站的流量,並佔領產品的宣傳領地。使用識別與提取影片圖像系統進行網站推廣、網絡品牌、信息發布、顧客關係,顧客服務、銷售渠道、銷售促進等行為。從根本上說,視頻網站使用識別與提取影片圖像系統是為了提高企業知名度,樹立企業品牌,也促進了經濟的增長。2、豐富網絡資源,促進網絡發展識別與提取影片圖像系統作為網際網路技術和內容創新的產物,以期參與、互動和個性化的特徵深受用戶喜愛,為活躍網絡氛圍、豐富網絡信息資源發揮著重要作用。近年來,隨著網絡的普及度越來越高,真實世界中的社會關係越來越多的進入網絡世界,識別與提取影片圖像系統是處於快速發展和快速演變中的網際網路新應用,它作為一種新的表達方式,傳播的不僅是情緒,還包括大量的智慧、意見和思想。某種意義上說,它也是一種新的文化現象,識別與提取影片圖像系統的出現和繁榮,真正凸現網絡的知識價值,標誌著網際網路發展開始步入更高的階段。3、提高用戶在瀏覽網際網路信息時的主動性,帶動網絡音視頻周邊產業發展傳播大學麥克漢說「媒介是神會發展的基本動力,也是區分不同社會形態的標誌,每一種新媒介的產生與運用,宣告我們進入了一個新時代。」識別與提取影片圖像系統的問世,預示著一個媒介新時代的即將來臨。識別與提取影片圖像系統這種新的信息傳播形態,既不同於傳統媒體的線性傳播,也不同於網絡媒體的網狀傳播,它是一種裂變傳播,這種傳播形態的傳播速度之迅捷、傳播密度之深密,傳播方式之便利,遠非以往的媒介所能比擬。這種信息傳播形態帶來的影響,假以時日,必將滲透到社會的每一個角落。它通過優化你我的溝通, 促進個性的行動,進而改變世界。另外,通過此技術使系統對圖片的識別能力更強,並加強識別精度的同時對瀏覽器的瀏覽速度不影響。
圖1為本發明所述系統的流程圖2為本發明所述系統實現結構框圖;圖3為本發明所述系統實際流程的示意圖。
具體實施例方式如圖1所示基於視頻識別與提取影片圖像的系統,包括如下步驟步驟1預處理伺服器將預處理視頻中的音頻部分轉化為標準的待識別語音;視頻流中的音頻信號是一種多種聲音信號(語音、音樂以及環境音等等)交織在一起的複雜的混合體,當從一種類型的音頻信號轉換到另一種類型的音頻信號時,某些聽覺特徵會發生變化,前後差別較大,如同圖像序列中的視覺特徵一樣,在連續音頻信號流中,當一類音頻信號轉換到另一類音頻信號時,這兩類音頻信號在某些相應的音頻特徵上會發現明顯變化,所以只需找到音頻特徵發生急劇變化的地方,即通過信號的聲學分析並查找聲音的變化點,就可以實現音頻場景的分割,因此,我們把連續、同一個類型的音頻片歸為一個音頻場景,一個音頻場景一般表達了一個內容,對於只包含了一類音頻信息文件來說,可以利用音頻文件整體上的信息來提取音頻特徵,進行歸類,而對於較長的,則還要將它們進行分割。音頻變化點是度量特徵突然改變的地方,變化點是定義信號的區段-音頻場景,從而將連續音頻信號分割成長短不一的音頻場景,在進行後續處理。視頻流中的音頻信號有不同的類型,而相同類型的音頻片一般持續時間從幾秒到幾分鐘,通過檢測聲音信號中是否有連續穩定的基音頻率(或基波周期)存在,可以區分聲音信號是否合諧,在利用音頻分離技術提取出音頻部分的數據,並保持了分離出來的音頻和原有的視頻在時間軸方向的一致, 並對原始語言進行處理,濾除掉其中的不重要的信息以及背景噪聲,並進行語音信號的預加重、語音分幀、端點檢測等處理。音頻數據經過數字降噪技術處理,能量過低的部分和包含雜音信號的語音段被處理成靜音,轉化後,音頻須輸出為標準的待識別語音。步驟2預處理伺服器將預處理視頻轉化為標準的待識別圖片即預處理伺服器先將視頻分割成獨立的鏡頭,然後通過選取每個鏡頭的關鍵幀來表示該鏡頭,從輸入的視頻中利用關鍵幀提取視頻文件中的多組圖片,並保持分離出來的圖片與原來的關鍵幀時間點一致,分離出來的圖像格式為RGB彩色圖像,需要先將其轉換為8位256級的灰度圖像。轉化後的圖片數據經過數字降噪技術處理(比如圖像的曝光度、解析度、對比度、色調等),非標準像素點轉化為標準像素點,輸出標準的待識別圖片,以此獲取圖片樣本庫。然後對圖片數據進行數字降噪處理,並將非標準像素點轉化為標準像素點後,輸出標準的待識別圖片, 以此獲取圖片樣本庫。步驟3預處理伺服器將預處理視頻中的視頻字幕轉化為標準的待識別二值化圖像;視頻文件中字幕是人工文字的一個重要表現形式,視頻中的字幕一般都具有時空特性 比如字幕的存在跨越若干幀,甚至若干個鏡頭;字幕存在時,儘管不同幀之間的變化可能很大,但是字幕所在的區域的亮度或顏色變化不大;字幕的出現與消失都會使字幕對應區域在相鄰視頻幀之間出現很大的亮度或顏色的變化,所以先將視頻分割為獨立的鏡頭,根據上述特性在鏡頭段內利用字幕的出現與消失所引起的相繼兩幀的差別(包括幀差圖像的亮度分布與邊緣方向分布)定位出字幕區域,從而大大減少了需要檢測的幀的數量,也迴避了相繼兩幀中未改變的背景區域。根據所檢測到的文字區域,以對當前所檢測的文字區域進行優化。如前所述,通過文字檢測,得到了原始圖像中出現文字的一系列矩形區域,將這些矩形區域分離出來,就得到了原圖像的一系列子圖像,我們稱之為文字塊,從圖像或視頻中檢測到的文字塊,通常具有很複雜的背景,需要將從以上的文字塊中將背景去除,得到只含文字信息的二值圖像;將視頻文字尺寸、長寬、筆畫類型和筆畫密度提取,然後將視頻中的文本看作具有特徵的特殊符號,綜合視頻的時域特徵信息,進而轉化成待識別的二值化圖像;步驟4對待識別語音和圖片樣本庫中的圖片以及二值化圖像進行特徵提取,即進行聲音的語調和波長特徵提取,圖像的顏色、紋理和形狀特徵提取,文字的尺寸、筆畫密度、 對象信息和空間關係特徵(是提取文字特徵值的一部份,因為提取文字時,也需要把周圍的圖像以及文字區域一起獲取,所以需要用到對象信息和空間關係特徵。)提取;最後輸出標準的特徵值,以此獲得特徵資料庫(利用特徵信息檢測器檢測提取,人為的輸出。以此獲取特徵,從而建立特徵資料庫。);特徵提取包括關鍵幀中的視覺特徵和鏡頭的運動特徵的提取,其中對關鍵幀中的視覺特徵的提取主要採用基於顏色特徵、基於紋理特徵、基於形狀特徵等提取方法,特徵信息檢測器被配置從資料庫中檢測與指定語音和圖像文字等的特徵信息,包括圖像的顏色、 紋理、形狀;聲音的特徵、語調、波長;文字的尺寸、筆畫密度、對象信息和空間關係等。經過特徵提取模塊得到語音特徵和圖像特徵,在設定的相似度內搜索出所有符合條件的圖像, 而邊緣是圖像最基本的特徵,是圖像灰度變化最劇烈的地方,圖像邊緣和圖像內容的物理特性之間存在著直接的聯繫,因此,圖像的邊緣包含了圖像大部分的信息,提取出來的關鍵幀圖像特徵也著重在邊緣體現。最後輸出標準的特徵值,以此獲得特徵資料庫。步驟5索引伺服器(它是通用資料庫定義的數據類型,表、視圖和索引)對需要被識別的視頻文件(由於進行的是視頻的識別與提取,所以通常需要被識別的視頻文件的內容與預處理視頻文件中的內容存在著共同點比如兩部不同內容的影片,但是主演卻由同一人飾演,或者有同一款跑車,抑或相同的場景等)進行語音、圖像或文字的特徵提取,然後索引伺服器將獲取的語音、圖像或文字的特徵同步驟4得的特徵資料庫中的特徵值進行相似度的比較,如果比較的結果滿足相似度80%以上,這個被識別的視頻文件中的語音、圖像或文字被識別,然後將被識別的語音、圖像或文字對應的圖像進行提取,並存儲在本地伺服器上,用於用戶調用;如果比較的結果不滿足相似度80%,返回到上述相似度的比較操作,再進行相似性匹配,直到滿足於匹配條件。索引伺服器(它是通用資料庫定義的數據類型,表、視圖和索引)將需要被識別的視頻文件分割成獨立的鏡頭形成一個鏡頭片段,每個鏡頭有個對應播放時間點的圖片序列,令資料庫中每個序列依次作為未知序列進行識別,在任何視頻的圖像序列中,幅值和重心高度都在周期性變化,因此,我們使用這兩種標準得到關鍵幀,資料庫中,按照提取方法從指定語音或者圖像提取的運動特徵信息與表示語音和圖像的內容信息相關聯。運動特徵它反映了視頻的時域變化,也是用視頻例子進行檢索的重要內容。得到描述視頻序列的特徵量以後,可以通過對特徵進行全局或局部的相似性匹配,利用圖像特徵值與圖片樣本庫中的圖像進行相似性匹配,得出用戶需要的圖像結果;從二值化圖像中抽取出來的「特徵值」作為原型,拿它來檢驗所要識別的圖像,通過匹配原則,進而識別出文字;兩圖像塊之間的特徵值的相關性決定,當兩圖像塊完全相同時,它們的相關性最大,對於互相獨立的兩圖像塊,它們的相關性最小,衡量兩圖像塊間特徵值的相關性的準則是相似度是否達到80%,如果達到,這個圖像也就被識別了,以此來判斷出該圖是人物、背景、還是物品設備等,如果在同一場景裡有兩人說話,只需對經過預處理的信號進行特徵提取,將語音的特徵值和需要被識別的視頻文件提取出來的特徵值相匹配,還可自動分析確認誰在說,以及判斷對話聲調及氣氛,因此,特徵值匹配的好壞直接影響了匹配的精度。如果能找到一個相似的原型,最後進行判決分類,得到識別結果;該結果可保存在本地伺服器上,用於用戶隨時調用輸出。如圖2所示該系統包括圖像輸入模塊,用於將視頻內的單張圖片存儲在計算機內。圖像解碼模塊,模塊用於識別人臉,形狀或紋理特徵然後將圖像自動分類,同時通過圖像類別,顯著語義特徵壓縮編碼,以達到圖像解碼的作用。識別模塊,用於對解碼好的圖像進行識別,判斷出是人物,景物還是物品等。分離模塊,是指在一幅圖像或視頻流的一幀中檢測出圖像並將圖像從背景中分離出來,並自動地將其保存。圖像存儲模塊,用於將圖片存儲在計算機內,以方便用戶的隨時調用。圖像解碼模塊是指一個能夠對視頻進行壓縮或者解壓縮的程序,是對專用數據接收來自控制主機的控制碼進行解碼,放大輸出,該模塊用於區分人臉,形狀或紋理特徵然後將圖像自動分類,同時通過圖像類別,顯著語義特徵壓縮編碼,以達到圖像解碼的作用。識別模塊圖形刺激作用於感覺器官,人們辨認出它是經驗過的某一圖形的過程, 也叫圖像再認。在圖像識別中,既要有當時進入感官的信息,也要有記憶中存儲的信息。只有通過存儲的信息與當前的信息進行比較的加工過程,才能實現對圖像的再認。分離模塊在識別與提取影片圖像的識別模塊將JavMcript代碼接口與分離模塊建立連接,視頻中視頻文件是一種特殊的視頻數據,它遵循幀-鏡頭-場景單元的結構化組織規則。對文件的結構化存儲、編輯以及實時查詢屬於多媒體識別領域的工作範疇。在一幅圖像或視頻流的一幀中檢測出圖像並將圖像從背景中分離出來,並自動地將其保存。圖像存儲模塊該模塊用於將分離好的圖像存儲在本地伺服器上,以便做好圖像識別的準備,方便於用戶的隨時調用。JavMcript代碼接口 該接口用於實現識別與提取影片圖像系統與用戶觀看影片的客戶端之間的交互。識別與提取影片圖像系統將該接口編製成為一行代碼。當視頻文件被用戶在客戶端打開的時候,該接口將代碼傳送到識別與提取影片圖像系統,再從識別與提取影片圖像系統回傳視頻文件信息給網頁,就此實現系統識別與提取圖片影像的功能。如何對視頻文件進行解碼1、合理抓取並分析圖像2、如何對分析好的圖像進行識別,判斷是人物、背景及物品等。3、自動識別過程中不影響影片的流覽速度通過以下幾個基本步驟的技術創新,視頻識別與提取影片圖像系統的技術很好地解決了上述難題。利用代碼編制,編寫出一個解碼器的解決方案。首先,系統實現通過代碼製作圖像解碼模塊,一種通過編碼系統的動態圖像編碼數據的圖像解碼設備,該編碼系統用於將一個幀劃分成無數個塊而進行的運動補償編碼,該模塊用於視頻流中識別圖像(其中包括字幕、人物、物品、設備、語氣)形狀或紋理特徵然後將圖像自動分類同時通過圖像類別,顯著語義特徵壓縮編碼,以達到圖像解碼的作用。利用解碼好圖像的設置,抓取精準圖像,經過解碼後的圖像會被歸類於後臺,系統程序會自動識別出哪些圖像經過解碼,而哪些是沒有經過解碼的,進而作出選擇。對解碼好的圖像進行分析。判斷出該圖是人物、背景、還是物品設備等。如果在同一場景裡有兩人說話,還可自動分析確認誰在說,以及判斷對話聲調及氣氛。通過對分析好的圖像進行識別,確定好圖像的定位,進行識別系統輸入一般是一張或者一系列含有未確定身份的圖像,以及資料庫中的若干已知身份的人臉圖象或者相應的編碼,而其輸出則是一系列相似度得分,表明待識別的人臉的身份。比如把一個識別系統看做是一個原型匹配模型,在記憶中存儲的並不是所要識別的無數個模板,而是圖像的某些「相似性」。從圖像中抽象出來的「相似性」就可作為原型,拿它來檢驗所要識別的圖像。 如果能找到一個相似的原型,這個圖像也就被識別了。利用系統自動運行的原理,使識別與提取影片圖像的功能完全不影響網頁原本的流覽速度,系統是嵌套在視頻系統中的,它所針對的所有活動是指視頻文件,該系統並不在網頁被用戶打開時而立即執行,而是等待內容加載完成後對該文件內容的分析,此時用戶也開始正常的網頁操作流程,因而並不影響網頁的流覽速度。圖像輸入模塊該模塊用於網站視頻流中,根據一定的圖像輸入大小規則。系統實際工作流程如圖3所示。以上所述,僅為本發明較佳的具體實施方式
,但本發明的保護範圍並不局限於此, 任何熟悉本技術領域的技術人員在本發明揭露的技術範圍內,根據本發明的技術方案及其發明構思加以等同替換或改變,都應涵蓋在本發明的保護範圍之內。
權利要求
1.一種基於視頻識別與提取影片圖像的系統,其特徵在於包括如下步驟 步驟1預處理伺服器將預處理視頻中的音頻部分轉化為標準的待識別語音;步驟2預處理伺服器將預處理視頻轉化為標準的待識別圖片即預處理伺服器先將視頻分割成獨立的鏡頭,然後通過選取每個鏡頭的關鍵幀來表示該鏡頭,從輸入的視頻中利用關鍵幀提取視頻文件中的多組圖片,並保持分離出來的圖片與原來的關鍵幀時間點一致,然後對圖片數據進行數字降噪處理,並將非標準像素點轉化為標準像素點後,輸出標準的待識別圖片,以此獲取圖片樣本庫;步驟3預處理伺服器將預處理視頻中的視頻字幕轉化為標準的待識別二值化圖像;將視頻文字尺寸、長寬、筆畫類型和筆畫密度提取,然後將視頻中的文本看作具有特徵的特殊符號,綜合視頻的時域特徵信息,進而轉化成待識別的二值化圖像;步驟4對待識別語音和圖片樣本庫中的圖片以及二值化圖像進行特徵提取,即進行聲音的語調和波長特徵提取,圖像的顏色、紋理和形狀特徵提取,文字的尺寸、筆畫密度、對象信息和空間關係特徵提取;最後輸出標準的特徵值,以此獲得特徵資料庫;步驟5索引伺服器對被識別的視頻文件進行語音、圖像或文字進行特徵提取,然後索引伺服器將獲取的語音、圖像或文字的特徵同步驟4得的特徵資料庫中的特徵值進行相似度的比較,如果比較的結果滿足相似度80%以上,這個被識別的視頻文件中的語音、圖像或文字被識別,然後將被識別的語音、圖像或文字對應的圖像進行提取,並存儲在本地伺服器上,用於用戶調用;如果比較的結果不滿足相似度80%,返回到上述相似度的比較操作,再進行相似性匹配,直到滿足於匹配條件。
2.根據權利要求1所述的一種基於視頻識別與提取影片圖像的系統,其特徵在於所述步驟1中音頻部分轉化為標準的待識別語音的過程如下通過檢測音頻部分的聲音信號中是否有連續穩定的基音頻率或基波周期存在,在提取出音頻部分的數據,並保持了提取出來的音頻和原有的視頻在時間軸方向的一致,對原始語言進行處理,濾除掉背景噪聲,而後進行語音信號的預加重、語音分幀、端點檢測處理,音頻數據經過數字降噪技術處理後形成標準的待識別語音。
3.根據權利要求1所述的一種基於視頻識別與提取影片圖像的系統,其特徵在於所述步驟3還包括如下步驟將預處理視頻分割為獨立的鏡頭,根據上述特性在鏡頭段內利用字幕的出現與消失所引起的相繼兩幀的差別,定位出字幕區域,得到了原始圖像中出現文字的一系列矩形區域,將這些矩形區域分離出來,就得到了原圖像的一系列子圖像,從以上的文字塊中將背景去除,得到只含文字信息的二值圖像。
全文摘要
本發明公開了一種基於視頻識別與提取影片圖像的系統,其特徵在於包括如下步驟1)預處理伺服器將視頻和音頻轉化為標準的待識別語音;2)預處理伺服器將視頻轉化為標準的待識別圖像;3)預處理伺服器將視頻字幕轉化為標準的待識別的二值化圖像;4)對待識別語音和圖片樣本庫中的圖片以及二值化圖像進行特徵提取,5)索引伺服器對被識別的視頻文件進行語音、圖像或文字進行特徵提取,然後索引伺服器將獲取的語音、圖像或文字的特徵同步驟4得的特徵資料庫中的特徵值進行相似度的比較,最終獲取匹配結果用於用戶調用。該系統具有抓取圖像精準,使識別與提取影片圖像的功能完全不影響網頁原本的流覽速度等特點。
文檔編號G06K9/36GK102222227SQ20111010446
公開日2011年10月19日 申請日期2011年4月25日 優先權日2011年4月25日
發明者李亞歐 申請人:中國華錄集團有限公司, 華錄文化產業有限公司