一種音視頻語音處理與檢索的系統和方法

2023-05-08 14:01:16 1

專利名稱：一種音視頻語音處理與檢索的系統和方法
技術領域：
本發明涉及音視頻語音信息處理和計算機速記領域，特別是一種音視頻語音信息同步處理與檢索的系統。
背景技術：
目前在速記領域手寫速記除個別場合已很少應用，而計算機速記有專業速記機(如亞偉速錄機、華夏速記機等)、普通計算機鍵盤速記(如全音通、雙文速記等)。均依靠人工(速記員)聽打錄入的高技能和計算機編碼來實現，這是當前計算機速記的主體。但這種速記方法存在的問題有高投入低產出，將一名具有大專以上中文水平的人(年齡不超過25歲)培養成合格的速記師需要再經過專業技能培訓I年(約1500學時)及I年以上的實際工作鍛鍊，成才周期為2年。而且成才率低，最多不超過30%，難於普及；速記人員工作時高度緊張，勞動強度大和同聲翻譯雷同；行業整體素質低，工作質量難以保證，和行業要求差距較大。真正能勝任速記師工作的速記人員在本行業內是少數約佔10%，多數或技能水平低或文化素質低，大專和本科生只有極少數人願意投入到速記行業，速記行業大部分從業人員為高中、中專、中技的畢業生，約佔70%以上，文化底蘊遠不能滿足速記行業的要求。所以速記專業人才隊伍的建設非常困難。在計算機速記領域，以計算機語音識別為主體的新技術取代以人工技能為主體的(專業速記機或計算機鍵盤)速記是亟待解決的，也是計算機科學技術發展的必然。音視頻語音信息目前尚無有效的辦法進行快速精確的檢索定位，基本上憑藉具體工作人員的個人經驗，對一般人員只能依靠播放音像資料帶進行原始的人工查找，費時費力。遠不能滿足信息化社會對信息時效和信息規範化管理的要求。

發明內容
本發明所要解決的技術問題是能夠快速處理音視頻語音信息並將其轉換為文本，並能夠通過文本信息檢索原始對應的音視頻信息，達到音、視、文信息一體化。本發明的技術方案提供了一種音視頻語音處理與檢索的系統，包括採集設備、音視頻信息處理計算機、音視頻信息檢索計算機，其特徵在於，所述系統通過安裝音視頻採集設備來即時記錄音視頻信息，並將所述信息提供給所述音視頻信息處理計算機進行處理。進一步地，所述採集設備採用音視頻語音採集設備(視頻編碼器、攝像頭、定製的麥克風等)同時進行視頻與音頻採集；還可以採用數碼攝像機、音效卡與定製的麥克風相結合方式；將採集到的音視頻信號通過USB接口，傳入所述音視頻信息處理計算機進行處理。進一步地，所述採集設備和所述音視頻信息處理計算機之間在區域網或WIFI (無線區域網)內，通過TCP/IP進行通訊。進一步地，所述音視頻信息處理計算機的CPU為Intel雙核E63001. 68GHz或以上，內存2G或以上，硬碟80G或以上；所述音視頻信息檢索計算機的CPU為P42. 4或以上，RAM為IG或以上，硬碟為40G或以上。本發明的有益效果是計算機語音識別和計算機速記在更深層面的應用，同時也填補了我國在音視頻語音精確定位與檢索領域的一項空白，這項技術的成功問世將是音視頻語音處理及計算機速記領域的一場革命，具有良好它的市場前景，具有巨大的社會效益與經濟效益。

圖I是實施例中同步處理與檢索的系統的結構框圖。圖2是實施例中首視頻彳目息處理系統框圖。圖3是實施例中首視頻"[目息處理流程圖。
圖4是實施例中音視頻信息檢索系統框圖。
圖5是實施例中音視頻信息檢索系統功能框圖。
具體實施例本系統的結構框圖如附圖I所示，包括採集設備、音視頻語音信息處理計算機(即前端處理平臺)、和音視頻信息檢索計算機(即後端檢索應用平臺)。其中前端處理平臺的要求是CPU為Intel雙核E6300 I. 68GHz或以上，內存2G或以上，硬碟80G或以上，OS為Windows XP Professional/Windows 2003. Net Framework 3. 5。後端檢索應用平臺的要求是CPU:為P42. 4或以上，RAM為IG或以上，硬碟為40G或以上，OS為Windows XP/ffindows2000. Net Framework350其中採集設備採集的是音視頻信號，本系統支持現場即時信息採集，通過計算機系統所安裝的定製的音視頻採集設備(視頻編碼器、攝像頭、麥克風等)來即時記錄音視頻語音信息，提供給系統進行處理。系統也支持通過非現場錄製的方式採集的滿足系統要求的音視頻語音信息。系統支持目前流行的常用多媒體文件格式WMV、WAV、DAT、ASF、RM、AVI、WMA。這些媒體格式覆蓋了當今計算機多媒體音視頻文件的絕大部分格式，可以很好的滿足用戶對系統的需要。而對於其它系統所不支持的格式，則需要通過本系統提供的專用格式轉換軟體轉換為本系統所支持的格式。對於錄音筆等高壓縮錄音設備，也需要通過其專門的轉換軟體轉換後再錄入系統。系統所支持的視頻採集設備包括系統定製的視頻採集設備(視頻編碼器、攝像頭)，除此外，還支持DirectShow調用的視頻採集卡；支持DirectShow調用的攝像頭。採集的方案可以是一體化採集、獨立式採集的方案，也可以是傳統攝像機加AV/S端子視頻採集卡的方案。系統所支持的音頻採集設備包括系統定製的音效卡、麥克風。除此外，還支持DirectSound調用技術的音效卡麥克風輸入；支持DirectSound調用技術的音效卡Line in輸入。系統定製的視頻採集設備包括視頻編碼器、降噪器、音效卡和電源轉換器，統一集成在系統前置盒內。其輸入口為麥克風電平輸入埠，輸出口為線路電平輸出至音視頻語音信息處理計算機(即前端處理平臺)。
其中一體化採集解決方案採用DV (數碼攝像機)作為採集設備，使用1394採集卡或USB接口，同時進行視頻與音頻採集，是一種方便高效的方式。使用1394中繼器可以中繼信號，使信號放大延長信號傳輸距離，最大支持16級串聯，每一級根據使用信號線質量最遠可以達到20米傳輸距離，總計可達200米以上的傳輸距離。其中獨立式採集採用音效卡與網絡攝像頭相結合方式，使用網絡攝像頭與麥克風結合的輸入。在使用該方案的時候，採集用的計算機應配備雙音效卡，使用一個音效卡上的麥克作為現場採集用麥克，另一個音效卡上的麥克做為跟讀方式採集用麥克。選定其中任意一個音效卡做為聲音回放音效卡既可。而傳統攝像機加AV/S端子視頻採集卡方案使用傳統攝像機AV/S端子輸出至視頻採集卡方式，使用傳統攝像機做為音頻與視頻採集的載體，將採集到的音視頻信號通過AV/S端子接口傳入計算機進行處理、轉換與記錄。採集設備和前端處理平臺之間通過TCP/IP進行通訊。採集設備採集的音視頻數
據，每隔一定時間存儲一個片段文件，同時將保存好的片段音視頻文件傳輸給處理端，前端處理平臺接收完文件後開始對音頻文件處理，處理完後通知採集設備端，整個採集數據處理完成後合併成Iv完整文件。音視頻語音處理計算機(前端處理平臺)包括音視頻語音信息處理系統，參見附圖2，該系統包括音頻抽取模塊、音頻流採樣頻率轉換模塊、語音分節處理模塊、音視頻流編碼壓縮模塊、速記模式選擇與處理模塊、目標文件校對模塊以及目標文件後續處理模塊。其中音頻抽取模塊針對輸入的音視頻信息，抽取音視頻文件的語音信息，保留和視頻時序對應信息，視頻流保持原有樣式。音頻(語音)流採樣頻率轉換模塊進行音頻流採樣頻率轉換，對於不同的設備擁有不同的音頻採樣頻率與編碼速率，而後面的語音分節處理模塊所使用的採樣頻率與編碼速率是固定的(16KHZ，16bit)，所以需要中間進行相應轉換。語音分節處理模塊將語音信號分解為特定時間區間的語音音頻片斷，並保留和視頻時序對應信息。通過計算機自動與輔助手動調整切分點，使每一小節的分節處應為一句話的完結處或一句話的中間停頓處，每一小節大約在:Tio秒。當語音信息處理完畢生成相關文檔後，系統將相關文檔與音視頻語音文件打包，音視頻流編碼壓縮模塊將音視頻文件按照固定的編碼與壓縮格式進行壓縮以節省硬碟佔用空間，生成可供後端處理平臺使用但不可修改的相關文件。壓縮速度由所選擇的格式由計算機的運行速度決定。速記模式選擇與處理模塊進行三種模式的選擇和處理直接語音識別模式、人工跟讀語音識別模式以及人工鍵盤速記模式。(I)對於普通話水平比較好的麥克風人聲語音輸入信息，直接選用語音識別引擎進行文本化處理，即直接語音識別模式。語音識別引擎直接根據輸入語音信息將語音轉換成文字，並保存對應的時序關係。該識別模式下除原音頻文件所佔用的系統內存外，還需要佔用32KB/S的額外磁碟消耗，響應速度由計算機處理速度決定。(2)人工跟讀語音識別模式對於普通話水平不好的麥克風人聲語音輸入信息，通過語音速記人員複述後選用語音識別引擎進行文本化處理，即人工跟讀語音識別模式。人工跟讀的語音信息還作為處理平臺中進行校對需要的語音信息，同時被記錄在輸出的目標文件中。該識別模式下，系統除原有音頻文件佔用系統的內存外，還需要佔用64KB/S的額外磁碟空間來支持額外語音記錄的磁碟消耗。當為現場錄音速記，且輸入設備為麥克風時，此功能必需使用含有兩塊音效卡(含有兩個以上MIC輸入)的計算機完成，若計算機僅有一塊音效卡(僅有一個MIC輸入埠)無法使用此功能進行文本生成。(3)人工鍵盤速記模式對於音視頻語音輸入信息，工作人員也可以直接聽寫，通過鍵盤輸入方式人工轉換為文本信息。該模式下，記錄速度由工作人員鍵盤輸入速度決定，系統不佔用額外磁碟空間。經上述步驟處理完的文本(稱為目標文件)應保留和原音視頻時序對應信息，建立文字和原音視頻語音信息的關聯。目標文件存儲空間的佔用，根據音頻與視頻相關聯的解析度決定。目標文件校對模塊分別對目標文件進行基礎校對和全文校對，是對語音速記所生成文本文件再修訂的過程。校對過程僅生成純文本文件，不包含排版信息。基礎校對是以詞組或句子為基礎的校對，每次組合單個或幾個語音分節時所分的音節，將音節組合後播放，並相應顯示所轉換出的文字信息。校對時語音信息的重放採用定時與快捷鍵組合的方式，根據用戶設定的間隔時間自動重放語音信息，或者按照系統定義的特定快捷鍵重放語音信息。全文校對是以段落或全文為基礎的校對，每次組合基礎校對中的單個或幾個語音信息，將組合後的語音播放，並顯示相應的文本信息。經過基礎校對後的目標文件中每一句話，應保留和原音視頻時序對應信息，基礎校對結束後，音視頻與該段文字相對應的定位信息誤差在人的聽、視覺感覺不到的範圍以內。全文校對結束後，音視頻文件對每次校對內容的時間定位信息誤差在人的聽、視覺感覺不到的範圍以內。
目標文件後續處理模塊包括目標文件的編輯、排版、存儲與列印。對於與原音視頻語音信息相關聯並經過全文校對的目標文件應提供固定格式的排版編輯功能；也可依用戶需要，系統將文件導出啟動word，編輯人員對於經過全文校對的目標文件，進行全文編輯、排版和列印輸出，該模塊還可以將校對後的文檔、視頻和語音信息打包生成系統所支持格式的輸出文件，該目標文件可以被拷貝、傳輸，並可以被音視頻信息檢索系統打開、瀏覽、查詢與列印，但不能被修改。音視頻語音信息檢索計算機(後端檢索應用平臺)包括音視頻語音信息檢索系統，該系統包括目標文件處理模塊和檢索模塊(參見附圖3 )。其中目標文件處理模塊可以打開由音視頻語音信息處理系統最後所生成的電子集成文檔(即目標文件)，並可以對其中的音視頻語音與文字信息進行瀏覽。還可以根據需要將文字信息導出為純文本或富文本格式文件，並導入到其它文本編輯器中編輯列印。該模塊還可以將目標文件中的文本信息根據已有的排版格式列印輸出。其中檢索模塊在打開目標文件後，可以對目標文件進行檢索。用戶輸入期望的部分文本信息(一字、一句、一段文字)，系統自動查詢，並精確定位相應的音視頻信息。即通過對文字的檢索，可以檢索到與文字對應的聲音和圖像的定位信息，並且支持跨文件檢索。跨文件檢索由用戶選擇文件範圍，系統根據文件內的文字信息進行檢索工作。檢索速度由文檔長度決定，根據磁碟性能與處理速度，檢索響應速度在五萬字每秒以內。跨文件檢索時，文件間切換間隔在IOOms以內該模塊通過絕對匹配在文檔中檢索所要查詢的信息，當查詢結果為真時，返回文檔中所處的定位位置，並定位相應的語音視頻信息。計算機信息檢索過程實際上是將檢索提問詞與文獻記錄標引詞進行對比匹配的過程。為了提高檢索效率，計算機檢索系統常採用一些運算方法，從概念相關性、位置相關性等方面對檢索提問實行技術處理。檢索的方法包含以下幾種布爾邏輯檢索、位置檢索、截詞檢索、欄位限定檢索。本模塊採用近似於位置檢索的方式，是利用記錄中的自然語言進行檢索，詞與詞之間的邏輯關係用位置算符組配，是一種可以不依賴主題詞表而直接使用自由詞進行檢索的技術方法。本系統整體使用計算機作為信息採集與語音向文本轉換的工具。通過數模轉換採集語音與視頻信號，通過計算機語音識別與人工校對、編輯方式產生與語音、視頻信號相互
對應的電子集成文檔，以便於後續完成對音視頻語音信息及其文本的閱覽、檢索與列印等
一系列工作。該系統是計算機語音識別和計算機速記在更深層面的應用，同時也填補了我
國在音視頻語音精確定位與檢索領域的一項空白，這項技術的成功問世將是音視頻語音處
理及計算機速記領域的一場革命，具有良好它的市場前景，具有巨大的社會效益與經濟效.、/■
Mo
權利要求
1.ー種音視頻語音處理與檢索的系統，包括採集設備、音視頻信息處理計算機、音視頻語音信息檢索計算機，其特徵在於，所述系統通過安裝音視頻採集設備來即時記錄音視頻語音信息，並將所述信息提供給所述音視頻語音信息處理計算機進行處理，其處理結果傳遞給所述音視頻語音信息檢索計算機進行瀏覽、檢索和列印。
2.根據權利要求I所述的音視頻語音處理與檢索的系統，其特徵在於，所述採集設備採用音視頻語音採集設備或採用數碼攝像機、並使用1394採集卡或USB接ロ，同時進行視頻與語音音頻的採集。
3.根據權利要求I所述的音視頻語音處理與檢索的系統，其特徵在於，所述採集設備採用音效卡與網絡攝像頭相結合方式。
4.根據權利要求I所述的音視頻語音處理與檢索的系統，其特徵在於，所述採集設備將採集到的音視頻信號通過USB接ロ或AV/S端子接ロ傳入所述音視頻信息處理計算機進行處理。
5.根據權利要求I所述的音視頻語音處理與檢索的系統，其特徵在於，所述採集設備和所述音視頻信息處理計算機之間通過TCP/IP進行通訊。
6.根據權利要求I所述的音視頻語音處理與檢索的系統，其特徵在於，所述音視頻信息處理計算機的CPU為Intel雙核E6300 I. 68GHz或以上，內存2G或以上，硬碟80G或以上。
7.根據權利要求I所述的音視頻語音處理與檢索的系統，其特徵在於，所述音視頻信息檢索計算機的CPU為P42. 4或以上，RAM為IG或以上，硬碟為40G或以上。
全文摘要
本發明提供了一種音視頻語音處理與檢索的系統，包括採集設備、音視頻信息處理計算機、音視頻信息檢索計算機，所述系統通過安裝音視頻採集設備來即時記錄音視頻信息，並將所述信息提供給所述音視頻信息處理計算機進行處理。該發明的有益效果是能夠快速處理音視頻語音信息並將其轉換為文本，並能夠通過文本信息檢索原始對應的音視頻信息，達到音、視、文信息一體化。
文檔編號G06F17/30GK102663143SQ20121015752
公開日2012年9月12日申請日期2012年5月18日優先權日2012年5月18日
發明者徐信申請人:徐信

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種音視頻語音處理與檢索的系統和方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法