基於語音識別的智能應急指揮系統及其語音識別方法

2023-05-08 06:33:11 2

基於語音識別的智能應急指揮系統及其語音識別方法
【專利摘要】本發明涉及綜合應急管理【技術領域】，具體涉及一種基於語音識別的智能應急指揮系統及其語音識別方法。本發明保持現有系統功能前提下，加入語音識別系統；語音識別系統通過硬體採集系統的音頻數據，通過解析生成指令來實現與其他伺服器的信息交互，達到將語音指令轉換成數字指令，最後通過大屏展示出來。本發明解決了智能應急指揮系統的指揮信息說到即做到的問題；可以用於智能應急指揮系統中。
【專利說明】基於語音識別的智能應急指揮系統及其語音識別方法

【技術領域】
[0001]本發明涉及綜合應急管理【技術領域】，具體涉及一種基於語音識別的智能應急指揮系統及其語音識別方法。

【背景技術】
[0002]隨著社會的高速發展，現代城市事故及災害類型也隨著城市化發展而變化和增力口，成為危及城市安全及社會的隱患。而近來自然災害、公共衛生、生產安全、恐怖事件等應急事件頻繁出現更是迫使政府重視各類應急系統的建設，各種規模、各種行業的應急系統正在建設之中。城市綜合應急指揮系統就是其中一類重要的應急系統。在發達國家的許多城市中，城市綜合應急系統已經成為顯示基礎設施水平和城市管理水平的標誌性工程，並且在關鍵時刻發揮了重要作用。城市綜合應急系統建設在我國還處於初期階段，不同城市對系統的建設和運用各有特點。因此，對城市綜合應急系統設計、構成和建設技術的研究，具有重要意義，可以為將來大規模的城市綜合應急系統建設提供良好的思路和一定的參考作用。
[0003]目前應急指揮系統，都是採用領導說後臺人員操作的模式，這種模式即使要完成一次像樣的演練都需要相關人員進行至少三次的預演，熟悉自己角色的任務，由於整個應急系統非常龐大跨越交通、通訊、電力、水利、醫療、安防、傳媒等諸多領域，功能點多達2500個，所以至少需要4名有一定經驗的系統操作人員，並且經過至少三次的預演才能配合的比較理想。而實際應用中情況更加複雜，沒有像演練那樣的執行腳本按部就班，這樣後臺操作人員和領導需求就很難同步，難以達到理想效果，難以發揮現代應急指揮系統的優勢。

【發明內容】

[0004]本發明解決的技術問題之一在於提供一種基於語音識別的智能應急指揮系統，針對綜合應急模擬演練實際，對突發事件在模擬演練仿真情景中的指揮人員的實際應用進行深化設計；加入語音識別系統，無需操作人員直接參與；系統將自動切換到指揮人員想看到的頁面；實現說到即做到的智能綜合應急指揮系統，使其更加符合實際應用。
[0005]本發明解決的技術問題之二在於提供一種基於語音識別的智能應急指揮系統的語音識別方法，在現有系統中加入語音識別系統，無需操作人員直接參與；系統將自動切換到指揮人員想看到的頁面；實現說到即做到的智能綜合應急指揮系統，使其更加符合實際應用。
[0006]本發明解決上述技術問題之一的技術方案是:
[0007]所述的系統由基礎支撐平臺、綜合應用系統、資料庫系統、應急指揮場所、移動應急平臺構成；
[0008]所述的基礎支撐平臺為應急平臺的正常運行提供基礎保障，主要包括WEB伺服器、計算機網絡、電話伺服器、視頻監控伺服器、視頻會議伺服器、數字大屏矩陣伺服器、主機存儲、數據交換與共享、語音識別系統、錄音錄像伺服器及應急地理信息系統；所述的語音識別系統通過硬體採集系統的音頻數據，通過解析生成指令來實現與其他伺服器的信息交互，達到將語音指令轉換成數字指令，最後通過大屏展示出來；
[0009]所述的應急指揮場所由一系列獨立的視、音頻系統，以及對它們進行控制的集中控制系統和場所保障環境組成的安全的、智能化應急指揮環境；包括顯示系統、會議系統、擴聲系統、集中控制、智能燈光照明、綜合布線、供電系統等系統；從功能區域上，應急指揮場所可劃分為應急指揮廳、值班室、會商室等場所區域；總體上採用以集中控制為中心的網絡化多媒體指揮環境，通過綜合布線設連接指揮大廳、應急值班室、會商室等相關的指揮場所，通過對各種音視頻信號的集中交換與處理，並對投影、矩陣、功放等多媒體設備進行必要的集成，實現本地、遠程分散/集中的應急指揮應用對音視頻的需要，從而達到實現網絡化、一體化管理，智能化應急指揮環境的整體目標；
[0010]所述的綜合應用系統是應急平臺的核心和靈魂，提供強大的應急業務管理和應急智能決策能力，主要包括信息資源、應急預案、監測預警、值班值守、事件管理、研判決策、指揮調度、模擬演練、知識庫、系統設置等功能模塊；
[0011]所述的資料庫系統採用集中式和分布式兩種存儲方式，常用基礎數據和區縣、部門的部分關鍵數據存儲於應急平臺的中心資料庫中，其它數據分布式存儲於相關單位資料庫中；應急平臺中心資料庫主要包括基礎信息資料庫、空間信息資料庫、事件信息資料庫、預案庫、案例庫、模型庫、知識庫和文檔庫等
[0012]所述的移動應急平臺滿足現場應急通信、現場會商、指揮調度、移動辦公、現場圖像視頻採集等功能，主要通過衛星、公眾通信網等通信手段與相關應急平臺以及有關方面進行聯通。
[0013]所述基礎支撐平臺的WEB伺服器是應急平臺聯繫個模塊將結果展示出來的服務系統，是人機互動的接口，包括信息資源、應急預案、監測預警、值班值守、時間管理、研判決策、調度指揮、模擬演練、知識庫和系統管理；
[0014]計算機網絡主要用於內、外網應用系統的承載和數據交換的承載，主要包含相應的廣域網接入和區域網網絡設備；
[0015]視頻會議伺服器主要用於在重大突發公共事件發生時各級應急平臺之間的協調溝通，會議會商；主要由MCU、視頻會議終端、視頻會議伺服器等組成；
[0016]視頻監控伺服器主要用於接入個部門、包括公安、消防、三防辦、電信、林業局、水利局、公園等的攝像頭進行統一管理和隨時查看實時圖像；實時圖像數據依託有關部門現有圖像監控系統，採用數字方式，由各部門應急平臺負責將本系統的圖像轉換後上傳，主要由圖像接入伺服器、編解碼器等組成；
[0017]數字大屏屏矩陣伺服器主要用於將應急系統投放到指揮大廳，展示給所有參會人員；大屏可以自定義分割成若干部分，每部分顯示不同的內容；還包括大廳音箱系統；
[0018]主機存儲，實現應急平臺伺服器與存儲系統的完整配置，建立應急平臺各項業務應用系統的運行伺服器環境，建立應急平臺各類系統、各類數據的數據存儲與備份環境；主要包含各類應用和資料庫伺服器、磁碟陣列、光纖交換機、存儲管理軟體等設備；
[0019]數據交換與共享是應急平臺管理應急信息資源目錄、支撐應急信息資源共享交換的基礎系統；
[0020]錄音錄像伺服器用於存儲電話錄音文件的音頻文件和視頻監控的視頻文件，在應急系統中可以通過條件查詢、預覽和下載音頻和視頻文件；
[0021]應急地理信息系統提供對應急基礎數據的可視化表現，直觀地反映了突發事件周邊的地形地貌、保護目標和危險源以及救援隊伍的分布，便於領導在應急中掌握事發態勢，優化資源配置，制定救援方案。
[0022]所述的語音識別系統採用嵌入式語音的設備；由語音檢測模塊、特徵提取模塊、識別搜索模塊和語義分析模塊幾部分構成；
[0023]所述的語音識別模塊是對送入的原始語音數據進行預處理和檢測，將原始語音信號數據轉換成標準數據格式，並通過高效的語音信號檢測算法檢測到語音的起始點和中止佔.
[0024]特徵提取模塊接收語音識別模塊送入的語音數據流，提取得到語音信號的特徵矢量；在這個模塊中需要對語音信號進行預加重、分幀、加窗、頻域變換、倒譜變換、差分等處理；最終得到40維左右的特徵矢量；
[0025]識別搜索模塊接收特徵提取模塊送入的語音特徵矢量；對未知語音信號的特徵與引擎內含的聲學模型庫、字典/詞典和識別語法信息進行匹配得到最適合未知語音特徵的詞序列；可提供多個識別結果的候選供用戶進行選擇，方便設計靈活的人機界面；
[0026]語義分析模塊基於識別任務的語法信息通過對識別搜索模塊得到的詞序列結果進行語法、語義分析得到識別結果的語義信息。
[0027]本發明解決上述技術問題之二的技術方案是:
[0028]所述的方法是對輸入的原始語音流進行語音檢測，然後進行特徵提取；再結合特徵碼本進行量化編碼；量化編碼後的信號，結合聲學模型、字典詞典、識別語法進行識別搜索、語義分析；然後，輸入到系統相應部分。
[0029]所述的識別搜索包括:
[0030]A.識別語法
[0031]首先需要定義識別語法；識別語法包含了對於識別任務的描述；其中包含各種符合說話語法和任務場景的句子信息；
[0032]B.字典詞典
[0033]字典詞典包含了各種單字/單詞的發音信息，一個詞或者字的發音由音素組成；
[0034]C.聲學模型
[0035]聲學模型是語音識別引擎最核心的引擎資源文件，包含了對於語音信號頻譜和時間序列特徵的精確描述；
[0036]D.識別搜索
[0037]是在未知句子或者詞序列候選空間中搜索得到具有最佳匹配結果的候選句子；識別過程是:通過檢索字典/詞典可以將句子由詞序列分解成音素的序列；這種音素的序列與聲學模型相結合就得到更反映其本質屬性的聲學模型單元序列；然後，將原始語音的特徵矢量與所有可能的句子候選的聲學模型單元序列的信息相互匹配計算得到其匹配概率；從中挑選出具有最大後驗概率的聲學模型單元序列；通過該單元序列可以得到與之對應的詞序列；作為輸出結果。
[0038]所述的語義分析是:
[0039]A.應用程式啟動錄音程序開始錄音，同時應用程式會通過識別引擎API語音識別引擎申請一個識別資源；
[0040]B.識別引擎根據系統資源情況創建並分配一個空閒的識別句柄給該次任務；
[0041]C.應用程式獲得該識別會話控制權後；根據當前系統的任務通過API通知識別引擎加載相應語法；
[0042]D.應用程式通過API函數把錄取的語音數據發送給該會話；該會話根據系統的模型和加載的語法對送入的語音進行識別；
[0043]E.如果有識別結果；系統會通過回調函數來通知應用程式；應用程式此時可以通過引擎的API來獲取識別結果；
[0044]F.應用程式卸載加載的語法；
[0045]G.應用程式斷開該會話連接；
[0046]H.應用程式釋放會話；此時應用程式應該根據識別結果做相應的動作，如繼續播放提示音，提示用戶繼續提供信息或做其他的動作。
[0047]本發明的智能語音識別應急指揮系統是在傳統應急指揮系統基礎上保持原有系統功能不變，加入了新的功能伺服器實現語音識別的功能，將傳統應急指揮系統有人工操作變為能聽懂人講話的智能系統；無需操作人員直接參與系統將自動切換到指揮人員想看到的頁面，實現說到即做到的智能綜合應急指揮系統，使其更加符合實際應用。

【專利附圖】

【附圖說明】
[0048]下面結合附圖對本發明進一步說明:
[0049]圖1是本發明系統結構框圖；
[0050]圖2是本發明語音識別流程圖；
[0051]圖3是本發明語音聲學特徵壓縮後的流程圖。

【具體實施方式】
[0052]見圖1所示，本發明系統建設由基礎支撐平臺、資料庫系統、綜合應用系統、應急指揮場所、移動應急平臺構成，基礎支撐平臺為應急平臺的正常運行提供基礎保障，主要包括WEB伺服器、計算機網絡、電話伺服器、視頻監控伺服器、視頻會議伺服器、數字大屏矩陣伺服器、主機存儲、數據交換與共享、語音識別系統、錄音錄像伺服器及應急地理信息系統坐寸ο
[0053]WEB伺服器是應急平臺聯繫個模塊將結果展示出來的服務系統，是人機互動的接口，包括信息資源、應急預案、監測預警、值班值守、時間管理、研判決策、調度指揮、模擬演練、知識庫和系統管理。
[0054]計算機網絡主要用於內、外網應用系統的承載和數據交換的承載，主要包含相應的廣域網接入和區域網網絡設備。
[0055]視頻會議伺服器主要用於在重大突發公共事件發生時各級應急平臺之間的協調溝通，會議會商。主要由MCU、視頻會議終端、視頻會議伺服器等組成。
[0056]視頻監控伺服器主要用於接入個部門、包括公安、消防、三防辦、電信、林業局、水利局、公園等的攝像頭進行統一管理和隨時查看實時圖像。實時圖像數據依託有關部門現有圖像監控系統，採用數字方式，由各部門應急平臺負責將本系統的圖像轉換後上傳，圖像接入系統主要由圖像接入伺服器、編解碼器等組成。
[0057]數字大屏矩陣伺服器主要用於將應急系統投放到指揮大廳，展示給所有參會人員。大屏可以自定義分割成若干部分，每部分顯示不同的內容還包括大廳音箱系統。
[0058]主機存儲，實現應急平臺伺服器與存儲系統的完整配置，建立應急平臺各項業務應用系統的運行伺服器環境，建立應急平臺各類系統、各類數據的數據存儲與備份環境。主要包含各類應用和資料庫伺服器、磁碟陣列、光纖交換機、存儲管理軟體等設備。
[0059]數據交換與共享應急平臺管理應急信息資源目錄、支撐應急信息資源共享交換的基礎系統。
[0060]錄音錄像伺服器用於存儲電話錄音文件的音頻文件和視頻監控的視頻文件，在應急系統中可以通過條件查詢、預覽和下載音頻和視頻文件。
[0061]應急地理信息系統提供對應急基礎數據的可視化表現，直觀地反映了突發事件周邊的地形地貌、保護目標和危險源以及救援隊伍的分布，便於領導在應急中掌握事發態勢，優化資源配置，制定救援方案。
[0062]應急指揮場所是由一系列獨立的視、音頻系統，以及對它們進行控制的集中控制系統和場所保障環境組成的安全的、智能化應急指揮環境，包括顯示系統、會議系統、擴聲系統、集中控制、智能燈光照明、綜合布線、供電系統等系統。從功能區域上，應急指揮場所可劃分為應急指揮廳、值班室、會商室等場所區域。總體設計上採用以集中控制為中心的網絡化多媒體指揮環境的整體設計思想，通過綜合布線設連接指揮大廳、應急值班室、會商室等相關的指揮場所，通過對各種音視頻信號的集中交換與處理，並對投影、矩陣、功放等多媒體設備進行必要的集成，實現本地、遠程分散/集中的應急指揮應用對音視頻的需要，從而達到實現網絡化、一體化管理，智能化應急指揮環境的整體目標。
[0063]綜合應用系統是應急平臺的核心和靈魂，提供強大的應急業務管理和應急智能決策能力，主要包括信息資源、應急預案、監測預警、值班值守、事件管理、研判決策、指揮調度、模擬演練、知識庫、系統設置等功能模塊。
[0064]資料庫系統採用集中式和分布式兩種存儲方式，常用基礎數據和區縣、部門的部分關鍵數據存儲於應急平臺的中心資料庫中，其它數據分布式存儲於相關單位資料庫中。應急平臺中心資料庫主要包括基礎信息資料庫、空間信息資料庫、事件信息資料庫、預案庫、案例庫、模型庫、知識庫和文檔庫等。
[0065]移動應急平臺滿足現場應急通信、現場會商、指揮調度、移動辦公、現場圖像視頻採集等功能，主要通過衛星、公眾通信網等通信手段與相關應急平臺以及有關方面進行聯通。
[0066]目前國內和國際現有應急系統沒有語音識別功能，不能對語音做出任何反應。智能語音識別系統，是將語音識別做成一個功能子模塊(即語音識別伺服器)作為後臺服務，來響應指揮人員的語音命令。例如在一次應急指揮中指揮員對著話筒說:「顯示傷員救援情況！「，而傳統的應急指揮系統是後臺操作人員聽見領導說要看傷員的救援的視頻先打開視頻再將屏幕切換到大屏中央，智能語音識別應急指揮系統能聽懂指揮員說的話，在沒有任何後臺操作人員的參與下將人們醫院救援傷員的視頻自動顯示在大屏中央。
[0067]智能語音識別應急指揮系統是在傳統應急指揮系統基礎上那個保持原有系統功能不變，加入了新的功能伺服器實現語音識別的功能，將傳統應急指揮系統有人工操作變為能聽懂人講話的智能系統。
[0068]語音識系統是一個獨立的伺服器，通過硬體連接到指揮臺採集音頻數據，伺服器通過解析生成指令通過軟體編程來實現與其他伺服器的信息交互，達到將語音指令轉換成數字指令，最後通過大屏展示出來。
[0069]語音識別系統採用嵌入式語音的設備；由語音檢測模塊、特徵提取模塊、識別搜索模塊和語義分析模塊幾部分構成。
[0070]引擎採集的原始語音數據被送入語音檢測模塊，該模塊進行語音信號的預處理和檢測，將原始語音信號數據轉換成標準數據格式如:8k，16bit並通過高效的語音信號檢測算法，檢測到語音的起始點和中止點。
[0071]檢測後的語音數據流被送入特徵提取模塊，提取得到語音信號的特徵矢量流語音識別晶片引擎中採用MFCC(Mel_scale FreqUency CepStrum Coefficient)特徵。語音特徵是利用數位訊號處理技術從語音信號中提取最反應其本質屬性的信息。在這個模塊中需要對語音信號進行預加重、分幀、加窗、頻域變換、倒譜變換、差分等處理最終得到40維左右的特徵矢量。
[0072]語音特徵矢量被送入識別搜索模塊；在這個模塊中未知語音信號的特徵與引擎內含的聲學模型庫、字典/詞典和識別語法信息進行匹配得到最適合未知語音特徵的詞序列。這個模塊是識別引擎的核心。下面對該模塊進行具體的說明:
[0073]A.識別語法
[0074]用戶在開發一個語音識別系統時首先需要定義識別語法識別語法包含了對於識別任務的描述。簡單的說就是其中包含各種符合說話語法和任務場景的句子信息。
[0075]B.詞典
[0076]詞典包含了各種單字/單詞的發音信息一個詞或者字的發音由音素組成。
[0077]C.聲學模型
[0078]聲學模型是語音識別引擎最核心的引擎資源文件包含了對於語音信號頻譜和時間序列特徵的精確描述。華鎮電子識別引擎採用了 HMM(隱含馬爾科夫模型)聲學模型來描述語音信號這個模型是通過對大量說話人在不同場景的語音資料庫進行訓練得到的。
[0079]D.識別搜索
[0080]所謂搜索算法就是在未知句子或者詞序列候選空間中搜索得到具有最佳匹配結果的候選句子。這個過程可以簡單的描述如下:通過檢索字典/詞典可以將句子由詞序列分解成音素的序列。這種音素的序列與聲學模型相結合就得到更反映其本質屬性的聲學模型單元序列；如狀態序列信息。然後將原始語音的特徵矢量與所有可能的句子候選的聲學模型單元序列的信息相互匹配計算得到其匹配概率；從中挑選出具有最大後驗概率的聲學模型單元序列。通過該單元序列可以得到與之對應的詞序列；就是這個模塊的輸出結果。在這個過程中涉及到各種信息的綜合利用；計算量非常巨大。本發明方案對識別空間進行有效的裁剪使識別過程佔用的計算資源和內存資源大大降低；能夠快速有效地獲取精確的識別結果。
[0081]在語義分析模塊中，基於識別任務的語法信息通過對搜索模塊得到的詞序列結果進行語法、語義分析；得到識別結果的語義信息。識別引擎還能夠提供多個識別結果的候選供用戶進行選擇；方便設計靈活的人機界面。
[0082]應用程式通過調用語音識別引擎的一系列API函數來實現語音識別功能其基本過程如下:
[0083]1.應用程式啟動錄音程序開始錄音，同時應用程式會通過識別引擎API語音識別引擎申請一個識別資源。
[0084]2.識別引擎的會根據系統資源情況創建並分配一個空閒的識別句柄給該次任務。
[0085]3.應用程式獲得該識別會話控制權後根據當前系統的任務^SAPI通知識別引擎加載相應語法。
[0086]4.應用程式通過API函數把錄取的語音數據發送給該會話該會話會根據系統的模型和加載的語法對送入的語音進行識別。
[0087]5.如果有識別結果系統會通過回調函數來通知應用程式；應用程式此時可以通過引擎的API來獲取識別結果。
[0088]6.應用程式卸載加載的語法。
[0089]7.應用程式斷開該會話連接。
[0090]8.應用程式釋放會話。此時應用程式應該根據識別結果做相應的動作，如繼續播放提示音，提示用戶繼續提供信息或做其他的動作。
[0091]本系統採用的語音解決方案的語音識別引擎提供的應用模式是，通過識別引擎API直接訪問語音識別引擎。這種方法或者用於需要應用程式和識別引擎緊密結合或者是應用在已有軟體平臺中直接使用識別引擎的場合。MSR API包含兩部分語音檢測API和語音識別API。在使用MSR API時應用程式需要直接訪問語音檢測API和語音識別API ;並負責將語音檢測API檢測出的語音數據送給語音識別API進行語音識別。
[0092]語音識別系統中需要將語音輸入的時域聲波轉換成一種數位化的矢量特徵來描述區分不同的發音，我們稱之為語音特徵，基於該特徵對所有的發音建立一個聲音模型，這在語音識別領域我們通常稱之為聲學模型所有的語音識別系統都必須要有一個聲學模型，同時對於大詞表連續語音識別系統來說還需要一個語言模型在我們解決方案的語音識別引擎中語言模型為自定義的語法。語音識別的目的就是要在給定一串聲音特徵序列為輸入條件，利用聲學模型和語言模型採用搜索算法輸出識別結果字、詞或句子。換言之，語音識別系統就是要在巨大的句子或字、詞空間中找出與給定輸入特徵序列相匹配具有最大概率的句子或字、詞。在當今流行的語音識別系統中聲學模型都是用隱含馬爾可夫模型HMM來描述由於基於連續概率密度的HMM，CDHMM與基於離散概率密度的HMM相比更能精確地描述人的發音，因此在大多數的語音識別系統中聲學模型的建立都採用CDHMM。在CDHMM中在某一狀態下特徵矢量的概率分布函數是用多個高斯分布函數的加權和來描述，這樣能比較精確地描述特徵矢量空間分布。然而在大詞表連續語音識別系統中如果採用⑶HMM那麼在解碼，識別過程需要多次計算高斯概率這需要大量的計算量，通常在解碼過程中所需要的計算量都集中在高斯概率計算上，同時也需要大量的存儲量來存儲CDHMM的聲學模型。
[0093]我們的語音處理晶片的語音特徵及聲學模型壓縮方法後的流程如圖2、3所示，是對輸入的原始語音流進行語音檢測，然後進行特徵提取；再結合特徵碼本進行量化編碼；量化編碼後的信號，結合聲學模型、字典詞典、識別語法進行識別搜索、語義分析；然後，輸入到系統相應部分。
[0094]語音識別晶片接口
[0095]語音識別引擎需要用戶輸入的是:
[0096]識別詞表:在引擎初始化時輸入。
[0097]A.8K或16KHz採樣16Bits的線性PCM語音數據。
[0098]B.識別消息表示識別引擎的識別狀態。
[0099]C.識別結果。
[0100]識別弓I擎根據用戶輸入語音數據送出語音數據的識別結果。
[0101]識別引擎為一獨立線程與控制線程通過消息通信。
[0102]識別引擎消息:
[0103]MSR_EVENT_RESULT
[0104]正常識別，有識別結果時識別引擎發送出該消息。收到此消息後就可以獲取識別結果，可以顯示識別結果或執行識別結果規定的動作。
[0105]MSR_EVENT_SPEECHT00SH0RT
[0106]語音太短時識別引擎發送出該消息。語音太短的原因，通常是此段錄音為不正常的語音。
[0107]MSR_EVENT_NOSPEECH
[0108]識別引擎發送出該消息通常是引擎開始工作後用戶沒有說話識別引擎超時。
[0109]MSR_EVENT_STARTPOINTDETECTED
[0110]識別引擎檢測到語音起始點時送出此消息，程序在收到此消息時可以在圖形界面上提示用戶。
[0111]MSR_EVENT_ENDPOINTDETECTED
[0112]識別引擎檢測到語音終止點時送出此消息，程序在收到此消息時可以在圖形界面上提示用戶。
[0113]語音識別弓I擎性能指標
[0114]軟體響應時間< 1.2倍實時，在測試詞表不超過1000命令詞彙的情況下，實際應用環境中達到96%以上的識別精度。
【權利要求】
1.一種基於語音識別的智能應急指揮系統，其特徵在於:所述的系統由基礎支撐平臺、綜合應用系統、資料庫系統、應急指揮場所、移動應急平臺構成；所述的基礎支撐平臺為應急平臺的正常運行提供基礎保障，主要包括WEB伺服器、計算機網絡、電話伺服器、視頻監控伺服器、視頻會議伺服器、數字大屏矩陣伺服器、主機存儲、數據交換與共享、語音識別系統、錄音錄像伺服器及應急地理信息系統；所述的語音識別系統通過硬體採集系統的音頻數據，通過解析生成指令來實現與其他伺服器的信息交互，達到將語音指令轉換成數字指令，最後通過大屏展示出來；所述的應急指揮場所由一系列獨立的視、音頻系統，以及對它們進行控制的集中控制系統和場所保障環境組成的安全的、智能化應急指揮環境；包括顯示系統、會議系統、擴聲系統、集中控制、智能燈光照明、綜合布線、供電系統等系統；從功能區域上，應急指揮場所可劃分為應急指揮廳、值班室、會商室等場所區域；總體上採用以集中控制為中心的網絡化多媒體指揮環境，通過綜合布線設連接指揮大廳、應急值班室、會商室等相關的指揮場所，通過對各種音視頻信號的集中交換與處理，並對投影、矩陣、功放等多媒體設備進行必要的集成，實現本地、遠程分散/集中的應急指揮應用對音視頻的需要，從而達到實現網絡化、一體化管理，智能化應急指揮環境的整體目標；所述的綜合應用系統是應急平臺的核心和靈魂，提供強大的應急業務管理和應急智能決策能力，主要包括信息資源、應急預案、監測預警、值班值守、事件管理、研判決策、指揮調度、模擬演練、知識庫、系統設置等功能模塊；所述的資料庫系統採用集中式和分布式兩種存儲方式，常用基礎數據和區縣、部門的部分關鍵數據存儲於應急平臺的中心資料庫中，其它數據分布式存儲於相關單位資料庫中；應急平臺中心資料庫主要包括基礎信息資料庫、空間信息資料庫、事件信息資料庫、預案庫、案例庫、模型庫、知識庫和文檔庫等所述的移動應急平臺滿足現場應急通信、現場會商、指揮調度、移動辦公、現場圖像視頻採集等功能，主要通過衛星、公眾通信網等通信手段與相關應急平臺以及有關方面進行聯通。
2.根據權利要求1所述的基於語音識別的智能應急指揮系統，其特徵在於:所述基礎支撐平臺的WEB伺服器是應急平臺聯繫個模塊將結果展示出來的服務系統，是人機互動的接口，包括信息資源、應急預案、監測預警、值班值守、時間管理、研判決策、調度指揮、模擬演練、知識庫和系統管理；計算機網絡主要用於內、外網應用系統的承載和數據交換的承載，主要包含相應的廣域網接入和區域網網絡設備；視頻會議伺服器主要用於在重大突發公共事件發生時各級應急平臺之間的協調溝通，會議會商；主要由MCU、視頻會議終端、視頻會議伺服器等組成；視頻監控伺服器主要用於接入個部門、包括公安、消防、三防辦、電信、林業局、水利局、公園等的攝像頭進行統一管理和隨時查看實時圖像；實時圖像數據依託有關部門現有圖像監控系統，採用數字方式，由各部門應急平臺負責將本系統的圖像轉換後上傳，主要由圖像接入伺服器、編解碼器等組成；數字大屏屏矩陣伺服器主要用於將應急系統投放到指揮大廳，展示給所有參會人員；大屏可以自定義分割成若干部分，每部分顯示不同的內容；還包括大廳音箱系統；主機存儲，實現應急平臺伺服器與存儲系統的完整配置，建立應急平臺各項業務應用系統的運行伺服器環境，建立應急平臺各類系統、各類數據的數據存儲與備份環境；主要包含各類應用和資料庫伺服器、磁碟陣列、光纖交換機、存儲管理軟體等設備；數據交換與共享是應急平臺管理應急信息資源目錄、支撐應急信息資源共享交換的基礎系統；錄音錄像伺服器用於存儲電話錄音文件的音頻文件和視頻監控的視頻文件，在應急系統中可以通過條件查詢、預覽和下載音頻和視頻文件；應急地理信息系統提供對應急基礎數據的可視化表現，直觀地反映了突發事件周邊的地形地貌、保護目標和危險源以及救援隊伍的分布，便於領導在應急中掌握事發態勢，優化資源配置，制定救援方案。
3.根據權利要求1所述的基於語音識別的智能應急指揮系統，其特徵在於:所述的語音識別系統採用嵌入式語音的設備；由語音檢測模塊、特徵提取模塊、識別搜索模塊和語義分析模塊幾部分構成；所述的語音識別模塊是對送入的原始語音數據進行預處理和檢測，將原始語音信號數據轉換成標準數據格式，並通過高效的語音信號檢測算法檢測到語音的起始點和中止點；特徵提取模塊接收語音識別模塊送入的語音數據流，提取得到語音信號的特徵矢量；在這個模塊中需要對語音信號進行預加重、分幀、加窗、頻域變換、倒譜變換、差分等處理；最終得到40維左右的特徵矢量；識別搜索模塊接收特徵提取模塊送入的語音特徵矢量；對未知語音信號的特徵與引擎內含的聲學模型庫、字典/詞典和識別語法信息進行匹配得到最適合未知語音特徵的詞序列；可提供多個識別結果的候選供用戶進行選擇，方便設計靈活的人機界面；語義分析模塊基於識別任務的語法信息通過對識別搜索模塊得到的詞序列結果進行語法、語義分析得到識別結果的語義信息。
4.根據權利要求2所述的基於語音識別的智能應急指揮系統，其特徵在於:所述的語音識別系統採用嵌入式語音的設備；由語音檢測模塊、特徵提取模塊、識別搜索模塊和語義分析模塊幾部分構成；所述的語音識別模塊是對送入的原始語音數據進行預處理和檢測，將原始語音信號數據轉換成標準數據格式，並通過高效的語音信號檢測算法檢測到語音的起始點和中止點；特徵提取模塊接收語音識別模塊送入的語音數據流，提取得到語音信號的特徵矢量；在這個模塊中需要對語音信號進行預加重、分幀、加窗、頻域變換、倒譜變換、差分等處理；最終得到40維左右的特徵矢量；識別搜索模塊接收特徵提取模塊送入的語音特徵矢量；對未知語音信號的特徵與引擎內含的聲學模型庫、字典/詞典和識別語法信息進行匹配得到最適合未知語音特徵的詞序列；可提供多個識別結果的候選供用戶進行選擇，方便設計靈活的人機界面；語義分析模塊基於識別任務的語法信息通過對識別搜索模塊得到的詞序列結果進行語法、語義分析得到識別結果的語義信息。
5.一種權利要求1至4任一項所述的基於語音識別的智能應急指揮系統的語音識別方法，其特徵在於:所述的方法是對輸入的原始語音流進行語音檢測，然後進行特徵提取；再結合特徵碼本進行量化編碼；量化編碼後的信號，結合聲學模型、字典詞典、識別語法進行識別搜索、語義分析；然後，輸入到系統相應部分。
6.根據權利要求5所述的基於語音識別的智能應急指揮系統的語音識別方法，其特徵在於:所述的識別搜索包括: A.識別語法首先需要定義識別語法；識別語法包含了對於識別任務的描述；其中包含各種符合說話語法和任務場景的句子信息； B.字典詞典字典詞典包含了各種單字/單詞的發音信息，一個詞或者字的發音由音素組成； C.聲學模型聲學模型是語音識別引擎最核心的引擎資源文件，包含了對於語音信號頻譜和時間序列特徵的精確描述； D.識別搜索是在未知句子或者詞序列候選空間中搜索得到具有最佳匹配結果的候選句子；識別過程是:通過檢索字典/詞典可以將句子由詞序列分解成音素的序列；這種音素的序列與聲學模型相結合就得到更反映其本質屬性的聲學模型單元序列；然後，將原始語音的特徵矢量與所有可能的句子候選的聲學模型單元序列的信息相互匹配計算得到其匹配概率；從中挑選出具有最大後驗概率的聲學模型單元序列；通過該單元序列可以得到與之對應的詞序列；作為輸出結果。
7.根據權利要求5所述的基於語音識別的智能應急指揮系統的語音識別方法，其特徵在於:所述的語義分析是: A.應用程式啟動錄音程序開始錄音，同時應用程式會通過識別引擎API語音識別引擎申請一個識別資源； B.識別引擎根據系統資源情況創建並分配一個空閒的識別句柄給該次任務； C.應用程式獲得該識別會話控制權後；根據當前系統的任務通過API通知識別引擎加載相應語法； D.應用程式通過API函數把錄取的語音數據發送給該會話；該會話根據系統的模型和加載的語法對送入的語音進行識別； E.如果有識別結果；系統會通過回調函數來通知應用程式；應用程式此時可以通過引擎的API來獲取識別結果； F.應用程式卸載加載的語法； G.應用程式斷開該會話連接； H.應用程式釋放會話；此時應用程式應該根據識別結果做相應的動作，如繼續播放提示音，提示用戶繼續提供信息或做其他的動作。
8.根據權利要求6所述的基於語音識別的智能應急指揮系統的語音識別方法，其特徵在於:所述的語義分析是: A.應用程式啟動錄音程序開始錄音，同時應用程式會通過識別引擎API語音識別引擎申請一個識別資源； B.識別引擎根據系統資源情況創建並分配一個空閒的識別句柄給該次任務； C.應用程式獲得該識別會話控制權後；根據當前系統的任務通過API通知識別引擎加載相應語法； D.應用程式通過API函數把錄取的語音數據發送給該會話；該會話根據系統的模型和加載的語法對送入的語音進行識別； E.如果有識別結果；系統會通過回調函數來通知應用程式；應用程式此時可以通過引擎的API來獲取識別結果； F.應用程式卸載加載的語法； G.應用程式斷開該會話連接； H.應用程式釋放會話；此時應用程式應該根據識別結果做相應的動作，如繼續播放提示音，提示用戶繼續提供信息或做其他的動作。
【文檔編號】H04L29/08GK104392721SQ201410720018
【公開日】2015年3月4日申請日期:2014年11月28日優先權日:2014年11月28日
【發明者】賀忠堂, 陳才平, 李智勇, 呂維安, 李新安申請人:東莞中國科學院雲計算產業技術創新與育成中心

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於語音識別的智能應急指揮系統及其語音識別方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法