一種自動調節的咽腔電子喉語音通訊系統及方法
2023-05-30 20:45:31 2
專利名稱:一種自動調節的咽腔電子喉語音通訊系統及方法
技術領域:
本發明屬於病變語音重建及語音通訊技術領域,特別涉及一種可 以自動調節的咽腔電子喉語音通訊系統及方法。
背景技術:
我國每年都有大量患者因喉切除而失去發聲能力,而現有技術中 的電子喉以其適用範圍廣、操作簡單、可長時間發聲且易於理解而被 廣泛使用。但是目前的電子喉語音不自然,使用起來不方便,而且帶 有很大成分的輻射背景噪聲和環境噪聲,嚴重影響了語音的理解和悅 耳程度。
目前國內外使用的電子喉主要是頸外式,工作原理是波形發生器 提供聲門嗓音源波形,用以驅動換能器振動,但是使用時電子喉的施 加位置並非在聲門處,而是頸部兩側咽腔部位,這使得聲門與咽腔之 間的聲道作用被忽略而造成重建語音的失真,影響了電子喉語音的使 用。
如何改善電子喉語音,滿足嗓音源頻率和按語音和語言需要自動 調節的要求,是近些年國內外學者研究的熱點。目前有運用指頭施加 在壓阻組件上的壓力來實現對電子喉的振蕩頻率的調節,也有通過控 制呼氣量和聲帶緊張程度來調節語音的頻率和強度的電子喉,還有美
國哈佛大學的E.A.Goldstein等於2004年研究提出用頸前肌電信號特 徵來控制電子喉開關的方法,取得了較好的結果。然而這幾種方法都 存在使用困難、訓練方法複雜、成本高的缺點。
7及,電子喉的發展也需要滿足 網絡化的需求,而目前專門適合於網絡通訊的電子喉還沒有相關報 導。
發明內容
針對上述現有技術電子喉的應用中存在的使用困難、訓練方法復 雜、成本高的缺點,本發明提供一種可自動調節的咽腔電子喉語音通 訊系統及方法,該系統以計算機硬體系統為主,通過軟體開發實現了 基於面部和頸部運動特徵自動調節的咽腔嗓音源合成,電子喉無需手 持,使用便捷,同時集成了咽腔電子喉重建語音的增強處理功能,並 通過網際網路技術實現了電子喉語音的網絡實時通訊,進一步拓展了電 子喉的功能。
一種自動調節的咽腔電子喉語音通訊系統,包括麥克風、攝像頭, 電子喉振蕩器,音視頻採集模塊與計算機軟硬體系統,攝像頭和麥克 風固定於麥克風支架上,耳機下方設置有固定帶,電子喉振蕩器設置 於固定帶上,該系統還包括下述三個主要模塊
1) 發聲過程中面部和頸部運動圖像採集與處理模塊,實現從運 動圖像的分析到視覺語音特徵參數的提取;
2) 咽腔嗓音源動態合成模塊,將提取的視覺語音特徵參數轉換 為嗓音源合成模型參數,並按照咽腔嗓音源數學模型合成波形;
3) 咽腔電子喉重建語音實時增強與網絡通訊模塊,對採集的咽 腔電子喉重建語音進行實時增強處理,並將處理後的語音進行遠程網 絡傳輸,實現網絡通訊功能;
攝像頭通過數據連接線將採集到的運動圖像作為輸入信號傳輸 給運動圖像處理模塊進行視覺語音特徵參數提取;運動圖像處理後輸
8出的視覺語音特徵參數,又作為輸入信號進入咽腔嗓音源合成模塊控 制波形的合成;合成的咽腔嗓音源波形再次通過數據線輸出給電子喉 振蕩器,施加於頸部咽腔處;重建的咽腔電子喉語音經麥克風設備採 集後,通過數據線輸入語音增強模塊,同時該模塊也接收控制信號的 輸入;通訊模塊的輸入則包括攝像頭採集的視頻信號與增強後輸出的 語音信號兩部分,最終經過網絡輸出到另一個客戶端,同時另一個客 戶端發出的音視頻信號也是在通訊模塊接收並播放。
由電子喉施加裝置向計算機傳輸音視頻信號進行處理,計算機提 取的電子喉開關信號與合成的咽腔嗓音源信號傳輸給電子喉施加裝 置,電子喉施加裝置工作所需的電能由計算機提供。
一種自動調節的咽腔電子喉語音通訊的方法,音視頻採集模塊同 時開始工作,利用視頻採集模塊攝像頭獲取發聲過程中使用者面部和 頸部的運動圖像作為系統輸入,圖像處理模塊對輸入圖像進行預處 理,去除幹擾信號,再通過目標區域定位、分割、特徵參數提取,以 及特徵區域運動的跟蹤,得到與發聲特徵相關的視覺語音特徵參數, 再經自動控制合成系統通過關係轉換由視覺語音參數推導出咽腔嗓 音源合成所需的模型參數和開關信號,控制咽腔嗓音源波形合成以及 施加裝置的振動;與此同時,音頻採集模塊麥克風記錄下咽腔電子喉 重建語音信號,結合開關控制信號和咽腔嗓音源合成信息,指導洩露 周期噪聲和環境噪聲的估計,以及譜減參數的調整,並對有音幀進行 譜減語音增強處理,最終將得到的視頻圖像和增強的音頻信號整合 後,由網絡系統模塊完成發送、接受和本地播放,實現遠程通訊。
本發明的系統與方法,通過提取使用者面部和頸部運動圖像的視 覺語音特徵信息,實現了對電子喉工作狀態及咽腔嗓音源合成的自動控制,使用時無需手持,更加簡單便捷,解決了合成嗓音源與電子喉 施加部位不一致和電子喉語音不自然的問題,同時對咽腔電子喉重建 語音進行動態去噪增強處理,提高了重建語音的質量與可懂度,並通 過網絡傳輸技術實現了電子喉語音的遠程實時通訊,拓展了電子喉的 應用範圍,改善了喉切除患者的生活質量
圖1為本發明咽腔電子喉語音合成與通訊系統的結構示意圖。
圖2為本發明運動圖像處理程序流程圖。 圖3為本發明連續語音波形圖。
圖4為與圖3連續語音對應的嘴唇特徵曲線(實線)、閾值(點 線)和開關信號(虛線)的對比圖。
圖5為本發明咽腔嗓音源合成流程圖。
圖6為本發明電子喉施加裝置外觀圖,其中標號分別表示耳機 1;電子喉振蕩器2;攝像機和麥克風3;連接線4,固定帶5。
圖7為本發明咽腔電子喉語音增強過程流程圖。
具體實施例方式
以下結合附圖對本發明做進一步的詳細描述。
本發明以計算機硬體系統為主,利用麥克風、攝像頭等音視頻採 集模塊對發聲過程中使用者面部和頸部的運動圖像和咽腔電子喉重 建語音進行實時採集,通過電腦程式設計實現視覺語音特徵參數提 取、咽腔嗓音源合成等各種功能的系統軟體,完成對咽腔電子喉嗓音 源波形的自動控制合成,再由振蕩器施加於頸部咽腔處輸出振動,重 建語音採集後經過語音增強處理,最終由網絡通訊模塊實現遠程通訊 的功能。
10整個系統實現的結構圖可參看圖1,圖像採集模塊通過圖像處理 模塊與自動控制模塊相連接,同時圖像採集模塊通過通訊模塊與外部 網絡雙相連通;語音採集模塊,語音增強模塊通過通訊模塊與外部網 絡相雙向相連接;自動控制模塊通過嗓音源合成模塊與電子喉施加裝 置相連接。系統啟動後,音視頻採集模塊同時開始工作,利用視頻採 集模塊攝像頭獲取發聲過程中使用者面部和頸部的運動圖像作為系 統輸入,圖像處理模塊對輸入圖像進行預處理,去除幹擾信號,再通 過目標區域定位、分割、特徵參數提取,以及特徵區域運動的跟蹤, 得到與發聲特徵相關的視覺語音特徵參數,再經自動控制合成系統通 過關係轉換由視覺語音參數推導出咽腔嗓音源合成所需的模型參數 和開關信號,控制咽腔嗓音源波形合成以及施加裝置的振動;與此同 時,音頻採集模塊麥克風記錄下咽腔電子喉重建語音信號,結合開關 控制信號和咽腔嗓音源合成信息,指導洩露周期噪聲和環境噪聲的估 計,以及譜減參數的調整,並對有音幀進行譜減語音增強處理,最終 將得到的視頻圖像和增強的音頻信號整合後,由網絡系統模塊完成發 送、接受和本地播放,實現遠程通訊。
本發明的第一模塊由面部和頸部運動圖像採集與處理模塊組成。 該模塊從視覺語音特徵出發,利用攝像頭採集發聲過程中面部和頸部 的運動圖像,並以視頻信號作為系統輸入,通過預處理、目標區域檢 測與定位、特徵區域分割與跟蹤,提取得到反映發聲特點的唇部和頸 部視覺語音特徵參數,包括嘴唇張開閉合程度、頸部運動信號,並以 此作為輸出用於指導咽腔嗓音源的合成,實現對電子喉語音的實時自 動調節。
本發明的第二模塊由自動控制模塊與可動態調節的咽腔嗓音源合成模塊及電子喉施加裝置組成。該模塊以提取到的唇部和頸部視覺 語音特徵參數作為輸入,通過視覺特徵與發聲特徵之間的對應關係, 變換得到相應的咽腔嗓音源模型參數,其中包括控制電子喉合成的開 關信號,嗓音源基頻變化參數,以及聲門上聲道形狀參數,這些參數 將根據源-濾波器模型動態合成咽腔嗓音源波形,最終通過咽腔電子 喉外設振蕩器輸出,並施加於頸部咽腔部位。針對施加部位與合成嗓 音源不一致的問題,該模塊在合成嗓音源時考慮了聲門上至咽腔段聲 道的調製作用,提供了與施加部位相符合的咽腔嗓音源波形。
本發明的第三模塊由語音採集模塊,咽腔電子喉重建語音的實時 增強與通訊模塊組成。語音增強以可調參數譜減法為基礎,利用嗓音 源合成信息作為參考指導電子喉輻射背景噪聲的估計,根據咽腔電子 喉語音的背景噪聲特點,動態選擇合適的譜減係數,再結合電子喉 開關控制信號,針對性的選擇發聲語音進行增強處理,而無音幀則靜 音輸出,同時對背景噪聲更新估計;網絡通訊基於傳輸控制協議
(TCP),客戶端計算器具有發送音視頻信號、接收音視頻信號以及本
地播放音視頻信號三個工作單元,最終實現了電子喉語音的視頻通訊。
本發明系統軟體部分採用流媒體開發技術,整個軟體設計分為用
戶接口、控制邏輯、數據分離的三層結構;模塊化設計,使各功能模 塊相互獨立,耦合性小。
圖像處理部分的實現流程可見圖2,對於輸入的每一幀視頻圖像, 首先要經過預處理,以消除背景噪聲、緩慢運動(包括呼吸、吞咽等 動作)和光照等各種幹擾噪聲的影響。經過處理的圖像採用基於膚色 的人臉檢測方法,選取不同色彩空間的膚色濾波器,得到唇部、面部和頸部的膚色空間圖像。在不同膚色空間,利用改進的最大類間方差 (OtSU)法求取最佳閾值,得到唇部、面部和頸部的預分割圖像。預 分割的圖像中會由於光照、膚色等影響參雜有較小且分散的幹擾塊, 採用閾值面積消去法,消除較小的幹擾塊而保留較大的目標區域。對 於不同的特徵部位,分別提取不同的特徵參數,得到不同的控制信號。 對於面部圖像的處理主要是利用嘴唇形狀特徵反應發聲起止的 變化提取電子喉開關信號。具體步驟如下-
1) 初始化參數,採集一幀視頻圖像;
2) 利用唇色濾波器計算規定矩形範圍的唇色特徵值,並歸一化 為0-255灰度級,得到唇色特徵值圖像。如果存在前一幀,利用前一 幀唇部區域範圍和膚色平均特徵值,指導這一幀計算;
3) 利用改進的最大類間方差(Otsu)法計算最佳分割閾值,以 此進行圖像二值化分割,得到唇部預分割圖像。如果存在前一幀,利 用前一幀分割閾值指導這一幀分割閾值的計算;
4) 對嘴唇預分割圖像進行閾值面積消去處理,消除較小的圖像 噪聲和背景幹擾塊;
5) 對嘴唇區域進行輪廓和中心點提取,利用改進的一維哈夫 (Hough)變換檢測得到匹配嘴唇的橢圓模型參數,主要為長短軸,
同時得到嘴唇區域範圍,用於指導下一幀唇色特徵值計算。如果存在 前一幀,利用前一幀的長短軸指導這一幀的橢圓匹配;
6) 以長短軸之比作為嘴形判別,通過與閾值比較,得到開關電 平信號,輸出作為電子喉開關控制信號。
對於頸部圖像的處理主要是利用喉上頸部區域的運動信號來提 取嗓音源基頻、幅度變化控制信號。具體步驟如下
131) 初始化參數,採集一幀視頻圖像;
2) 利用膚色濾波器計算規定矩形範圍的膚色特徵值,並歸一化 為0-255灰度級,得到唇色特徵值圖像。如果存在前一幀,利用前一 幀喉上頸部區域範圍,指導這一幀計算範圍;
3) 利用最大類間方差(Otsu)法計算最佳分割閾值,並進行圖 像二值化分割,得到面部和頸部膚色區域圖像。如果存在前一幀,利 用前一幀分割閾值指導這一幀分割閾值的計算;
4) 對分割圖像進行閾值面積消去處理,消除較小的圖像噪聲和 背景幹擾塊;
5) 參考嘴唇下邊緣信息,分割得到從嘴唇下開始到圖像中膚色 區域的最下端之間的喉頸部目標區域,保存範圍用於指導下一幀膚色 特徵值計算;
6) 利用Lucas-Kanada微分法計算喉下頸部區域的光流場,得到 反應運動特徵的速度分量信息;
7) 對光流場進行聚類分析,計算其與平均得到的各聚類中心距 離,以此判斷頻率、幅度變化,得到頻率、幅度變化係數,並輸入作 為咽腔嗓音源合成參數。
本系統採用了基於膚色的人臉檢測方法,利用膚色的聚類性,在 YUV色彩空間計算唇色特徵值和膚色特徵值來增強目標區域與背景 的區分度。
目標得到增強後進入分割環節,本系統採用改進的最大類間方差 (Otsu)法選取最佳分割閾值。為了使其適合唇色和膚色分割,並且 提高執行效率,該系統中做了如下改進
1)最大類間方差(Otsu)法的求解並不依靠灰度值或RGB彩色圖像的某一色彩分量,而是對每個像素的唇色和膚色特徵值歸一化到
灰度級0~255,並在此灰度圖上利用最大類間方差(Otsu)法求最佳
閾值T;
2)基於時間的連貫性和閾值變化的連續性,以此藉助上一幀圖 像的最佳分割閾值,並在其鄰域內搜索本幀圖像的最佳分割閾值,不 僅滿足分割要求,而且提高執行速度。
採用面積閾值消去法進行降噪,去除噪聲和幹擾塊,保留目標區 域。面積閾值的大小,設置為跟蹤面積矩形框大小的五十分之一。
圖像去噪後即為準確的唇部和頸部目標區域,己經滿足特徵參數
提取算法的要求。參數的提取針對不同的部位特徵採用不同的方法 唇部區域主要利用嘴形特徵,故採用橢圓檢測的方法;頸部區域主要
利用運動特徵,故採用光流法提取速度信息。
對於一般的橢圓,需要5個參數來確定中心坐標、長短軸、長
軸與x軸夾角,本發明只利用嘴唇的外輪廓形狀信息,同時出於實
時性要求的考慮,假設橢圓長軸與x軸成o度角,而且橢圓中心坐
標可由嘴唇外輪廓點計算平均近似得到,剩下長半軸《和短半軸6兩
個參數,利用一維哈夫(Hough)變換獲得最佳參數,在滿足要求的
前提下大大提高了效率。
根據提取的橢圓形狀參數,本發明選擇短半軸與長半軸的比值
6/。作為判斷指標,如圖3為本發明連續語音波形圖、圖4為與圖3 連續語音對應的嘴唇特徵曲線(實線)、閾值(點線)和開關信號(虛 線)的對比圖,可見利用6/"值具有很好的形狀不變性,可以克服由 於採集距離造成圖像中嘴唇面積大小改變而產生的判斷錯誤,準確反 映嘴形的變化情況,用它得到的判斷信號與語音波形具有很好的吻合度,判斷準確率較高。對於連續發音時,採用延時方式,去掉字詞間隔帶來的關信號,使得過程中保持開信號,當出現長時間停頓時,就會出現關信號,符合電子喉使用習慣。
本發明採用微分法中的Lucas-Kanada法提取頸部的微小運動信息。以目標像素為中心選取合適鄰域,在整個鄰域內利用Lucas-Kanada方程計算得到該像素點的光流,並以同樣的方法計算整個圖像就能得到整個圖像的光流場。
頸部圖像的運動中包含有頻率變化的信息,通過實驗統計,將光流變化按照頻率變化進行聚類分析,得到兩個典型聚類,即頻率升高聚類和頻率降低聚類。將每一幀圖像提取的光流場信息與聚類模板進行距離判斷,當距離小於一定範圍時,認定為升高或降低,否則認為頻率不變,以此作為頻率變化參數輸出。
對於一個完整的視頻信號包括空域和時域兩部分信息,分別對應幀內和幀間信息。基於說話時面部和頸部變化是緩慢連續的假設,本發明的圖像處理中採用了時空域聯合的實時跟蹤控制方法,即通過上一幀圖像分割區域信息指導本幀目標區域的分割,很好的利用了幀內和幀間信息,不僅彌補了靜態圖像分割不精確的問題,而且提高了分割速度。
本發明的系統中跟蹤控制方法主要體現在以下幾方面
1) 特徵區域檢測時,利用前一幀得到的唇部、頸部目標區域範圍,指導設定本幀檢測的範圍,這樣縮小了處理的圖片大小,同時去除部分背景幹擾,使後續處理的效果更好。
2) 最大類間方差(Otsu)法求解分割閾值時,利用前一幀的最佳閾值,縮小本幀圖像閾值搜索範圍,可以減少計算量,而且能避免
16得到局部最優的分割閾值,以及出現兩幀間閾值突變的錯誤,保證閾值曲線的平穩性。
3) —維哈夫(Hough)變換橢圓檢測時,利用上一幀的短半軸6值縮小本幀6值的搜索範圍,保證跟蹤的連貫性,防止哈夫(Hough)變換本身出現躍變的情況,同時,設置校正判斷機制,如果6/ 值不符合嘴形的正常比例範圍,則捨棄這一次的結果,保持上一幀的結果。
本發明圖像處理部分,在滿足實時性的前提下,從視頻信號中成功的提取了各種語音合成參數控制信號,並作為控制信號自動調節咽腔嗓音源的合成,以及輔助重建語音的增強處理。
咽腔嗓音源的自動控制合成,以咽腔嗓音源模型為指導,利用從運動圖像中提取的視覺語音特徵參數自動調節咽腔嗓音源模型的合成參數,從而達到自動控制合成咽腔嗓音源波形的目的,最終通過電子喉施加裝置按合成波形輸出振動。
本發明中咽腔嗓音源波形合成採用源-濾波器模型。如圖5所示,
首先利用聲門嗓音源的參數模型,根據採集系統參數、提取的開關十
'、,
號和模型參數信號、以及用戶參數,調整並設定各模型參數值,按照數學模型合成聲門嗓音源波形。其次,利用均勻面積的單管模型,根據控制信號調整聲道模型參數,合成聲門上聲道的頻率響應函數,並對聲門嗓音源波形進行調製,最終合成咽腔嗓音源模型。
聲門嗓音源的合成採用分段參數模型,具體數學表示如下
formula see original document page 17
其中,^p為聲門上阻尼振蕩係數,"為閉合相幅度衰減係數,均根據實驗設定;巧、"2、巧為嗓音源單周期波形的形狀參數,分別表
示開放相上升段、開放相下降段和閉合相長度,其比例根據發聲模式
設定,iV為周期長度,即iV-A+"2+"3; ^為幅度控制,義為聲門上聲道第一共振峰頻率^與基頻/。的比值,這三個值都根據提取的控制信號動態調整。
由於聲門到咽部的聲門上聲道長度較短,故可近似為均勻面積的單管模型,其頻率響應函數和共振峰頻率為
w)=—^—
cos(2;r / c)F =(2"-1)^ = (2" —l)巧("=1,2,3 )
其中,/為聲道長度,可由控制參數在較小範圍內動態調整,其變化會根據上式影響聲門上第一共振峰,同時調整嗓音源合成參數義的值。
本發明中基頻/。、幅度」和聲道長度/等模型參數的動態調整,都是根據前一幀的值作為基準,根據控制信號做出適當調整。對於第一幀則由初值設定,其中基頻/。初值根據使用者性別按照平均基頻進行設定,幅度^也可由使用者根據效果設定,聲道長度/則根據實驗結果平均值設定。最終,咽腔嗓音源波形由聲門嗓音源波形經聲門上聲道調製後得到。
合成的咽腔嗓音源波形通過電子喉施加裝置振動輸出,並施加於頸下咽腔部位,其外觀設計如圖6所示。整個結構設計與耳機形狀相似,攝像頭和麥克風固定於麥克風支架上,耳機下方設置有固定帶,將電子喉振蕩器置於其上,全部設備通過框架整合在一起,使用時可固定於需要位置,無須手持。其中,電子喉振蕩器的位置可在連接帶上進行調整,以滿足不同使用者的需要。整個電子喉施加裝置須通過標準通用串行總線(USB)接口與計算機系統連接進行信號傳輸,主要包括以下三方面第一,由電子喉施加裝置向計算機傳輸音視頻信號進行處理;第二,計算機提取的電子喉開關信號與合成的咽腔嗓音源信號傳輸給電子喉施加裝置;第三,電子喉施加裝置工作所需的電能由計算機提供。
本發明對於咽腔電子喉重建語音增強的具體流程可參看圖7,該方法以可調參數的譜減法為基礎,利用開關信號判斷有無電子喉語音,若為無音幀則靜音輸出,同時更新環境噪聲,若為有音幀則利用可調參數功率譜減進行增強處理,以消除語音中所帶有的洩露周期噪聲和環境噪聲,提高語音信噪比和主觀可懂度、悅耳度。
咽腔電子喉語音增強方法基於周期性背景噪聲、環境噪聲和重建語音都保持短時平穩且不相關的假設,在頻域進行參數能量譜減,具體公式如下
其中,;r(w)、 S( )、 W(w)分別為帶噪語音、純淨語音和噪聲的頻譜,AreW為閾值係數,其值由實驗統計設定,"為可調譜減參數,/ 為譜平滑係數,其值可根據帶噪語音能量和估計噪聲能量的比例動態
豐M
調整,即假設/
譜減係數可根據下式調整:
其中A,、 ^兩個係數通過統計實驗設定。
則純淨語音估值為:
19雄)=/F/T
一)
譜減法進行語音增強最關鍵的部分就是噪聲估計,本系統利用開關控制信號和嗓音源合成參數等,分別從電子喉洩露周期噪聲和環境噪聲兩方面進行噪聲估計。
電子喉洩露噪聲為周期噪聲,它的周期性與電子喉振動周期相一致,可以利用合成咽腔嗓音源波形的基頻/。、幅值^等參數信息,估計電子喉洩露周期噪聲,而且根據嗓音源合成的動態調節,電子喉洩露噪聲的估計也會隨之調整,保證了噪聲的隨時更新。
環境噪聲的估計分為初始噪聲估計和噪聲更新兩部分初始噪聲的估計是在系統開始工作,使用者發聲之前,連續採集L幀噪聲並計算平均功率譜,作為初始噪聲功率譜
々。(w)2=+i|,)|2
繼續採集M幀噪聲,用此M幀噪聲的功率譜驗證》。(一是否滿足以下條件
(1-力|々。(《)|2 <|iV |2 〈(l +力po(6;)12
若滿足,則々。(w)合格,初始噪聲估計結束;若不滿足,則重新採集噪聲估計。上式中Z為寬鬆係數,不宜過大也不宜過小,本系統取為0.4。
噪聲更新是環境噪聲估計中很重要的一步,在整個電子喉工作過程中環境噪聲無法保證穩態,本系統採用權重平均來自適應的更新噪聲。用公式表述如下
,
々M(w) +(i-a偶(w)I2 ,當"(w)"d⑨時
,其他其中l々,(w)1是當前噪聲功率譜估計,|》M(0>)|是前一幀功率譜估
計,;i和f為固定係數。考慮到算法的穩定性以及對非平穩噪聲的跟
蹤性能,義一般取值為0.9 0.98, s—般取值為1.5 2.5。
網絡通訊部分主要在本地實現音視頻數據的Socket傳輸模塊,在遠程端則實現音視頻數據的Socket接受模塊,然後在本地播放。模塊採用音視頻數據相分離的傳輸方法,為它們分別創建一個Socket連接,而在每一個Socket上,可以同時進行資料的發送和接收。由於音視頻同步發送與接收,可以解決同步問題。因為音視頻數據是大量的、連續的、需要可靠傳輸的,因此這些數據的傳輸選用傳輸控制協議(TCP)。
本發明的音視頻採集模塊對不同硬體系統具有通用性和適用性,對於音視頻採集模塊沒有特殊限制,系統中採用USB攝像頭作為視頻採集模塊,麥克風作為默認音頻採集模塊。
視頻信號採用帕爾制(PAL),圖像採集參數可以通過攝像頭自帶屬性頁進行調整,為了保證視頻的流暢性和分割跟蹤效果,採集圖像的大小定為640X480,彩色圖像元數據格式為24位圖,視頻幀率默認為20幀/秒,視頻延時為50ms。
音頻信號採用雙聲道,量化精度為16位。音頻緩存的設置很重要,設得過小會影響音頻採集效率,過大則產生較大延遲,而且其與視頻採集幀率關係到音視頻的同步問題,經過實驗測定,本系統中默認為70ms。
本發明的系統對實時性的要求很高, 一般來說,音視頻輸入和輸出之間的時間間隔不應超過0.5s。本發明系統的外部設備較少,執行速度主要受計算機信號處理方法速度的影響。由於各種算法的複雜度都不是很高,而且利用音視頻跟蹤等技術手段簡化了處理過程,使得總的系統延遲得到嚴格的控制,保證了實時性要求。
權利要求
1. 一種自動調節的咽腔電子喉語音通訊系統,包括麥克風、攝像頭,電子喉振蕩器(2),音視頻採集模塊與計算機軟硬體系統,攝像頭和麥克風(3)固定於麥克風支架上,耳機(1)下方設置有固定帶,電子喉振蕩器設置於固定帶(5)上,其特徵在於該系統包括下述三個主要模塊1)發聲過程中面部和頸部運動圖像採集與處理模塊,實現從運動圖像的分析到視覺語音特徵參數的提取;2)咽腔嗓音源動態合成模塊,將提取的視覺語音特徵參數轉換為嗓音源合成模型參數,並按照咽腔嗓音源數學模型合成波形;3)咽腔電子喉重建語音實時增強與網絡通訊模塊,對採集的咽腔電子喉重建語音進行實時增強處理,並將處理後的語音進行遠程網絡傳輸,實現網絡通訊功能;攝像頭通過數據連接線將採集到的運動圖像作為輸入信號傳輸給運動圖像處理模塊進行視覺語音特徵參數提取;運動圖像處理後輸出的視覺語音特徵參數,又作為輸入信號進入咽腔嗓音源合成模塊控制波形的合成;合成的咽腔嗓音源波形再次通過數據線輸出給電子喉振蕩器,施加於頸部咽腔處;重建的咽腔電子喉語音經麥克風設備採集後,通過數據線輸入語音增強模塊,同時該模塊也接收控制信號的輸入;通訊模塊的輸入則包括攝像頭採集的視頻信號與增強後輸出的語音信號兩部分,最終經過網絡輸出到另一個客戶端,同時另一個客戶端發出的音視頻信號也是在通訊模塊接收並播放;由電子喉施加裝置向計算機傳輸音視頻信號進行處理,計算機提取的電子喉開關信號與合成的咽腔嗓音源信號傳輸給電子喉施加裝置,電子喉施加裝置工作所需的電能由計算機提供。
2. —種自動調節的咽腔電子喉語音通訊的方法,其特徵在於音視 頻採集模塊同時開始工作,利用視頻採集模塊攝像頭獲取發聲過程中 使用者面部和頸部的運動圖像作為系統輸入,圖像處理模塊對輸入圖 像進行預處理,去除千擾信號,再利用人臉膚色特徵目標區域定位、 分割、特徵參數提取,以及特徵區域運動的跟蹤,得到與發聲特徵相 關的視覺語音特徵參數,再經自動控制合成系統通過關係轉換由視覺 語音參數推導出咽腔嗓音源合成所需的模型參數和開關信號,控制咽 腔嗓音源波形合成以及施加裝置的振動;與此同時,音頻採集模塊麥 克風記錄下咽腔電子喉重建語音信號,結合開關控制信號和咽腔嗓音 源合成信息,指導洩露周期噪聲和環境噪聲的估計,以及譜減參數的 調整,並對有音幀進行譜減語音增強處理,最終將得到的視頻圖像和 增強的音頻信號整合後,由網絡系統模塊完成發送、接受和本地播放, 實現遠程通訊。
3. 根據權利要求2所述的自動調節的咽腔電子喉語音通訊的方法,其特徵在於所述的面部運動圖像處理主要是利用嘴唇形狀特徵反應 發聲起止的變化提取電子喉開關信號,具體步驟如下1) 初始化參數,採集一幀視頻圖像;2) 利用唇色濾波器計算規定矩形範圍的唇色特徵值,並歸一化為 0-255灰度級,得到唇色特徵值圖像,如果存在前一幀,利用前一幀 唇部區域範圍和膚色平均特徵值,指導這一幀計算;3) 利用改進的最大類間方差Otsu法計算最佳分割閾值,以此進行圖 像二值化分割,得到唇部預分割圖像,如果存在前一幀,利用前一幀 分割閾值指導這一幀分割閾值的計算;4) 對嘴唇預分割圖像進行閾值面積消去處理,消除較小的圖像噪聲 和背景幹擾塊;5) 對嘴唇區域進行輪廓和中心點提取,利用改進的一維哈夫Hough 變換檢測得到匹配嘴唇的橢圓模型參數,主要為長短軸,同時得到嘴 唇區域範圍,用於指導下一幀唇色特徵值計算,如果存在前一幀,利 用前一幀的長短軸指導這一幀的橢圓匹配;6) 以長短軸之比作為嘴形判別,通過與閾值比較,得到開關電平信 號,輸出作為電子喉開關控制信號。
4.根據權利要求2所述的自動調節的咽腔電子喉語音通訊的方法, 其特徵在於所述的頸部圖像處理是利用喉上頸部區域的運動信號來 提取嗓音源基頻、幅度變化控制信號,具體步驟如下-1) 初始化參數,採集一幀視頻圖像;2) 利用膚色濾波器計算規定矩形範圍的膚色特徵值,並歸一化為 0-255灰度級,得到唇色特徵值圖像,如果存在前一幀,利用前一幀 喉上頸部區域範圍,指導這一幀計算範圍;3) 利用最大類間方差Otsu法計算最佳分割閾值,並進行圖像二值化 分割,得到面部和頸部膚色區域圖像,如果存在前一幀,利用前一幀 分割閾值指導這一幀分割閾值的計算;4) 對分割圖像進行閾值面積消去處理,消除較小的圖像噪聲和背景 幹擾塊;5) 參考嘴唇下邊緣信息,分割得到從嘴唇下開始到圖像中膚色區域 的最下端之間的喉頸部目標區域,保存範圍用於指導下一幀膚色特徵 值計算;6) 利用Lucas-Kanada微分法計算喉下頸部區域的光流場,得到反應 運動特徵的速度分量信息;7) 對光流場進行聚類分析,計算其與平均得到的各聚類中心距離, 以此判斷頻率、幅度變化,得到頻率、幅度變化係數,並輸入作為咽 腔嗓音源合成參數。
5.根據權利要求2所述的自動調節的咽腔電子喉語音通訊的方法, 其特徵在於採用基於膚色的人臉檢測方法,利用膚色的聚類性,在 YUV色彩空間計算唇色特徵值和膚色特徵值來增強目標區域與背景 的區分度,目標得到增強後進入分割環節,採用最大類間方差Otsu 法選取最佳分割閾值,為了使其適合唇色和膚色分割,提高執行效率, 做了如下改進1) 最大類間方差Otsu法的求解並不依靠灰度值或RGB彩色圖像的 某一色彩分量,而是對每個像素的唇色和膚色特徵值歸一化到灰度級 0~255,並在此灰度圖上利用最大類間方差Otsu法求最佳閾值T;2) 基於時間的連貫性和閾值變化的連續性,藉助上一幀圖像的最佳 分割閾值,並在其鄰域內搜索本幀圖像的最佳分割閾值,滿足分割要求,而且提高執行速度。
6.根據權利要求2所述的自動調節的咽腔電子喉語音通訊的方法,其特徵在於所述參數的提取針對不同的部位特徵採用不同的方法 利用一維哈夫Hough變換檢測得到匹配嘴唇的橢圓模型參數,提取 唇部區域的嘴形特徵參數,作為咽腔電子喉開關的控制信號;採用光 流法提取頸部區域的運動信息特徵參數,通過聚類分析作為咽腔電子 喉嗓音源頻率和幅度的控制信號,咽腔嗓音源的自動控制合成,以咽 腔嗓音源模型為基礎,利用從運動圖像中提取的視覺語音特徵參數自 動調節咽腔嗓音源模型的合成參數,合成咽腔嗓音源波形,通過電子 喉施加裝置按合成波形輸出振動。
全文摘要
本發明涉及一種可自動調節的咽腔電子喉語音合成與通訊系統與方法,基於計算機軟體平臺和外部硬體設備,包括攝像頭、麥克風和電子喉振蕩器,通過提取使用者面部和頸部運動圖像的視覺語音特徵信息,實現了對電子喉工作狀態及咽腔嗓音源合成的自動控制,不僅使電子喉的使用無需手持,更加簡單便捷,而且解決了合成嗓音源與電子喉施加部位不一致和電子喉語音機械不自然的問題,同時對咽腔電子喉重建語音進行動態去噪增強處理,提高了重建語音的質量與可懂度,並通過網絡傳輸技術實現了電子喉語音的遠程實時通訊,進一步拓展了電子喉的應用範圍,改善了喉切除患者的生活質量。
文檔編號A61F2/50GK101474104SQ20091002089
公開日2009年7月8日 申請日期2009年1月14日 優先權日2009年1月14日
發明者萬明習, 菲 劉, 亮 吳, 吳輝雄, 王素品, 翟健東 申請人:西安交通大學