一種可將漢語語音轉換成口型圖像的口吃矯正裝置的製作方法
2023-12-01 00:13:31 1
專利名稱:一種可將漢語語音轉換成口型圖像的口吃矯正裝置的製作方法
技術領域:
本實用新型涉及口吃矯正技術,特別是一種可將漢語語音轉換成口型圖像的口吃 矯正裝置。
背景技術:
口吃定義為言語節律異常,多發生於兒童言語發育時期。病因不明,可能與大腦 對言語器官的支配不協調、不正確的模仿、遺傳等因素有關。常表現為首字難發、語句中斷 或語調重複,致說話不流暢。病情較重者,說話時伴有皺眉、面肌抽搐、擺動手臂等現象、講 話時情緒常較緊張。口吃包含了三大緊密相聯的層面1. 口吃的核心行為(Core Behaviors)也叫做口吃的核心症狀(Core Features)。2. 口 吃的附加行為(Accessory Behaviors)也叫口 吃的第二行為(Secondary Behaviors),或口吃的第二症狀(Secondary Symptoms)。3. 口吃心理(Affective Reactions) 口吃最為神秘而巨大的部分,包含了情感 和認知兩個方面。口吃患者某種生理上的缺陷或異常被認為是客觀存在的,並不是人為的意識所能 控制的。口吃心理是由口吃的核心症狀所帶來的。對口吃核心症狀的成因研究也主要集中 到人的大腦和神經系統。2003年,Kalinowski在《醫學假說》發表文章《鏡像一起說話》(Speaking with a mirror engagement of mirror neurons via choral speech and its derivatives induces stuttering inhibition)認為同聲說話即時抑制口吃的原因在於它結合了鏡像 神經元系統(mirror systems of neurons)。鏡像神經元系統生而有之,遠遠領先於口吃 病的發生時間。通過重新結合鏡像神經元系統,比如通過「合唱說話」,或它的派生物(如數 字信號處理技術)來提供動作的鏡像,口吃可以得到最大程度的緩解,這是解決口吃的核 心——阻塞的自然方式。鏡像神經元組儲存了特定行為模式的編碼。這種特性不單讓我們可以想都不用 想,就能執行基本的動作。在言語形成過程中,也有相應的神經元網絡,同樣的起著「存儲」 行為模式編碼的作用。當鏡像元系統被激活後,因為優先級較高的緣故,能替代言語系統中 這些神經元網絡的作用,從而使因為這些神經元系統的異常導致的口吃行為得到最大程度 的緩解。以數位技術模擬「合唱說話」效應的關在於激活鏡像元系統。一旦當鏡像神經元 系統被激活,並接管異常的神經元網絡後,口吃的核心症狀和第二行為特徵能被最大程度 的緩解。鏡像神經元是由觀察所激活。比如,當一個人看見別人去拿杯子時,部分鏡像神經 元就會被激活。而放下杯子時又會激活另一些鏡像神經元。「合唱說話」、「模仿說話」時,口吃者在聆聽被稱為「第二言語信號」的他人說話時,則是激活那些和形成語言相關的鏡像神 經元的「觀察」行為。被激活的鏡像神經元中「存儲」了言語動作的行為編碼。在語言習得 過程中,同樣的編碼被「複製」了一份「存儲」在與言語相關的神經元中。由於Kalinowski 所論述的鏡像神經元優先於言語相關的神經元,當鏡像神經元被激活後,對口吃者來說,相 當於在言語的形成過程中提取了備份的,而不再是因病變而可能有錯誤的動作編碼。備份 的編碼是正確的,所以言語也就回歸流暢,第二行為特徵得以消除。2002年西谷信行和哈裡報導了他們的實驗結果當他們讓自願者們觀看畫有各 種口型的圖片時,這些自願者的鏡像神經元系統中的各部位會按照一定先後順序被激活。 也就是說,除了聆聽「第二言語信號」外,觀察與「第二言語信號」相對應的口型圖像也有利 於激活鏡像神經元系統,可以大大提高口吃矯正器的效果。以數位技術模擬「合唱說話」效應,即對語音信號進行實時採集、分析和處理,來實 現對語音的改變反饋(主要是DAF和FAF,當然也可以包括MAF)。主要有如下幾種方式是A/D (模/數轉換)+DSP (數位訊號處理器)+D/A (數/模轉換)是A/D (模/數轉換)+MCU (微控制器)+D/A (數/模轉換)是A/D (模/數轉換)+MPU (微處理器)+D/A (數/模轉換)是A/D (模/數轉換)+CPU (中央處理器)+D/A (數/模轉換)A/D (模/數轉換)+FPGA+D/A (數/模轉換)的形式DSP、MCU、MPU、單片機和CPU是運行軟體完成信號處理算法運算;而FPGA則是直 接以硬體方式執行算法,當對特定的運算進行分解、執行流水操作和並行運算時,FPGA運算 速度大大超過DSP和CPU。在靈活性上CPU、MPU和最好,DSP次之,FPGA欠佳。從信號路徑 的角度來看,這幾種方式沒有什麼不同,都包括1.輸入部分[0022]a)傳感器接口(如麥克風或直接音頻接口)將聲音信號轉換成電平信號[0023]b)模/數轉換(A/D)將電平信號轉換成數位訊號[0024]C)輸入階段的信號優化[0025]2.信號分析與處理[0026]a)信號識別與優化[0027]b)信號重構(實現信號的延遲和頻率改變)[0028]c)生成掩蔽信號(實現掩蔽聽覺反饋)[0029]d)信號合成[0030]3.輸出部分[0031]a)輸出階段的信號優化[0032]b)數/模轉換(DA)將數位訊號轉換成電平信號[0033]c)傳感器接口(如揚聲器、耳機接口)[0034]在上述信號通路方式上,輸入部分和信號分析與處理的前半部分都恰好是語音轉換到口型圖像這一功能模塊所必須的。[0035]現有的數字口吃矯正器中,包含麥克風、數位訊號處理器和揚聲器,數字口吃矯正
器使用者的語音,通過麥克風(輸入部分)採集語音轉換為電平信號,數位訊號處理器(信號分析部分)中的AD將該電平信號轉換為數位訊號並傳送到揚聲器。但是目前的數字口 吃矯正器都不能顯示出正確口型的口型圖像,也不能配合音位的持續時間來展示獨立的靜 態圖像組合成完整的口型動作展示給使用者,除了聆聽「第二言語信號」外,沒有與「第二言 語信號」相對應的口型圖像供使用者觀察。也就不能充分激活其鏡像神經元系統的功能,從 而進行口吃矯正的方式。
實用新型內容本實用新型為解決上述技術問題,提供了一種可將漢語語音轉換成口型圖像的口 吃矯正裝置,可以將語音識別為音位(元音和輔音),還能識別共振峰的頻率參數,根據識 別出的音位和共振峰的頻率參數,就可以根據預先建立的模型,顯示出正確口型的口型圖 像,再配合音位的持續時間,則可以將各獨立的靜態圖像組合成完整的口型動作展示給使 用者,從而達到激活其鏡像神經元系統的目的。—種可將漢語語音轉換成口型圖像的口吃矯正裝置,包括依次信號連接的麥克 風、數位訊號處理器和揚聲器,其特徵在於還設置有與數位訊號處理器連接的用於識別元 音和輔音的語音識別單元,語音識別單元還與口型圖像生成單元相連,口型圖像生成單元 再連接顯示單元。該口吃矯正裝置的原理是麥克風將採集的語音信號轉換為電平信號,再由數字 信號處理器中的AD將電平信號轉換為數位訊號傳送給揚聲器,同時數位訊號處理器還可 以將數位訊號進一步轉換為頻域信號。因為頻域信號是實現FAF的必要條件,現在還被用 來輸入到語音識別單元,來進行音位的識別。通過選擇合適的濾波器帶寬,可以提取出頻域 信號的共振峰,並得到第一、二、三共振峰的頻率,稱為Fl、F2、F3,再結合共振峰持續的時 長,就可以識別出元音(如Fl在300-400Hz,F2在IOOOHz左右,時長小於200ms就可以識 別為元音u)和輔音(如Fl = 200,F2 = 720,F3 = 2100識別為輔音/b,p/)。識別出的音 位,以及共振峰頻率和音量等數據再被送到口型圖像生成單元就可以得到基本口型(如半 圓形,圓形)和口唇張開大小的參數(如音量越大,口唇張開得也越大)。生成的口型圖像 被連續顯示在顯示單元上,並且根據音位的持續時間來調整每張圖像的持續時間,就構成 了連續的口型動作。本實用新型的有益效果如下本實用新型可以將語音識別為音位(元音和輔音),還能將語音信號轉化為頻域 信號的共振峰頻率參數,根據識別出的音位和共振峰的頻率參數,則可以根據預先建立的 模型,可以將各獨立的靜態圖像組合成完整的口型動作展示給使用者,以此激活使用者的 鏡像神經元系統,從而可以實現口吃矯正的目的。
圖1為本實用新型的結構示意圖具體實施方式
如圖1所示,一種可將漢語語音轉換成口型圖像的口吃矯正裝置,包括依次信號 連接的麥克風1、數位訊號處理器2和揚聲器3,還設置有與數位訊號處理器2連接的用於識別元音和輔音的語音識別單元4,語音識別單元4還與口型圖像生成單元5相連,口型圖 像生成單元5再連接顯示單元6。 該口吃矯正裝置的原理是麥克風1將採集的語音信號轉換為電平信號,再由數 字信號處理器2中的AD將電平信號轉換為數位訊號傳送給揚聲器3,同時數位訊號處理器 2還可以將數位訊號進一步轉換為頻域信號。因為頻域信號是實現FAF的必要條件,現在 還被用來輸入到語音識別單元4來進行音位的識別。通過選擇合適的濾波器帶寬,可以提 取出頻域信號的共振峰,並得到第一、二、三共振峰的頻率,稱為F1、F2、F3,再結合共振峰持 續的時長,就可以識別出元音(如Fl在300-400Hz, F2在IOOOHz左右,時長小於200ms就 可以識別為元音u)和輔音(如Fl = 200, F2 = 720,F3 = 2100識別為輔音/b,p/)。識別 出的音位,以及共振峰頻率和音量等數據再被送到口型圖像生成單元就可以得到基本口型 (如半圓形,圓形)和口唇張開大小的參數(如音量越大,口唇張開得也越大)。生成的口 型圖像被連續顯示在顯示單元上,並且根據音位的持續時間來調整每張圖像的持續時間, 就構成了連續的口型動作。
權利要求一種可將漢語語音轉換成口型圖像的口吃矯正裝置,包括依次信號連接的麥克風(1)、數位訊號處理器(2)和揚聲器(3),其特徵在於還設置有與數位訊號處理器(2)連接的用於識別元音和輔音的語音識別單元(4),語音識別單元(4)還與口型圖像生成單元(5)相連,口型圖像生成單元(5)再連接顯示單元(6)。
專利摘要本實用新型公開了一種可將漢語語音轉換成口型圖像的口吃矯正裝置,包括依次信號連接的麥克風、數位訊號處理器和揚聲器,其特徵在於還設置有與數位訊號處理器連接的用於識別元音和輔音的語音識別單元,語音識別單元還與口型圖像生成單元相連,口型圖像生成單元再連接顯示單元;本實用新型可以將語音識別為音位(元音和輔音),還能將語音信號轉化為頻域信號的共振峰頻率參數,根據識別出的音位和共振峰的頻率參數,則可以根據預先建立的模型,可以將各獨立的靜態圖像組合成完整的口型動作展示給使用者,以此激活使用者的鏡像神經元系統,從而可以實現口吃矯正的目的。
文檔編號G10L21/06GK201741384SQ20102027658
公開日2011年2月9日 申請日期2010年7月30日 優先權日2010年7月30日
發明者付曉毅, 張 成, 蔣一寧, 蔣濤, 藺君剛, 趙旭 申請人:四川微迪數位技術有限公司