語音分析設備、語音分析方法和語音分析程序的製作方法
2023-10-26 05:40:32
專利名稱:語音分析設備、語音分析方法和語音分析程序的製作方法
技術領域:
本發明涉及語音分析設備、語音分析程序和語音分析方法。更具體地說,涉及採用根據本發明的語音分析方法的圖像生成設備,特別是創建根據語音改變口形的動畫(嘴唇同步動畫)的嘴唇同步動畫圖像生成設備。
背景技術:
當前,在許多領域中使用語音分析技術。例如通過語音識別說話者,將語音轉換成文本,或者生成根據語音改變口形的嘴唇同步動畫。在這些情況下執行的處理分別涉及在語音分析技術的情況下,從語音中提取音素,即用於區分單詞含義的部;在識別說話者的情況下,使用所提取的音素和預先登記的參考模式之間的相似度來識別說話者;在文本轉換的情況下,在顯示器等設備上顯示與所提取的音素對應的字母;以及,在生成嘴唇同步動畫的情況下,在顯示器等設備上顯示與所提取的音素對應的圖像。
現有技術包括下列從語音中提取音素的方法。例如,在日本特公平6-32007號公報中公開的說話者識別系統中,通過下述方式提取音素為每個元音確定間隔區間以便預先輸入的參考模式和說話者語音之間的差別小於規定的值,並建立這些間隔區間和元音之間的對應關係。
這種用於提取音素的間隔區間稱作片段。在日本特開2003-233389號公報的動畫圖像生成設備中,執行使用諸如複合正弦建模(CompositeSinusoidal Modeling,CSM)的共振峰分析,並根據表徵元音的共振峰信息提取音素。
發明內容
然而,為了利用與參考模式的差距來進行片段的確定,必需準備為每個說話者登記參考模式的資料庫。然而,這不可避免地產生了取決於說話者數量的大量數據,延長了語音分析需要的處理時間。因此,難於將該系統應用於需要實時處理的情況(例如建立嘴唇同步動畫)。而且,當加入新的說話者時,產生了將新說話者的參考模式添加到資料庫中的任務;因此,管理資料庫的任務變得很繁重,並且該系統難以應用於無限制的大量說話者。
而且,當前的情況是,實際上使用共振峰信息提取音素由於這種處理需要的時間而難以應用於需要實時處理的情況。除此之外,還公知一種音素提取方法使用例如LPC(線性預測編碼)倒譜分析。已經發現使用該方法提取音素的精度隨著重複次數的增加而提高,即,存在學習效果。相反地,為了提高提取的精度,需要預先準備大量學習信號的分析結果;因此,很難將該方法應用於無限制的大量說話者。
此外,已知頻譜包絡的特性根據表達方法或提取方法顯著地改變,所述表達方法或提取方法受諸如重複程度或次數的確定的影響,因此,需要分析員的技巧。
因此,本發明的一個目的是提供一種語音分析設備和語音分析方法,其中能夠執行實時語音分析處理,並能夠將其應用於無限制數量的說話者,而不需要為每個說話者準備參考模式。另一個目的是提供一種動畫圖像生成設備,能夠通過應用該語音分析方法而實現實時處理。
根據本發明的第一方面,通過提供一種計算機可執行的語音分析方法實現了上述目的,該計算機可執行的方法從輸入語音中檢測音素邊界,包括在所述輸入語音信號中指定時刻的第一步;提取從所述時刻開始的規定長度的時間範圍中包含的語音信號的第二步;和將所述提取的語音信號分解成頻率分量數據的第三步,其中通過在每個規定時間中重複所述第一、第二和第三步n次(其中n是至少為6的自然數),求得從n個所述規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量數據;通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),由n個所述頻率分量數據求得(n-1)個相關度;通過根據第k個相關度和第(k+1)個相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,由(n-1)個所述的相關度求得(n-2)個所述的變化度;當將m限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即m滿足條件當m從2到(n-3)每次改變1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,求得所限定的數m;根據所限定的數m指定所述規定長度的時間範圍;以及,根據所指定的時間範圍將所述輸入語音信號劃分成多個片段。
根據本發明的第二方面,通過提供根據第一方面的語音分析方法實現了上述目的,還包括為所述劃分的語音信號的每個片段計算特徵量,並通過比較所述特徵量與各個所述音素的參考數據而指定所述片段的所述音素。
根據本發明的第三方面,通過提供根據第一方面的語音分析方法實現了上述目的,其中將所指定的時間偏移所述規定長度的時間範圍以形成相互重疊的部分。
根據本發明的第四方面,通過提供根據第一方面的語音分析方法實現了上述目的,其中所述相關度是通過累加與同一頻率分量相對應的幅值之積而求得的值。
根據本發明的第五方面,通過提供根據第一方面的語音分析方法實現了上述目的,其中通過所述提取的語音信號的頻率分量的傅立葉變換而求得所述頻率分量數據。
根據本發明的第六方面,通過提供根據第二方面的語音分析方法實現了上述目的,其中根據通過所述劃分而獲得的所述劃分語音信號的片段中包含的所述語音信號的傅立葉變換而獲得的各個頻率分量的幅值來確定所述特徵量。
根據本發明的第七方面,通過提供動畫圖像生成計算機可執行方法實現了上述目的,該計算機可執行方法顯示與輸入語音信號中的音素劃分相對應的圖像,包括在所述輸入語音信號中指定時刻的第一步;提取從所述時刻開始的規定長度的時間範圍中包含的語音信號的第二步;以及,將所述提取的語音信號分解成頻率分量數據的第三步,其中,通過在每個規定時間中重複所述第一、第二和第三步n次(其中n是至少為6的自然數),求得從n個所述規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量數據;通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),由n個所述頻率分量數據求得(n-1)個相關度;通過根據第k個相關度和第(k+1)個相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,由(n-1)個所述的相關度求得(n-2)個所述的變化度;當將m限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,求得所限定的數m;根據所限定的數m指定所述規定長度的時間範圍;根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段;為所劃分的語音信號的每個片段計算特徵量;通過比較所述特徵量與各個所述音素的參考數據來指定所述片段的所述音素;以及,與所述片段相應地切換顯示與所述片段的所述音素對應的圖像。
根據本發明的第八方面,通過提供可由包括CPU的計算機執行、檢測輸入語音中的音素邊界的語音分析程序實現了上述目的,該程序使CPU執行在所述輸入語音信號中指定時刻的第一步;提取從所述時刻開始的規定長度的時間範圍中包含的語音信號的第二步;以及,將所述提取的語音信號分解成頻率分量數據的第三步,其中,通過在每個規定時間中由所述CPU重複所述第一、第二和第三步n次(其中n是至少為6的自然數),求得從n個所述規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量數據;通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),由n個所述頻率分量數據求得(n-1)個相關度;通過根據第k個相關度和第(k+1)個相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,由(n-1)個所述的相關度求得(n-2)個所述的變化度;當將m限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,求得所限定的數m;根據所限定的數m指定所述規定長度的時間範圍;以及,所述CPU根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段。
根據本發明的第九方面,通過提供根據第八方面的語音分析程序實現了上述目的,還使CPU執行為所述劃分的語音信號的每個片段計算特徵量,並通過比較所述特徵量與各個所述音素的參考數據來指定所述片段的所述音素。
根據本發明的第十方面,通過提供根據第九方面的語音分析程序實現了上述目的,其中將所指定的時間偏移所述規定長度的時間範圍以形成相互重疊的部分;所述相關度是通過累加與同一頻率分量相對應的幅值之積而求得的值;通過所述提取的語音信號的頻率分量的傅立葉變換而求得所述頻率分量數據;並且,根據通過所述劃分語音信號的片段中包含的所述語音信號的傅立葉變換而獲得的各個頻率分量的幅值來確定所述特徵量。
根據本發明的第十一方面,通過提供可由包括CPU的計算機執行、顯示與輸入語音信號中的音素劃分對應的圖像的動畫圖像生成程序而實現了上述目的,所述程序使CPU執行在所述輸入語音信號中指定時刻的第一步;提取從所述時刻開始的規定長度的時間範圍中包含的語音信號的第二步;以及,將所述提取的語音信號分解成頻率分量數據的第三步,其中,通過在每個規定時間中重複所述第一、第二和第三步n次(其中n是至少為6的自然數),求得從n個所述規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量數據;通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),由n個所述頻率分量數據求得(n-1)個相關度;通過根據第k個相關度和第(k+1)個相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,由(n-1)個所述的相關度求得(n-2)個所述的變化度;當將m限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,求得所限定的數m;根據所限定的數m指定所述規定長度的時間範圍;根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段;為所劃分的語音信號的每個片段計算特徵量;通過比較所述特徵量與各個所述音素的參考數據來指定所述片段的所述音素;以及,與所述片段相應地切換顯示與所述片段的所述音素對應的圖像。
根據本發明的第十二方面,通過提供存儲有根據第八至第十二方面中的任一方面的程序的存儲介質而實現了上述目的。
根據本發明的第十三方面,通過提供語音分析設備實現了上述目的,該設備包括頻率分解部,通過以規定的間隔重複n次(其中n是至少為6的自然數)指定輸入語音信號中的時刻、提取從所述時刻開始的規定長度的時間範圍中包含的語音信號、並將所述提取的語音信號分解成頻率分量數據,從而求得從n個規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量;變化度計算部,通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),由n個所述頻率分量數據求得(n-1)個相關度,並通過根據第k個相關度和第(k+1)個相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,由(n-1)個所述的相關度求得(n-2)個所述的變化度;以及,片段確定部,其求得所限定的數,所限定的數m被限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號,即所限定的數m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,該片段確定部根據所限定的數m指定所述規定長度的時間範圍,並根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段。
根據本發明的第十四方面,通過提供動畫圖像生成設備實現了上述目的,該設備包括頻率分解部,其通過以規定的間隔重複n次(其中n是至少為6的自然數)指定輸入語音信號中的時刻、提取從所述時刻開始的規定長度的時間範圍中包含的語音信號、並將所述提取的語音信號分解成頻率分量數據,從而求得從n個規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量;變化度計算部,其通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),由n個所述頻率分量數據求得(n-1)個相關度,並通過根據第k個相關度和第(k+1)個相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,從而由(n-1)個所述的相關度求得(n-2)個所述的變化度;片段確定部,其求得所限定的數,所限定的數m被限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即所限定的數m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,該片段確定部根據所限定的數m指定所述規定長度的時間範圍,並根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段;音素提取部,通過為所述劃分的語音信號的每個片段計算特徵量,並比較各個所述音素的參考數據與所述特徵量來指定所述片段的所述音素;以及,動畫顯示部,其顯示與所述片段的所述音素對應的圖像,這些圖像與所述片段相應地切換。
通過使用本發明,可以簡單地通過預先準備多個主體的輸入語音的分析結果作為參考數據,而不需要為每個說話者準備參考模式,能夠實時地實現快速語音分析處理。而且,因為不需要為每個說話者登記參考模式的操作,僅需要準備一次參考模式,所以能夠應付無限制數量的說話者。此外,因為不需要用於存儲每個說話者的參考模式的資料庫,所以即使在小存儲容量的設備上也可以安裝。
圖1是根據本發明實施例的圖像生成設備的結構框圖;圖2是根據本發明的語音分析部(語音分析設備)的結構框圖;圖3是解釋根據本發明實施例的圖像生成設備中的處理的流程圖;圖4是用於解釋圖3的步驟S2的頁劃分的圖;圖5示出了當執行圖3的步驟S2的頻率分量分析時頻率和幅值的關係;圖6示出了對於多個頁的頻率分解結果;圖7示出了如何執行相鄰頁之間的相關度的計算;圖8示出了頁關聯參數y和相關度差值S(y)之間的關係;圖9用於解釋每個片段的頻率分解;以及,圖10用於解釋與音素對應的動畫。
具體實施例方式
下面參考附圖描述本發明的實施例。然而,本發明的技術範圍並不限於這些實施例,並擴展到在權利要求書中闡述的發明及其等同物。
圖1是根據本發明實施例的圖像生成設備的結構框圖。這是生成與輸入語音對應的動畫的嘴唇同步動畫生成設備。根據該實施例的圖像生成設備包括作為語音分析部1的根據本發明的語音分析設備,此外,還包括CPU 2、工作RAM 3、幾何計算部4、渲染部5、紋理生成部6、紋理RAM 7、顯示部8和幀緩衝器9。這些功能部通過該圖像生成設備中提供的CPU(中央處理部)2執行的程序來實現,但是它們也可以使用硬體來實現。
CPU 2控制生成圖像的程序。由CPU 2使用的程序或數據存儲在工作RAM 3內。語音分析部1分析輸入語音以提取在輸入語音中包含的音素,並輸出用於確定對應於各個音素的圖像的顯示時間的定時信息。
在CPU 2的控制下,幾何計算部4從工作RAM 3中讀取和輸入構成世界坐標系中的三維對象數據的多邊形數據。接著,它執行轉換為原點為視點的視點坐標系的數據的坐標轉換。由幾何計算部4處理的多邊形數據被輸入給渲染部5,其中將多邊形單位的數據轉換成像素單位數據。
將像素單位數據輸入給紋理生成部6,其中根據紋理RAM 7中存儲的紋理數據,以像素為單位生成紋理顏色。顯示部8根據需要對來自紋理生成部6的圖像數據執行隱蔽面刪除處理和/或陰影處理,隨後將數據寫入幀緩衝器9,同時轉換成二維坐標。重複地讀取寫入幀緩衝器9中的數據,並轉換成輸出的視頻信號。這樣,根據定時信息在(例如未示出的)顯示器上切換和顯示與各個音素對應的圖像。圖1中除語音分析部1之外的功能塊是用於顯示動畫的動畫顯示部。
圖2是根據本發明的語音分析部(語音分析設備)的結構框圖。語音分析部1包括輸入部1、模數轉換部12、頻率分解部13、變化度計算部14、片段確定部15、音素提取部16和存儲部17。通過由CPU(中央處理部)執行的程序實現這些功能部,但是它們也可以使用硬體來實現。而且,就CPU而言,如果在語音分析部1中包含了CPU,則可以使用這個語音分析部1中包含的未示出的CPU,或者也可以使用外部CPU(例如圖1的CPU 2)。
輸入部11是輸入語音的接口。例如通過來自麥克風的輸入信號或者經音頻電纜連接的音頻設備的輸出信號來實現語音分析部1的語音輸入。在這種情況下,輸入部11包括用於麥克風或音頻電纜連接的相應輸入端子。也可以通過諸如波形文件或MP3(MPEG-1 Audio Layer 3)文件的數字數據來輸入語音。在這種情況下,輸入部11具有用於數據傳輸的連接接口(例如USB(通用串行總線)接口、並行接口、IEEE(電子與電氣工程師協會)1394接口或內部總線)。
如果輸入語音數據是模擬信號,則通過模/數(AD)轉換部12將其轉換成數字數據。通過該數字轉換處理獲得的語音數據是與給定時間中的幅值相關聯的時間序列數據,並被輸入給頻率分解部13。頻率分解部13剪輯出規定長度的連續偏移時間範圍(稱作頁),將語音數據劃分成多個頁,並分析每個頁的頻率分量(例如使用離散傅立葉變換)。頁也可以稱作幀或語音幀。
將各個頁的頻率分量數據輸入給變化度計算部14,其中根據相鄰頁之間的相關度(隨後將描述其計算方法)計算變化度。將計算出的變化度輸入給片段確定部15,其中根據相關度指定構成用於提取音素的間隔區間的片段。將這些指定為片段邊界(更具體地,它們的起始位置)相互鄰接的頁組。隨後,音素提取部16對於如此確定的每個片段,通過與存儲部17中存儲的參考數據進行匹配來提取音素。因為將片段邊界指定為頁編號,所以當確定片段時,獲得了音素切換的定時的定時信息,換句話說,確定顯示與各個音素對應的圖像的時間的定時信息。
在存儲部17中存儲的參考數據是對預先根據分析輸入語音的程序分析多個試驗者的語音獲得的結果進行平均而獲得的參考數據。因而,語音分析部1提取在輸入語音中包含的音素,並輸出用於確定顯示與音素對應的圖像的時間的定時信息。
圖3是解釋根據本發明實施例的圖像生成設備中的處理的流程圖。圖4至圖10用於解釋圖3的流程圖中的各個步驟。將在適當的時候參考這些圖來描述圖3。
首先,執行輸入語音的模/數(AD)轉換(S1)。這通過輸入語音(通過輸入部11輸入到模數轉換部12)來執行,其中將例如從麥克風輸入的模擬信號轉換成數位訊號。如果輸入語音是數字數據,則省略步驟S1。
接著,頻率分解部13通過剪輯出規定長度的連續偏移時間範圍(稱作頁)將語音數據劃分成多個頁,並分析各個頁的頻率分量(S2)。該規定長度短於最短的音素(大約1/10秒)。通過實驗已經發現如果該規定長度是最短音素的十分之一(即大約1/100秒),則可以獲得足夠的精度。使該規定長度更短僅僅增加了處理量,而沒有益處。因此,最好將該規定長度設置為大約1/10至1/100秒。
圖4用於解釋圖3的步驟S2的頁劃分。用圖表示輸入語音的波形,在該圖中橫軸表示時間,縱軸表示幅值。將該波形劃分成多個頁,採用一個頁作為從起始時刻D(開始語音輸入的時刻)開始的規定長度的時間範圍(在此,1024個點,其中一個點是(1/44100)秒),每一次連續地將這些頁偏移441個點。
應當指出在這種情況下儘管將規定長度設置為1024個點,但是也可以適當地進行修改以考慮例如語音信號的抽樣頻率或說話者的說話速度。而且,儘管在此因為偏移時間短於規定長度的時間範圍,在時間範圍中存在重疊部分,但是也可以採用使得不存在重疊部分的規定長度的時間範圍。
圖5示出了當執行圖3的步驟S2的頻率分量分析時頻率和幅值的關係。這是通過對圖4的各個頁中包含的波形進行N點離散傅立葉變換而獲得的圖。具體而言,如果用{x(m,k)|k=0…N-1}表示頁m中的點N處的幅值,則通過下述式(A)表示離散傅立葉變換。
A(m,k)=1Nn=0N-1-nkx(m,k)----(A)]]>其中=cos2N+isin2N]]>因為這是關於幅值軸對稱的(參見圖5),故僅使用頻率的正值區就夠了。
圖6示出了多個頁的頻率分解的結果。在圖6中,為了簡化,並列地排列相同形狀的頻率分量曲線,但是,實際上,對於各個頁,頻率分量曲線都將改變,因為輸入語音波形隨時間而不同。
隨後,變化度計算部14首先使用下面的式(B)計算相鄰頁之間的相關度(S3)。
R(x)=n=0N-1|A(x,n)||A(x+1,n)|----(B)]]>將使用圖7描述計算相關度的方式和式(B)的意義。
圖7示出了如何執行相鄰頁之間相關度的計算。圖7是計算圖6所示相鄰頁的例如頁m和頁(m+1)(即在式(B)中x=m的情況下)的相關度的示例。通過在各個頁中對與同一頻率分量相對應的幅值進行相乘,並對如此獲得的N點的值求和,從而求得相關度。在圖7中,首先,對與同一頻率分量k相對應的頁m的幅值A(m,k)和頁(m+1)的幅值A(m+1,k)進行相乘。將k從0變化到N-1進行求和,從而計算出頁m和頁(m+1)的相關度。
變化度計算部14隨後使用下面的式(C)對通過式(B)求得的相關度進行平均,以消除噪聲(S4)。
Q(x)=k=-xxR(k+x)2x+1----(C)]]>當頁改變時頻率分量曲線形狀中的變化越小,則通過式(C)求得的相關度Q(x)的值的變化越小。相反地,當頻率分量的曲線形狀變化時,與相鄰和後續頁的相關度相比,相關度Q(x)的值存在很大的變化。因而,可以將發生頻率分量曲線變化處的頁理解為限定新音素邊界的位置(即片段邊界)。將相關度之間的差值視為變化度,因此,通過指定滿足下列條件的相鄰頁,即該處的變化度與前一和後一變化度相比大於兩者,可以限定片段(S5)。在步驟S5中,片段確定部15根據相關度的差值函數指定滿足上面給出條件的相鄰頁。為此目的,使用已經去除噪聲的相關度Q(x)。接著,將使用圖8繼續描述。可以通過S(y)=Q(y+1)-Q(y)表示變化度,即相關度的差值。
圖8示出了頁關聯參數y和相關度差值S(y)之間的關係。與頁關聯參數y=1對應的S(1)表示通過從相鄰的第二和第三頁的相關度(Q(2))中減去相鄰的第一頁和第二頁的相關度(Q(1))獲得的值。儘管不能直接通過頁關聯參數指定頁,但可以指定作為片段邊界的相鄰頁組。
隨後,將變化度S(y)滿足S(y-1)<S(y)和S(y+1)<S(y)的自然數y所對應的相鄰頁組指定為音素的起始位置。如上面所描述的,輸入語音的波形在音素切換的位置上顯著地變化,所以表現出顯著變化的位置表示新音素的起始位置。在圖8的情況下,存在四個自然數y滿足S(y-1)<S(y)和S(y+1)<S(y)(分別是頁關聯參數y1、y2、y3和y4)的位置,所以從第一片段至第四片段中提取出四個音素。
頁關聯參數y1表示片段起始頁到頁y1或頁y1+1。使用哪一個都沒有問題。然而,在所分析的語音信號中,將這些視為相同的。這也適用於指定片段起始位置的其它頁關聯參數。接著,音素提取部16為在步驟S5中確定的各個片段計算特徵量(S6)。例如,一種計算普通特徵量的典型方法是在各個片段中將輸入語音分解成頻率分量,執行逆傅立葉變換,隨後執行倒譜分析的技術。一個示例是對於每個片段將輸入語音分解成頻率分量,並使用這些頻率分量的幅值作為特徵量。如果片段和頁一致,則可以使用在步驟S2中求得的各個頁的頻率分解結果。
圖9用於解釋各個片段的頻率分解。該圖說明如何通過N點傅立葉變換為各個片段計算頻率分量。在圖9中為了簡化,並列地排列相同形狀的頻率分量曲線,但是,實際上,因為輸入語音波形根據時間而不同,所以頻率分量曲線將隨各個頁而變化。
接著,通過匹配參考數據來提取音素(S7)。使用通過對預先針對多個試驗者執行從上述步驟S1至S6的程序的結果進行平均而獲得的數據作為參考數據。建立這些參考數據並存儲在存儲部17中後,就可以與隨後的用戶變化無關地實現穩定的音素提取,具體而言,可以應用於無限制數量的用戶。就匹配的方法而言,可以使用公知技術,例如DP匹配。
通過從步驟S1至S7的處理,能夠指定在輸入語音中包含的片段、音素和片段邊界的頁。而且,在本實施例中,如果指定了片段邊界的頁,則也完成了定時信息的提取,因為可以使用{起始時刻D+441點×(片段邊界頁-1)}實現到時刻的轉換。隨後,使用從語音分析部1輸出的音素和定時信息,根據在圖1中描述的結構,顯示對應於音素的動畫(S8)。
圖10用於解釋對應於音素的動畫。例如,假設選擇元音作為所提取的音素,並將各個元音的參考數據存儲在存儲部17中,如果在工作RAM 3中存儲了與圖10所示各個元音的動畫相對應的數據,則通過使用圖1的圖像生成設備能夠顯示與輸入語音中包含的各個元音相對應的動畫。例如,通過將圖10中的圖像「a」和元音「a」關聯起來,將圖10中的圖像「i」和元音「i」關聯起來,能夠顯示對應於各個元音的動畫圖像。
如上面所描述的,使用本發明的該實施例,通過預先準備多個試驗者的輸入語音的分析結果作為參考數據,能夠簡單實時地實現快速語音分析處理,而不需要為每個說話者準備參考模式。而且,因為不需要為各個說話者登記參考模式的操作,而僅需要一次準備參考模式,所以能夠應付無限制數量的說話者。此外,因為不需要用於存儲各個說話者的參考模式的資料庫,所以即使在小存儲容量的設備上也可以安裝。
可能應用的示例包括在線聊天室的動畫、視頻遊戲中的動畫(特別是以對話模式玩的視頻遊戲或角色扮演遊戲)或者在醫院或金融機構中使用的無人接待系統等。
應當指出,儘管在該實施例中描述了實施為圖像生成設備的方法,但是也可以作為根據圖3所示流程圖處理的方法或程序來實施。此外,儘管在該實施例中描述了作為圖像生成設備實施的方法,但也可以應用於例如語音/文字轉換設備,從而顯示對應於音素的文字。在這種情況下,用顯示文字的功能塊替換圖1結構圖中的顯示動畫的功能塊(圖1中除了語音分析部1之外的功能塊),並可以改變顯示動畫的步驟S8(圖3的流程圖),從而顯示文字。而且,儘管在該實施例中描述了實施為包括語音分析部1的圖像生成設備的方法,但是也可以將該語音分析部實施為單獨的設備(語音分析設備)。在這種情況下,省去圖3所示的流程圖的步驟S8,並通過與其連接的單獨設備上的處理,使用從該語音分析設備輸出的音素或定時信息。
權利要求
1.一種計算機可執行的語音分析方法,從輸入語音中檢測音素邊界,包括在所述輸入語音信號中指定時刻的第一步;提取從所述時刻開始的規定長度的時間範圍中包含的語音信號的第二步;和將所述提取的語音信號分解成頻率分量數據的第三步,其中通過在每個規定時間中重複所述第一、第二和第三步n次(其中n是至少為6的自然數),求得從n個所述規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量數據;通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),從而由n個所述頻率分量數據求得(n-1)個相關度;通過根據第k個相關度和所述第(k+1)個所述相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,從而由(n-1)個所述的相關度求得(n-2)個所述的變化度;當將m限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,求得所限定的數m;根據所限定的數m指定所述規定長度的時間範圍;並且根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段。
2.根據權利要求1的語音分析方法,還包括為所述劃分的語音信號的每個片段計算特徵量,以及通過比較所述特徵量與各個所述音素的參考數據而指定所述片段的所述音素。
3.根據權利要求1的語音分析方法,其中將所指定的時間偏移所述規定長度的時間範圍以形成相互重疊的部分。
4.根據權利要求1的語音分析方法,其中所述相關度是通過累加與同一頻率分量相對應的幅值的乘積而求得的值。
5.根據權利要求1的語音分析方法,其中通過所述提取的語音信號的頻率分量的傅立葉變換而求得所述頻率分量數據。
6.根據權利要求2的語音分析方法,其中根據通過所述劃分語音信號的片段中包含的所述語音信號的傅立葉變換而獲得的各個頻率分量的幅值來確定所述特徵量。
7.一種計算機可執行的動畫圖像生成方法,其顯示與輸入語音信號中的音素劃分相對應的圖像,包括在所述輸入語音信號中指定時刻的第一步;提取從所述時刻開始的規定長度的時間範圍中包含的語音信號的第二步;和將所述提取的語音信號分解成頻率分量數據的第三步,其中通過在每個規定時間中重複所述第一、第二和第三步n次(其中n是至少為6的自然數),求得從n個所述規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量數據;通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),從而由n個所述頻率分量數據求得(n-1)個相關度;通過根據第k個相關度和所述第(k+1)個所述相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,從而由(n-1)個所述的相關度求得(n-2)個所述的變化度;當將m限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,求得所限定的數m;根據所限定的數m指定所述規定長度的時間範圍;根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段;為所述劃分的語音信號的各個片段計算特徵量;通過比較所述特徵量與各個所述音素的參考數據來指定所述片段的所述音素;以及與所述片段相應地切換顯示與所述片段的所述音素對應的圖像。
8.一種可由包括CPU的計算機執行並檢測輸入語音中的音素邊界的語音分析程序,所述程序使CPU執行在所述輸入語音信號中指定時刻的第一步;提取從所述時刻開始的規定長度的時間範圍中包含的語音信號的第二步;和將所述提取的語音信號分解成頻率分量數據的第三步,其中通過在每個規定時間中由所述CPU重複所述第一、第二和第三步n次(其中n是至少為6的自然數),求得從n個所述規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量數據;通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),從而由n個所述頻率分量數據求得(n-1)個相關度;通過根據第k個相關度和所述第(k+1)個所述相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,從而由(n-1)個所述的相關度求得(n-2)個所述的變化度;當將m限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,求得所限定的數m;根據所限定的數m指定所述規定長度的時間範圍;並且根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段。
9.根據權利要求8的語音分析程序,還使CPU執行為所述劃分的語音信號的每個片段計算特徵量,以及通過比較所述特徵量與各個所述音素的參考數據來指定所述片段的所述音素。
10.根據權利要求9的語音分析程序,其中,將所指定的時間偏移所述規定長度的時間範圍以形成相互重疊的部分;所述相關度是通過累加與同一頻率分量相對應的幅值的乘積而求得的值;通過語音信號的所述提取的頻率分量的傅立葉變換而求得所述頻率分量數據;並且根據通過所述劃分語音信號的片段中包含的所述語音信號的傅立葉變換而獲得的各個頻率分量的幅值來確定所述特徵量。
11.一種可由包括CPU的計算機執行並顯示與輸入語音信號中的音素劃分相對應的圖像的動畫圖像生成程序,所述程序使CPU執行在所述輸入語音信號中指定時刻的第一步;提取從所述時刻開始的規定長度的時間範圍中包含的語音信號的第二步;和將所述提取的語音信號分解成頻率分量數據的第三步,其中通過在每個規定時間中重複所述第一、第二和第三步n次(其中n是至少為6的自然數),求得從n個所述規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量數據;通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),從而由n個所述頻率分量數據求得(n-1)個相關度;通過根據第k個相關度和所述第(k+1)個所述相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,從而由(n-1)個所述的相關度求得(n-2)個所述的變化度;當將m限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號時,即m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,求得所限定的數m;根據所限定的數m指定所述規定長度的時間範圍;根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段;為所述劃分的語音信號的各個片段計算特徵量;通過比較所述特徵量與各個所述音素的參考數據來指定所述片段的所述音素;以及與所述片段相應地切換顯示與所述片段的所述音素對應的圖像。
12.存儲了根據權利要求8至權利要求12中任意一項所述的程序的存儲介質。
13.一種語音分析設備,包括頻率分解部,其通過以規定的間隔重複n次(其中n是至少為6的自然數)指定輸入語音信號中的時刻、提取從所述時刻開始的規定長度的時間範圍中包含的語音信號、並將所述提取的語音信號分解成頻率分量數據,從而求得從n個規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量;變化度計算部,通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),由n個所述頻率分量數據求得(n-1)個相關度,並通過根據第k個相關度和所述第(k+1)個所述相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,從而由(n-1)個所述的相關度求得(n-2)個所述的變化度;以及片段確定部,其求得所限定的數,所限定的數m被限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號,即所限定的數m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,該片段確定部根據所限定的數m指定所述規定長度的時間範圍,並根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段。
14.一種動畫圖像生成設備,包括頻率分解部,其通過以規定的間隔重複n次(其中n是至少為6的自然數)指定輸入語音信號中的時刻、提取從所述時刻開始的規定長度的時間範圍中包含的語音信號、並將所述提取的語音信號分解成頻率分量數據,從而求得從n個規定長度的時間範圍中包含的語音信號中提取出的n個頻率分量;變化度計算部,通過根據與相互鄰接的所述規定長度的時間範圍中包含的所述語音信號相對應的第i項所述頻率分量數據和第(i+1)項所述頻率分量數據求得第i個相關度(其中i是至少為1且不大於(n-1)的自然數),由n個所述頻率分量數據求得(n-1)個相關度,並通過根據第k個相關度和所述第(k+1)個所述相關度(其中k是至少為1且不大於(n-2)的自然數)求得第k個變化度,從而由(n-1)個所述的相關度求得(n-2)個所述的變化度;片段確定部,其求得所限定的數,所限定的數m被限定為指定在從第1至第(n-2)的(n-2)個變化度中大於與所指定的變化度相鄰的兩個變化度的變化度的編號,即所限定的數m滿足條件當m從2到(n-3)每次變化1時,第m個變化度大於第(m-1)個變化度,並大於第(m+1)個變化度,該片段確定部根據所限定的數m指定所述規定長度的時間範圍,並根據所述指定的時間範圍將所述輸入語音信號劃分成多個片段;音素提取部,其通過為所述劃分的語音信號的各個片段計算特徵量,並比較各個所述音素的參考數據與所述特徵量來指定所述片段的所述音素;以及動畫顯示部,其與所述片段相應地切換顯示與所述片段的所述音素對應的圖像。
全文摘要
提供了一種語音分析方法和設備,由此能夠實時地執行處理,並能夠應付無限制數量的說話者。一種計算機可執行的語音分析方法從輸入語音中檢測音素邊界,並且特徵在於重複在輸入語音信號中指定時刻的步驟、提取從該時刻開始的規定長度的時間範圍中包含的語音信號的步驟、以及將所提取的語音信號分解成頻率分量數據的步驟;從規定長度的時間範圍中包含的語音信號中求得多個頻率分量數據;使用與規定長度的相鄰時間範圍中包含的語音信號相對應的頻率分量數據求得多個相關度;求得變化度大於相鄰的兩個變化度的時間範圍;以及,根據這些時間範圍將輸入的語音信號劃分成多個片段。
文檔編號G06T13/00GK1661675SQ200510051030
公開日2005年8月31日 申請日期2005年2月25日 優先權日2004年2月26日
發明者工藤裕一 申請人:世嘉股份有限公司