新四季網

漢語音位-視位參數的計算機轉換方法和系統的製作方法

2023-08-06 08:17:16

專利名稱:漢語音位-視位參數的計算機轉換方法和系統的製作方法
技術領域:
漢語音位-視位參數的計算機轉換方法和系統屬於語音-人臉動態信息之間的信息轉換和處理技術領域。
視位國際標準化組織運動圖像專家組MPEG(Moving Picture Expert Group)制定的國際標準MPEG-4(ISO/IEC 14496-2)給出了視位的定義視位是指與某一音位相對應的嘴、舌頭、下顎等可視發音器官的物理形狀。一種語言的音位約有幾十個。有些音位在發音時其面部圖像相似,即音位與視位之間存在著多對一的關係,因此需要對音位進行合理的分類,據此建立相應的視位集。MPEG-4按照國際音標定義了1 5靜態視位。各種語言具有不同的音位內容和語音系統,相應的視位也有所不同。目前國外定義了英語、德語等語言的靜態視位,而漢語靜態視位還沒有一個完整的定義和具體分類結果;即使有,也是根據發音規則主觀確定,不同的人作了不同的分類,沒有人採用一個較為客觀的分類方法。但是,研究人在講話時臉部圖像的變化以及聲音與人臉圖像的關係在計算機合成人臉動畫、聾啞人輔助發聲練習、漢語文字-可視語音轉換上有著重大的意義。
在計算機內,視位就是以某種參數表達的圖像。上述MPEG-4國際標準定義了描述視位的參數人臉動畫參數FAP(Facial Animation Parameters)。目前,還沒有專門描述漢語視位的視位參數。另外,MPEG-4標準還定義了靜態視位(Static Viseme),但人們發音本身是一個動態的過程,簡單地用一個靜態視位來表示必然丟失許多有用的信息。另一方面,在人臉動畫合成過程中也需要任意時刻的人臉動畫參數。現在解決這一問題的方法有二一是由一個個靜態FAP參數在時間上進行插值計算,以得出連續語流中任意時刻的人臉動畫參數。對連續語流中視位參數的插值計算大多採用固定的函數進行插值;二是對協同發音的處理,這是指連續說話過程中,每個視位都要受到它周圍其它視位的影響,如美國加洲大學的Cohen和Massaro提出的協同發音處理模型;在漢語可視語音合成中未見到相關報導,而且上述方法都是從靜態視位出發,考慮相互之間的影響和過渡,而沒有把視位作為一個完整的動態過程來考慮。
本發明的方法其特徵在於,它依次包含以下步驟(1)選定需要錄像和錄音的漢語音位,建立包括複合元音的視位在內的基本視位集所需的音位系列;(2)在讀出步驟(1)所述音位系列中所有聲韻母時,放置與人臉正面成45度角的鏡子錄像,同步完成人臉正面和側面圖像的錄像和錄音,再通過與計算機相連的數字圖像採集卡,把錄像數據轉換為音視頻同步的數字圖像數據;(3)從音視頻流中確定漢語靜態視位的抽取時刻;(3.1)由AVI文件中與時間有關的語音信號數據,按下式計算從第n0個樣本開始的一幀語音的短時能量 ,隨時間依次得到短時能量隨時間變化的曲線,取語音短時能量曲線的中心時刻作為韻母靜態視位的抽取時刻;En0=n=n0N-1+n0(S2(n))----n0nN-1+n0]]>其中N為計算語音短時能量的語音幀長(樣本點數),n0為起始樣本號,S(n)表示第n個樣本的語音信號幅度值;(3.2)語音短時能量曲線隨時間變化的起始時刻作為聲母靜態視位的抽取時刻;(4)從國際標準化組織運動圖像專家組MPEG(Moving Picture Expert Group)制定的國際標準MPEG-4(ISO/IEC 14496-2)所定義的68個人臉動畫參數FAP(Facial AnimationParameters)中選取24個FAP參數來描述漢語視位,現列出如下#3open_jaw下顎張開度#16push_b_lip 下唇突出度#4lower_t_midlip內上唇中點下移量#17push_t_lip 上唇突出度#5raise_b_midlip內下唇中點上移量#51lower_t_lip_o外上唇中點下移量#6stretch_l_cornerlip左內唇角拉開度 #52raise_b_midlip_o外下唇中點上移量#7stretch_r_conerlip右內唇角拉開度 #53stretch_l_cornerlip_o左外唇角拉開度#8lower_t_lip_lm內上唇左中點下移量 #54stretch_r_conerlip_o右外唇角拉開度#9lower_t_lip_rm內上唇右中點下移量 #55lower_t_lip_lm_o外上唇左中點下移量#10raise_b_lip_lm內下唇左中點上移量 #56lower_t_lip_rm_o外上唇右中點下移量#11raise_b_lip_rm內下唇右中點上移量 #57raise_b_lip_lm_o外下唇左中點上移量#12raise_l_cornerlip左內唇角上移度 #58raise_b_lip_rm_o外下唇右中點上移量#13raise_r_cornerlip右內唇角上移度 #59raise_l_cornerlip_o 左外唇角上移度#14thrust_jaw下顎突出度 #60raise_r_cornerlip_o 右外唇角上移度
(5)利用計算機自動測量或手動測量視頻流中面部特徵點的運動,計算出相應的漢語靜態視位的FAP參數(5.1)定義以下的人臉特徵點雙鼻孔點,外唇左右角點和上、下唇中點,內唇左右角點和上、下唇中點,側面圖中的鼻尖點,上、下唇突出點和下顎突出點和下顎下角點;還有,外唇上輪廓線上左、右半邊的中點,內唇上輪廓線上左、右半邊的中點,外唇下輪廓線上左、右半邊的中點,內唇下輪廓線上左、右半邊的中點;(5.2)利用公知技術對上述人臉特徵點定位,再根據MPEG-4標準的規定計算相應的漢語靜態視位參數FAP;(6)通過計算機自動聚類分析產生漢語基本視位集,包括根據聚類誤差建立漢語音位的視覺混淆樹和選擇適當的類別數,它依次包含以下步驟(6.1)設初始表類別數為總視位個數,對聲母為M=20,韻母M=15,即把每個視位作為一類,設總誤差J(M)=0;(6.2)選擇兩類合併,M=M-1,設合併後形成類別號為m,類中視位個數為Nm,計算合併後形成的第m個類的類中心m(p)=1Nmk=1NmFapk(p);]]>(6.3)在所有可能的兩兩合併中,選擇使得按標準歐氏距離由下式計算出的總的誤差最小 ,並記錄這一類別數的總誤差J(M),其中Fapi(k)表示第k個視位的第p個FAP參數值,P為所採用的總的FAP參數個數;(6.4)重複步驟(6.2)、(6.3)步,直到總的類別數減為1;(6.5)根據以上幾步所得到的不同類別數下每一類中的音位成員,畫出按各個音位視位相似性進行合併過程的樹狀圖;(6.6)畫出誤差隨類別數變化的曲線,畫出視位分類線去選擇誤差劇烈增加之前的類別數作為最佳的類別;(6.7)視位分類線下對應的視位即通過對漢語靜態視位分類而得到的漢語基本視位集共20個,現列出如下#0NA(自動狀態)#7 r #14 er#1b,p,m #8 z,c,s#15 i#2f #9 a,ang #16 o#3d,t,n,l #10 ai,an #17 ou#4g,k,h #11 ao #18 u#5j,q,x #12 e,eng #19 ü#6zh,ch,sh #13 ei,en
(7)建立一個用於描述某一視位對應的FAP參數變化過程的基於權值融合的動態視位模型WB-DVM(Weight Blending-Dynamic Viseme Model)每個動態視位的FAP參數由一個基本控制權值函數和前、後兩個無聲模型控制權值函數來決定,三個控制權值函數的基本函數形式都是指數函數,可表示為W=e||c]]>其中α給出視位中心處的控制權值幅度;θ為控制權值衰減或增加的速度;|τ|表示當前時刻到控制權值函數中心點時刻的時間距離;c為一常數;α、θ、|τ|、c都大於零;前無聲模型控制權值函數Wl為Wl=lel||c---0,]]>Wl=le-l||c--->0,=tsi-tl-t,]]>後無聲模型控制權值函數Wr為Wr=re-r||c---0,]]>Wr=rer||c--->0,=tei-tr-t,]]>第i個聲母視位基本控制權值函數Wi為Wi=ie-i(-)||c---0,]]>Wi=ie-i(+)||c--->0,=tsi-tii-t,]]>第i個韻母視位基本控制權值函數Wi為Wi=ie-i(-)||c---0,]]>Wi=ie-i(+)||c--->0,=tci-tfi-t,]]>其中tsi、tei、tci分別為語音段的起始時刻、結束時刻和中心時刻,tii為從語音段的開始時刻tsi到聲母控制權值函數參數中心點的距離,tfi為從語音段的中心時刻tci到韻母控制權值函數參數中心點的距離,它與韻母的發音長度有關,可記為tfi=kfi*(tei-tsi),-0.5≤kfi≤0.5;tl、tr分別表示從前無聲模型中心到語音起始時刻和從後無聲模型中心到語音結束時刻的時間距離,τ表示當前時刻t到控制權值函數中心點時刻的距離;單獨發某一音位i時,任意時刻的第p個FAP參數的動態參數值由這三者按其控制權值函數值加權計算得出Fip(t)=Wi(t)*TipWi(t)+Wl(t)+Wr(t);]]>其中T表示視位在其控制權值中心時刻的視位參數值,Tip即指視位i第p個FAP參數的中心處參數值;在連續語流中,各個視位的口形受到其周圍視位的影響,最終的FAP參數可以由各個FAP參數按基本控制權值函數值加權得到Fp(t)=(i=1I(Wi(t)Tip))/(i=1IWi(t))]]>其中的i包含了前、後無聲模型,I為協同發音所考慮的視位及無聲模型總個數;相鄰視位之間的無聲模型由前後無聲模型相交構成;(8)動態視位模型中的各個參數的確定(8.1)需要確定的參數為控制權值函數的指數參數c,與前後無聲模型有關的參數αl、αr、θl、θr、tl、tr;確定每個視位的參數αi(中心處控制權值函數值)、θi(-)、θi(+)(由控制函數中心向前和向後的衰減係數)、tfi或kfi(控制權值函數中心與語音中心的時間距離)或tii(控制權值函數中心與語音起始時刻的時間距離),以及第p個FAP參數的中心處參數值Tip;(8.2)估計模型參數,即採用分組、分階段、分步驟進行機器學習的方法從實際數據中獲取先根據用上述步驟確定的漢語基本靜態視位集,對每個靜態視位類所對應的音位分別進行發音錄像,並用上述FAP參數測量方法得到實際發音過程中的FAP參數,再依次按以下步聚估算(8.2.1)根據經驗設定所有FAP參數共用的模型參數的初始值指數參數c=1.0,tl=100ms,tr=60ms;αl=αr=1,θl=θr=0.03;(8.2.2)設置第i個韻母所對應的視位即韻母視位的模型參數αi=1,θi(-)=θi(+)=0.03,kfi=0,設置FAP參數中心處參數值為靜態視位的FAP參數值,並進行學習,以模型產生的FAP參數與實測FAP參數的誤差平方和作為相似度準則或能量函數,即 ,其中N為實際測量的音位發音過程中動態視位長度,單位為圖像幀,Fapi,k(p)表示第i個韻母視位的第k幀FAP參數p的實測數值,Fap′i,k(p)表示模型生成的第i個韻母視位的第k幀FAP參數p的數值;(8.2.3)利用公知的梯度下降法調節各個參數,經多次疊代使得總的誤差Ji最小,其中各個參數的調節範圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),kfi(-0.5~0.5);(8.2.4)重複步驟(8.2.2)~(8.2.3),直到學完所有韻母視位的模型參數,並記錄總的誤差和 ,其中K為總的韻母視位個數;(8.2.5)用上述梯度下降法調節指數參數c和前後無聲模型參數tl、tr、αl、αr、θl、θr後返回步驟(8.2.2),經多次疊代使總的誤差和J最小,各個參數的調節範圍為c(0.8~1.2),tl、tr(0~200ms),αl、αr(0.5~1.5),θl、θr、(0.01~0.05);(8.2.6)學習第i個聲母所對應的視位參數時,對包括第i個聲母的音節進行發音錄像,並測得整個音節發音過程的視位參數;(8.2.7)設置第i個聲母即聲母視位的模型參數αi=1,θi(-)=θi(+)=0.03,tii=0,設置FAP參數中心處參數值為靜態視位的FAP參數值,並進行學習;根據模型參數和上述步驟學得的指數參數c和前後無聲模型參數tl、tr、αl、αr、θl、θr以及韻母模型參數計算出整個音節的視位參數,以模型參數產生的FAP參數與實測FAP參數的誤差平方和作為相似度準則或能量函數, ,其中N為實際測量的音節發音過程中動態視位長度,單位為圖像幀,Fapi,k(p)表示整個音節的第k幀FAP參數p的實測數值,Fap′i,k(p)表示模型生成的整個音節的第k幀FAP參數p的數值;(8.2.8)利用公知的梯度下降法調節各個參數,經多次疊代使得總的誤差Ji最小,其中各個參數的調節範圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),tii(0~200ms);(8.2.9)重複步驟(8.2.6)~(8.2.8),直到學完所有聲母視位的模型參數。
本發明的系統其特徵在於,它含有中央處理器,經總線與中央處理器相連的視頻圖像採集設備中,聲音輸入/輸出設備,視頻圖像顯示設備、鍵盤、滑鼠以及內存儲器。
實驗證明,它達到了預期的目的。
圖2漢語音位-視位參數轉換方法和系統的計算機流程圖。
圖3雙視覺錄像及人臉特徵點定位的示例圖。
圖4漢語韻母靜態視位的抽取時刻示意圖。
圖5漢語聲母靜態視位的抽取時刻示意圖。
圖6嘴唇輪廓定位用的變形模板曲線圖。
圖7漢語靜態視位分類的程序流程圖。
圖8是根據誤差最小原則建立的漢語聲母和韻母音位的視覺混淆樹。
圖9分別漢語聲母和韻母視位在合併過程中總的分類誤差隨視位分類數變化的曲線。


圖10漢語動態視位模型的控制權值函數及FAP參數變化過程示意圖。
圖11連續語流中的無聲模型構成的示意圖。
圖12漢語動態視位模型參數學習過程的示意圖。
圖13音位-視位轉換系統流程圖。
圖14漢語基本視位集和動態視位模型建立方法的基本流程圖。
圖2是漢語音位-視位參數轉換方法和系統的計算機流程圖。圖中右半部分是從漢語音位集生成漢語基本視位集和動態視位模型的過程。左半部分是由漢語音位轉換成視位參數的過程。下面將逐一解釋之。
從圖2中看出,首先選定需要錄像和錄音的漢語音位[模塊2]。我們參照《漢語拼音方案》、《現代漢語詞典》,根據漢語發音規則和音位發音過程中參數的變化規律,選定建立漢語視位所需音位列表,如表1和表2。表1是建立基本視位集所需音位或音位序列,包括漢語聲母、單元音韻母、前響的二合元音韻母,共計36個聲韻母視位,需要對這些音位進行發音錄像。表二是不在表一中的其他複合元音音位,它們所對應的視位由表一中的元音視位組合而成。
表1 建立基本視位集所需音位列表

對於不包括在漢語基本靜態視位中的音位,如漢語中後響二合元音韻母和三合元音韻母,可以根據一定規則將其分解為基本靜態視位,分解方法如表2所示。
表2複合元音的視位由表一中的元音視位組合而成

關於漢語聲韻母、輔音、元音及前響、後響的定義可參見《漢語拼音方案》、《現代漢語詞典》。
首先選擇發音人,讀出表一中的所有聲韻母[模塊2]。放置與人臉正面成45度角的鏡子錄像,同步獲得人臉正面和側面圖像,如圖3。完成雙視角的同步錄像和錄音。
通過數字圖像採集卡,將錄像數據轉換為音視頻同步的數字圖像數據,數據格式為Windows AVI文件。
靜態視位是指代表某音位發音過程中某一時刻的一幀典型的面部圖像。基於音頻視頻流,選擇適當時刻作為抽取靜態視位的時刻[模塊3]。如圖3是發某音位時的視位圖像。通過對漢語發音特點的研究,我們提出一種基於短時能量的確定漢語靜態視位抽取時刻的方法。語音的短時能量的計算已如上述。我們發現,在人們對一個包括聲母和韻母的漢語音節發音過程中,漢語韻母所佔時間較長,在發音的中部能量呈現穩定的狀態,口形也呈穩定狀態。因此應取語音短時能量的中心時刻作為韻母靜態視位的抽取時刻,如圖4所示,圖中實線為語音的短時能量隨時間變化曲線,虛線為外唇高度變化曲線,豎直線所對應的橫軸坐標為韻母靜態視位抽取時刻;對於聲母,其視位在聲音發出前已形成,在發音過程中向韻母視位過渡。因此,我們取語音短時能量的起始時刻作為聲母靜態視位的抽取時刻,如圖5所示。外唇高度數據指外上唇中點到外下唇中點的距離,具體獲取方法在下述的嘴唇輪廓的定位。
對於視位參數,發明中對視位的描述採用MPEG-4(ISO/IEC 14496-2)所定義的人臉動畫FAP參數[模塊4],從MPEG-4所定義的68個FAP參數中選取24個來描述漢語視位,包括FAP3#-FAP14#,FAP16#-FAP17#,FAP51#-FAP60#,如表3所示表3 描述漢語視位的FAP參數


人臉特徵點的定位雙鼻孔點的定位在上一幀圖像中標出的雙鼻孔點周圍確定矩形框。設上一幀圖像中雙鼻孔點間距為K像素,則矩形框的左邊界為從上一幀的左鼻孔點向左移K像素,右邊界為從上一幀的右鼻孔點向右移K像素,上下邊界分別為從上一幀圖像中雙鼻孔點水平均值向上和向下移K像素。對此矩形框內的所有像素計算其亮度,對最暗的20%像素以區域水平中心為界分左右兩部分計算其重心,即定為本幀圖像中的雙鼻孔點。計算公式如下x=1Mi=1Mxi]]>y=1Mi=1Myi]]>其中xi、yi分別為第i個暗區像素點的橫坐標和縱坐標,M為總的左邊或右邊暗區像素點個數,x、y為計算出的左邊或右邊暗鼻孔點坐標。
嘴唇輪廓的定位在採用變形模板(Deformable Template)的方法,分別用二次曲線和四次曲線來擬合內外唇輪廓線,如圖6所示。
內唇曲線由兩個二次曲線組成,其方程為上唇y=h3(1-x2wi2)]]>下唇y=h4(1-x2wi2)]]>其中h3和h4分別為模板中心到內上唇和內下唇點的距離,wi為內唇寬度的一半;外上唇曲線由兩個四次曲線組成,外下唇曲線由一個四次曲線組成,其曲線方程分別為外上唇左半部分y=h1(1-(x+a)2wo2)+4q1((x+a)4wo4-(x+a)2wo2)]]>外上唇右半部分y=h1(1-(x-a)2wo2)+4q1((x-a)4wo4-(x-a)2wo2)]]>外下唇y=h2(1-x2wo2)+4q2(x4wo4-x2wo2)]]>其中h1和h2分別為模板中心到外上唇和外下唇點的距離,wo為外唇寬度的一半,a表示四次上唇曲線中心處與上唇中點的距離,q1和q2表示曲線與二次曲線的差別大小,詳見圖6。
側面圖中特徵點的定位
設初始側面圖中手動標出的鼻尖點到下顎下角點的距離為M像素,分別以鼻尖點左移M/3像素和右移M/3像素為膚色點和背景點,記錄其像素值。在後續圖像幀中,對上一幀圖中鼻尖點左移2*M/3、右移M/3、上移M/5、下移3*M/2構成的矩形框內所有像素點分為膚色點和背景點,從右向左找出邊緣輪廓線,邊緣輪廓線上最右三點分別為鼻尖點、下唇突出點和下唇突出點。下顎下角點為曲線上下唇突出點以下斜率等於1的點,下顎突出點為下唇突出點與下顎下角點縱向中點處的邊緣點。
人臉動畫參數FAP的計算由初始點位置計算出口鼻距離MNSO(我們以左右鼻孔點的中點到內上唇中點的距離近似)和外唇寬度MWO,並根據MNS=MNSO/1024和MW=MWO/1024轉換為MNS和MW。在後續幀中根據特徵點相對於初始點位置的位移量,可以按照MPEG-4標準的規定算出相應的FAP參數。
對測量得到的每個音位所對應的FAP參數進行聚類分析[模塊6],即對相似的靜態視位進行合併,找到所有音位中有區別又具代表性的靜態視位。其集合稱為漢語基本視位集。圖7是漢語靜態視位分類的程序流程圖。考慮到聲母與韻母的差別,聚類分析在聲母和韻母間分別進行,首先根據誤差最小原則建立的漢語聲母和韻母音位的視覺混淆樹,其步驟如上所述。
在圖8中,最下端是所有待合併的視位,最上端將所有視位合為一類。中間每一次將兩個類別合併,合併處的縱坐標代表了合併誤差的大小,合併處縱坐標越小,說明這兩類的相似性越強。其中圖8(a)是聲母視位,圖8(b)是韻母視位。
如圖9所示,誤差並非線性變化,應該選擇誤差劇烈增加之前的類別數作為最佳的類別。圖9中虛線中一種選擇結果所對應的視位分類線。其中圖9(a)是聲母視位,圖9(b)是韻母視位。表4即得到漢語基本視位集。
表4漢語基本視位集

本發明中所述的基於權值融合的動態視位模型WB-DVM(Weight Blending-DynamicViseme Model)是一個用來描述某一視位所對應的FAP參數變化過程的數學模型[模塊7]。
通過對大量發音錄像的觀察和跟蹤處理後我們發現,在人們開始發音時,面部表情超前於語音,如聲音未發出之前,嘴已開始動;在人們結束髮音時,面部表情滯後於語音,如聲音停止後,嘴還未合上。面部表情經歷了一個從無到有再逐漸消失的過程。因此我們將每個動態視位的FAP參數由一個基本控制權值函數和前後兩個無聲模型控制權值函數來決定。整個動態視位的參數變化過程由靜態FAP參數在這三個控制權值函數共同作用下形成,其建模過程已如上述。
表5就是在不同控制權值函數中動態視位模型的各個參數,其定義已如上述。
表5不同控制權值函數中動態視位模型的各個參數

以上各個時刻與時間段的關係、控制權值函數曲線及最終FAP參數曲線見圖10所示。圖中橫坐標代表時間,上部分的縱坐標代表控制權值函數值,下半部分的縱坐標代表FAP參數值(對於實線)和語音能量值(對於虛線)。圖中上半部分為前、後無聲模型與視位模型的控制權值函數曲線,其中前、後無聲模型控制權值函數曲線中超出2.2的部分以直線代替,但其實際值是以指數上升的。圖中上半部分中的虛直線指出了三個α係數,並假定αi=αl=αr。圖中下半部分中的虛線為語音能量的示意圖,虛直線在橫坐標上指出了語音時間中心。在圖11中,虛線表示在連續語流中前後兩個無聲模型相交後拋棄的部分,中間的實線表示新構成的無聲模型權值函數曲線。
動態視位模型中的各個參數和確定方法已如上述。其動態視位模型參數學習流程見圖12。
本發明用於單位—視位參數轉換系統的主流程圖見圖13。其漢語基本視位集和動態視位模型的建立方法的基本流程圖見圖14。
下面以讀「大學」一詞時視位參數轉換為例加以具體說明。
1、所需視位動態視位模型的建立(1)「大學」一詞的拼音串為』da xue』,涉及到的音位有』d』、』a』、』x』、』 ü』和』e』;
(2)將包括』a』、 』e』、』i』、』ü』、』xi』和』de』音節發音的錄像和錄音數據讀入計算機內存(取』i』是為了與』xi』相結合學習聲母視位』x』的模型參數),其中圖像的採樣率為25Hz,解析度為720X576像素;語音的採樣率為11.025kHz,16bit量化;(3)利用計算機計算語音的短時能量,幀長採用40ms,每幀樣本點個數為N=300;統計所有幀短時能量的最大值Emax和最小值Emin以TH=Emin+(Emax-Emin)/10為閾值區分出所有時間範圍內的語音段和無聲段。
(4)根據已知錄音文本的順序,得到音節』de』、』xi』、』a』、』e』、』i』和』ü』對應的語音段時間範圍,如表6中第3、4列所示;根據韻母取語音中心時刻、聲母取語音起始時刻的原則,得到對應的靜態視位時間分別如表6中第6列所示。
表6各個視位在錄像中相關時刻

(5)按對模塊5說明中所述的方法測出面部各特徵點的位置並計算得出每個靜態視位的FAP參數,如下表7所示


(6)因為面部動作超前於語音開始並滯後於語音結束,可以從各個音節的語音開始處向前找到視位開始時刻,從語音結束處向後找到視位結束時刻。以FAP3#和FAP4#及FAP5#都等於零作為搜索終止條件。得到音節』de』、』xi』、』a』、』e』、』i』和』ü』對應的視位時間範圍,如表6中第2、5列所示。對應的圖像幀數分別為32、24、39、32、33和40。
(7)對於得到的原始視位參數,按圖12所示的學習流程,得到視位』a』、』e』、』i』、』ü』、』x』和』d』的動態視位模型參數。具體學習過程如下(A)設定初始參數值指數係數c=1.0,前後無聲模型參數tl=100ms,tr=60ms,αl=αr=1,θl=θr=0.03;(B)設置韻母視位』a』(視位編號為』9』)的模型參數α9=1,θ9(-)=θ9(+)=0.03,kf9=0,設置初始中心處參數值為靜態視位的FAP參數值,如表5中第2列所示。實際跟蹤得出的視位時長1580ms,根據以上設定的模型參數和式(4)計算出合成的各個FAP參數值,並計算誤差平方和,即

,式中p的取值範圍為所有用到的FAP參數號,即3~14,16~17,51~60。設定各個參數的改變步進量為Δα=0.05、Δθ=0.005、ΔT=10、Δk=0.05,分別將各參數減少和增加其步進量後計算出新的誤差平方和J9-和J9+,利用梯度下降法調節各個參數,經多次疊代使得總的誤差J9最小。各個參數的調節範圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),kfi(-0.5~0.5)。最終得到視位』a』在固定係數c及無聲模型參數情況下的一組最佳參數。(C)重複(B)學習韻母視位』e』、』i』、』ü』,並記錄總的誤差和

(D)設定各個參數的改變步進量為Δc=0.05、Δα=0.05、Δθ=0.005、Δk=0.05,分別將各參數減少和增加其步進量後計算出新的誤差平方和J-和J+,根據梯度下降法調節指數係數c和前後無聲模型各個參數tl、tr、αl、αr、θl、θr,各個參數的調節範圍為c(0.8~1.2),tl、tr(0~200ms)、αl、αr(0.5~1.5),θl、θr、(0.01~0.05)。然後返回(E),經多次重複(B)、(C)、(D)疊代使總的誤差和J最小,找到最佳的指數係數和無聲模型參數。
學習得到的指數係數為c=0.9663,前後無聲模型參數tl=64ms,tr=45ms,αl=0.8383,αr=0.9332,θl=0.0351,θr=0.0479;及四個韻母視位參數如下表所示
表8韻母視位動態視位模型的參數值

(F)根據以上步驟確定的指數參數、無聲模型參數和韻母視位模型』e』的參數,從音節』de』中學習聲母視位』d』的視位模型參數設置聲母視位』d』(視位編號為』3』)的模型參數α3=1,θ3(-)=θ3(+)=0.03,tf3=50ms,實際跟蹤得出的音節』de』的視位時長1240ms,根據以上得出的指數係數、前後無聲模型參數以及韻母』e』的視位模型參數,可由式(4)計算出合成的各個時刻的FAP參數值,並計算出合成值與實際跟蹤值的誤差平方和,即

,式中p的取值範圍為所有用到的FAP參數號,即3~14,16~17,51~60。設定各個參數的改變步進量為Δα=0.05、Δθ=0.005、ΔT=10、Δt=20ms,分別將各參數減少和增加其步進量後計算出新的誤差平方和J3-和J3+,利用梯度下降法調節各個參數,經多次疊代使得總的誤差J3最小。各個參數的調節範圍為α3(0.5~1.5),θ3(-)、θ3(+)(0.01~0.05),ti3(0~200ms)。最終得到聲母視位』d』的模型參數為α3=1.2432,θ3(-)=0.0457、θ3(+)=0.0432,ti3=8ms、FAP3#中心值T3=156。
與學習視位』d』模型參數的方法相同,利用指數係數、前後無聲模型參數以及韻母』i』的視位模型參數,從音節』xi』中學習聲母視位』x』的模型參參數。最終得到聲母視位』x』的模型參數為α5=1.1982,θ5(-)=0.0361、θ5(+)=0.0354,ti5=5ms、FAP3#中心值T5=125。
2、音位到視位參數的轉換(1)查找靜態視位集中聲韻母與視位類別號的對應關係得到下面的靜態視位號序列(前後有無聲模型,中間沒有語音停頓,無聲模型自動消失)

(2)根據語音合成系統從語音庫中得到對應各音位的時長如下(也可以人為指定,單位為ms)

總的視位參數變化過程為780ms。
(3)設對某一視位的協同發音只考慮其前後相鄰的兩個視位對它的影響,則根據(2)可得到計算不同時間範圍內的視位參數時所用到的動態視位模型編號如下表所示

(4)在以上各個時間段內,根據所用到的動態視位模型可由(4)式計算出任意時刻視位參數值。下表計算出的各時刻下顎張開度(FAP3#)參數值,其他參數計算方法相同。

權利要求
1.漢語音位-視位參數的計算機轉換方法,含有在發音人讀出所有聲韻時,放置與人臉正面成45度角的鏡子錄像,同步完成人臉正面和側面圖像的錄像和錄音,通過與計算機相連的數字圖像採集卡,把錄像數據轉換為音視頻同步的數字圖像數據的步驟,其特徵在於,它依次包含以下步驟(1)選定需要錄像和錄音的漢語音位,建立包括複合元音的視位在內的基本視位集所需的音位系列;(2)在讀出步驟(1)所述音位系列中所有聲韻母時,放置與人臉正面成45度角的鏡子錄像,同步完成人臉正面和側面圖像的錄像和錄音,再通過與計算機相連的數字圖像採集卡,把錄像數據轉換為音視頻同步的數字圖像數據;(3)從音視頻流中確定漢語靜態視位的抽取時刻;(3.1)由AVI文件中與時間有關的語音信號數據,按下式計算從第n0個樣本開始的一幀語音的短時能量 ,隨時間依次得到短時能量隨時間變化的曲線,取語音短時能量曲線的中心時刻作為韻母靜態視位的抽取時刻;En0=n=n0N-1+n0(S2(n))---n0nN-1+n0]]>其中N為計算語音短時能量的語音幀長(樣本點數),n0為起始樣本號,S(n)表示第n個樣本的語音信號幅度值;(3.2)語音短時能量曲線隨時間變化的起始時刻作為聲母靜態視位的抽取時刻;(4)從國際標準化組織運動圖像專家組MPEG(Moving Picture Expert Group)制定的國際標準MPEG-4(ISO/IEC 14496-2)所定義的68個人臉動畫參數FAP(Facial AnimationParameters)中選取24個FAP參數來描述漢語視位,現列出如下#3 open_jaw下顎張開度 #16push_b_lip下唇突出度#4 lower_t_midlip內上唇中點下移量 #17push_t_lip上唇突出度#5 raise_b_midlip內下唇中點上移量 #51lower_t_lip_o外上唇中點下移量#6 stretch_l_cornerlip左內唇角拉開度#52raise_b_midlip_o外下唇中點上移量#7 stretch_r_conerlip右內唇角拉開度 #53stretch_l_cornerlip_o左外唇角拉開度#8 lower_t_lip_lm內上唇左中點下移量 #54stretch_r_conerlip_o右外唇角拉開度#9 lower_t_lip_rm內上唇右中點下移量 #55lower_t_lip_lm_o外上唇左中點下移量#10raise_b_lip_lm內下唇左中點上移量 #56lower_t_lip_rm_o外上唇右中點下移量#11raise_b_lip_rm內下唇右中點上移量 #57raise_b_lip_lm_o外下唇左中點上移量#12raise_l_cornerlip左內唇角上移度 #58raise_b_lip_rm_o外下唇右中點上移量#13raise_r_cornerlip右內唇角上移度 #59raise_l_cornerlip_o左外唇角上移度#14thrust_jaw下顎突出度 #60raise_r_cornerlip_o右外唇角上移度(5)利用計算機自動測量或手動測量視頻流中面部特徵點的運動,計算出相應的漢語靜態視位的FAP參數(5.1)定義以下的人臉特徵點雙鼻孔點,外唇左右角點和上、下唇中點,內唇左右角點和上、下唇中點,側面圖中的鼻尖點,上、下唇突出點和下顎突出點和下顎下角點;還有,外唇上輪廓線上左、右半邊的中點,內唇上輪廓線上左、右半邊的中點,外唇下輪廓線上左、右半邊的中點,內唇下輪廓線上左、右半邊的中點;(5.2)利用公知技術對上述人臉特徵點定位,再根據MPEG-4標準的規定計算相應的漢語靜態視位參數FAP;(6)通過計算機自動聚類分析產生漢語基本視位集,包括根據聚類誤差建立漢語音位的視覺混淆樹和選擇適當的類別數,它依次包含以下步驟(6.1)設初始表類別數為總視位個數,對聲母為M=20,韻母M=15,即把每個視位作為一類,設總誤差J(M)=0;(6.2)選擇兩類合併,M=M-1,設合併後形成類別號為m,類中視位個數為Nm,計算合併後形成的第m個類的類中心m(p)=1Nmk=1NmFapk(p);]]>(6.3)在所有可能的兩兩合併中,選擇使得按標準歐氏距離由下式計算出的總的誤差最小 ,並記錄這一類別數的總誤差J(M),其中Fapi(k)表示第k個視位的第p個FAP參數值,P為所採用的總的FAP參數個數;(6.4)重複步驟(6.2)、(6.3)步,直到總的類別數減為1;(6.5)根據以上幾步所得到的不同類別數下每一類中的音位成員,畫出按各個音位視位相似性進行合併過程的樹狀圖;(6.6)畫出誤差隨類別數變化的曲線,畫出視位分類線去選擇誤差劇烈增加之前的類別數作為最佳的類別;(6.7)視位分類線下對應的視位即通過對漢語靜態視位分類而得到的漢語基本視位集共20個,現列出如下#0NA(自動狀態) #7 r #14er#1b,p,m #8 z, c, s#15i#2f#9 a, ang #16o#3d,t,n,l #10 ai, an#17ou#4g,k,h #11 ao #18u#5j,q,x #12 e, eng #19ü#6zh,ch,sh #13 ei, en(7)建立一個用於描述某一視位對應的FAP參數變化過程的基於權值融合的動態視位模型WB-DVM(Weight Blending-Dynamic Viseme Model)每個動態視位的FAP參數由一個基本控制權值函數和前、後兩個無聲模型控制權值函數來決定,三個控制權值函數的基本函數形式都是指數函數,可表示為W=e||c]]>其中α給出視位中心處的控制權值幅度;θ為控制權值衰減或增加的速度;|τ|表示當前時刻到控制權值函數中心點時刻的時間距離;c為一常數;α、θ、|τ|、c都大於零;前無聲模型控制權值函數Wl為Wl=lel||c---0,]]>Wl=le-l||c--->0,=tsi-tl-t,]]>後無聲模型控制權值函數Wr為Wr=re-r||c---0,]]>Wr=rer||c--->0,=tei-tr-t,]]>第i個聲母視位基本控制權值函數Wi為Wi=ie-i(-)||c---0,]]>Wi=ie-i(+)||c--->0,=tsi-tii-t,]]>第i個韻母視位基本控制權值函數Wi為Wi=ie-i(-)||c---0,]]>Wi=ie-i(+)||c--->0,=tci-tfi-t,]]>其中tsi、tei、tci分別為語音段的起始時刻、結束時刻和中心時刻,tii為從語音段的開始時刻tsi到聲母控制權值函數參數中心點的距離,tfi為從語音段的中心時刻tci到韻母控制權值函數參數中心點的距離,它與韻母的發音長度有關,可記為tfi=kfi*(tei-tsi),-0.5≤kfi≤0.5;tl、tr分別表示從前無聲模型中心到語音起始時刻和從後無聲模型中心到語音結束時刻的時間距離,τ表示當前時刻t到控制權值函數中心點時刻的距離;單獨發某一音位i時,任意時刻的第p個FAP參數的動態參數值由這三者按其控制權值函數值加權計算得出Fip(t)=Wi(t)*TipWi(t)+Wl(t)+Wr(t);]]>其中T表示視位在其控制權值中心時刻的視位參數值,Tip即指視位i第p個FAP參數的中心處參數值;在連續語流中,各個視位的口形受到其周圍視位的影響,最終的FAP參數可以由各個FAP參數按基本控制權值函數值加權得到Fp(t)=(i=1I(Wi(t)Tip))/(i=1IWi(t))]]>其中的i包含了前、後無聲模型,I為協同發音所考慮的視位及無聲模型總個數;相鄰視位之間的無聲模型由前後無聲模型相交構成;(8)動態視位模型中的各個參數的確定(8.1)需要確定的參數為控制權值函數的指數參數c,與前後無聲模型有關的參數αl、αr、θl、θr、tl、tr;確定每個視位的參數αi(中心處控制權值函數值)、θi(-)、θi(+)(由控制函數中心向前和向後的衰減係數)、tfi或kfi(控制權值函數中心與語音中心的時間距離)或tii(控制權值函數中心與語音起始時刻的時間距離),以及第p個FAP參數的中心處參數值Tip;(8.2)估計模型參數,即採用分組、分階段、分步驟進行機器學習的方法從實際數據中獲取先根據用上述步驟確定的漢語基本靜態視位集,對每個靜態視位類所對應的音位分別進行發音錄像,並用上述FAP參數測量方法得到實際發音過程中的FAP參數,再依次按以下步聚估算(8.2.1)根據經驗設定所有FAP參數共用的模型參數的初始值指數參數c=1.0,tl=100ms,tr=60ms;αl=αr=1,θl=θr=0.03;(8.2.2)設置第i個韻母所對應的視位即韻母視位的模型參數αi=1,θi(-)=θi(+)=0.03,kfi=0,設置FAP參數中心處參數值為靜態視位的FAP參數值,並進行學習,以模型產生的FAP參數與實測FAP參數的誤差平方和作為相似度準則或能量函數,即 ,其中N為實際測量的音位發音過程中動態視位長度,單位為圖像幀,Fapi,k(p)表示第i個韻母視位的第k幀FAP參數p的實測數值,Fap′i,k(p)表示模型生成的第i個韻母視位的第k幀FAP參數p的數值;(8.2.3)利用公知的梯度下降法調節各個參數,經多次疊代使得總的誤差Ji最小,其中各個參數的調節範圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),kfi(-0.5~0.5);(8.2.4)重複步驟(8.2.2)~(8.2.3),直到學完所有韻母視位的模型參數,並記錄總的誤差和 ,其中K為總的韻母視位個數;(8.2.5)用上述梯度下降法調節指數參數c和前後無聲模型參數tl、tr、αl、αr、θl、θr後返回步驟(8.2.2),經多次疊代使總的誤差和J最小,各個參數的調節範圍為c(0.8~1.2),tl、tr(0~200ms),αl、αr(0.5~1.5),θl、θr、(0.01~0.05);(8.2.6)學習第i個聲母所對應的視位參數時,對包括第i個聲母的音節進行發音錄像,並測得整個音節發音過程的視位參數;(8.2.7)設置第i個聲母即聲母視位的模型參數αi=1,θi(-)=θi(+)=0.03,tii=0,設置FAP參數中心處參數值為靜態視位的FAP參數值,並進行學習;根據模型參數和上述步驟學得的指數參數c和前後無聲模型參數tl、tr、αl、αr、θl、θr以及韻母模型參數計算出整個音節的視位參數,以模型參數產生的FAP參數與實測FAP參數的誤差平方和作為相似度準則或能量函數, ,其中N為實際測量的音節發音過程中動態視位長度,單位為圖像幀,Fapi,k(p)表示整個音節的第k幀FAP參數p的實測數值,Fap′i,k(p)表示模型生成的整個音節的第k幀FAP參數p的數值;(8.2.8)利用公知的梯度下降法調節各個參數,經多次疊代使得總的誤差Ji最小,其中各個參數的調節範圍為αi(0.5~1.5),θi(-)、θi(+)(0.01~0.05),tii(0~200ms);(8.2.9)重複步驟(8.2.6)~(8.2.8),直到學完所有聲母視位的模型參數。
2.根據權利要求1的漢語音位-視位參數的計算機轉換方法所設計的系統,其特徵在於,它含有中央處理器,經總線與中央處理器相連的視頻圖像採集設備中,聲音輸入/輸出設備,視頻圖像顯示設備、鍵盤、滑鼠以及內存儲器。
全文摘要
漢語音位-視位參數的計算機轉換方法及系統屬於語音—人臉動態圖像信息的轉換和處理技術領域。其特徵在於,它包含根據確定的音位系列同步完成語音和人臉圖像的錄音、錄像,並把錄像數據轉換為音視頻同步的數字圖像數據輸入計算機,確定漢語靜態視位的抽取時刻,從國際標準MPEG-4中選取描述漢語視位的人臉動畫參數FAP參數集,測量人臉特徵點,計算漢語靜態視位的人臉動畫參數FAP參數值,建立漢語基本視位集,構築用於描述某一視位對應FAP參數變化的基於權值融合的動態視位模型,確定動態視位模型各參數的學習方法各步驟,相應地提出了音位—視位計算機轉換系統,從而實現從漢語音位生成其對應FAP參數的方法和系統。它對於待轉換的文本,由漢語基本視位集提供對應的視位號,從而生成漢語文本所對應的FAP參數。
文檔編號G06F17/28GK1379348SQ02117330
公開日2002年11月13日 申請日期2002年5月17日 優先權日2002年5月17日
發明者蔡蓮紅, 王志明, 張毅 申請人:清華大學, 北京炎黃新星網絡科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀