一種面向數位電視的視頻虛擬人手語系統的製作方法
2023-11-11 16:29:42 2
專利名稱:一種面向數位電視的視頻虛擬人手語系統的製作方法
技術領域:
本發明涉及數位電視技術領域,具體涉及一種面向數位電視的視頻虛擬人手語系統。
背景技術:
中國有著近3000萬的聾啞人,解決聾啞人看電視難問題是一項重大的民心工程。 而當前大多數電視臺都沒有配有適合聾啞人觀看的頻道,有些新聞欄目採用人工錄製的形式完成手語的轉換,不僅耗費大量人力物力,而且時效性和準確性以及手語的規範程度都十分不足。
近年來對手語識別和手語合成研究都有著很大的進步,基於虛擬人的手語系統也有了初步的應用,在很多公共場合已經開始試用。比如Vcom3D公司開發了的可以讓人通過手語和臉部表情在網際網路上和其他人交流的軟體;歐洲的ViSiCAST系統使用了運動捕捉技術來實現從語音到英國手語的轉換,該系統已經在郵局、網絡等公眾場合已經應用。而在國內,2009年,中國科學院已經研發了 「視頻虛擬人手語編輯系統」並將其應用到廣播電視系統中;哈工大也提出了自己的基於虛擬人的手語新聞播報方法;還有康佳公司研製的和硬體密切相關的一種具有手語解說功能的電視機。
目前現有技術中中科院的「視頻虛擬人手語編輯系統」包括節目源輸入、計算機系統和輸出模塊。其中計算機系統是核心,可以是工控機系統,主要包括5個模塊(1)手語合成模塊,將輸入的節目文本翻譯成手語數據;( 虛擬人合成模塊,將所述的手語數據通過虛擬人表達出來;C3)支持圖像疊加功能的非線性編輯板卡;語音時長同步信息獲取模塊,記錄每一句文本對應的起始和終止時間;( 主模塊,負責上述各個模塊之間的協同通信。主模塊,根據所獲取的語音時長信息同步調用對應的文本句子,由手語合成模塊翻譯成手語數據,再由虛擬人合成模塊生成的虛擬人表達出來,通過非線性編輯板卡將手語幀疊加到節目圖像中。
現有技術的缺點是上述的視頻虛擬人手語編輯系統中的語音和手語字幕的同步信息獲取是通過人工「拍唱詞」的方式,獲取視頻所有文本句子所對應的時間長度信息,該方法是通過工作人員通過一邊觀看節目,一邊在需要的地方拍打一下鍵盤,使得軟體記錄下來每一句文本所對應的起始時間和終止時間。這種方法不僅耗費人力,而且帶有主觀性強,不精確等弊端。其次,在該系統中對虛擬人的生成並沒有做出平滑處理,只是根據文本詞條和手勢數據的映射關係進行一對一的調用繪製,因為不同手勢之間的位置和方向可能存在比較大的差異,所以應該在不同手勢間進行適當的平滑處理。此外,該系統集中關注的是手勢的生成,忽略了在手語中人物的人臉表情也是非常重要的一個因素。發明內容
為了克服現有技術所存在的缺陷,本發明提供了一種面向數位電視的視頻虛擬人手語系統,通過該系統可以節省了人力物力而且準備規範,同時採用基於內容的平滑處理,使得手勢之間動作自然,並且引入人臉表情與手勢的協同配合,使得手語表達更為準確和符合現實。
—種面向數位電視的視頻虛擬人手語系統,首先對節目源碼流進行解復用,解碼出語音、視頻以及其他數據信息,其中其他數據信息中包含字幕文本信息;將字幕文本輸入到虛擬人手語生成模塊,該模塊根據文本詞條從手語庫中調出對應的手語數據,然後進行圖形繪製生成手語幀,在不同手勢之間要進行適當的平滑處理;將手語幀和節目的語音信息進行同步疊加然後輸出。
手語生成模塊是該系統的核心模塊,它包括文本解析模塊,手勢生成模塊,表情生成模塊,手勢和表情合成模塊,幀序列平滑及簡化處理模塊和同步處理模塊;文本解析模塊輸入的是字幕的文本序列,文本解析對字幕語句進行分詞,所得的分詞通過對手語庫的檢索,得到相應的手勢數據和表情數據;文本解析模塊的功能包括,文本編輯輸入,文本切分以及漢語詞至手語碼的轉換;文本編輯輸入將輸入的漢語句子進行編輯預處理使得符合下一步的文本切分;文本切分將句子分成詞,標點符號單獨成詞;系統的分詞過程首先採用最大匹配法切分,然後利用第一步分詞結果通過查找詞條的歧義標誌位調用詞規則,進而進行歧義校正;基本詞庫中所包含的內容為合成系統所能合成的手語詞所對應的漢語詞; 手勢庫中所包含的內容為合成系統所能合成的手語詞的手形數據,而人臉表情的數據和手語詞之間的影射關係則保存在人臉表情庫中。
手語幀的生成流程具體步驟如下
Stepl 文本解析模塊從字幕文本通道中獲取到字幕文本序列,對當前字幕文本進行解析處理,直接可以得到用於同步的該字幕起始時間和終止時間;通過對手語庫中的匹配生成手勢數據和表情數據,轉step2 ;
乂印2:根據手勢數據和表情數據利用OpenGL進行繪製,生成手語幀序列,轉 step3 ;
St印3 根據幀間手勢的差異大小進行插入相應數量的平滑幀,即進行平滑處理, 同時利用手勢之間的信息冗餘進行簡化處理,轉Mep4 ;
乂印4 由時間信息對手語幀和節目信息進行同步,調整手語幀的幀率,同時也將該時間信息作為反饋,對平滑處理和簡化處理進行調整;
St印5 輸出手語幀序列,作為視頻疊加的輸入,結束。
手語幀與節目信息的同步處理時採用一種基於上下文內容的幀刷選策略,幀之間的時間間隔依照手勢的變化程度而決定的;當兩幀之間變化大時,那麼期間的時間間隔也大,反之若兩幀之間的動作變化不大,那麼這兩幀之間的時間小;此外,在變化大的幀間進行平滑處理,插入適量的平滑幀,以使得動作連貫。
虛擬人手勢運動的平滑程度解決方法就是根據兩個動作之間的差異大小而插入一些幀進行平滑;實現插入的幀的生成可以採用Hermite插值算法對關節角向量進行插值計算;插入幀的數量取決於兩個手勢之間的差距大小,差距越大,則易插入更多的幀數;相反,差距越小,則插入的幀數則可適當減少。
人臉表情的生成涉及到人臉定義參數FDP的設定,利用Xface工具對三維人臉模型進行FDP的設定;在定義了影響區域和變形函數後,對於一組輸入的FAP參數流,根據 MPEG-4的動畫驅動方法就計算得到某一時刻三維人臉模型上每一個頂點的位移量,並最終繪製渲染出人臉動畫;同時人臉表情的生成還包括對人臉動畫參數FAP的提取;為了驅動三維虛擬人伴隨自然的表情,需要獲取基本表情的FAP參數,高興、悲傷、憤怒、恐懼、厭惡、 驚訝;理論上所有的面部表情都可以由這些基本的表情合成出來;通過人臉定義參數以及人臉運動參數的設定,結合手語數據,選擇適合當前手勢的表情,這樣進一步增強表意的準確性。
視頻疊加採用根據像素的RGB值實現視頻的疊加算法;視頻疊加的過程可以描述為掃描主視頻圖像,將指針定位到需要疊加的位置;逐一掃描疊加圖像的像素值,如果底色像素是黑色則跳過,如果不是則用該像素值替換主視頻中對應預設位置的像素值;知道整幅圖像掃描完畢;將視頻中的每一幅圖像重複上述的疊加過程即可實現視頻的實時疊加。
將手語系統進行模塊化,做成中間件的形式方便移植,適合在不同的系統平臺中運行;並且考慮到不同硬體平臺的繪製性能,根據硬體的性能進行相應的調整當硬體性能低時,適當的減少表示虛擬人的三角面片,犧牲圖像質量換取速度;相反當所用平臺硬體允許時,可以增加三角面片的數量,以獲得較高的成像質量。
該系統在人臉表情的生成中採用的是基於MPEG-4的人臉動畫方法,除此之外還有諸如插值法、參數化法、自由變形法、肌肉模型法、彈性網格法、有限元法。
在實現視頻疊加的方法除了可以用RGB值進行疊加外還可以採用基於亮度值、 Alpha值、色調等的視頻疊加。
上述技術方案可以看出,由於本發明具有以下有益效果
1)利用虛擬人手語系統,和使用人工的錄製具有節省人力物力而且準確規範等優佔.^ \\\
2)採用了基於內容的平滑處理,使得手勢之間動作自然,並且引入了人臉表情與手勢的協同配合,使得手語表達更為準確和符合現實;
3)根據平臺性能對虛擬人的三角面片的數量進行智能調整,在成像質量和運行效率上進行平衡;
4)模塊化設計以及中間件化,方便整個系統的移植。
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它的附圖。
圖1是本發明中基於虛擬人手語系統的系統圖2是本發明中手及手臂抽象結構示意圖3是本發明中手語幀的生成流程圖4是本發明中漢語詞到手語之間的映射關係圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其它實施例,都屬於本發明保護的範圍。
本發明實施例提供了一種面向數位電視的視頻虛擬人手語系統,能夠節省人力物力而且準確規範等優點,以下分別進行詳細說明。
本發明的目的是解決上述現有技術中存在的缺陷,提供一種效果更為好的基於虛擬人的手語系統。主要解決的問題有(1)手語幀與節目信息的同步處理;(2)手勢運動的平滑處理;C3)人臉表情協同手勢的繪製;(4)系統集成及模塊化。
本發明所採用的技術方案是首先對節目源碼流進行解復用,解碼出語音、視頻以及其他數據信息,其中其他數據信息中包含字幕文本信息;將字幕文本輸入到虛擬人手語生成模塊,該模塊根據文本詞條從手語庫中調出對應的手語數據,然後進行圖形繪製生成手語幀,在不同手勢之間要進行適當的平滑處理;將手語幀和節目的語音信息進行同步疊加然後輸出。具體系統圖參見圖1。
手語生成模塊是本系統的核心模塊,它包括文本解析模塊,手勢生成模塊,表情生成模塊,手勢和表情合成模塊,幀序列平滑及簡化處理模塊和同步處理模塊。文本解析模塊輸入的是字幕的文本序列,文本解析對字幕語句進行分詞,所得的分詞通過對手語庫的檢索,得到相應的手勢數據和表情數據。本發明採用H-Anim(HumanoidAnimation)標準對虛擬人進行建模,一個手勢可以用一個56元向量表示,手和手臂的抽象示意圖如圖2所示;一個手語運動則可以用一個從時間到手勢集合的向量函數表示。人臉對象可以用三維的網格模型表示,主要通過人臉定義參數(facial definition parameter, FDP)和人臉動畫參數 (facial animation parameter, FAP)來分別描述人臉的形狀、紋理等特性和人臉的運動狀態。手勢的繪製和人臉表情的繪製都是基於OpenGL庫的,具有實施方便,算法成熟,可移植性好等特點。繪製後形成的手語幀序列並不是最終結果,因為不同手勢之間存在著位置和方向上的差異,有些手勢甚至相差非常大,如果直接輸出則會出現明顯的動作不流暢,表意錯誤,所以應該進行幀間的平滑處理。而定義手勢的56維的向量,考慮這56個因子之間存在著相關性,可以進一步簡化維數,動態的適應,這樣有利於數據量的減少以及繪製的速度的提高。手語幀序列是要和節目視頻幀進行疊加融合的,那麼它們之間的速度匹配,同步就顯得十分必要;從文本解析模塊解析出的時間信息可以標誌出該字幕的起始時間和終止時間,可以跟據這兩個時間對手語幀進行調整、同步。同時,節目視頻幀序列和手語幀之間的同步也作為一種反饋信息影響到手語幀序列的平滑和簡化處理。
手語幀的生成的流程參見圖3,具體步驟如下
Stepl 文本解析模塊從字幕文本通道中獲取到字幕文本序列,對當前字幕文本進行解析處理,直接可以得到用於同步的該字幕起始時間和終止時間;通過對手語庫中的匹配生成手勢數據和表情數據,轉step2 ;
St印2 根據手勢數據和表情數據利用OpenGL進行繪製,生成手語幀序列,轉 step3 ;
St印3 根據幀間手勢的差異大小進行插入相應數量的平滑幀,即進行平滑處理, 同時利用手勢之間的信息冗餘進行簡化處理,轉Mep4 ;
乂印4 由時間信息對手語幀和節目信息進行同步,調整手語幀的幀率,同時也將該時間信息作為反饋,對平滑處理和簡化處理進行調整;
St印5 輸出手語幀序列,作為視頻疊加的輸入,結束。
文本解析模塊的功能包括,文本編輯輸入,文本切分以及漢語詞至手語碼的轉換。 文本編輯輸入將輸入的漢語句子進行編輯預處理使得符合下一步的文本切分。文本切分將句子分成詞,標點符號單獨成詞;系統的分詞過程首先採用最大匹配法切分,然後利用第一步分詞結果通過查找詞條的歧義標誌位調用詞規則,進而進行歧義校正。基本詞庫中所包含的內容為合成系統所能合成的手語詞所對應的漢語詞。手勢庫中所包含的內容為合成系統所能合成的手語詞的手形數據,而人臉表情的數據和手語詞之間的影射關係則保存在人臉表情庫中;一般而言,我們將手勢庫和人臉表情庫統稱為手勢庫,除非要單獨指出時。漢語詞和手語詞以及到手勢、表情的映射關係如圖4所示。
本發明需要解決的一個問題是手語幀與節目信息的同步。本發明在字幕序列中插入字幕的起始時間和終止時間是一個方便可行的方法,相對於「拍唱詞」的方法更為省時和節省人力,同時也更為精確。而事實上字幕的製作在很多節目錄製過程中就已經存在,而且也包含了各個序列的起始時間和終止時間,所以這一點是比較容易解決的問題。而另一個同步是因為手語本身的特點所決定的,手語是一種通過手及手臂的運動和表情的變化來表達意思的肢體語言,與自然語言相比其表意速度比較慢,速度存在著較大的差異,所以機械地將手語幀序列和節目視頻序列疊加必然導致表意不協調。一種基於上下文內容的幀刷選策略,幀之間的時間間隔依照手勢的變化程度而決定的。當兩幀之間變化大時,那麼期間的時間間隔也大,反之若兩幀之間的動作變化不大,那麼這兩幀之間的時間應該小。此外,在變化大的幀間進行平滑處理,插入適量的平滑幀,以使得動作連貫。
虛擬人手勢運動的平滑程度直接影響到手勢運動的可懂性。虛擬人手勢運動的特殊性在於它是由一些元動畫數據拼接而成的動畫序列,在相鄰兩個手語詞以及同一個手語詞不同詞根之間存在很大的手勢動作差異。如果不做平滑處理,那麼有些動作之間跨度太大,那麼速度過快會導致看不清楚。解決方法就是根據兩個動作之間的差異大小而插入一些幀進行平滑。實現插入的幀的生成可以採用Hermite插值算法對關節角向量進行插值計算。插入幀的數量取決於兩個手勢之間的差距大小,差距越大,那麼易插入更多的幀數;相反,差距越小,那麼插入的幀數則可適當減少。
手語是由手勢輔之以表情姿勢為符號構成的比較穩定的表達系統,所以僅有手勢勢必造成表意不夠完整。本發明不僅提供手語中手勢動作的生成,同時還生成人臉表情,本發明採用基於MPEG-4的人臉動畫方法來生成人臉動畫。MPEG-4是基於對象的多媒體壓縮標準,由於人自身在多媒體中佔據著十分重要的位置,所以MPEG-4對三維人臉動畫格式定義了一個國際標準。MPEG-4定義了人臉定義參數(facial definition parameter, FDP) 和人臉動畫參數(facial animation parameter,FAP)。其中FDP定義人臉的形狀、紋理等特徵,而FAP則描述人臉的運動。在FDP參數定義中,需要確定84個人臉特徵點(feature point,FP),它們描述了包括眼、眉、口、舌齒等人臉主要部分的位置和形狀。MPEG-4還包括 68個FAP,其中包含兩個高級FAP,即唇形(viseme) FAP和表情(expression) FAP。對於唇形FAP來說,可以預先定義好一些基本的、不同的唇形,其他的唇形可以由這些基本的唇形線性組合而成。表情FAP也是一樣的原理,可以由幾種基本的表情線性組合出各種豐富的表情。除高級FAP外,其他普通的FAP分別定義了人臉某一小區域的運動。FAP的值是以人8臉動畫參數單元(facial animation parameter unit, FAPU)為單位的,以FAPU為單位的目的是使同樣的FAP參數應用到不同的模型上,產生的是同樣的唇動和表情,而不會因為模型的不同而使唇動和表情走樣。
人臉表情的生成涉及到人臉定義參數(FDP)的設定,本發明利用Xface工具對三維人臉模型進行FDP的設定。在定義了影響區域和變形函數後,對於一組輸入的FAP參數流,根據MPEG-4的動畫驅動方法就可以計算得到某一時刻三維人臉模型上每一個頂點的位移量,並最終繪製渲染出人臉動畫。
人臉表情的生成還包括對人臉動畫參數(FAP)的提取。為了驅動三維虛擬人伴隨自然的表情,需要獲取基本表情的FAP參數,高興、悲傷、憤怒、恐懼、厭惡、驚訝。理論上所有的面部表情都可以由這些基本的表情合成出來。
通過人臉定義參數以及人臉運動參數的設定,結合手語數據,可以選擇適合當前手勢的表情,這樣進一步增強表意的準確性。
此外,視頻疊加部分,採用根據像素的RGB值實現視頻的疊加算法。視頻疊加的過程可以描述為掃描主視頻圖像,將指針定位到需要疊加的位置;逐一掃描疊加圖像的像素值,如果是底色像素(用黑色作為底色)則跳過,如果不是則用該像素值替換主視頻中對應預設位置的像素值;知道整幅圖像掃描完畢。將視頻中的每一幅圖像重複上述的疊加過程即可實現視頻的實時疊加。
本發明將手語系統進行模塊化,做成中間件的形式方便移植,適合在不同的系統平臺中運行;並且考慮到不同硬體平臺的繪製性能,本發明根據硬體的性能進行相應的調整當硬體性能低時,適當的減少表示虛擬人的三角面片,犧牲圖像質量換取速度;相反當所用平臺硬體允許時,可以增加三角面片的數量,以獲得較高的成像質量。
總之,本發明通過對字幕文本生成手語幀序列和節目視頻序列進行疊加;手語幀序列的生成不僅考慮到手勢的生成而且加入了人臉表情的生成,使得手語表達更為準確、 豐富;在手語幀序列中做了適當的平滑處理,使得動作差異較大幀之間可以平滑過渡,同時也利用手勢向量中的相關性進行簡化,對面片數量的只能調整,以提高運行的效率,最後本發明模塊化的設計以及將系統中間件化,方便系統移植。
本發明技術方案帶來的有益效果
1)利用虛擬人手語系統,和使用人工的錄製具有節省人力物力而且準確規範等優佔.^ \\\
2)採用了基於內容的平滑處理,使得手勢之間動作自然,並且引入了人臉表情與手勢的協同配合,使得手語表達更為準確和符合現實;
3)根據平臺性能對虛擬人的三角面片的數量進行智能調整,在成像質量和運行效率上進行平衡;
4)模塊化設計以及中間件化,方便整個系統的移植。
本發明在人臉表情的生成中採用的是基於MPEG-4的人臉動畫方法,除此之外還有諸如插值法、參數化法、自由變形法、肌肉模型法、彈性網格法、有限元法等方法都是可以一試的,這些方法各優點。
此外,在實現視頻疊加的方法也有多種,除了可以用RGB值進行疊加外還可以採用基於亮度值、Alpha值、色調等的視頻疊加。
需要說明的是,上述裝置和系統內的各單元之間的信息交互、執行過程等內容,由於與本發明方法實施例基於同一構思,具體內容可參見本發明方法實施例中的敘述,此處不再贅述。
本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關的硬體來完成,該程序可以存儲於一計算機可讀存儲介質中,存儲介質可以包括只讀存儲器(ROM,Read Only Memory)、隨機存取存儲器(RAM,Random Access Memory)、磁碟或光碟等。
以上對本發明實施例所提供的一種面向數位電視的視頻虛擬人手語系統,進行了詳細介紹,本文中應用了具體個例對本發明的原理及實施方式進行了闡述,以上實施例的說明只是用於幫助理解本發明的方法及其核心思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式
及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限制。
權利要求
1.一種面向數位電視的視頻虛擬人手語系統,其特徵在於,該系統首先對節目源碼流進行解復用,解碼出語音、視頻以及其他數據信息,其中其他數據信息中包含字幕文本信息;將字幕文本輸入到虛擬人手語生成模塊,該模塊根據文本詞條從手語庫中調出對應的手語數據,然後進行圖形繪製生成手語幀,在不同手勢之間要進行適當的平滑處理;將手語幀和節目的語音信息進行同步疊加然後輸出。
2.根據權利要求1所述的系統,其特徵在於,手語生成模塊是該系統的核心模塊,它包括文本解析模塊,手勢生成模塊,表情生成模塊,手勢和表情合成模塊,幀序列平滑及簡化處理模塊和同步處理模塊;文本解析模塊輸入的是字幕的文本序列,文本解析對字幕語句進行分詞,所得的分詞通過對手語庫的檢索,得到相應的手勢數據和表情數據;文本解析模塊的功能包括,文本編輯輸入,文本切分以及漢語詞至手語碼的轉換;文本編輯輸入將輸入的漢語句子進行編輯預處理使得符合下一步的文本切分;文本切分將句子分成詞,標點符號單獨成詞;系統的分詞過程首先採用最大匹配法切分,然後利用第一步分詞結果通過查找詞條的歧義標誌位調用詞規則,進而進行歧義校正;基本詞庫中所包含的內容為合成系統所能合成的手語詞所對應的漢語詞;手勢庫中所包含的內容為合成系統所能合成的手語詞的手形數據,而人臉表情的數據和手語詞之間的影射關係則保存在人臉表情庫中。
3.根據權利要求1或2所述的系統,其特徵在於,手語幀的生成流程具體步驟如下 Stepl 文本解析模塊從字幕文本通道中獲取到字幕文本序列,對當前字幕文本進行解析處理,直接可以得到用於同步的該字幕起始時間和終止時間;通過對手語庫中的匹配生成手勢數據和表情數據,轉step2 ;St印2 根據手勢數據和表情數據利用OpenGL進行繪製,生成手語幀序列,轉st印3 ; St印3 根據幀間手勢的差異大小進行插入相應數量的平滑幀,即進行平滑處理,同時利用手勢之間的信息冗餘進行簡化處理,轉Mep4 ;Mep4:由時間信息對手語幀和節目信息進行同步,調整手語幀的幀率,同時也將該時間信息作為反饋,對平滑處理和簡化處理進行調整;Mep5 輸出手語幀序列,作為視頻疊加的輸入,結束。
4.根據權利要求1或3所述的系統,其特徵在於,手語幀與節目信息的同步處理時採用一種基於上下文內容的幀刷選策略,幀之間的時間間隔依照手勢的變化程度而決定的;當兩幀之間變化大時,那麼期間的時間間隔也大,反之若兩幀之間的動作變化不大,那麼這兩幀之間的時間小;此外,在變化大的幀間進行平滑處理,插入適量的平滑幀,以使得動作連-m-貝ο
5.根據權利要求4所述的系統,其特徵在於,虛擬人手勢運動的平滑程度解決方法就是根據兩個動作之間的差異大小而插入一些幀進行平滑;實現插入的幀的生成可以採用 Hermite插值算法對關節角向量進行插值計算;插入幀的數量取決於兩個手勢之間的差距大小,差距越大,則易插入更多的幀數;相反,差距越小,則插入的幀數則可適當減少。
6.根據權利要求2所述的系統,其特徵在於,人臉表情的生成涉及到人臉定義參數FDP 的設定,利用Xface工具對三維人臉模型進行FDP的設定;在定義了影響區域和變形函數後,對於一組輸入的FAP參數流,根據MPEG-4的動畫驅動方法就計算得到某一時刻三維人臉模型上每一個頂點的位移量,並最終繪製渲染出人臉動畫;同時人臉表情的生成還包括對人臉動畫參數FAP的提取;為了驅動三維虛擬人伴隨自然的表情,需要獲取基本表情的FAP參數,高興、悲傷、憤怒、恐懼、厭惡、驚訝;理論上所有的面部表情都可以由這些基本的表情合成出來;通過人臉定義參數以及人臉運動參數的設定,結合手語數據,選擇適合當前手勢的表情,這樣進一步增強表意的準確性。
7.根據權利要求3所述的系統,其特徵在於,視頻疊加採用根據像素的RGB值實現視頻的疊加算法;視頻疊加的過程可以描述為掃描主視頻圖像,將指針定位到需要疊加的位置;逐一掃描疊加圖像的像素值,如果底色像素是黑色則跳過,如果不是則用該像素值替換主視頻中對應預設位置的像素值;知道整幅圖像掃描完畢;將視頻中的每一幅圖像重複上述的疊加過程即可實現視頻的實時疊加。
8.根據權利要求1所述的系統,其特徵在於,將手語系統進行模塊化,做成中間件的形式方便移植,適合在不同的系統平臺中運行;並且考慮到不同硬體平臺的繪製性能,根據硬體的性能進行相應的調整當硬體性能低時,適當的減少表示虛擬人的三角面片,犧牲圖像質量換取速度;相反當所用平臺硬體允許時,可以增加三角面片的數量,以獲得較高的成像質量。
9.根據權利要求1或6所述的系統,其特徵在於,該系統在人臉表情的生成中採用的是基於MPEG-4的人臉動畫方法,除此之外還有諸如插值法、參數化法、自由變形法、肌肉模型法、彈性網格法、有限元法。
10.根據權利要求7所述的系統,其特徵在於,在實現視頻疊加的方法除了可以用RGB 值進行疊加外還可以採用基於亮度值、Alpha值、色調等的視頻疊加。
全文摘要
本發明公開了一種面向數位電視的視頻虛擬人手語系統,該系統首先對節目源碼流進行解復用,解碼出語音、視頻以及其他數據信息,其中其他數據信息中包含字幕文本信息;將字幕文本輸入到虛擬人手語生成模塊,該模塊根據文本詞條從手語庫中調出對應的手語數據,然後進行圖形繪製生成手語幀,在不同手勢之間要進行適當的平滑處理;將手語幀和節目的語音信息進行同步疊加然後輸出。通過本發明節省了人力物力而且準備規範,同時採用基於內容的平滑處理,使得手勢之間動作自然,並且引入人臉表情與手勢的協同配合,使得手語表達更為準確和符合現實。
文檔編號H04N5/262GK102497513SQ201110380408
公開日2012年6月13日 申請日期2011年11月25日 優先權日2011年11月25日
發明者曾金龍, 林謀廣, 羅笑南 申請人:中山大學