人物動畫的製作方法

2023-05-28 23:49:16 3

專利名稱：人物動畫的製作方法
技術領域：
本發明涉及一種使用處理系統創建動畫人物形象的方法以及用於創建動畫人物形象的裝置。具體地，本發明涉及一種使用輸入數據製作代表個人如新聞閱讀者、播音員、節目主持人等的人物動畫的系統，其中，輸入數據包括內容數據和表達數據。
近年來，已經使用基於計算機的系統實現人物動畫。然而，在此種系統中，動畫還是要藝術家預先確定，這需要很高的技巧和很大的工作量來產生所希望的外表。
自動人物動畫製作也已經出現，通過把標準文本文件轉換成言語，然後使用視位(viseme)來製作人物動畫。然而，這些系統具有以下缺點人物表現的運動範圍受到限制，並且具體地，此範圍通常局限在表現視位所要求的運動。任何額外的人物運動都必須在後期手工添加，不能自動地插入進去。而且，人物只能演示對文本非常有限的線性響應。相應地，每次人物閱讀文本時，人物的外表是相同的。此種系統的實例在US-A-5657426中描述。
因此，這不能表達非常人性化的外表，在非常人性化的外表中，人物的具體運動在每次閱讀文本時都將發生變化。進而，當不閱讀文本時，人物是靜止的，這又導致缺少人物的人性魅力或特徵。

發明內容
根據本發明的第一方面，提供一種用於創建動畫人物形象的裝置，本裝置包括處理系統，此系統具有用於接收標記輸入數據的輸入，包括i.表示待表達言語的內容數據；以及ii.表示言語表達方式的表達數據；耦合到所述輸入的處理器，用於根據定義的時基產生數據，所述數據包括i.根據內容數據產生的音素數據，以及ii.根據音素數據和表達數據產生的視位數據；所述處理器進一步適用於iii.根據音素數據產生音頻數據；iv.根據視位數據產生圖象數據；以及v.根據定義的時基對音頻和圖象數據的輸出進行同步。
根據本發明的第二方面，提供一種使用處理系統創建動畫人物形象的方法，本方法包括接收標記輸入數據包括i.表示待表達言語的內容數據；以及ii.表示言語表達方式的表達數據；根據確定的時基產生數據，所述數據包括i.根據內容數據產生的音素數據；以及ii.根據音素數據和表達數據產生的視位數據；根據音素數據產生視頻數據；根據視位數據產生圖象數據；以及根據確定的時基對音頻和圖象數據的輸出進行同步。
本發明提供用於創建動畫人物形象的方法和裝置。這通過使用包括內容數據和表達數據的標記數據來實現。隨後，本系統使用此信息產生音素和視位數據，所述數據表現由人物表達的言語。通過提供表達數據，確保人物外表中的至少一部分變化將在視位數據要求人物表現出說話時自動地發生。這有助於動畫人物具有非常逼真的外表。
標記數據輸入到系統可由人工輸入，例如通過在終端上鍵入文本而輸入；或從數據源獲得。這允許系統用來自新聞和數據資源等的信息實現自動表達。
處理器通常包括用於產生音素數據和音頻數據的文本-言語處理器；用於產生視位數據和圖象數據的動畫處理器；以及具有以下用途的分析器分析接收到的標記數據；檢測將以預定方式表達的預定內容數據；產生代表預定方式的表達數據；以及用產生的表達數據修改接收到的標記數據。
專業的文本-言語處理器和動畫處理器的使用允許系統實時產生音頻和圖象數據，由此加速人物動畫處理。如果需要的話，音頻和圖象數據可以在相同時間或不同的時間，和/或在不同的位置產生。應該理解，文本-言語和動畫處理器可用單個處理器內的軟體來實施，或者可替換地用單獨的硬體組件來實施。
分析接收到的標記數據允許增加表達數據，這又允許本發明處理只具有最小標記或無標記的數據。這還允許以預定的方式表示預定的內容。進而，這允許動畫人物重讀某些單詞，如數字、姓名、名詞和否定詞，但對於本發明這不是最本質的。
處理系統通常包括用於儲存數據的存儲器；耦合到存儲器以從其獲得預定內容數據指示的分析器。這允許增加的與標記有關的信息在中央儲存，以便此信息可直接由分析器訪問。可替換地，信息可通過通訊系統如LAN(區域網)等從遠程存儲器獲得。
通常，所述裝置包括語言處理器，語言處理器適用於分析內容數據；確定表示內容數據所需的音素；以及為每個音素產生音素時間基準，音素時間基準指示各個音素應結合時基表達的時刻。
優選使用音素產生將由動畫人物表達的音頻數據，因為這允許少量的基本聲音單元表現需要由人物發出的大量聲音，從而表達言語。另外，用於從文本確定音素的處理系統是眾所周知的並且是易於實施的。
進一步地，音素時間基準的產生允許保持每個音素的臨時位置並且能對程序中的剩餘步驟進行同步。
通常，語言處理器進一步適用於分析表達數據；產生大量表示該表達數據的標誌；以及為每個標誌產生標誌時間基準，標誌時間基準指示各個標誌應結合時基修改表達方式的時刻。
標誌時間基準的使用允許相對於音素數據保持表達數據的臨時位置。可替換地，可以使用其它同步化的數據。
通常，語言處理器耦合到存儲器，以獲得表達各個單詞所需的音素的指示。在此情況下，此指示的形式通常為一組規定應如何從文本確定音素的規則。還可提供不適用於這些更一般規則的異常事件的詞典。這提供一種基於接收到的數據獲得音素的簡單技術。然而，可使用本領域中的任何技術。
文本-言語處理器優選包括串接處理器，該串接處理器適用於確定表示每個音素的音素數據；以及根據音素時間基準串接音素數據，以產生表現言語的音頻數據。
使用專業的串接處理器確保通常從存儲器獲得的音素數據易於組合形成所需的音頻數據。
進而，串接處理器還適用於根據表達數據修改音頻或音素數據。這允許結合人物的外表控制人物的可聽音。因而例如，根據人物是否假定為愉快、悲傷或嚴肅等，在言語中可使用不同的語調、音調、和速度。然而可替換地，可聽音保持不變，與人物的外表無關。另一個替換實例是在數據文件中規定單獨的聲音修改，此數據文件不依賴於表達數據。
動畫處理器優選包括音素處理器，音素處理器適用於從語言處理器獲得確定的音素以及相關的音素時間基準；確定與每個已確定的音素相應的視位；以及根據相應音素的音素時間基準，為每個視位確定視位時間基準。
由於只有有限數量的(大約48個)音素和有限數量的(大約20個)視位，因此，比較容易把每個音素轉換成相應的視位。在此情況下，使用與音素時間基準相應的視位時間基準有利地保證視位與音素的同步。這又保證嘴唇運動與聲音的產生同步，從而實現唇形同步。
動畫處理器通常還包括耦合到存儲器的視位處理器，視位處理器適用於根據已確定的視位從存儲器獲得視位數據，視位數據包括表示基本人物圖象變化所需的大量參數，以表現各個視位。使用表現基本面容變化的數據允許實施大範圍的面部形態，這無需從每個面部的草圖產生表現所需的強大處理能力。這有助於加速處理時間，允許在人物「讀」內容數據的同時實時產生圖象數據。
優選地，動畫處理器包括至少一個修改處理器，修改處理器適用於根據表達數據修改視位數據。通過修改視位數據，這有助於改變人物的外表，以使人物看起來更逼真。這一般通過根據從存儲器得到的修改數據修改視位數據的參數來實現。
動畫處理器通常包括至少一個修改處理器，修改處理器適用於修改至少一個規定的表情、行為和動作。這允許人物外表在不同的面貌之間變化。
優選地，實施分別修改行為、表情和動作的各個處理器。這允許單獨控制更一般的外表，如全面的頭部運動，以規定諸如微笑或皺眉等的外表。因而，在人物看起來難過的情況下，如嘴巴下撇等，那麼總體外表是悲傷的。然而，規定的外表可以是大笑或微笑的，因而，即使人物的總體外表是悲傷的，也仍然允許產生微笑。相應地，這允許根據需要對人物外表進行詳細的修改，因此有助於產生逼真的圖象。
通過逐漸修改視位數據的參數來實現它，允許執行動作、表情和行為的修改，而不會出現不適當的複雜化。然而可替換地，表現視位、表情、動作和行為的單獨圖象序列可以產生，並在隨後的階段中組合。
通常，所述的或每個修改處理器進一步適用於根據偽隨機數據修改視位數據。這允許在系統中包含隨機的頭部運動或面部表情，由此確保對於任何兩個連續的動畫，即使基於相同的輸入數據文件，人物動畫也是不相同的。這有助於減少某些單詞、短語、外表組合的重複，從而，有助於增加動畫人物的自然外表。
通常，動畫處理器進一步包括插值處理器，插值處理器用於內插視位數據以確定在規定的視位之間的時間的人物的外表。這允許產生連續序列的圖象。
著色處理器耦合到插值處理器，用於根據內插的視位數據產生圖象數據，圖象數據表現正在表達言語的人物，所述言語由內容數據定義。具體地，如果處理系統進一步包括視頻處理器，著色處理器就形成視頻處理器的一部分。這允許圖象數據實時著色，而不會用光主處理器的資源，從而有助於實時執行本發明。可替換地，如果有足夠的資源，著色處理器就可作為主處理器本身內部的軟體來實施。
通常，視頻處理器還產生表現動畫人物序列的視頻數據。當圖象數據或視頻數據允許動畫人物在許多不同的顯示器件上顯示時，這就有利地顯示動畫人物。
可選地，本系統進一步包括通訊網絡接口，此接口在使用時把計算器件耦合到通訊網絡，由此允許動畫人物形象傳遞到耦合到通訊網絡的其它處理系統。
在此情況下，所述輸入可適用於從通訊網絡接收標記數據，允許在外部產生的標記文件用於動畫人物序列的產生中。
通常，數據文件是XML(可擴展的標記語言)文件。當允許在XML文件中規定表達數據作為XML標記時，這尤其有利。相應地，用於控制人物外表的內容數據可注釋有適當的元素，所述元素定義在說各個單詞時應該執行的表達特性。
本系統可在弧立的處理系統上實施。可替換地，本系統可在通訊網絡如網際網路、區域網或廣域網(LAN，WAN)等上實施，從而圖象可在中央產生並且可遠程觀看。
在使用中，網卡7可耦合到通訊網絡10，以便與輔助終端站N1、N2...Nn通訊。因此，通訊網絡可以是任何形式的網絡，如LAN、WAN、無線通訊網絡、網際網路等。
在處理器中使用的軟體在圖2中示意性地描述。如圖所示，標記輸入數據由處理器2接收並傳遞到分析器A1。運行分析器，以分析所述數據並把結果傳遞到擴展器A2，擴展器A2在把數據傳遞到文本-言語處理器B和動畫處理器C之前又擴展數據。
如圖所示，文本-言語處理器B包括語言處理器B1、串接處理器B2和音頻處理器B3。
如圖所示，動畫處理器C包括順序耦合在一起的音素處理器C1、視位處理器C2、表情處理器C3、行為處理器C4、動作處理器C5、插值處理器C6和著色處理器C7。運行文本-言語處理器B和動畫處理器C分別產生音頻和圖象輸出數據，所述數據然後從處理器2輸出。
分析器、擴展器以及所述處理器能獲得如圖2所示的各種數據。所述輸入數據在創建動畫人物的過程中使用，這在下面進行詳細解釋。例如，所述輸入數據可直接從鍵盤輸入、從存儲器4中的當地文件獲得、或通過網絡10從遠程資源獲得。
現在描述

圖1和2所示系統的操作。
在使用中，處理器2使用標記數據以創建動畫人物形象。標記數據可在I/O器件1上接收，如由I代表，或者可替換地，標記數據通過網絡適配器7從網絡10接收。另外，標記數據當然可以儲存在存儲器4中。然後，標記數據經總線8傳遞到處理器2。
標記數據一般以XML文件的形式提供給處理器2，XML文件包括表示將由人物講的文字的內容數據以及表示言語表達方式的表達數據。在此情況下，內容數據通常為與將要講的文字相應的文本形式，但也可使用數字或其它符號。
相反，表達數據包括幾種不同的形式。表達數據的主要形式使用預定的元素或標誌，以標記由動畫人物講的內容數據。因而，在此情況下，XML標誌用於修改它們所涵蓋的文本的表達方式。
除此之外，某些人物序列和某些單詞也可用作標記數據。因而，例如，三階段人物的存在使人物在運動到下一由內容數據表示的單詞之前停頓。
表達數據一般包括但不限於以下元素上下文、語調、情緒、表情、動作、或其它的直覺事件。然而，除此之外，表達數據可指定其它的表達元素，如視聽產品。
因而，例如，可定義表達參數，該表達參數適合於表達期間並在此期間保持不變。例如，輸出圖象尺寸可規定為表達參數。可替換地，使用與臨時提示一致的表達事件，此提示在與內容數據中事件位置相關的時刻發生。例如，虛擬照相機視野的改變可作為表達事件。
相應地，輸入數據可看作是一種形式的腳本，它包含內容和相關的提示，以便進行動畫表達的製作。
此輸入數據可以人工輸入，可從數據源獲得，或可結合人工和自動輸入而獲得。相似地，標記可由人工粘貼，或由外部系統產生。
實際使用的標記協議隨著本發明的特定實施例而改變。然而，由當前實施例使用的標記方案的實例在附錄A中示出，同時有閱讀新聞故事的實例腳本。所示實例規定動畫人物的各種動作和行為外表。然而，這些規定不是具體的，而是指示隨後由處理器2執行的總體人物行為。
正如此實例所示出的，使用XML標誌規定各種動作、事件和情緒，當閱讀相關文本時表演所述人物。在此實例中，相關文本是由給定標誌環繞著的文本。因而，在附錄A的實例中，短語「AmericanBeauty also received awards for best actor，screenplay andcinematography」(美國麗人還獲得最佳男演員獎、最佳電影劇本獎、最佳攝影獎)將以愉快的方式表達，因為有「愉快」的情緒標誌存在。
在使用中，如上所述，XML文件由分析器接收，分析器用於分析XML數據。分析器使用配置數據a1解釋XML文件的內容並提供配置默認值。
這允許默認的表達數據適當地添加到文件中。這例如包括動畫人物形象輸出的位置指示或者輸出的要求格式。還可添加與實際人物動畫有關的更複雜的表達數據。
因而，例如，當某些單詞由人物表達時，通常希望更加強調它們。具體地，諸如姓名、名詞、否定詞和數字的單詞一般應重讀，因為它們通常比文本中的其它單詞更重要。因此，分析器適於檢測這些單詞並隨後添加合適的表達數據，使得在表達這些單詞時重讀它們。
除此之外，如果文件包含一些或幾乎不包含表達數據，分析器就能根據配置數據添加基本的表達數據。這確保即使接收到的文件不包含任何表達標記，動畫人物也將仍然至少表演一些默認的特徵。
隨後，內容和表達數據傳遞到擴展器，擴展器可根據需要對數據進行各種置換和擴展。這用宏數據a2實現，這可規定數據所要求的任何變化。
一旦完成，輸入數據就翻譯成內容數據和表達數據或標誌，其中內容數據表示將發表的言語的文本，表達數據或標誌表示在言語中發生的狀態變化。因而，表達數據不僅包括通常包含在XML文件中的標誌，而且還包括表示外表狀況的輔助標誌，其中，通過某些符號或單詞的存在來代表外表狀況。
然後，內容數據和表達數據傳遞給文本-言語處理器B。此種系統的幾個實施例在工業是可行的，但它們全部都以相同的方式工作。
首先，待表達的文字由語言處理器B1分解成給定時期內的基本聲音單元或音素。當遇到每個音素時，註明音素臨時位置相對於時基的時間基準。
通過掃描接收到的內容數據並用異常詞典中的數據b1關聯內容數據，確定將由人物表達的音素，這指出口頭表達文字所要求的音素。
表達數據用於控制音素的表達方式。因而，可根據表達數據直接或間接地修改音量、音調和速度。表達數據也直接或間接地把間斷或停頓引入到音頻數據中。
因而例如，如果語調類型是「有趣」，那麼文字的講說通常比語調類型為「嚴肅」的更快。相應地，單個音素的時間基準將根據此信息而改變。
音調變化也設置在表達數據中。這經常應用於已被分析器作了標記的特定單詞，如姓名、名詞、否定詞和數字。賦予每個音素的音調變化將根據所規定的語調類型而再次發生變化。因而，「有趣」語調類型將導致比「嚴肅」語調類型更加輕鬆的言語。
語言處理器還提供與在內容數據中遇到的語言特徵，如從句邊界，有關的反饋數據。
除了為每個音素提供時間基準以外，還為表示表達數據的每個標誌和元素以及其它反饋數據產生時間基準。
隨後，表示已確定的音素的數據、表達數據、所有反饋數據和相關的時間基準傳遞到動畫處理器C中的音素處理器C1，這在以下將詳細解釋。
所述音素和它們的各個時間基準的指示傳遞到串接處理器B2。串接處理器訪問表示每個音素的音素數據b2，並把此音素數據串接形成表示音素序列的數據，其中，音素序列將由人物表達。
在此實施例中，音素數據由採樣的音頻數據和適當的配置數據形成，但是，也可使用替代系統。
應該理解，要求對音素數據作一些修改，以確保所有的音素按次序裝配在一起，並確保所有的表達數據被正確表達。
然後，此數據傳遞到用於產生音頻數據的音頻處理器B3，其中，當音頻數據由音頻重放系統表現時，音頻數據對應於人物講述的文字。音頻處理器還把時間數據傳遞到插值處理器C6，這在以下詳細描述。
音頻數據從文本-言語處理器B輸出，並傳遞到配置數據中指定的輸出，這在以下詳細描述。
動畫處理器C用於創建動畫人物的一系列圖象。如上所述，表示已確定的音素的數據、表達數據、所有反饋數據和相關時間基準從語言處理器B1輸出，由音素處理器C1接收。
音素處理器C1使用音素指示來確定有關的視位。一般而言，可識別的視位的數量比可識別的音素的數量少。大約10-20個視位就可提供可接受的結果，然而，需要超過40個的音素才行。因此，不同的音素導致相同視位的輸出。
相應地，可使用音素-視位查找表(LUT)來規定與每個音素對應的視位。也可使用其它技術來減少為提供可接受結果所需的視位數量。
音素處理器C1訪問音素-視位查找表(LUT)，並且為每個音素規定相應的視位。因此，音素處理器C1在產生的音素序列中用與每個音素相應的時間基準確定視位。
待用的視位指示傳遞到視位處理器C2。視位處理器使用此信息訪問視位數據c2。視位數據一般為大量參數的形式，當表達各個視位時，視位數據確定人物的面部形態。這通常按照基本面部形態的變化來確定。
除了確定與用於構造待表達文字的音素相對應的視位以外，根據表達數據進一步修改面部形態。這允許人物演示由表達數據定義的動作、表情和其它行為特徵。
這通過後述來實現使用視位和表達數據的時間基準確定哪個視位將根據哪個表達數據進行修改，從而表現適當的表情、行為或動作。
為了實現這個，視位數據被提供給表情處理器C3、行為處理器C4和動作處理器C5。這些處理器用於修改人物外表的各個面貌，以確保產生人物的逼真表現。在每個處理器C3、C4、C5中，表達數據用於訪問各個表情、行為和動作詞素數據c3、c4、c5，這些詞素數據確定對人物外表的修改。
表達數據規定視覺外表的絕對或相對修改。因而，相對數據一般從現有水平規定視位數據中參數的修改，然而，絕對值將設置參數為特定的水平。
因而，表情標誌與進一步定義人物面部形態的參數相關，所述參數一般按照基本面部形態的變化來定義。
總體表情可以根據基本情緒如快樂、悲傷、憤怒、恐懼、厭惡和驚訝的比例來確定。因而，例如，表情標誌規定使人物表現出微笑的變化。表情標誌規定一種水平作為參數，因此產生一定程度的微笑。
表達數據的元素可規定多個表達參數，使用相對稀疏的標記來實現複雜的表達控制。多個不同程度的表情可疊加，允許創建複雜的面部表情。這可創建許多種類的面部表情。因而，應該理解，用於每種聲音的VISME將根據標記所規定快樂或悲傷等的程度而改變。
除了面部表情以外，表達數據還可規定由行為和動作處理器C4、C5實施的各種行為、動作或手勢。這允許面部特徵被單獨操縱，例如，揚起眉毛或使人物眨眼。還可啟動諸如頭部和軀體運動的動作和手勢，並且修改人物的元素取向，如頭部的角度。
這些動作根據時間的變化而確定，使行為或表演的程度在人物中表現。動作可明確地由標記表達數據調用，由內容數據產生或自動地產生。
例如，在輸入數據中規定眨眼動作的標誌將使人物在待表達言語中的此刻出現眨眼。可替換地，重讀單詞如否定詞的存在將使人物在待表達言語中的此刻輕微點頭。
使用各種規則和策略，根據當前文本修改不同參數的應用。例如，如果人物的當前狀態定義成一種憤怒，那麼眨眼的速度就增加。由視位數據、表情數據、行為數據和動作數據修改的基本人物數據用於產生在特定時刻表現人物的圖象數據。因而，例如，快樂的表情標誌規定使人物出現微笑的變化。
如上所述，表情或動作也可根據一個或多個預定的單詞的存在而修改，這些單詞由分析器識別並被適當地標記。
除了以上概述的變化以外，表情、行為和動作處理器可執行偽隨機行為。這有效地保證對於相同的輸入數據，任何兩個連續動畫的人物外表可以是不同的，由此增加動畫表達的外表自然性。
這可通過把一定程度的隨機化增加到視位序列包含的參數中而實現。此種隨機行為的水平控制在預定的水平內，以確保人物保持逼真。這在所述表達中保證一定程度的與輸入數據無關的變化。
例如，定義的行為可以規定人物在一個句子之後停頓並間斷一下。此行為可基於偽隨機而修改，以便它不應用在每種情況中，從而觀看者不會感覺到相同的程序一再地重複。
因此，特有的行為特徵，如無意識的眨眼，可定期地啟動。即使在人物不在講話的時候，這些行為也可繼續，產生更自然的外表。
內容數據、表達數據和自動行為的組合產生複雜的變化範圍。從有限表達標記獲得的效果組合導致實際上無限的可能的視覺序列。
除了與人物有關的標記，表達數據可規定表達的其它元素。這包括但不限於視聽產品參數和事件。
表達參數適合於該表達期間並在此期間保持不變。例如，輸出圖象尺寸可規定為表達參數。
表達事件對應於臨時提示，此提示在與內容數據中事件位置相關的時刻發生。例如，虛擬照相機視野的改變可作為表達事件。
視位數據一旦如上所述地修改，就傳遞至插值處理器C6。藉助與每個視位有關的時間數據，人物的狀態可結合待表達音素的時間來確定。隨後，插值處理器C6使用視位數據參數在視位之間插值，並且計算表現在這些定義的視位中間的面部位置的視覺外表參數。相應地，這產生代表人物面部表情的參數序列，此序列隨時間變化。
執行插值，以便根據或近似根據給定的時基或畫面速度產生圖象。通過內插隨時間變化的人物數據修改，在表達中的任何時候都可確定人物的狀態。
本領域技術人員應理解，根據從音頻處理器獲得的時間數據執行插值，以確保音素和視位在相應的時間產生，從而保證人物唇形的同步。
插值處理器對所有參數排序，產生單個動畫序列，此序列傳遞到著色處理器C7以產生圖象序列。
著色處理器中的圖象產生使用在計算機動畫中經常使用的標準過程和程序。因而，人物的表現一般儲存為三維幾何圖形數據，但也可另外使用二維數據。這一般以黑白狀態表現人物的抽象計算機模型。
幾何圖形數據一般根據視位、表情和動畫數據，使用在計算機動畫中常用的標準技術進行數學變換。
著色處理器可全部由在處理器2上執行的軟體形成。然而，優選至少部一分的著色處理器在視頻處理器5內執行。在此情況下，待著色的每幅圖象所需的指令和幾何圖形由處理器2計算，並經總線8傳遞到視頻處理器5。
然後，視頻處理器進行操作，使用專為此目的設計的硬體對圖象實時進行首色並使之具有條理或結構。用於實現此目的的各種圖形加速器一般都可使用，允許實時、或根據硬體的性能和特定應用的要求比實時或早或晚地產生輸出。
視頻處理器5一般在內存中產生圖象。圖象數據可立即顯示為圖象，或儲存為文件，或在通訊網絡上發送用於立即或隨後顯示。
由文本-言語處理器B產生的音頻數據也可經音頻適配器6傳遞，直接從計算器件輸出到連接的揚聲器12。可替換地，音頻數據可以儲存在存儲器4中，或者經網絡傳遞用於以後重放。
應該意識到，在此情況下，處理器2可有利地適用於把音頻數據與視頻或圖象數據結合在一起，產生包含動畫和所附音頻序列的單個文件。因而，例如，動畫人物的數字視頻文件能夠產生，用於儲存或傳遞給遠程位置。
本領域中技術人員應理解，由於所述數據可用許多不同的形式傳遞，因此這允許動畫人物在許多不同類型的器件上演示。因而，動畫人物可在電視或相似的器件上演示。可替換地，動畫人物可在網際網路、行動電話、個人數據助理(如掌上計算機)上演示。
在這個方面，因此對於遠程用戶有可能請求重放某些信息，如新聞故事等。此信息由計算器件使用，以產生定義動畫人物形象的數據。隨後，此數據可傳遞到遠程用戶，使遠程用戶在遠程終端如終端站、行動電話或無線終端等上顯示人物動畫。
附錄A下面的XML文件提供表達標記如何應用於內容數據的實例。此實例用於簡單地演示原理。實際上，可使用不同的標記方案，並且標記可以明顯地更豐富。
此實例從標準聲明開始，標準聲明指出它是一個XML文檔並且此文檔本身遵守合式的XML標記的約定。
文檔的head(標題)單元規定用於表達的output(輸出)參數，並提供對包含場景細節和待表現人物的scene(場景)文件的基準。這些元素是可選的，並且簡單地覆蓋所有形態默認值。
文檔的body(主體)單元包含表達和內容數據的剩餘部分。
具有屬性『news』(新聞)的story(故事)元素規定所包含的段落為新聞故事。此信息由系統使用，包含一些屬於新聞故事表現的參數，其中新聞故事是相對於體育故事而言的。
具有屬性『light』(輕鬆)的tone(語調)元素指出所包含的段落在特徵上是輕鬆的，例如這是與嚴肅或憂鬱相對而言的。此信息由系統使用，規定在元素覆蓋的內容中人物的總體行為。
未包含在tag(標誌)中的任何內容被認為是待表達的文本。因此，此表達從文字「The Oscar for Best Picture」(奧斯卡最佳電影)開始，以新聞故事的風格表現並且在語調上是輕鬆的。
通過首字母大寫分析或語言分析而識別的適當名詞，如「American Beauty」(美國麗人)，可特殊地重讀，產生口頭強調和相應的視覺提示。
文本中的省略符號(...)指明在此刻要引入停頓。這是包含在文本自身內的隱含表達標記的實例，與明顯標記元素相反。
img單元規定在此處要表達的圖象的文件位置。在此情況下，將顯示圖象，直到關閉/img標誌為止。
emotion(情緒)單元在此規定屬性為「愉快」。此信息用於修改在此元素覆蓋的內容的期間人物的行為。例如，人物微笑以顯示愉快的表情。
action(動作)單元規定描述此處人物將執行的動作的文件的位置。例如，人物在此時向下看，中斷與觀眾的視線交流。此動作可以有隱含的持續時間。可選地，可以明確地規定有意的動作持續時間。
從此簡單實例可看出，XML輸入數據可規定輸出格式、待表達的內容，並提供與內容表達方式有關的隱含和明確的信息。
外部系統可提供部分或全部的標記信息，以控制所述表達。因此不必明顯地提供此種信息。
應該理解，與用於簡單的文本或圖形輸出的標記不同，講述的文本具有固有的持續時間。因此，表達標記具有按時間順序排列的顯著性。
例如，雖然網頁的HTML指令一般控制格式、布局或排版，但是，此處所述指令藉助指令出現的時間以及它們所含任何文本暗示的持續時間，具有與文本有關的臨時值。
可看出，給出適當設計和可表達的元素範圍，本發明提供一種語法系統，通過此系統，文本具有附加的標記，以傳達與語義內容相應的表達。
權利要求
1.用於創建動畫人物形象的裝置，本裝置包括處理系統，此系統具有用於接收標記輸入數據的輸入，包括i.表示待表達言語的內容數據；以及ii.表示言語表達方式的表達數據；耦合到所述輸入的處理器，用於根據定義的時基產生數據，所述數據包括i.根據內容數據產生的音素數據，以及ii.根據音素數據和表達數據產生的視位數據；所述處理器進一步適用於iii.根據音素數據產生音頻數據；iv.根據視位數據產生圖象數據；以及v.根據定義的時基對音頻和圖象數據的輸出進行同步。
2.如權利要求1所述的裝置，其中，處理器包括用於產生音素數據和音頻數據的文本-言語處理器；用於產生視位數據和圖象數據的動畫處理器；以及具有以下用途的分析器i.分析接收到的標記數據；ii.檢測將以預定方式表達的預定內容數據；iii.產生代表預定方式的表達數據；以及iv.用產生的表達數據修改接收到的標記數據。
3.如權利要求2所述的裝置，處理系統進一步包括用於儲存數據的存儲器、耦合到存儲器以從其獲得預定內容數據的指示的分析器。
4.如權利要求3所述的裝置，其中，預定的內容數據包括為姓名、名詞、否定詞和數字的文字。
5.如權利要求2-4中任一項所述的裝置，其中，文本-言語處理器包括語言處理器，語言處理器適用於分析內容數據；確定表示內容數據所需的音素；以及為每個音素產生音素時間基準，音素時間基準指示各個音素應結合時基表達的時刻。
6.如權利要求5所述的裝置，其中，語言處理器進一步適用於分析表達數據；產生大量表示表達數據的標誌；以及為每個標誌產生標誌時間基準，標誌時間基準指示各個標誌應結合時基修改表達方式的時刻。
7.如權利要求5或6所述的裝置，其中，語言處理器耦合到存儲器，以獲得表達各個單詞所需的音素的指示。
8.如權利要求5-7中任一項所述的裝置，其中，文本-言語處理器包括串接處理器，串接處理器適用於確定表示每個音素的音素數據；以及根據音素時間基準串接音素數據，以產生表現言語的音頻數據。
9.如權利要求8所述的裝置，其中，串接處理器耦合到存儲器，根據確定的音素從存儲器獲得音素數據。
10.如權利要求5-9中任一項所述的裝置，其中，動畫處理器包括音素處理器，音素處理器適用於從語言處理器獲得確定的音素以及相關的音素時間基準；確定與每個已確定的音素相應的視位；以及根據相應音素的音素時間基準，為每個視位確定視位時間基準。
11.如權利要求10所述的裝置，其中，音素處理器耦合到存儲器，以便從存儲器獲得翻譯數據，翻譯數據指示與每個音素有關的視位，音素處理器使用翻譯數據根據已確定的音素確定視位。
12.如權利要求11所述的裝置，其中，動畫處理器包括耦合到存儲器的視位處理器，視位處理器適用於根據已確定的視位從存儲器獲得視位數據，視位數據包括表示基本人物圖象變化所需的大量參數，以表現各個視位。
13.如權利要求12所述的裝置，其中，動畫處理器包括至少一個修改處理器，修改處理器適用於根據表達數據修改視位數據。
14.如權利要求13所述的裝置，其中，所述的或每個修改處理器耦合到存儲器，以從存儲器獲得修改數據，所述的或每個修改處理器使用修改數據以修改視位數據的參數。
15.如權利要求13或14所述的裝置，其中，所述的或每個修改處理器適用於修改至少一個規定的表情、行為和動作。
16.如權利要求13-15中任一項所述的裝置，其中，所述的或每個修改處理器進一步適用於根據偽隨機數據修改視位數據。
17.如權利要求12-16中任一項所述的裝置，其中，動畫處理器進一步包括插值處理器，插值處理器用於內插視位數據以在規定的視位之間的時候確定人物的外表。
18.如權利要求17所述的裝置，其中，處理系統進一步包括耦合到插值處理器的著色處理器，著色處理器用於根據內插的視位數據產生圖象數據，圖象數據表現正在表達言語的人物，所述言語由內容數據定義。
19.如權利要求18所述的裝置，其中，處理系統進一步包括視頻處理器，著色處理器形成視頻處理器的一部分。
20.如權利要求19所述的裝置，其中，視頻處理器產生表示動畫人物序列的視頻數據。
21.如前述任一項權利要求的裝置，其中，處理系統進一步包括通訊網絡接口，此接口在使用時把計算器件耦合到通訊網絡，由此允許動畫人物形象傳遞到耦合到通訊網絡的其它處理系統。
22.如權利要求21所述的裝置，其中，在使用時所述輸入適用於從通訊網絡接收標記數據。
23.使用如前面任一項權利要求所述的裝置產生圖象和/或音頻數據。
24.一種使用處理系統創建動畫人物形象的方法，本方法包括接收標記輸入數據包括表示待表達言語的內容數據；以及表示言語表達方式的表達數據；根據確定的時基產生數據，所述數據包括根據內容數據產生的音素數據；以及根據音素數據和表達數據產生的視位數據；根據音素數據產生視頻數據；根據視位數據產生圖象數據；以及根據確定的時基對音頻和圖象數據的輸出進行同步。
25.如權利要求24所述的方法，其中本方法進一步包括分析接收到的標記數據；檢測將以預定方式表達的預定內容數據；產生代表預定方式的表達數據；以及用產生的表達數據修改接收到的標記數據。
26.如權利要求25所述的方法，其中，預定的內容數據包括為姓名、名詞、否定詞和數字的單詞。
27.如權利要求24-26中任一項所述的方法，其中，產生音素數據的方法包括分析內容數據；確定表示內容數據所需的音素；以及為每個音素產生音素時間基準，音素時間基準指示各個音素應結合時基表達的時刻。
28.如權利要求27所述的方法，其中，此方法進一步包括分析表達數據；產生表示表達數據的大量標誌；以及為每個標誌產生標誌時間基準，標誌時間基準指示各個標誌應結合時基修改表達方式的時刻。
29.如權利要求27或28所述的方法，其中，確定音素的方法使用分析過的內容數據訪問詞典，所述詞典指示表現各個單詞所需的音素。
30.如權利要求26-29中任一項所述的方法，其中，產生音素數據的方法進一步包括使用每個已確定的音素獲得各個音素數據；以及根據音素時間基準串接音素數據，以產生表現言語的音頻數據。
31.如權利要求27-30中任一項所述的方法，其中，此方法進一步包括根據表達數據修改音素數據。
32.如權利要求26-32中任一項所述的方法，其中，產生視位數據的方法包括確定與每個已確定的音素相應的視位；以及根據相應音素的音素時間基準，為每個視位確定視位時間基準；並且，使用視位獲得視位數據。
33.如權利要求32所述的方法，其中，通過根據已確定的音素訪問翻譯數據來確定視位，翻譯數據指示與每個音素相應的視位。
34.如權利要求32或33所述的方法，其中，視位數據包括表達基本人物圖象所需變化的許多參數，以表現各個視位。
35.如權利要求32-34中任一項所述的方法，其中，此方法進一步包括通過根據表達數據修改參數而修改視位數據，視位數據被修改以表現至少一個規定的表情、行為或動作。
36.如權利要求32-35中任一項所述的方法，其中，視位數據進一步根據偽隨機行為修改。
37.如權利要求32-36中任一項所述的方法，其中，此方法進一步包括內插視位數據，以確定在規定的視位之間時候的人物外表。
38.如權利要求37所述的方法，其中，此方法進一步包括使用內插的視位數據，以產生表現正在表達言語的人物的圖象數據，所述言語由內容數據確定。
39.根據權利要求24-38中任一項所述的方法產生圖象數據和/或音頻數據。
全文摘要
本發明提供用於創建動畫人物形象的方法和裝置。這通過使用包括內容數據和表達數據的標記數據來實現。隨後，此系統使用此信息產生音素和視位數據，所述數據表現由人物表達的言語。通過提供表達數據，這確保人物外表中的至少一部分變化將在視位數據要求人物表現出說話時自動地發生。這有助於動畫人物具有非常逼真的外表。
文檔編號G10L21/10GK1426577SQ01808810
公開日2003年6月25日申請日期2001年4月6日優先權日2000年4月6日
發明者喬納森·S·喬伊特, 威廉·J·庫柏, 安德魯·R·伯格斯申請人:阿納諾瓦有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

人物動畫的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法