具有用於實時時間定標的參數的數字音頻的製作方法

2023-10-17 13:24:04 4

專利名稱：具有用於實時時間定標的參數的數字音頻的製作方法
技術領域：
本發明涉及具有用於實時時間定標的參數的數字音頻。
背景技術：
數字音頻信號的時間定標(例如時間壓縮或擴展)改變已記錄音頻信號的播放速率而不改變音頻的感知音調。因此，使用具有時間定標功率的播放系統的聽者可以加速視頻以加快接收信息或者減速視頻以減慢接收信息，同時，此時間定標技術能夠保存原始音頻的音調而使信息更易聆聽與了解。理想地，具有時間定標功率的播放系統應賦予聽者控制播放的播放速率或者時間定標的功率，使得聽者可以選擇與正在播放信息的複雜程度對應的速率和聽者正在致力於播放的專注程度。
時間定標系統通常需要大量的處理功率，以便將預先記錄的數字音頻數據實時轉換為時間定標的數字音頻數據流。因此，諸如可攜式電話等具有有限處理功率的很多系統不能對音頻進行實時的時間定標，且此類系統必須仰賴一種提供具有所欲時間標度的時間定標信號的源。再者，用戶對時間標度的選擇需要時間定標的音頻源能夠準確地響應所選擇的時間標度內的改變，以及在正確時間標度處提供時間定標的音頻數據。
名稱為「播放中播放速率的實時控制」的第09/849,719號美國專利申請中描述了一種經過具有時間定標數字音頻的多個信道的源提供播放速率實時控制從而使每個信道對應於不同時間標度的方法。這種方法允許所欲時間定標數據在網絡上發送給一個具有低處理功率的接收器。然而，在此源處具有許多不同時間標度以及相關音頻數據聲道需要龐大的數據結構。具有較小數據結構但仍允許在具較低可用處理功率的系統中做實時時間定標的另外處理方法被尋找中。

發明內容
依據本發明的一個方面，一增大的數字音頻數據結構提供減少對音頻做時間定標的處理負荷的時間定標參數並藉此允許一低處理功率接收器/播放器在播放具有良好音質的時間定標音頻時執行時間定標。一種時間定標參數指出對在時間定標處理中使用的音頻段的偏移，且偏移的使用排除了對搜索提供時間定標音頻的最佳音質的音頻段的需要。另一種時間定標參數將例如指示哪個幀對應於靜默的音頻幀內容分類，且當處理不同分類的幀時，時間定標處理可以使用不同的技術或時間標度。其它型式的時間定標參數視所使用定標處理方法而定。
為了生成增大的音頻數據，一預處理系統使用時間定標處理生成時間定標參數。包括時間定標參數的增大音頻數據結構可被記錄以備後用或馬上被發送給一個播放系統。此播放系統使用經過預處理時間定標參數來避免在時間定標以及播放時間定標的音頻時的密集計算過程。一低功率系統因而可執行音頻數據的實時時間定標且提供良好音質。因此，與音頻數據比較，與一特定時間標度相關的時間定標參數需要非常少的附加存儲器或者是發送頻寬。因此，使用時間定標參數增大的音頻數據可以存儲在具有有限可用存儲器的系統中並可在具有有限帶寬的系統中發送。
在本發明的一實施例中，添加的參數指出對在生成時間定標視頻數據中使用的「最匹配」數據塊的偏移。通常，搜索最匹配塊需要在時間定標處理中消耗的大部分處理功率。因此，一個具有大於比實時時間定標正常所需處理功率為小的幅值階的可用處理功率的系統可以接收具有參數的增大音頻數據，不經搜索地識別最佳匹配塊，和執行實時時間定標。
在本發明的另一實施例中，在增大數據結構中的參數將音頻數據的每個部分或幀的音頻內容分類，且音頻數據的非線性定標可依幀的音頻內容將不同的時間定標處理或時間標度應用於不同的部分。在一具體實施例中，增大音頻數據結構中的參數包括用於識別對應於靜默的標記。在播放音頻數據時，對應於靜默的幀可被丟棄、被更有效地定標，或反之備特別處理以實現所希望的音頻數據的時間定標。
本發明的一具體實施例是包括對音頻數據進行預處理以確定與該音頻數據的時間定標相關的參數的處理。音頻數據及參數可在諸如CD或DVD的存儲介質上提供給一個播放系統，從而使該播放系統能夠經過諸如電話網絡、LAN或Internet的網絡讀出或者接收音頻數據和所述參數。播放系統使用對音頻數據進行時間定標時的參數生成時間定標的音頻數據流。使用預處理時間定標參數的時間定標處理需要較沒有時間定標參數的音頻數據時間定標少的處理功率。因此，較低功率的播放系統可執行實時時間定標。
通常，音頻數據具有包括音頻取樣的輸入幀以及包括對取樣塊偏移的參數。通常，各偏移根據輸入幀識別在生成時間定標的視頻數據中使用的取樣塊。可確定多個用於每個幀的偏移，其中，用於每個幀的偏移對應於不同的時間標度。
本發明的另一實施例是一音頻時間定標處理方法，包括接收具有指出一小塊偏移與時間標度之間的關係的參數的音頻數據幀、使用該參數確定在該小塊上且對應於所選擇時間標度的偏移以及使用由該偏移識別的塊內的取樣生成時間定標幀。可以為那些位於小塊上且分別對應於不同時間標度的偏移預先確定參數。當用戶選擇的時間標度不是被提供偏移的時間標度之一時，將小塊插入預設偏移間可確定對應於所選擇時間標度的偏移。
本發明的再一個實施例是一種增大的音頻數據結構。增大的音頻數據結構包括對應於音頻不同部分的幀和一個或多個與該幀相關的參數。每個幀包括音頻對應部分的取樣，且參數提供簡化音頻數據的時間定標的信息。特別是，幀的「偏移」參數可識別用於生成時間定標數據的取樣。每個音頻幀可具有分別對應於不同時間標度的多個偏移，且當以和偏移相關的時間標度對幀進行時間定標時，與幀相關的每個偏移識別與幀組合的取樣塊。
雖然，低處理功率播放器可使用前述的時間定標處理方法和增大音頻數據結構來執行實時時間定標，但是，諸如伺服器的一種高功率處理系統也可以使用時間定標處理和增大的音頻數據結構以實時構建時間定標的數據。這樣，伺服器可僅提供時間定標數據給有限音頻數據發送頻寬的系統內的播放器。

圖1示出了從輸入音頻數據幀的時間定標輸出的時間定標音頻數據幀。
圖2示出了一種時間定標處理方法的流程圖。
圖3示出了識別用於圖2所示時間定標處理方法的最匹配塊的偏移。
圖4示出了用於使用最匹配數據塊生成時間定標數據的處理方法。
圖5示出了對一用於圖2時間定標處理方法的緩衝器的輸出及填充處理方法。
圖6示出了用於構建簡化音頻數據的實時時間定標的增大音頻數據結構的處理流程。
圖7示出了使用偏移得到最匹配塊的時間標度範例。
圖8示出了使用增大音頻結構的時間定標處理方法流程圖。
圖9示出了包括一非線性時間定標處理方法可移除或用其它處理方法做特別地處理的靜默區間的聲波波形。
圖10是一系統方塊圖，在該系統中，伺服器使用增大的音頻數據結構來建構將被發送給播放器的時間定標音頻數據。
不同圖中使用相同的符號指出相似或相同的項目。
具體實施例方式
(實施例)依據本發明的一方面，一增大的音頻數據結構包括數字音頻數據和參數以減低對數字音頻數據執行時間定標處理所需的處理功率。
圖1示出了被分成輸入幀IF1至FIX的數字音頻數據100。在一範例性實施例中，每個輸入幀包括一固定數量m的音頻信號取樣且需要固定數量的時間T以便以正常播放速率播出。具體地說，對應於每個輸入幀的時間T等於幀內的取樣數除以用於播放操作的取樣頻率。
諸如以後敘述的時間定標處理方法將數字音頻數據100及輸入幀IF1至IFX轉換成具有輸出時間定標幀OF1至OFX的時間定標數字音頻數據110。每一輸出幀的n個取樣等於每一輸入幀的m個取樣除以時間標度S。因此，由於時間標度S等於2，每個輸出幀OF1至OFX的取樣數是各輸入幀IF1至IFX取樣數的一半，且播放時間定標數據110需花費1.5倍於使用相同取樣時間來播放的輸入數據100所需的時間。由於時間標度S等於0.5，每個輸出幀OF1至OFX的取樣數是各輸入幀IF1至IFX取樣數的2倍，且播放時間定標數據110需要2倍於使用相同取樣時間來播放的輸入數據100所需的時間。對於大於1的時間標度(例如時間壓縮)，時間定標數據110每單位時間傳送的信息(例如演說、音樂等)多於以正常速度播放音頻數據100。通過消除語音或音樂的正常音頻記錄所包括的冗餘數據，時間定標實現這個較高的信息速率。另外，由於時間標度小於1，所以，，時間定標擴展輸入音頻幀，從而使輸出時間定標音頻幀包括更多的取樣且花費更長的時間來傳遞信息。例如，在時間標度是0.5的情況下，時間定標明顯增了加冗贅信息，和音頻數據得花兩倍時間來播放。
圖2是根據輸入音頻數據100生成時間定標音頻數據110的範例性時間定標處理200的流程圖。首先，在步驟210將第一輸入幀IF1存儲在緩衝器的開始部分，將幀索引i初始化為2且將用於第一輸入幀的偏移設置為ΔTi。緩衝器的尺寸可依據時間標度來選擇。一般，音頻緩衝器的存儲容量至少大於2m和2n中的較大者，其中，輸入幀包括m個取樣和輸出幀包括n個取樣。接下來，一數據塊大小g等於輸入幀大小m及輸出幀大小n的較大者(例如g＝gax{m，n})。因此，緩衝器的大小通常為2g。
步驟220從最後使用源數據之後的輸入數據開始將輸入數據填入緩衝器，並從緊跟在緩衝器中最後修改數據之後的存儲位置處開始將輸入數據存儲到緩衝器中。在步驟220的第一次執行中，包括輸入幀IF2的輸入數據被直接存儲在輸入幀IF1之後，因而來自輸入幀IF1和IF2的2m取樣在緩衝器內是連續的。對少於1的時間標度，初始填入緩衝器的步驟220還附加存儲連續跟在幀IF2後面的來自幀IF3及可能的連續幀IF4...等的取樣。
在緩衝器被如此填入後，步驟230在部分緩衝器中搜索與輸入幀i最匹配的m個取樣塊。為了進行時間壓縮，步驟230從小於或等於m取樣的緩衝器的開始搜索所有以偏移開始的塊。為了做時間擴展，步驟230從小於或等於n取樣的緩衝器開始尋找以偏移開始的塊。
如圖3所示，從緩衝器300開始的偏移ΔTi唯一地識別出用於輸入幀IFi的最匹配塊310。偏移ΔTi還識別出一包括g個取樣的最匹配幀320。對於時間壓縮(例如一大於1的時間標度)，塊320與塊310相等。為進行時間擴展(例如一小於1的時間標度)，塊310是塊320的一個子集。
在步驟240中，時間定標處理200通過將緩衝器300內最匹配塊320的g個取樣與包括幀IFi的源數據的g個取樣進行組合來修改緩衝器300的內容。為進行時間壓縮，所述源數據是輸入幀Ifi(一開始是IF2)。為進行時間擴展，源數據是以輸入幀Ifi開始的n個連續取樣。
圖4示出了一範例性的組合處理400。對於組合步驟400，位於源數據或最匹配塊320內的每個取樣具有依據源數據內或最匹配塊內的取樣順序而指定的具有值1到g的取樣索引j。對於取樣索引j的每個值，組合步驟400將源數據內的對應取樣乘以一加權函數410的對應值F1(j)，且將最匹配塊320內的對應取樣乘以加權函數420的一對應值F2(j)。與同一取樣索引對應的兩個乘積相加以生成一經對應修改的取樣，並將其存儲在緩衝器300內先前被最匹配塊310佔有的存儲位置。結果是，步驟240在緩衝器300中以一修改的塊510取代塊320。
在一範例性實施例中，加權函數410及420的值F1(j)和F2(j)隨取樣索引j而變化，從而使兩個對應於同一取樣索引的加權值被相加為1(即，F1(j)+F2(j)＝1，其中j＝1到g)。此外，加權函數420具有等於1的加權值F2(1)，以便從緩衝器300的開始部分以偏移ΔTi保持取樣值的連續性，且加權函數410具有等於1的加權值F1(g)，以便使用將被存儲在緩衝器300中經修改塊510之後的取樣值保持連續性。
步驟250通過將n個取樣向左移出緩衝器300生成一輸出幀OF(i-1)。此後，步驟260增加幀索引I，且決定步驟270確定步驟200是否到達最後輸入幀IFX。若有很多輸入幀待做時間定標，步驟200跳回步驟220，並且用緊跟著在組合步驟240中使用的步驟中的最後源數據之後的輸入數據填入到緊跟著修改塊510的移位位置之後的緩衝器300的一部分中。對每個輸入幀IF2至IFX重複步驟220、230、240、及250，以輸出時間定標幀OF1到OF(X-1)。在最後輸入幀IFX後，步驟200從決定步驟270轉移到生成最後輸出幀OFX的步驟280。
對於時間定標步驟200，用於搜索最匹配塊的步驟230需要最大的處理功率。尤其，對於幀索引i的每個值，圖3的搜索步驟230一般需要比較源數據與g個候選塊，且每次比較通常需要約3m則數學運算，譬如，對輸入幀的每個取樣做減法、絕對值或平方根、以及累加操作等。因此，搜索步驟230每幀需要3m*g則數學運算。相反，圖4的組合操作400需要3m則運算，譬如，對取樣索引j的每個值做兩則乘法運算及一則加法運算。在每個輸入幀包括440個取樣(m＝44)且定標因數S是2(n＝222)的範例性處理中，搜索步驟230需要執行約200次組合步驟240所執行的數學運算。
圖6示出了依據本發明一實施例以生成一用於時間定標的增大音頻數據結構處理600，其減少用於時間定標的數學運算次數。處理600始於使用一串不同的時間標度對輸入音頻數據執行時間定標的步驟610。尤其是，對每個時間標度，步驟610將諸如時間定標步驟200的時間定標處理施加於輸入音頻數據。步驟620識別出在時間定標步驟610間尋得的特定參數，且步驟630將該參數合併到一增大的音頻數據結構中。
增大音頻數據結構內的特定參數一般取決於所用的時間定標處理。在一使用時間定標處理200的實施例中，時間定標步驟610決定一組偏移ΔT(k，i)，其中k涉及標度因數而I是幀索引(i＝1到X)。各偏移ΔT(k，i)在一對應時間標度索引k的時間定標處理中識別出一與包括輸入幀IFi的源數據組合的最佳匹配塊。步驟620識別出表示偏移ΔT(k，i)的參數，且步驟630將這些參數插入到音頻數據結構中。
在另一個實施例中，時間定標步驟610將音頻數據的幀或段的音頻內容分類並對不同輸入音頻幀或段依其不同音頻內容使用不同的時間定標處理方法或時間標度。使用此技術，一非線性時間定標處理可更有效地對包括較不重要數據的幀做時間定標並提供較少的時間定標給較關鍵的信息。更具體地，在一實施例中，步驟610識別出哪個幀對應於靜默(譬如，具有小於某閾值的總能或平均能的幀)且當做參數，步驟620識別用於指出哪個輸出幀對應於靜默的標記。其它時間定標處理使用其它可由步驟620和630識別並包括在增大數據結構中的參數表示的信息。
依據本發明的一範例性實施例，此增大數據結構表示包括輸入幀IF1至IFX的音頻數據，且與每個輸入幀IFi相關者是用於識別一組時間標度值的時間標度索引的偏移ΔT(k，j)的參數。圖7示出了用於作為時間標度s的函數的特定幀的偏移ΔT的塊700。在時間標度為1的情況下，偏移ΔT為m，但偏移ΔT更一般地取決於時間標度和音頻數據內容。與該幀相關的參數最好指出諸如塊700的形狀的一種完全連續的關係，從而使所述插入可以識別塊700上與任一時間標度s相關的偏移ΔT。若時間定標採用了對偏移ΔT不精確的確定，例如對幀的偏移不在塊700上，那麼，多用戶將可察覺到低劣的音質。
在本發明的一範例性實施例中，步驟610執行八個時間定標操作，其中用於介於0.5至4.0之間的每個時間標度k的一個在該步驟中是0.5，而加到每個輸入幀的音頻數據結構的參數是用於識別輸入幀的最匹配塊和時間標度k的偏移ΔT(k)。當各輸入幀都包括440個取樣時，加上8個參數增加了約少於2％的音頻數據總量。
處理600是在增大音頻數據用於時間定標播放前所執行的預處理。因此，處理600一般不需實時執行。然而，如果實時定標是必須的或希望直接廣播到一播放系統時，一功率強大的處理系統可以實時執行處理600。
圖8是時間定標處理800的流程圖，其使用諸如處理600(圖6)所提供的增大音頻數據來簡化圖2所示時間定標處理200。在步驟810中，可為諸如便攜電話或PDA等的低處理功率的播放系統存訪問增大音頻數據。許多不同的處理方法可以將增大音頻數據提供給播放系統。例如，增大數據可被存在諸如CD、DVD或播放系統可訪問的其它存儲媒體中，且此播放系統能從作為該播放系統一部分的內部驅動器或存儲器中提取增大音頻數據。另外，增大音頻數據可直接地經由諸如區域網(LAN)、電話網絡或Internet等廣播至播放系統。
步驟210、220、830、240、250、260、270、及280在播放系統內執行時間定標操作。此時間定標操作與圖2的時間定標操作在步驟830上尋得最匹配塊有所不同。除此之外210、220、240、250、260、270、和280如同前述圖2。
為了找出輸入幀IFi的最匹配塊，步驟830使用來自增大音頻數據結構的參數來確定與當前所選擇時間標度對應的偏移ΔTi。譬如，若參數是用於時間標度的離散值k的偏移ΔT(k，i)和所選擇的時間標度對應於離散值k中的一個，那麼，步驟830僅訪問和使用提供給輸入幀IF1的多個偏移中正確的一個。另外，步驟830可在所提供的偏移之間執行插入，以確定與除了和增大數據中提供的偏移對應的這些以外的時間標度相關的偏移。即使插入是必須的，使用增大音頻數據確定偏移通常需要比搜索最匹配塊少兩個數量級的算術運算。
時間定標參數的使用可被應用於圖2和8所示的線性時間定標以及應用於非線性時間定標。一種非線性時間定標消除或者反之特別處理靜默段以便在短時間的播放中對音頻數據進行時間標度。圖9示出了一包括輸入幀IF1、IF2等的音頻波形900，通過將一個閾值與該幀中平均音頻功率ENERGE的無線電ENERGY/ZC和該幀中零交叉的數量ZC進行比較，每個幀IF1、IF2、……可以被分類為靜默或非靜默。等式1指出包括m個音頻取樣aj的輸入幀內的平均功率。幀內的零交叉數量ZC可根據幀內取樣符號的變換數量計數來確定。
函數1 依據本發明的一範例實施例，增大音頻數據結構內的參數指出哪個音頻幀對應於靜默。譬如，每個幀都可以具有被設置指出該幀是否對應於靜默的1位標記。一實施時間定標的播放系統不需計算每個幀中的功率或零交叉，而是當在實時非線性時間定標期間內選擇與特定處理相關的幀時使用所述標記。
上述處理的一個特定應用是聲音郵件系統或其中伺服器或其它設備存儲諸如電話消息、新聞或播放的存儲所記錄的消息的其它信息系統。伺服器可建構具時間定標參數的增大音頻數據，並且，如果用戶希望加速或減速正在被提取消息的播放速度，那麼，電話或其它提取聲音郵件或其它信息的裝置可使用增大音頻數據執行實時和高精度的時間定標。
如同前述所強調，使用包括時間定標參數的增大數據結構可以減少對音頻進行實時定標所需的處理功率，而增大的數據結構僅稍大於原來的音頻數據。然而，對於實時時間壓縮，播放器必須以一高於播放輸出幀時的取樣頻率的速率接收輸入音頻幀(和附加參數)。特別是，當時間標度為2時，執行時間定標的播放器以至少兩倍於取樣頻率的速率需求輸入音頻數據。接受增大音頻數據結構所需的數據速率可能是具有有限發送帶寬系統的一個問題。(相反，對於音頻的實時時間擴展，增大音頻數據結構的發送通常需要比時間擴張數據為少的帶寬)。
圖10示出了根據本發明一實施例的系統1000，其降低了對實時時間定標的帶寬請求。系統1000包括一連接到伺服器1020的客戶機1010。在本發明另一實施例中，客戶機1010可為計算機、PDA或使用諸如LAN、WAN、Internet或連接到伺服器1020的電話網絡的電話。伺服器1020可以是存儲到少一個播放的計算機，該播放具有一增大音頻數據結構以播放所述播放的音頻部分。
在操作中，客戶機1010發出一個連接到伺服器120的請求1030，並等待伺服器1020授權該連接。在應答1040中，伺服器1020識別客戶機1010請求的播放，初始化用於該播放的音頻緩衝，並授權到客戶機1010的連接。
一旦連接建立了，客戶機1010對具有一索引i及時間標度S的特定音頻幀發出請求1052。伺服器1020接收幀索引i及時間標度S並從增大的數據結構中提取包括相關輸入幀IFi和相關參數的源音頻取樣。然後，伺服器1020生成一輸入幀以發送給客戶機1010。特別是，關於對圖8所示的時間定標處理，伺服器1020確定用於幀索引i及時間標度S的偏移ΔTi，將包括輸入幀IFi的源數據與偏移ΔTi識別的緩衝塊組合。然後，伺服器1020將輸出幀向左移出緩衝器，將輸出幀發送給客戶機1010，然後再使用從下一個輸入幀開始的音頻數據填入緩衝器。
客戶機1010接受發送的輸出幀，將接收到的輸出幀存儲在播放緩衝器中，增加幀索引，且向伺服器1020請求下一個幀。客戶機1010不請求伺服器1020在生成輸入幀過程中使用的輸入幀或參數。因此，系統1000需要的帶寬約等於用於播放音頻的取樣頻率。
雖然已結合特定實施例對本發明進行了描述，但這些描述僅是對本發明應用的一些例子而並非對本發明的限制。譬如，雖然前述音頻數據是一種播放，但這種播放可以包括諸如圖像或視頻的多媒體信息。因此，雖然前面描述了用於具有固定幀尺寸的特定格式，但使用可變幀尺寸的時間定標處理亦適用於本發明的其它實施例。各式各樣所揭露的實施例特徵的改變與組合皆落於其後權利請求所界定的範圍中。
權利要求
1.一種處理方法，包括預處理音頻數據，以確定與該音頻數據的時間定標相關的參數；將該音頻數據與這些參數供給一裝置；以及使該裝置在音頻數據的時間定標處理中使用這些參數生成時間定標的音頻，其中，在時間定標中使用這些參數比不使用這些參數進行音頻數據的時間定標需要更少的處理功率。
2.如權利請求1的處理方法，其中，該裝置使用該音頻數據與這些參數執行該音頻數據的實時時間定標。
3.如權利請求1的處理方法，其中，提供該音頻數據與這些參數的步驟包括將該音頻數據與這些參數記錄在該裝置可讀取的一存儲媒體上，且該裝置訪問該存儲媒體以讀取該音頻數據與這些參數。
4.如權利請求3的處理方法，其中，該存儲媒體是一個盤。
5.如權利請求1的處理方法，其中，提供該音頻數據與這些參數的步驟包括經由一網絡將該音頻數據與這些參數發送給該裝置。
6.如權利請求1的處理方法，其中該音頻數據包括多個輸入幀；和所述參數包括與每個輸入幀相關的一個或多個偏移，每個偏移識別用於相關輸入幀的取樣塊，用於根據該相關輸入幀生成時間定標數據。
7.如權利請求6的處理方法，其中，所述參數包括用於每個輸入幀的多個偏移，所述用於每個輸入幀的多個偏移對應於不同的時間標度。
8.如權利請求1的處理方法，其中，該裝置執行該音頻數據的預處理以確定這些參數，並存儲該音頻數據和這些參數，供以後在音頻數據的實時時間定標期間使用。
9.如權利請求1的處理方法，其中該音頻數據包括多個輸入幀；和一個或多個所述參數將這些輸入幀的各音頻內容分類。
10.如權利請求9的處理方法，其中，所述參數識別哪個輸入幀表示靜默。
11.如權利請求9的處理方法，其中，使該裝置使用這些參數的步驟包括對其參數指出表示靜默的輸入幀的處理不同於其參數指出表示非靜默的輸入幀的處理。
12.如權利請求1的處理方法，其中，一語音郵件系統執行該音頻數據的預處理，以確定與該音頻數據的時間定標相關的參數。
13.如權利請求12的處理方法，其中，該裝置包括一從該語音郵件系統接收該音頻數據與這些參數的電話。
14.如權利請求1的處理方法，其中，一伺服器執行該音頻數據的該預處理以確定與該音頻數據的時間定標相關的參數。
15.如權利請求14的處理方法，其中，該裝置包括一從該伺服器接收音頻數據與這些參數的電話。
16.如權利請求1的處理方法，其中，該裝置包括一伺服器，該伺服器執行該音頻數據的該預處理，以確定與該音頻數據的時間定標相關的參數，存儲該音頻數據與這些參數以備將來使用，且執行實時時間定標以將經時間定標的音頻數據提供給一播放器。
17.一種用於音頻的時間定標的處理方法，包括接收具有指出偏移與時間標度間關係的參數的音頻幀；使用這些參數確定對應於一選定時間標度的偏移；和使用位於由該偏移所識別的一個塊中的取樣生成一時間定標幀。
18.如權利請求17的處理方法，其中，這些參數包括分別對應於多個時間標度的多個預處理過的偏移。
19.如權利請求18的處理方法，其中，使用參數的步驟包括在予處理後偏移之間進行內插以確定與所選擇時間標度對應的偏移。
20.如權利請求17的處理方法，還包括由一聽者選擇用於該音頻播放的所選擇的時間標度。
21.一種音頻數據結構，包括多個分別對應於多個音頻段的幀，每個幀包括多個對應音頻段的取樣；和用於每個幀的一或多個參數，所述參數提供減少該音頻數據時間定標所需處理功率的信息。
22.如權利請求21的音頻數據結構，其中，用於一幀的該一個或多個參數識別用於生成時間定標數據的一個取樣塊。
23.如權利請求21的音頻數據結構，其中，用於一幀的每個參數根據該幀識別用於生成時間定標數據的一個取樣塊。
24.如權利請求21的音頻數據結構，其中，用於一幀的一個或多個參數包括多個分別對應於多個時間標度的偏移，每個偏移識別用於生成時間定標數據的一取樣塊，該時間定標數據對應於與該偏移對應的時間標度。
25.如權利請求21的音頻數據結構，其中，一個或多個參數指出哪些幀對應於該音頻的靜默段。
全文摘要
預處理音頻數據以生成與時間定標相關的參數，減少了進行音頻數據實時時間定標所需要的處理功率。一增大音頻數據結構包括音頻數據與參數。用於音頻數據幀的參數可識別用於時間定標的最匹配塊，或表現出可被間插以確定偏移的偏移對時間標度坐標圖。實時時間定標處理方法使用參數識別出的塊，而非執行搜索以找到最佳匹配塊。參數亦可指出哪些幀表示靜默，且可與表示非靜默的幀做不同的定標處理。
文檔編號G11B20/10GK1703738SQ0282410
公開日2005年11月30日申請日期2002年11月27日優先權日2001年12月5日
發明者肯尼思·H·P·張申請人:Ssi株式會社

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

具有用於實時時間定標的參數的數字音頻的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法