聲頻信號特徵波形的合成方法

2023-09-20 05:45:20 3

專利名稱：聲頻信號特徵波形的合成方法
技術領域：
本發明涉及聲頻信號處理技術，特別是涉及聲頻信號特徵波形合成方法。
由於數字電子技術的發展，使得模擬信號波形可藉模擬/數字轉換後成為數位訊號，以便於存儲、處理、甚或傳輸，因此，更能加速電子數據的流通與共享。
公知截取信號波形數據並予以記錄時，通常視所需的精度而定，是以八個位或十六個位來表示所被取樣波形各點的振幅值。如果一段波形以8K個點取樣，且以八個位表示每個取樣點量化後的值，則該段波形須佔用64K位。換句話說，如果記錄聲頻信號的信號時，以每秒8K的取樣率並以8位量化，則每秒所截取的信號便需要64K位的存儲空間。
以上述脈碼調製(PCMPulse Code Modulation)方式處理聲頻信號雖可為實時(real time)的處理，但所處理得的龐大數據會佔用大量的存儲空間，對其實際的應用構成極大的限制。如果使用自適應差分脈碼調製(ADPCMAdaptive Differential Pulse Code Modulation)方式編碼，雖可節省一半的存儲空間，但對低速中央處理器(諸如Z80、80386等)而言，因運算法則過於複雜繁瑣，因而無法以實時的方式處理。因此，在低速中央處理器的應用領域裡，尋求一種聲頻信號處理方法，同時兼具不會佔用大量存儲空間及能實時處理等功能，成為此領域人士所期盼的。
因此，本發明的主要目的，在於提供一種聲頻信號特徵波形合成方法，可減少對存儲空間的需求。
本發明的另一目的，在於提供一種聲頻信號特徵波形合成方法，可適用於低速中央處理器得對聲頻信號做實時處理。
為達到上述目的，本發明提供一種聲頻信號特徵波形合成方法，該方法包括如下步驟截取聲頻信號；對所截取的聲頻信號進行取樣與量化處理；進行特徵波形的選取；存儲特徵波形及時間間隔；讀取所存儲的能代表一聲頻信號的第一特徵波形和第二特徵波形；以內插法合成出其間的內插波形。
為達到上述目的，本發明提供一種聲頻信號特徵波形合成方法來完成，其中，第一特徵波形的周期為Ma、振幅為Aa[t]，而第二特徵波形的周期為Mb、振幅為Ab[t]，該第一特徵波形和該第二特徵波形之間的時間間隔為L。根據本發明方法是以內插法合成出第一特徵波形和該第二特徵波形間的內插波形。而各內插波形的振幅值為Ar[t]＝(L-K)/L×Ar′[t]+(1+k)/L×Ar″[t]；各內插波形的周期為Mr＝Ma-r×(Ma-Mb)/(1+R)其中，r＝1，2，...，R；其中，R＝2L/(Ma+Mb)；Ar′[t]＝Aa[(Ma/Mr)×t]；Ar″[t]＝Ab[(Mb/Mr)×t]；r＝1，2，...，R；t＝0，1，...，Mr-1；以及k＝(M1+M2+...+M(r-1))，(M1+M2+...+M(r-1)+1)，...，(M1+M2+...+M(r-1)+(Mr-1))。
為使本發明的上述和其他目的、特徵、和優點能更明顯易懂，下文特舉一較佳實施例，並配合附圖作詳細說明如下。

圖1是顯示一段聲頻信號波形圖；圖2是顯示經選取後的特徵波形圖；圖3是顯示根據本發明聲頻信號特徵波形合成方法合成後的波形圖；圖4是顯示本發明方法的流程圖；以及圖5是顯示本發明方法一個實施例的流程圖。
本發明所提供的聲頻信號特徵波形合成方法，是先對待處理的波形進行分析，篩選出具代表性的特徵波形(characteristic waveform)。當在存儲時，僅需記錄這些特徵波形及其相關參數，而不必記錄整個信號的波形，於是，便可減省大量的存儲空間。由於篩選出特徵波形前，聲頻信號已經過取樣量化等處理，故而所選取的特徵波形根據其取樣率呈離散值(discrete value)。後續合成還原時，藉由讀出此等特徵波形及其相關參數，再以一內插運算法就可以合成還原出波形。此內插運算法並非屬複雜繁瑣的方法，故還原速度相當快，就以80486中央處理器還原4000K位數據量的波形為例，約僅需五秒鐘的光景。因此，本發明方法相當符合低速中央處理器的應用領域。以下便就本發明方法做詳細說明如下。
若要談論聲頻信號特徵波形合成，則必然先得說明特徵波形是如何選取。由於包括語音、音樂、音素、音效等的聲頻信號都具有一些共同的特點，即是在某一時間區段裡具有準周期性，另外，聲頻信號亦具有連續性。根據這兩個主要特點，針對一段聲頻信號波形進行觀察，選出其中具代表性的特徵波形，並把這些特徵波形記錄存儲，同時也將兩相鄰特徵波形之間的長度也一併予以記錄存儲。
為便於後續波形的還原，得以降低合成後的聲頻信號波形間連接處過大的跳動而產生的噪音，因此，所選取的特徵波形起始和終止位置最好選擇在振幅等於零或接近零處，且與相鄰波形連接處同為向上或向下的趨勢，以確保相位一致。此一特徵波形選取步驟，譬如可以一邊選取特徵波形、一邊利用本發明的聲頻信號特徵波形合成方法(如後詳述)合成信號，然後聽合成後的效果；如果不理想，則重新選取合成，直至尋找能得到最佳效果的特徵波形為止。再者，也可使用自相關函數及互相關函數來計算信號的周期，並據以選取特徵波形。若聲頻信號屬語音信號，則其信號的周期很明顯，很容易篩選出具有代表性的特徵波形。
圖1所示為一段聲頻信號波形圖，根據這段波形，選取如圖2所示的兩個特徵波形A和B並予以存儲，同時將兩個特徵波形間的時間長度L也予以記錄存儲，此時長度L是指特徵波形A的終止點至特徵波形B的起始點而言。在此再次強調，由於篩選出特徵波形前，聲頻信號已經過取樣量化等處理，故而所選取的特徵波形根據其取樣率呈離散值(discrete value)。
如上所述，經選取的之特徵波形A和B，波形A是一個周期為Ma、振幅為Aa[t]的波形，波形B是一個周期為Mb、振幅為Ab[t]的波形，波形A和波形B之間的時間間隔為L，故在時間間隔L預計要內插的波形次數為R＝2L/(Ma+Mb)；各個內插波形的周期Mr分別為Mr＝Ma-r×(Ma-Mb)/(1+R)其中，r＝1，2...，R；波形A按Mr周期延拓A1′[t]＝Aa[(Ma/M1)×t]其中，t＝0，1，...，M1-1；A2′[t]＝Aa[(Ma/M2)×t]其中，t＝0，1，...，M2-1； Ar′[t]＝Aa[(Ma/Mr)×t]其中，t＝0，1，...，Mr-1；波形B按Mr周期延拓A1″[t]＝Ab[(Mb/M1)×t]其中，t＝0，1，...，M1-1；A2″[t]＝Ab[(Mb/M1)×t]其中，t＝0，1，...，M2-1； Ar″[t]＝Ab[(Mb/Mr)×t]其中，t＝0，1，...，Mr-1；再者，波形A按(L-k)/L的比例依次對各合成波形延拓影響，波形B按(1+k)/L的比例依次對各合成波形延拓影響。則還原後的各個重複波形振幅值為Ar[t]＝(L-K)/L×Ar′[t]+(1+k)/L×Ar″[t]；其中，r＝1，2，...，R；t＝0，1，...，Mr-1；以及k＝(M1+M2+...+M(r-1))，(M1+M2+...+M(r-1)+1)，...，(M1+M2+...+M(r-1)+(Mr-1))。
據此，由波形A和波形B所合成的波形即如圖3所示。原先需要存儲圖1所示的整段波形，根據本發明聲頻信號特徵波形合成方法後，僅需存儲波形A和波形B、以及其間的時間間隔長度L即可，故可大幅減省存儲空間。
本發明方法適用於處理聲頻信號，壁如是用WAV或PCM記錄的聲音信號，故可套用WAV的基本格式。
本發明的特徵波形存儲可以包括標題區(header block)及數據區(DataBlock)兩個區塊組成的格式存儲，現詳細說明如下標題區該標題區包含一些基本信息，其包括文件長度、檔案名類型、格式類型、通道數、取樣頻率值、每秒平均數據傳送速率、PCM數據取樣位數、以及特徵波形個數等。此特徵波形的文件數據結構可如下述的C語言所示而，AvgBytesPerSec＝Channels×SamplePerSec×(BitPerSample/8)；Blockalign＝Channels×(BitPerSample/8))；數據區該數據區存放特徵波形的PCM取樣數據及特徵波形信息參數。譬如，一個八位單聲道脈碼調製數據的存儲格式可以是
16位16位 8位8位 8位其中，信息位為三個位組成，特徵波形周期是以十三個位表示。一個八位雙聲道脈碼調製數據的存儲格式可以是
16位16位 8位8位 8位其中，信息位為三個位組成，特徵波形周期是以十三個位表示。一個十六位單聲道脈碼調製數據的存儲格式可以是
16位 16位 8位 8位 8位 8位 8位其中，信息位為三個位組成，特徵波形周期是以十三個位表示。一個十六位雙聲道脈碼調製數據的存儲格式可以是
16位16位 8位 8位 8位 8位 8位其中，信息位為三個位組成，特徵波形周期是以十三個位表示。
上述各格式的信息位三個位是用來區分特徵波形的類型。譬如待選取的聲頻信號為英語單字的發音，則特徵波形可以分為子音、母音及靜音等。如果是靜音，則記錄波形周期的13個位連同後續的16個位總共29個位，用以記錄此靜音的長度，於是，一共可以記錄512M個取樣點；若靜音長度超過此一數值，則可再佔用4個位來記錄靜音長度。
當在特徵波形合成時，內插波形與特徵波形間的連接，如果不是很平滑就會產生噪音。為了避免該噪音的出現，當在選取特徵波形時，就應當注重特徵波形的起始點的選擇，儘可能選擇每個起始點振幅為零或近於零處。因此，得以確保波形連接處的平滑，則根據本法所合成的聲音為自然。
在上述特徵波形合成過程中，運用內插法計算出經選取的兩特徵波形的時間間隔L內所需內插的波形個數及每個內插波形的周期。然而，在合成還原後，由內插波形所組成的時間長度L′較之L為小，其間之差介於0～較小的特徵波形周期長度間。為能保證所合成波形與原始波形長度一致，可在內插波形中再均勻內插1～2點，促使L′和L二者趨於一致。另外，也可以利用一低通濾波器對聲頻信號進行過濾，消除因連接不平滑所產生的噪音。
參照圖4和5，所示分別是本發明方法的流程圖及一實施例(TTSText toSpeech)的流程圖。
如圖4所示，為本發明方法的流程圖。首先，在步驟40，從磁帶等媒體截取記錄在其上的聲頻信號，若是應用於文字轉換語音技術，則此聲頻信號是指由發音規則所歸納得的音素。再在步驟42，對所截取的聲頻信號進行取樣與量化處理，簡言之，就是做數位化處理，以便於形成如WAV格式的文件。接著，在步驟44，進行特徵波形的選取，為便於後續波形的還原，得以降低合成後的聲頻信號波形間連接處過大的跳動而產生噪音，故所選取的特徵波形起始和終止位置最好選擇振幅等於零或接近於零處，且與相鄰波形連接處同為向上或向下的趨勢，以確保相位一致。目前可以建立一個工作環境，一邊選取特徵波形、一邊利用本發明聲頻信號特徵波形合成方法合成信號，然後聽合成後的效果；如不理想，則重新選取合成，直至尋找能得到最佳效果的特徵波形止。再者，亦可使用自相關函數及互相關函數來計算信號的周期，並據以選取特徵波形。若聲頻信號屬語音信號，則其信號的周期很明顯，很容易便可決定較適當的特徵波形。然後，在步驟46，將所選取的特徵波形和兩特徵波形間的時間長度予以存儲，之後，在步驟48，讀取特徵波形及時間間隔，所讀取的是所存儲的能代表一聲頻信號的第一特徵波形和第二特徵波形，在步驟50，進行特徵波形合成，最後，在步驟52，發聲。
如圖5所示，所示為本發明方法應用於文字轉換語音(TTSText to Speech)技術的合成方塊流程圖。首先，在步驟50，讀取單詞，此單詞譬如是由使用者查詢得的某一單字，再在步驟52，分析單詞的音標組合，並在步驟54，依特定規則選取音素，譬如以英文單字「HELLO」為例，依讀音規則可切分成*h、ha、al、lo、o*等音素，其中，符號*代表靜音。而步驟56是根據本發明方法合成所選取的音素，再在步驟58，將所合成的音素組合成單詞，並在步驟60，對此單詞發聲。上述步驟50、52、54、58等步驟的詳細流程已揭露於申請號85112444和85112445等各案，但其並非為本發明的重點，故於此不再贅述。
綜上所述，運用本發明聲頻信號特徵波形合成方法，是對聲頻信號篩選具代表性的特徵波形，後續再根據特徵波形以內插法合成還原。然而，其壓縮率和還原效果端賴所被選取的原始聲頻信號波形，本發明方法已對音樂和音效測試，針對8K取樣率、8位量化、傳輸率為64Kbits/sec的原始聲頻信號而言，其速率約介於8～32Kbits/sec，此速率介於自適應差分脈碼調製(ADPCM)和向量和激勵線性預測(VSELP)之間，然而其所合成的音質則接近自適應差分脈碼調製(ADPCM)。
雖然本發明已以較佳實施例揭露如上，但其並非用以限定本發明，任何本領域的技術人員，在不脫離本發明的精神範圍內，可作更動與潤飾，因此本發明的保護範圍應以權利要求所界定的範圍為準。
權利要求
1.一種聲頻信號特徵波形合成方法，其特徵在於，該方法按如下步驟執行截取聲頻信號；對所截取的聲頻信號進行取樣與量化處理；進行特徵波形的選取；存儲特徵波形及時間間隔；讀取所存儲的能代表一聲頻信號的第一特徵波形和第二特徵波形；以內插法合成出其間的內插波形。
2.如權利要求1所述的聲頻信號特徵波形合成方法，其中，該第一特徵波形的周期為Ma、振幅為Aa[t]，該第二特徵波形的周期為Mb、振幅為Ab[t]，該第一特徵波形和該第二特徵波形之間的時間間隔為L。
3.如權利要求2所述的該聲頻信號特徵波形合成方法，其中，該內插波形的關係如下各個該內插波形的振幅值為Ar[t]＝(L-k)/L×Ar′[t]+(1+k)/L×Ar″[t]；各個內插波形的周期為Mr＝Ma-r×(Ma-Mb)/(1+R)其中，r＝1，2，...，R；其中，R＝2L/(Ma+Mb)；Ar′[t]＝Aa[(Ma/Mr)×t]；Ar″[t]＝Ab[(Mb/Mr)×t]；r＝1，2，...，R；t＝0，1，...，Mr-1；以及k＝(M1+M2+...+M(r-1))，(M1+M2+...+M(r-1)+1)，...，(M1+M2+...+M(r-1)+(Mr-1))。
4.如權利要求1所述的聲頻信號特徵波形合成方法，其中，該第一特徵波形和該第二特徵波形的起始點和終止點振幅近於零。
5.如權利要求4所述的聲頻信號特徵波形合成方法，其中，該第一特徵波形和該第二特徵波形的起始點和終止點振幅等於零。
全文摘要
聲頻信號特徵波形合成及選取方法,是先對待處理的波形進行分析,篩選出具代表性的特徵波形。在存儲時,僅記錄這些特徵波形及其相關參數,不必記錄整個信號的波形,可減省大量的存儲空間。在後續合成還原時,通過讀出此特徵波形及其相關參數,再以一內插運算法就可以合成還原出波形。其所合成的音質接近自適應差分脈碼調製(ADPCM)的音質,故符合低速中央處理器的應用領域。
文檔編號G10L13/00GK1245326SQ9811836
公開日2000年2月23日申請日期1998年8月17日優先權日1998年8月17日
發明者張景嵩, 溫世義, 全晨, 方國平申請人:英業達股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

聲頻信號特徵波形的合成方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法