新四季網

一種動態漢語語音合成方法

2023-06-06 09:46:11

專利名稱:一種動態漢語語音合成方法
技術領域:
本發明涉及一種語音合成技術,特別是涉及一種基於大規模自然語音音庫的動態漢語語音合成技術。
目前,國內外語音合成技術主要有參數合成技術和波形合成技術兩種。波形合成技術又分為簡單波形拼接技術和基音同步波形疊加技術兩種。
從理論上講參數合成技術是合理的,但這種技術過分依賴於語言學和語音學的發展,由於言語生成模型不夠完善,合成語音的音質總是不盡人意。
應用參數合成技術的資料可參閱中國重大科技成果資料庫(1986—今),1.編號851408,四川大學楊家沅等的研究成果「計算機漢語語音合成裝置」;2.編號880759,四川大學苟大舉等的研究成果,「無限詞彙的計算機漢語語音合成系統」;3.編號912209,復旦大學李宗葛等的研究成果「人—機器人漢語語音通信系統研究」。
波形拼接技術在用於語音表公共汽車報站器等有限詞彙合成時,能合成出清晰、自然的語音。但簡單的波形拼接法用於無限詞彙的漢語文語轉換系統時,由於不能改變原始採樣波形的聲學參數,以使其適應於不同的上下文語言環境,所以使得合成出的連續語音的自然度較差。
應用波形拼接合成技術的資料可查閱1.中國發明專利ZL94103372,發明人清華大學蔡蓮紅等,發明名稱「基于波形編輯的漢語文字—語音轉換方法及系統」;2.中國重大科技成果資料庫,a.編號891728,復旦大學邵祥義等的研究成果「漢語語聲識別及合成技術開發」;b.編號941008,清華大學蔡蓮紅等的研究成果,「漢語文語轉換系統TH-Speech」;3.中國適用技術資料庫(1983—今),編號199012,同濟大學邵祥義等的研究成果「漢語語聲識別及合成技術開發」。
利用基因同步波形疊加方法在時間域中調節韻律參數,對提高自然度有一定作用,但處理後的聲音和音色與原始發音不完全相同,有機器聲、回聲,聽起來不夠親切和清晰,也很難為公眾所接受。相關文獻見中國實用新型專利ZL 97215108,發明人呂士楠等,發明名稱為「基音同步波形疊加漢語文語轉換裝置」。
本發明的目的是針對現有的利用參數合成、簡單波形拼接合成以及基音同步疊加技術的語音合成所存在的缺陷和不足,採用一種基於拼接自然言語片段的無限詞彙動態漢語語音技術,提供一種高清晰度和高自然度的漢語文語轉換系統,即以自然語音的音色和韻律將漢字文本變成語音的播放系統。該系統以大規模的自然語音的數位化錄音為基礎,通過選取相匹配的語音片段的拼接,以達到合成為自然、流暢的漢語語音的目的。
本發明主要基於大規模自然語音的錄音音庫。大規模的概念是指錄音音庫的範圍基本覆蓋了絕大多數上下文環境中的各種發音的情況,針對不同的上下文環境,系統將選取最匹配的原始語音片段來加以拼接。由於音庫的規模很大,因此在幾乎所有情況下,都能夠找到最適合的原始自然語音,而無需使用其它技術進行調節,因此保證了最終合成的語音和原始語音的一致性。另外,這裡所選取的片段超越了音節的層次,而是多字詞,這樣就進一步保證了合成語音的自然度。本發明的技術方案主要分為兩部分一是大規模錄音音庫的構造,二是語音的合成。
在大規模錄音音庫的構造過程中,主要包括以下幾個步驟首先,進行錄音文本設計(即擬定錄音的內容)。通過計算機從一個大規模語料庫(1999年人民日報,約2500萬字)中檢索高頻度的漢語語句,再由人工確認並淘汰不合適的語句。在此檢索結果上構造錄音文本,以保證根據此錄音文本錄製的音庫具有較高的覆蓋率,既能夠覆蓋所有的漢語基本音節,包括常見的輕聲、兒化音節和絕大多數的上下文語言環境,如句法結構及語法重音配置等。
第二步,擬定錄音內容後。請一位專業播音員在專用的錄音室中進行錄音,房間的混響時間為0.5秒左右,信噪比高於30分貝,用高保真話筒和放大器,要求從20Hz~20KHz間有平坦的響應。要求播音員按照正常的速度和音高朗讀所擬定的錄音文本。用數字錄音機和數字錄音磁帶採用16位量化,不低於16KHz採樣率進行錄音。同時採用電聲門波圖儀記錄聲門振動的信號,並記錄在數字錄音磁帶上。
第三步,由人工將上述得到的錄音信號,從數字錄音機中通過採樣卡採到計算機中,由此便得到真實錄音的語音庫。同時將聲門振動的信號也採樣到計算機中。
第四步,得到真實錄音的語音庫後,由實驗室人工對每句的韻律層次結構(三級結構韻律詞、韻律短語和語調短語)進行分析。以音節為最小單位,標註出每個音節在聲音文件中的起、止點位置,音節所在句的編碼,音節在詞中的位置,詞在韻律短語中的位置,韻律短語在語調短語中的位置以及語調短語在句中的位置等。將這些信息保留為計算機中的庫文件,形成真實語音的索引庫。
第五步,對前述的聲門振動信號進行聲學分析和聚類分析。通過計算機從聲門振動的信號中提取每個音節的基頻(70~400Hz)和音長(130~400ms)。根據每個音節的基頻信息和音長信息進行聚類,淘汰一些相似的或重複的音節,只保留具有典型特徵的音節,以得到經過精簡後的語音庫。根據不同需要,可以選擇不同的淘汰閾值,這樣對每個音節來說,可以包含不同的音節樣本數目,以得到不同大小規模的語音庫。
最後,對語音庫進行壓縮,此步為了適合嵌入式系統內存較少的應用環境,可根據需要對語音數據進行壓縮。例如採用G.729等語音壓縮國際標準來對所得到的語音庫進行壓縮,壓縮比可達到16∶1左右。
語音合成過程主要包括以下幾個步驟首先,通過計算機設置初始的合成參數,目前的合成參數有音庫(男聲庫或女聲庫)、語速(10級)、數字讀法(電報讀法或數目讀法)、是否閱讀標點等。
第二步,通過計算機對文本進行切分,即利用標點信息(逗號、句號、問號、感嘆號、分號、冒號等)將輸入的文本文件切分為短句。同時提取用戶輸入的標註信息,標註是用戶控制文語轉換效果的一種高級手段,通過標註可以控制合成參數或多音字的特殊讀法等。
例如中儲股份(\digit=2\600787\digit=\)\speed=6\公司近期在資產運做方面加快了步伐,但該股短期可能還有一次回調\read=tiao2\過程。將被切分為三個短句(1)中儲股份(600787)(2)公司近期在資產運做方面加快了步伐,(3)但該股短期可能還有一次回調過程。
根據上述標註,600787將按照電報方式讀出(即讀成六零零七八七),而不會按初始預設的數目方式讀出(即讀成六十萬零七百八十七)。讀完後將數字讀法置回預設值。回調的「調」字會讀成「條」的音,而不會讀成「吊」的音。從第二個短句開始,語速將改變到第6級。
文本切分後,由計算機進行文本的預處理預處理主要包括數字處理和符號轉換,也即將數字、符號轉換成相應的中文讀法。a數字處理對數字處理來說,如果有用戶的標註,將按照用戶的標註進行轉換,如果沒有用戶標註,將會根據上下文來進行自動判斷。例如2001年,我市人均收入將超過4000元。2001將按照數字讀法(即二零零一),4000按照數目讀法(即四千)。昨晚2117,孔令輝以21∶17勝了第三局。第一個2117將按照時間來讀取(即讀成二十一點十七分),第二個21∶17將按照比分來讀取(即讀成二十一比十七)。b符號轉換根據上下文判斷符號的讀法,轉換為相應的中文讀法。例如「.」有時做為小數點,有時做為句號(英文)。「-」有時做為減號,有時做為「到」(如1-5%)。「/」可以做為「除以」,也可能是「每」(如100m/s)。
第三步計算機對預處理後的文本進行韻律層次結構分析,即計算機根據上下文的環境,進行韻律層次結構分析,得到多層韻律層次結構,包括詞、韻律短語和語調短語等。其中包括分詞、歧義處理、詞綴處理、姓名判定、未登錄詞判定、韻律短語判定、語調判定等。a分詞本發明中採用的分詞方法是雙向最大匹配法。也即對需要分詞的短語進行正向的和逆向的最大匹配,如果一致的地方則得到了切分結果,如果不一致的地方認為是歧義欄位,再對歧義欄位作進一步處理。例如「這件事一時的確定不下來」的正、逆向分詞結果分別為正向這件/事/一時/的確/定/不/下來逆向這件/事/一時/的/確定/不/下來因此,此文本中有一個歧義欄位「的確定」,其它部分都已得到正確的分詞結果。b歧義處理本發明中採用的歧義處理主要是詞性法,也即對於該歧義字串內提供首字和末字的詞性信息(主要是介詞、副詞、助詞、連詞等)進行切分,如果不能滿足切分規則的,則使用逆向最大分詞的結果。例如從中國從/中國;表面的表面/的;需求和需求/和;c詞綴處理本發明中的詞綴處理是指建立一虛詞庫,收錄了常見的詞綴信息。按照規則將未組詞的詞綴單字賦予前粘、後粘或者單字屬性,以便在選音時可以根據此屬性選擇更匹配的音。例如要獲取/幫助和疑難/解答,請登錄/我們的/網站其中「要、請」被賦予後粘屬性,「的」被賦予前粘屬性。「和」被賦予單字屬性。d姓名和未登錄詞判定本發明對於未組詞的單字近一步判斷其是否是姓氏。如果可能是姓氏,同時根據上下文關係判斷是否是真實的姓名。另外,對於連續的單字將做為未登錄詞處理,按照二三原則分開。e韻律短語切分判斷前停詞(例如「不是」「而是」、)後停詞(例如「說」、「講」),在人們閱讀到這些詞的時候一般要做明顯的停頓,再根據人大致說7個字左右需要進行呼吸的特點,進行韻律短語切分。f語調判定根據句尾的標點來標定整個語句的語調模式。以便後面的選音過程能根據此屬性選取更匹配的音節樣板。
第四步,計算機根據韻律層次結構分析的結果,在大規模錄音音庫中搜索到最匹配的錄音片段。主要包括如下幾方面a獲得拼音將切分好的文本轉化成為拼音碼。b多音字處理多音字如果分詞時屬於某個詞,即可從詞庫中得到它的正確拼音。如果是單字,則對某些特殊的字根據上下文進行判斷。例如「重」如果前面是數字,則讀「蟲」音,否則讀「眾」音。如果不在這些特殊的字中間,則採用默認的拼音。c音變在語流中,連著讀的音節或聲調有時會發生變化。這裡主要處理了變調、輕聲、兒化等,根據實現擬定的規則,將拼音碼改變。d最長匹配對得到的一串連續的拼音碼,在音庫中進行最長匹配,搜索能夠儘量匹配的短語或詞。如果能搜索到,則直接使用能夠匹配的短語或詞。e選音如果不能通過最長匹配得到音節樣本,則需要通過一些屬性從音庫中搜索最合適的樣本。這些屬性包括這個音節是在詞首、詞中、詞尾還是單字詞;這個音節所在的詞是在句首、句中還是句末;這個音節前面和後面的聲調是什麼,也即調連屬性;這個音節前面的韻母和後面的聲母是什麼,也即音連屬性;這個音節的前粘、後粘屬性;這個音節所在韻律短語的位置,這個音節所在語句的語調模式;第五步,由計算機將得到的音段拼接成語句。並且做如下處理a對於連接處進行加窗處理,使前一個音節的尾部緩降到0,後一個音節的開始部分從0緩升,以使相鄰音節的語音特徵不會有突變。b對韻律層次結構的邊界處增加靜音段,根據不同的韻律層次結構的邊界,將增加不同長度的靜音段,以基本符合人們朗讀時的停頓情況。通過拼接和平滑的過程,就可以得到準確、清晰、流暢、自然的連續語音。
第六步,計算機將得到的連續語音通過音效卡輸出。
本發明可以將計算機接收到的或內部產生的信息通過語音的方式播放出來,擺脫了目前人們對計算機屏幕的視覺依賴,可以通過「聽」來獲取計算機中的信息,同時有利於通過電話進行信息傳輸,為計算機提供新的人機接口。這種新的計算機信息輸出方式適用於臺式計算機、掌上電腦和車載移動通信系統,也可用於機場、碼頭和車站的自動播音系統,各種信息自動諮詢系統,殘疾人的助講、助讀以及辦公自動化系統等方面。
本發明結合附

圖1說明如下圖1為系統流程圖,其中1.設置初始合成參數2.文本切分和預處理3.韻律層次結構分析4.選音5.波形拼接6.播放合成結果7.進行結束選擇8.構造音庫初始化9.錄音文本設計10.錄音11.採樣12.切分和標註13.聲學分析和聚類分析14.壓縮15.形成語音庫本發明的技術方案可以在PC機WINDOWS、NT和WIN-CE作業系統環境下實現。這裡介紹本發明的技術方案是在一臺帶音效卡的586IBM/PC兼容機WINDOWS作業系統環境下具體實現的。
首先進行錄音文本設計,通過對1999年人民日報進行檢索,選出高頻語句。由計算機得到初始的檢索結果共計10000句,再由人工確認並淘汰不合適語句。並人工追加了常用的兒化音句、常用輕聲句等其它常用音節樣本。
錄音文本的組成為高頻語句9912句常用兒化音句290句常用輕聲句 380句常用英文單詞251個數字、數字串 1271個英文字母組合串 1216個希臘字母 24個標點符號的漢語讀音 21個第二步進行錄音,由一位廣播學院高年級女生按新聞廣播風格朗讀選定語句,廣播學院錄音室錄音。錄音時使用數字錄音機,並採用16位量化,44.1KHz採樣率進行錄製。從數字錄音機轉存到計算機上時,降採樣到16KHz,以減小數據量。得到的音庫共計2G左右大小。
第三步進行切分和標註,在實驗室由人工完成。得到相應的每個音節的位置和韻律特徵屬性,並保存在一索引庫中。
第四步進行聲學分析和聚類分析,通過計算機提取聲學參數(基頻和音長),對不同的音節做聚類分析,保留典型音節,淘汰重複音節,由機器和人工結合完成。使用不同的閾值,可以得到兩個版本的音庫,一是700M左右,二是12M左右。12M的庫再通過G.729壓縮可以壓縮到1M以下,即可適應嵌入式系統應用的要求。
第五步進行切分和預處理,對於任意輸入的文本文件,計算機對文本進行切分和預處理。總結了大量實際文本中的數字和符號出現的方式,定義了一些行之有效的規則,利用這些規則自動判斷數字和符號的讀法。
第六步進行韻律層次結構分析,即計算機對預處理後的文本進行韻律層次結構分析。在系統中有六萬詞的詞庫,以供分詞使用。另外有單字屬性庫,對每個GB範圍的漢字都記錄它的一些屬性例如是否動詞,是否副詞,是否介詞,是否可做量詞,是否詞綴(前粘、後粘、單字),是否姓氏,是否常用姓氏,是否常用名,是否是地名分界詞等。另外,還有常見的稱謂庫,前停、後停詞庫等,以供韻律層次結構分析時使用。
第七步計算機根據韻律層次結構分析的結果,從大規模錄音音庫中選擇最匹配的錄音片段,可能是通過最長匹配獲得的詞或短語,也可能是根據韻律層次結構分析獲得的屬性而從音庫中選取的最合適的音節樣本。
第八步將得到的音段拼接成語句,對相鄰的音節做加窗處理,在首尾各加10ms的三角窗,根據韻律層次結構的邊界增加不同長度的靜音段,在詞間增加10ms,在韻律短語間增加100ms,在冒號後增加200ms,在分號後增加400ms,在逗號間增加300ms,在陳述句後增加600ms,在疑問和感嘆句後增加800ms。這樣就可以得到準確、清晰、流暢、自然的連續語音。
第九步計算機將得到的連續語音通過音效卡播出。
本發明與現有技術相比具有以下優點1.無限詞彙漢語合成,發音準確、清晰、自然。
2.具有混合中英文文本播放功能。
3.有從2G至1.5M不同大小規模的音庫可供選擇。
4.語音庫和運行程序可壓縮到1.5MB,可以以嵌入式方式植入掌上電腦。
權利要求
一種基於大規模自然語音音庫的動態漢語語音合成方法,其特徵包括1.通過計算機檢索,設計較高覆蓋率的錄音文本的步驟;
2.通過人工錄音得到大規模的真實錄音的原始語音庫的步驟;
3.通過實驗室計算機和人工結合完成,用於對句子的韻律層次結構進行切分和標註的步驟;
4.通過計算機聲學分析、聚類分析和壓縮技術,用於得到不同大小規模語音庫的步驟;
5.通過計算機自動進行韻律層次結構分析,得到多級的韻律層次結構(韻律詞、韻律短語、語調短語)的步驟;
6.通過計算機進行選音,包括最長匹配或根據韻律分析得到的韻律結構,從大規模真實錄音語音庫中選取最匹配的語音片段的步驟。
全文摘要
一種高清晰度和高自然度的漢語無限詞彙語音合成方法,和一個實用的漢語文本播放系統,它能將漢語文本轉換成流暢的漢語口語輸出。基本方法是:收集大量的常用語句的錄音,經聲學分析,韻律層級標註,語音選擇,建立語音庫。然後由計算機對待播放的文本作出韻律層級分析,檢索語音庫中匹配語音音段,再拼接成準確、清晰、自然的連續語言。它具有數學運算少,能實時處理;佔用計算機內存可壓縮,可植入掌上電腦,輸出語音準確、清晰、流暢,接近自然語言的特點。適用於臺式計算機、掌上電腦和車載移動通信系統,可用於機場、碼頭和車站的自動播音系統,各種信息自動諮詢系統,殘疾人的助講、助讀以及辦公自動化系統等方面。
文檔編號G06F17/30GK1333501SQ01123418
公開日2002年1月30日 申請日期2001年7月20日 優先權日2001年7月20日
發明者呂士楠, 陳明, 張連毅, 賀琳, 耿俊成 申請人:北京捷通華聲語音技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀