實現黏著語文本韻律短語劃分的方法及系統的製作方法
2023-04-25 23:49:56 1
實現黏著語文本韻律短語劃分的方法及系統的製作方法
【專利摘要】本發明公開了一種實現黏著語文本韻律短語劃分的方法及系統,該方法包括:預先基於數據統計方式確定黏著語的基本構詞單元,所述基本構詞單元包括:獨立詞、詞幹、詞幹串、詞綴、詞綴串;在接收到待合成文本的單詞串後,根據所述基本構詞單元對所述單詞串中每個單詞進行切分,得到構詞單元序列;確定所述構詞單元序列中詞綴對詞幹的影響級別、以及詞綴串對詞幹的影響級別;確定所述構詞單元序列中各構詞單元的詞性;根據所述構詞單元序列中各構詞單元的詞性及所述詞綴和詞綴串對詞幹的影響級別確定所述單詞文本的詞性;根據所述單詞文本的詞性、詞長、以及所述單詞文本中詞的個數,進行韻律短語劃分。利用本發明,可以有效提高黏著語的韻律分析效果,進而改善合成語音的韻律自然度及可懂度。
【專利說明】實現黏著語文本韻律短語劃分的方法及系統
【技術領域】
[0001]本發明涉及文本處理【技術領域】,具體涉及一種實現黏著語文本韻律短語劃分的方法及系統。
【背景技術】
[0002]實現人機之間人性化、智能化的有效交互,構建高效自然的人機交流環境,已經成為當前信息技術應用和發展的迫切需求。作為語音技術中十分實用的一項重要技術,語音合成技術將文字信息轉化為自然的語音信號,實現任意文本的實時轉換,改變了傳統通過錄音回放實現機器開口說話的繁瑣操作,並節省了系統存儲空間,在信息交互日益增多的當今特別是在信息內容需要經常變動的動態查詢應用方法發揮了越來越重要的作用。
[0003]近年來,隨著信息社會的需求發展,用戶對人機互動提出了更高的要求,高自然度的語音合成效果已經成為高性能語音合成系統的重要標誌。
[0004]語音合成又稱文語轉換(Text to Speech)技術,文語轉換過程是先將文字序列轉換成語音單元序列,再由系統根據音韻序列生成語音波形。傳統語音合成系統中主要在合成前端實現文本規整、字詞切分、韻律短語劃分等,隨後在合成後端根據前端處理結果選擇合適的語音拼接單元或合成參數實現帶有停頓節奏的連續語音信號。反映連續語音節奏感的韻律問題,特別是韻律短語的合理切分直接影響到合成效果自然度乃至可懂度,受到越來越多研究人員的關注。
[0005]傳統的韻律分析主要面向孤立語(如中文等)等常用語種應用。由於孤立語不通過詞形變化來表達語法的作用,而僅通過獨立的詞和固定的詞序來表達語法意義,因此詞性意義明確,各詞詞性也是明確的,採用基於詞序的韻律分析手段可以取得較好的結果。而近年來,隨著國際交流的進一步深化,黏著語語音合成,特別是高自然度的黏著語語音合成對研究人員提出了新的要求。由於黏著語在語法構成及構詞上不同於孤立語,傳統的韻律分析方法直接應用於黏著語時效果不理想,因而有效提高黏著語的韻律分析效果成為新的研究方向。
【發明內容】
[0006]本發明實施例提供一種實現黏著語文本韻律短語劃分的方法及系統,以有效提高黏著語的韻律分析效果,進而改善合成語音的韻律自然度及可懂度。
[0007]為此,本發明實施例提供如下技術方案:
[0008]一種實現黏著語文本韻律短語劃分的方法,包括:
[0009]預先基於數據統計方式確定黏著語的基本構詞單元,所述基本構詞單元包括:獨立詞、詞幹、詞幹串、詞綴、詞綴串;
[0010]在接收到待合成的單詞文本後,根據所述基本構詞單元對所述單詞文本進行切分,得到構詞單元序列;
[0011]確定所述構詞單元序列中詞綴對詞幹的影響級別、以及詞綴串對詞幹的影響級別;
[0012]確定所述構詞單元序列中各構詞單元的詞性;
[0013]根據所述構詞單元序列中各構詞單元的詞性及所述詞綴和詞綴串對詞幹的影響級別確定所述單詞文本的詞性;
[0014]根據所述單詞文本的詞性、詞長、以及所述單詞文本中詞的個數,進行韻律短語劃分。
[0015]優選地,所述基於數據統計方式確定黏著語的基本構詞單元包括:
[0016]收集黏著語中的獨立詞、詞幹和詞綴;
[0017]基於大規模語料庫及所述詞幹和詞綴,生成候選構詞單元串,所述候選構詞單元串包括:候選詞幹串和候選詞綴串;
[0018]計算所述候選構詞單元串的選擇參數,所述選擇參數包括以下任意一種或多種:詞頻、內部凝固度、外部連結度,所述內部凝固度表示候選構詞單元串是基本構詞單元的可能性,所述外部連結度表示候選構詞單元串與其他詞串結合成構詞單元的可能性;
[0019]根據所述選擇參數從所述候選構詞單元串中選擇詞幹串和詞綴串;
[0020]由所述獨立詞、詞幹、詞綴、以及選擇的詞幹串和詞綴串生成黏著語的基本構詞單
J Li ο
[0021]優選地,所述根據所述基本構詞單元對所述單詞文本進行切分,得到構詞單元序列包括:
[0022]從所述單詞文本最左或最右邊開始,利用前向算法切分詞幹或詞幹串,得到多個索引;
[0023]依次對每個索引,利用前向算法切分構詞單元,得到對應所述單詞文本的多條切分路徑;
[0024]利用n-gram模型和viterbi算法確定唯一路徑;
[0025]根據所述唯一路徑上的基本構詞單元得到構詞單元序列。
[0026]優選地,所述確定所述構詞單元序列中詞綴對詞幹的影響級別、以及詞綴串對詞幹的影響級別包括:
[0027]根據詞綴的詞性確定所述詞綴對詞幹的影響級別;
[0028]如果詞綴串中包含的所有詞綴對詞幹的影響級別都為0,則確定所述詞綴串對詞幹的影響級別為0 ;
[0029]如果詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞綴串中對詞幹影響級別最高的詞綴對詞幹的影響級別作為所述詞綴串對詞幹的影響級別。
[0030]優選地,所述確定所述構詞單元序列中各構詞單元的詞性包括:
[0031]對於所述構詞單元序列中的詞幹串:如果詞幹串中包含的所有詞綴對詞幹的影響級別都為0,則將詞幹的詞性作為所述詞幹串的詞性;如果詞幹串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞幹串中對詞幹影響級別最高的詞綴的詞性作為所述詞幹串的詞性;
[0032]對於所述構詞單元序列中的詞綴串:如果詞綴串中包含的所有詞綴對詞幹的影響級別都為0,則將詞幹的詞性作為詞幹串的詞性;如果詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞綴串中對詞幹影響級別最高的詞綴的詞性作為所述詞綴串的詞性。
[0033]優選地,所述根據所述構詞單元序列中各構詞單元的詞性及所述詞綴和詞綴串對詞幹的影響級別確定所述單詞文本的詞性包括:
[0034]確定所述構詞單元序列中構詞單元的組合形式;
[0035]根據所述組合形式及其中詞綴或詞綴串對詞幹的影響級別確定所述單詞文本的詞性。
[0036]一種實現黏著語文本韻律短語劃分的系統,包括:
[0037]詞典構建模塊,用於預先基於數據統計方式確定黏著語的基本構詞單元,所述基本構詞單元包括:獨立詞、詞幹、詞幹串、詞綴、詞綴串;
[0038]接收模塊,用於接收待合成的單詞文本;
[0039]切分模塊,用於對所述接收模塊接收到的單詞文本,根據所述基本構詞單元對所述單詞文本進行切分,得到構詞單元序列;
[0040]影響級別確定模塊,用於確定所述構詞單元序列中詞綴對詞幹的影響級別、以及詞綴串對詞幹的影響級別;
[0041]構詞單元詞性確定模塊,用於確定所述構詞單元序列中各構詞單元的詞性;
[0042]單詞詞性確定模塊,用於根據所述構詞單元序列中各構詞單元的詞性及所述詞綴和詞綴串對詞幹的影響級別確定所述單詞文本的詞性;
[0043]韻律短語劃分模塊,用於根據所述單詞文本的詞性、詞長、以及所述單詞文本中詞的個數,進行韻律短語劃分。
[0044]優選地,所述詞典構建模塊包括:
[0045]收集單元,用於收集黏著語中的獨立詞、詞幹和詞綴;
[0046]候選構詞單元串生成單元,用於基於大規模語料庫及所述詞幹和詞綴,生成候選構詞單元串,所述候選構詞單元串包括:候選詞幹串和候選詞綴串;
[0047]參數計算單元,用於計算所述候選構詞單元串的選擇參數,所述選擇參數包括以下任意一種或多種:詞頻、內部凝固度、外部連結度,所述內部凝固度表示候選構詞單元串是基本構詞單元的可能性,所述外部連結度表示候選構詞單元串與其他詞串結合成構詞單元的可能性;
[0048]選擇單元,用於根據所述選擇參數從所述候選構詞單元串中選擇詞幹串和詞綴串;
[0049]詞典生成單元,用於由所述獨立詞、詞幹、詞綴、以及選擇的詞幹串和詞綴串生成黏著語的基本構詞單元。
[0050]優選地,所述切分模塊包括:
[0051]第一切分單元,用於從所述單詞文本最左或最右邊開始,利用前向算法切分詞幹或詞幹串,得到多個索引;
[0052]第二切分單元,用於依次對每個索引,利用前向算法切分詞綴或詞綴串,得到對應所述單詞文本的多條切分路徑;
[0053]路徑確定單元,用於利用n-gram模型和viterbi算法確定唯一路徑;
[0054]構詞單元序列獲取單元,用於根據所述唯一路徑上的基本構詞單元得到構詞單元序列。
[0055]優選地,所述影響級別確定模塊包括:
[0056]第一確定模塊,用於根據詞綴的詞性確定所述詞綴對詞幹的影響級別;
[0057]第二確定模塊,用於根據詞綴串中包含的詞綴對詞幹的影響級別確定所述詞綴串對詞幹的影響級別,並且在詞綴串中包含的所有詞綴對詞幹的影響級別都為0時,確定所述詞綴串對詞幹的影響級別為0 ;在詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0時,將詞綴串中對詞幹影響級別最高的詞綴對詞幹的影響級別作為所述詞綴串對詞幹的影響級別。
[0058]優選地,所述構詞單元詞性確定模塊,具體用於通過查詢包含所述基本構詞單元的詞典獲取所述構詞單元序列中的獨立詞、詞幹、以及詞綴的詞性,並且,對於所述構詞單元序列中的詞幹串:在所述詞幹串中包含的所有詞綴對詞幹的影響級別都為0時,將詞幹的詞性作為所述詞幹串的詞性;在所述詞幹串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0時,將所述詞幹串中對詞幹影響級別最高的詞綴的詞性作為所述詞幹串的詞性;對於所述構詞單元序列中的詞綴串:在所述詞綴串中包含的所有詞綴對詞幹的影響級別都為0時,將詞幹的詞性作為詞幹串的詞性;在所述詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0時,將所述詞綴串中對詞幹影響級別最高的詞綴的詞性作為所述詞綴串的詞性。
[0059]優選地,所述單詞詞性確定模塊包括:
[0060]組合形式確定單元,用於確定所述構詞單元序列中構詞單元的組合形式;
[0061]詞性確定單元,用於根據所述組合形式及其中詞綴或詞綴串對詞幹的影響級別確定所述單詞文本的詞性。
[0062]本發明實施例提供的實現黏著語文本韻律短語劃分的方法及系統,在基本構詞單元中,引入可變長度詞幹(即詞幹串)及可變長度詞綴(即詞綴串),而且預先基於數據統計方式確定黏著語基本構詞單元中的詞幹串和詞綴串,進而在對單詞文本進行切分時,可以充分提高切分精度,減少由歧義帶來的詞綴切分複雜度。另外,在確定單詞詞性時,不僅考慮到單詞中各構詞單元的詞性,而且著重考慮到詞綴和詞綴串的功能特性,即詞綴和詞綴串對詞幹的影響級別,簡化了單詞詞性確定的複雜性。本發明實施例的方法及系統可靠性聞、易實現、準確性聞,可以有效提聞黏著語的韻律分析效果,進而改善合成語首的韻律自然度及可懂度。
【專利附圖】
【附圖說明】
[0063]為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明中記載的一些實施例,對於本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
[0064]圖1是本發明實施例實現黏著語文本韻律短語劃分的方法的流程圖;
[0065]圖2是本發明實施例中確定黏著語的基本構詞單元的流程圖;
[0066]圖3是本發明實施例實現黏著語文本韻律短語劃分的系統的結構示意圖。
【具體實施方式】[0067]為了使本【技術領域】的人員更好地理解本發明實施例的方案,下面結合附圖和實施方式對本發明實施例作進一步的詳細說明。
[0068]由於不同於孤立語的構詞特點,黏著語(如維語、土耳其語、日語等語言)的單詞通常由詞幹和詞綴構成,即詞幹後可以附加多個句法功能不同的詞綴。黏著語靈活多變的構詞特性需要很大的詞典才能達到和孤立語相當的結果,這對於語音合成系統文本處理而言是一個負擔。其次黏著語詞性定義含糊,自然詞詞形變化複雜,一個詞幹後可以加很多詞綴,變化後的詞在句法上相當於孤立語中的短語,單詞詞性意義不明確。再次黏著後的詞序列接續情況也和孤立語言不同:即使對單個單詞給出了詞性,詞與詞之間接續的多變性對統計模型預測詞性序列帶來困難。顯然傳統的基於詞性定義、標註和預測的孤立語處理方法不完全適用於黏著語文本分析,也不能獲得令人滿意的前端分析效果。
[0069]黏著性結構的語言中,大多數單詞是由一個詞幹黏貼了一個到多個詞綴而形成的,因此黏著語詞性分析方面有如下特點:(1)詞幹詞性比較明確;(2)每單個詞綴有明確的詞性功能;(3)詞綴黏貼在詞幹上會不同程度地影響或改變詞幹詞性;(4)多詞綴化,即一個詞幹後可以被黏貼多個詞綴;(5)詞彙變化極其靈活,即有限的詞幹詞綴可以衍生出無限的單詞量。
[0070]由於黏著性結構語言的上述構詞特點,使得傳統的基於詞幹詞綴等固有基本構詞單元的切分及詞性預測方法存在一定的問題,主要體現在以下兩點:
[0071]1.詞幹詞綴切分存在準確性問題:
[0072]在黏著語中,詞幹、詞綴的組合存在歧義,如A、B、C是黏著語構詞的最小單元,即詞幹、詞綴,ABC結合形成單詞。A可能是合法詞幹,AB也是合法詞幹,B是合法詞綴,BC也是合法詞綴,因此單詞A BC有如下多種切分情況:A-B-C,AB-C, A-BC。歧義給詞幹詞綴的切分帶來了複雜性。
[0073]2.在獲得正確的詞幹詞綴切分後,如何標註該詞的詞性是一個值得探討的問題:
[0074]例如前面提到的維吾爾語單詞(拉丁表示)「dyingizge」有三個組成部份
「0乂-:11^2-§6」分別表示「家-你的-去」,表示「到你的家去」,其中0丫(是詞幹)是名詞,如果將整詞定義成名詞,顯然不合適,如果將整詞詞性描寫成「名詞+形容詞+向格」,也會對處理帶來一定困難。
[0075]考慮到傳統黏著語分析中詞幹詞綴切分及單詞詞性確定的複雜性和困難性,本發明實施例提出了一種實現黏著語文本韻律短語劃分的方法及系統,以有效提高黏著語的韻律分析效果,進而改善合成語音的韻律自然度及可懂度。
[0076]如圖1所示,是本發明實施例實現黏著語文本韻律短語劃分的方法的流程圖,包括以下步驟:
[0077]步驟101,預先基於數據統計方式確定黏著語的基本構詞單元,所述基本構詞單元包括:獨立詞、詞幹、詞幹串、詞綴、詞綴串。
[0078]在本發明實施例中,在確定黏著語的基本構詞單元時,不同於傳統黏著語分析中選擇固有的獨立詞、詞幹、詞綴為基本構詞單元,而是基於數據統計的方式,不僅將其固有的獨立詞、詞幹、詞綴作為基本構詞單元,而且在基本構詞單元中還加入了詞幹串和詞綴串。基本構詞單元中的詞幹串和詞綴串的確定將在後面詳細描述。
[0079]步驟102,在接收到待合成的單詞文本後,根據所述基本構詞單元對所述單詞文本進行切分,得到構詞單元序列。
[0080]在確定了黏著語的基本構詞單元後,就可以根據該基本構詞單元中的獨立詞、詞幹、詞幹串、詞綴、詞綴串對該單詞文本進行切分,具體切分過程如下:
[0081](1)從所述單詞文本最左或最右邊開始,利用前向算法切分詞幹或詞幹串,得到多個索引;
[0082](2)依次對每個索引,利用前向算法切分詞綴或詞綴串,得到對應所述單詞文本的多條切分路徑;
[0083](3)利用n-gram模型和viterbi算法確定唯一路徑;
[0084](4)根據所述唯一路徑上的基體構詞單元得到構詞單元序列。
[0085]前面所述的前向算法、以及n-gram模型和viterbi算法為現有技術,在此不再詳細描述。
[0086]步驟103,確定所述構詞單元序列中詞綴對詞幹的影響級別、以及詞綴串對詞幹的影響級別。
[0087]所述詞綴對詞幹的影響級別是指增加詞綴後詞串詞性變化內容和幅度。詞綴的影響級別可以由詞綴的詞性類別來確定,以維吾爾語為例,具體如下表1所示。
[0088]表1:
詞綴詞性類別影響級別
(對詞幹詞性的影響)
None0:不改變詞幹詞性
[0089]態1
體2
語氣3
格4
[0090]表1中,影響級別0表示不改變詞幹詞性,影響級別4表示對詞幹的影響最大。
[0091]而詞綴串對詞幹的影響級別可以按以下方式來確定,即:
[0092]如果詞綴串中包含的所有詞綴對詞幹的影響級別都為0,則確定所述詞綴串對詞幹的影響級別為0 ;
[0093]如果詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞綴串中對詞幹影響級別最高的詞綴對詞幹的影響級別作為所述詞綴串對詞幹的影響級別。
[0094]步驟104,確定所述構詞單元序列中各構詞單元的詞性。
[0095]所述構詞單元序列中的構詞單元可以包括:獨立詞、詞幹、詞幹串、詞綴、詞綴串,其中,獨立詞、詞幹和詞綴都有明確的詞性,可以查詢詞典得到。而詞幹串和詞綴串的詞性可以按以下方式來確定,即:
[0096]對於詞幹串:如果詞幹串中包含的所有詞綴對詞幹的影響級別都為0,則由詞幹確定詞幹串詞性;如果詞幹串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞幹串中對詞幹影響級別最高的詞綴的詞性作為所述詞幹串的詞性;
[0097]對於詞綴串:如果詞綴串中包含的所有詞綴對詞幹的影響級別都為0,則將詞幹的詞性作為詞幹串的詞性;如果詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞綴串中對詞幹影響級別最高的詞綴的詞性作為所述詞綴串的詞性。
[0098]步驟105,根據所述構詞單元序列中各構詞單元的詞性及所述詞綴串對詞幹的影響級別確定所述單詞文本的詞性。
[0099]由於不同的單詞文本可以具有不同的組合形式,因此,在本發明實施例中,可以根據單詞文本的組合形式來確定其詞性。以維吾爾語為例,可以有以下表2所示的幾種方式。
[0100]表2:
[0101]
【權利要求】
1.一種實現黏著語文本韻律短語劃分的方法,其特徵在於,包括:預先基於數據統計方式確定黏著語的基本構詞單元,所述基本構詞單元包括:獨立詞、詞幹、詞幹串、詞綴、詞綴串;在接收到待合成的單詞文本後,根據所述基本構詞單元對所述單詞文本進行切分,得到構詞單元序列;確定所述構詞單元序列中詞綴對詞幹的影響級別、以及詞綴串對詞幹的影響級別;確定所述構詞單元序列中各構詞單元的詞性;根據所述構詞單元序列中各構詞單元的詞性及所述詞綴和詞綴串對詞幹的影響級別確定所述單詞文本的詞性;根據所述單詞文本的詞性、詞長、以及所述單詞文本中詞的個數,進行韻律短語劃分。
2.根據權利要求1所述的方法,其特徵在於,所述基於數據統計方式確定黏著語的基本構詞單元包括:收集黏著語中的獨立詞、詞幹和詞綴;基於大規模語料庫及所述詞幹和詞綴,生成候選構詞單元串,所述候選構詞單元串包括:候選詞幹串和候選詞綴串;計算所述候選構詞單元串的選擇參數,所述選擇參數包括以下任意一種或多種:詞頻、內部凝固度、外部連結度 ,所述內部凝固度表示候選構詞單元串是基本構詞單元的可能性,所述外部連結度表示候選構詞單元串與其他詞串結合成構詞單元的可能性;根據所述選擇參數從所述候選構詞單元串中選擇詞幹串和詞綴串;由所述獨立詞、詞幹、詞綴、以及選擇的詞幹串和詞綴串生成黏著語的基本構詞單元。
3.根據權利要求1所述的方法,其特徵在於,所述根據所述基本構詞單元對所述單詞文本進行切分,得到構詞單元序列包括:從所述單詞文本最左或最右邊開始,利用前向算法切分詞幹或詞幹串,得到多個索引 ;依次對每個索引,利用前向算法切分構詞單元,得到對應所述單詞文本的多條切分路徑;利用n-gram模型和viterbi算法確定唯一路徑;根據所述唯一路徑上的基本構詞單元得到構詞單元序列。
4.根據權利要求1所述的方法,其特徵在於,所述確定所述構詞單元序列中詞綴對詞幹的影響級別、以及詞綴串對詞幹的影響級別包括:根據詞綴的詞性確定所述詞綴對詞幹的影響級別;如果詞綴串中包含的所有詞綴對詞幹的影響級別都為0,則確定所述詞綴串對詞幹的影響級別為0 ;如果詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞綴串中對詞幹影響級別最高的詞綴對詞幹的影響級別作為所述詞綴串對詞幹的影響級別。
5.根據權利要求4所述的方法,其特徵在於,所述確定所述構詞單元序列中各構詞單元的詞性包括:對於所述構詞單元序列中的詞幹串:如果詞幹串中包含的所有詞綴對詞幹的影響級別都為0,則將詞幹的詞性作為所述詞幹串的詞性;如果詞幹串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞幹串中對詞幹影響級別最高的詞綴的詞性作為所述詞幹串的詞性;對於所述構詞單元序列中的詞綴串:如果詞綴串中包含的所有詞綴對詞幹的影響級別都為0,則將詞幹的詞性作為詞幹串的詞性;如果詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0,則將詞綴串中對詞幹影響級別最高的詞綴的詞性作為所述詞綴串的詞性。
6.根據權利要求1至5任一項所述的方法,其特徵在於,所述根據所述構詞單元序列中各構詞單元的詞性及所述詞綴和詞綴串對詞幹的影響級別確定所述單詞文本的詞性包括:確定所述構詞單元序列中構詞單元的組合形式;根據所述組合形式及其中詞綴或詞綴串對詞幹的影響級別確定所述單詞文本的詞性。
7.一種實現黏著語文本韻律短語劃分的系統,其特徵在於,包括:詞典構建模塊,用於預先基於數據統計方式確定黏著語的基本構詞單元,所述基本構詞單元包括:獨立詞、詞幹、詞幹串、詞綴、詞綴串; 接收模塊,用於接收待合成的單詞文本;切分模塊,用於對所述接收模塊接收到的單詞文本,根據所述基本構詞單元對所述單詞文本進行切分,得到構詞單元序列;影響級別確定模塊,用於確定所述構詞單元序列中詞綴對詞幹的影響級別、以及詞綴串對詞幹的影響級別;構詞單元詞性確定模塊,用於確定所述構詞單元序列中各構詞單元的詞性;單詞詞性確定模塊,用於根據所述構詞單元序列中各構詞單元的詞性及所述詞綴和詞綴串對詞幹的影響級別確定所述單詞文本的詞性;韻律短語劃分模塊,用於根據所述單詞文本的詞性、詞長、以及所述單詞文本中詞的個數,進行韻律短語劃分。
8.根據權利要求7所述的系統,其特徵在於,所述詞典構建模塊包括:收集單元,用於收集黏著語中的獨立詞、詞幹和詞綴;候選構詞單元串生成單元,用於基於大規模語料庫及所述詞幹和詞綴,生成候選構詞單元串,所述候選構詞單元串包括:候選詞幹串和候選詞綴串;參數計算單元,用於計算所述候選構詞單元串的選擇參數,所述選擇參數包括以下任意一種或多種:詞頻、內部凝固度、外部連結度,所述內部凝固度表示候選構詞單元串是基本構詞單元的可能性,所述外部連結度表示候選構詞單元串與其他詞串結合成構詞單元的可能性;選擇單元,用於根據所述選擇參數從所述候選構詞單元串中選擇詞幹串和詞綴串;詞典生成單元,用於由所述獨立詞、詞幹、詞綴、以及選擇的詞幹串和詞綴串生成黏著語的基本構詞單元。
9.根據權利要求7所述的系統,其特徵在於,所述切分模塊包括:第一切分單元,用於從所述單詞文本最左或最右邊開始,利用前向算法切分詞幹或詞幹串,得到多個索引;第二切分單元,用於依次對每個索引,利用前向算法切分詞綴或詞綴串,得到對應所述單詞文本的多條切分路徑;路徑確定單元,用於利用n-gram模型和viterbi算法確定唯一路徑;構詞單元序列獲取單元,用於根據所述唯一路徑上的基本構詞單元得到構詞單元序列。
10.根據權利要求7所述的系統,其特徵在於,所述影響級別確定模塊包括:第一確定模塊,用於根據詞綴的詞性確定所述詞綴對詞幹的影響級別;第二確定模塊,用於根據詞綴串中包含的詞綴對詞幹的影響級別確定所述詞綴串對詞幹的影響級別,並且在詞綴串中包含的所有詞綴對詞幹的影響級別都為0時,確定所述詞綴串對詞幹的影響級別為0 ;在詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0時,將詞綴串中對詞幹影響級別最高的詞綴對詞幹的影響級別作為所述詞綴串對詞幹的影響級別。
11.根據權利要求10所 述的系統,其特徵在於,所述構詞單元詞性確定模塊,具體用於通過查詢包含所述基本構詞單元的詞典獲取所述構詞單元序列中的獨立詞、詞幹、以及詞綴的詞性,並且,對於所述構詞單元序列中的詞幹串:在所述詞幹串中包含的所有詞綴對詞幹的影響級別都為0時,將詞幹的詞性作為所述詞幹串的詞性;在所述詞幹串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0時,將所述詞幹串中對詞幹影響級別最高的詞綴的詞性作為所述詞幹串的詞性;對於所述構詞單元序列中的詞綴串:在所述詞綴串中包含的所有詞綴對詞幹的影響級別都為0時,將詞幹的詞性作為詞幹串的詞性;在所述詞綴串中包含的所有詞綴中有一個或多個詞綴對詞幹的影響級別不為0時,將所述詞綴串中對詞幹影響級別最高的詞綴的詞性作為所述詞綴串的詞性。
12.根據權利要求7至11任一項所述的系統,其特徵在於,所述單詞詞性確定模塊包括:組合形式確定單元,用於確定所述構詞單元序列中構詞單元的組合形式;詞性確定單元,用於根據所述組合形式及其中詞綴或詞綴串對詞幹的影響級別確定所述單詞文本的詞性。
【文檔編號】G10L13/10GK103700367SQ201310630210
【公開日】2014年4月2日 申請日期:2013年11月29日 優先權日:2013年11月29日
【發明者】祖漪清, 吳朗, 黃昉, 何婷婷, 胡國平, 胡鬱 申請人:安徽科大訊飛信息科技股份有限公司