新四季網

建立基於語法模型的語義分析器的方法

2023-12-02 20:25:21

專利名稱:建立基於語法模型的語義分析器的方法
技術領域:
本發明是一種涉及智能信息處理技術領域的建立語義分析器的方法,具體涉及一種建立基於語法模型的語義分析器的方法。
背景技術:
典型的對話系統由語音識別、自然語言理解、對話管理、自然語言生成、語音合成等模塊組成。自然語言理解模塊的研究由來已久,目前研究主流為用基於規則的語言理解方法來實現,即根據已有的文法進行句法語義分析,其基礎是形式語言理論。常見的自然語言理解模塊主要用上下文無關文法CFG(Context Free Grammar)描述和分析處理書面語。口語與書面語相比有其特點句式較簡單,句法結構較隨意,常伴有多種口語語言現象(重複、修正、指代、省略等)。而漢語口語與英語口語相比,句式更靈活,語序更隨意。傳統的CFG文法很難有效地表示漢語口語地諸多現象。而涉及到語音的口語對話系統還包括噪音、含混不清、口頭語、吃音、音變等等口語語音現,所以口語對話是自然語言理解技術實現的難點,但是也是應用系統適用性的關鍵點。口語中,人們的語言很隨意,可以省略、更正、倒敘等等,這些口語現象是傳統的單單基於詞法分析的理解系統所難以解決的,而引入基於關鍵語義的技術卻可以很好地解決。
由於以上種種因素,完全基於語法規則的CFG的語音識別器是脆弱的,經文獻檢索發現,Hacioglu,K等人在《Acoustics,Speech and Signal Processing,2001 IEEE》Volume1,2001 Page(s)537-540vol.1上發表的「Dialog-context dependent language modeling combining n-grams andstochastic context-free grammars Acoustics,Speech,and SignalProcessing,2001.Proceedings(《IEEE聲學、語音與信號處理》,「結合N元文法和上下文無關文法的基於對話系統的語言模型」),文中提出語音識別器要同時利用二元文法(bigram)語言模型和上下文無關文法(CFG)。由於從N元文法(N-gram)語言模型得不到語義信息,一種解決方法是利用語言模型來選取得分最高的最優路徑。但是對於特定領域(如天氣、航班、住宿、交通、旅遊、機票、火車票訂購等等)的應用系統來說,這樣的方法不是最優的,因為沒有充分利用這些領域中的高層語義信息。

發明內容
本發明的目的在於針對現有技術的不足,主要針對語音撥號的電話自動轉接系統,提出一種建立基於語法模型的語義分析器的方法,使得語音識別後的拼音漢字得以轉換,並且保證轉換方法達到最優。
本發明通過以下技術方案實現的,本發明充分利用了電話撥號系統的高層語義信息,建立語法模型,並把這種語法模型應用於語義分析,自動切分拼音流,將拼音漢字轉換和語義分析有機結合起來,包括語法模型的建立、語義分析算法兩個方面(1)所述的語法模型,是一個帶有權重的概念轉移網絡,表示著概念和概念間的轉移,整個語法由一層一層的語法規則組成,表示了電話撥號系統的高層語義信息,構成了bigram的語義概念轉移網絡BSCTN。概念間的轉移由語法模型中的語法規則來規定。語法模型中的每一個概念稱為「語法概念」,每一個語法概念對應於各層中語法屬性。這樣構建起來的語法,表示靈活,概念清晰,實現簡單。
(2)所述的語義分析算法,主要是應用於「撥號系統」中的三個排歧規則排歧規則一根據語法模型BSCTN,運用寬鬆的語法規則(loose grammar)G0,對整句進行分析,排除不符合語法規則的句子。
「寬鬆」的語法規則定義為允許每一個語法概念後接超出詞典和超出語法規則的詞,定義這些詞的語法屬性為-1,並且可轉移到子語法層中的其它所有的語法概念中去。
S*=YSiG0Si]]>Si為根據寬鬆的語法規則G0進行切分的第i條可能的路徑,S*為所有切分路徑中最優的切分路徑。
使用寬鬆的語法規則是為了靈活地分析超出語法規則的句子。用『0』、『1』來表示每條路徑的生死狀態,『0』表示『死』,『1』表示『生』。應用排歧規則一後,若所有的切分路徑的狀態都為『0』,說明該句子不符合語法規則。則把所有路徑的狀態由『0』改為『1』,繼續應用規則二、三來排歧。
例如請qing語氣詞-撥bo撥-撥bo撥-五wu數字-四si數字由於語法規則中不允許概念『撥』轉移到『撥』,所以按照語法規則G0,所有切分路徑的狀態都為『0』,可見該句不符合語法規則。為了利用排歧規則,提取相關的語義信息,把所有切分路徑的狀態改為『1』,再應用下面的規則排歧。
排歧規則二最長匹配原則。把含有最少語法概念(最少的拼音詞)的切分路徑的狀態令為『1』,其餘路徑的狀態令為『0』。通過計算語法分數,選取語法分數最低的路徑為最優路徑。
S*=argminsscore(s)=argminsscore(ph1Kphn)=argminsi=1nscore(phi)]]>S為切分得到的路徑,score(s)用來求出該路徑的語法分數,score(phi)求出當前節點的語法分數。若拼音詞的語法屬性為-1,則語法分數為10,否則語法分數為1。10和1相差了一個數量級,足以把路徑的好壞區分出來。
實驗證明,應用規則二可快速排除大量的歧義路徑。
排歧規則三符合語法規則的句子經過上述排歧處理後,得到了最優解釋,但是若語句中含有超出詞典或超出語法規則的詞,則可能還存在著多條切分路徑,要進行更進一步的分析。
嚴格的語法規則G1定義為語法屬性為-1的概念被排除在外,不允許其轉移到其它概念。
分析每一個狀態為『1』的切分路徑,跳過語法屬性為-1的詞,省去重複的相同語法屬性的拼音詞(連續的相同的語法屬性的詞只取一個)。根據嚴格的語法規則G1計算語法分數。然後選取得分最低的路徑為最優路徑。
S*=argminG1score(s)=argminG1i=1nscore(phi|phi-1,Kph1,ph0)]]>S為切分得到的路徑,score(s)求出該路徑的語法分數,score(phi|phi-1,K,ph1,ph0)求出從前一段歷史節點轉移到當前節點的語法分數。若該轉移符合語法規則G1,則語法分數為1,否則語法分數為10。10和1相差了一個數量級,足以把路徑的好壞區分出來。
以下對本發明方法作進一步的說明,步驟如下1、根據電話撥號系統的句法特點,建立撥號系統的「語法概念」;2、由「語法概念」,建立包含撥號系統的高層語義信息的語法規則。
3、根據語法規則和「語法概念」,建立分層語法模型。
(1)第一層為總語法層(grammar-all),控制著系統在大的語義方面的轉移。
(2)第二層為主語法(grammar),控制著總語法層中的概念間的轉移。
(3)第三層為子語法(sub-grammar),規定了在主語法層中定義的語法概念的構成。
(4)第四層為詞層(phrases),對應於子語法層中概念的具體詞的集合,同一集合中的詞具有相同的語義信息。
(5)第五層為字(character)層,表示著字如何組成詞。
(6)第六層為音節(syllable)層,每一個帶調的音節表示為聲、韻母結構(initial-final),這些識別單元(initials、finals)稱為音素(phonemes)。
4、建立分類詞詞典。
5、查找分類詞詞典,進行全路徑匹配,得到拼音流的所有可能的切分路徑,路徑中的每一個節點包含的信息為拼音詞及其對應的語法屬性。
6、用一個變量來記錄每條路徑的「生死」狀況,『1』為『生』,『0』為『死』。
7、判斷是否存在多條切分路徑,若存在則轉到步驟8,否則轉到步驟9。
8、依次應用三條排歧規則來排除違反語法規則的切分路徑,直到只留下一條最優路徑;9、根據最後的切分結果,查找語法分類詞詞典就可以順利地把拼音詞轉換成中文詞。
在第8步驟中,需要說明的是在應用排歧規則排除違反語法規則的切分路徑時,由於語法是分層模型,所以在判斷當前結點是否符合語法規則時,要考慮當前節點的前面若干個歷史節點,搜索路徑,判斷當前子語法層是否已經走完,若走完則回到上層主語法層,尋找後繼的主語法層概念;否則當前子語法層的節點往後移一個,在得到歷史路徑的所有後繼節點的集合後,判斷當前節點是否屬於集合中的節點。
本發明提出了一種利用語法模型中的高層語義信息來切分拼音流的方法,這是一種可以排除歧義切分語句的語義分析器。該分析器對語法規則內的句子和超出語法規則的句子,都能很好地分析出語義信息。利用本發明所提出的含有高層語義信息的語法模型可以高效地把拼音漢字轉換和語義分析有機的結合起來,並且這種分層的語法結構實現簡單,運行效率高,排歧能力強,可用於簡單的人機互動系統。


下面結合附圖和實施例對本發明作進一步詳細說明圖1本發明語法模型中的六層結構中,實線箭頭方向(從左往右)代表了語音識別中預測算法在語法路徑展開時的路徑方向,虛線箭頭方向代表了語法路徑回溯時的路徑方向。
圖2本發明語義分析算法的搜索路徑示例圖中,從主語法層節點g1往下層搜索,走到子語法層節點s1。從節點s1轉移到s2再到s3。節點s3走完後,就要回到上層,可知g1轉移到g2,回到子語法層得到節點s4,所以從s3轉到s4。
圖3本發明語義分析器的作用示意圖。
具體實施例方式
以下結合「撥號系統」中的「撥號」語句示例的說明,更好地理解本發明的技術方案。
考慮到中文的同音異型字很多,本分析器以詞為單位對拼音流切分,詞的拼音稱為「拼音詞」。
據統計,中文的同音異形字很多,單字拼音詞平均對應了12個漢字。但是二字拼音詞平均對應於1.46個中文詞;三字或三字以上的詞,拼音和中文詞幾乎是一一對應的。可見出現同音異形詞比出現單個同音異形字可能性小得多,所以利用詞為單位把拼音流轉換成中文句子是一種行之有效的方法。
實施例1、根據電話撥號系統的句法特點,建立撥號系統的「語法概念」。例如根據「撥號系統」的句法特點,建立「撥號系統」的「語法概念」。如開始語氣詞撥人名地名電話數字串等。
2、由「語法概念」,建立包含電話撥號系統的高層語義信息的語法規則。例如開始-語氣詞|撥,撥-人名|地名|數字串.....
3、根據語法規則和「語法概念」,建立分層語法模型。例如我們開發的「撥號系統」的語法模型主要利用了前面介紹的分層語法模型的其中三層。
主語法層開始-語氣詞|撥,撥-人名|數字|電話…子語法層撥=撥,人名=姓+稱謂|姓+名|姓+名+名…詞層撥=撥,轉,轉接,轉接到,接通,打……4、建立分類詞詞典。如#撥(撥,轉,接,轉接...)#語氣詞(請,麻煩,勞駕...)#數字串(0,1,2,3...)#姓(趙,錢,孫,李...)#稱謂(先生,女士,小姐,老師...)……5、查找分類詞詞典,進行全路徑匹配,得到拼音流的所有可能的切分路徑,路徑中的每一個節點包含的信息為拼音詞及其對應的語法屬性。
6、用一個變量來記錄每條路徑的「生死」狀況,『1』為『生』,『0』為『死』。
7、判斷是否存在多條切分路徑,若存在則轉到步驟8,否則轉到步驟9。
8、依次應用排歧規則來排除不合理的切分路徑,直到只留下一條最優路徑。
9、根據最後的切分結果,查找語法分類詞詞典就可以順利地把拼音詞轉換成中文詞。
例如拼音流jie tong ba ba.
接通jie-tong撥-八ba數字-八ba數字。
接jie撥-通tong-1-爸爸ba-ba稱謂。
接通jie-tong撥-爸爸ba-ba稱謂。
應用排歧規則一,切分路徑iii.由於不符合G0被排除.路徑i.和ii.都被保存下來了,根據規則二可以得到最優路徑為i.。
根據以上的步驟,對「撥號系統」中的「撥號」語句進行了測試。該模型中有7個主語法層概念,10個子語法層概念,詞條200個。測試集1為符合語法規則的拼音測試語句200句,測試集2是不符合語法規則的60句測試語句。
實驗1當切分規則1分別採用寬鬆的語法規則G0和嚴格的語法規則G1時,分別對切分路徑數進行統計。
表1採用不同語法規則後切分路徑統計

由表1可見,對於符合語法規則的測試集1,採用G1比G0工作的好;但是對於超出語法的測試集2,採用G0要比G1好。綜合考慮了上述兩種情況,本方法在排歧規則1中採用了語法G0。
實驗2統計了排歧規則1-2-3對於排歧的作用,表2中的數據是路徑數。
表2規則的排歧作用

測試集1隻應用了排歧規則1-2,測試集2應用了規則1-2-3。可見規則1和規則2的排歧作用很大。規則3對於測試集2的排歧效果很明顯。
實驗3統計經過切分和排歧處理後,拼音級和中文級下的詞和句子的語義標註正確率。
表3詞和句子的語義標註正確率

由表3可見,本語義分析器對符合語法規則的句子工作的很好,對於不符合語法規則的句子,也有較強的分析功能。
權利要求
1.一種建立基於語法模型的語義分析器的方法,其特徵在於,利用電話撥號系統的高層語義信息,建立語法模型,並把這種語法模型應用於語義分析,自動切分拼音流,將拼音漢字轉換和語義分析有機結合起來,包括語法模型的建立、語義分析算法兩個方面(1)所述的語法模型,是一個帶有權重的概念轉移網絡,表示著概念和概念間的轉移,整個語法由一層一層的語法規則組成,表示了電話撥號系統的高層語義信息,構成了二元的語義概念轉移網絡BSCTN,概念間的轉移由語法模型中的語法規則來規定,語法模型中的每一個概念稱為「語法概念」,每一個語法概念對應於各層中語法屬性;(2)所述的語義分析算法,主要是應用於「撥號系統」中的三個排歧規則排歧規則一根據語法模型BSCTN,運用寬鬆的語法規則G0,對整句進行分析,排除違反語法規則的句子;排歧規則二最長匹配原則,把含有最少語法概念的切分路徑的狀態令為『1』,其餘路徑的狀態令為『0』,通過計算語法分數,選取語法分數最低的路徑為最優路徑;排歧規則三符合語法規則的句子經過上述排歧處理後,得到了最優解釋,但是若語句中含有超出詞典或超出語法規則的詞,則可能還存在著多條切分路徑,要用手工分析進行判斷。
2.根據權利要求1所述的建立基於語法模型的語義分析器的方法,其特徵是,所述的寬鬆的語法規則,定義為允許每一個語法概念後接超出詞典和超出語法規則的詞,定義這些詞的語法屬性為-1,並且能轉移到子語法層中的其它所有的語法概念中去。
3.根據權利要求1所述的建立基於語法模型的語義分析器的方法,其特徵是,以下通過步驟對其作進一步的限定(1)根據電話撥號系統的句法特點,建立撥號系統的「語法概念」;(2)由「語法概念」建立包含電話撥號系統的高層語義信息的語法規則;(3)根據語法規則和「語法概念」,建立分層語法模型;(4)建立分類詞詞典;(5)查找分類詞詞典,進行全路徑匹配,得到拼音流的所有可能的切分路徑,路徑中的每一個節點包含的信息為拼音詞及其對應的語法屬性;(6)用一個變量來記錄每條路徑的「生死」狀況,『1』為『生』,『0』為『死』;(7)判斷是否存在多條切分路徑,若存在則轉步驟(8),否則轉步驟(9);(8)依次應用三條排歧規則來排除違反語法規則的切分路徑,直到只留下一條最優路徑;(9)根據最後的切分結果,查找語法分類詞詞典,把拼音詞轉換成中文詞。
4.根據權利要求3所述的建立基於語法模型的語義分析器的方法,其特徵是,步驟(3)中,建立分層語法模型,具體如下(1)第一層為總語法層,控制著系統在大的語義方面的轉移;(2)第二層為主語法,控制著總語法層中的概念間的轉移;(3)第三層為子語法,規定了在主語法層中定義的語法概念的構成;(4)第四層為詞層,對應於子語法層中概念的具體詞的集合,同一集合中的詞具有相同的語義信息;(5)第五層為字層,表示著字如何組成詞;(6)第六層為音節層,每一個帶調的音節表示為聲、韻母結構,這些識別單元稱為音素。
5.根據權利要求3所述的建立基於語法模型的語義分析器的方法,其特徵是,所述的步驟(8)中,在應用排歧規則排除違反語法規則的切分路徑時,由於語法是分層模型,所以在判斷當前結點是否符合語法規則時,要考慮當前節點的前面若干個歷史節點,搜索路徑,判斷當前子語法層是否已經走完,若走完則回到上層主語法層,尋找後繼的主語法層概念;否則當前子語法層的節點往後移一個,在得到歷史路徑的所有後繼節點的集合後,判斷當前節點是否屬於集合中的節點。
全文摘要
一種智能信息處理技術領域的建立基於語法模型的語義分析器的方法,利用電話撥號系統的高層語義信息,建立語法模型,並把這種語法模型應用於語義分析,自動切分拼音流,將拼音漢字轉換和語義分析有機結合起來,包括語法模型的建立、語義分析算法兩個方面。本發明提出了一種利用語法模型中的高層語義信息來切分拼音流的方法,這是一種可以排除歧義切分語句的語義分析器。該分析器對語法規則內的句子和超出語法規則的句子,都能很好地分析出語義信息。
文檔編號G06F17/27GK1588537SQ20041006679
公開日2005年3月2日 申請日期2004年9月29日 優先權日2004年9月29日
發明者朱傑, 熊英 申請人:上海交通大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀