倒排參考句形分詞技術的製作方法

2023-06-11 23:35:56 4

專利名稱：倒排參考句形分詞技術的製作方法
技術領域：
本發明是一種基於參考句形、詞語搭配的分詞技術，可用於語音輸入、機器翻譯、搜尋引擎等方面。
背景技術：
語音輸入、機器翻譯、搜尋引擎均需要進行分詞。更受關注的是，提高拼音串的分詞準確程度已成為提升漢語語音輸入水平的關鍵。漢語拼音串自動分詞的算法主要有最大匹配法(MM)、最少分詞詞頻選擇法(FWF)和逐詞遍曆法。根據掃描方向的不同，最大匹配法又分為正向最大匹配法(FMM)和反向最大匹配法(BMM)。最少分詞算法是以切分後得到的詞數最少為原則的，這符合大多數拼音串的分詞情況，該算法給出的分詞結果可能是不唯一的，但它沒有給出所有可能的情況，最少分詞法可以通過比較多個分詞結果的詞頻，正確處理許多最大匹配法無法處理的交集歧義。逐詞遍曆法給出拼音串的所有可能的分詞結果，是為了在句法平面和語義以便給出正確的結果，從算法複雜度看，逐詞遍曆法是一個NP問題。
上述各種分詞方法是基於詞彙表的分詞方法，準確率不能滿足需要，提高準確率需要新的分詞方法。本人在申請號200410067258.X的「質數代換字符串檢索技術」修改文本中，提出利用質數代換整除運算獨特性能，進行「逆檢索」，形成基於參考句型的分詞技術，也就是利用語義關係進行分詞。本人在申請號200510023383.5的「位標記字符串檢索技術」修改文本中，說明了以「位標記字符串檢索技術」優越性能進行預選，使「質數代換字符串檢索技術」基於參考句型的分詞切實可行。作為一個變通的方法，也可利用倒排文件，進行基於參考句型的分詞。

發明內容
語音輸入、機器翻譯、搜尋引擎均需要進行分詞，下面注重圍繞漢語拼音串的分詞說明基於參考句型的可行性、注意點，其他語言各方面的應用可參照實施。
如果按每個句子10個漢字計算，5000常用漢字的10次全排列是一個巨大的數字，當然，由於語義、語法限制，不是所有漢字排列在一起即是句子，但漢語句子的總數可以說是開放式的，至少就目前的技術水平而言，在普通微機，不可能列出足夠數量的句子，更不可能實現瞬時響應，找到拼音串對應的句子。
但很多句子是共同主幹的，如「他畢業五年了」，「他早就畢業了」，「他還沒畢業」，「他明年六月畢業」等句子中，「他畢業」是主幹，即基本句型。就漢語而言，句子主要有兩類1.動詞作謂語的句子，2.形容詞名詞作謂語的句子。據不同的資料，現代漢語約有1200-2000個動詞，這裡按1500計算。其中有的動詞如「打」「搞」，「學習」等，可以搭配成百上千種賓語、補語，但有的動詞，如「跺」，僅能搭配數種賓語、補語。如果每個動詞與主語、賓語、補語構成的基本句型平均為400個，則現代漢語以動詞作謂語的基本句型為600,000個。設以形容詞等作謂語的非動詞句型為200,000個，則現代漢語的基本句型為800,000個。
從另一個角度來估計，小孩到10歲已能較好地表達思想，可說對漢語的句型已基本掌握。如果一個小孩每天學習200個句型，到10歲算3600天，則共掌握720,000個句型。一個小孩每天學習句型應少於200個，所以現代漢語的句型應該小於這個數字。
「位標記字符串檢索技術」測試中，以位值比較作第一次查詢，獲得R1，在R1中用通常的字符匹配法得到最終結果集Rz，賽揚800的微機能在0.3秒，從字符串平均長度12.989個漢字，記錄數267,000餘條的資料庫中模糊查找到目標字符串。「質數代換字符串檢索技術」比通常的字符匹配法快1-2倍。漢語參考句型的長度估計約在3-7個漢字，以「位標記字符串檢索技術」進行預選，再運用「質數代換字符串檢索技術」查找參考句型也能在0.3秒完成。以此推斷，在主頻為2.4G的微機上，應能在0.3秒內從267,000*3＝800,000記錄中找到參考句型。所以，用「位標記字符串檢索技術」及「質數代換字符串檢索技術」進行基於參考句型的分詞，在目前的中檔微機上是可行的。在此基礎上，提出利用倒排文件方法實施基於參考句型的分詞技術。
建立基本句型、詞語搭配資料庫注意點漢語有400多個音節，漢字總量約6萬，常用漢字在5000-7000，所以平均每個音節對應10多個常用漢字，有的音節則對應上百個漢字。《現代漢語詞典》收語詞約6萬條，大部分是雙音節詞語，兩個音節的排列數為400*400＝160,000。但實事說明，兩個音節的拼音串經常出現幾個對應詞語。
漢語拼音三個音節的排列數有400*400*400＝64,000,000，四個音節的排列數有400*400*400*400＝25,600,000,000，所以每個三音節的拼音串、四音節的拼音串出現多個對應的有意義的漢字串的概率大為減少，如將單字詞、雙字詞語組成三、四字以上的句型，或按語義搭配，就可以克服音字轉換的選詞難題。
通常認為典型的句子有主語、謂語、賓語，如，「我說漢語」。如果基本句型都有這三種成分，無疑是便於計算機「識別理解」的，但主語、謂語、賓語三種成分俱全，組成的句子數量會很多。所以把「我說漢語」分解成「我說」、「說漢語」，作為兩個基本句型列入資料庫是可取的。如果有拼音串「woshuohanyuhenliuli」，根據長詞優先的原則，可參考「說漢語」，處理成「wo說漢語henliuli」，再用「wo說」，在拼音為woshuo的基本句型中，確定「我說」為第二個參考句型，處理成「我說漢語henliuli」。如果有「說/流利」這個常用搭配在資料庫中，則第三步可處理成「我說漢語hen流利」。第四步，按語法規則、詞頻處理成「我說漢語很流利」。
所以，倒排參考句形分詞技術實施中，列入參考句型資料庫的完整句子只能是常用的，如「你知道嗎」。資料庫主體是某種語言的動詞及賓語搭配形成的基本句型，如「強化管理」，以及動補關係的句型，如「寫得好」，主謂句，如「天黑」。但不限於基本句型，，也可以是各種詞語搭配，如「大學/系」「省/市」「高/樓」「條/牛」「雖然/但是」「以/方式」。
至於詞語，三字以上的詞語、成語，是有助於句子切分的，可以列入參考句型庫中。但專有名詞數量巨大，常見的專有名詞可以列入參考句型庫，不常用的列入詞彙表中。詞彙表中的詞語，可以在句子完成切分之後，按索引在詞彙表中查找。
兩個漢字的語詞需要重點關注，如「shengshi」相應的詞語「省市」可以連用，也可以插入其他詞語，如「湖北/省/武漢/市」，可以視為一種搭配，應保留為兩字形式，有助於句子切分；而「聲勢」是固定的，應儘量與其它詞語組成基本句型，如「聲勢浩大」「造聲勢」「聲勢不少」。
倒排參考句形分詞技術實施中，因應用的不同，參考句型庫、倒排文件、需要分詞的語句的字符單位，可以是漢字、其它語言的單詞、漢詞拼音的音節、其它語言類似的標音符號，為了便於說明，稱之為「字符元」，記為P。
倒排參考句形分詞技術，篩選某種語言的參考句型、詞語搭配是關鍵。參考句型、詞語搭配篩選完成後，在資料庫中給出句型編號n，統計出參考句型、詞語搭配所包含的字符元數k。再建立參考句型資料庫的倒排文件，即列出所有字符元，在每個字符元後列出包含該字符元的所有參考句型編號n，即倒排參考句型。對需要分詞的句子T所有字符元P1、P2、P3…Pm，根據倒排文件對參考句型資料庫進行累計標示，得到參考句型Sn包含T的字符元個數j。j＝k的句型Sn為T的可參考句型，參照這些句型對T進行分詞，一般以j值大的句型優先參考。j＜k的句型也可以作一定程度的參考。
實施方式下面說明利用倒排文件方法在語音輸入、機器翻譯、搜尋引擎等方面的實施方法，三個方面略有區別，但原理是相同的。把漢語拼音理解為漢語的標音符號，則其他語言也可以參照實施。
1.建立某種語言的參考句型(含詞語搭配、詞組、詞語，下同)S資料庫，給出句型編號n，統計出參考句型、詞語搭配所包含的字符元數k。
語音輸入中，要權衡速度及正確率，所以參考句型的要適量，下面是語音輸入參考句型資料庫的模式

對於機器翻譯，準確是首要的，響應速度不重要，可儘量擴大參考句型的數量，下面是機器翻譯參考句型資料庫的模式

對於搜尋引擎，大量的網面文檔需要處理，響應速度很重要，而且只是對語句進行切分，重點是列出容易致錯的句型及詞語配，所以參考句型的數量要少。

2.建立包含所有字符元的文件，在每個字符元後列出包含該字符元的所有參考句型編號n，即倒排參考句型。
語音輸入按音節進行倒排，如下表

機器翻譯、搜尋引擎按漢字進行倒排，如下表

其他語言機器翻譯、搜尋引擎按單詞進行倒排，如下表

3.對需要分詞的句子T所有字符元P1、P2、P3…Pm，根據倒排文件對參考句型資料庫進行累計標示，如，某句型S含有T所有字符元中的4個，則標示為4，這個值稱為j，篩選出j＞1，重點是j＝k的基本句型和搭配Sn。
如拼音輸入或語音轉換後得「qianghuacaiwuguanli」，根據倒排文件對參考句型資料庫進行累計標示，篩選後得到

4.j＝k的句型Sn為T的可參考句型，一般以j值大的句型優先參考。參照這些句型對T進行分詞。
對參考句型資料庫進行累計標示後，第45986個句型，k＝j＝4是首選參句型，按漢字串對拼音串進行處理，得到「強化caiwu管理」。第24568個句型，k＝j＝2，以之再作處理得到「強化財務管理」。「財務」是詞語，可以放在另外的「詞語庫」中，但「參考句型庫」可以放一些高頻詞。這是理想化的轉換，實施中，還應根據語法、詞頻、語境進行分析。
第235678個句型，j＝k-1，可以作為容錯句型，備用。資料庫累計標示，也會出現類似下面的情況，如需要分詞的拼音串為「jiaqianggaoxiaoguanli」，

j＝k-2，作為備用，可按gaoxiao，從第94753個句型中提取「高校」二字。
拼音串轉換為漢字串，單音節詞的篩選是一個著重要解決的問題，解決的方法是，分析漢語字詞的搭配，如「樓」與量詞「棟」的搭配「棟樓」，「樓」與經常修飾它的形容詞「高」的搭配「高樓」，設語音轉換或者拼音輸入「zhedongxiezilouhengao」，根據倒排文件對參考句型資料庫進行累計標示，可篩選出「棟樓」「高樓」等搭配作參考，處理後可以得到「zhe棟xiezi樓hen高」，其中的xiezi或xiezilou可從詞庫中得到「寫字」或「寫字樓」，如果語法、語義、詞頻等其它方面能起到輔助作用，可將「zhedongxiezilouhengao」轉換成「這棟寫字樓很高。」類似地可以得到漢語的其它搭配，行政區劃如，「省市」「省縣」；數字如，「三七」「萬千」；量詞「斤兩」「元角」；乃至姓氏的組合「張李」「張劉」。如果輸入「hubeishengxianningshi」，按照上述方法，可以得到「hubei省xianning市」。如果輸入「zhanglonglihu」，可以得到「張long李hu」。如果輸入「qiwansanqian」，可以得到「七萬三千」。
可見基於參考句型的分詞方法，可以達到基於詞彙表分詞無法達到的效果。
對於搜尋引擎，若有語句「以便於理解的方式」，標示後如下表

則可切分為「以/便於/理解/的/方式」，可以避免正向最大匹配法(FMM)切分為「以便/於/理解/的/方式」。
對於機器翻譯，如果有漢語句子「我通常看一個小時的電視」，標示後如下表

因此可以將句子切分為「我通常/看/一個小時的/電視」，英語對應句型為「WatchTV」，「通常」從詞彙短語表可查得「usually」，「一個小時」從詞彙、短語表可查得「foran hour」，在英語語法規則、詞彙搭配規則支持下，可以翻譯為「I usually watch TV for anhour」。
機器翻譯中，倒排參考句形分詞技術在於能保證原始語言句子的正確切分，找出原始語言句子的核心，可以說是讓計算機理解「句子」。
權利要求
1.一種分詞技術，其特徵在於，包括以下步驟a.建立某種語言的參考句型(含詞語搭配、詞組、詞語，下同)S資料庫，給出句型編號n，統計出參考句型、詞語搭配所包含的字符元數k。b.建立包含所有字符元的倒排文件，在每個字符元後列出包含該字符元的所有參考句型編號n，即倒排參考句型。c.對需要分詞的句子T所有字符元P1、P2、P3…Pm，根據倒排文件對參考句型資料庫進行累計標示，得到參考句型Sn包含T的字符元個數j。d.j＝k的句型Sn為T的可參考句型，參照這些句型對T進行分詞，優先參考j值大的句型。
全文摘要
倒排參考句形分詞技術是一種基於參考句形、詞語搭配的分詞技術。其方法是首先建立某種語言的參考句型(含詞語搭配、詞組、詞語，下同)S資料庫，給出句型編號n，統計出參考句型、詞語搭配所包含的字符元數k。然後建立包含所有字符元的倒排文件，在每個字符元後列出包含該字符元的所有參考句型編號n，即倒排參考句型。對需要分詞的句子T所有字符元P1、P2、P3…Pm，根據倒排文件對參考句型資料庫進行累計標示，得到參考句型Sn包含T的字符元個數j。j＝k的句型Sn為T的可參考句型，參照這些句型對T進行分詞，一般以j值大的句型優先參考。j＜k的句型也可以作一定程度的參考。倒排參考句形分詞技術本質是基於語義的分詞技術，可以提高分詞水平，可用於語音輸入、機器翻譯、搜尋引擎等方面。
文檔編號G06F17/27GK1963806SQ200510110079
公開日2007年5月16日申請日期2005年11月7日優先權日2005年11月7日
發明者徐文新申請人:徐文新

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

倒排參考句形分詞技術的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法