新四季網

倒排參考句形分詞技術的製作方法

2023-06-11 23:35:56 1

專利名稱:倒排參考句形分詞技術的製作方法
技術領域:
本發明是一種基於參考句形、詞語搭配的分詞技術,可用於語音輸入、機器翻譯、搜尋引擎等方面。
背景技術:
語音輸入、機器翻譯、搜尋引擎均需要進行分詞。更受關注的是,提高拼音串的分詞準確程度已成為提升漢語語音輸入水平的關鍵。漢語拼音串自動分詞的算法主要有最大匹配法(MM)、最少分詞詞頻選擇法(FWF)和逐詞遍曆法。根據掃描方向的不同,最大匹配法又分為正向最大匹配法(FMM)和反向最大匹配法(BMM)。最少分詞算法是以切分後得到的詞數最少為原則的,這符合大多數拼音串的分詞情況,該算法給出的分詞結果可能是不唯一的,但它沒有給出所有可能的情況,最少分詞法可以通過比較多個分詞結果的詞頻,正確處理許多最大匹配法無法處理的交集歧義。逐詞遍曆法給出拼音串的所有可能的分詞結果,是為了在句法平面和語義以便給出正確的結果,從算法複雜度看,逐詞遍曆法是一個NP問題。
上述各種分詞方法是基於詞彙表的分詞方法,準確率不能滿足需要,提高準確率需要新的分詞方法。本人在申請號200410067258.X的「質數代換字符串檢索技術」修改文本中,提出利用質數代換整除運算獨特性能,進行「逆檢索」,形成基於參考句型的分詞技術,也就是利用語義關係進行分詞。本人在申請號200510023383.5的「位標記字符串檢索技術」修改文本中,說明了以「位標記字符串檢索技術」優越性能進行預選,使「質數代換字符串檢索技術」基於參考句型的分詞切實可行。作為一個變通的方法,也可利用倒排文件,進行基於參考句型的分詞。

發明內容
語音輸入、機器翻譯、搜尋引擎均需要進行分詞,下面注重圍繞漢語拼音串的分詞說明基於參考句型的可行性、注意點,其他語言各方面的應用可參照實施。
如果按每個句子10個漢字計算,5000常用漢字的10次全排列是一個巨大的數字,當然,由於語義、語法限制,不是所有漢字排列在一起即是句子,但漢語句子的總數可以說是開放式的,至少就目前的技術水平而言,在普通微機,不可能列出足夠數量的句子,更不可能實現瞬時響應,找到拼音串對應的句子。
但很多句子是共同主幹的,如「他畢業五年了」,「他早就畢業了」,「他還沒畢業」,「他明年六月畢業」等句子中,「他畢業」是主幹,即基本句型。就漢語而言,句子主要有兩類1.動詞作謂語的句子,2.形容詞名詞作謂語的句子。據不同的資料,現代漢語約有1200-2000個動詞,這裡按1500計算。其中有的動詞如「打」「搞」,「學習」等,可以搭配成百上千種賓語、補語,但有的動詞,如「跺」,僅能搭配數種賓語、補語。如果每個動詞與主語、賓語、補語構成的基本句型平均為400個,則現代漢語以動詞作謂語的基本句型為600,000個。設以形容詞等作謂語的非動詞句型為200,000個,則現代漢語的基本句型為800,000個。
從另一個角度來估計,小孩到10歲已能較好地表達思想,可說對漢語的句型已基本掌握。如果一個小孩每天學習200個句型,到10歲算3600天,則共掌握720,000個句型。一個小孩每天學習句型應少於200個,所以現代漢語的句型應該小於這個數字。
「位標記字符串檢索技術」測試中,以位值比較作第一次查詢,獲得R1,在R1中用通常的字符匹配法得到最終結果集Rz,賽揚800的微機能在0.3秒,從字符串平均長度12.989個漢字,記錄數267,000餘條的資料庫中模糊查找到目標字符串。「質數代換字符串檢索技術」比通常的字符匹配法快1-2倍。漢語參考句型的長度估計約在3-7個漢字,以「位標記字符串檢索技術」進行預選,再運用「質數代換字符串檢索技術」查找參考句型也能在0.3秒完成。以此推斷,在主頻為2.4G的微機上,應能在0.3秒內從267,000*3=800,000記錄中找到參考句型。所以,用「位標記字符串檢索技術」及「質數代換字符串檢索技術」進行基於參考句型的分詞,在目前的中檔微機上是可行的。在此基礎上,提出利用倒排文件方法實施基於參考句型的分詞技術。
建立基本句型、詞語搭配資料庫注意點漢語有400多個音節,漢字總量約6萬,常用漢字在5000-7000,所以平均每個音節對應10多個常用漢字,有的音節則對應上百個漢字。《現代漢語詞典》收語詞約6萬條,大部分是雙音節詞語,兩個音節的排列數為400*400=160,000。但實事說明,兩個音節的拼音串經常出現幾個對應詞語。
漢語拼音三個音節的排列數有400*400*400=64,000,000,四個音節的排列數有400*400*400*400=25,600,000,000,所以每個三音節的拼音串、四音節的拼音串出現多個對應的有意義的漢字串的概率大為減少,如將單字詞、雙字詞語組成三、四字以上的句型,或按語義搭配,就可以克服音字轉換的選詞難題。
通常認為典型的句子有主語、謂語、賓語,如,「我說漢語」。如果基本句型都有這三種成分,無疑是便於計算機「識別理解」的,但主語、謂語、賓語三種成分俱全,組成的句子數量會很多。所以把「我說漢語」分解成「我說」、「說漢語」,作為兩個基本句型列入資料庫是可取的。如果有拼音串「woshuohanyuhenliuli」,根據長詞優先的原則,可參考「說漢語」,處理成「wo說漢語henliuli」,再用「wo說」,在拼音為woshuo的基本句型中,確定「我說」為第二個參考句型,處理成「我說漢語henliuli」。如果有「說/流利」這個常用搭配在資料庫中,則第三步可處理成「我說漢語hen流利」。第四步,按語法規則、詞頻處理成「我說漢語很流利」。
所以,倒排參考句形分詞技術實施中,列入參考句型資料庫的完整句子只能是常用的,如「你知道嗎」。資料庫主體是某種語言的動詞及賓語搭配形成的基本句型,如「強化管理」,以及動補關係的句型,如「寫得好」,主謂句,如「天黑」。但不限於基本句型,,也可以是各種詞語搭配,如「大學/系」「省/市」「高/樓」「條/牛」「雖然/但是」「以/方式」。
至於詞語,三字以上的詞語、成語,是有助於句子切分的,可以列入參考句型庫中。但專有名詞數量巨大,常見的專有名詞可以列入參考句型庫,不常用的列入詞彙表中。詞彙表中的詞語,可以在句子完成切分之後,按索引在詞彙表中查找。
兩個漢字的語詞需要重點關注,如「shengshi」相應的詞語「省市」可以連用,也可以插入其他詞語,如「湖北/省/武漢/市」,可以視為一種搭配,應保留為兩字形式,有助於句子切分;而「聲勢」是固定的,應儘量與其它詞語組成基本句型,如「聲勢浩大」「造聲勢」「聲勢不少」。
倒排參考句形分詞技術實施中,因應用的不同,參考句型庫、倒排文件、需要分詞的語句的字符單位,可以是漢字、其它語言的單詞、漢詞拼音的音節、其它語言類似的標音符號,為了便於說明,稱之為「字符元」,記為P。
倒排參考句形分詞技術,篩選某種語言的參考句型、詞語搭配是關鍵。參考句型、詞語搭配篩選完成後,在資料庫中給出句型編號n,統計出參考句型、詞語搭配所包含的字符元數k。再建立參考句型資料庫的倒排文件,即列出所有字符元,在每個字符元後列出包含該字符元的所有參考句型編號n,即倒排參考句型。對需要分詞的句子T所有字符元P1、P2、P3…Pm,根據倒排文件對參考句型資料庫進行累計標示,得到參考句型Sn包含T的字符元個數j。j=k的句型Sn為T的可參考句型,參照這些句型對T進行分詞,一般以j值大的句型優先參考。j<k的句型也可以作一定程度的參考。
實施方式下面說明利用倒排文件方法在語音輸入、機器翻譯、搜尋引擎等方面的實施方法,三個方面略有區別,但原理是相同的。把漢語拼音理解為漢語的標音符號,則其他語言也可以參照實施。
1.建立某種語言的參考句型(含詞語搭配、詞組、詞語,下同)S資料庫,給出句型編號n,統計出參考句型、詞語搭配所包含的字符元數k。
語音輸入中,要權衡速度及正確率,所以參考句型的要適量,下面是語音輸入參考句型資料庫的模式

對於機器翻譯,準確是首要的,響應速度不重要,可儘量擴大參考句型的數量,下面是機器翻譯參考句型資料庫的模式

對於搜尋引擎,大量的網面文檔需要處理,響應速度很重要,而且只是對語句進行切分,重點是列出容易致錯的句型及詞語配,所以參考句型的數量要少。

2.建立包含所有字符元的文件,在每個字符元後列出包含該字符元的所有參考句型編號n,即倒排參考句型。
語音輸入按音節進行倒排,如下表

機器翻譯、搜尋引擎按漢字進行倒排,如下表

其他語言機器翻譯、搜尋引擎按單詞進行倒排,如下表

3.對需要分詞的句子T所有字符元P1、P2、P3…Pm,根據倒排文件對參考句型資料庫進行累計標示,如,某句型S含有T所有字符元中的4個,則標示為4,這個值稱為j,篩選出j>1,重點是j=k的基本句型和搭配Sn。
如拼音輸入或語音轉換後得「qianghuacaiwuguanli」,根據倒排文件對參考句型資料庫進行累計標示,篩選後得到

4.j=k的句型Sn為T的可參考句型,一般以j值大的句型優先參考。參照這些句型對T進行分詞。
對參考句型資料庫進行累計標示後,第45986個句型,k=j=4是首選參句型,按漢字串對拼音串進行處理,得到「強化caiwu管理」。第24568個句型,k=j=2,以之再作處理得到「強化財務管理」。「財務」是詞語,可以放在另外的「詞語庫」中,但「參考句型庫」可以放一些高頻詞。這是理想化的轉換,實施中,還應根據語法、詞頻、語境進行分析。
第235678個句型,j=k-1,可以作為容錯句型,備用。資料庫累計標示,也會出現類似下面的情況,如需要分詞的拼音串為「jiaqianggaoxiaoguanli」,

j=k-2,作為備用,可按gaoxiao,從第94753個句型中提取「高校」二字。
拼音串轉換為漢字串,單音節詞的篩選是一個著重要解決的問題,解決的方法是,分析漢語字詞的搭配,如「樓」與量詞「棟」的搭配「棟樓」,「樓」與經常修飾它的形容詞「高」的搭配「高樓」,設語音轉換或者拼音輸入「zhedongxiezilouhengao」,根據倒排文件對參考句型資料庫進行累計標示,可篩選出「棟樓」「高樓」等搭配作參考,處理後可以得到「zhe棟xiezi樓hen高」,其中的xiezi或xiezilou可從詞庫中得到「寫字」或「寫字樓」,如果語法、語義、詞頻等其它方面能起到輔助作用,可將「zhedongxiezilouhengao」轉換成「這棟寫字樓很高。」類似地可以得到漢語的其它搭配,行政區劃如,「省市」「省縣」;數字如,「三七」「萬千」;量詞「斤兩」「元角」;乃至姓氏的組合「張李」「張劉」。如果輸入「hubeishengxianningshi」,按照上述方法,可以得到「hubei省xianning市」。如果輸入「zhanglonglihu」,可以得到「張long李hu」。如果輸入「qiwansanqian」,可以得到「七萬三千」。
可見基於參考句型的分詞方法,可以達到基於詞彙表分詞無法達到的效果。
對於搜尋引擎,若有語句「以便於理解的方式」,標示後如下表

則可切分為「以/便於/理解/的/方式」,可以避免正向最大匹配法(FMM)切分為「以便/於/理解/的/方式」。
對於機器翻譯,如果有漢語句子「我通常看一個小時的電視」,標示後如下表

因此可以將句子切分為「我通常/看/一個小時的/電視」,英語對應句型為「WatchTV」,「通常」從詞彙短語表可查得「usually」,「一個小時」從詞彙、短語表可查得「foran hour」,在英語語法規則、詞彙搭配規則支持下,可以翻譯為「I usually watch TV for anhour」。
機器翻譯中,倒排參考句形分詞技術在於能保證原始語言句子的正確切分,找出原始語言句子的核心,可以說是讓計算機理解「句子」。
權利要求
1.一種分詞技術,其特徵在於,包括以下步驟a.建立某種語言的參考句型(含詞語搭配、詞組、詞語,下同)S資料庫,給出句型編號n,統計出參考句型、詞語搭配所包含的字符元數k。b.建立包含所有字符元的倒排文件,在每個字符元後列出包含該字符元的所有參考句型編號n,即倒排參考句型。c.對需要分詞的句子T所有字符元P1、P2、P3…Pm,根據倒排文件對參考句型資料庫進行累計標示,得到參考句型Sn包含T的字符元個數j。d.j=k的句型Sn為T的可參考句型,參照這些句型對T進行分詞,優先參考j值大的句型。
全文摘要
倒排參考句形分詞技術是一種基於參考句形、詞語搭配的分詞技術。其方法是首先建立某種語言的參考句型(含詞語搭配、詞組、詞語,下同)S資料庫,給出句型編號n,統計出參考句型、詞語搭配所包含的字符元數k。然後建立包含所有字符元的倒排文件,在每個字符元後列出包含該字符元的所有參考句型編號n,即倒排參考句型。對需要分詞的句子T所有字符元P1、P2、P3…Pm,根據倒排文件對參考句型資料庫進行累計標示,得到參考句型Sn包含T的字符元個數j。j=k的句型Sn為T的可參考句型,參照這些句型對T進行分詞,一般以j值大的句型優先參考。j<k的句型也可以作一定程度的參考。倒排參考句形分詞技術本質是基於語義的分詞技術,可以提高分詞水平,可用於語音輸入、機器翻譯、搜尋引擎等方面。
文檔編號G06F17/27GK1963806SQ200510110079
公開日2007年5月16日 申請日期2005年11月7日 優先權日2005年11月7日
發明者徐文新 申請人:徐文新

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀