漢語盲文到漢字的自動轉換方法
2023-10-31 17:14:37 2
專利名稱:漢語盲文到漢字的自動轉換方法
技術領域:
本發明屬於計算機文字處理技術領域,特別涉及盲人用計算機的文字轉換技術。
盲人使用盲文(摸讀的點字符號)進行文化學習與信息交流。目前在國外一些發達國家中,已經研究出較好的盲人用計算機及其操作平臺。英國已研製出盲人用的計算機,其鍵盤各鍵是由大小、形狀、紋理不一,每鍵均帶有發聲機制的多媒體信息交互功能。在中國,近年來為了使盲人能夠使用計算機及能夠閱讀普通文本也作了一些局部的工作,如中國盲文書社在中國殘疾人聯合會和中國盲人協會的資助支持下,研製出盲文分詞連寫系統;北京圖書館在Dos作業系統下研究過盲人閱讀機,是將印刷體普通漢字文本通過掃描輸入計算機進行識別,再將識別的漢字轉換成聲音由計算機輸出;使盲人能夠聽到普通文本;清華大學自動化系研究過盲人用鍵盤輸入法,用聲音幫助選字,及在Dos下的漢字盲文轉換。
上述已有技術的不足之處包括一、在漢語盲文與漢字的轉換中沒有應用自然語言理解處理技術。二、在已公開的漢字識別後處理技術中,為了提高識別文本的正確率,用Viterbi動態規划算法來快速搜索一條最佳路徑,而進入同一個結點的其餘的路徑便被捨棄。不能找出次最優的漢語句子。三、已公開系統只涉及漢語盲文和漢字的相互轉換,不支持其它諸如數學公式等符號的相互轉換。四、已公開的盲文轉換隻涉及雙拼盲文,而沒有現行盲文處理功能。
本發明的目的是為克服已有技術的不足之處,提出一種漢語盲文到漢字的自動轉換方法。使用該方法,盲文可以由鍵盤和掃描儀兩種方式輸入。對盲文的標調沒有嚴格限制可以輸入英文,數字。同時可以追加任意的特殊符號。已建立了數學庫,可在文檔中輸入數學符號。同時可以根據需要加入其它特殊字庫,轉換正確率高。
本發明提出的一種漢語盲文到漢字的自動轉換方法,其特徵在於,將盲文書籍掃描後識別盲文,或用鍵盤將盲文輸入後,將盲文通過拼音的概念轉換為漢字;所說的拼音與漢字轉換的每一個環節,利用漢語盲文綜合知識庫,在帶轉移概率權重的拼音到漢字轉換搜索圖上採用viterbi搜索方法得到N個有序最佳結果,來實現由盲文到漢字的自動轉換。
所說的漢語盲文綜合知識庫包括電子字典、規則庫和統計信息庫(由統計大規模真實語料得到的鄰接詞同現概率庫)。
本發明所述漢語盲文到漢字的自動轉換方法,包括以下具體步驟1)讀入未轉換文本頭部的全部連續非盲文點字符號;2)當前的輸入點字符號是否表示非漢字意義,若表示漢字,轉步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑並選擇最好路徑,得到轉換結果,並將開始讀入的非盲文點字符號插入到對應位置;3)記錄本句的轉換結果,記錄表示非漢字意義的輸入點字符號的轉換結果,清空viterbi搜索圖,轉入步驟5;4)查找當前輸入的點字符號能夠匹配的所有漢字詞候選,並在viterbi搜索圖中構造相應結點。
5)判斷是否全部轉換完畢?若是,輸出轉換後漢字結果;若不是,轉步驟1。
本發明的特點是由於盲文掃描識別或盲文碼輸入不可能達到100%正確,雙面掃描盲文的識別錯誤率更高。同時,也是更重要的是由於漢字特有的一字多音、一音多字性質,以及自然語言的歧義現象,在將掃描盲文或盲文碼輸入與拼音的轉換,拼音與漢字轉換的每一個環節,均可能發生歧義或轉換錯誤,因此本發明利用漢語盲文綜合知識庫包括電子字典、規則庫和統計信息庫(由統計大規模真實語料得到的鄰接詞同現概率庫),在帶權的拼音到漢字轉換多部圖上採用N-Best搜索算法,來實現由盲文到漢字的自動轉換。
本發明具有以下效果1.盲文可以由鍵盤和掃描儀兩種方式輸入。
2.對盲文的標調沒有嚴格限制。例如「公園」可寫作gonglyuan2;gonglyuan;gongyuan2;gongyuan四種方式。
3.可以輸入英文,數字。同時可以追加任意的特殊符號。
4.已建立了數學庫,可在文檔中輸入數學符號。同時可以根據需要加入其它特殊字庫,如化學、物理等。
5.轉換正確率高。
附圖簡要說明
圖1為本發明的漢語盲文到漢字的自動轉換具體方法流程圖。
圖2為本發明的帶轉移概率權重的拼音到漢字轉換搜索圖。
以下結合實施例對本發明的實現方法詳細進行說明。
本發明所述漢語盲文到漢字的自動轉換具體實施方法,如圖1所示,包括以下步驟1)讀入未轉換文本頭部的全部連續非盲文點字符號;2)當前的輸入點字符號是否表示非漢字意義,若表示漢字,轉步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑並選擇最好路徑,得到轉換結果,並將開始讀入的非盲文點字符號插入到對應位置;3)記錄本句的轉換結果,記錄表示非漢字意義的輸入點字符號的轉換結果,清空viterbi搜索圖,轉入步驟5;4)查找當前輸入的點字符號能夠匹配的所有漢字詞候選,並在viterbi搜索圖中構造相應結點。
5)判斷是否全部轉換完畢?若是,輸出轉換後漢字結果;若不是,轉步驟1。
本發明中所應用的算法說明如下1.N-Best搜索算法圖2為本發明的帶轉移概率權重的拼音到漢字轉換搜索圖。圖中,假設某一個拼音句子Y由T個字構成,Y=y1y2…yT。在這個句子的前後各加上分界符,構成#y1,y2,...,yT#。設拼音yi對應的漢字詞候選為Ci,1Ci,2...Ci,ui]]>。在帶轉移概率權重的拼音到漢字轉換搜索圖中對與yi對應的每一個漢字詞候選都構造一個結點,所有與yi對應的結點構成一級。帶轉移概率權重的拼音到漢字轉換搜索圖中級與級之間是全連接的關係,即第i級的每一個結點與第i+1級的每一個結點之間都有一條邊。邊上的權為後一級漢字詞在前一級漢字後出現的條件概率(同現概率)。在帶轉移概率權重的拼音到漢字轉換搜索圖中,每一條邊都是帶權邊。例如,C11與C21之間邊上的權為P(C21|C11),表示C11後出現C21的條件概率。在兩個分界符之間的任意找一條路徑,其中所有邊的權重乘積就是該路徑對應轉換方案的概率值。搜索具有最大概率值的轉換方案就是在帶轉移概率權重的拼音到漢字轉換搜索圖中搜索一條邊權重乘積最大的路徑,路徑上的結點就表示了對應的轉換方案。
N-Best搜索算法可在圖2中找出具有前N大次最優的漢語句子。該搜索方法分為前向和後向兩個過程。在前向過程中,對圖中每一個結點,計算由初始結點到此結點的最佳路徑,並且記錄此最佳路徑的累計分值和指向路徑上前一個結點的指針。在後向過程中,通過比較進入終止結點的路徑就可以得到最優路徑。然後,為了使求次優路徑時不會又選到最佳路徑,把最佳路徑整個複製到一個所謂N-Best樹的結構中。對N-Best樹中的每一個結點計算後向累計分值。後向累計分值與前向累計分值相結合,使之能夠快速方便地計算出某一條路徑的總分值。
對N-Best樹上的所有結點進行擴展,比較擴展後所有路徑的分值,最大的那個就是次優路徑。然後把次優路徑與最優路徑不同的部分複製到N-Best樹中。接著計算新加入結點的後向累計分值。假設前N選路徑已經求出,那麼第N+1選路徑可以通過比較從當前N-Best樹中擴展出的路徑來求得。從此算法可以看出,N-Best樹結構保證了任何一條路徑不會被考慮兩次。而且,此算法也是一個精確的算法,即能夠準確的找出前N個大似然度的N個漢語句子。
使用N-Best算法使盲文到漢字的轉換正確率得到提高。但是,N-Best對於算法影響轉換速度。因此只有當系統認為最優選的漢語句子中存在著轉換錯誤時,才自動進行N-Best搜索。
特點用該方法完成的系統是國內第一個加入了漢語計算語言學處理技術的漢語盲文到漢字自動轉換系統,它用數億字的統計資料庫進行後處理。使得系統整體轉化正確率達到97%以上。漢語到盲文的轉換系統具有很高的轉換率,已經接近達到實用水平。
2.表示非漢字意義的點字轉換按照漢語盲文規則先判斷當前輸入點字是否為標點符號,再判斷是否為數學公式或者英文字母。
數學公式的轉換需要遞歸的進行,對表達式按照數學符號的運算級別分層次轉換。例如「3*4+5/6」,先對「3*4」和「5/6」進行轉換,然後再轉換「+」,將兩部分連結起來。
由於轉換後的數學公式使用純文本表示,因此例如根號,次方這樣的數學符號就沒法表示。應該通過定義新的數學公式純文本表示方法來表示。
3.查找盲文對應的漢字詞現行盲文的點字和漢語拼音中的聲母或者韻母對應。但是也存在同一個盲文點字對應兩個不同拼音部分的情況。例如 可以對應聲母「g」或者「j」,因此應該對所有盲文點字可能轉換成的拼音組合都進行對應漢字詞的查找。例如 可以對應拼音「ho」,「he」,「xo」,「xe」,都需要進行對應漢字詞的查找,其中不合法的拼音顯然沒有對應漢字詞。
由於詞庫中的漢字詞最長到7字,因此查找的時候最長檢測對應7個漢字的盲文點字。
用上述方法首次將漢語自然語言理解的理論應用於漢語盲文與漢字的自動處理技術中,完成了漢語盲漢、漢盲自動轉換系統。
權利要求
1.一種漢語盲文到漢字的自動轉換方法,其特徵在於,將盲文書籍掃描後識別盲文,或用鍵盤將盲文輸入後,將盲文通過拼音的概念轉換為漢字;所說的拼音與漢字轉換的每一個環節,利用漢語盲文綜合知識庫,在帶轉移概率權重的拼音到漢字轉換搜索圖上採用viterbi搜索方法得到N個有序最佳結果,來實現由盲文到漢字的自動轉換。
2.如權利要求1所述的漢語盲文到漢字的自動轉換方法,其特徵在於,具體包括以下步驟1)讀入未轉換文本頭部的全部連續非盲文點字符號;2)當前的輸入點字符號是否表示非漢字意義,若表示漢字,轉步驟4;若表示非漢字,在viterbi搜索圖中搜索N-best路徑並選擇最好路徑,得到轉換結果,並將開始讀入的非盲文點字符號插入到對應位置;3)記錄本句的轉換結果,記錄表示非漢字意義的輸入點字符號的轉換結果,清空viterbi搜索圖,轉入步驟5;4)查找當前輸入的點字符號能夠匹配的所有漢字詞候選,並在viterbi搜索圖中構造相應結點。5)判斷是否全部轉換完畢?若是,輸出轉換後漢字結果;若不是,轉步驟1。
全文摘要
本發明屬於計算機文字處理技術領域,其特徵在於,將盲文書籍掃描後識別盲文,或用鍵盤將盲文輸入後,將盲文通過拼音的概念轉換為漢字;所說的拼音與漢字轉換的每一個環節,利用漢語盲文綜合知識庫,在帶轉移概率權重的拼音到漢字轉換搜索圖上採用viterbi搜索方法得到N個有序最佳結果,來實現由盲文到漢字的自動轉換。使得系統整體轉換正確率達到97%以上。
文檔編號G06F17/28GK1323004SQ0111867
公開日2001年11月21日 申請日期2001年6月8日 優先權日2001年6月8日
發明者朱小燕, 江銘虎, 夏瑩, 馬少平, 姜哲, 包塔, 譚剛 申請人:清華大學