新四季網

一種自然手寫阿拉伯字母聯機識別方法

2023-05-11 19:42:46 2

專利名稱:一種自然手寫阿拉伯字母聯機識別方法
技術領域:
本發明涉及一種手寫識別方法,尤其是涉及一種自然手寫阿拉伯字母聯機識別方法。
背景技術:
阿拉伯語是世界主要語言之一,是伊斯蘭教和神聖《古蘭經》的語言,因此,阿拉 伯語的應用範圍較為廣闊。阿拉伯字母是阿拉伯語的書寫形式,目前,阿拉伯字母的識 別研究已成為研究者們研究的重要課題之一。2007年9月19日,中國發明專利"基於邊界特徵的印刷體阿拉伯字母識別方法" (公開號為CN 101038627)公開了一種基於邊界特徵的印刷體阿拉伯字母的識別方法, 該方法將字母的上、下、左、右四個邊界看作一個波,將每一個邊界表示為一系列波元 的集合;然後,從這些集合中提取如下邊界特徵波元個數、零直線的個數、右邊界中 第一條零直線的長度、下邊界中第一條零直線的長度、上邊界中最長零直線的長度、右 邊界中最長零直線的長度、下邊界中最長零直線的長度、上邊界中正直線的個數,並結 合字母高寬比、字母輔助部分的高寬比共同作為識別特徵;最後,按照字母的四種形式 ——獨立、開頭、中間、結尾分別採用四個決策樹識別每一個印刷體阿拉伯字母。這種 識別方法主要是將字母邊界表示為各種波元的集合併從中提取各種波元的特徵,特徵提 取過程簡單明了,算法速度較快,且易於實現。但這種識別方法只是對印刷體阿拉伯字 母的識別有較好的識別率,而對於自然手寫阿拉伯字母特徵提取,該識別方法很不穩定; 同時,決策樹對字形變化的適應性很弱,不利於自然手寫阿拉伯字母識別;此外,阿拉 伯字母的手寫體形變多樣複雜,目前主要研究集中在印刷體阿拉伯字母識別上,對於自 然手寫阿拉伯字母識別的研究較少。發明內容本發明所要解決的技術問題是提供一種利用基於阿拉伯字母局部特徵的逐級多層 粗分類算法減小輸入的手寫阿拉伯字母匹配識別的搜索範圍,提高識別匹配速度,提高 識別精度的自然手寫阿拉伯字母聯機識別方法。本發明解決上述技術問題所採用的技術方案為 一種自然手寫阿拉伯字母聯機識別
方法,包括以下步驟① 對輸入終端設備的手寫阿拉伯字母的筆跡坐標進行採集,並將採集到的筆跡坐標 實時存儲到預先定義的結構體數組中;② 對存儲在結構體數組中的筆跡坐標及由筆跡坐標轉換成矩陣形式存放構成的筆 跡坐標點陣進行預處理;③ 利用基於阿拉伯字母局部特徵的逐級多層粗分類算法,首先根據阿拉伯字母的形 狀特徵,將所有標準阿拉伯字母分成四類,按輸入的手寫阿拉伯字母的筆劃數直接得到 與該輸入的手寫阿拉伯字母匹配的第一候選字母集合;再根據輸入的手寫阿拉伯字母的 局部特徵和第一候選字母集合,得到與該輸入的手寫阿拉伯字母匹配的第二候選字母集合,④ 提取輸入的手寫阿拉伯字母的freeman鏈碼,計算該輸入的手寫阿拉伯字母的 freeman鏈碼與預先設定的字庫中與第二候選字母集合中每個字母相應的各個標準字母的最優隱馬可夫模型的匹配概率,再從各個匹配概率中獲取最大匹配概率,將預先設定 的字庫中與最大匹配概率對應的標準字母確定為輸入的手寫阿拉伯字母的最終識別結果。所述的步驟②包括以下具體步驟②-l、對存儲在結構體數組中的筆跡坐標進行平 滑濾波、去除硬體噪聲及手寫時產生的毛刺和斷筆;②-2、利用聯機單點寬度手寫體的 線性規一化和非線性規一化算法對由經過步驟②-l處理後的筆跡坐標轉換成矩陣形式 存放構成的筆跡坐標點陣進行線性規一化和非線性規一化處理,得到新筆跡坐標點陣; ②-3、對經過步驟②-2處理後得到的新筆跡坐標點陣中丟失的有效特徵點進行補點操作。所述的步驟②-2中的聯機單點寬度手寫體的線性規一化和非線性規一化算法為a1. 採用公知的坐標框圖比例縮放和直接投影的方法,將由經過步驟②-l處理後的筆跡坐標 轉換成矩陣形式存放構成的筆跡坐標點陣線性規一化到標準坐標點陣;a2.將標準坐標點陣中的標準坐標點表示為(x,3;),並將標準坐標點(x,y)劃分成非筆跡坐標點和筆跡坐 標點;a3.計算標準坐標點(;c,力的密度函數d(;c,力,4w卜jS^(力"力1^) ; £^Sj,其中,"為當前所取標準坐標點的位置上的橫向密度,」&為當前所取標準坐標點的位置上的豎向密度,^表示標準坐標點陣的長 度,其值為64; a4.根據標準坐標點(;c,力的密度函數c/(;c,j;)計算標準坐標點(x,力的水平密度投影函數Z/(x)和垂直密度投影函數F00, i/(;c)-t[";c,;;) + ],roo=S["(x,y)+av],其中,"(^,力為標準坐標點Oc,力的密度函數'/x/表示標準坐標點陣的大小,其值為64x64, 和^為矯正係數,其值均為0.1; a5.利用水平密 度投影函數i/0)和垂直密度投影函數FO)進行非線性規一化,求取新筆跡坐標點陣,m = t//(x)x , M, "-^K(力x^^,其中,/xJ表示標準坐標點陣的大小,其值為64x64; MxiV表示非線性規一化處理後得到的新筆跡坐標點陣的大小,其值預 先設定為64x64; O,")為新筆跡坐標點陣中的坐標點;/ = 1,2廣.,/, y、l,2,…,J。所述的步驟③中的局部牲包括字母的筆劃數、字母的筆段數、字母的豎向穿越數、 字母的橫向穿越數、字母中是否存在點筆劃、點筆劃的數目及點筆劃所處位置。所述的步驟③中的基於阿拉伯字母局部特徵的逐級多層粗分類算法的具體步驟為 ③-l、第一層粗分類根據阿拉伯字母的形狀特徵,將所有標準阿拉伯字母分成casel 類、case2類、case3類和case4類四類,casel類包括筆劃數為1筆的字母,case2類包括 筆劃數為2筆的字母,case3類包括筆劃數為3筆的字母,case4類包括筆劃數為4筆的 字母,按輸入的手寫阿拉伯字母的筆劃數直接得到與該輸入的手寫阿拉伯字母匹配的第 一候選字母集合;③-2、第二層粗分類當第一候選字母集合與casel類相應時,對輸 入的手寫阿拉伯字母進行筆段分割,當分割得到的筆段數為1時,直接得到該輸入的手 寫阿拉伯字母匹配的第二候選字母集合;當分割得到的筆段數大於l時,計算該輸入的 手寫阿拉伯字母的豎向穿越數S,當S=l或S=2時,計算該輸入的手寫阿拉伯字母的橫 向穿越數H,根據橫向穿越數H得到該輸入的手寫阿拉伯字母匹配的第二候選字母集 合,當S3時,根據該輸入的手寫阿拉伯字母的末筆劃中的提筆的走向得到該輸入的手 寫阿拉伯字母匹配的第二候選字母集合,當S-4時,直接得到該輸入的手寫阿拉伯字母 匹配的第二候選字母集合;當第一候選字母集合與case2類相應時,判斷輸入的手寫阿 拉伯字母的筆劃中是否存在點筆劃,如果存在點筆劃,則當點筆劃的數目為l時,根據 點筆劃處於該輸入手寫阿拉伯字母的上方、下方或內部位置,分別得到該輸入的手寫阿 拉伯字母匹配的第二候選字母集合;當點筆劃的數目為2時,直接得到該輸入的手寫阿 拉伯字母匹配的第二候選字母集合;如果不存在點筆劃,則再根據該手寫阿拉伯字母是 否為上下結構,分別得到該手寫阿拉伯字母匹配的第二候選字母集合;當第一候選字母 集合與case3類相應時,判斷輸入的手寫阿拉伯字母中除點筆劃之外的其他筆劃是否首 尾相連,如果首尾相連,則直接得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合, 如果首尾不相連,再判斷點筆劃的位置,如果點筆劃處於該輸入的手寫阿拉伯字母的上
方,則計算該輸入的手寫阿拉伯字母的豎向穿越數S,當S-l或S-2時,計算該輸入的 手寫阿拉伯字母的橫向穿越數H,根據橫向穿越H得到該輸入的手寫阿拉伯字母匹配的 第二候選字母集合,當S-3時,根據該輸入的手寫阿拉伯字母的末筆劃中的提筆的走向 得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合,當3=4時,直接得到該輸入的 手寫阿拉伯字母匹配的第二候選字母集合,如果點筆劃處於該手寫阿拉伯字母的下方, 則直接得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合;當第一候選字母集合與 case4類相應時,計算輸入的手寫阿拉伯字母中除點筆劃之外的其他筆劃的橫向穿越數 H,當橫向穿越數H大於等於3時,直接得到該輸入的手寫阿拉伯字母匹配的第二候選 字母集合,當橫向穿越數H小於3時,直接得到該輸入的手寫阿拉伯字母匹配的第二候 選字母集合。所述的步驟③-2中對輸入的手寫阿拉伯字母進行筆段分割的具體過程為定義經過 步驟②處理後得到的新筆跡坐標點陣中表示輸入的手寫阿拉伯字母首筆劃中的落筆的 新筆跡坐標點為當前筆跡坐標點;判斷當前筆跡坐標點與與其相隔一個新筆跡坐標點的 兩新筆跡坐標點構成的夾角是否大於設定的閾值,當夾角大於設定的閾值時,則確定當 前筆跡坐標點為初步拐點;對下一個新筆跡坐標點作同樣的處理,得到所有的初步拐點; 將所有初步拐點中正在處理的初步拐點定義為當前初步拐點,將當前初步拐點相鄰的兩 個初步拐點中與當前初步拐點之間的矢量距離較近的一個初步拐點刪除,直至所有的初 步拐點處理完畢,得到所有優化拐點;以優化拐點為界對輸入的手寫阿拉伯字母迸行分 割得到筆段。所述的步驟④包括以下具體步驟④-K提取輸入的手寫阿拉伯字母的freeman鏈碼; ④-2、利用公知的Viterbi算法計算該輸入的手寫阿拉伯字母的freeman鏈碼與預先設定的 字庫中與第二候選字母集合中每個字母相應的各個標準字母的最優隱馬可夫模型的匹 配概率; -3、利用公知的冒泡排序法對計算得到的各個匹配概率進行排序,獲取最大 匹配概率; -4、將預先設定的字庫中與最大匹配概率對應的標準字母確定為輸入的手 寫阿拉伯字母的最終識別結果。與現有技術相比,本發明的優點在於提出的基於阿拉伯字母局部特徵的逐級多層粗 分類算法充分利用了阿拉伯字母的各種局部特徵,以字母的筆劃數作為第一層粗分類依 據,得到輸入的手寫阿拉伯字母匹配的第一候選字母集合,再根據其它局部特徵和第一 候選字母集合,得到輸入的手寫阿拉伯字母匹配的第二候選字母集合,該算法的應用使 輸入的手寫阿拉伯字母只需與預先設定的字庫中與第二候選字母集合相應的標準字母進行匹配識別,與直接將輸入的手寫阿拉伯字母與預先設定的字庫中的所有標準字母進 行匹配識別相比,有效減小了輸入的手寫阿拉伯字母匹配識別的搜索範圍、提高了匹配 速度,並提高了識別精確度;在對筆跡坐標進行預處理時提出了一種聯機單點寬度手寫 體的線性規一化和非線性規一化算法,此算法中的線性規一化處理不僅減少了後續非線
規一化處理的運算量,而且增強了後續非線規一化處理的可行性和準確度,此算法中的 非線性規一化對手寫阿拉伯字母局部形變實現了有效的矯正,保障了後續逐級多層粗分 類的準確性,提高了識別率;此外,本發明識別方法穩定性、適應性較強,易於實現。


圖l為本發明的流程示意圖;圖2為本發明的基於阿拉伯字母局部特徵的逐級多層粗分類算法的流程示意圖;圖3為阿拉伯字母的手寫習慣方向示意圖;圖4a為橫向密度Zx的第一種取值的判定示意圖;圖4b為橫向密度丄x的第二種取值的判定示意圖;圖4c為橫向密度ijc的第三種取值的判定示意圖;圖4d為橫向密度丄JC的第四種取值的判定示意圖;圖4e為橫向密度丄x的第五種取值的判定示意圖;圖5為一個阿拉伯字母的書寫筆跡示意圖;圖6為圖5中畫圈部分的freeman鏈碼求取示意圖;圖7為八方向freeman鏈碼定義示意圖;圖8a為點筆劃處於阿拉伯字母的上方的示意圖;圖8b為點筆劃處於阿拉伯字母的下方的示意圖;圖8C為點筆劃處於阿拉伯字母的內部位置的示意圖; 圖9為上下結構的阿拉伯字母的示意圖;圖10a為除點筆劃之外的其他筆劃首尾相連的阿拉伯字母的示意圖;圖10b為除點筆劃之外的其他筆劃首尾不相連的阿拉伯字母的示意圖;圖Ua為利用本發明的識別方法對其中一個輸入的手寫字母進行識別後輸出的結果圖;圖lib為利用本發明的識別方法對另一個輸入的手寫字母進行識別後輸出的結果圖。
具體實施方式
以下結合附圖實施例對本發明作進一步詳細描述。首先對預先設定在終端設備中的標準阿拉伯字母字庫進行描述。字庫包括28個標準阿拉伯字母,以及每個標準阿拉伯字母對應的最優隱馬可夫模型。最優隱馬可夫模型的獲取過程為1) 、自然手寫28個阿拉伯字母100次,每手寫一個阿拉伯字母一次按照手寫的筆 跡順序,根據圖7所示的八方向freeman鏈碼定義示意圖求取該阿拉伯字母的所有筆跡 經過的坐標點的八方位方向碼,即freeman鏈碼,freeman鏈碼具有0、 1、 2、 3、 4、 5、 6和7八個方向碼。這樣每個阿拉伯字母的一次手寫就可得到一串freeman鏈碼,手寫 100次,即可得到一個阿拉伯字母對應的100串freeman鏈碼,將每個阿拉伯字母得到 的100串freeman鏈碼作為該阿拉伯字母的100個樣本。如對圖5中的畫圈部分進行 freeman鏈碼提取的過程為如圖6所示,假設當前計算到坐標點A3,則依照圖7所示 的八方向freeman鏈碼定義示意圖,可獲知坐標點A3相對於其前一個坐標點A2的方向 碼為5;繼續處理下一個坐標點A4,坐標點A4相對於坐標點A3的方向碼為3;如此 依次求取其他坐標點,就可以得到圖5中畫圈部分的freeman鏈碼。2) 、將樣本輸入到初始隱馬可夫模型中進行樣本訓練,得到最優隱馬可夫模型。具 體包括以下步驟第一步,確定狀態數L,觀察值個數G,並對初始隱馬可夫模型中的 模型參數進行等概率初始化,由於freeman鏈碼具有O、 1、 2、 3、 4、 5、 6、 7八種值,故 在本實施例中取G-8,同時取L-IO, L一般取0 20之間的值,從理論上來說L的值越大, 得到的最優隱馬可夫模型越準確,但L的值過大,不僅會增加計算複雜度,而且對終端 設備的CPU的要求將更高。第二步,將步驟l)得到的樣本作為初始隱馬可夫模型的觀 察值序列,採用公知的Baum-Welch迭代重估算法來優化初始隱馬可夫模型中的模型參數,最終得到最優隱馬可夫模型。步驟2)中的Baum-Welch迭代重估算法是基於最陡梯度下降的局部優化算法,參 數估計時極易陷入局部最優解,該Baum-Wdch迭代重估算法不能保證找到全局最大點, 其收斂的點可能是局部極大點,為達到全局最優,可採用基於隨機鬆弛的離散隱馬可夫 參數全局優化算法對初始隱馬可夫模型中的模型參數進行全局優化訓練,最終得到最優 隱馬可夫模型。在標準阿拉伯字母字庫的基礎上,本發明的一種自然手寫阿拉伯字母聯機識別方 法,如圖l所示,包括以下步驟步驟①,對輸入終端設備的手寫阿拉伯字母(即待識對象)的筆跡坐標進行採集, 並將採集到的筆跡坐標實時存儲到預先定義的結構體數組中;在此具體實施例中,終端 設備可以為手機、PDA (Personal Digital Assistant,個人數碼助理)等數字終端產品, 終端設備的輸入框設定為192x192點陣坐標輸入框。步驟②,對存儲在結構體數組中的筆跡坐標轉換成矩陣形式存放構成的筆跡坐標點 陣進行預處理,預處理過程主要包括以下具體步驟 ②-l、對存儲在結構體數組中的筆跡坐標進行平滑濾波、去除存在的硬體噪聲及去 除手寫時產生的毛刺和斷筆。在此具體實施例中,平滑濾波、去除存在的硬體噪聲及去 除手寫時產生的毛刺和斷筆均採用現有的成熟技術進行處理。②-2、由於在手寫阿拉伯字母時,手寫字母在形體結構上與標準字母相比有較多不 規整的地方,使手寫字母的一些局部筆劃存在各種各樣的形變,這種形變會給後續的處 理帶來極大的影響,因此本發明提出了聯機單點寬度手寫體的線性規一化和非線性規一 化算法以矯正手寫字母的局部形變。該算法對由經過步驟②-l處理後的筆跡坐標轉換成矩陣形式存放構成的筆跡坐標 點陣進行線性規一化和非線性規一化處理,得到新筆跡坐標點陣,達到對手寫字母的局 部形變矯正的目的。該算法的具體步驟如下al.採用公知的坐標框圖比例縮放和直接投影的方法,將由經過步驟②-l處理後的 筆跡坐標轉換成矩陣形式存放構成的筆跡坐標點陣線性規一化到64x64標準坐標點陣, 線性規一化處理可以減少後續非線性規一化處理的運算量,同時可增強非線性規一化處 理的可行性。a2.將標準坐標點陣中的標準坐標點表示為(x,少),並將標準坐標點(x,;;)劃分成非筆跡坐標點和筆跡坐標點。非筆跡坐標點為筆跡沒有划過的地方,非筆跡坐標點的左右 筆劃存在情況,包括左右均無筆劃、左邊有筆劃而右邊無筆劃及左右均有筆劃;筆跡坐 標點為筆跡划過的點,筆跡坐標點的左右筆劃存在情況也同樣有多種,包括左右均無筆 劃、左邊有筆劃而右邊無筆劃及左邊無筆劃而右邊有筆劃;筆劃可定義為從落筆到提筆 為1筆劃。a3.計算標準坐標點(x,》的密度函數 "(;c,力,4w)^r"(M"^); S:gSj,其中,"為當前所取標準坐標點的位置上的橫向密度,Ay為當前所取標準坐標點的位置上的豎向密度,X表示標準坐標點陣的長 度,其值為64。a4.根據標準坐標點(x,力的密度函數d(jc,;;)計算標準坐標點(x,少)的水平密度投影函數7/(;0和垂直密度投影函數K(力,//W-t[d(x,力+ ^], F(力-^[J(:c,力+ A],其中,dOc,力為標準坐標點(;c,力的密度函數,/xJ表示標準坐標點陣的大小,其值為 64x64; 和^為矯正係數,其值均為O.l。矯正係數 和^的值從理論上來說介於
之間, 和"v的大小與手寫字母的局部形變矯正效果有關,對"H和",均取值為0.1、 0.125、 0.2、 0.58和0.8時分別進行實驗,經實驗表明,當flfl和^取值均為0.1時手寫字母的局部形變矯正效果最為理想。a5.利用水平密度投影函數/Z(;c)和垂直密度投影函數FCv)進行非線性規一化,求取新筆跡坐標點陣,^^2//(x)X"^~, " = J]yO)X^~—,其中,/x/表示標準坐標點陣的大小,其值為64x64; MxiV表示非線性規一化處理後得到的新筆跡坐標 點陣的大小,其值預先設定為64x64; (m,")為新筆跡坐標點陣中的坐標點;/ = 1,2, ,/,戶1,2,…,/。在此具體實施例中,當前所取標準坐標點的位置上的橫向密度zx和豎向密度i:y可 通過以下方法獲取。如圖3所示,由於阿拉伯字母的手寫習慣是從右到左、從上到下, 所以丄x的著眼點在右側,而丄少的著眼點在上側。噹噹前所取標準坐標點是筆跡坐標點時,丄jc具有三種不同的值,噹噹前所取坐標點處於圖4a和圖4c中所示的位置時,其值 為從當前所取標準坐標點向右划水平線所能經過的非連續筆跡點的次數+1,在此具體實 施例中,向右的水平線所能經過的連續筆跡點的次數視為經過一次;噹噹前所取標準坐 標點處於圖4b中所示的位置時,其值為l;噹噹前所取標準坐標點處於圖4e中所示的 位置時,其值為2A。噹噹前所取標準坐標點是非筆跡坐標點時,丄x也具有三種不同的 值,噹噹前所取標準坐標點處於圖4a和圖4c中所示的位置時,其值為從當前所取標準 坐標點向右划水平線所能經過的非連續筆跡點的次數;噹噹前所取標準坐標點處於圖4b 中所示的位置時,其值為2A;噹噹前所取標準坐標點處於圖4d中所示的位置時,其值為4A。其中,4表示標準坐標點陣的長度,其值為64。豎向密度Ay的取值方法與橫向密度丄x的取值方法相同。圖4a至圖4e中"■"代表當前所取的標準坐標點;代表 點筆劃。②-3、對經過步驟②-2處理後得到的新筆跡坐標點陣進行補點操作,以防止丟失有 效的特徵點。補點操作採用現有的經典的Bresenham畫線算法,在新筆跡坐標點陣中距 離大於1的兩個鄰近標準坐標點之間依筆跡走向添加中間特徵點。步驟③,利用基於阿拉伯字母局部特徵的逐級多層粗分類算法,首先根據阿拉伯字
母的形狀特徵,將所有標準阿拉伯字母分成四類,按輸入的手寫阿拉伯字母的筆劃數直 接得到與該輸入的手寫阿拉伯字母匹配的第一候選字母集合;再根據輸入的手寫阿拉伯 字母的局部特徵和第一候選字母集合,得到與該輸入的手寫阿拉伯字母匹配的第二候選 字母集合。局部特徵包括字母的筆劃數、字母的筆段數、字母的豎向穿越數、字母的橫 向穿越數、字母中是否存在點筆劃、點筆劃的數目及點筆劃所處位置等,字母的筆劃可 定義為從落筆到提筆為1筆劃。結合圖2,該算法包括以下具體步驟③-l、第一層粗 分類根據阿拉伯字母的形狀特徵,將所有標準阿拉伯字母分成casel類、case2類、case3 類和case4類四類,casel類包括筆劃數為1筆的字母,case2類包括筆劃數為2筆的字 母,case3類包括筆劃數為3筆的字母,case4類包括筆劃數為4筆的字母,按輸入的手 寫阿拉伯字母的筆劃數直接從所有標準阿拉伯字母中選擇得到與該手寫阿拉伯字母匹 配的第一候選字母集合;③-2、第二層粗分類當第一候選字母集合與casel類相應即 輸入的手寫阿拉伯字母的筆劃數為l筆時,對輸入的手寫阿拉伯字母進行筆段分割,當 分割得到的筆段數為1時,直接從第一候選字母集合中選擇得到該輸入的手寫阿拉伯字 母匹配的第二候選字母集合;當分割得到的筆段數大於1時,計算該輸入的手寫阿拉伯 字母的豎向穿越數S,當S=l或S=2時,計算該輸入的手寫阿拉伯字母的橫向穿越數H, 根據橫向穿越數H從第一候選字母集合中選擇得到該輸入的手寫阿拉伯字母匹配的第 二候選字母集合,當S-3時,根據該輸入的手寫阿拉伯字母的末筆劃中的提筆的走向從 第一候選字母集合中選擇得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合,當 S=4時,直接從第一候選字母集合中選擇得到該輸入的手寫阿拉伯字母匹配的第二候選 字母集合;當第一候選字母集合與case2類相應即輸入的手寫阿拉伯字母的筆劃數為2 筆時,判斷輸入的手寫阿拉伯字母的筆劃中是否存在點筆劃,如果存在點筆劃,則當點 筆劃的數目為l時,根據點筆劃處於該輸入的手寫阿拉伯字母的上方(如圖8a所示)、 下方(如圖8b所示)或內部位置(如圖8c所示),分別從第一候選字母集合中選擇得 到該輸入的手寫阿拉伯字母匹配的第二候選字母集合;當點筆劃的數目為2時,直接從 第一候選字母集合中選擇得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合;如果 不存在點筆劃,則再根據該手寫阿拉伯字母是否為上下結構,分別從第一候選字母集合 中選擇得到該手寫阿拉伯字母匹配的第二候選字母集合,判斷上下結構,如圖9所示的 手寫阿拉伯字母,圖9中虛線將該字母分成上下兩個獨立的部分,就稱為是上下結構; 當第一候選字母集合與case3類相應即輸入的手寫阿拉伯字母的筆劃數為3筆時,判斷 輸入的手寫阿拉伯字母中除點筆劃之外的其他筆劃是否首尾相連,如果首尾相連(如圖 lOa所示),則直接從第一候選字母集合中選擇得到該輸入的手寫阿拉伯字母匹配的第二 候選字母集合,如果首尾不相連(如圖10b所示),再判斷點筆劃的位置,如果點筆劃 處於該輸入的手寫阿拉伯字母的上方,則計算該輸入的手寫阿拉伯字母的豎向穿越數S, 當S=l或S=2時,計算該輸入的手寫阿拉伯字母的橫向穿越數H,根據橫向穿越數H從第一候選字母集合中選擇得到該輸入手寫阿拉伯字母匹配的第二候選字母集合,當 S=3時,根據該輸入的手寫阿拉伯字母的末筆劃中的提筆的走向從第一候選字母集合中 選擇得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合,當S-4時,直接從第一候 選字母集合中選擇得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合;如果點筆劃 處於該手寫阿拉伯字母的下方,則直接從第一候選字母集合中選擇得到該輸入的手寫阿 拉伯字母匹配的第二候選字母集合;當第一候選字母集合與case4類相應即輸入的手寫 阿拉伯字母的筆劃數為4筆時,計算輸入的手寫阿拉伯字母中除點筆劃之外的其他筆劃 的橫向穿越數H,當橫向穿越數H大於等於3時,直接從第一候選字母集合中選擇得到 該輸入的手寫阿拉伯字母匹配的第二候選字母集合,當橫向穿越數H小於3時,直接從 第一候選字母集合中選擇得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合。該基於阿拉伯字母局部特徵的逐級多層粗分類算法的應用使輸入的手寫阿拉伯字 母只需與預先設定的字庫中與第二候選字母集合相應的標準字母進行匹配識別,與直接 將輸入的手寫阿拉伯字母與預先設定的字庫中的所有標準字母進行匹配識別相比,有效 減小了輸入的手寫阿拉伯字母匹配識別的搜索範圍、提高了匹配速度,並提高了識別精 確度。上述步驟③-2中對輸入的手寫阿拉伯字母進行筆段分割的具體過程為定義經過步 驟②處理後得到的新筆跡坐標點陣中表示輸入的手寫阿拉伯字母首筆劃中的落筆的新 筆跡坐標點為當前筆跡坐標點;判斷當前筆跡坐標點與與其相隔一個新筆跡坐標點的兩 新筆跡坐標點構成的夾角是否大於設定的閾值,當夾角大於設定的閾值時,則確定當前 筆跡坐標點為初步拐點;對下一個新筆跡坐標點作同樣的處理,得到所有的初步拐點; 將所有初步拐點中正在處理的初步拐點定義為當前初步拐點,將當前初步拐點相鄰的兩 個初步拐點中與當前初步拐點之間的矢量距離較近的一個初步拐點刪除,矢量距離較近 可認為兩初步拐點間的矢量距離小於等於10,直至所有的初步拐點處理完畢,得到所有 優化拐點;以優化拐點為界對輸入的手寫阿拉伯字母進行分割得到筆段。如果不存在優 化拐點,則從新筆跡坐標點陣中只提取表示輸入的手寫阿拉伯字母首末端點的新筆跡坐 標點,並確定輸入的手寫阿拉伯字母的筆段數為1筆。此處閾值設置過大或過小,都容 易導致提取到不正確的初步拐點, 一般情況下取閾值在20。 30°之間,經測試,閾值 為25°時能夠得到效果最佳的初步拐點,因此在此具體實施例中,設定的閾值取值為 25° 。步驟 ,提取輸入的手寫阿拉伯字母的freeman鏈碼,計算該輸入的手寫阿拉伯字 母的freeman鏈碼與預先設定的字庫中與第二候選字母集合中每個字母相應的各個標準 字母的最優隱馬可夫模型的匹配概率,再從各個匹配概率中獲取最大匹配概率,將預先 設定的字庫中與最大匹配概率對應的標準字母確定為輸入的手寫阿拉伯字母的最終識 別結果。具體包括以下步驟 -1、提取輸入的手寫阿拉伯字母的freeman鏈碼; -2、
利用公知的Viterbi算法計算該輸入的手寫阿拉伯字母的freeman鏈碼與預先設定的字庫 中與第二候選字母集合中每個字母相應的各個標準字母的最優隱馬可夫模型的匹配概率; -3、利用公知的冒泡排序法對計算得到的各個匹配概率進行排序,獲取最大匹配 概率;④-4、將預先設定的字庫中與最大匹配概率對應的標準字母確定為輸入的手寫阿 拉伯字母的最終識別結果。Viterbi算法用於計算最優匹配路徑上的匹配概率,採用該算 法大大減少了計算速度,提高了輸入的手寫阿拉伯字母的識別速度。輸入的手寫阿拉伯字母的freeman鏈碼的提取過程為定義新筆跡坐標點陣中用於 表示輸入的手寫阿拉伯字母的首筆劃中的落筆的新筆跡坐標點為跟蹤點;根據freeman 鏈碼八方向定義,確定跟蹤點的值;按輸入的手寫阿拉伯字母的書寫順序,將下一個新 筆跡坐標點作為跟蹤點進行處理,直至最後一個新筆跡坐標點處理完畢,得到該輸入的 手寫阿拉伯字母的freeman鏈碼。freeman鏈碼八方向定義如圖7所示,freeman具有0、 1、 2、 3、 4、 5、 6和7八種值。通過本發明的識別方法對兩個自然手寫的阿拉伯字母進行識別後,得到的識別結果 分別如圖lla和圖llb所示,圖中左邊的字母表示輸入的手寫阿拉伯字母,右下的字母 表示經本發明提出的基於阿拉伯字母局部特徵的逐級多層粗分類算法後得到的第二候 選字母集合,右上的字母表示最終的識別結果。從圖Ua和圖llb中可以看出,本發明 的識別精度較高。
權利要求
1、一種自然手寫阿拉伯字母聯機識別方法,其特徵在於包括以下步驟①對輸入終端設備的手寫阿拉伯字母的筆跡坐標進行採集,並將採集到的筆跡坐標實時存儲到預先定義的結構體數組中;②對存儲在結構體數組中的筆跡坐標及由筆跡坐標轉換成矩陣形式存放構成的筆跡坐標點陣進行預處理;③利用基於阿拉伯字母局部特徵的逐級多層粗分類算法,首先根據阿拉伯字母的形狀特徵,將所有標準阿拉伯字母分成四類,按輸入的手寫阿拉伯字母的筆劃數直接得到與該輸入的手寫阿拉伯字母匹配的第一候選字母集合;再根據輸入的手寫阿拉伯字母的局部特徵和第一候選字母集合,得到與該輸入的手寫阿拉伯字母匹配的第二候選字母集合;④提取輸入的手寫阿拉伯字母的freeman鏈碼,計算該輸入的手寫阿拉伯字母的freeman鏈碼與預先設定的字庫中與第二候選字母集合中每個字母相應的各個標準字母的最優隱馬可夫模型的匹配概率,再從各個匹配概率中獲取最大匹配概率,將預先設定的字庫中與最大匹配概率對應的標準字母確定為輸入的手寫阿拉伯字母的最終識別結果。
2、 根據權利要求1所述的一種自然手寫阿拉伯字母聯機識別方法,其特徵在於所 述的步驟②包括以下具體步驟②-l、對存儲在結構體數組中的筆跡坐標進行平滑濾波、 去除硬體噪聲及手寫時產生的毛刺和斷筆;②-2、利用聯機單點寬度手寫體的線性規一 化和非線性規一化算法對由經過步驟②-l處理後的筆跡坐標轉換成矩陣形式存放構成 的筆跡坐標點陣進行線性規一化和非線性規一化處理,得到新筆跡坐標點陣;②-3、對 經過步驟②-2處理後得到的新筆跡坐標點陣中丟失的有效特徵點進行補點操作。
3、 根據權利要求2所述的一種自然手寫阿拉伯字母聯機識別方法,其特徵在於所 述的步驟②-2中的聯機單點寬度手寫體的線性規一化和非線性規一化算法為al.採用 公知的坐標框圖比例縮放和直接投影的方法,將由經過步驟②-l處理後的筆跡坐標轉換 成矩陣形式存放構成的筆跡坐標點陣線性規一化到標準坐標點陣;a2.將標準坐標點陣中的標準坐標點表示為(x,少),並將標準坐標點(x,y)劃分成非筆跡坐標點和筆跡坐標 點;al計算標準坐標點(x,力的密度函數4",力,小,力4f^(息"^) ; t^^,其中,"為當前所取標準坐標點的位置上的 橫向密度,Ay為當前所取標準坐標點的位置上的豎向密度,^表示標準坐標點陣的長 度,其值為64; a4.根據標準坐標點(x,少)的密度函數d(x,少)計算標準坐標點(;^)的水 平密度投影函數和垂直密度投影函數FO) , = f [《x,力+ "h〗,7(力=1;[""力+^],其中'd(x,力為標準坐標點(x,力的密度函數,/xj表示標準坐標點陣的大小,其值為64x64, 和^為矯正係數,其值均為0.1; a5.利用水平密 度投影函數i/(x)和垂直密度投影函數FCy)進行非線性規一化,求取新筆跡坐標點陣,formula see original document page 3 formula see original document page 3,其中,/xJ表示標準坐標點陣的大小, " ^T/(" 戶1 ^y(力其值為64x64; MxiV表示非線性規一化處理後得到的新筆跡坐標點陣的大小,其值預 先設定為64x64; (m,n)為新筆跡坐標點陣中的坐標點;!' = 1,2, ,/, y-l,2,…,/。
4、 根據權利要求1所述的一種自然手寫阿拉伯字母聯機識別方法,其特徵在於所 述的步驟③中的局部牲包括字母的筆劃數、字母的筆段數、字母的豎向穿越數、字母的 橫向穿越數、字母中是否存在點筆劃、點筆劃的數目及點筆劃所處位置。
5、 根據權利要求4所述的一種自然手寫阿拉伯字母聯機識別方法,其特徵在於所述的步驟③中的基於阿拉伯字母局部特徵的逐級多層粗分類算法的具體步驟為③-l、第一層粗分類根據阿拉伯字母的形狀特徵,將所有標準阿拉伯字母分成casel類、case2 類、case3類和case4類四類,casel類包括筆劃數為1筆的字母,case2類包括筆劃數為 2筆的字母,case3類包括筆劃數為3筆的字母,case4類包括筆劃數為4筆的字母,按 輸入的手寫阿拉伯字母的筆劃數直接得到與該輸入的手寫阿拉伯字母匹配的第一候選 字母集合;③-2、第二層粗分類當第一候選字母集合與casel類相應時,對輸入的手 寫阿拉伯字母進行筆段分割,當分割得到的筆段數為1時,直接得到該輸入的手寫阿拉 伯字母匹配的第二候選字母集合;當分割得到的筆段數大於1時,計算該輸入的手寫阿 拉伯字母的豎向穿越數S,當S-l或S-2時,計算該輸入的手寫阿拉伯字母的橫向穿越 數H,根據橫向穿越數H得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合,當 S=3時,根據該輸入的手寫阿拉伯字母的末筆劃中的提筆的走向得到該輸入的手寫阿拉 伯字母匹配的第二候選字母集合,當S=4時,直接得到該輸入的手寫阿拉伯字母匹配的 第二候選字母集合;當第一候選字母集合與case2類相應時,判斷輸入的手寫阿拉伯字 母的筆劃中是否存在點筆劃,如果存在點筆劃,則當點筆劃的數目為l時,根據點筆劃 處於該輸入手寫阿拉伯字母的上方、下方或內部位置,分別得到該輸入的手寫阿拉伯字 母匹配的第二候選字母集合;當點筆劃的數目為2時,直接得到該輸入的手寫阿拉伯字 母匹配的第二候選字母集合;如果不存在點筆劃,則再根據該手寫阿拉伯字母是否為上 下結構,分別得到該手寫阿拉伯字母匹配的第二候選字母集合;當第一候選字母集合與 case3類相應時,判斷輸入的手寫阿拉伯字母中除點筆劃之外的其他筆劃是否首尾相連, 如果首尾相連,則直接得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合,如果首 尾不相連,再判斷點筆劃的位置,如果點筆劃處於該輸入的手寫阿拉伯字母的上方,則 計算該輸入的手寫阿拉伯字母的豎向穿越數S,當S4或S-2時,計算該輸入的手寫阿 拉伯字母的橫向穿越數H,根據橫向穿越H得到該輸入的手寫阿拉伯字母匹配的第二候 選字母集合,當S4時,根據該輸入的手寫阿拉伯字母的末筆劃中的提筆的走向得到該 輸入的手寫阿拉伯字母匹配的第二候選字母集合,當S-4時,直接得到該輸入的手寫阿 拉伯字母匹配的第二候選字母集合,如果點筆劃處於該手寫阿拉伯字母的下方,則直接 得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合;當第一候選字母集合與case4 類相應時,計算輸入的手寫阿拉伯字母中除點筆劃之外的其他筆劃的橫向穿越數H,當 橫向穿越數H大於等於3時,直接得到該輸入的手寫阿拉伯字母匹配的第二候選字母集 合,當橫向穿越數H小於3時,直接得到該輸入的手寫阿拉伯字母匹配的第二候選字母集合。
6、 根據權利要求5所述的一種自然手寫阿拉伯字母聯機識別方法,其特徵在於所 述的步驟③-2中對輸入的手寫阿拉伯字母進行筆段分割的具體過程為定義經過步驟② 處理後得到的新筆跡坐標點陣中表示輸入的手寫阿拉伯字母首筆劃中的落筆的新筆跡 坐標點為當前筆跡坐標點;判斷當前筆跡坐標點與與其相隔一個新筆跡坐標點的兩新筆 跡坐標點構成的夾角是否大於設定的閾值,當夾角大於設定的閾值時,則確定當前筆跡 坐標點為初步拐點;對下一個新筆跡坐標點作同樣的處理,得到所有的初步拐點;將所 有初步拐點中正在處理的初步拐點定義為當前初步拐點,將當前初步拐點相鄰的兩個初 步拐點中與當前初步拐點之間的矢量距離較近的一個初步拐點刪除,直至所有的初步拐 點處理完畢,得到所有優化拐點;以優化拐點為界對輸入的手寫阿拉伯字母進行分割得 到筆段。
7、 根據權利要求5或6所述的一種自然手寫阿拉伯字母聯機識別方法,其特徵在 於所述的步驟④包括以下具體步驟 -1、提取輸入的手寫阿拉伯字母的freeman鏈碼; -2、利用公知的Viterbi算法計算該輸入的手寫阿拉伯字母的freeman鏈碼與預先設定 的字庫中與第二候選字母集合中每個字母相應的各個標準字母的最優隱馬可夫模型的匹配概率; -3、利用公知的冒泡排序法對計算得到的各個匹配概率進行排序,獲取最 大匹配概率; -4、將預先設定的字庫中與最大匹配概率對應的標準字母確定為輸入的手寫阿拉伯字母的最終識別結果。
全文摘要
本發明公開了一種自然手寫阿拉伯字母聯機識別方法,優點在於提出的基於阿拉伯字母局部特徵的逐級多層粗分類算法充分利用了阿拉伯字母的各種局部特徵,以字母的筆劃數作為第一層粗分類依據,得到輸入的手寫阿拉伯字母匹配的第一候選字母集合,再根據其它局部特徵和第一候選字母集合,得到輸入的手寫阿拉伯字母匹配的第二候選字母集合,該算法的應用使輸入的手寫阿拉伯字母只需與預先設定的字庫中與第二候選字母集合相應的標準字母進行匹配識別,與直接將輸入的手寫阿拉伯字母與預先設定的字庫中的所有標準字母進行匹配識別相比,有效減小了輸入的手寫阿拉伯字母匹配識別的搜索範圍、提高了匹配速度,並提高了識別精確度。
文檔編號G06K9/68GK101398902SQ20081012139
公開日2009年4月1日 申請日期2008年9月27日 優先權日2008年9月27日
發明者丁洪珍, 何加銘, 史智慧, 史愛軍, 樊玲慧, 範周鎰, 賈德祥, 聞建芬, 平 陳, 靜 陳, 馬成臣 申請人:寧波新然電子信息科技發展有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀