新四季網

脫機手寫漢字識別系統及其識別方法

2023-06-09 22:04:06

專利名稱:脫機手寫漢字識別系統及其識別方法
技術領域:
本發明屬於模式識別和人工智慧領域。
脫機手寫漢字識別是識別已經寫在稿紙上、白紙上或表格中的手寫漢字。按書寫限制的程序,一般可分為三種,即限制性手寫體(指規定某些限制,如規定拓樸特性不變或要求橫平豎直等),手寫印刷體(指手寫工整的漢字)和書寫限制較少的手寫漢字。限制越少,識別難度越大。目前國內外已研製出若干種能識別手寫印刷體漢字的識別系統,例如,本申請人於89年3月23日申請的中國發明專利《光照輸入手寫印刷體漢字識別系統》(CN10458859)就是其中的一種識別系統。該系統由掃描器和微機組成,配有手寫印刷體漢字識別卡及接口板。該系統採用漢字四邊形狀特徵進行粗分類,用快速合併法抽取筆段,用相關屬性關係圖啟發式匹配法進行細分的手寫印刷體漢字識別方法。該系統的識別字數為2000常用漢字,識別率達90%。其不足之處是對書寫字有較多的限制及較嚴的要求,即書寫漢字不丟失、不添加筆劃;筆劃寫直,字的四邊框筆劃要寫清楚;筆劃成型,轉折處儘量尖銳;用黑色墨水、優質鋼筆、寫在稿紙上等等要求。這些要求對使用者帶來諸多不便,限制了該系統使用範圍。
本發明的目的是構成一種識別書寫限制較少漢字的識別系統,克服上述漢字識別系統的不足之處,將使用者按自己習慣寫在紙上的字,高速輸入計算機,經過計算機識別,並輸出正式文件來,為達此目的,本發明提出一種新的手寫漢字識別方法。
本發明提出一種交互式自學習脫機手寫漢字識別系統,由掃描、識別、編輯等部分,其中,掃描部分包括驅動光電掃描儀完成對文稿的掃描錄入以及文字切分、規格化予處理等步驟,識別部分包括對掃描得到的文字圖象進行模式識別,得到漢字機內碼表示的文本文件等步驟,編輯部分包括對識別後的文本文件進行編輯修改及輸出正式文件等步驟,其特徵在於所說的識別部分採用漢字統計和結構兩類特徵相結合的統計識別方法,即抽取漢字適當部位的橫、豎、左斜、右斜四個掃描方向的筆道計數做為統計特徵(HVLR),以及漢字四邊形狀的穩定部分,經過模糊處理後作為結構特徵的抽取方法。以及動態分類方法,即將所述統計和結構特徵作為粗分類特徵,對各類特徵取候選集,然後作與、或集合運算,得到最後的分類侯選集,再作進一步的匹配、細分,得到識別結果。該系統還包括用以識別書寫工整、字跡清楚的手寫漢字的通用特徵庫以及為適應不同用戶的書寫習慣,計算機採用自學習方式為用戶建立的專用特徵庫,建立專用特徵庫可採用兩種方法,一種是用戶按照自己的書寫習慣寫出一個常用字表,該系統全自動地學習該用戶的字型特徵;另一種是邊輸入學習,在文稿交互輸入過程中,計算機逐個學習漢字的字型特徵。
本發明提供的上述交互式自學習脫機手寫漢字識別系統,對輸入的手寫漢字文稿限制少,能適用連筆、斷筆現象,具有自動識別,人一機交互式識別、邊輸入邊學習全自動學習等功能。
附圖簡要說明

圖1 為本發明實施例的系統程序框2 漢字切割原理3 漢字圖象切割流程4 為「的」字的HVLR特徵圖5 為四邊框形狀特徵碼本發明提供的一種最佳實施例由掃描儀、微型計算機主機、顯示器、印表機以及裝在主機內的掃描儀與主機的接口板和漢字識別卡等組成。掃描儀可採用HP、RICON和DATACOPY等各種掃描儀,如HP9190,HP9195,is 30,is11等。計算機主機可採用IBM-PC/XT兼容機、各種286,386機和長城機,如8088,80286或80386 CPU具有內存640K以上20M以上硬碟的計算機。本實施例系統工作流程框圖如圖1所示,由掃描、識別、編輯、機器學習等部分組成。結合附圖對其工作原理詳細描述如下漢字和標點符號寫在20×20稿紙上,用300dpi圖文掃描器(如CS-220,IS-30等)掃描頁面,按所選的灰度閾值,得到二值化(黑、白)點陣,經接口板送入計算機,得到一幅漢字圖象,按圖2所示的漢字切割原理圖,將圖象中的所有黑色象點橫向相加,得到離散波形,則可確定行起始和行數。每行的縱向裡象點相加,可確定字首和字數,經圖3所示的漢字圖象切割流程圖,得到每個漢字,為96×96點陣,並顯示該手寫體字形,以便挑選和學習用。每個漢字經特徵抽取及規格化後,得到被識漢字的粗分類特徵和細分特徵,並對特徵進行處理,突出其字間差別。經動態分類判別,得到分類的候選集,然後對候選集作細分判別,並對候選集按相似度排序。在自動識別狀態,則以最相似的字為識別結果。識別結果在屏幕上顯示並存入磁碟。有分類特徵庫和細分特徵庫各一個,其特徵是由計算機全自動學習(字表教授)或交互學習(人機對話教授),然後對特徵空間的劃分進行修改,進而改變分類特徵庫和細分特徵庫。為了儘量減少對書寫人的限制,可以允許連筆和行書。除通用特徵庫外,對於行書、草書的用戶可建立專人特徵庫。
本系統具有如下特點1.系統的予處理與一般常用的方法不同,對於書寫大小不同的漢字所用的規格化方法,不是對96×96漢字點陣進行規格化,而是在特徵抽取過程中對HVLR的原型特徵進行規格化,是96×4數量的規格化,大大提高了速度。系統沒有「細化」的過程就直接作特徵抽取。避免了「細化」速度慢、畸變大的弱點。
2.識別方法主要包括特徵的選擇、抽取和分類判別兩部分。其中特徵的選擇、抽取是根據限制較少手寫漢字的多變、連筆、斷筆、不穩定等特點,採用統計特徵與結構特徵相結合的識別特徵。統計特徵為適當部位的手寫漢字橫、豎、左斜、右斜(HVLR)特性,即適當部位的橫、豎、左斜、右斜四個掃描方向的筆道計數,它們是反映漢字內部結構的筆道計數。結構特徵是取漢字的四邊形狀特徵的穩定部分,經模糊處理後得到的特徵有序串。具體實現方法及步驟如下本發明人分析了漢字的結構特點,認為手寫漢字最重要,也是相對穩定的特徵是漢字的間架結構,能表達漢手寫漢字的字形結構形狀特徵是HVLR特徵,對於不同人寫的相同的字,例如圖4所示,使其HVLR特徵比較穩定,關鍵在於在適當的部位去數所穿越的筆道數。
對於計算機而言,要確知在適當的部位去「數」所穿越的筆劃數是困難的,本發明提出一種方法,可以比較精確、快速地抽取出HVLR特徵。
HVLR特徵的抽取方法包括兩大步驟①HVLR特徵的原形特徵的抽取;
②對原形特徵規格化,得到HVLR特徵。
原形特徵指手寫體漢字在水平(H)、垂直(V)、+45°(L)、-45(R)方向筆劃數目的投影。
原形特徵的抽取方法如下一頁手寫體漢字文稿經過掃描輸入、切割,得到一幅M×N的二值漢字點陣,G=(Gij),其中i=1,2……M,j=1,2……N。對於黑色象素(Gij)=1,對於白色象素Gij=0。
1.掃描G,若G中的點已掃描完,則結束。
2.判斷當前掃描點的鄰接區m×n的狀態2.1若m×n中的點非全白全黑,則轉12.2若m×n中的點全白,則判斷2.2.1若垂直方向置全黑標誌,則當前位置的水平方向筆道數加1,並置此標誌為全白。
2.2.2若水平方向置全黑標誌,則當前位置的垂直方向筆道數加1,並置此標誌為全白。
2.2.3若-45°方向置全黑標誌,則當前位置的+45°方向筆道數加1,並置標誌為全白。
2.2.4若+45°方向置全黑標誌,則當前位置的-45°,方向筆道數加1,並置此標誌並全白。
2.3若m×n中的點全黑,則置所有四個方向的標誌並全黑。
3.轉1本特徵提取方法的特點是①在水平、垂直、+45°、-45°四個方向對漢字點陣G各穿越了M-m、N-n、M+N-(m+n+1)、M+N-(m+n+1)條線,由於在穿線計數時考慮了每一點的m×n大小的鄰域狀態,因而所得原形特徵比較真實地反映了手寫體漢字在上述四個方向上筆道數目的投影數。
②由於只需遍歷G一遍,就得到四個方向上的特徵,因而速度極快。
③具有一定的抗幹擾能力。只要G中的汙點大小不能完全包含m×n,則此汙點並不影響原形特徵的抽取,m×n有多種,很靈活。最簡明、直觀的取法是2×2即∷,也可取
等。
對原形特徵規格化是將各方向的原形特徵(水平方向為 Ha[i],i=1,2……M-m;
垂直方向為 Va[i],i=1,2……M-N;
+45°方向為 La[i],i=1,2……M+N-(m+n);
-45°方向為 Ra[i],i=1,……M+N-(m+n))均勻映射到Hb[i],Vb[i],Lb[i],Rb[i],其中i=1,……J。
J=k· (min(N,N))/([R/25.4]) 式中[R/25.4]為掃描器每毫米的解析度我們取K=3/2,R=300,則J=12。
這裡均勻映射包括按相似比例的放大或縮小,是離散值的放大或縮小。
由於這種規格化方法是近似了在「適當的部位」去「數」所穿越的筆道數。因此所得到的是HVLR特徵的近似值。該方法比較精確地將二維漢字字形轉化並多維向量。實驗結果表明,這一特徵較好的表達了漢字字形的本質特點。
結構特徵是取漢字的四邊形特徵的穩定部分。漢字的四邊形狀特徵包含的信息量大,相對地比較穩定。但也不是都穩定,尤其是在有連筆時,四邊形狀並不都穩定,因此僅取其經模糊處理後的穩定部分。例如「舞」字,由上往下看可以看到「丿一」,「不」字由上往下看的「一」。我們選擇七種筆劃形狀作為基本特徵元,如圖5所示。即將「一」「丨」「丿」「丶」「┐」「┖」「┴」的編碼規定為1,2,3,4,5,6,7。在獲得漢字圖象的近似多角形之後得到四框形狀線段,對這些線段由左向右分析它們的性質,以及它與鄰近線段所構成的幾何形狀,可以從中得到形狀的特徵編碼有序串。例如,對於頂部的具體步驟如下1.將頂部線段從左到右排序2.取出一線段,判斷它們的屬性(一,丨,丿,丶等)3.根據屬性,取出鄰近邊分析兩端點與鄰近邊所構成的形狀從而得到特徵碼。
4.若線段取完則結束,否則轉2。
例如「舞」字取「/一」其編碼有序串為31。
本實施例的分類判別部分採用動態分類法。
對於文字特徵的分類判別是文字識別過程的主要環節,要根據特徵的特點尋找恰當分類判別方法。
對於手寫體漢字的特徵本發明人曾進行過廣泛的探討和選擇。可以說,沒有絕對穩定的特徵,只有相對比較穩定的特徵,如前述的特徵。對於這些不是很穩定的特徵應如何使用呢?本發明人採用與傳統分類方法不同的動態分類法。將上述的統計HVLR特徵的四個分量Hb[i],Vb[i],Lb[i],Rb[i](i=1,……J)的平方和∑Lb2[i],∑Rb2[i],∑Hb2[i],∑Vb2[i]及四邊框特徵作為粗分類特徵,並設定各分量的△區間,使其都有一定的上下限,上下限的具體值由樣本集進行訓練得到。動態分類法,即對各類特徵取候選集,然後求併集和交集。這種分類方法對同一字的不同寫法得到的候選集是不同的,但總要包含被識字。它和樹分類法相比,當特徵不很穩定時,該方法可減少分類錯誤。它比動態兼容線性分類法更靈活,可更廣泛地應用,因它不要求對特徵進行排序,便於對各種特徵求候選集,然後作與、或集合運算,得到最後的分類候選集。雖然動態分類法對待識字求候選集要在全分類庫內尋找,但只要特徵簡單,也還是很快的,這樣可在特徵不很穩定的情況下,找到不太大的候選集。
3.本系統通過計算機全自動學習(指由字表教授)或交互學習(指人機對話教授)兩種方式得到分類特徵庫和細分特徵庫。
計算機自動學習的過程是事先準備好需要學習的掃描樣張和與掃描樣張次序相對應的字表文件。用圖文掃描器掃描樣張,經漢字切分後得到每個漢字的96×96點陣,和識別過程相同,也要經特徵抽取和規格化後,得到要學習的漢字的分類特徵和細分特徵。在字表文件的指導下,漢字的分類特徵經特徵空間的劃分操作後得到初始的分類特徵庫,細分特徵則直接組成初始的細分特徵庫,粗分類庫中的每個漢字有指針指向細分特徵庫中的相應漢字,以便於識別時調用。在已有初始特徵庫後,要繼續學習樣張,是將另外的多種樣張掃描送入計算機,抽取分類特徵和細分特徵,用新的分類特徵與分類特徵庫比較,若發現不合用,則修改特徵空間的劃分,用細分特徵與細分特徵庫比較,若發現相距太遠,則修改細分特徵庫的參數。
人機互動式學習過程是在輸入稿件時邊輸入邊學習。
本系統的軟體採用模塊式結構,主要用彙編語言編程,在CCDOS 4.0作業系統下工作。
本實施例具有對限制少手寫漢字的自動識別、人-機交互式識別、邊輸入邊學習,機器全自動學習等功能,識別字數為國標一級漢字3755個,識別率80~95%(前十位候選識別率),識別速度為2~3字/秒。
權利要求
1.一種交互式自學習脫機手寫漢字識別系統,由掃描、識別、編輯等部分,其中,掃描部分包括驅動光電掃描儀完成對文稿的掃描錄入以及文字切分、規格化予處理等步驟,識別部分包括對掃描得到的文字圖象進行模式識別,得到漢字機內碼表示的文本文件等步驟,編輯部分包括對識別後的文本文件進行編輯修改及輸出正式文件等步驟,其特徵在於所說的識別部分採用漢字統計和結構兩類特徵相結合的統計識別方法,即抽取漢字適當部位的橫、豎、左斜、右斜四個掃描方向的筆道計數做為統計特徵(HVLR),以及漢字四邊形狀的穩定部分,經過模糊處理後作為結構特徵的抽取方法,以及動態分類方法,即將所述統計和結構特徵作為粗分類特徵,對各類特徵取侯選集,然後作與、或集合運算,得到最後的分類侯選集,再作進一步的匹配、細分,得到識別結果,該系統還包括通用特徵庫以及專用特徵庫。
2.如權利要求1所述的手寫漢字識別系統,其特徵在於所述的規格化予處理是在特徵抽取過程中對所說的HVLR的原型特徵進行的方法;所說的識別方法中的HVLR特徵選擇、抽取部分,包括HVLR特徵的原形特徵的抽取及對原形特徵規格化、得到HVLR特徵兩大步驟的方法;所說的動態分類方法是將所說的HVLR特徵的四個分量Hb[i],Vb[i],Lb[i],Rb[i](i=1,……J)進行平方和突出差別後,做為HVLR特徵,並將該特徵與所說的四邊框特徵作為粗分類特徵,再對所述的各類特徵取候選集,然後作與、或集合運算,得到最後的分類候選集。
全文摘要
一種脫機手寫漢字識別系統及其識別方法,屬於模式識別人工智慧領域。本發明提供的漢字識別系統具有採用漢字統計和結構兩類特徵相結合以及動態分類的統計識別方法。具有手寫漢字的自動識別、人一機交互式識別、邊輸入邊學習、機器全自動學習等功能,識別字數為國標一級漢字3755個,識別率80~95%(前十位候選識別率),識別速度為2~3字/秒。該系統對書寫者的限制較少,可以識別行書。
文檔編號G06K9/72GK1052203SQ90110009
公開日1991年6月12日 申請日期1990年12月29日 優先權日1990年12月29日
發明者夏瑩, 吳智彪, 曾棋榮, 王世琴, 胡靜芬, 孫承纜, 張大華 申請人:清華大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀