新四季網

漢字筆畫自動抽取方法及其裝置的製作方法

2023-04-28 01:45:51

專利名稱:漢字筆畫自動抽取方法及其裝置的製作方法
技術領域:
本發明屬信息技術領域,是一種漢字筆畫自動提取方法及其裝置。
漢字筆畫抽取是研究漢字信息處理的一個重要課題,已有許多研究者做了大量卓有成效的工作。這些工作可以分為兩大類①通過細化抽取筆畫([1].L.Lam,et al,Thinning Methodologies-A comprebensive Survey,IEEE Transac-tions on PAMI,1992,14(9),869-885)。[2].B.Li and C.Y.Suen,A Knowledge-based Thinning Algorithm,Patten Recognition,1991,24(2),1211-1221.[3]吳佑壽,丁曉青,漢字識別的原理與方法,高等教育出版社,1992);②直接抽取筆畫([4].C.T.Chuang and L.Y.Tseng,A stroke Extraction Method for Multi-font Chinese Characters Based on the Reduced Special Interval Graph,IEEETransactions on SMAC,1995,25(7),1171-1178。[5]吳智彪,夏瑩,孫承鑑,用快速合併輪廓線的方法抽取手寫印刷體漢字筆畫段,中文信息學報,1989,3(3),59-62。[6]Y.Y.Tang,et al,Off-line Recognition of Chinese Handwriting byMulti-feature and Multilevel Classification,IEEE Transactions on PAMI,1998,20(5),556-561。[7]H.-P Chiu,D.-C.Tseng,A Novel Stroke-basedFeature Extraction for Handwritten Chinese Character Recognition,Pat ternRecognition,1999,32,1947-1959)。第二類方法可以克服第一類方法的某些不足,速度也比較快。但是,因為漢字結構複雜,不同字體間筆畫變化很大,上述方法都難以準確地抽取漢字筆畫,即正確率比較低。
本發明的目的在於提供一種正確率高、速度快的漢字筆畫抽取方法及其相應的自動抽取裝置。
縱觀前人所做的工作,並考慮到人對漢字的認識過程,我們認為只有充分考慮漢字的結構,引入更多的漢字結構知識,才能更好地解決漢字處理中存在的問題。因此,本發明提出了一種完全基於漢字結構知識的漢字筆畫提取方法,即採用表示漢字的二值圖象(f(x,y))以及水平極線段和垂直極線段描述漢字筆畫結構,並將漢字基本筆畫確定為橫、豎、撇、捺4種,從而建立相應的漢字不同筆畫的提取方法。
為方便敘述,我們先對本發明涉及的記號和概念分別給予說明。
f(x,y)表示漢字的二值圖像,如果f,(x,y)=1,表示在(x,y)點圖像為黑像素,如果f(x,y)=0,表示在(x,y)點沒有像素(或為白像素)。
水平極線段h(x,y,rh)表示漢字圖像f(x,y)中從點(x,y)到點(x+rh,y)之間的一段連續的長度為rh的水平黑線,滿足f(x-1,y)=0,f(x+i,y)=1(當0≤i≤rh),f(x+rh+1,y)=0。
垂直極線段v(x,yrv)表示漢字圖像f(x,y)中從點(x,y)到點(x,y+rv)之間的一段連續的長度為rv的垂直黑線,滿足f(x,y-1)=0,f(x,y+i)=1(當0≤i≤rv),f(x,y+rv+1)=0。
在不引取混淆的情況下,它們可分別簡記為h(x,y,),v(x,y)。下面給出與水平極線段、垂直極線段相關的線段概念。
對於給定水平極線段h(x,y,rh),h(x1,y1,rh1),如果x1≤x+rh,x1+rh1≥x,y1=y-1,則稱h(x1,y1,rh1)是h(x,y,rh)的上鄰極線段,h(x,y,rh)是h(x1,y1,rh1)的下鄰極線段。
若存在極線段序列h(x1,y1),…,,h(xn,yn)使得h(xi+1,yi+1)是h(xi,yi)的上鄰極線段(1≤i≤n)則稱h(xn,yn)是h(x1,y1)的上連通極線段,h(x1,y1)是h(xn,yn)的下連通極線段。若各極線段長度大於a,則相應地稱它們為長度大於a的上(下)連通極線段。
同樣,可以定義左鄰極線段、右鄰極線段、左連通極線段、右連通極線段等。
為了加深對上述概念的理解,我們通過實例予以說明。如圖1、圖2和圖3所示,h3、h4、h5、h6都是漢字「殺」的水平極線段,h3、h4是h5的上鄰極線段,h6是h5的下鄰極線段,h3、h4是h6的上連通極線段,h6是h3、h4的下連通極線段。v2、v3、v4、v5、v6都是漢字「殺」的垂直極線段,v2、v3、v4都是v5的左鄰極線段,v6是v5的右鄰極線段,v2、v3、v4都是v6、v7的左連通極線段,v6、v7是v2、v3、v4的右連通極線段。
儘管漢字筆畫較多,本發明約定漢字最基本的筆畫為4種橫、豎、撇、捺,其他筆畫可以由這4種基本筆畫表達出來。
下面具體介紹各種漢字筆畫抽取方法。
方法1筆畫橫的抽取。
通過對漢字結構進行深入細緻的分析,我們發現筆畫橫應當滿足下述條件(1)橫筆畫有一定長度,而且與它的上鄰極線段相比,長度應有一定跳躍;(2)兩條以上筆畫交叉處的極線段有可能滿足(1),應避免將其誤認為是橫;(3)在橫的兩端會有一些修飾該橫的短線,應避免其影響橫的抽取。
據此,筆畫橫的抽取方法如下設h(x,y,rh)是漢字的一條水平極線段,它有n條長度大於0的上鄰極線段h(x1,y-1,rh1),…,h(xn,y-1,rhn),令run=
,則(1)當n>1,且rh-run·Ch0≥lh0時,h(x,y,rh)可以形成橫筆畫;(2)當n=0,且rh≥lh0時,h(x,y,rh)可以形成橫筆畫;(3)當n=1,且rh-run1·Ch1≥lh0時,h(x,y,rh)可以形成橫筆畫,其中,當rh1≤lh2,且0≤x1-x≤lh3或|x1+rh1-(x+rh)|≤lh3時,run1=0,否則,run1=rh1。
其中,lh0是預設的橫筆畫的最小長度,lh2是預設的噪音極線段的最大長度,lh3是預設的控制上鄰極線段端點與本極線段端點距離的最大值。Ch0,Ch1是預設的長度放大係數。
橫的抽取實例如預先假定lh0=7,lh2=4,lh3=2,Ch0=0.9,Ch1=1.4,考慮圖1所示「殺」的水平極線段。
h5有2條上鄰極線段h3、h4,從圖1知h5、h4、h3的長度分別是9、4、5,按方法1,rh-run·Ch0=9-(4+5)*0.9=0.9<lh0,故h5不是橫筆畫,這樣就排除了處於撇和捺相交處的極線段被誤認為橫的可能。
h13有1條上鄰極線段h12,從圖1知h13,h12的長度分別是16、6,按方法1,run1=6,rh-run1·Ch1=16-6*1.4=7.6>lh0,故h13可以形成橫筆畫。
方法2筆畫豎的抽取通過對漢字結構進行深入細緻的分析,我們發現豎應當滿足下述條件(1)豎筆畫有一定長度,而且與其左鄰極線段相比,長度應有一定跳躍;(2)兩條以上筆畫交叉處的極線段有可能滿足1),應避免將其誤認為是豎;(3)在豎的兩端會有一些修飾該豎的短豎線,應避免其影響豎的抽取。
據此,筆畫豎的抽取方法如下設v(x,y,rv)是漢字的一條垂直極線段,它有n條長度大於0的左鄰極線段v(x-1,y1,rv1),…,v(x-1,yn,rvn),令run=
如果存在一個rvi>lv2,則令C=1,否則,C=0。有
(1)當C=1,且rv-run·Cv1≥lv0時,v(x,y,rv)可以形成豎筆畫;(2)當C=0,且rv-run·Cv0≥lv0時,v(x,y,rv)可以形成豎筆畫。
其中,lv0是預設的豎筆畫的最小長度,lv2是預設的豎筆畫的左上端和右上端可能的噪音極線段的最大長度,Cv0、Cv1是兩個預設的長度放大係數。
豎的抽取實例如預先假定lv0=7,lv2=4,Cv0=0.9,Cv1=1.4,考慮圖2所示「殺」的垂直極線段。
v11有1條左鄰極線段v10,從圖2知v11、v10的長度分別是9、7,因v10的長度大於lv2,按方法2,C=1,rv-tun·Cv1=9-7*1.4=-0.8<lv0,故v11不是豎筆畫,這樣就排除了處於撇和捺相交處的垂直極線段被誤認為豎的可能。
v5有3條左鄰極線段v2、v3、v4,從圖2知v5、v2、v3、v4的長度分別是34、4、1、9,因v4的長度大於lv2,按方法2,C=1,rv-run·Cv1=34-(4+1+9)*1.4=14.4>lv0,故v1可以形成豎筆畫。
方法3斜筆畫撇、捺的抽取筆畫撇和捺具有下述結構特點(1)撇的方向靠左,捺的方向靠右;(2)撇或捺與其他筆畫交叉時允許在一定程度上改變方向,但有限度。
因此,斜筆畫撇和捺的抽取方法如下從沒有被其他筆畫所標記的極線段中選取長度大於0的極線段作為斜筆畫的起點。斜筆畫的抽取是從上至下尋找下鄰水平極線段。當斜筆畫的方向確定後,假定斜筆畫的起點極線段為h(x0,y0,rh0),當前極線段為h(xi,yi,rhi),則(1)若斜筆畫的方向為撇a.如果它的下鄰極線段條數大於等於2,則取使x最小的而且沒有被其他筆畫標記的那根極線段,記為h(xi+1,yi+1,rhi+1)。
b.當xi+1<xi而且h(xi+1,yi+1,rhi+1)沒有被橫筆畫標記時,令x′=xi+1。
c.當xi+1>xi時,要計算當前跨度與目前該撇筆畫的最大跨度之比sr=(xi+1-x′)/(x0-x′)。當此值小於預先給定的閥值sr0時,可繼續抽取,否則抽取結束,並將終止極線段退回到本次使xi開始增大的極線段的上鄰極線段。
(2)若斜筆畫的方向為捺a.如果它的下鄰極線段條數大於等於2,則取使x最大的而且沒有被其他筆畫標記的那根極線段,記為h(xi+1,yi+1,rhi+1)。
b.當xi+1<xi而且h(xi+1,yi+1,rhi+1)沒有被橫筆畫標記時,使計數器sl開始計數,當xi+1>xi時,使計數器sl清零。
c.當sl小於預先給定的閥值sl0時,可繼續抽取,否則抽取結束,並將終止極線段退回到本次使xi開始減小的極線段的上鄰極線段。
(3)當斜筆畫通過橫筆畫時,極線段的起點和長度仍與通過橫筆畫前相同。斜筆畫在其他(豎、撇、捺)筆畫已標記的線段上一次連續通過的次數有一定的限制,斜筆畫的終點極線段不能是橫、豎所標記的極線段。
撇(捺)的抽取實例如預先假定sr0=2/3,sl0=5,考慮圖1所示「殺」的水平極線段。
h1開始可形成撇,當下連通至h5時,它的下鄰極線段h6對應的x比h5對應的x大,應求出跨度比sr=2/12<sr0,故可繼續抽取,當下連通至h9時,它有2條下鄰極線段h10和h11,按方法3,應選h10,並繼續。這樣撇就順利通過了交叉點。
h2開始可形成捺,當下連通至h7時,它對應的x比它的下鄰極線段h8對應的x小,應開始對sl計數,sl=1<sl0,故可繼續抽取,h8的下鄰極線段為h9,h8對應的x比它的下鄰極線段h9對應的x小,sl=sl+1=2<sl0,故還可繼續抽取。但h9有2條下鄰極線段h10和h11,按方法3,應選h11。h11對應的x比它的上鄰極線段h10對應的x大,故使計數器sl清零並繼續。這樣捺也順利通過了交叉點。
方法1(方法2)在抽取橫(豎)時,可能會將某些應當歸為橫(豎)的筆畫漏掉,其原因是有些短的水平(垂直)極線段其長度接近預定的橫(豎)長度,而且它又有至少兩條上(左)鄰極線段。我們通過分析漢字的點陣結構和實驗結果發現,當(1)這兩條上(左)鄰極線段的端點完全包含在本極線段內,(2)而且這兩條上(左)鄰極線段又相隔一定的距離時,該極線段可以形成橫(豎)筆畫。因此,可得下述短橫(豎)抽取方法。
方法4筆畫短橫的抽取設h(x,y,rh)是漢字的一條水平極線段,其長度rh接近lh0。如果它的長度大於0的上鄰極級段中存在兩極線段h(xi,y-1,rhi),h(xj,y-1,rhj)滿足1)xi≥x,xi+rhi≤x+rh,xi≥x,xj+rhj≤x+rh2)xi-(xi+rhi)≥4則h(x,y,rh)可以形成橫筆畫。
方法5筆畫短豎的抽取設v(x,y,rv)是漢字的一條垂直極線段,其長度rv接近lv0。如果它的長度大於0的左鄰極線段中存在兩級線段v(x-1,yi,rvi),v(x-1,yi,rvj)滿足
1)yi≥y,yi+rvi≤y+rv,yj≥y,yj+rvj≤y+rv2)yj-(yi+rvi)≥3則v(x,y,rv)可以形成豎筆畫。
方法6橫筆畫的形成當找到一條可以形成橫筆畫的極線段h(x,y,rh)後,找出與h(x,y,rh)上連通或下連通的長度大於lh1的所有極線段,設這些極線段(包括h(x,y,rh))為h(x1,y1,rh1),…,h(xn,ynn,rhn)。如果n≥wh0(一預定值),則這些極線段一起組成橫筆畫。當橫形成後,作下述工作1)將所有這些極線段標記為橫。
2)將該筆畫的噪音極線段標記為橫(見方法7)。
方法7去除橫線段周圍噪音設h(xi,yi,rhi)是組成某一橫筆畫的任一極線段,如果它的上連通極線段中,除去組成橫的極線段外,其數量小於等於某一預定wh1,則這些不是組成橫的極線段為噪音。同樣,如果它的下連通極線段中去除那些組成該橫的極線段外,其數量小於這一預定值wh1,這些不是組成橫的極線段為噪音。
橫筆畫的形成與噪音去除方法實例如預先假定lh1=6,wh0=1,wh1=3,考慮圖1所示「殺」的水平極線段。
從方法1後的實例知h13可以形成橫筆畫,h14,h15,h16,h17,h18是它的下連通的長度大於lh1的水平極線段,按方法6,他們一起組成橫筆畫。h13有1條上連通的長度不大於lh1的水平極線段h12,因這些極線段的條數小於wh1,按方法7,h12為噪音。另外,在該橫的左下方有一條長度為3的水平極線段h20,它通過組成該橫筆畫的4條長度大於lh1的水平級線段h18,h16,h15,h14與h6連通,儘管這些極線段的條數大於wh1,但去除這些組成該橫的極線段外,其數量為1小於預定值wh1,故該極線段也為噪音。
方法8豎筆畫的形成當找到一條可以形成豎筆畫的極線段v(x,y,rv)後,打出與v(x,y,rv)左連通或右連通的長度大於lv1的所有極線段,設這些極線段(包括v(x,y,rv))為v(x1,y1,rv1),…,v(xn,yn,rvn)。如果n≥wv0,則這些極線段一起組成豎筆畫。當豎筆畫形成後,作下述工作(1)確定該豎的噪音垂直極線段(見方法9);(2)在水平極線段中對組成該豎的垂直極線段與噪音極線段作出標記(見方法10)。
方法9去除豎線段周圍噪音設v(xi,yi,rvi)是組成某一豎筆畫的任一極線段,如果它的左連通極線段中,除去組成豎的極線段外,其數量小於等於某一預定值wv1,則這些不是組成豎的極線段為噪音。同樣,如果它的右連通極線段中去除那些組成該豎的極線段外,其數量小於這一預定值wv1,則這些不是組成豎的極線段為噪音。
方法10在水平極線段中對豎作出標記設組成該豎筆畫的所有極線段與它的所有噪音極線段為v(x1,y1,rv1),…,v(xn,yn,rvn),令
,則對任一水平極線段h(x,y,rh),如滿足lx≤x≤mx,lx≤x+rh≤mx,ly≤y≤my且h(x,y,rh)與某v(xi,yi,rvi)相交,則將h(x,y,rh)標記為豎。
豎筆畫的形成與噪音去除方法實例如預先假定lv1=6,wv0=1,wv1=3,將方法8、9、10應用到圖2。
從方法2後的實例知v5可能形成豎筆畫,v6、v7是v5的長度大於lv1的右連通的垂直極線段,v4是v5的長度大於lv1的左連通的垂直極線段,按方法8,它們一起組成豎筆畫。v1、v2與v5左連通,長度小於1v1,且其條數小於wv1,按方法9,v1、v2為噪音。同樣,v8為噪音。但是,因v3及它的左連通的垂直極線段條數大於wv1,按方法9,v3不是噪音。同樣v0、v9也不是噪音。因此,按方法10,與v1,v2,v4,v5,v6,v7,v8對應的所有水平極線段應標記為該豎(所有被標記的水平極線段如圖3所示)。
經過反覆測試研究,上述方法1-10中,各項預選參數可以取下述數值lh0=7,lh2=4,lh3=2,Ch0=0.9,Ch1=1.4,lv0=7,lv2=4,cv0=0.9,cv1=1.4,sr0=2/3,sl0=5,lh1=6,wh0=1,wh1=3,lv1=6,wv0=1,wv1=3。
相應於上述方法,本發明還提出了漢字筆畫自動抽取裝置(亦稱抽取器)。該裝置由TIF圖象文件讀取器、TIF圖象文件分析器、特徵參數生成器、筆畫自動抽取控制卡、筆畫生成器組成。其結構框圖如圖4所示。
漢字有各種字體,如宋體、仿宋體、黑體、楷體、隸體等,不同的字體由不同的筆畫特徵參數表示。量化了各種字體的筆畫特徵參數和本筆畫抽取方法中的預設參數固化於筆畫自動抽取控制卡中。特徵參數生成器可以從自動抽取控制卡中讀取這些參數,筆畫生成器再根據特徵參數生成器提供的參數抽取筆畫。筆畫生成器由前述的筆畫抽取方法形成的軟體組成。TIF圖象文件讀取器和TIF圖象文件分析器的主要作用是將由掃描儀或其他方式生成的TIF圖象文件解碼,生成像素文件,存於磁碟上或內存中。
本發明中自動抽取控制卡電原理圖如圖5所示。它由核心晶片U8、與非反向器U1、反向器U2、v3、解碼器U4、雙向緩衝器U5、三態緩衝器U6、U7經電路連接組成。該卡除了存儲工作參數及各字體筆畫特徵參數外,還可防止系統被盜用。軟體只有檢測到此卡存在時,才能正常工作。其中,U8是28C64B晶片,它是此卡的核心晶片,其容量為8K×8,引腳數為28。它主要是用來寫入/讀出本筆畫抽取器所需的參數和一些特殊的環境參數。其他的部件都是為28C64B晶片服務。其中,U1(74LS02)為與非反向器,U2、U3(74LS04)為反向器,U4(74LS30)為解碼器。U1、U2、U4的主要作用是為U8提供讀/寫/片選信號,並使之正常的工作。片選信號(U8的CE端由下列地址決定CE=A19·A18·A17·A16·A15·A14·A13因此,存儲器的首地址應為A0000。
U5(74LS245)為雙向緩衝器,它的作用是隔離、緩衝和傳送數據(D0~D7)。U6、U7(74LS244)為三態緩衝器,其作用是緩衝、放大地址信號(A0~A12)。
其中,晶片28C64B的結構框圖如圖6所示,28C64B的引腳圖如圖7所示。28C64B引腳功能和工作方式分別見下表1和表2。
表1
表2
(1)lh0,lh2,lh3,Ch0,Ch1;(2)lv0,lv2,Cv0,Cv1;(3)sr0,sl0;(4)lh1,wh0,wh1;(5)lv1,wv0,wv1這些預設參數存儲於抽取控制卡的存儲器中,其存儲單元對應的物理地址分配見下表3。從A0100H開始,每20H個單元存儲一種字體的筆畫抽取參數。
表3
本發明提出的筆畫自動抽取裝置的工作流程如圖10所示。
利用本發明提出的筆畫抽取方法和自動抽取器,抽取了中國國家標準漢字庫(GB2312-80)中規定的6763個一級、二級漢字的筆畫,從這6763個漢字的不同字體抽取情況看,對宋體、仿宋體、黑體字的抽取正確率達到99.7%以上,對楷體、隸體的抽取正確率達到99.5%以上。與已有的漢字筆畫抽取方法相比,本發明較好地解決了各筆畫的相交、相連及噪音排除等問題。它在漢字識別、跨平臺漢字信息傳輸及字體字形自動生成等漢字信息處理方面有重要作用。


圖1為描述水平極線段的圖例。
圖2為描述垂直極線段的圖例。
圖3為水平極線段中對豎作出標記的圖例。
圖4為漢字筆畫自動抽取裝置結構框圖。
圖5為圖4中自動抽取控制卡電原理圖。
圖6為圖5中晶片28C64B結構框圖。
圖7為晶片28C64B引腳圖。
圖8為漢字原形圖例。
圖9為對圖8中漢字抽取結果圖例。
圖10為筆畫自動抽取裝置工作流程圖。
實施例,利用本發明對一首詩「白日依山盡,黃河入海流,欲窮千裡目,更上一層樓」進行筆畫抽取,其漢字原形為楷體,見圖8,其抽取結果完全正確,見圖9。
權利要求
1.一種漢字筆畫抽取方法,其特徵在於採用表示漢字的二值圖象以及水平極線段和垂直極線段描述漢字筆畫結構,並將漢字基本筆畫確定為橫、豎、撇、捺4種,從而建立相應的漢字不同筆畫的抽取方法。
2.根據權利要求1所述的漢字筆畫抽取方法,其特徵在於筆畫橫的抽取方法如下設h(x,y,rh)是漢字的一條水平極線段,它有n條長度大於0的上鄰極線段h(x1,y-1,rh1),…,h(xn,y-1,rhn),令
,則(1)當n>1,且rh-run·Ch0≥lh0時,h(x,y,rh)可以形成橫筆畫;(2)當n=0,且rh≥lh0時,h(x,y,rh)可以形成橫筆畫;(3)當n=1,且rh-run1·Ch1≥lh0時,h(x,y,rh)可以形成橫筆畫,其中,當rh1≤lh2,且0≤x1-x≤lh3或|x1+rh1-(x+rh)|≤lh3時,run1=0,否則,run1=rh1。其中,lh0是預設的橫筆畫的最小長度,lh2是預設的噪音極線段的最大長度,lh3是預設的控制上鄰極線段端點與本極線段端點距離的最大值。Ch0,Ch1是預設的長度放大係數。
3.根據權利要求1所述的漢字筆畫抽取方法,其特徵在於筆畫豎的抽取方法如下設v(x,y,rv)是漢字的一條垂直極線段,它有n條長度大於0的左鄰極線段v(x-1,y1,rv1),…,v(x-1,yn,rvn),令
,如果存在一個rvi>lv2,則令C=1,否則,C=0,有(1)當C=1,且rv-run·Cv1≥lv0時,v(x,y,rv)可以形成豎筆畫;(2)當C=0,且rv-run·Cv0≥lv0時,v(x,y,rv)可以形成豎筆畫;其中,lv0是預設的豎筆畫的最小長度,lv2是預設的豎筆畫的左上端和右上端可能的噪音極線段的最大長度,Cv0、Cv1是兩個預設的長度放大係數。
4.根據權利要求1所述的漢字筆畫抽取方法,其特徵在於斜筆畫撇、捺的抽取方法如下從沒有被其他筆畫所標記的極線段中選取長度大於0的極線段作為斜筆畫的起點,斜筆畫的抽取是從上至下尋找下鄰水平極線段,當斜筆畫的方向確定後,假定斜筆畫的起點極線段為h(x0,y0,rh0),當前極線段為h(xi,yi,rhi),則(1)若斜筆畫的方向為撇a.如果它的下鄰極線段條數大於等於2,則取使x最小的而且沒有被其他筆畫標記的那根極線段,記為h(xi+1,yi+1,rhi+1);b.當xi+1<xi而且h(xi+1,yi+1,rhi+1)沒有被橫筆畫標記時,令x′=xi+1;c.當xi+1>xi時,要計算當前跨度與目前該撇筆畫的最大跨度之比sr=(xi+1-x′)/(x0-x′),當此值小於預先給定的閥值sr0時,可繼續抽取,否則抽取結束,並將終止極線段退回到本次使xi開始增大的極線段的上鄰極線段;(2)若斜筆畫的方向為捺a.如果它的下鄰極線段條數大於等於2,則取使x最大的而且沒有被其他筆畫標記的那根極線段,記為h(xi+1,yi+1,rhi+1);b.當xi+1<xi而且h(xi+1,yi+1,rhi+1)沒有被橫筆畫標記時,使計數器sl開始計數,當xi+1>xi時,使計數器sl清零;c.當sl小於預先給定的閥值sl0時,可繼續抽取,否則抽取結束,並將終止極線段退回到本次使xi開始減小的極線段的上鄰極線段;(3)當斜筆畫通過橫筆畫時,極線段的起點和長度仍與通過橫筆畫前相同,斜筆畫在其他(豎、撇、捺)筆畫已標記的線段上一次連續通過的次數有一定的限制,斜筆畫的終點極線段不能是橫、豎所標記的極線段。
5.根據權利要求1所述的漢字筆畫抽取方法,其特徵在於,設h(xi,yi,rhi)是組成某一橫筆畫的任一極線段,如果它的上連通極線段中,除去組成橫的極線段外,其數量小於等於某一預定wh1,則這些不是組成橫的極線段為噪音;同樣,如果它的下連通極線段中去除那些組成該橫的極線段外,其數量小於這一預定值wh1,這些不是組成橫的極線段為噪音。
6.根據權利要求1所述的漢字筆畫抽取方法,其特徵在於,設v(xi,yi,rvi)是組成某一豎筆畫的任一極線段,如果它的左連通極線段中,除去組成豎的極線段外,其數量小於等於某一預定值wv1,則這些不是組成豎的極線段為噪音;同樣,如果它的右連通極線段中去除那些組成該豎的極線段外,其數量小於這一預定值wv1,則這些不是組成橫的極線段為噪音。
7.根據權利要求2所述的漢字筆畫抽取方法,其特徵在於當找到一條可以形成橫筆畫的極線段h(x,y,rh)後,找出與h(x,y,rh)上連通或下連通的長度大於lh1的所有極線段,設這些極線段(包括h(x,y,rh))為h(x1,y1,rh1),…,h(xn,ynn,rhn),如果n≥wh0(一預定值),則這些極線段一起組成橫筆畫。
8.根據權利要求3所述的漢字筆畫抽取方法,其特徵在於當找到一條可以形成豎筆畫的極線段v(x,y,rv)後,打出與v(x,y,rv)左連通或右連通的長度大於lv1的所有極線段,設這些極線段(包括v(x,y,rv))為v(x1,y1,rv1),…,v(xn,yn,rvn),如果n≥wv0,則這些極線段一起組成豎筆畫。
9.一種漢字筆畫自動抽取裝置,其特徵在於它由TIF圖象文件讀取器、TIF圖象文件分析器、特徵參數生成器、筆畫自動抽取控制卡、筆畫生成器組成,量化了的各種字體的筆畫特徵參數和筆畫抽取方法中的預設參數固化於筆畫自動抽取控制卡中,筆畫生成器由筆畫抽取方法軟體構成;特徵參數生成器從自動抽取控制卡中讀取特徵參數,筆畫生成器再根據特徵參數生成器提供的參數抽取筆畫。
10.根據權利要求9所述的漢字筆畫自動抽取裝置,其特徵在於筆畫自動抽取控制卡由核心晶片28C64B以及與非反向器U1,反向器U2、U3,解碼器U4,雙向緩衝器U5,三態緩衝器U6、U7經電路連接組成。
全文摘要
本發明屬信息技術領域,是一種完全基於漢字結構知識的漢字筆畫自動攝取方法及其裝置。它以橫、豎、撇、捺作為漢字最基本筆畫,採用表示漢字的二值圖象及其有關級線段描述漢字筆畫,從而建立對應的抽取方法,並提出了相應於該方法的筆畫自動抽取裝置。本發明較好地解決了各漢字筆畫相交、相連及噪音的排除問題,提取的速度快,正確率高,達到99.5%以上。本發明在漢字識別、跨平臺漢字信息傳輸及字體字形自動生成等漢字信息處理方面有重要作用。
文檔編號G06F17/00GK1271913SQ0011565
公開日2000年11月1日 申請日期2000年5月11日 優先權日2000年5月11日
發明者孫星明, 胡運發 申請人:復旦大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀