新四季網

殘缺印刷體數字字符的識別方法

2023-04-28 22:03:16

專利名稱:殘缺印刷體數字字符的識別方法
技術領域:
本發明涉及的是一種文字識別方法,特別是一種殘缺印刷體數字字符的識別方法。用於圖像識別領域。
背景技術:
近年來文字識別技術廣泛運用於各個工程領域,文字識別的研究業取得了巨大的成就,印刷體的文字識別正確率高達99%。但是,實際應用中存在著部分殘缺的字符,殘缺字符和完整字符混合在一起,給文字識別造成了困難。
經文獻檢索發現,Pasquale Foggia等人在《Image and Vision Computing》(1999,17(9),701-711.)(《圖像與視覺計算機》)上發表的「Combining statisticaland structural approaches for handwritten character description」(「統計與結構方法相結合的手寫體字符描述」),該文中所提出的方法,先先從手寫體字符中提取結構基元,然後用統計的方法對結構基元進行特徵描述,最後採用神經網絡進行手寫體識別。
該文涉及的技術主要存在以下缺陷和不足(1)算法僅適用於手寫體的文字識別,雖然能有效克服手寫體的字符變形,但對於殘缺字符的變形無能為力;(2)殘缺字符的筆畫丟失會減少字符原有的結構基元;(3)殘缺字符的筆畫丟失同時還會改變字符原本的結構基元,使得用統計方法對基元特徵進行描述的時候發生畸變;(4)神經網絡的識別方法必須事先確定輸入特徵向量的維數,但殘缺字符的殘缺程度不同會影響特徵向量的維數。

發明內容
本發明的目的在於克服現有文字識別技術中的不足,提供一種殘缺印刷體數字字符的識別方法,使其能夠對殘缺的印刷體數字字符進行準確的識別。
本發明是通過以下技術方案實現的,本發明方法如下先將整個字符輪廓分解為上、下、左和右四個局部輪廓,並用圖像邊框到字符輪廓的輪廓像素點的位置坐標集合表示輪廓。分別對上、左和右的輪廓輪廓像素點的位置坐標進行一次離散微分,根據一次離散微分分析輪廓曲線的趨勢變化,定義5個結構集元,包括豎直(V)、左斜(L)、右斜(R)、圓弧(C)和突變(P),並從剩餘的上、左和右輪廓中提取集元結構特徵。此外,利用左右輪廓統計字符的寬度(W),利用上下輪廓統計字符高度(H),最後在0.5H範圍內統計筆畫數目。字符的輪廓結構特徵和統計特徵相結合,為數字字符建立模型後,採用結構語句識別方法殘缺數字字符。
雖然底部殘缺的數字字符由於丟失了底部的重要筆畫,使得字符失去了許多特徵,同時也使得部分特徵變得不穩定,給文字識別造成了很大的困難。但是當字符的殘缺部分不超過原有字符的0.5H時,人眼依然能夠準確地識別出來。這說明殘缺的字符依然保留有足夠的殘餘特徵。提取這些殘留的穩定特徵,採用合理的識別策略既能實現底部殘缺數字字符的識別。
以下對本發明方法作進一步的說明,方法步驟如下(1)字符輪廓分解將字符的整體輪廓分解為頂部、底部、左側和右側四個方向的輪廓特徵來描述。使得底部輪廓的缺損時,不至於影響到頂部特徵,而且也可以從左右兩側的輪廓特徵中提取部分有價值的信息。
左側輪廓(LP(k),k=1,2,…M)定義為字符最左側邊界像素點的水平方向坐標值。
LP(i)=min{x|P(x,y)∈C,y=i}i=1,2…M(1)式中P(x,y)表示圖像中坐標為(x,y)的像素點,C表示字符像素點的集合。同理,右側輪廓(RP(k),k=1,2,…M)定義為字符最右側邊界像素點的水平方向坐標值。
RP(i)=max{x|P(x,y)∈C,y=i}i=1,2…M(2)相應地,頂部輪廓(TP(k),k=1,2,…N)定義為字符最高邊界像素點的垂直方向坐標值。底部輪廓(BP(k),k=1,2,…N)定義為字符最低邊界像素點的垂直方向坐標值。
TP(j)=min{y|P(x,y)∈C,x=j}j=1,2…N(3)
BP(j)=max{y|P(x,y)∈C,x=j}j=1,2…N(4)(2)輪廓一階離散微分為了描述輪廓的變化特徵,定義四個方向輪廓的一階微分LPD=LP(i+1)-LP(i)RPD=RP(i+1)-RP(i)(5)TPD=TP(j+1)-TP(j)BPD=BP(j+1)-BP(j)式中i=1,2,…M-1,j=1,2,…N-1。
(3)各輪廓上的結構集元特徵提取根據字符輪廓的變化趨勢定義構成字符輪廓的基本基元。基本基元共有5個分別為豎直(V)、左斜(L)、右斜(R)、圓弧(C)和突變(P)。定義上述基本基元(a)豎直定義假設SL,SV和SR分別表示某側輪廓一階微分值大於零,等於零和小於零的個數,若SR=0,SL=0,則為結構V。
(b)左斜定義假設SL,SV和SR分別表示某側輪廓一階微分值大於零,等於零和小於零的個數,若SR=0,SL大閾值LT,則為結構L。
(c)右斜定義假設SL,SV和SR分別表示某側輪廓一階微分值大於零,等於零和小於零的個數,若SL=0,SR大閾值RT,則為結構R。
(d)圓弧定義假設SL,SV和SR分別表示某側輪廓一階微分值大於零,等於零和小於零的個數,若SR大於閾值RT,SL大閾值LT,則為結構C。
(e)突變連續的字符輪廓,其一階微分值的變化量比較小,而當字符輪廓發生突變時,其一階微分值相對較大。因此,定義當輪廓的一階微分值超過閾值PT時則字符輪廓有突變,即為結構P。結構P將字符輪廓分成幾條連續的曲線,各條曲線各自獨立地提取結構特徵。
根據上述定義,考慮到字符輪廓上存在的幹擾像素點,採用閾值技術檢測集元假設PD(k)表示某側輪廓的一階微分,k=1,2,…K,SL,SV和SR分別為檢測到的PD(k)大於零,等於零和小於零的個數,PT、RT和LT為正整數,則若|PD(k)|>=PT,則在k處檢測到結構突變(P);檢測到突變結構P的有效範圍在x∈[ST,N-ST+1],y∈[ST,M-ST+1],其中ST表示字符筆劃的寬度。這主要是為了避免幹擾嚴重情況下,輪廓邊緣光滑處理不夠理想時,可能檢測到的假突變基元。
若SL<LT,SR<RT,則檢測到結構為豎直(V);若SL>LT,SR<RT,則檢測到結構為左斜(L);若SL<LT,SR>RT,則檢測到結構為右斜(R);若SL>LT,SR>RT,則檢測到結構為圓弧(C)。
左右兩側輪廓上檢測到的集元按照從上到下的順序保存在各自的向量組LS和RS中;頂部檢測到集元按從左到右的順序保存在另一個向量組TS中。頂部輪廓上,TS(i)表示頂部輪廓結構集元的向量組的第i個結構集元,Tn表示頂部輪廓共有的集元數目;左側輪廓上,LS(i)表示左側輪廓結構集元的向量組的第i個結構集元,Ln表示左側輪廓共有的集元數目;右側輪廓上,RS(i)表示右側輪廓結構集元的向量組的第i個結構集元,Rn表示右側輪廓共有的集元數目。
(4)輪廓的統計特徵採用上述的結構基元還不足以準確識別殘缺和完整的數字,引入與結構特徵具有較強互不性的輪廓統計特徵。
(a)字符高度與最大字符寬度Wmax之比字符的最大寬度為Wmax=maxk{RP(k)-LP(k)}---(6)]]>單個字符的高度為h=maxl{TP(l)-BP(l)}---(7)]]>
實際應用中,殘缺字符與完整字符混合在一起,而且數量相對較少。因此,雖然底部殘缺致使殘缺字符的高度無法準確估計,但是在同一文字區域內,字符大小的固定的,其高度接近相等,可以採用單個字符高度的中值濾波估計字符高度,H=med{h1,h2,…hm)(8)m是文字區域內的字符總數。
字符的高寬比為Ratio=H/Wmax(9)該特徵主要用於識別數字1。當Ratio≥2.5,即為數字1。
(b)垂直方向的筆劃數在字符0.5H的範圍內,自上而下掃描每列像素點的筆畫數目,取筆畫數目的最大值Smax。該特徵主要用於區別數字0和8,當Smax2≥2時,為字符8;否則為字符0。
(5)建立10個數字字符的模型10個數字字符的模型如下所示「0」字符的模型Ratio≥2.5,TS(1)=C,Size(LS)=Size(RS)=1,Smax<2「1」字符的模型Ratio<2.5「2」字符的模型Ratio≥2.5,TS(1)=C,LS(1)≠C,LS(Ln-1)=P,LS(Ln)=L「3」字符的模型Ratio≥2.5,TS(1)=C,LS(1)≠C,P∈LS,LS(Ln)≠L;or Ratio≥2.5,TS(1)=V,RS(1)=C「4」字符的模型Ratio≥2.5,TS(1)=L,RS(1)=V「5」字符的模型Ratio≥2.5,V∈TS,P∈RS;「6」字符的模型Ratio≥2.5,TS(1)=C,P∈RS,Size(LS)=1;or Ratio≥2.5,TS(1)=L,VRS]]>「7」字符的模型Ratio≥2.5,TS(1)=V,P∈LS,Size(RS)=1;「8」字符的模型Ratio≥2.5,TS(1)=C,Size(LS)=Size(RS)=1,Smax≥2「9」字符的模型Ratio≥2.5,TS(1)=C,LS(1)=C,LS(2)=P
(6)採用結構語句識別方法識別殘缺數字字符採用結構語句識別方法,將目標文字上提取的結構特徵和統計特徵,按照已定義的數字字符模型,與模型匹配,實現殘缺數字字符的文字識別。
本發明克服了由於數字字符底部筆畫丟失而導致字符無法識別的問題,而且對完整的數字字符也能實現準確識別。該文字圖象分割方法具有如下優點(1)從底部殘缺的數字字符中,從頂部、左右兩邊的輪廓中提取結構基元和輪廓統計的殘餘特徵。(2)根據上述特徵,建立數字字符的結構模型。(3)能準確識別底部殘缺的數字字符。(4)同時,對於完整的數字字符也能實現準確識別,提高了識別算法對字符筆畫丟失、變形的可靠性和識別準確率。


圖1輪廓定義示意2五個結構集元示意圖具體實施方式
如圖1所示,為本發明輪廓定義示意圖,其中將字符的整體輪廓分解為頂部、底部、左側和右側四個方向的輪廓特徵來描述。使得底部輪廓的缺損時,不至於影響到頂部特徵,而且也可以從左右兩側的輪廓特徵中提取部分有價值的信息。
左側輪廓(LP(k),k=1,2,…M)定義為字符最左側邊界像素點的水平方向坐標值。
LP(i)=min{x|P(x,y)∈C,y=i}i=1,2…M式中P(x,y)表示圖像中坐標為(x,y)的像素點,C表示字符像素點的集合。同理,右側輪廓(RP(k),k=1,2,…M)定義為字符最右側邊界像素點的水平方向坐標值。
RP(i)=max{x|P(x,y)∈C,y=i}i=1,2…M相應地,頂部輪廓(TP(k),k=1,2,…N)定義為字符最高邊界像素點的垂直方向坐標值。底部輪廓(BP(k),k=1,2,…N)定義為字符最低邊界像素點的垂直方向坐標值。
TP(j)=min{y|P(x,y)∈C,x=j}j=1,2…NBP(j)=max{y|P(x,y)∈C,x=j}j=1,2…N在圖書館藏書的索書號文字識別中,由於索書號貼在書脊上,受書脊空間限制的影響,當索書號由兩行或者兩行以上的字符串組成時,第二行的字符常會摺疊,在攝像頭拍攝得到圖像後,字符的底部便會丟失。這種字符的存在嚴重降低了索書號識別的正確率。
結合本發明方法的內容提供以下實施例,具體如下(1)將字符的整體輪廓分解為頂部、底部、左側和右側四個方向的輪廓特徵來描述,並用輪廓像素點的位置坐標進行表述。
(2)對各個輪廓進行一階離散微分計算。
(3)根據一階離散微分分析輪廓曲線變化趨勢,提取各個輪廓的結構集元,並建立相應的基元向量組。基元提取時的參數PT=6,LT=3,RT=3,ST=3。
(4)提取輪廓的統計特徵,包括字符的高寬比和0.5H範圍內的列方向上的最大筆畫數。
(5)根據上述的字符輪廓結構特徵和統計特徵,建立10個數字字符的模型。
(6)採用結構語句識別方法識別殘缺的數字字符。
採用上述方法對索書號中的殘缺數字字符進行識別,其正確率為91.8%,完整字符的識別正確率為97.6%,從而保證了索書號識別具有較高的正確率。
權利要求
1.一種殘缺印刷體數字字符的識別方法,其特徵在於,將整個字符輪廓分解為上、下、左和右四個局部輪廓,並用圖像邊框到字符輪廓的輪廓像素點的位置坐標集合表示輪廓,分別對上、左和右的輪廓像素點的位置坐標進行一次離散微分,根據一次離散微分分析輪廓曲線的趨勢變化,定義5個結構集元,包括豎直V、左斜L、右斜R、圓弧C和突變P,並從剩餘的上、左和右輪廓中提取集元結構特徵,此外,利用左右輪廓統計字符的寬度W,利用上下輪廓統計字符高度H,最後在0.5H範圍內統計筆畫數目,字符的輪廓結構特徵和統計特徵相結合,為數字字符建立模型後,採用結構語句識別方法殘缺數字字符。
2.根據權利要求1所述的殘缺印刷體數字字符的識別方法,其特徵是,以下對本發明的進一步的限定,包含以下步驟(1)字符輪廓分解,(2)輪廓一階離散微分,(3)各輪廓上的結構集元特徵提取,(4)輪廓的統計特徵提取,(5)建立數字字符的模型,(6)採用結構語句識別方法識別文字。
3.根據權利要求2所述的殘缺印刷體數字字符的識別方法,其特徵是,所述的輪廓分解,具體為左側輪廓定義為字符最左側邊界像素點的水平方向坐標值,右側輪廓定義為字符最右側邊界像素點的水平方向坐標值,相應地,頂部輪廓定義為字符最高邊界像素點的垂直方向坐標值,底部輪廓定義為字符最低邊界像素點的垂直方向坐標值。
4.根據權利要求2所述的殘缺印刷體數字字符的識別方法,其特徵是,所述的輪廓一階離散微分,具體為定義四個方向輪廓的一階微分LPD=LP(i+1)-LP(i)RPD=RP(i+1)-RP(i)TPD=TP(j+1)-TP(j)BPD=BP(j+1)-BP(j)式中i=1,2,…M-1,j=1,2,…N-1。
5.根據權利要求2所述的殘缺印刷體數字字符的識別方法,其特徵是,所述的各輪廓上的結構集元特徵提取,具體為假設PD(k)表示某側輪廓的一階微分,k=1,2,…K,SL,SV和SR分別為檢測到的PD(k)大於零,等於零和小於零的個數,PT、RT和LT為正整數,則若|PD(k)|>=PT,則在k處檢測到結構突變P;檢測到突變結構P的有效範圍在x∈[ST,N-ST+1],y∈[ST,M-ST+1],其中ST表示字符筆劃的寬度。若SL<LT,SR<RT,則檢測到結構為豎直V;若SL>LT,SR<RT,則檢測到結構為左斜L;若SL<LT,SR>RT,則檢測到結構為右斜R;若SL>LT,SR>RT,則檢測到結構為圓弧C;左右兩側輪廓上檢測到的集元按照從上到下的順序保存在各自的向量組LS和RS中;頂部檢測到集元按從左到右的順序保存在另一個向量組TS中,頂部輪廓上,TS(i)表示頂部輪廓結構集元的向量組的第i個結構集元,Tn表示頂部輪廓共有的集元數目;左側輪廓上,LS(i)表示左側輪廓結構集元的向量組的第i個結構集元,Ln表示左側輪廓共有的集元數目;右側輪廓上,RS(i)表示右側輪廓結構集元的向量組的第i個結構集元,Rn表示右側輪廓共有的集元數目。
6.根據權利要求2所述的殘缺印刷體數字字符的識別方法,其特徵是,所述的輪廓的統計特徵提取,具體為a.字符高度與最大字符寬度Wmax之比字符的最大寬度為Wmax=maxk{RP(k)-LP(k)}]]>單個字符的高度為h=maxl{TP(l)-BP(l)}]]>實際應用中,在同一文字區域內,字符大小是固定的,其高度接近相等,採用單個字符高度的中值濾波估計字符高度,H=med{h1,h2,…hm}m是文字區域內的字符總數;字符的高寬比為Ratio=H/Wmax該特徵主要用於識別數字1,當Ratio≥2.5,即為數字1;b.垂直方向的筆劃數在字符0.5H的範圍內,自上而下掃描每列像素點的筆畫數目,取筆畫數目的最大值Smax,該特徵主要用於區別數字0和8,當Smax2≥2時,為字符8,否則為字符0。
7.根據權利要求2所述的殘缺印刷體數字字符的識別方法,其特徵是,所述的建立數字字符的模型,具體為「0」字符的模型Ratio≥2.5,TS(1)=C,Size(LS)=Size(RS)=1,Smax<2「1」字符的模型Ratio<2.5「2」字符的模型Ratio≥2.5,TS(1)=C,LS(1)≠C,LS(Ln-1)=P,LS(Ln)=L「3」字符的模型Ratio≥2.5,TS(1)=C,LS(1)≠C,P∈LS,LS(Ln)≠L;or Ratio≥2.5,TS(1)=V,RS(1)=C「4」字符的模型Ratio≥2.5,TS(1)=L,RS(1)=V「5」字符的模型Ratio≥2.5,V∈TS,P∈RS;「6」即字符的模型Ratio≥2.5,TS(1)=C,P∈RS,Size(LS)=1or Ratio≥2.5,TS(1)=L,VRS]]>「7」字符的模型Ratio≥2.5,TS(1)=V,P∈LS,Size(RS)=1;「8」字符的模型Ratio≥2.5,TS(1)=C,Size(LS)=Size(RS)=1,Smax≥2「9」字符的模型Ratio≥2.5,TS(1)=C,LS(1)=C,LS(2)=P
8.根據權利要求2所述的殘缺印刷體數字字符的識別方法,其特徵是,所述的採用結構語句識別方法識別文字,具體為採用結構語句識別方法,將目標文字上提取的結構特徵和統計特徵,與模型匹配,實現文字識別。
全文摘要
一種殘缺印刷體數字字符的識別方法,用於圖像識別領域。方法如下先將整個字符輪廓分解為上、下、左和右四個局部輪廓,並用圖像邊框到字符輪廓的輪廓像素點的位置坐標集合表示輪廓,分別對上、左和右的輪廓輪廓像素點的位置坐標進行一次離散微分,根據一次離散微分分析輪廓曲線的趨勢變化,從剩餘的上、左和右輪廓中提取集元結構特徵,此外,利用左右輪廓統計字符的寬度,利用上下輪廓統計字符高度,統計字符的高寬比和在0.5H範圍內統計筆畫數目,字符的輪廓結構特徵和統計特徵相結合,為數字字符建立模型後,採用結構語句識別方法殘缺數字字符。該方法能夠實現底部殘缺和完整數字字符的正確識別,提高了實際應用中數字字符識別的正確率。
文檔編號G06K9/72GK1584921SQ20041002504
公開日2005年2月23日 申請日期2004年6月10日 優先權日2004年6月10日
發明者胡小鋒, 葉慶泰, 徐榕 申請人:上海交通大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀