殘缺印刷體數字字符的識別方法

2023-04-28 22:03:16 1

專利名稱：殘缺印刷體數字字符的識別方法
技術領域：
本發明涉及的是一種文字識別方法，特別是一種殘缺印刷體數字字符的識別方法。用於圖像識別領域。
背景技術：
近年來文字識別技術廣泛運用於各個工程領域，文字識別的研究業取得了巨大的成就，印刷體的文字識別正確率高達99％。但是，實際應用中存在著部分殘缺的字符，殘缺字符和完整字符混合在一起，給文字識別造成了困難。
經文獻檢索發現，Pasquale Foggia等人在《Image and Vision Computing》(1999，17(9)，701-711.)(《圖像與視覺計算機》)上發表的「Combining statisticaland structural approaches for handwritten character description」(「統計與結構方法相結合的手寫體字符描述」)，該文中所提出的方法，先先從手寫體字符中提取結構基元，然後用統計的方法對結構基元進行特徵描述，最後採用神經網絡進行手寫體識別。
該文涉及的技術主要存在以下缺陷和不足(1)算法僅適用於手寫體的文字識別，雖然能有效克服手寫體的字符變形，但對於殘缺字符的變形無能為力；(2)殘缺字符的筆畫丟失會減少字符原有的結構基元；(3)殘缺字符的筆畫丟失同時還會改變字符原本的結構基元，使得用統計方法對基元特徵進行描述的時候發生畸變；(4)神經網絡的識別方法必須事先確定輸入特徵向量的維數，但殘缺字符的殘缺程度不同會影響特徵向量的維數。

發明內容
本發明的目的在於克服現有文字識別技術中的不足，提供一種殘缺印刷體數字字符的識別方法，使其能夠對殘缺的印刷體數字字符進行準確的識別。
本發明是通過以下技術方案實現的，本發明方法如下先將整個字符輪廓分解為上、下、左和右四個局部輪廓，並用圖像邊框到字符輪廓的輪廓像素點的位置坐標集合表示輪廓。分別對上、左和右的輪廓輪廓像素點的位置坐標進行一次離散微分，根據一次離散微分分析輪廓曲線的趨勢變化，定義5個結構集元，包括豎直(V)、左斜(L)、右斜(R)、圓弧(C)和突變(P)，並從剩餘的上、左和右輪廓中提取集元結構特徵。此外，利用左右輪廓統計字符的寬度(W)，利用上下輪廓統計字符高度(H)，最後在0.5H範圍內統計筆畫數目。字符的輪廓結構特徵和統計特徵相結合，為數字字符建立模型後，採用結構語句識別方法殘缺數字字符。
雖然底部殘缺的數字字符由於丟失了底部的重要筆畫，使得字符失去了許多特徵，同時也使得部分特徵變得不穩定，給文字識別造成了很大的困難。但是當字符的殘缺部分不超過原有字符的0.5H時，人眼依然能夠準確地識別出來。這說明殘缺的字符依然保留有足夠的殘餘特徵。提取這些殘留的穩定特徵，採用合理的識別策略既能實現底部殘缺數字字符的識別。
以下對本發明方法作進一步的說明，方法步驟如下(1)字符輪廓分解將字符的整體輪廓分解為頂部、底部、左側和右側四個方向的輪廓特徵來描述。使得底部輪廓的缺損時，不至於影響到頂部特徵，而且也可以從左右兩側的輪廓特徵中提取部分有價值的信息。
左側輪廓(LP(k)，k＝1，2，…M)定義為字符最左側邊界像素點的水平方向坐標值。
LP(i)＝min{x|P(x，y)∈C，y＝i}i＝1，2…M(1)式中P(x，y)表示圖像中坐標為(x，y)的像素點，C表示字符像素點的集合。同理，右側輪廓(RP(k)，k＝1，2，…M)定義為字符最右側邊界像素點的水平方向坐標值。
RP(i)＝max{x|P(x，y)∈C，y＝i}i＝1，2…M(2)相應地，頂部輪廓(TP(k)，k＝1，2，…N)定義為字符最高邊界像素點的垂直方向坐標值。底部輪廓(BP(k)，k＝1，2，…N)定義為字符最低邊界像素點的垂直方向坐標值。
TP(j)＝min{y|P(x，y)∈C，x＝j}j＝1，2…N(3)
BP(j)＝max{y|P(x，y)∈C，x＝j}j＝1，2…N(4)(2)輪廓一階離散微分為了描述輪廓的變化特徵，定義四個方向輪廓的一階微分LPD＝LP(i+1)-LP(i)RPD＝RP(i+1)-RP(i)(5)TPD＝TP(j+1)-TP(j)BPD＝BP(j+1)-BP(j)式中i＝1，2，…M-1，j＝1，2，…N-1。
(3)各輪廓上的結構集元特徵提取根據字符輪廓的變化趨勢定義構成字符輪廓的基本基元。基本基元共有5個分別為豎直(V)、左斜(L)、右斜(R)、圓弧(C)和突變(P)。定義上述基本基元(a)豎直定義假設SL，SV和SR分別表示某側輪廓一階微分值大於零，等於零和小於零的個數，若SR＝0，SL＝0，則為結構V。
(b)左斜定義假設SL，SV和SR分別表示某側輪廓一階微分值大於零，等於零和小於零的個數，若SR＝0，SL大閾值LT，則為結構L。
(c)右斜定義假設SL，SV和SR分別表示某側輪廓一階微分值大於零，等於零和小於零的個數，若SL＝0，SR大閾值RT，則為結構R。
(d)圓弧定義假設SL，SV和SR分別表示某側輪廓一階微分值大於零，等於零和小於零的個數，若SR大於閾值RT，SL大閾值LT，則為結構C。
(e)突變連續的字符輪廓，其一階微分值的變化量比較小，而當字符輪廓發生突變時，其一階微分值相對較大。因此，定義當輪廓的一階微分值超過閾值PT時則字符輪廓有突變，即為結構P。結構P將字符輪廓分成幾條連續的曲線，各條曲線各自獨立地提取結構特徵。
根據上述定義，考慮到字符輪廓上存在的幹擾像素點，採用閾值技術檢測集元假設PD(k)表示某側輪廓的一階微分，k＝1，2，…K，SL，SV和SR分別為檢測到的PD(k)大於零，等於零和小於零的個數，PT、RT和LT為正整數，則若|PD(k)|＞＝PT，則在k處檢測到結構突變(P)；檢測到突變結構P的有效範圍在x∈[ST，N-ST+1]，y∈[ST，M-ST+1]，其中ST表示字符筆劃的寬度。這主要是為了避免幹擾嚴重情況下，輪廓邊緣光滑處理不夠理想時，可能檢測到的假突變基元。
若SL＜LT，SR＜RT，則檢測到結構為豎直(V)；若SL＞LT，SR＜RT，則檢測到結構為左斜(L)；若SL＜LT，SR＞RT，則檢測到結構為右斜(R)；若SL＞LT，SR＞RT，則檢測到結構為圓弧(C)。
左右兩側輪廓上檢測到的集元按照從上到下的順序保存在各自的向量組LS和RS中；頂部檢測到集元按從左到右的順序保存在另一個向量組TS中。頂部輪廓上，TS(i)表示頂部輪廓結構集元的向量組的第i個結構集元，Tn表示頂部輪廓共有的集元數目；左側輪廓上，LS(i)表示左側輪廓結構集元的向量組的第i個結構集元，Ln表示左側輪廓共有的集元數目；右側輪廓上，RS(i)表示右側輪廓結構集元的向量組的第i個結構集元，Rn表示右側輪廓共有的集元數目。
(4)輪廓的統計特徵採用上述的結構基元還不足以準確識別殘缺和完整的數字，引入與結構特徵具有較強互不性的輪廓統計特徵。
(a)字符高度與最大字符寬度Wmax之比字符的最大寬度為Wmax=maxk{RP(k)-LP(k)}---(6)]]>單個字符的高度為h=maxl{TP(l)-BP(l)}---(7)]]>
實際應用中，殘缺字符與完整字符混合在一起，而且數量相對較少。因此，雖然底部殘缺致使殘缺字符的高度無法準確估計，但是在同一文字區域內，字符大小的固定的，其高度接近相等，可以採用單個字符高度的中值濾波估計字符高度，H＝med{h1，h2，…hm)(8)m是文字區域內的字符總數。
字符的高寬比為Ratio＝H/Wmax(9)該特徵主要用於識別數字1。當Ratio≥2.5，即為數字1。
(b)垂直方向的筆劃數在字符0.5H的範圍內，自上而下掃描每列像素點的筆畫數目，取筆畫數目的最大值Smax。該特徵主要用於區別數字0和8，當Smax2≥2時，為字符8；否則為字符0。
(5)建立10個數字字符的模型10個數字字符的模型如下所示「0」字符的模型Ratio≥2.5，TS(1)＝C，Size(LS)＝Size(RS)＝1，Smax＜2「1」字符的模型Ratio＜2.5「2」字符的模型Ratio≥2.5，TS(1)＝C，LS(1)≠C，LS(Ln-1)＝P，LS(Ln)＝L「3」字符的模型Ratio≥2.5，TS(1)＝C，LS(1)≠C，P∈LS，LS(Ln)≠L；or Ratio≥2.5，TS(1)＝V，RS(1)＝C「4」字符的模型Ratio≥2.5，TS(1)＝L，RS(1)＝V「5」字符的模型Ratio≥2.5，V∈TS，P∈RS；「6」字符的模型Ratio≥2.5，TS(1)＝C，P∈RS，Size(LS)＝1；or Ratio≥2.5，TS(1)＝L，VRS]]>「7」字符的模型Ratio≥2.5，TS(1)＝V，P∈LS，Size(RS)＝1；「8」字符的模型Ratio≥2.5，TS(1)＝C，Size(LS)＝Size(RS)＝1，Smax≥2「9」字符的模型Ratio≥2.5，TS(1)＝C，LS(1)＝C，LS(2)＝P
(6)採用結構語句識別方法識別殘缺數字字符採用結構語句識別方法，將目標文字上提取的結構特徵和統計特徵，按照已定義的數字字符模型，與模型匹配，實現殘缺數字字符的文字識別。
本發明克服了由於數字字符底部筆畫丟失而導致字符無法識別的問題，而且對完整的數字字符也能實現準確識別。該文字圖象分割方法具有如下優點(1)從底部殘缺的數字字符中，從頂部、左右兩邊的輪廓中提取結構基元和輪廓統計的殘餘特徵。(2)根據上述特徵，建立數字字符的結構模型。(3)能準確識別底部殘缺的數字字符。(4)同時，對於完整的數字字符也能實現準確識別，提高了識別算法對字符筆畫丟失、變形的可靠性和識別準確率。

圖1輪廓定義示意2五個結構集元示意圖具體實施方式
如圖1所示，為本發明輪廓定義示意圖，其中將字符的整體輪廓分解為頂部、底部、左側和右側四個方向的輪廓特徵來描述。使得底部輪廓的缺損時，不至於影響到頂部特徵，而且也可以從左右兩側的輪廓特徵中提取部分有價值的信息。
左側輪廓(LP(k)，k＝1，2，…M)定義為字符最左側邊界像素點的水平方向坐標值。
LP(i)＝min{x|P(x，y)∈C，y＝i}i＝1，2…M式中P(x，y)表示圖像中坐標為(x，y)的像素點，C表示字符像素點的集合。同理，右側輪廓(RP(k)，k＝1，2，…M)定義為字符最右側邊界像素點的水平方向坐標值。
RP(i)＝max{x|P(x，y)∈C，y＝i}i＝1，2…M相應地，頂部輪廓(TP(k)，k＝1，2，…N)定義為字符最高邊界像素點的垂直方向坐標值。底部輪廓(BP(k)，k＝1，2，…N)定義為字符最低邊界像素點的垂直方向坐標值。
TP(j)＝min{y|P(x，y)∈C，x＝j}j＝1，2…NBP(j)＝max{y|P(x，y)∈C，x＝j}j＝1，2…N在圖書館藏書的索書號文字識別中，由於索書號貼在書脊上，受書脊空間限制的影響，當索書號由兩行或者兩行以上的字符串組成時，第二行的字符常會摺疊，在攝像頭拍攝得到圖像後，字符的底部便會丟失。這種字符的存在嚴重降低了索書號識別的正確率。
結合本發明方法的內容提供以下實施例，具體如下(1)將字符的整體輪廓分解為頂部、底部、左側和右側四個方向的輪廓特徵來描述，並用輪廓像素點的位置坐標進行表述。
(2)對各個輪廓進行一階離散微分計算。
(3)根據一階離散微分分析輪廓曲線變化趨勢，提取各個輪廓的結構集元，並建立相應的基元向量組。基元提取時的參數PT＝6，LT＝3，RT＝3，ST＝3。
(4)提取輪廓的統計特徵，包括字符的高寬比和0.5H範圍內的列方向上的最大筆畫數。
(5)根據上述的字符輪廓結構特徵和統計特徵，建立10個數字字符的模型。
(6)採用結構語句識別方法識別殘缺的數字字符。
採用上述方法對索書號中的殘缺數字字符進行識別，其正確率為91.8％，完整字符的識別正確率為97.6％，從而保證了索書號識別具有較高的正確率。
權利要求
1.一種殘缺印刷體數字字符的識別方法，其特徵在於，將整個字符輪廓分解為上、下、左和右四個局部輪廓，並用圖像邊框到字符輪廓的輪廓像素點的位置坐標集合表示輪廓，分別對上、左和右的輪廓像素點的位置坐標進行一次離散微分，根據一次離散微分分析輪廓曲線的趨勢變化，定義5個結構集元，包括豎直V、左斜L、右斜R、圓弧C和突變P，並從剩餘的上、左和右輪廓中提取集元結構特徵，此外，利用左右輪廓統計字符的寬度W，利用上下輪廓統計字符高度H，最後在0.5H範圍內統計筆畫數目，字符的輪廓結構特徵和統計特徵相結合，為數字字符建立模型後，採用結構語句識別方法殘缺數字字符。
2.根據權利要求1所述的殘缺印刷體數字字符的識別方法，其特徵是，以下對本發明的進一步的限定，包含以下步驟(1)字符輪廓分解，(2)輪廓一階離散微分，(3)各輪廓上的結構集元特徵提取，(4)輪廓的統計特徵提取，(5)建立數字字符的模型，(6)採用結構語句識別方法識別文字。
3.根據權利要求2所述的殘缺印刷體數字字符的識別方法，其特徵是，所述的輪廓分解，具體為左側輪廓定義為字符最左側邊界像素點的水平方向坐標值，右側輪廓定義為字符最右側邊界像素點的水平方向坐標值，相應地，頂部輪廓定義為字符最高邊界像素點的垂直方向坐標值，底部輪廓定義為字符最低邊界像素點的垂直方向坐標值。
4.根據權利要求2所述的殘缺印刷體數字字符的識別方法，其特徵是，所述的輪廓一階離散微分，具體為定義四個方向輪廓的一階微分LPD＝LP(i+1)-LP(i)RPD＝RP(i+1)-RP(i)TPD＝TP(j+1)-TP(j)BPD＝BP(j+1)-BP(j)式中i＝1，2，…M-1，j＝1，2，…N-1。
5.根據權利要求2所述的殘缺印刷體數字字符的識別方法，其特徵是，所述的各輪廓上的結構集元特徵提取，具體為假設PD(k)表示某側輪廓的一階微分，k＝1，2，…K，SL，SV和SR分別為檢測到的PD(k)大於零，等於零和小於零的個數，PT、RT和LT為正整數，則若|PD(k)|＞＝PT，則在k處檢測到結構突變P；檢測到突變結構P的有效範圍在x∈[ST，N-ST+1]，y∈[ST，M-ST+1]，其中ST表示字符筆劃的寬度。若SL＜LT，SR＜RT，則檢測到結構為豎直V；若SL＞LT，SR＜RT，則檢測到結構為左斜L；若SL＜LT，SR＞RT，則檢測到結構為右斜R；若SL＞LT，SR＞RT，則檢測到結構為圓弧C；左右兩側輪廓上檢測到的集元按照從上到下的順序保存在各自的向量組LS和RS中；頂部檢測到集元按從左到右的順序保存在另一個向量組TS中，頂部輪廓上，TS(i)表示頂部輪廓結構集元的向量組的第i個結構集元，Tn表示頂部輪廓共有的集元數目；左側輪廓上，LS(i)表示左側輪廓結構集元的向量組的第i個結構集元，Ln表示左側輪廓共有的集元數目；右側輪廓上，RS(i)表示右側輪廓結構集元的向量組的第i個結構集元，Rn表示右側輪廓共有的集元數目。
6.根據權利要求2所述的殘缺印刷體數字字符的識別方法，其特徵是，所述的輪廓的統計特徵提取，具體為a.字符高度與最大字符寬度Wmax之比字符的最大寬度為Wmax=maxk{RP(k)-LP(k)}]]>單個字符的高度為h=maxl{TP(l)-BP(l)}]]>實際應用中，在同一文字區域內，字符大小是固定的，其高度接近相等，採用單個字符高度的中值濾波估計字符高度，H＝med{h1，h2，…hm}m是文字區域內的字符總數；字符的高寬比為Ratio＝H/Wmax該特徵主要用於識別數字1，當Ratio≥2.5，即為數字1；b.垂直方向的筆劃數在字符0.5H的範圍內，自上而下掃描每列像素點的筆畫數目，取筆畫數目的最大值Smax，該特徵主要用於區別數字0和8，當Smax2≥2時，為字符8，否則為字符0。
7.根據權利要求2所述的殘缺印刷體數字字符的識別方法，其特徵是，所述的建立數字字符的模型，具體為「0」字符的模型Ratio≥2.5，TS(1)＝C，Size(LS)＝Size(RS)＝1，Smax＜2「1」字符的模型Ratio＜2.5「2」字符的模型Ratio≥2.5，TS(1)＝C，LS(1)≠C，LS(Ln-1)＝P，LS(Ln)＝L「3」字符的模型Ratio≥2.5，TS(1)＝C，LS(1)≠C，P∈LS，LS(Ln)≠L；or Ratio≥2.5，TS(1)＝V，RS(1)＝C「4」字符的模型Ratio≥2.5，TS(1)＝L，RS(1)＝V「5」字符的模型Ratio≥2.5，V∈TS，P∈RS；「6」即字符的模型Ratio≥2.5，TS(1)＝C，P∈RS，Size(LS)＝1or Ratio≥2.5，TS(1)＝L，VRS]]>「7」字符的模型Ratio≥2.5，TS(1)＝V，P∈LS，Size(RS)＝1；「8」字符的模型Ratio≥2.5，TS(1)＝C，Size(LS)＝Size(RS)＝1，Smax≥2「9」字符的模型Ratio≥2.5，TS(1)＝C，LS(1)＝C，LS(2)＝P
8.根據權利要求2所述的殘缺印刷體數字字符的識別方法，其特徵是，所述的採用結構語句識別方法識別文字，具體為採用結構語句識別方法，將目標文字上提取的結構特徵和統計特徵，與模型匹配，實現文字識別。
全文摘要
一種殘缺印刷體數字字符的識別方法，用於圖像識別領域。方法如下先將整個字符輪廓分解為上、下、左和右四個局部輪廓，並用圖像邊框到字符輪廓的輪廓像素點的位置坐標集合表示輪廓，分別對上、左和右的輪廓輪廓像素點的位置坐標進行一次離散微分，根據一次離散微分分析輪廓曲線的趨勢變化，從剩餘的上、左和右輪廓中提取集元結構特徵，此外，利用左右輪廓統計字符的寬度，利用上下輪廓統計字符高度，統計字符的高寬比和在0.5H範圍內統計筆畫數目，字符的輪廓結構特徵和統計特徵相結合，為數字字符建立模型後，採用結構語句識別方法殘缺數字字符。該方法能夠實現底部殘缺和完整數字字符的正確識別，提高了實際應用中數字字符識別的正確率。
文檔編號G06K9/72GK1584921SQ20041002504
公開日2005年2月23日申請日期2004年6月10日優先權日2004年6月10日
發明者胡小鋒, 葉慶泰, 徐榕申請人:上海交通大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

殘缺印刷體數字字符的識別方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法