西文單詞中字符大小寫的修正方法和裝置的製作方法
2023-09-18 03:08:20 1
專利名稱:西文單詞中字符大小寫的修正方法和裝置的製作方法
技術領域:
本發明屬於文字處理領域,涉及一種字符的修正方法和裝置,特別涉及一種西文字符大小寫的修正方法和裝置。
背景技術:
在西文字符的識別中,例如英文字符、德文字符等,由於字符集中部分字母在基線中位置不相同,而字形極其相似或是完全相同,所以無法通過字符識別的方式完全進行區分。通常的方式為在初步對西文字符進行識別後,再對該字符的基線位置進行判斷,從而得到正確的識別結果,修正西文字符大小寫。通常有兩種方式確定單詞中的字符大小寫方式一根據語言的書寫規則及語法規範處理字符。在文檔中基本是句子首字母大寫、專有名詞首字母大寫,因此如果單詞中非首字母被識別為大寫字母,則在識別結果中將其糾正為小寫字母,但此方法會造成大寫縮寫單詞以及大寫字母為非首字母的情況下的字符識別錯誤,導致識別結果與原文實際不符,給用戶帶來很大的使用不便。方式二 根據單詞中已確定的字符統計基線,利用基線信息確定字母的大小寫。此方法中,若是單詞中字符的基線位置均不唯一,則無法統計單詞的基線;若單詞較長並且存在扭曲、傾斜等情況,則基線不能正確反映局部字符的實際基線位置,造成後處理過程中產生錯誤。因此,需要一種適應性更強的單詞後處理方法,能夠有效地修正字符的大小寫,判斷任意字符組合的單詞,並且不受單詞行扭曲等因素影響,使單詞的識別率大大提高。
發明內容
本發明所要解決的技術問題是提供一種西文字符大小寫的修正方法和裝置,通過字符在圖像中的位置判斷字符的基線屬性,得到相鄰字符的相對位置,並分段記錄各字符所對應的基線在圖像中的位置來確定字符的基線屬性,進而對字符進行修正,最後輸出識別結果。本發明公開了一種西文單詞中字符大小寫的修正方法,包括以下步驟步驟1 獲取目標文本的字符的識別結果和字符在圖像中的位置;步驟2 根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;步驟3 根據單詞的基線信息確定字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。所述步驟2、3中字符的基線屬性根據字符集中字符的上下邊界進行定義,記錄字符與對應基線的位置關係。所述步驟2包括以下步驟步驟21 根據字符的識別結果初步判斷字符的基線屬性;
步驟22 根據字符在圖像中的位置對得到的字符的基線屬性進行篩選;步驟23 統計單詞中篩選得到的各字符的基線屬性,根據基線屬性唯一的字符所對應的各基線在圖像中的位置計算單詞的基線信息。所述步驟22中對得到的字符的基線屬性進行篩選時,如果該字符的基線屬性大於一個,根據相鄰字符的相對位置去除不可能的基線屬性,並將備選的基線屬性進行組合, 得到相鄰字符的相對位置,判斷字符的基線屬性。所述相鄰字符的相對位置通過相鄰字符上下邊界的距離差值與設定的參考距離閾值大小關係確定。所述參考距離閾值不大於單詞圖像高度的1/6。所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則取各字符所對應的基線在圖像中位置的平均值來計算單詞的基線信息。所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則分段記錄各字符所對應的基線在圖像中的位置來計算單詞的基線信息。所述分段記錄各字符所對應的基線在圖像中的位置時,將各字符下邊界對應縱坐標值相差小於參考距離閾值的一個或多個字符作為一字符串,統計該字符串對應的基線信肩、ο所述字符串對應的基線信息為各條基線對應的縱坐標和該字符串左右字符的索引。所述步驟3中字符的基線屬性個數大於一時,選取與該字符距離最近的字符串, 字符的上下邊界與字符串對應的基線信息誤差最小時對應的基線屬性則為該字符的基線屬性,並根據字符的基線屬性進行修正後輸出識別結果。本發明還公開了一種西文單詞中字符大小寫的修正裝置,包括以下模塊信息獲取模塊獲取目標文本的字符的識別結果和字符在圖像中的位置;基線統計模塊根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;信息修正模塊根據單詞的基線信息判斷字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。本發明一種西文字符大小寫的修正方法和裝置,通過字符在圖像中的位置判斷字符的基線屬性,得到相鄰字符的相對位置,並分段記錄各字符所對應的基線在圖像中的位置來計算單詞的基線信息,確定單詞的基線信息進而對字符進行修正,有效地處理了不符合一般書寫規範、或是無法簡單統計得到基線的單詞,對於單詞行出現扭曲情況下,得到字符的基線屬性經統計後能夠有效處理判斷字符的大小寫,具有良好的自適應性,使單詞的識別率大大提高。
圖1為本發明一種西文字符大小寫的修正方法流程圖;圖2為本發明一種西文字符大小寫的修正方法中步驟2的流程圖;圖3為本發明一種西文字符大小寫的修正方法中英文字符基線位置示意圖;圖4為本發明一種西文字符大小寫的修正方法中英文字符對相對位置關係的示
5意圖;圖5為本發明一種西文字符大小寫的修正方法中實施例的文本圖像;圖6為本發明一種西文字符大小寫的修正方法中字符的基線屬性示意圖;圖7為本發明一種西文字符大小寫的修正方法中實施例的分段記錄基線信息的示意圖。
具體實施例方式為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發明作進一步詳細的說明。本發明在於提供一種適用於字符識別結束後判斷並修正西文字符大小寫的方法和裝置。以下結合附圖並以英文字符的識別後處理為例,對本發明進行詳細說明。如圖1 所示,本發明一種西文字符大小寫的修正方法,包括以下步驟步驟一輸入目標文本,獲取目標文本的字符的識別結果和字符在圖像中的位置。 將待識別的目標文本輸入英文識別弓I擎進行識別,獲取目標文本的字符的識別結果和字符在圖像中的位置信息。字符在圖像中的位置信息至少包括字符在圖像中的上邊界和下邊界坐標。步驟二根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;包括以下步驟,如圖2所示步驟21 根據字符在圖像中的位置判斷字符的基線屬性。根據字符在圖像中的位置對基線進行判斷,基線為字符的上下邊界緊鄰的水平直線。本實施例中,英文字符存在4條基線,分別記為基線0、基線1、基線2和基線3,記為四線格。如圖3、表1所示,字符的基線屬性根據字符集中字符的上下邊界進行定義,記錄字符與對應基線的位置關係。表1中根據字符的上下邊界和字符對應基線的位置,將字符的基線屬性分為 T0B2、T1B2、T1B3和T0B3四種。其中,T0B2基線屬性對應的字符上下邊界分別位於基線0 與基線2上;T1B2基線屬性對應的字符上下邊界分別位於基線1與基線2上;T1B3基線屬性對應的字符上下邊界分別位於基線1與基線3上;T0B3基線屬性對應的字符上下邊界分別位於基線0與基線3上。其中,基線0、基線1、基線2、基線3與四線格的四條線相對應。 字符「t」上邊界位於基線0到基線1之間。表1英文字符基線屬性
權利要求
1.一種西文單詞中字符大小寫的修正方法,其特徵在於,包括以下步驟步驟1 獲取目標文本的字符的識別結果和字符在圖像中的位置;步驟2 根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;步驟3 根據單詞的基線信息確定字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。
2.根據權利要求1所述的方法,其特徵在於所述步驟2、3中字符的基線屬性根據字符集中字符的上下邊界進行定義,記錄字符與對應基線的位置關係。
3.根據權利要求1所述的方法,其特徵在於所述步驟2包括以下步驟步驟21 根據字符的識別結果初步判斷字符的基線屬性;步驟22 根據字符在圖像中的位置對得到的字符的基線屬性進行篩選;步驟23 統計單詞中篩選得到的各字符的基線屬性,根據基線屬性唯一的字符所對應的各基線在圖像中的位置計算單詞的基線信息。
4.根據權利要求3所述的方法,其特徵在於所述步驟22中對得到的字符的基線屬性進行篩選時,如果該字符的基線屬性個數大於一,根據相鄰字符的相對位置去除不可能的基線屬性,並將備選的基線屬性進行組合,得到相鄰字符的相對位置,判斷字符的基線屬性。
5.根據權利要求4所述的方法,其特徵在於所述相鄰字符的相對位置通過相鄰字符上下邊界的距離差值與設定的參考距離閾值大小關係確定。
6.根據權利要求5所述的方法,其特徵在於所述參考距離閾值不大於單詞圖像高度的 1/6。
7.根據權利要求3所述的方法,其特徵在於所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則取各字符所對應的基線在圖像中位置的平均值來計算單詞的基線信息。
8.根據權利要求3所述的方法,其特徵在於所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則分段記錄各字符所對應的基線在圖像中的位置來計算單詞的基線信息。
9.根據權利要求6或8所述的方法,其特徵在於所述分段記錄各字符所對應的基線在圖像中的位置時,將各字符下邊界對應縱坐標值相差小於參考距離閾值的一個或多個字符作為一字符串,統計該字符串對應的基線信息。
10.根據權利要求19所述的方法,其特徵在於所述字符串對應的基線信息為各條基線對應的縱坐標和該字符串左右字符的索引。
11.根據權利要求1所述的方法,其特徵在於所述步驟3中字符的基線屬性個數大於一時,選取與該字符距離最近的字符串,字符的上下邊界與字符串對應的基線信息誤差最小時對應的基線屬性則為該字符的基線屬性,並根據字符的基線屬性進行修正後輸出識別結果。
12.—種西文單詞中字符大小寫的修正裝置,其特徵在於,包括以下模塊信息獲取模塊獲取目標文本的字符的識別結果和字符在圖像中的位置;基線統計模塊根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;信息修正模塊根據單詞的基線信息判斷字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。
全文摘要
本發明公開了一種西文單詞中字符大小寫的修正方法和裝置,屬於文字處理領域。方法包括以下步驟獲取目標文本的字符的識別結果和字符在圖像中的位置;根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;根據單詞的基線信息確定字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。本方法有效地處理了不符合一般書寫規範、或是無法簡單統計得到基線的單詞,對於單詞行出現扭曲情況下得到字符的基線屬性經統計後能夠有效處理判斷字符的大小寫,具有良好的自適應性,使單詞的識別率大大提高。
文檔編號G06F17/27GK102236638SQ201010160729
公開日2011年11月9日 申請日期2010年4月26日 優先權日2010年4月26日
發明者萬鑫, 劉正珍 申請人:漢王科技股份有限公司