新四季網

西文單詞中字符大小寫的修正方法和裝置的製作方法

2023-09-18 03:08:20 1

專利名稱:西文單詞中字符大小寫的修正方法和裝置的製作方法
技術領域:
本發明屬於文字處理領域,涉及一種字符的修正方法和裝置,特別涉及一種西文字符大小寫的修正方法和裝置。
背景技術:
在西文字符的識別中,例如英文字符、德文字符等,由於字符集中部分字母在基線中位置不相同,而字形極其相似或是完全相同,所以無法通過字符識別的方式完全進行區分。通常的方式為在初步對西文字符進行識別後,再對該字符的基線位置進行判斷,從而得到正確的識別結果,修正西文字符大小寫。通常有兩種方式確定單詞中的字符大小寫方式一根據語言的書寫規則及語法規範處理字符。在文檔中基本是句子首字母大寫、專有名詞首字母大寫,因此如果單詞中非首字母被識別為大寫字母,則在識別結果中將其糾正為小寫字母,但此方法會造成大寫縮寫單詞以及大寫字母為非首字母的情況下的字符識別錯誤,導致識別結果與原文實際不符,給用戶帶來很大的使用不便。方式二 根據單詞中已確定的字符統計基線,利用基線信息確定字母的大小寫。此方法中,若是單詞中字符的基線位置均不唯一,則無法統計單詞的基線;若單詞較長並且存在扭曲、傾斜等情況,則基線不能正確反映局部字符的實際基線位置,造成後處理過程中產生錯誤。因此,需要一種適應性更強的單詞後處理方法,能夠有效地修正字符的大小寫,判斷任意字符組合的單詞,並且不受單詞行扭曲等因素影響,使單詞的識別率大大提高。

發明內容
本發明所要解決的技術問題是提供一種西文字符大小寫的修正方法和裝置,通過字符在圖像中的位置判斷字符的基線屬性,得到相鄰字符的相對位置,並分段記錄各字符所對應的基線在圖像中的位置來確定字符的基線屬性,進而對字符進行修正,最後輸出識別結果。本發明公開了一種西文單詞中字符大小寫的修正方法,包括以下步驟步驟1 獲取目標文本的字符的識別結果和字符在圖像中的位置;步驟2 根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;步驟3 根據單詞的基線信息確定字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。所述步驟2、3中字符的基線屬性根據字符集中字符的上下邊界進行定義,記錄字符與對應基線的位置關係。所述步驟2包括以下步驟步驟21 根據字符的識別結果初步判斷字符的基線屬性;
步驟22 根據字符在圖像中的位置對得到的字符的基線屬性進行篩選;步驟23 統計單詞中篩選得到的各字符的基線屬性,根據基線屬性唯一的字符所對應的各基線在圖像中的位置計算單詞的基線信息。所述步驟22中對得到的字符的基線屬性進行篩選時,如果該字符的基線屬性大於一個,根據相鄰字符的相對位置去除不可能的基線屬性,並將備選的基線屬性進行組合, 得到相鄰字符的相對位置,判斷字符的基線屬性。所述相鄰字符的相對位置通過相鄰字符上下邊界的距離差值與設定的參考距離閾值大小關係確定。所述參考距離閾值不大於單詞圖像高度的1/6。所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則取各字符所對應的基線在圖像中位置的平均值來計算單詞的基線信息。所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則分段記錄各字符所對應的基線在圖像中的位置來計算單詞的基線信息。所述分段記錄各字符所對應的基線在圖像中的位置時,將各字符下邊界對應縱坐標值相差小於參考距離閾值的一個或多個字符作為一字符串,統計該字符串對應的基線信肩、ο所述字符串對應的基線信息為各條基線對應的縱坐標和該字符串左右字符的索引。所述步驟3中字符的基線屬性個數大於一時,選取與該字符距離最近的字符串, 字符的上下邊界與字符串對應的基線信息誤差最小時對應的基線屬性則為該字符的基線屬性,並根據字符的基線屬性進行修正後輸出識別結果。本發明還公開了一種西文單詞中字符大小寫的修正裝置,包括以下模塊信息獲取模塊獲取目標文本的字符的識別結果和字符在圖像中的位置;基線統計模塊根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;信息修正模塊根據單詞的基線信息判斷字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。本發明一種西文字符大小寫的修正方法和裝置,通過字符在圖像中的位置判斷字符的基線屬性,得到相鄰字符的相對位置,並分段記錄各字符所對應的基線在圖像中的位置來計算單詞的基線信息,確定單詞的基線信息進而對字符進行修正,有效地處理了不符合一般書寫規範、或是無法簡單統計得到基線的單詞,對於單詞行出現扭曲情況下,得到字符的基線屬性經統計後能夠有效處理判斷字符的大小寫,具有良好的自適應性,使單詞的識別率大大提高。


圖1為本發明一種西文字符大小寫的修正方法流程圖;圖2為本發明一種西文字符大小寫的修正方法中步驟2的流程圖;圖3為本發明一種西文字符大小寫的修正方法中英文字符基線位置示意圖;圖4為本發明一種西文字符大小寫的修正方法中英文字符對相對位置關係的示
5意圖;圖5為本發明一種西文字符大小寫的修正方法中實施例的文本圖像;圖6為本發明一種西文字符大小寫的修正方法中字符的基線屬性示意圖;圖7為本發明一種西文字符大小寫的修正方法中實施例的分段記錄基線信息的示意圖。
具體實施例方式為使本發明的上述目的、特徵和優點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發明作進一步詳細的說明。本發明在於提供一種適用於字符識別結束後判斷並修正西文字符大小寫的方法和裝置。以下結合附圖並以英文字符的識別後處理為例,對本發明進行詳細說明。如圖1 所示,本發明一種西文字符大小寫的修正方法,包括以下步驟步驟一輸入目標文本,獲取目標文本的字符的識別結果和字符在圖像中的位置。 將待識別的目標文本輸入英文識別弓I擎進行識別,獲取目標文本的字符的識別結果和字符在圖像中的位置信息。字符在圖像中的位置信息至少包括字符在圖像中的上邊界和下邊界坐標。步驟二根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;包括以下步驟,如圖2所示步驟21 根據字符在圖像中的位置判斷字符的基線屬性。根據字符在圖像中的位置對基線進行判斷,基線為字符的上下邊界緊鄰的水平直線。本實施例中,英文字符存在4條基線,分別記為基線0、基線1、基線2和基線3,記為四線格。如圖3、表1所示,字符的基線屬性根據字符集中字符的上下邊界進行定義,記錄字符與對應基線的位置關係。表1中根據字符的上下邊界和字符對應基線的位置,將字符的基線屬性分為 T0B2、T1B2、T1B3和T0B3四種。其中,T0B2基線屬性對應的字符上下邊界分別位於基線0 與基線2上;T1B2基線屬性對應的字符上下邊界分別位於基線1與基線2上;T1B3基線屬性對應的字符上下邊界分別位於基線1與基線3上;T0B3基線屬性對應的字符上下邊界分別位於基線0與基線3上。其中,基線0、基線1、基線2、基線3與四線格的四條線相對應。 字符「t」上邊界位於基線0到基線1之間。表1英文字符基線屬性
權利要求
1.一種西文單詞中字符大小寫的修正方法,其特徵在於,包括以下步驟步驟1 獲取目標文本的字符的識別結果和字符在圖像中的位置;步驟2 根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;步驟3 根據單詞的基線信息確定字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。
2.根據權利要求1所述的方法,其特徵在於所述步驟2、3中字符的基線屬性根據字符集中字符的上下邊界進行定義,記錄字符與對應基線的位置關係。
3.根據權利要求1所述的方法,其特徵在於所述步驟2包括以下步驟步驟21 根據字符的識別結果初步判斷字符的基線屬性;步驟22 根據字符在圖像中的位置對得到的字符的基線屬性進行篩選;步驟23 統計單詞中篩選得到的各字符的基線屬性,根據基線屬性唯一的字符所對應的各基線在圖像中的位置計算單詞的基線信息。
4.根據權利要求3所述的方法,其特徵在於所述步驟22中對得到的字符的基線屬性進行篩選時,如果該字符的基線屬性個數大於一,根據相鄰字符的相對位置去除不可能的基線屬性,並將備選的基線屬性進行組合,得到相鄰字符的相對位置,判斷字符的基線屬性。
5.根據權利要求4所述的方法,其特徵在於所述相鄰字符的相對位置通過相鄰字符上下邊界的距離差值與設定的參考距離閾值大小關係確定。
6.根據權利要求5所述的方法,其特徵在於所述參考距離閾值不大於單詞圖像高度的 1/6。
7.根據權利要求3所述的方法,其特徵在於所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則取各字符所對應的基線在圖像中位置的平均值來計算單詞的基線信息。
8.根據權利要求3所述的方法,其特徵在於所述步驟23中統計單詞中各字符的基線屬性時,若單詞中存在多個具有基線屬性唯一的字符,則分段記錄各字符所對應的基線在圖像中的位置來計算單詞的基線信息。
9.根據權利要求6或8所述的方法,其特徵在於所述分段記錄各字符所對應的基線在圖像中的位置時,將各字符下邊界對應縱坐標值相差小於參考距離閾值的一個或多個字符作為一字符串,統計該字符串對應的基線信息。
10.根據權利要求19所述的方法,其特徵在於所述字符串對應的基線信息為各條基線對應的縱坐標和該字符串左右字符的索引。
11.根據權利要求1所述的方法,其特徵在於所述步驟3中字符的基線屬性個數大於一時,選取與該字符距離最近的字符串,字符的上下邊界與字符串對應的基線信息誤差最小時對應的基線屬性則為該字符的基線屬性,並根據字符的基線屬性進行修正後輸出識別結果。
12.—種西文單詞中字符大小寫的修正裝置,其特徵在於,包括以下模塊信息獲取模塊獲取目標文本的字符的識別結果和字符在圖像中的位置;基線統計模塊根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;信息修正模塊根據單詞的基線信息判斷字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。
全文摘要
本發明公開了一種西文單詞中字符大小寫的修正方法和裝置,屬於文字處理領域。方法包括以下步驟獲取目標文本的字符的識別結果和字符在圖像中的位置;根據字符的識別結果和在圖像中的位置判斷字符的基線屬性,經統計後確定單詞的基線信息;根據單詞的基線信息確定字符的基線屬性,將字符的基線屬性進行修正後輸出識別結果。本方法有效地處理了不符合一般書寫規範、或是無法簡單統計得到基線的單詞,對於單詞行出現扭曲情況下得到字符的基線屬性經統計後能夠有效處理判斷字符的大小寫,具有良好的自適應性,使單詞的識別率大大提高。
文檔編號G06F17/27GK102236638SQ201010160729
公開日2011年11月9日 申請日期2010年4月26日 優先權日2010年4月26日
發明者萬鑫, 劉正珍 申請人:漢王科技股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀