新四季網

漢字識別方法和裝置的製作方法

2023-06-21 18:57:41 1


專利名稱::漢字識別方法和裝置的製作方法
技術領域:
:本發明涉及漢字識別技術,特別涉及ー種漢字識別方法和裝置。
背景技術:
:隨著光學文字識別(OCR:0pticalCharacterRecognition)正確率的提高,其應用也越來越廣泛,如大量應用於自動化辦公中。圖I是現有技術中光學識別引擎的結構示意圖;圖2是利用光學識別引擎的切分模塊101對文本圖像進行切分後的圖像單元的示意圖;圖3是對切分後的圖像單元進行選擇的示意圖;圖4是左右結構的標準漢字的示意圖。如圖I所示,該光學識別引擎主要包括切分模塊101和識別模塊102;其中,切分模塊101用於將包含多個文字的文本圖像(TextImage)切分為圖像單元(Segments),如圖2所示,利用該文本圖像為「信息外圍設備」201,切分模塊101對文本圖像201切分後獲得多個圖像単元202,如圖2所示用豎線分開的各個圖像単元202;識別模塊102用於將切分模塊101對文本圖像201切分後獲得的圖像單元202進行識別,以獲得可編輯文字(EditableText),如圖2所示,獲得可編輯的文字203。如圖2所示,在切分模塊101對文本圖像進行切分時,會出現切分錯誤。例如,有些單個字符的文字圖像可能被切分為多個圖像單元,如單個字符「信」被切分為「イ」和「言」;單個字符「外」,被切分為「夕」和「卜」,這樣最終導致識別錯誤。由於ー個標準漢字的圖像單元的識別相似度比一個非標準漢字的識別相似度高,因此,目前對於切分錯誤的問題,如對於ー個單個字符被切分為多個圖像單元的錯誤,可結合識別技術對切分錯誤的圖像單元進行修正,即通過識別相似度的高低來選擇識別相似度高的圖像單元,從而可以避免切分錯誤。例如,在切分模塊101對文本圖像201進行切分獲得圖像單元202後,為了避免上述的切分錯誤,可將相鄰的兩個圖像單元進行合併,例如,如圖3所示,將圖像単元「イ」、「言」進行合併,然後對「イ、言」和合併後的圖像單元「信」進行識別,比較識別相似度,由於「信」是標準漢字的圖像單元,「イ、言」識別後為「イ、育」不是標準漢字的圖像單元,因此,對圖像単元「信」的識別相似度高於對圖像単元「イ、言」的識別相似度,這樣,選擇合併後的識別相似度高的圖像單元「信」來修正切分錯誤的圖像單元「イ、育」,即最終選擇「信」的圖像單元來代替「イ」和」育」。由上述可知,通過選擇相似度高的圖像單元,可以得到正確的切分単元,圖3所示的是ー個結合識別進行切分選擇的例子。但是在實現本發明的過程中發明人發現上述技術的缺陷在於如圖4所示,對於左右結構的標準漢字,如「外」,且該左右結構的標準漢字的左部分和右部分均為標準漢字,即「夕」和「卜」,光學識別引擎(OCR)會將該左右結構的漢字切分為兩個圖像單元,即使利用上述切分錯誤修正方法也無法解決上述切分錯誤的問題,從而最終導致識別錯誤。
發明內容本發明實施例的目的在於提供ー種漢字識別方法和裝置,通過利用對文本圖像進行識別後獲得的識別信息中的識別編碼信息和圖像單元位置信息檢測錯誤切分的圖像單元並對錯誤切分的圖像單元進行修正,從而可提高識別精度,解決現有技術中存在的問題。根據本發明實施例的ー個方面提供了ー種漢字識別裝置,該裝置包括第一識別單元,該第一識別單元用於對文本圖像進行切分和識別,以獲得識別信息;其中,該識別信息包括對該文本圖像進行切分後獲得的多個圖像単元在該文本圖像中的位置信息、以及對該圖像単元進行識別所獲得的識別編碼信息;錯誤檢測單元,該錯誤檢測單元用於利用該第一識別單元獲得該識別編碼信息和位置信息檢測錯誤切分的圖像單元;錯誤修正単元,該錯誤修正単元用於對該錯誤檢測單元檢測出的該錯誤切分的圖像單元進行修正;第二識別單元,該第二識別單元用於對該錯誤修正単元修正後的該圖像單元進行識別,以獲得相應的識別編碼信息。根據本發明實施例的另ー個方面提供了ー種漢字識別方法,該方法包括第一識別步驟,對文本圖像進行切分和識別,以獲得識別信息;其中,該識別信息包括對該文本圖像進行切分後獲得的多個圖像単元在該文本圖像中的位置信息、以及對該圖像單元進行識別獲得的識別編碼信息;錯誤檢測步驟,利用該識別信息中的該識別編碼信息和位置信息檢測錯誤切分的圖像單元;錯誤修正步驟,對檢測出的該錯誤切分的圖像單元進行修正;第二識別步驟,對修正後的該圖像單元進行識別,以獲得相應的識別編碼信息。本發明實施例的有益效果在幹通過對文本圖像進行切分和識別以獲得識別信息,利用該識別信息中的識別編碼信息和圖像單元位置信息查找錯誤切分的圖像單元,合併相鄰的錯誤切分的圖像單元,並將合併的圖像単元替換該切分錯誤的圖像單元,從而可提聞識別精度,解決現有技術中存在的問題。參照後文的說明和附圖,詳細公開了本發明的特定實施方式,指明了本發明的原理可以被採用的方式。應該理解,本發明的實施方式在範圍上並不因而受到限制。在所附權利要求的精神和條款的範圍內,本發明的實施方式包括許多改變、修改和等同。針對ー種實施方式描述和/或示出的特徵可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特徵相組合,或替代其它實施方式中的特徵。應該強調,術語「包括/包含」在本文使用時指特徵、整件、步驟或組件的存在,但並不排除一個或更多個其它特徵、整件、步驟或組件的存在或附加。圖I是現有技術中光學識別引擎的結構示意圖;圖2是利用光學識別引擎的切分模塊101對文本圖像進行切分後的圖像單元的示意圖3是對切分後的圖像單元進行選擇的示意圖;圖4是左右結構的標準漢字的示意圖;圖5是三個定寬漢字的示意圖;圖6是本發明實施例I的漢字識別裝置構成示意圖;圖7是圖6中的錯誤檢測單元的構成示意圖;圖8是圖7中字寬計算單元的構成示意圖;圖9是本發明實施例I中各個圖像單元的位置信息示意圖;圖10是圖7中檢測單元的構成示意圖;圖11是圖6中錯誤修正單元的構成示意圖;圖12是本發明實施例2的漢字識別方法流程圖;圖13是本發明實施例3的漢字識別方法的應用實例流程圖;圖14是對文本圖像分別利用現有的OCR技術和本發明實施例的識別方法進行識別的識別結果示意圖。具體實施例方式下面結合附圖對本發明的各種實施方式進行說明。這些實施方式只是示例性的,不是對本發明的限制。為了使本領域的技術人員能夠容易地理解本發明的原理和實施方式,本發明的實施方式以下述的漢字識別裝置為例進行說明。在實現本發明的過程中發明人發現,目前漢字排版一般採用固定寬度的漢字字形,如圖5所示,展示了三個定寬漢字的例子,這樣排版結果整齊清晰易於閱讀。因此,對於採用固定寬度漢字字形排版的漢字圖像,可以認為該圖像中的漢字圖像単元都具有相同的寬度。若利用寬度信息檢測錯誤切分的圖像單元可提高識別精度,並且該方法簡單容易實現,並解決現有技術中存在的上述問題,圖6是本發明實施例I的漢字識別裝置的構成示意圖。如圖6所示,該裝置包括第一識別單元601、錯誤檢測單元602、錯誤修正単元603和第二識別單元604;其中,第一識別單元601,用於對文本圖像進行切分和識別,以獲得識別信息;其中,該識別信息包括對文本圖像進行切分後獲得的多個圖像単元(Segments)在文本圖像中的位置信息、以及對圖像單元進行識別所獲得的識別編碼信息;錯誤檢測單元602,用於利用第一識別單601獲得該識別編碼信息和位置信息檢測錯誤切分的圖像單元;錯誤修正単元603,用於對錯誤檢測単元602檢測出的錯誤切分的圖像單元進行修正;第二識別單元604,用於對錯誤修正単元603修正後的圖像單元進行識別,以獲得相應的識別編碼信息。在本實施例中,第一識別單元601對文本圖像進行切分後獲得的多個圖像單元可採用矩形表示,該圖像単元在文本圖像中的位置信息可以是各個圖像単元在ー維方向上的坐標信息;但不限於上述表示方式,還可採用其他形式來表示,對於其他形式表示的位置信息比如輪廓表示的単元,可通過投影輪廓的坐標信息得到一維坐標信息,其中輪廓是指圖像単元的外邊界;並且第一識別單元601對圖像単元進行識別所獲得的識別編碼信息是標準漢字的數字表示,例如可採用漢字國際擴展碼GBK或者採用統ー碼UNICODE表示,每個識別編碼信息對應ー個漢字。在第一識別單元601對文本圖像進行切分和識別後,可能會由於錯誤切分而導致最終的錯誤識別,如圖2所示,對於「信」被切分為「イ」和「言」;對於「外」,被切分為「夕」和「卜」,並且切分後的圖像單元分別對應兩個標準漢字。雖然可採用
背景技術:
中的方法結合識別技術對錯誤切分的圖像單元進行檢測並修正,但是對於左右結構的漢字且切分後左部分和右部分均為標準漢字的情況,無法採用上述方法解決,但通過本發明實施例I的裝置,錯誤檢測單元602可利用多個圖像単元在文本圖像中的位置信息獲得的平均字寬(ACW)和識別編碼信息來檢測錯誤切分的圖像單元;並且錯誤修正単元603可對檢測出的相鄰的兩個錯誤切分的圖像單元進行合併,並且將合併後的圖像單元替換相鄰的兩個錯誤切分的圖像單元,從而提高識別精度,解決現有技術中存在的上述問題。在錯誤修正單元603對相鄰的兩個錯誤切分的圖像單元進行修正後,第二識別單元604可對修正後的圖像單元重新進行識別,從而獲得該修正後的圖像單元對應的識別編碼信息,這樣,將第一識別單元601獲得的識別編碼信息與第二識別單元602修正後的識別編碼信息相結合,最終可獲得對該文本圖像進行識別的識別編碼信息。在本實施例中,該裝置還可包括文字輸出單元(未示出),用於將第一識別單元601和第二識別單元602獲得的該識別編碼信息對應的標準漢字輸出。在上述實施例中,第一識別單元601和第二識別單元604可採用OCR引擎實現,具體的切分和識別方式與現有技術類似,此處不再贅述。在上述實施例中,各個單元可使用邏輯部件構成,該邏輯部件例如為現場可編程邏輯部件、微處理器、計算機中使用的處理器等。由上述實施例可知,通過對文本圖像進行切分和識別以獲得識別信息,利用該識別信息中的識別編碼信息和圖像單元位置信息查找錯誤切分的圖像單元,合併相鄰的錯誤切分的圖像單元,並將合併的圖像単元替換該切分錯誤的圖像單元,從而可提高識別精度,解決現有技術中存在的問題。在上述實施例中,錯誤檢測單元602可利用多個圖像単元在文本圖像中的位置信息獲得的平均字寬(ACW)和識別編碼信息來檢測錯誤切分的圖像單元。圖7是圖6所示的錯誤檢測單元的構成示意圖。如圖7所示,錯誤檢測單元602可具體包括字寬計算単元701和檢測單元702;其中,字寬計算単元701,用於利用第一識別單元601獲得的位置信息確定平均字寬(ACff);檢測單元702,用於利用第一識別單元601獲得的識別編碼信息和平均字寬對多個圖像單元逐一進行檢測,以找到半字寬(HWS)的圖像單元,該半字寬的圖像単元為檢測出的錯誤切分的圖像單元。通過識別編碼信息和利用位置信息獲得的平均字寬可檢測出錯誤切分的圖像單元,檢測方法簡單,解決了現有技術中無法檢測左右結構的標準漢字且左部分和右部分均為標準漢字的切分錯誤的問題。圖8是圖7中字寬計算單元701的構成示意圖。如圖7所示,字寬計算單元701包括寬度計算單元801、排序單元802和字寬確定単元803;其中,寬度計算單元801,用於利用第一識別單元701獲得的位置信息計算出每個圖像単元的寬度;排序單元802,用於將所有圖像單元的寬度置於ー個數組並進行排序;字寬確定單元803用於將數組中的中位數作為平均字寬。在上述實施例中,若圖像單元採用矩形表示,則各個圖像單元在文本圖像中的位置信息可以通過各個圖像単元在ー維方向上的坐標信息表示,這樣通過每個圖像單元所在的矩形的邊長的兩個端點在ー維方向上的坐標值來計算每個圖像単元的寬度。圖9是本發明實施例I中各個圖像單元的位置信息示意圖(單位為cm)。如圖9所示,例如第一個圖像単元「イ」所在矩形的邊長的兩個端點的坐標值分別為(0,0.5),第ニ個圖像単元「言」所在矩形的邊長的兩個端點的坐標值分別為(0.5,I.5),第三個圖像單元「息」所在矩形的邊長的兩個端點的坐標值分別為(I.5,3.0),依次類推。這樣,寬度計算單元801可根據上述坐標值分別計算出各個圖像単元的寬度,如第一個圖像単元的寬度為0.5,第二個圖像単元的寬度為I.0,第三個圖像単元的寬度為I.5,依次類推,可計算出所有圖像單元的寬度。排序單元802將所有圖像單元的寬度置於ー個數組並進行排序,其中,可按照寬度從小到大或者從大到小的順序進行排序。字寬確定単元803可將數組中的中位數作為平均字寬,若寬度個數為奇數個,可取中間的值作為中位數,若寬度個數為偶數個,可取中間的兩個值其中之作為中位數,並將該中位數作為平均字寬(ACW)。圖10是圖7中檢測單元的構成示意圖。如圖10所示,在檢測單元702利用識別編碼信息和平均字寬對ー個圖像單元進行檢測時,檢測単元702包括第一判斷単元1001、第ニ判斷単元1002和第一確定單元1003;其中,第一判斷単元1001,用於判斷檢測的圖像單元對應的第一個候選識別編碼是否為標準漢字編碼,其中,該第一候選編碼為識別編碼信息中的第一個編碼信息,其對應的標準漢字為識別出的與實際的漢字最接近;第二判斷單元1002,用於在第一判斷単元1001的判斷結果為是時,判斷圖像單元的寬度是否小於平均字寬與預定參數的乘積,其中,預定參數為小於I且大於0的數值,其中,該預定參數可選擇0-1之間的任意數值,例如,可選擇2/3等;第一確定單元1003,用於在第二判斷単元1002的判斷結果為是時,確定檢測的圖像單元為半字寬的圖像単元(HWS),將該半字寬的圖像單元作為檢測出的錯誤切分的圖像單元。這樣,通過上述檢測單元可對所有的圖像單元進行檢測,最終獲得所有的錯誤切分的圖像單元。圖11是圖6中錯誤修正單元的構成示意圖。如圖10所示,錯誤修正單元603包括合併單兀1101和替換單兀1002;其中,合併單元1101,用於將檢測單元檢測出的相鄰的兩個半字寬的圖像單元進行合井;替換單元1102,用於將合併單元1101合併後的圖像單元替換該相鄰的兩個半字寬的圖像單元。通過上述方法,可將錯誤切分的圖像單元進行修正,尤其是對於左右結構的漢字且左右部分均為標準漢字的錯誤切分進行修正,最終提高識別精度。在上述實施例中,各個單元可使用邏輯部件構成,該邏輯部件例如為現場可編程邏輯部件、微處理器、計算機中使用的處理器等。由上述實施例可知,通過對文本圖像進行切分和識別以獲得識別信息,利用該識別信息中的識別編碼信息和圖像單元位置信息查找錯誤切分的圖像單元,合併相鄰的錯誤切分的圖像單元,並將合併的圖像単元替換該切分錯誤的圖像單元,從而可提高識別精度,解決現有技術中存在的問題。圖12是本發明實施例2的漢字識別方法流程圖。如圖12所示,該方法包括步驟1201,第一識別步驟,對文本圖像進行切分和識別,以獲得識別信息;其中,該識別信息包括對該文本圖像進行切分後獲得的多個圖像単元在該文本圖像中的位置信息、以及對該圖像單元進行識別獲得的識別編碼信息;步驟1202,錯誤檢測步驟,利用該識別信息中的該識別編碼信息和位置信息檢測錯誤切分的圖像單元;步驟1203,錯誤修正步驟,對檢測出的該錯誤切分的圖像單元進行修正;步驟1204,第二識別步驟,對修正後的該圖像單元進行識別,以獲得相應的識別編石馬ィ目息。·由上述實施例可知,通過對文本圖像進行切分和識別以獲得識別信息,利用該識別信息中的識別編碼信息和圖像單元位置信息查找錯誤切分的圖像單元,合併相鄰的錯誤切分的圖像單元,並將合併的圖像単元替換該切分錯誤的圖像單元,從而可提高識別精度,解決現有技術中存在的問題。在本實施例中,在步驟1202中,可利用多個圖像單元在文本圖像中的位置信息獲得的平均字寬(ACW)和識別編碼信息來檢測錯誤切分的圖像單元,可採用如下方式檢測錯誤切分的圖像單元利用該位置信息確定平均字寬;利用該識別編碼信息和該平均字寬對該多個圖像単元逐一進行檢測,以找到半字寬的圖像単元,其中該半字寬的圖像単元為檢測出的錯誤切分的圖像單元。其中,具體的利用該位置信息確定平均字寬的方法如實施例I中所述,可包括利用該位置信息計算出每個圖像単元的寬度;將所有圖像單元的寬度置於ー個數組並進行排序;將該數組中的中位數作為平均字寬。此外,在利用識別編碼信息和平均字寬對多個圖像単元中的一個圖像単元進行檢測時,可具體採用如下方式判斷檢測的該圖像単元對應的第一個候選識別編碼是否為標準漢字編碼;若判斷結果為是,則進一歩判斷該圖像単元的寬度是否小於該平均字寬與預定參數的乘積,其中,該預定參數為小於I且大於O的數值;若判斷結果為是,則確定檢測的該圖像單元為半字寬的圖像單元,此處,將半字寬的圖像単元作為錯誤切分的圖像單元。在本實施例中,在步驟1203中,可採用如下方式對相鄰的半字寬的圖像單元進行修正將檢測出的相鄰的兩個半字寬的圖像單元進行合併;將合併後的圖像單元替換該相鄰的兩個半字寬的圖像単元。以下結合具體的實例對本發明的漢字識別方法進行說明。圖13是本發明實施例3的漢字識別方法的應用實例流程圖,圖14是對文本圖像分別利用現有的OCR技術和本發明實施例的識別方法進行識別的識別結果示意圖。如圖13所示,該方法可包括步驟步驟1301,對文本圖像進行切分和識別,以獲得識別信息;其中,該識別信息包括對該文本圖像進行切分後獲得的多個圖像単元在該文本圖像中的位置信息、以及對該圖像單元進行識別獲得的識別編碼信息;其中,該識別編碼信息和位置信息如實施例I中所述,此處不再贅述。步驟1302,利用步驟1301中獲得的位置信息確定平均字寬;其中,具體包括利用該位置信息計算出每個圖像単元的寬度;將所有圖像單元的寬度置於ー個數組並進行排序;將該數組中的中位數作為平均字寬。步驟1303,利用該識別編碼信息和該平均字寬對該多個圖像単元逐一進行檢測,以找到半字寬的圖像単元,其中該半字寬的圖像単元為檢測出的錯誤切分的圖像單元;其中,在對多個圖像單元中的一個圖像單元進行檢測時,可採用如下方式判斷檢測的該圖像單元對應的第一個候選識別編碼是否為標準漢字編碼;若判斷結果為是,則進一歩判斷該圖像単元的寬度是否小於該平均字寬與預定參數的乘積,其中,該預定參數為小於I且大於O的數值;若判斷結果為是,則確定檢測的該圖像單元為半字寬的圖像単元,此處,將半字寬的圖像単元作為錯誤切分的圖像單元。步驟1304,將檢測出的相鄰的兩個半字寬的圖像單元進行合井。步驟1305,將合併後的圖像單元替換該相鄰的兩個半字寬的圖像単元。步驟1306,對修正後的該圖像單元進行識別,以獲得相應的識別編碼信息。步驟1307,輸出修正後的所有識別編碼信息對應的漢字;其中所有識別編碼信息可包括步驟1301中被修正的圖像單元以外的圖像單元對應的識別編碼信息、以及修正後的圖像單元對應的識別編碼信息。如圖14所示,在使用現有的OCR識別技術進行識別時,其識別結果見1401,其中,對於「外」被識別為「外」和「卜」;「信」被識別為「イ」和「育」,導致識別精度較低。如圖14所示,通過使用本發明實施例的上述識別方法,可對上述文本圖像進行精確的識別,減少識別錯誤的發生,見1402。由上述實施例可知,通過對文本圖像進行切分和識別以獲得識別信息,利用該識別信息中的識別編碼信息和圖像單元位置信息查找錯誤切分的圖像單元,合併相鄰的錯誤切分的圖像單元,並將合併的圖像単元替換該切分錯誤的圖像單元,從而可提高識別精度,解決現有技術中存在的問題。由上述實施例可知,通過對文本圖像進行切分和識別以獲得識別信息,利用該識別信息中的識別編碼信息和圖像單元位置信息查找錯誤切分的圖像單元,合併相鄰的錯誤切分的圖像單元,並將合併的圖像単元替換該切分錯誤的圖像單元,從而可提高識別精度,解決現有技術中存在的問題。本發明以上的裝置和方法可以由硬體實現,也可以由硬體結合軟體實現。本發明涉及這樣的計算機可讀程序,當該程序被邏輯部件所執行吋,能夠使該邏輯部件實現上文所述的裝置或構成部件,或使該邏輯部件實現上文所述的各種方法或步驟。該邏輯部件例如為現場可編程邏輯部件、微處理器、計算機中使用的處理器等。本發明還涉及用於存儲以上程序的存儲介質,如硬碟、磁碟、光碟、DVD、flash存儲器等。以上結合具體的實施方式對本發明進行了描述,但本領域技術人員應該清楚,這些描述都是示例性的,並不是對本發明保護範圍的限制。本領域技術人員可以根據本發明的精神和原理對本發明做出各種變型和修改,這些變型和修改也在本發明的範圍內。權利要求1.ー種漢字識別裝置,所述裝置包括第一識別單元,所述第一識別單元用於對文本圖像進行切分和識別,以獲得識別信息;其中,所述識別信息包括對所述文本圖像進行切分後獲得的多個圖像単元在所述文本圖像中的位置信息、以及對所述圖像単元進行識別所獲得的識別編碼信息;錯誤檢測單元,所述錯誤檢測單元用於利用所述第一識別單元獲得所述識別編碼信息和位置信息檢測錯誤切分的圖像單元;錯誤修正単元,所述錯誤修正単元用於對所述錯誤檢測單元檢測出的所述錯誤切分的圖像單元進行修正;第二識別單元,所述第二識別單元用於對所述錯誤修正単元修正後的所述圖像單元進行識別,以獲得相應的識別編碼信息。2.根據權利要求I所述的裝置,其中,所述錯誤檢測單元包括字寬計算単元,所述字寬計算單元用於利用所述第一識別單元獲得的位置信息確定平均字寬;檢測單元,所述檢測単元用於利用所述第一識別單元獲得的所述識別編碼信息和所述平均字寬對所述多個圖像單元逐一進行檢測,以找到半字寬的圖像単元,所述半字寬的圖像単元為檢測出的錯誤切分的圖像單元。3.根據權利要求2所述的裝置,其中,所述字寬計算單元包括寬度計算單元,所述寬度計算單元用於利用所述第一識別單元獲得的位置信息計算出每個圖像単元的寬度;排序單元,所述排序単元用於將所有圖像單元的寬度置於ー個數組並進行排序;字寬確定単元,所述字寬確定單元用於將所述數組中的中位數作為平均字寬。4.根據權利要求2所述的裝置,其中,所述檢測単元利用所述識別編碼信息和平均字寬對ー個圖像單元進行檢測時,包括第一判斷単元,所述第一判斷単元用於判斷檢測的所述圖像単元對應的第一個候選識別編碼是否為標準漢字編碼;第二判斷単元,所述第二判斷単元用於在所述第一判斷単元的判斷結果為是時,判斷所述圖像単元的寬度是否小於所述平均字寬與預定參數的乘積,其中,所述預定參數為小於I且大於O的數值;第一確定單元,所述第一確定單元用於在所述第二判斷単元的判斷結果為是時,確定檢測的所述圖像單元為半字寬的圖像単元。5.根據權利要求2所述的裝置,其中,所述錯誤修正単元包括合併單元,所述合併単元用於將所述檢測単元檢測出的相鄰的兩個半字寬的圖像単元進行合併;替換單元,所述替換単元用於將所述合併単元合併後的圖像單元替換所述相鄰的兩個半字寬的圖像単元。6.ー種漢字識別方法,所述方法包括第一識別步驟,對文本圖像進行切分和識別,以獲得識別信息;其中,所述識別信息包括對所述文本圖像進行切分後獲得的多個圖像単元在所述文本圖像中的位置信息、以及對所述圖像單元進行識別獲得的識別編碼信息;錯誤檢測步驟,利用所述識別信息中的所述識別編碼信息和位置信息檢測錯誤切分的圖像單元;錯誤修正步驟,對檢測出的所述錯誤切分的圖像單元進行修正;第二識別步驟,對修正後的所述圖像單元進行識別,以獲得相應的識別編碼信息。7.根據權利要求6所述的方法,其中,所述錯誤檢測步驟包括利用所述位置信息確定平均字寬;利用所述識別編碼信息和所述平均字寬對所述多個圖像單元逐一進行檢測,以找到半字寬的圖像単元,其中所述半字寬的圖像単元為檢測出的錯誤切分的圖像單元。8.根據權利要求7所述的方法,其中,所述利用識別編碼信息和平均字寬對ー個圖像單元進行檢測時,包括判斷檢測的所述圖像単元對應的第一個候選識別編碼是否為標準漢字編碼;若判斷結果為是,則進一歩判斷所述圖像単元的寬度是否小於所述平均字寬與預定參數的乘積,其中,所述預定參數為小於I且大於O的數值;若判斷結果為是,則確定檢測的所述圖像單元為半字寬的圖像単元。9.根據權利要求7所述的方法,其中,所述利用位置信息獲得平均字寬,包括利用所述位置信息計算出每個圖像単元的寬度;將所有圖像單元的寬度置於ー個數組並進行排序;將所述數組中的中位數作為平均字寬。10.根據權利要求7所述的方法,其中,所述錯誤修正步驟包括將檢測出的相鄰的兩個半字寬的圖像單元進行合併;將合併後的圖像單元替換所述相鄰的兩個半字寬的圖像單元。全文摘要本發明提供一種漢字識別裝置和方法,該裝置包括第一識別單元用於對文本圖像進行切分和識別,以獲得識別信息;錯誤檢測單元,用於利用該第一識別單元獲得識別信息中圖像單元的位置信息和識別編碼信息檢測錯誤切分的圖像單元;錯誤修正單元,用於對該錯誤檢測單元檢測出的該錯誤切分的圖像單元進行修正;第二識別單元,用於對該錯誤修正單元修正後的該圖像單元進行識別,以獲得相應的識別編碼信息。通過本發明實施例,利用對文本圖像進行識別後獲得的識別信息中的識別編碼信息和圖像單元位置信息檢測錯誤切分的圖像單元並對錯誤切分的圖像單元進行修正,從而可提高識別精度,解決現有技術中存在的問題。文檔編號G06K9/20GK102867178SQ20111018713公開日2013年1月9日申請日期2011年7月5日優先權日2011年7月5日發明者徐文權,河源,孫俊,於浩,直井聰申請人:富士通株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀