新四季網

基於掩膜的圖像表格文檔識別方法

2023-11-01 09:32:37 1

基於掩膜的圖像表格文檔識別方法
【專利摘要】本發明公開了一種基於掩膜的圖像表格文檔識別方法,包括以下步驟:第一步,表格文檔圖像預處理;第二步,表格文檔圖像掩膜製作;第三步,針對不同的表格文檔圖像,重複上述第一步和第二步,製作成表格文檔圖像掩膜庫;第四步,掩膜匹配;第五步,局部表格文檔圖片分割識別。本發明將切碎的微小圖像進行內容識別,單個微小圖像在糾偏、去噪和去除圖片底色後便於目前成熟OCR產品高效識別,省去了OCR產品對整張原始圖像的版面分析過程。本發明提高了圖像表格文檔識別效率,去除了整版版面分析的時間浪費,整體的有效識別率提高,處理速度加快,提高了圖像表格文檔的識別準確率。總之,本發明識別準確率高,識別效率高。
【專利說明】基於掩膜的圖像表格文檔識別方法

【技術領域】
[0001] 本發明涉及一種版式文檔圖像表格識別方法,尤其涉及一種基於掩膜的圖像表格 文檔識別方法。

【背景技術】
[0002] 現有的圖像表格文檔識別都是基於整個版面分析後做識別。這些方案都是以OCR/ ICR引擎為核心。對文檔整個版面按照"基於連通區域的版面分割算法"或者是"膨脹版面 分析算法"進行版面分析後逐條對識別字符進行識別。但對整體的識別效率和準確率,特 別是對有統一樣式圖像超高識別率要求的特別域一即有效識別率及效率,沒有做考慮和設 計。同時,由於OCR / ICR的效率問題,往往處理速度較慢,無法應對高時效的要求。


【發明內容】

[0003] 本發明所要解決的技術問題是針對上述現有技術的不足,提供一種識別準確性 商、識別效率商的基於掩I旲的圖像表格文檔識別方法。
[0004] 為實現上述技術目的,本發明米取的技術方案為:一種基於掩膜的圖像表格文檔 識別方法,包括以下步驟: 第一步,表格文檔圖像預處理:採用權平均法對表格文檔圖像進行灰度化處理,然後採 用最大類間方差方法對表格文檔圖像進行二值化處理,以對表格線進行糾偏,形成預處理 表格文檔圖像; 第二步,表格文檔圖像掩膜製作:首先,掃描並且識別預處理表格文檔圖像,並對掃描 的預處理表格文檔圖像結果進行二值化,以完成糾偏和去噪;然後,用圖像工具去除預處理 表格文檔圖像的單元格內的具體內容,只保留版面分隔的表格線信息,製作成表格文檔圖 像掩膜;所述表格文檔圖像掩膜用於和表格文檔圖像進行試匹配,以驗證掩膜的準確性; 第三步,針對不同的表格文檔圖像,重複上述第一步和第二步,製作成表格文檔圖像掩 膜庫; 第四步,掩膜匹配:首先,針對現實中包含數據的表格文檔圖像,採用第一步的方法進 行處理,形成預處理表格文檔圖像;其次,對預處理表格文檔圖像進行掩膜匹配:1)根據預 處理表格文檔圖像不同的特徵對預處理表格文檔圖像加以區分和分類;2)然後,將表格文 檔圖像掩膜庫中的各個表格文檔圖像掩膜依次與預處理表格文檔圖像通過Hausdorff算 法進行覆蓋匹配,形成添加了掩膜的預處理表格文檔圖像;3)再將添加了掩膜的預處理表 格文檔圖像進行保存並且傳遞給下一步進行處理; 第五步,局部表格文檔圖片分割識別:首先,對於已經完成掩膜匹配的預處理表格文檔 圖像,根據匹配的表格文檔圖像掩膜的坐標信息對被掩膜成功覆蓋的預處理文檔進行局部 定位,所述坐標信息中包含每個單元格的4個坐標點信息;所述局部定位是指根據表格文 檔圖像掩膜中的各個單元格的坐標信息鎖定目標文檔的內容;其次,在局部圖像信息鎖定 後進行切碎處理,形成微小圖像;所述微小圖像的大小取決於單元格內的具體內容的大小; 然後,進一步對切碎的微小圖像進行內容識別。
[0005] 作為本發明進一步改進的技術方案,所述文檔圖像與處理包括以下步驟:1)文檔 圖像的二值化:用於將表格文檔圖像處理成黑和白兩種顏色;2)對文檔圖像的水平線識別 處理:用於定位表格文檔圖像中表格的所有水平線的坐標位置;3)對文檔圖像的垂直線識 別處理:定位表格文檔圖像中表格的所有垂直的坐標位置;4)對文檔圖像的垂直線糾偏處 理:用於還原表格文檔圖像真實的形狀;5)對文檔圖像水平線糾偏處理:用於還原表格文 檔圖像真實的形狀; 作為本發明進一步改進的技術方案,HausdorfT最小距離算法的表達式為:

【權利要求】
1. 一種基於掩膜的圖像表格文檔識別方法,包括以下步驟: 第一步,表格文檔圖像預處理:採用權平均法對表格文檔圖像進行灰度化處理,然後採 用最大類間方差方法對表格文檔圖像進行二值化處理,以對表格線進行糾偏,形成預處理 表格文檔圖像; 第二步,表格文檔圖像掩膜製作: 首先,掃描並且識別預處理表格文檔圖像,並對掃描的預處理表格文檔圖像結果進行 二值化,以完成糾偏和去噪; 然後,用圖像工具去除預處理表格文檔圖像的單元格內的具體內容,只保留版面分隔 的表格線信息,製作成表格文檔圖像掩膜;所述表格文檔圖像掩膜用於和表格文檔圖像進 行試匹配,以驗證掩膜的準確性; 第三步,針對不同的表格文檔圖像,重複上述第一步和第二步,製作成表格文檔圖像掩 膜庫; 第四步,掩膜匹配: 首先,針對現實中包含數據的表格文檔圖像,採用第一步的方法進行處理,形成預處理 表格文檔圖像; 其次,對預處理表格文檔圖像進行掩膜匹配: 1) 根據預處理表格文檔圖像不同的特徵對預處理表格文檔圖像加以區分和分類; 2) 然後,將表格文檔圖像掩膜庫中的各個表格文檔圖像掩膜依次與預處理表格文檔圖 像通過Hausdorff算法進行覆蓋匹配,形成添加了掩膜的預處理表格文檔圖像; 3) 再將添加了掩膜的預處理表格文檔圖像進行保存並且傳遞給下一步進行處理; 第五步,局部表格文檔圖片分割識別: 首先,對於已經完成掩膜匹配的預處理表格文檔圖像,根據匹配的表格文檔圖像掩膜 的坐標信息對被掩膜成功覆蓋的預處理文檔進行局部定位,所述坐標信息中包含每個單元 格的4個坐標點信息;所述局部定位是指根據表格文檔圖像掩膜中的各個單元格的坐標信 息鎖定目標文檔的內容; 其次,在局部圖像信息鎖定後進行切碎處理,形成微小圖像;所述微小圖像的大小取決 於單元格內的具體內容的大小; 然後,進一步對切碎的微小圖像進行內容識別。
2. 根據權利要求1所述的基於模板的圖像表格文檔識別方法,其特徵在於所述文檔圖 像與處理包括以下步驟: 1) 文檔圖像的二值化:用於將表格文檔圖像處理成黑和白兩種顏色; 2) 對文檔圖像的水平線識別處理:用於定位表格文檔圖像中表格的所有水平線的坐標 位置; 3) 對文檔圖像的垂直線識別處理:定位表格文檔圖像中表格的所有垂直的坐標位置; 4) 對文檔圖像的垂直線糾偏處理:用於還原表格文檔圖像真實的形狀;由於掃描圖像 過程中圖像會出現不同程度的扭曲,該步驟為了); 5) 對文檔圖像水平線糾偏處理:用於還原表格文檔圖像真實的形狀。
3. 根據權利要求1所述的基於模板的圖像表格文檔識別方法,其特徵在於Hausdorff 最小距離算法的表達式為: Η = (Α.Β) = imx(k(A.B)Ji(B.Aj) 這裡, Μ A. Β) = max mill I a-b 其中A和B為兩組點集,及集合A={al,《",ap},集合B={bl,…,bq},H(A,B)兩組點集 之間距離的一種定義形式,用於描述兩組點集之間相似程度的一種量度。
【文檔編號】G06K9/00GK104123527SQ201310145105
【公開日】2014年10月29日 申請日期:2013年4月25日 優先權日:2013年4月25日
【發明者】魏昊, 張磊 申請人:魏昊, 張磊

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀