基於掩膜的圖像表格文檔識別方法
2023-11-01 09:32:37 2
基於掩膜的圖像表格文檔識別方法
【專利摘要】本發明公開了一種基於掩膜的圖像表格文檔識別方法,包括以下步驟:第一步,表格文檔圖像預處理;第二步,表格文檔圖像掩膜製作;第三步,針對不同的表格文檔圖像,重複上述第一步和第二步,製作成表格文檔圖像掩膜庫;第四步,掩膜匹配;第五步,局部表格文檔圖片分割識別。本發明將切碎的微小圖像進行內容識別,單個微小圖像在糾偏、去噪和去除圖片底色後便於目前成熟OCR產品高效識別,省去了OCR產品對整張原始圖像的版面分析過程。本發明提高了圖像表格文檔識別效率,去除了整版版面分析的時間浪費,整體的有效識別率提高,處理速度加快,提高了圖像表格文檔的識別準確率。總之,本發明識別準確率高,識別效率高。
【專利說明】基於掩膜的圖像表格文檔識別方法
【技術領域】
[0001] 本發明涉及一種版式文檔圖像表格識別方法,尤其涉及一種基於掩膜的圖像表格 文檔識別方法。
【背景技術】
[0002] 現有的圖像表格文檔識別都是基於整個版面分析後做識別。這些方案都是以OCR/ ICR引擎為核心。對文檔整個版面按照"基於連通區域的版面分割算法"或者是"膨脹版面 分析算法"進行版面分析後逐條對識別字符進行識別。但對整體的識別效率和準確率,特 別是對有統一樣式圖像超高識別率要求的特別域一即有效識別率及效率,沒有做考慮和設 計。同時,由於OCR / ICR的效率問題,往往處理速度較慢,無法應對高時效的要求。
【發明內容】
[0003] 本發明所要解決的技術問題是針對上述現有技術的不足,提供一種識別準確性 商、識別效率商的基於掩I旲的圖像表格文檔識別方法。
[0004] 為實現上述技術目的,本發明米取的技術方案為:一種基於掩膜的圖像表格文檔 識別方法,包括以下步驟: 第一步,表格文檔圖像預處理:採用權平均法對表格文檔圖像進行灰度化處理,然後採 用最大類間方差方法對表格文檔圖像進行二值化處理,以對表格線進行糾偏,形成預處理 表格文檔圖像; 第二步,表格文檔圖像掩膜製作:首先,掃描並且識別預處理表格文檔圖像,並對掃描 的預處理表格文檔圖像結果進行二值化,以完成糾偏和去噪;然後,用圖像工具去除預處理 表格文檔圖像的單元格內的具體內容,只保留版面分隔的表格線信息,製作成表格文檔圖 像掩膜;所述表格文檔圖像掩膜用於和表格文檔圖像進行試匹配,以驗證掩膜的準確性; 第三步,針對不同的表格文檔圖像,重複上述第一步和第二步,製作成表格文檔圖像掩 膜庫; 第四步,掩膜匹配:首先,針對現實中包含數據的表格文檔圖像,採用第一步的方法進 行處理,形成預處理表格文檔圖像;其次,對預處理表格文檔圖像進行掩膜匹配:1)根據預 處理表格文檔圖像不同的特徵對預處理表格文檔圖像加以區分和分類;2)然後,將表格文 檔圖像掩膜庫中的各個表格文檔圖像掩膜依次與預處理表格文檔圖像通過Hausdorff算 法進行覆蓋匹配,形成添加了掩膜的預處理表格文檔圖像;3)再將添加了掩膜的預處理表 格文檔圖像進行保存並且傳遞給下一步進行處理; 第五步,局部表格文檔圖片分割識別:首先,對於已經完成掩膜匹配的預處理表格文檔 圖像,根據匹配的表格文檔圖像掩膜的坐標信息對被掩膜成功覆蓋的預處理文檔進行局部 定位,所述坐標信息中包含每個單元格的4個坐標點信息;所述局部定位是指根據表格文 檔圖像掩膜中的各個單元格的坐標信息鎖定目標文檔的內容;其次,在局部圖像信息鎖定 後進行切碎處理,形成微小圖像;所述微小圖像的大小取決於單元格內的具體內容的大小; 然後,進一步對切碎的微小圖像進行內容識別。
[0005] 作為本發明進一步改進的技術方案,所述文檔圖像與處理包括以下步驟:1)文檔 圖像的二值化:用於將表格文檔圖像處理成黑和白兩種顏色;2)對文檔圖像的水平線識別 處理:用於定位表格文檔圖像中表格的所有水平線的坐標位置;3)對文檔圖像的垂直線識 別處理:定位表格文檔圖像中表格的所有垂直的坐標位置;4)對文檔圖像的垂直線糾偏處 理:用於還原表格文檔圖像真實的形狀;5)對文檔圖像水平線糾偏處理:用於還原表格文 檔圖像真實的形狀; 作為本發明進一步改進的技術方案,HausdorfT最小距離算法的表達式為:
【權利要求】
1. 一種基於掩膜的圖像表格文檔識別方法,包括以下步驟: 第一步,表格文檔圖像預處理:採用權平均法對表格文檔圖像進行灰度化處理,然後採 用最大類間方差方法對表格文檔圖像進行二值化處理,以對表格線進行糾偏,形成預處理 表格文檔圖像; 第二步,表格文檔圖像掩膜製作: 首先,掃描並且識別預處理表格文檔圖像,並對掃描的預處理表格文檔圖像結果進行 二值化,以完成糾偏和去噪; 然後,用圖像工具去除預處理表格文檔圖像的單元格內的具體內容,只保留版面分隔 的表格線信息,製作成表格文檔圖像掩膜;所述表格文檔圖像掩膜用於和表格文檔圖像進 行試匹配,以驗證掩膜的準確性; 第三步,針對不同的表格文檔圖像,重複上述第一步和第二步,製作成表格文檔圖像掩 膜庫; 第四步,掩膜匹配: 首先,針對現實中包含數據的表格文檔圖像,採用第一步的方法進行處理,形成預處理 表格文檔圖像; 其次,對預處理表格文檔圖像進行掩膜匹配: 1) 根據預處理表格文檔圖像不同的特徵對預處理表格文檔圖像加以區分和分類; 2) 然後,將表格文檔圖像掩膜庫中的各個表格文檔圖像掩膜依次與預處理表格文檔圖 像通過Hausdorff算法進行覆蓋匹配,形成添加了掩膜的預處理表格文檔圖像; 3) 再將添加了掩膜的預處理表格文檔圖像進行保存並且傳遞給下一步進行處理; 第五步,局部表格文檔圖片分割識別: 首先,對於已經完成掩膜匹配的預處理表格文檔圖像,根據匹配的表格文檔圖像掩膜 的坐標信息對被掩膜成功覆蓋的預處理文檔進行局部定位,所述坐標信息中包含每個單元 格的4個坐標點信息;所述局部定位是指根據表格文檔圖像掩膜中的各個單元格的坐標信 息鎖定目標文檔的內容; 其次,在局部圖像信息鎖定後進行切碎處理,形成微小圖像;所述微小圖像的大小取決 於單元格內的具體內容的大小; 然後,進一步對切碎的微小圖像進行內容識別。
2. 根據權利要求1所述的基於模板的圖像表格文檔識別方法,其特徵在於所述文檔圖 像與處理包括以下步驟: 1) 文檔圖像的二值化:用於將表格文檔圖像處理成黑和白兩種顏色; 2) 對文檔圖像的水平線識別處理:用於定位表格文檔圖像中表格的所有水平線的坐標 位置; 3) 對文檔圖像的垂直線識別處理:定位表格文檔圖像中表格的所有垂直的坐標位置; 4) 對文檔圖像的垂直線糾偏處理:用於還原表格文檔圖像真實的形狀;由於掃描圖像 過程中圖像會出現不同程度的扭曲,該步驟為了); 5) 對文檔圖像水平線糾偏處理:用於還原表格文檔圖像真實的形狀。
3. 根據權利要求1所述的基於模板的圖像表格文檔識別方法,其特徵在於Hausdorff 最小距離算法的表達式為: Η = (Α.Β) = imx(k(A.B)Ji(B.Aj) 這裡, Μ A. Β) = max mill I a-b 其中A和B為兩組點集,及集合A={al,《",ap},集合B={bl,…,bq},H(A,B)兩組點集 之間距離的一種定義形式,用於描述兩組點集之間相似程度的一種量度。
【文檔編號】G06K9/00GK104123527SQ201310145105
【公開日】2014年10月29日 申請日期:2013年4月25日 優先權日:2013年4月25日
【發明者】魏昊, 張磊 申請人:魏昊, 張磊