新四季網

通用表格識別方法

2023-09-17 01:17:05

專利名稱:通用表格識別方法
技術領域:
本發明涉及一種識別方法,尤其是涉及一種在各類調查、測評、統計、選舉工作中 用於識別各種填塗表格的方法。
背景技術:
隨著社會的信息化和經濟社會的不斷發展,人們面臨著越來越多的填塗表格的處 理,特別是在各類調查、測評、統計、選舉工作中,傳統的人工對各種填塗表格的處理方法在 時效性和準確性方面已經不能滿足現實的需要。

發明內容
為了克服現有技術的上述缺點,本發明提供了一種通用表格識別方法,利用掃描 儀和計算機,能快速、準確地對各種填塗表格進行識別,並將識別結果保存在計算機中,供 用戶隨時、方便地作進一步的統計分析和處理。本發明解決其技術問題所採用的技術方案是一種通用表格識別方法,包括以下 步驟
第一步,用掃描儀將各種樣表掃描成圖像文件存儲在計算機硬碟中; 第二步,製作表格模式文件裝載計算機硬碟上存儲的樣表圖像文件,製作各種類型的 表格模式,並以mod格式保存表格模式文件
首先裝載計算機硬碟上存儲的樣表圖像文件,並將圖像在界面上顯示出來; 圖像裝載完成後,通過軟體使計算機自動生成與裝載圖像文件數量一致的頁面樹形列 表,使得點擊樹形列表的每一個頁面項即可以顯示該頁面的圖像信息;然後採用如下步驟 製作各頁面的表格模式
第一個步驟是指定定位塊,具體方法是使用框選工具在表格圖像中框選任意的文字, 選定以後通過軟體將被框選的圖像內容剪切、顯示出來,並提示用戶錄入該表格的類型標 示名稱;
第二個步驟是指定該表格需要識別的區域,運用標記塊自動搜索技術,自動搜索樣表 中指定區域內所有的標記塊,獲取每一個標記塊的關鍵信息,並與基準定位點坐標通過坐 標換算得到每一目標標記塊的相對坐標,以上這些信息都作為模式信息存入表格模式文件 中;
表格模式製作完成以後,通過軟體使計算機自動生成對應的、用於記錄表格識別結果 的Excel文檔;
第三步,用掃描儀將填塗完成後的每一份統計用表掃描成圖像文件存儲在計算機硬碟
中;
第四步,表格識別及識別結果保存
首先需要裝載第二步製作的表格模式文件和該模式文件對應的Excel文檔,然後通過 識別嚮導從計算機磁碟文件中選擇需要進行識別的表格圖像文件列表,對列表中的每一份待識別表格圖像文件進行識別處理,並將識別結果以字符串形式輸入Excel文檔表格中。在第二步所述的裝載樣表圖像文件時,可以通過在每一個樣表上設置區別於其他 樣表的、表示其表格類型的任意字母或文字,來實現一次裝載多幅樣表圖像文件。在第四步所述的對每一份待識別表格圖像文件進行識別的步驟如下
(1)首先使用表格模式中的所有表格標誌塊模板對待識別圖像進行模板匹配與識別, 根據匹配和識別結果判斷表格圖像的類型以及正反倒順的方向信息,若表格圖像的方向不 是標準方向時,則需運用旋轉算法將表格圖像調整到標準方向;
(2)然後識別和計算該表格圖像中的表格標誌塊在圖像坐標系中的絕對坐標,將該坐 標作為基準定位點坐標,並與該表格類型模式中的每一個目標識別區域的相對坐標進行坐 標換算,以得到該圖像中所有目標識別區域在圖像坐標系中的絕對坐標;
(3)按照順序對每一個目標識別區域進行圖像識別,判斷其填塗情況,並根據填塗情況 生成字符串;
(4)將生成的字符串存入Excel文件對應的表格頁面中。當統計用表是全黑白時,則運用標記塊智能識別技術,在模式製作過程中,自動獲 取標記塊的邊框及內部的符號信息,並在識別過程中將目標圖像中的邊框及內部符號信息 進行消除操作,只保留用戶的填塗信息;在此基礎上再進行標記塊是否填塗的判斷。與現有技術相比,本發明的積極效果是集實用性和靈活性於一體,大大簡化人們 的文檔處理手段,提高表格分析的效率,具有非常廣闊的應用前景,具體表現在
1、最方便的表格製作根據輸入表格圖像迅速確定閱讀範圍,模板製作方便,紙張適應 範圍廣。2、最精確的信息提取快速捕捉待處理圖像中的標記(Mark)信息塊,並以字符串 的形式給出精確的識別結果。3、最靈活的功能擴展根據用戶需要靈活設置表格樣式,實現任意規則的表格數 據提取和統計分析。4、最簡單的運行維護只需一名操作人員即可完成整套系統的所有操作。5、適用範圍廣,能應用於各類調查、測評、統計和選舉工作。6、表格設計靈活,製作方便,設計好後用普通印表機列印出黑白表格即可正式使 用,用戶只需在相應的選項上進行簡單填塗,系統即可有效識別。7、支持票種標誌設置,輕鬆區別各類選票。用戶可根據實際需要設計多種選票,並 最終生成一個模板文件。識別時調用該模板文件,即可通過不同的票種標誌,得出不同選票 的結果。


本發明將通過例子並參照附圖的方式說明,其中 圖1是本發明方法的流程圖2是填塗後的統計用表示意圖; 圖3是測評結果示例。
具體實施例方式一種通用表格識別方法,如圖1所示,包括如下步驟
第一步,用掃描儀將各種樣表掃描成圖像文件存儲在計算機硬碟中; 第二步,製作表格模式文件裝載計算機硬碟上存儲的樣表圖像文件,製作各種類型的 表格模式,並以mod格式保存表格模式文件。首先裝載計算機硬碟上存儲的樣表圖像文件,並將圖像在界面上顯示出來。在裝 載圖像文件時可以一次裝載多幅樣表圖像,前提條件是每一個樣表上都有區別於其他樣表 的、表示其表格類型的任意字母或文字。圖像裝載完成後,通過軟體使計算機自動生成與裝載圖像文件數量一致的頁面樹 形列表,點擊該樹形列表的每一個頁面項即可以顯示該頁面的圖像信息。然後就可以製作 該頁面的表格模式了。現有技術中,通常的表格模式製作需要採集3個方面的信息
1.表格的類型信息若要實現在同一次識別過程中同時混合識別多種表格,則必須提 取表格的類型信息用以在識別過程中區分不同的表格類型。通常的表格模式製作方法需要 在不同的表格中加入特殊的符號信息(字符、圖形組合、條碼),以此來區分不同的表格。2.表格正反倒順標誌信息由於在實際表格識別的過程中,一般情況下要保證所 有表格圖像的正反倒順方向一致是比較困難的,因此需要識別系統能夠自動識別表格圖像 的方向信息。這也就需要表格模式中提供表格正反倒順的標誌信息以便在識別過程中能夠 自動識別。通常的表格模式製作方法需要在表格中加入多個特殊符號用於表格方向的判別。3.表格目標識別區域坐標在正式填塗用表的製作過程以及表格圖像採集過程中 存在一定的差異性(列印、印刷、掃描儀走紙系統存在差異),使得每一張表格圖像中需要識 別的目標區域在表格圖像坐標中的絕對位置存在一定的差異,而目標區域相對於表格圖像 中某一點的相對坐標通常情況下是不會改變的,因此通常不會直接使用目標區域絕對坐標 作為識別過程中的定位依據,一般是通過在表格中選擇一個基準定位點,然後記錄表格中 所有目標區域相對於該基準點的坐標。在識別過程中首先搜索基準定位點,然後再通過各 目標區域的相對坐標換算出目標區域在實際表格圖像中的絕對坐標,從而實現精確定位。 通常的表格模板製作方法一般是首先指定某一位置上特殊的符號作為基準定位點,並通過 手工描邊的方式記錄該定位點的具體坐標;然後再通過描邊的方式勾畫出每一個目標識別 區域的位置;最後通過坐標換算計算出每一個目標識別區域相對於基準定位點的相對坐 標,並記錄到表格模板文件中。綜上所述,現有技術中,一般的表格模式製作方法有以下兩個特點
1.需要在表格上設置多個特殊符號以用於分別實現對表格類型的判定、表格正反倒順 方向判定、基準定位點的設置和判定,這就對表格的設計提出了一定的要求,無法實現對任 意表格的識別。2.需要操作人員以手工描邊的形式採集每一個基準定位點和目標識別區域的坐 標信息,當表格中目標識別區域較多的時候這種做法會極大地增加操作人員的工作量和模 板採集出錯的概率,效率十分低下。本發明針對這兩個問題進行了改進,本發明當中的表格模式製作分為兩個步驟 第一個步驟是指定定位塊,具體方法是使用框選工具在表格圖像中框選任意的文字,選定以後通過軟體將被框選的圖像內容剪切、顯示出來,並提示用戶錄入該表格的類型標 示名稱。該步驟完成以後即會同時完成三方面信息的收集表格類型信息、表格正反倒順 標誌信息、表格的基準定位點。在這個步驟中本發明運用了自由模板提取與識別技術,將各 種樣表當中的任意區別於其他樣表的字符、圖形等元素作為表格標誌提取並保存下來,作 為對該表格類型的判別依據,以供表格識別過程中對被識別的表格圖像進行模式識別與匹 配,並判斷該被識別的表格屬於哪一類表格;同時該標誌在表格中所處的位置也作為表格 正反倒順標誌信息保存到表格模板中;該標誌的中心點坐標作為表格基準定位點保存到表 格模板中。表格模式製作的第二個步驟是指定該表格需要識別的區域,在這一步驟中本發明 運用標記(Mark)塊自動搜索技術,自動搜索樣表中指定區域內所有的標記塊,獲取每一個 標記塊的絕對坐標、大小等關鍵信息,並與基準定位點坐標通過坐標換算得到每一目標標 記塊的相對坐標,以上這些信息都作為模式信息存入表格模式文件中。標記塊自動搜索技 術的引入大大簡化了模式製作的操作過程,使用者不需要指定定位信息,也不需要勾畫每 一個Mark塊,只需要在界面中指定需要搜索Mark塊的區域即可以獲取該區域中所有Mark 塊的模式信息。表格模式製作完成以後,通過軟體使計算機自動生成對應的、用於記錄表格識別 結果的Excel文檔。在初始狀態下該Excel文檔僅包括用於存儲表格模式中每一個表格結 果信息的頁面。用戶可以在該文檔中添加用於計算、統計的頁面,並設置相應的公式或宏, 以便在識別過程中可以實時計算和統計表格結果。第三步,用掃描儀將填塗完成後的每一份統計用表掃描成圖像文件存儲在計算機 硬碟中;
表格的填塗方式如圖2所示。表格填寫簡單,只需塗黑相應選項,系統即可精確識別, 並以字符串的形式給出結果。第四步,表格識別及識別結果保存
首先需要裝載第二步製作的表格模式文件和該模式文件對應的Excel文檔,然後通過 識別嚮導從計算機磁碟文件中選擇需要進行識別的表格圖像文件列表,對列表中的每一份 待識別表格圖像文件進行識別處理,並將識別結果以字符串形式輸入Excel文檔表格中。對每一張表格圖像的識別步驟如下
1.首先使用表格模式中的所有表格標誌塊模板對待識別圖像進行模板匹配與識別,根 據匹配和識別結果判斷該表格圖像的類型以及正反倒順的方向信息,若該圖像的方向不是 標準的方向,則還需要運用旋轉算法將圖像調整到標準方向。2.然後識別和計算該表格圖像中的表格標誌塊在圖像坐標系中的絕對坐標,將該 坐標作為基準定位點坐標,並與該表格類型模式中的每一個目標識別區域的相對坐標進行 坐標換算,以得到該圖像中所有目標識別區域在圖像坐標系中的絕對坐標。 3.按照順序對每一個目標識別區域進行圖像識別,判斷其填塗情況,並根據填塗 情況生成01字符串(其中0表示該目標識別區域未填塗,1表示該目標識別區域已填塗),如 在圖2所示表格中,填塗項為D,則輸出結果為「0001」;填塗項為C,則輸出為「0010」,填塗 項為B,則輸出結果為「0100」;填塗項為A,則輸出為「1000」。若未填塗,則輸出為「0000」。 通常情況下對於這種Mark塊的識別都是通過對汙染率的計算來實現的,而一般的表格其目標識別區域(Mark塊)都有邊框,甚至邊框內還有相應的選擇性說明等字符,邊框和字符 形成圖像以後會對識別造成較大的幹擾,通常的做法是使用彩色的選票,將Mark塊邊框及 內部的字符設置為彩色(多為紅色或綠色),然後通過單色掃描儀在圖像採集過程中將彩色 濾掉,只保留黑色和白色信息。從而消除Mark塊邊框和其內部字符對識別的影響。但是這 種傳統方法又給用戶的使用提出了要求,即必須使用彩色表格,不能使用黑白表格。為了表 格列印的方便性(可以直接使用黑白印表機),本發明允許使用全黑白的統計用表,當統計 用表是全黑白的情況下,由於每一個被識別的標記塊的邊框和內部的符號標識都將對標記 塊是否填塗的判別產生直接的影響。為了最大限度地消除這些影響,本發明運用標記塊智 能識別技術,在模式製作過程中,自動獲取了標記塊的邊框及內部的符號信息,並在識別過 程中將目標圖像中的邊框及內部符號信息進行消除操作,只保留用戶的填塗信息。在此基 礎上再進行該標記塊是否填塗的判斷。這樣就最大限度地消除了 Mark塊邊框及內部符號 信息對識別的影響。4.將生成的01字符串存入Excel文件對應的表格頁面中。將表格識別模塊輸入的識別結果直接保存在Excel文檔表格中,供用戶進行進一 步統計分析或進行二次開發用戶既可以提前在Excel文檔中設置計算統計公式,當表格 識別結果輸入Excel文檔後即實時完成自動計算和統計,並輸出最終用戶報表;同時用戶 也可以直接將保存的識別結果的Excel文件作為數據源進行二次開發,以便對表格識別結 果進行計算和統計。圖3即是經過EXCEL表格對識別結果進行統計分析後,最終的測評結果示例。
權利要求
一種通用表格識別方法,其特徵在於包括以下步驟第一步,用掃描儀將各種樣表掃描成圖像文件存儲在計算機硬碟中;第二步,製作表格模式文件裝載計算機硬碟上存儲的樣表圖像文件,製作各種類型的表格模式,並以mod格式保存表格模式文件首先裝載計算機硬碟上存儲的樣表圖像文件,並將圖像在界面上顯示出來;圖像裝載完成後,通過軟體使計算機自動生成與裝載圖像文件數量一致的頁面樹形列表,使得點擊樹形列表的每一個頁面項即可以顯示該頁面的圖像信息;然後採用如下步驟製作各頁面的表格模式第一個步驟是指定定位塊,具體方法是使用框選工具在表格圖像中框選任意的文字,選定以後通過軟體將被框選的圖像內容剪切、顯示出來,並提示用戶錄入該表格的類型標示名稱;第二個步驟是指定該表格需要識別的區域,運用標記塊自動搜索技術,自動搜索樣表中指定區域內所有的標記塊,獲取每一個標記塊的關鍵信息,並與基準定位點坐標通過坐標換算得到每一目標標記塊的相對坐標,以上這些信息都作為模式信息存入表格模式文件中;表格模式製作完成以後,通過軟體使計算機自動生成對應的、用於記錄表格識別結果的Excel文檔;第三步,用掃描儀將填塗完成後的每一份統計用表掃描成圖像文件存儲在計算機硬碟中;第四步,表格識別及識別結果保存首先需要裝載第二步製作的表格模式文件和該模式文件對應的Excel文檔,然後通過識別嚮導從計算機磁碟文件中選擇需要進行識別的表格圖像文件列表,對列表中的每一份待識別表格圖像文件進行識別處理,並將識別結果以字符串形式輸入Excel文檔表格中。
2.根據權利要求1所述的通用表格識別方法,其特徵在於在第二步所述的裝載樣表 圖像文件時,可以通過在每一個樣表上設置區別於其他樣表的、表示其表格類型的任意字 母或文字,來實現一次裝載多幅樣表圖像文件。
3.根據權利要求1所述的通用表格識別方法,其特徵在於在第四步所述的對每一份 待識別表格圖像文件進行識別的步驟如下(1)首先使用表格模式中的所有表格標誌塊模板對待識別圖像進行模板匹配與識別, 根據匹配和識別結果判斷表格圖像的類型以及正反倒順的方向信息,若表格圖像的方向不 是標準方向時,則需運用旋轉算法將表格圖像調整到標準方向;(2)然後識別和計算該表格圖像中的表格標誌塊在圖像坐標系中的絕對坐標,將該坐 標作為基準定位點坐標,並與該表格類型模式中的每一個目標識別區域的相對坐標進行坐 標換算,以得到該圖像中所有目標識別區域在圖像坐標系中的絕對坐標;(3)按照順序對每一個目標識別區域進行圖像識別,判斷其填塗情況,並根據填塗情況 生成字符串;(4)將生成的字符串存入Excel文件對應的表格頁面中。
4.根據權利要求1所述的通用表格識別方法,其特徵在於當統計用表是全黑白時,則 運用標記塊智能識別技術,在模式製作過程中,自動獲取標記塊的邊框及內部的符號信息,並在識別過程中將目標圖像中的邊框及內部符號信息進行消除操作,只保留用戶的填塗信 息;在此基礎上再進行標記塊是否填塗的識別和判斷。
全文摘要
本發明公開了一種通用表格識別方法,包括以下步驟用掃描儀將各種樣表掃描成圖像文件存儲在計算機硬碟中;製作表格模式文件,裝載計算機硬碟上存儲的樣表圖像文件,製作各種類型的表格模式,並以mod格式保存表格模式文件;用掃描儀將填塗完成後的每一份統計用表掃描成圖像文件存儲在計算機硬碟中;表格識別及識別結果保存。本發明的積極效果是利用掃描儀和計算機,能快速、準確地對各種填塗表格進行識別,並將識別結果保存在計算機中,供用戶隨時、方便地作進一步的統計分析和處理。集實用性和靈活性於一體,大大簡化人們的文檔處理手段,提高表格分析的效率,具有非常廣闊的應用前景。
文檔編號G06F17/21GK101923643SQ20101025068
公開日2010年12月22日 申請日期2010年8月11日 優先權日2010年8月11日
發明者史志明, 官磊, 崔喆, 張宇, 彭程, 柳永強, 鍾誠 申請人:中科院成都信息技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀