新四季網

一種識別掃描圖像中表格單元的方法及裝置的製作方法

2023-09-22 23:28:50

專利名稱:一種識別掃描圖像中表格單元的方法及裝置的製作方法
技術領域:
本發明屬於圖像識別技術領域,具體涉及一種識別掃描圖像中表格單元的方法及裝置。
背景技術:
表格是文檔中常用的數據資料載體,大量應用於各種場合。為了便於對紙質表格處理進行自動化和電子化,需要一種快速的表格自動識別方法來確定表格中各個單元的位置和大小,其目的是便於下一步獲取表格單元中的內容,送
交後續模塊進行OCR (Optical Character Recognition,光字符識別)、自動填表等處理。
現有技術中常用的表格識別方法有投影法、搜索法、直線檢測法等。投影法是對表格圖像縱、橫向進行投影,根據得到的投影值中的峰值變化
來判斷表格線。這種方法的不足在於很難處理表格線較細且稍有歪斜或複雜表格。
搜索法是沿表格線進行週遊遍歷,這種方法的不足在於對毛刺、斷線和字符粘連很難處理。
直線檢測法是使用Hough變換、矢量化等方法檢測表格中的直線,然後利用這些直線重構表格結構。這類方法的不足在於對表格單元的識別成功率4艮高,但缺點是運算量大,運算速度慢,這限制了其應用場合。
因此,目前的現有技術中還沒有一種對表格單元進行自動識別的方案能在保證高識別率的前提下,提高掃描圖像中表格單元識別速度
發明內容
本發明提供一種識別掃描圖像中表格單元的方法及裝置,用以在保證高識別率的前提下,提高掃描圖像中表格單元識別速度。
本發明實施中提供了 一種識別掃描圖像中表格單元的方法,包括如下步

獲取表格文檔的掃描圖像中的水平線段和垂直線段;
去除掃描圖像中小於第 一閾值的水平線段和垂直線段,所述第 一閾值根據掃描圖像中的最小字符高度和掃描圖像的解析度設定;
根據剩餘的水平線段和垂直線段識別掃描圖像中的表格單元。
較佳地,在獲取表格文檔的掃描圖像中的水平線段和垂直線段前,進一步包括
獲取掃描圖像後,對掃描圖像進行包括噪音去除操作、圖像糾偏操作、圖
像二值化操作之一或者其組合的預處理操作。
較佳地,所述第 一 閾值為根據線狀型噪音線段長度和/或表格內部文字圖像
區域線段長度進行設定。
較佳地,在獲取剩餘的水平線段和垂直線段的交點前,進一步包括合併線段有重疊的水平線段,和/或線段有重疊的垂直線段。較佳地,在獲取剩餘的水平線段和垂直線段的交點前,進一步包括合併線段間距小於第二閾值的水平線段,和/或線段間距小於第二閾值的垂
直線段,所述第二閾值大於斷裂表格線之間的距離。
較佳地,獲取剩餘的水平線段和垂直線段的交點前,進一步包括去除掃描圖像中小於第三閾值的水平線段和垂直線段,所述第三闊值小於
最短的表格線的長度。
較佳地,根據剩餘的水平線段和垂直線段識別掃描圖像中的表格單元,具
體為
獲取剩餘的水平線段和垂直線段的交點;
根據表示交點在周圍四個方向上的水平線段與垂直線段的存在與否的第
6一位置關係,以及表示交點是否屬於同一水平線段和/或垂直線段的第二位置關係,識別掃描圖像中的表格單元。
較佳地,根據第 一位置關係及第二位置關係識別掃描圖像中的表格單元,
具體為
確定一個交點;
確定與該交點相鄰的交點,所述相鄰的交點與該交點屬於不同種類的第一位置關係,所述種類根據交點在周圍四個方向上的水平線^殳與垂直線段的存在與否進行判斷;
根據該交點及該交點相鄰的交點識別出該交點的表格單元;
按所述確定該交點的表格單元的方式,根據第二位置關係確定該交點以外
的其它交點的表格單元。
本發明實施中還提供了 一種識別掃描圖像中表格單元的裝置,包括線段獲取模塊,用於獲取表格文檔的掃描圖像中的水平線段和垂直線段;第一線段去除模塊,用於去除掃描圖像中小於第一閾值的水平線段和垂直
線段,所述第一閾值根據掃描圖像中的最小字符高度和掃描圖像的解析度設
定;
表格識別模塊,用於根據剩餘的水平線段和垂直線段識別掃描圖像中的表格單元。
較佳地,進一步包括
預處理模塊,用於獲取掃描圖像後,在獲取表格文檔的掃描圖像中的水平線段和垂直線段前,對掃描圖像進行包括噪音去除操作、圖像糾偏操作、圖像二值化操作之一或者其組合的預處理操作。
較佳地,所述第一線段去除模塊進一步用於根據線狀型噪音線段長度和/或表格內部文字圖像區域線段長度進行設定第 一 閾值。
較佳地,進一步包括
第一合併模塊,用於在獲取剩餘的水平線段和垂直線段的交點前,合併線段有重疊的水平線段,和/或線段有重疊的垂直線段。
較佳地,進一步包括
第二合併模塊,用於在獲取剩餘的水平線段和垂直線段的交點前,合併線段間距小於第二閾值的水平線段,和/或線段間距小於第二閾值的垂直線段,所述第二閾值大於斷裂表格線之間的距離。
較佳地,進一步包括
第二線段去除模塊,用於在獲取剩餘的水平線段和垂直線段的交點前,去除掃描圖像中小於第三閾值的水平線段和垂直線段,所述第三閾值小於最短的表格線的長度進行設定。
較佳地,所述表格識別模塊包括
交點獲取單元,用於獲取剩餘的水平線段和垂直線段的交點;
位置確定單元,用於根據表示交點在周圍四個方向上的水平線段與垂直線段的存在與否的第 一位置關係,以及表示交點是否屬於同 一水平線段和/或垂直線段的第二位置關係,識別掃描圖像中的表格單元;
表格識別單元,用於根據第一位置關係及第二位置關係識別掃描圖像中的表格單元。
較佳地,所述表格識別單元包括
交點確定子單元,用於根據第二位置關係確定未進行表格識別的交點,在確定一個交點後,交由表格識別子單元處理;
表格識別子單元,用於確定與該交點相鄰的交點,所述相鄰的交點與該交點屬於不同種類的第 一位置關係;並根據該交點及該交點相鄰的交點識別出該交點的表格單元,所述種類根據交點在周圍四個方向上的水平線段與垂直線段的存在與否進行判斷。
本發明有益效果如下
本發明在實施中,在獲取表格文檔的掃描圖像中的水平線段和垂直線段以後,將會去除掃描圖像中小於第一閾值的水平線段和垂直線段,然後根據剩餘的水平線段和垂直線段識別掃描圖像中的表格單元。由於根據第一閾值使用了
過濾的方案來獲取表格中的直線,因此其計算速度比Hough變換、矢量化等直線檢測方法快得多,這大大拓展了方法的適用範圍。
進一步的,由於本發明實施中還採用了基於線段長度的閾值過濾方法,因此可以克服大部分的表格單元粘連情況。
進一步的,由於本發明通過檢查相鄰行的水平線段和垂直線段,若有重疊部分,則合併重疊線段為一條新的水平或者垂直線4殳,從而可以容忍由於掃描圖像的小角度旋轉而帶來的誤差問題。
進一步的,由於本發明實施中還採用了合併線段間距小於第二闊值的線段,因此可以解決小的表格單元線段出現斷裂的情況。
綜上,本發明實施例不僅具有傳統直線檢測算法識別成功率高的特點,還能夠在保證高識別率的前提下,提高掃描圖像中表格單元識別速度;進一步的,還能夠獲知表格的精確結構,可以解決大部分的表格單元粘連問題,對於小的斷裂,也可以通過連接首尾相距較近的線段來解決,具備了抗粘連,抗斷裂的優點。
進一 步的,實施例中還在根據剩餘的水平線段和垂直線段識別掃描圖像中的表格單元時,獲取剩餘的水平線段和垂直線段的交點,並各交點與線段的位置關係,以及各交點之間的位置關係識別掃描圖像中的表格單元。由於引入了交點這一特徵,使得本發明實施例中的方案運算量更小,這也使得本發明實施例的各種方案在識別表格單元時的運算處理速度更快。


圖1為本發明實施例中所述識別掃描圖像中表格單元的方法的實施流程示意圖2為本發明實施例中所述交點與線段的位置關係示意圖3為本發明實施例中所述根據第 一位置關係及第二位置關係識別掃描圖像中的表格單元的實施流程示意圖4為本發明實施例中所述表格單元識別實施流程示意圖5為本發明實施例中所述識別掃描圖像中表格單元的裝置結構示意圖6為本發明實施例中所述驗貨單的掃描圖像示意圖7為本發明實施例中所述對-驗貨單的掃描圖像進行識別後的表格單元示意圖。
具體實施例方式
本發明在實施中提供了一種識別掃描圖像中表格單元的方法,本發明在實施中的構思在於從上至下、從左到右掃描圖像區域,獲得圖像中的所有直線段,然後使用快速篩選算法來過濾掉表格中的其它內容,只保留較長的水平和垂直線段,這些線段構成了表格單元,然後利用這些線段識別出表格單元結構,通過獲取到的表格單元的位置和大小,從而識別出掃描圖像中的表格單元,具體的,是通過各線段以及它們的交點來識別表格單元的結構、位置的。
下面結合附圖對本發明的具體實施方式
進行說明。
圖1為識別掃描圖像中表格單元的方法的實施流程示意圖,如圖所示,在
識別掃描圖像中的表格單元時可以包括如下步驟
步驟101、獲取表格文檔的掃描圖像中的水平線段和垂直線段;步驟102、去除掃描圖像中小於第一閾值的水平線段和垂直線段;步驟103、獲取剩餘的水平線段和垂直線段的交點;步驟104、確定各交點的第一位置關係,以及第二位置關係;第一位置關係表示交點在周圍四個方向上的水平線段與垂直線段的存在
與否,第二位置關係表示交點是否屬於同一水平線段和/或垂直線段。
步驟105 、根據第 一位置關係及第二位置關係識別掃描圖像中的表格單元。下面對各步驟的具體實施進行說明。
在步驟101獲取表格文檔的掃描圖像中的水平線段和垂直線段前,可以進一步包括
在獲取掃描圖像後,先對掃描圖像進行包括噪音去除操作、圖像糾偏操作、 圖像二值化操作之一或者其組合的預處理操作。
對於掃描圖像的獲取,可以通過數位化設備來獲取,並進行掃描圖像預處 理。由於通過掃描等方式獲得的文檔圖像,或多或少都會存在噪聲,而噪音大 多數是以孤立點的形式存在。因此可以先進行預處理,比如噪音去除操作處理。 噪音去除操作處理是預處理的一部分,主要是去除小的髒點。
具體實施中,可以通過移除小連通區域的方法進行噪音去除首先通過基 於區域生長算法,搜索版面中小的連通區域,並計算該區域中的前景象素點的 個數Sum,然後將Sum小於一定閾值的連通區域;f見為噪音點而去除。
顯然,在步驟101前進行預處理有助於更準確的獲取表格文檔的掃描圖像 中的水平線段和垂直線段。
而預處理中的圖像糾偏操作也有助於提高獲取表格文檔的掃描圖像中的 水平線段和垂直線段的準確性,比如不會將因掃描時傾斜的水平或垂直線段誤 判為非水平或垂直線^殳。
同理,可以在獲取掃描圖像後,先對掃描圖像進行其他類型的、有助於提 高獲取表格文檔的掃描圖像中的水平線段和垂直線段的準確性的預處理操作, 除噪音去除操作、圖像糾偏操作外,還可以是圖像二值化操作等。
在步驟101中,可以簡單的按照水平方向對表格圖像進行掃描,計算連續 象素點的個數,即為所述的水平直線段;同樣地,按照垂直方向對表格圖像進 行列掃描,計算連續象素點的個數,即為所述的垂直直線段。這對本領域技術 人員來說是容易理解的。
為便於描述,本發明實施中將按水平方向掃描所得的線段稱為水平線段, 將按與水平方向垂直的方向掃描所得的線段稱為垂直線段。顯然,水平、垂直
方向的定義是本領域習慣稱呼,並非指地理、數學、或其他領域中所述的水平
與垂直。在步驟101獲得水平線段與垂直線段後,便可實施步驟102,去除掃描圖 像中小於第一閾值的水平線段和垂直線段。本步驟的目的在於進一步去除一 些線狀的大噪音區域,同時過濾掉表格單元內部的文字區域圖像的幹擾。因此, 本步驟中的第 一 閾值也是根據線狀型噪音線段長度和/或表格內部文字圖像區 域線段長度進行設定的。具體實施中,第一閾值的選取主要是參考掃描圖像中 的最小字符的高度和掃描圖像的解析度。因為對於同一個字符大小而言,不同 的掃描解析度下圖像的尺寸大小不同。比如600dpi下,5號字的最大字高為 90個像素。在同一解析度下,第一閾值可選為最小字符高度的2/3左右。表格 單元線的長度一般都會比字符的高度要大一些,所以這麼選擇不會影響到表格 單元線。下面進行說明。
為便於引用描述,將該步驟稱為過濾表格圖像步驟,其目的在於去除長度 短的水平和垂直線革殳。具體的如下
按照水平方向對表格圖像進行掃描,計算連續象素點的個數,即為所述的 水平直線段的長度,每條水平掃描線上只保留長度超過第 一閾值的水平線段; 同樣地,按照垂直方向對表格圖像進行列掃描,計算連續象素點的個數,即為 所述的垂直直線段的長度,每條垂直掃描線上只保留長度超過第一閾值的垂直 線段。在去除一般為點狀的噪音後,還會與留一些線狀的、較大的噪音區域, 同時,單元表格內的文字區域內容也會表現為線段,因此有必要將一些與構成 單元格無關的短長度的線段去除,通常這些線段都比較小,因此可以通過設定 一個閾值,將長度小於該閾值的線段去除,顯然,經過此步驟可以進一步去除 一些線狀的大噪音區域,同時過濾掉表格單元內部的文字區域圖像的幹擾。
具體實施中,第一閾值的取值可以根據圖像解析度的不同而不同,例如在 圖像解析度為600dpi時,第一閾值可以取值為30個像素(pixel),通過第一閾 值的作用本領域技術人員是容易根據實際需要確定出合適的取值的。
進一步的,由於現有的圖像掃描機制,在實際的掃描圖像中,水平或者垂 直的線段並不^^確的表現為在一個水平、或者垂直坐標數值上,這時一根線段在掃描後會表現為兩個有部分重疊的線段。因此,在獲取剩餘的水平線段和
垂直線段的交點前,還可以進一步包括合併線段有重疊的水平線^:,和/或線 段有重疊的垂直線段。
具體的,可以通過檢查相鄰行的水平線段,若有重疊部分,則合併兩條線 段為一條水平直線段;同樣地,檢查相鄰列的垂直線段,若有重疊部分,則合 並兩條線段為一條垂直直線段。
進一步的,在實際的掃描圖像中,還會出現一種情況,即出現單元格線革爻 斷裂的情況,這種情況主要是由於掃描或者列印過程而造成的。因此,在獲取 剩餘的水平線段和垂直線段的交點前,還可以進一步包括合併線段間距小於 第二閾值的水平線^:,和/或線段間距小於第二閾值的垂直線段,所述第二閾值 根據斷裂表格線的長度進行設定。顯然,該步驟的主要目的是想保留部分由於 掃描或者列印過程而造成的表格線斷裂情況,也就是設定第二閾值要解決的問 題。
具體的,設第二閾值為n個像素,那麼實施中可以檢查所有水平線段,如 果兩個線段頭尾相距n個像素以內,則將該兩個線段合併,也就是合併間距小 於第二閾值的線段;同樣地,檢查所有垂直線段,合併頭尾相距n個像素以內 的線段。 一般而言,圖像解析度越大,n也就越大。由於n主要是解決斷裂表 格線的合併問題,而表格線斷裂部分一般不會太大,因此n—般比較小。如在 圖像解析度為600dpi時,n可以取值為3個像素(pixel )。
進一步的,為了更好的過濾噪音線段或者粘連的字符圖像區域,在獲取剩 餘的水平線段和垂直線段的交點前,還可以進一步包括去除掃描圖像中小於 第三閾值的水平線段和垂直線段,所述第三閾值根據最短的表格線的長度進行 設定。之所以要採用第一閾值、第三閾值兩個閾值來進行過濾,而不是直接採 用較大的第三閾值,還有一個目的是想保留部分由於掃描或者列印過程而造成 的表格線斷裂情況,也就是第二閾值n要解決的問題。
具體的,可以檢查所有水平線段,容易理解,該線段可以是步驟102中根據第一閾值去除後剩餘的線段,也可以是合併有重疊部分的線段後剩餘的線 段、還可以是根據第二閾值合併後剩餘的線段,也可以是同時經過上述幾種處
理後剩餘的線段,然後在這些所有的線段中刪除長度小於第三閾值的線段;同 樣地,檢查所有垂直線段,刪除長度小於第三閾值的線段。
相應地,第三閾值的取值也根據圖像解析度的不同而不同, 一般而言,分 辨率越大,該值一般越大;如可以在圖像解析度為600dpi時,水平方向上的第 三閾值取值為200像素(pixel),垂直方向上的第三閾值取值為120像素(pixel )。 需要說明的是, 一般情況下來講,由於最小的表格單元的水平寬度比最小的表 格單元的豎直高度要大一些。因此在實施例中水平線段與垂直線段的第三閾值 不相同,但是,這不是完全絕對的,它們之間也沒有必然的聯繫,而是要根據 具體的表格單元情況來定。
經過上述處理而剩餘的線段,是比較準確的、可以用於識別單元格的水平 線段與垂直線段,此時可以開始利用這些剩餘線段進行表格單元的識別了。可 見,在實施中,在獲取表格文檔的掃描圖像中的水平線段和垂直線段以後,將 會去除掃描圖像中小於第一閾值的水平線段和垂直線段,然後根據剩餘的水平 線段和垂直線段識別掃描圖像中的表格單元。由於根據第一閾值使用了過濾的 方案來獲取表格中的直線,因此其計算速度比Hough變換、矢量化等直線檢測 算法快得多,這大大拓展了算法的適用範圍。同時,實施例中可以獲知表格的 精確結構,可以解決大部分的表格單元粘連問題,對於小的斷裂,也可以通過 連接首尾相距較近的線段來解決,因此還具有傳統直線^r測算法識別成功率 高,抗粘連,抗斷裂的優點。
但是,為了進一步的提高識別速度,實施中還可以進一步的根據各交點與 線段的位置關係,以及各交點之間的位置關係來識別掃描圖像中的表格單元, 下面進行說明。
首先執行步驟103,獲取剩餘的水平線段和垂直線段的交點。水平線段與 垂直線段之間必然會相交,本步驟正是要獲取這些交點,本步驟的作用以及實施對本領域技術人員來說是容易理解的。
獲得各交點後,便可以在步驟105中根據第一位置關係及第二位置關係識 別掃描圖像中的表格單元,其中,第一位置關係、第二位置關係是在步驟104 中確定的各交點與水平線段和垂直線段的位置關係,以及各交點之間的位置關 系。第一位置關係表示交點在周圍四個方向上的水平線段與垂直線段的存在與 否,第二位置關係表示交點是否屬於同一水平線段和/或垂直線段。
本領域技術人員容易知道,當獲知構成整個表格單元的點及線段時,就可 以識別出整個表格單元的形狀,即可知其如何構成。本發明實施中,引入了交 點這一特徵,並利用交點與線段、交點與交點之間的位置關係來識別表格單元, 顯然,與現有技術直線檢測法中所採用的、僅僅依靠線段這一元素的方式相比, 本發明實施例中的方案運算量更小,這也使得本發明實施例的各種方案在識別 表格單元時的運算處理速度更快。
下面對第一位置關係、第二位置關係及運用其來識別表格單元的實施方式 進行說明。
第一位置關係是各交點與水平線段和垂直線段的位置關係,是表示該交點 在周圍四個方向上的水平線段與垂直線段的存在與否。
第二位置關係是各交點之間的位置關係,是表示各交點是否屬於同 一水平 線^殳和/或垂直線^殳。
圖2為交點與線段的位置關係示意圖,下面對照圖2先對第一位置關係進 行說明。
如圖2所示,圖中有交點l、 2、 3、 4、 5、 6、 7、 8、 9,連接交點的是水 平線段或者垂直線段。容易理解,無論表格單元中的哪一種交點,都必然與圖 中9種交點中的一個相同,顯然,通過這9種交點與周圍四個方向上的水平線 段與垂直線段的存在與否便可以確定其種類。為便於描述,對照圖實施例中使 用了上、下、左、右的描述,但並不代表真實的圖像處理中也使用上、下、左、 右這樣的關係。由圖可見,9種交點與周圍四個方向上的水平線^:與垂直線賴:的關係為
交點l、下面有垂直線段、右邊有水平線段; 交點2、下面有垂直線段、左邊有水平線段、右邊有水平線段; 交點3、下面有垂直線段、左邊有水平線段; 交點4、上面有垂直線段、下面有垂直線段、右邊有水平線段; 交點5、上面有垂直線段、下面有垂直線段、左邊有水平線段、右邊有水 平線段;
交點6、上面有垂直線段、下面有垂直線段、左邊有水平線段; 交點7、上面有垂直線段、右邊有水平線段; 交點8、上面有垂直線段、左邊有水平線段、右邊有水平線段; 交點9、上面有垂直線段、左邊有水平線段。
事實上,在4艮據第一位置關係及第二位置關係識別掃描圖像中的表格單元 的過程中,可以通過上述9種關係便可以確定一個交點與該交點相鄰的交點, 但是,進一步的,還可以將9類交點進一步劃分為四種類型,即將其中1、 2、 4、 5歸為矩形表格單元的左上點集合,實施例中記為類型A;將2、 3、 5、 6 歸為矩形表格單元的右上點集合,實施例中記為類型B; 將4、 5、 7、 8歸為 矩形表格單元的左下點集合,實施例中記為類型C;將5、 6、 8、 9歸為矩形 表格單元的右下點集合,實施例中記為類型D。
需要說明的是,每一個交點時很可能同時具備多種屬性,比如對於交點2, 它既可能屬於類型A,也可能屬於類型B,這要視其在整個表格單元中的位置 關係來確定;簡單說,圖2中的交點5,就同時具備A、 B、 C、 D四種類型的 屬性。
通過以上方案便可以確定各交點與水平線段和垂直線,爻的第一位置關係, 同時也可以通過第 一位置關係的不同確定了各交點的種類。
第二位置關係是各交點之間的位置關係,可以才艮據各交點是否屬於同一水 平線段和/或垂直線段確定。第二位置關係的確定對本領域技術人員來說是比較簡單的, 一種確定第二位置關係的方式如下
將計算得到的交點坐標(xj和(y;)和上述定義的交點類型進行排序,保 存到一個二維行列結構鍊表中,排序原則為如果兩個交點連線與水平線的角 度在3度以內,則i人為兩點在同一4亍中。在同一行中的點,按照水平坐標遞增 的順序排列。
在確定了第一位置關係、第二位置關係後,便可以執行步驟105的根據第 一位置關係及第二位置關係識別掃描圖像中的表格單元。本步驟之所以能夠實 施,其原因在於每個單元格必然包括4類點中的各一個(上左、上右、下右、 下左);確定所有單元格後便可以構成整個表格。
圖3為根據第一位置關係及第二位置關係識別掃描圖像中的表格單元的實 施流程示意圖,如圖所示,可以包括以下步驟
步驟301、確定一個交點;
步驟302、確定與該交點相鄰的交點,所述相鄰的交點與該交點屬於不同
種類的第一位置關係;
步驟303、根據該交點及該交點相鄰的交點識別出該交點的表格單元; 步驟304、按所述確定該交點的表格單元的方式,根據第二位置關係確定
該交點以外的其它交點的表格單元。
下面以 一個實例再進行說明如何具體如何運用第 一位置關係以及第二位
置關係來進行識別,具體的,本實施例中對所有交點按行排序,利用交點順序
和交點類型,計算表格結構,識別出表格單元的位置和大小。
圖4為表格單元識別實施流程示意圖,如圖所示,可以包括如下步驟 步驟401、按照從左到右,從上到下的順序,在交點行列中找尋第一個A
類點;
本步驟在具體實施中也可以按照別的順序尋找第一個交點,交點的類型也 可以是別的類型,總之,在尋找到第一個交點後,在以下的步驟中需要實現的 是確定該交點相鄰的4類點中的各一個。步驟402、在A類點所在行的右側點中,找尋第一個B類點; 步驟403、在A類點所在行的下方的所有行中,;險查所有的C類點,找到 同A類點水平坐標差最小的一個;
步驟404、在C類點所在行的右側點中,找尋第一個D類點; 步驟405、記錄四點組成的內接矩形坐標;
步驟406、判斷是否所有的A類型點都被處理過,若是執行步驟407,否 則執行步驟401,
步驟407、識別出所有內接矩形。
顯然,所有的內接矩形便是本發明實施例中所需識別出的表格單元。 基於同 一發明構思,本發明還提供了 一種識別掃描圖像中表格單元的裝
置,下面結合附圖對裝置的具體實施方式
進行說明。由於識別裝置與識別方法
是基於同一發明構思,二者有相同的原理,因此裝置的實施過程中可以參考識
別方法的實施,相同之處不再重複描述。
圖5為識別掃描圖像中表格單元的裝置結構示意圖,如圖所示,裝置中可
以包括
線段獲取模塊501 ,用於獲取表格文檔的掃描圖像中的水平線段和垂直線
段;
第一線段去除模塊502,用於去除掃描圖像中小於第一閾值的水平線段和 垂直線段,所述第一閾值根據掃描圖像中的最小字符高度和掃描圖像的解析度 設定;
表格識別模塊503,用於根據剩餘的水平線段和垂直線段識別掃描圖像中 的表格單元。
還可以進一步包括
預處理模塊504,用於獲取掃描圖像後,在獲取表格文檔的掃描圖像中的 水平線段和垂直線段前,對掃描圖像進行包括噪音去除操作、圖像糾偏操作、 圖像二值化操作之一或者其組合的預處理操作。第一線段去除模塊502還可以進一步用於根據線狀型噪音線段長度和/或 表格內部文字圖像區域線段長度進行設定第 一 閾值。 裝置中還可以進一步包括
第一合併模塊505,用於在獲取剩餘的水平線段和垂直線段的交點前,合 併線段有重疊的水平線段,和/或線段有重疊的垂直線段。
第二合併模塊506,用於在獲取剩餘的水平線段和垂直線段的交點前,合 併線段間距小於第二閾值的水平線段,和/或線段間距小於第二閾值的垂直線 段,所述第二閾值大於斷裂表格線的長度之間的距離。
第二線段去除模塊507,用於在獲取剩餘的水平線段和垂直線段的交點前, 去除掃描圖像中小於第三閾值的水平線段和垂直線段,所述第三閾值根據最短 的表格線的長度進行設定。
需要說明的是,由於第一合併模塊505、第二合併模塊506、第二線段去 除模塊507是進一步增加效果的,第一合併模塊505、第二合併模塊506、第 二線段去除模塊507是在獲取剩餘的水平線段和垂直線段的交點前實施,它們 之間、以及它們與第一線段去除模塊502之間並沒有必然的因果關係,在進行 識別處理時,既可以在第一線段去除模塊實施後便交由表格識別模塊處理,也 可以進一步的交由第一合併模塊505和/或第二合併模塊506,或者直接交由第 二線段去除模塊處理,可以根據需要組合出各種連接關係以及執行順序,這對 本領域技術人員來說是容易理解的。因此,圖中的連接關係僅示出了依次為第 一線段去除模塊、第一合併模塊、第二合併模塊、第二線段去除模塊、表格識 別模塊的連接方式,但這不代表僅有該種連接方式、執行順序和實施方式。 裝置中的表格識別模塊503中可以包括
交點獲取單元5031,用於獲取剩餘的水平線段和垂直線段的交點; 位置確定單元5032,用於表示交點在周圍四個方向上的水平線段與垂直線
段的存在與否的第一位置關係,以及表示交點是否屬於同一水平線段和/或垂直
線段的第二位置關係;表格識別單元5033,用於根據第一位置關係及第二位置關係識別掃描圖像 中的表格單元。
位置確定單元5032可以進一步用於根據各交點在周圍四個方向上的水平 線段與垂直線段的存在與否確定第一位置關係。
位置確定模塊5032也可以進一步用於根據各交點是否屬於同一水平線段 和/或垂直線段確定第二位置關係。
表格識別單元5033中可以包括
交點確定子單元,用於根據第二位置關係確定未進行表格識別的交點,在 確定一個交點後,交由表格識別子單元處理;
表格識別子單元,用於確定與該交點相鄰的交點,所述相鄰的交點與該交 點屬於不同種類的第 一位置關係;並根據該交點及該交點相鄰的交點識別出該 交點的表格單元,所述種類根據交點在周圍四個方向上的水平線段與垂直線段 的存在與否進行判斷。
由上述實施例可知,由於本發明實施中使用過濾的方法來獲取表格中的直 線,其計算速度比Hough變換、矢量化等直線^r測算法快得多,這大大拓展了 算法的適用範圍。同時,本發明實施中可以獲知表格的精確結構,可以解決大 部分的表格單元粘連問題,對於小的斷裂,也可以通過連接首尾相距較近的線 段來解決,因此還具有傳統直線檢測算法識別成功率高,抗粘連,抗斷裂的優 點。
圖6為驗貨單的掃描圖像示意圖,圖7為對驗貨單的掃描圖像進行識別後 的表格單元示意圖,如圖6所示,驗貨單中包括表格單元,單元中有具體的文 字內容。按本發明實施例中所述的方式識別後,得到具體的識別結果如圖7所 示,由圖7可以明顯地看出本發明實施例的效果。
本領域內的技術人員應明白,本發明的實施例可提供為方法、系統、或計 算機程序產品。因此,本發明可採用完全硬體實施例、完全軟體實施例、或結 合軟體和硬體方面的實施例的形式。而且,本發明可採用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限於磁碟存儲器、
CD-ROM、光學存儲器等)上實施的電腦程式產品的形式。
本發明是參照根據本發明實施例的方法、設備(系統)、和電腦程式產 品的流程圖和/或方框圖來描述的。應理解可由電腦程式指令實現流程圖和 /或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/ 或方框的結合。可提供這些電腦程式指令到通用計算機、專用計算機、嵌入 式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算 機或其他可編程數據處理設備的處理器執行的指令產生用於實現在流程圖一 個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。 這些電腦程式指令也可存儲在能引導計算機或其他可編程數據處理設
備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中 的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖 一個流程或多個 流程和/或方框圖一個方框或多個方框中指定的功能。
這些電腦程式指令也可裝載到計算機或其他可編程數據處理設備上,使
得在計算機或其他可編程設備上執行一 系列操作步驟以產生計算機實現的處 理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個 流程或多個流程和/或方框圖 一個方框或多個方框中指定的功能的步驟。
儘管已描述了本發明的優選實施例,但本領域內的技術人員 一旦得知了基 本創造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要 求意欲解釋為包括優選實施例以及落入本發明範圍的所有變更和修改。
顯然,本領域的技術人員可以對本發明進行各種改動和變型而不脫離本發 明的精神和範圍。這樣,倘若本發明的這些修改和變型屬於本發明權利要求及 其等同技術的範圍之內,則本發明也意圖包含這些改動和變型在內。
權利要求
1、一種識別掃描圖像中表格單元的方法,其特徵在於,包括如下步驟獲取表格文檔的掃描圖像中的水平線段和垂直線段;去除掃描圖像中小於第一閾值的水平線段和垂直線段,所述第一閾值根據掃描圖像中的最小字符高度和掃描圖像的解析度設定;根據剩餘的水平線段和垂直線段識別掃描圖像中的表格單元。
2、 如權利要求1所述的方法,其特徵在於,在獲取表格文檔的掃描圖像 中的水平線段和垂直線段前,進一步包括獲取掃描圖像後,對掃描圖像進行包括噪音去除操作、圖像糾偏操作、圖 像二值化操作之一或者其組合的預處理操作。
3、 如權利要求1所述的方法,其特徵在於,所述第一閾值為根據線狀型 噪音線段長度和/或表格內部文字圖像區域線段長度進行設定。
4、 如權利要求1所述的方法,其特徵在於,在獲取剩餘的水平線段和垂 直線段的交點前,進一步包括合併線段有重疊的水平線段,和/或線段有重疊的垂直線段。
5、 如權利要求1所述的方法,其特徵在於,在獲取剩餘的水平線段和垂 直線段的交點前,進一步包括合併線段間距小於第二閾值的水平線段,和/或線段間距小於第二閾值的垂 直線段,所述第二閾值大於斷裂表格線之間的距離。
6、 如權利要求4或5所述的方法,其特徵在於,獲取剩餘的水平線段和 垂直線段的交點前,進一步包括去除掃描圖像中小於第三閾值的水平線段和垂直線^殳,所述第三閾值小於 最短的表格線的長度。
7、 如權利要求1所述的方法,其特徵在於,根據剩餘的水平線段和垂直 線段識別掃描圖像中的表格單元,具體為獲取剩餘的水平線段和垂直線段的交點;根據表示交點在周圍四個方向上的水平線段與垂直線段的存在與否的第 一位置關係,以及表示交點是否屬於同一水平線段和/或垂直線段的第二位置關 系,識別掃描圖像中的表格單元。
8、 如權利要求7所述的方法,其特徵在於,根據第一位置關係及第二位 置關係識別掃描圖像中的表格單元,具體為確定一個交點;確定與該交點相鄰的交點,所述相鄰的交點與該交點屬於不同種類的第一 位置關係,所述種類根據交點在周圍四個方向上的水平線段與垂直線段的存在 與否進行判斷;根據該交點及該交點相鄰的交點識別出該交點的表格單元; 按所述確定該交點的表格單元的方式,根據第二位置關係確定該交點以外 的其它交點的表格單元。
9、 一種識別掃描圖像中表格單元的裝置,其特徵在於,包括 線段獲取模塊,用於獲取表格文檔的掃描圖像中的水平線段和垂直線段; 第 一線段去除模塊,用於去除掃描圖像中小於第 一閾值的水平線段和垂直線段,所述第一閾值根據掃描圖像中的最小字符高度和掃描圖像的解析度設 定;表格識別模塊,用於根據剩餘的水平線段和垂直線段識別掃描圖像中的表 格單元。
10、 如權利要求9所述的裝置,其特徵在於,進一步包括 預處理模塊,用於獲取掃描圖像後,在獲取表格文檔的掃描圖像中的水平線段和垂直線段前,對掃描圖像進行包括噪音去除操作、圖像糾偏操作、圖像 二值化操作之一或者其組合的預處理操作。
11、 如權利要求9所述的裝置,其特徵在於,所述第一線段去除模塊進一 步用於根據線狀型噪音線段長度和/或表格內部文字圖像區域線段長度進行設 定第一閾值。
12、 如權利要求9所述的裝置,其特徵在於,進一步包括 第一合併模塊,用於在獲取剩餘的水平線段和垂直線段的交點前,合併線段有重疊的水平線段,和/或線段有重疊的垂直線段。
13、 如權利要求9所述的裝置,其特徵在於,進一步包括 第二合併模塊,用於在獲取剩餘的水平線段和垂直線段的交點前,合併線段間距小於第二閾值的水平線段,和/或線段間距小於第二閾值的垂直線段,所 述第二閾值大於斷裂表格線之間的距離。
14、 如權利要求12或13所述的裝置,其特徵在於,進一步包括 第二線段去除模塊,用於在獲取剩餘的水平線^:和垂直線段的交點前,去除掃描圖像中小於第三閾值的水平線段和垂直線段,所述第三閾值小於最短的 表格線的長度。
15、 如權利要求9所述的裝置,其特徵在於,所述表格識別模塊包括 交點獲取單元,用於獲取剩餘的水平線段和垂直線段的交點; 位置確定單元,用於確定表示交點在周圍四個方向上的水平線段與垂直線段的存在與否的第一位置關係,以及表示交點是否屬於同一水平線段和/或垂直 線段的第二位置關係;表格識別單元,用於根據第一位置關係及第二位置關係識別掃描圖像中的 表格單元。
16、 如權利要求15所述的裝置,其特徵在於,所述表格識別單元包括 交點確定子單元,用於根據第二位置關係確定未進行表格識別的交點,在確定一個交點後,交由表格識別子單元處理;表格識別子單元,用於確定與該交點相鄰的交點,所述相鄰的交點與該交 點屬於不同種類的第 一位置關係;並根據該交點及該交點相鄰的交點識別出該 交點的表格單元,所述種類根據交點在周圍四個方向上的水平線段與垂直線段 的存在與否進行判斷。
全文摘要
本發明公開了一種識別掃描圖像中表格單元的方法及裝置,包括獲取表格文檔的掃描圖像中的水平線段和垂直線段;去除掃描圖像中小於第一閾值的水平線段和垂直線段,所述第一閾值根據掃描圖像中的最小字符高度和掃描圖像的解析度設定;根據剩餘的水平線段和垂直線段識別掃描圖像中的表格單元。使用本發明,不僅具有傳統直線檢測算法識別成功率高的特點,還能夠在保證高識別率的前提下,提高掃描圖像中表格單元識別速度。
文檔編號G06K9/20GK101676930SQ200810222480
公開日2010年3月24日 申請日期2008年9月17日 優先權日2008年9月17日
發明者亓文法, 李曉龍 申請人:北大方正集團有限公司;北京大學;北京北大方正電子有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀