一種文稿圖像幾何畸變的校正方法
2023-05-26 01:37:41 2
專利名稱:一種文稿圖像幾何畸變的校正方法
技術領域:
本發明涉及計算機信息處理領域的圖像處理技術,具體涉及一種文稿圖像幾何畸變的校正方法。
背景技術:
畸變圖像的校正是一種非常有用的圖像處理技術,一般有兩類校正方法,一類是通過在圖像上設置一些已知的參考點,根據參考點在畸變前後的對照進行校正;另一類是無參考矯正,它完全通過分析圖像自身的特點進行校正。
對於前一類,一般的做法是通過一定的方法,在圖像上附加上一些已知的參考點,即無失真圖像某些像素點和畸變圖像相應像素的坐標間對應關係,作為校正的依據。比如事先在被拍攝的物體上貼上一層網格,這樣就可以通過提取拍攝所得圖像上的網格點,與原始網格點的關係進行圖像校正了。關於這種方法的研究很多,如文獻「一種掃描圖像幾何畸變的數字校正方法」[作者張雪峰,張全法,馮小星,視頻技術應用與工程,文章編號1002-8692(2003)09-0078-02],文獻「光學圖像幾何畸變的快速校正算法」[作者周海林、王立崎,中國圖像圖形學報Vol.8(A),No.10 Oct.2003]等。
對於後一類,若針對的是一般的非特定畸變圖像,只通過分析圖像來校正難度極大。一般是針對某一種特定類型的圖像,根據該類圖像的特徵分析來進行後期的校正。本技術屬於後一類,即對以文本為主的文稿圖像進行分析校正。
對於將文稿掃描為圖像而言,其目的大多是用於資料保存、文字識別(OCR)等場合。在用於資料保存時,可以運用上述附加網格的方式,進行圖像的參考校正,這種運用一般是為了保存一些珍貴但不平整原稿。如文獻「不平整原稿掃描圖像幾何校正的研究」[作者曹俊輝,曹伯燕,第15卷第4期]等提到的方法。而在OCR的運用中,附加網格的操作並不方便,甚至由於條件所限無法完成,很難適應於需要進行批量、快速識別的場合。因此通過分析圖像自身的特點,進行無參考校正是必要的。
在OCR的運用中,文字區域的畸變不僅影響到美觀,更會嚴重影響圖像的版面分析、行切分等圖像處理的準確性,甚至使這些操作無法進行,如彎曲嚴重的文本基本無法進行行切分處理。因此圖像校正質量的好壞,不僅影響到圖像的主觀質量評價,還會直接影響到對圖像後續處理的環節。此外,由於在所有的OCR運用中都只需要識別文字、表格等包含字符的區域,因此在OCR中,必須對文字、表格等需要識別的區域進行校正,而對圖像、花邊等不需要識別的區域的校正主要是要求不能對文字區域產生影響,例如文字校正後,由於位置發生移動而覆蓋在圖像上,則會影響到後續的版面分析、切分等。這些非文字區域在矯正後仍應做到與文本區域保持原稿中的相對的位置,避免文字移動、非文字區域不動的情況。
文稿圖像的來源最常見的有兩類通過掃描儀對文稿進行掃描;或通過數位相機、拍照手機、攝像頭等對文稿進行拍照獲得。用掃描儀進行掃描時,通過將書稿拆開或展平後進行再掃描,一般可避免圖像產生畸變。但若直接將書稿放與掃描儀上掃描,或用數位相機拍照時,由於有書籍的存在,很難避免圖像的彎曲的畸變。特別是用數位相機拍照時,除了書稿本身的彎曲因素外,還由於拍照的方向、鏡頭與書稿的角度等很難精確對正,導致畸變幾乎無法避免,就算書稿比較平整,也很容易發生一定的放射性畸變。在數位相機普及率和運用已經很高的今天,對文稿的校正顯得尤為重要。
文獻「積厚文檔掃描圖像校正」[作者向世明,趙國英,陳睿,賈富倉,李華,計算機輔助設計與圖形學學報,Vol.17,No.1 Jan.,2005]提出一種不附加網格,只通過分析文稿本身特點來進行校正的方法,其基本原理是1)假設文稿中只有純文本,無圖像、表格、花邊等的幹擾。2)假設文稿無錯位分欄等複雜的排版,文本行是從左到右貫穿的,或者說同一垂直坐標處只有一行文本行。3)只在書籍處產生畸變,書頁中大部分區域無畸變;4)同一條文本行彎曲的方向固定,例如都是凸或只有凹狀彎曲。針對這種情況,該文獻使用水平投影的方法找到每行文本,並通過找文字重心的方法找到文本行的中心線,通過對中心線進行橢圓曲線擬合從而進行校正。
對一般用掃描儀掃描的純文本文獻,用此方法處理是可行的,但對複雜的文稿,或用數位相機拍照文稿所的圖片,很難滿足上述的假設。用數位相機對文稿拍照時,如上所述,其畸變很難避免,而且其畸變的形式要複雜得多,比如彎曲的程度可能很嚴重;彎曲不僅發生在書籍,在其它區域也普遍存在;彎曲的方向不是只有凸或只有凹狀彎曲,而是在同一條文本行中呈現多處凸凹相間的彎曲;畸變可能呈現放射性、不平行性。(如圖3的上部區域呈凸狀彎曲,而下部呈凹狀彎曲)。這些特徵若再加上版面複雜的因素,會導致現有技術中分析文本行的方法完全失效1)當有文本彎曲嚴重、圖像、表格幹擾、文本行非左右貫通等情況出現時,通過水平投影無法獲的文本所在的位置。2)獲得文本行的大致位置後,很難將文本行和圖像、表格、花邊等區分開,若將圖像、表格、花邊當成文本行,由於它們的高度、位置差異較大,用求出的中心線進行擬合獲得的曲線不能反映真實的畸變趨勢。3)若不處理圖像、表格、花邊等非文本區域區域,則由於校正後的文本行位置會發生偏離,而未處理的區域位置不變,因此校正過的和未校正過的區域相對關係會發生改變,嚴重時會使被校正過的區域落入未校正過的區域,產生重疊現象,使後續的版面分析、切分等發生錯誤,甚至無法進行。
可見現有技術只處理了工整的、彎曲程度輕微的純文本文稿圖像。而無法處理彎曲程度嚴重,版面相對複雜的文稿圖像。
發明內容
針對現有技術中對文稿圖像畸變校正的不足,本發明的目的是提出一種文稿圖像幾何畸變的校正方法,該方法對彎曲嚴重、版面相對複雜的圖像中的文字區域有很好的校正效果,對其它的非文本區域,如圖像區、表格、花邊、公式也有較大的改善,從而使圖像主觀質量提高,並能有效提高OCR的識別率。
為實現以上目的,本發明採用的技術方案是一種文稿圖像幾何畸變的校正方法,包括以下步驟(1)對圖像進行二值化等預處理;(2)在二值化圖像上求出遊程圖;(3)用一系列垂直線與遊程圖中的黑色部分相交,獲得一系列穿越交線,簡稱穿越線;(4)將穿越線分配到不同的區段中,獲得區段列表;(5)從每個區段中挑選出能反映該區段幾何畸變的採樣點;(6)計算矯正的目標位置,將曲線擬合到目標;(7)對區段外的區域做背景填充。
進一步,在步驟(1)中,對圖像進行二值化預處理後利用版面分析的技術或手工分析出文本、圖像表格區域,每個區域單獨校正,或者不進行版面分析,在整個圖像上統一進行校正。
在步驟(2)中,對橫排文稿圖像生成遊程圖時,X與Y方向的塗黑閾值應相差2倍以上,達到X方向多塗黑,Y方向儘量保留空白的目的。
進一步,在步驟(3)中,用一系列貫穿整個圖像的垂直線與遊程圖相交,獲得一系列穿越線,穿越線可以視為對遊程圖的抽樣,每條穿越線直觀地反映出遊程圖中該位置的幾何特性,如位置和高度,各次穿越的水平間距為N個像素,N為常數或者是根據圖像密度分布設為變化的值。
在步驟(4)中,分析穿越線,獲得遊程區段列表,穿越線分配到不同區段時滿足以下條件1)相臨的穿越線上沿或下沿大體對齊;2)相臨的穿越線在水平方向相互包含;所得的區段可按一定的規則合併、拆分,合併、拆分的規則包括
a.根據幾何形狀,將較小的區段合併入周圍與之重疊最大的宿主段中;b.根據幾何形狀,將有首尾交疊的行合併;c.從區段中查找穿越線中點位置跳變過大的位置,斷為兩行。
在步驟(5)中,在每個區段中按是否能描述該區段彎曲趨勢的要求,挑選所需的採樣點集,挑選的原則是區段中相臨穿越線中點連續,跳變小的中點集合。
在步驟(6)中,為每個區段計算矯正的目標位置時,預設的Y方向位置用該區段中所有的採樣點的平均值表示,此外,對預設位置採用後來者避讓已確定者的方法調整。
在步驟(6)中,將曲線擬合到目標時,根據每個區段選出來的採樣點,採用以下的曲線擬合方式多項式擬合、貝塞爾曲線擬合、B樣條擬合、橢圓曲線。
再進一步,所述的多項式擬合是小於6階的固定階數多項式擬合,或自適應的變階數多項式擬合。
以上發明內容是以橫排文稿為例進行的表述。如果所處理的是豎排文稿時,可以將文稿旋轉90度;或將所描述的水平方向與垂直方向互換,即X方向與Y方向互換即可。
本發明的效果在於採用本發明所述的方法,能對彎曲嚴重、版面相對複雜的文稿圖像有較好的校正效果,從而使圖像主觀質量提高,並能有效提高OCR的識別率。
本發明的原理是首先將對圖像進行二值化處理(若已經是二值圖像則無須這一步)。假設圖像中存在一定數量的規則區域(規則區域可定義為在該區域的每個水平位置處,其垂直方向的中心位置光滑變化、無突變。在實際的文稿圖像中,符合這樣條件的規則區域大多數是文本、表格橫線等所在的區域,剩下的圖像、花邊等一般不能滿足這個條件,它們構成非規則區域)。通過對二值圖像進行黑遊程處理獲得遊程圖,再在遊程圖上用垂直線進行相交(稱為穿越),獲得一系列垂直穿越線,分析這些穿越線可獲得若干個區段,每個區域段中既有規則的區域,也可能存在不規則區域。在每個區段中的規則區域上採集採樣點,進行曲線擬合和校正,不規則區域不取採樣點,不參與曲線擬合,但需要按規則區域擬合出來的曲線進行校正。這樣的處理使區域的劃分變得很寬鬆,只要保證一個區域中有一定數量的規則區域即可,不規則區域依賴於規則區域的帶動進行校正。
圖1是本發明所述方法的流程圖;圖2、3、4是待校正的畸變圖像,其中圖1是彎曲嚴重的圖像;圖2是帶表格且帶不規則分欄的圖像;圖3是帶圖像的分欄圖像;圖5、6、7是原圖的遊程圖及其上的穿越線;圖8、9、10是分析遊程圖及其穿越線後所得的區段、區段中的採樣點及多項式擬合後所得的曲線;圖11、12、13分別為圖2、3、4校正後的圖像;圖14至圖16為圖3中左上角部分校正的中間結果示意圖;圖17為圖4右上角部分校正的中間結果示意圖;圖18為圖2校正的中間結果示意圖;圖19至21為調整區段校正的目標位置示意圖。
具體實施例方式
下面結合附圖對本發明實施方式作進一步詳細的描述。
圖1列出了本發明各步方法的流程示意圖,包括以下步驟(1)對非二值圖像先進行二值化;本實施例中,在步驟(1)中還可對版面進行預先分析,事先確定出圖像中的文字、圖像、表格等區域,再針對不同區域的特點進行更好的矯正。但由於圖像的畸變,很難保證自動版面分析的正確性,特別是版面複雜時,常需要用手工再調整。因此在自動矯正的場合中,可不進行版面分析,直接在整張圖上進行分析。本實施例中採用直接在整張圖上進行分析的方法。
(2)首先對圖像進行遊程處理,獲得黑遊程圖;對二值圖像而言,此處的遊程圖指分別在X和Y方向,將圖像中比較短(小於某閾值)的白線段填黑。這樣處理後的圖像稱為黑遊程圖,簡稱遊程圖。遊程圖可直觀地理解為一種「塗黑(白)」處理,它可反映出圖像中各部分的主要幾何形狀特徵,而將細節掩蓋。
先對數位化以後的圖像(如圖2、圖3、圖4所示)求出對應的黑遊程圖(如圖5、圖6、圖7所示),可以看到,在遊程圖上,文字左右的間都隙被塗黑,而兩行被分割開來;文字與周圍的花邊等被連接在一起;表格線被保留下來,部分表格線與表格內的文字粘連。
在步驟(2)中,應處理成X方向適當多連接(塗黑),Y方向儘量斷開(保留空白),可通過在X和Y方向取相差較大的塗黑閾值來實現這一點,本實施例中Y方向的塗黑閾值為X方向的10倍。這樣獲得的遊程圖既抹掉了文稿圖像中的細節,又最大可能地保留了各區域的輪廓特徵。如圖5、6、7所示,可以在遊程圖中清晰地看出,文字、圖像、表格等的細節不再可見,但文本行、表格、圖像的輪廓清晰地被表達出來。
通過遊程處理,可有效的避免現有技術中採用「重心」法求中點帶來的不平滑性。例如,對「土地」這個詞組,「土」字求出的重心偏下,與「地」字的重心相差大,有突變,不利於以後的擬合。而在黑遊程圖上,這兩個字整體被塗黑,其垂直穿越線的中點位置光滑無突變。在塗黑後的遊程圖中,行的輪廓被描述出來,而圖片、花邊等區域絕大部分被整個塗黑。
(3)在遊程圖上,水平方向每隔N個像素的位置進行垂直方向的穿越,獲得一系列的垂直穿越線;在步驟(3)中,所取的N值應兼顧效率與精度。如步驟(2)中所述,穿越線可以視為對遊程圖的抽樣,因此N值越大所獲的穿越線越少,分析的開銷越小,效率越高。但N值過大意味著抽樣的減少,會影響精確性,一般可設在15以內。在本實施例中,穿越線的間距取為10個像素,所得的穿越線在圖5、圖6、圖7中以灰色的短線表示。
(4)分析穿越線,將穿越線分配到不同的區段中,獲得遊程區段列表;分析穿越線,按寬鬆的方式將所有的穿越線分組,假設有M組,每條穿越線代表它附近的一個小區域,具體為相鄰水平方向,左右各N/2個像素位置處的遊程圖像;每個組稱為一個遊程區段,簡稱區段或段,這樣就將遊程圖中的所有區域分成了M段,每段包含的區域用該段中所有穿越線代表的區域共同組成。每個區段中的穿越線長度不一定近似,可以允許一部分穿越線與區段中的其它穿越線在長度上有較大的差別,但位置應鄰近。這可以直觀地理解為本方法無須按圖像中各個區域的幾何外型進行嚴格的分類,它允許將位置相鄰(即穿越線位置應鄰近),幾何形狀差異較大(即穿越線長度差別較大)的區域劃歸到同一個區段中。在文稿掃描圖像中,其文字行較為規則,代表文字的穿越線長度差異較小,而代表花邊、圖像、表格豎線等區域的大多數穿越線長度相差較大,它們與代表文字的穿越線相差也較大,這些差異大的穿越線被劃入到同一個區段中,意味著在以文字為主的文稿圖像中,花邊、圖像、表格將被劃歸入它們鄰近的文字區域中。
按先上後下,先左後右的順序檢查每條穿越線。對每一條穿越線,看它1)上沿或下沿是否與前一條穿越線大體對齊。2)是否呈包含關係前面的線將後面的線在水平方向包含進來,或後邊的線將前面的線包含進來。若滿足其中的一個條件,就將當前穿越線歸入前一條穿越線所屬的區段,否則新建立一個區段來包含它。這樣處理完所有的穿越線後,就得到一個段列表。同一段中可以包含長短差異很大的穿越線。表格線(包括橫線和豎線)、圖片區域、花邊等都被歸入到某個段中。這樣就將所有的穿越線歸入了不同的區段,如圖8、圖9、圖10所示。
需要說明的是在將穿越線歸入區段的過程中,其要求是很寬鬆的,此時不進行穿越線的高度是否一致等的檢查。高度相差很大的穿越線也可被歸為同一區段,只是在以後的擬合中,不規則的穿越線不參與曲線擬合的採樣點採集。
在該步驟中,另一項重要的工作是對上述分析出來的區段進行合併、拆分的處理,一般應做的整理有(1)找出寬度過小的段(簡稱窄段),查看其周圍寬度足夠大的段(簡稱寬段)。在寬段中挑選與窄段的包圍矩形有最大重疊度,且重疊部分的兩段的平均垂直位置相足夠近(本實施例中取小於兩段平均高度的1/2)的寬段,作為窄段的宿主段,將窄段合併入宿主段中。
(2)找出首尾有交疊的兩個段,按其交疊處附近穿越線中點位置是否大致相等的原則(本實施例中取小於兩段平均高度的1/4),決定是否合併這兩個段。
經過以上的合併後,一些在生成遊程圖時被分得過碎的區域(主要是一些標點、圖像中的細碎區域等),都可被合併入相應的大塊區域中。
本實施例中,如圖14所示,由於獲得的區段可能較零碎,為了獲得好的校正效果,需要將細碎的區段合併入合適的區段中。而對不合適的區段,有可能需要對之進行拆分。首先是將較小的區段合併入它們的宿主行中,所得的結果如圖15所示。再對有首尾交疊的行進行合併,將較短的行合併入較長的區段中,所得的結果如圖16所示。最終的到的區段是整塊的,適合做曲線擬合區段。
(5)分析遊程區段,選出曲線擬合的採樣點集;在每個區段中按是否能描述該區段彎曲趨勢的要求,挑選所需的採樣點集,挑選的原則是區段中相臨穿越線中點連續,跳變小的中點集合。
具體來說,分析每段中的穿越線,挑出其Y方向中點位置光滑變化的穿越線,被挑出的線所代表的區域做為該段中規則區域,其Y方向中點做為該段進行曲線擬合時使用的採樣點。
如步驟3中所述,在一個區段中的穿越線並不都適於用來生成擬合曲線用的採樣點,採樣點應該是能反映該區段的彎曲趨勢,如圖17中右邊的花邊形成的穿越線,基本被最包含到最上面的A區段和最下面的B區段中。A區段中花邊線產生的穿越線(最右邊第2、3、4條)並不參與採樣點的生成,但它們被A區段擬合出來的曲線(區段中部的白色曲線)一起校正,從而達到了整個區域被同步校正的目的。同樣的還有B區段中花邊線產生的穿越線。再如圖10中左下角的圖像區域等,他們的幾何形狀與文本相去甚遠,但都被和一些文本行劃入了同一個區段。因此該方法可不局限於查找文本行,它將規則的部分(文本)與不規則部分(花邊、圖像、表格線等)劃入到一個區段,由規則部分帶動不規則部分進行校正。
本實施例中,根據上述方法,通過穿越線中點位置是否連續,再用行高輔助判斷,可選出每個區段上的採樣點,在圖8、圖9、圖10中用區段中的白點表示。
按穿越線中點是否光滑變化的原則挑選採樣點,這樣挑出的採樣點大多位於圖像中的文字、標點、表格橫線等區域。而圖像、花邊的不規則的區域由於幾何特性與文字等相差大,一般不會被挑中。為方便起見,稱採樣點所代表的區域為規則區域。
這樣,按現有技術中的投影法無法找出的文本行,基本被分配到各段中,而且一般是段中的規則區域,它們為段的曲線擬合做出貢獻,段中其它不規則區域的在校正時被它們帶動。而且由於每個段中的規則區域與非規則區域緊密相接、混和,其畸變的趨勢是相同的,用每段的規則區域(大多為文字等)的擬合曲線校正非規則區域(大多為圖像、表格豎線、花邊等)是合理的。從而達到了整張畸變圖像都得到了校正的效果。此外,採用穿越線分析的方法,受文本彎曲程度的限制小,只要在遊程圖中取適當的閾值,使文本行間不被塗黑即可。
(6)計算矯正的目標位置,將曲線擬合到目標;對每個區段,按採樣點進行曲線擬合,為每個區段計算矯正的目標位置,預設的Y方向位置可用但不限於用該區段中所有的採樣點的平均值表示,此外,可以對預設位置採用後來者避讓已確定者的方法調整,取採樣點的均值做為校正後的預設目標位置,將每個區段對應的原圖按擬合出的曲線校正到目標位置。
在步驟(6)中,當一個彎曲嚴重的,寬度較寬的段和一個較窄的段處理上下相臨時,其預設目標校正位置容易發生重疊。因此,在實際校正前,應參考預設的目標位置,採用避讓的方法計算出每段實際的校正位置。本實施例中,採用未處理的段避讓已處理段的方法,具體方法為
1)首先構建一張段的索引表Ti,表中記錄表的索引值,其順序按段實際校正時的目標位置,從小到大排序,某段的實際校正位置越靠上,該段的索引在索引表中的位置越靠前。該表初始時為空。
2)從步驟3中構建好的段列表T中的順序逐個取出每段(如步驟3所述,T中段的順序大體按從上到下,從左到右的順序排列)。每個區段都根據自己的預設目標校正位置,和自身的寬、高,在索引表Ti中查詢該位置是否已被其它段佔用,若已被佔用,則進行避讓,將目標位置下移,直到兩段不衝突為止。若下移到與下面的段衝突或越出邊界,仍然不能避免與上面的段衝突,則嘗試向左右移動,若最終經過類似一系列的嘗試仍不能避免衝突,則放置在預設目標位置。確定好目標位置後,將該段的索引按其目標位置插入索引表Ti中。反覆對所有的段如此處理,可確定所有段的目標位置。
根據每個區段選出來的採樣點,可採用各種可行的曲線擬合,比如可採用(自適應)多項式擬合、貝塞爾曲線擬合、B樣條擬合、橢圓曲線等。在採用多項式擬合時,若採用固定階數的多項式擬合,則階數不宜定得過高,否則易發生震蕩現象,一般3階就足夠描述實際圖像中嚴重彎曲的區域了。本實施例採用3階多項式擬合。所得的曲線在圖8、圖9、圖10中,用各區段中間位置附近的白線表示。
獲得各區段的擬合曲線後,應計算每個區段的校正目標位置。本實施例中取各區段中採樣點所在穿越線的中點平均Y值,做為其在Y方向的預設目標位置。確定目標位置後,每個區段按如下的規則校正設該區段中的任意一個需要被校正的點坐標為(x,y),相同x處的擬合曲線上點的坐標為(x,yf),校正的目標Y值為yd,則該點在校正後的坐標為(x,y+yf-yd)。求出此預設位置後,還需要按前述的避讓方法進行調整,圖20是圖19按此算法校正的結果。如果不進行這種調整,可能會出現相臨的區段校正後距離過近甚至重疊的情況,如圖21所示。
(7)在原圖中,對背景區域進行填充。
圖像上除了區段外的區域稱為背景,校正只對區段中的所有像素點進行,如圖18是圖2校正後的圖像。背景區域還需要根據原圖進行填充。圖18填充後可得到圖11所示的完整效果。
以上具體實施方式
是以橫排文稿為例進行的表述。如果所處理的是豎排文稿時,可以將文稿旋轉90度;或將所描述的水平方向與垂直方向互換,即X方向與Y方向互換即可。
通過觀察校正後的圖11、12、13、20可以看出1、對彎曲程度大,但版面中只包含文字的圖(圖2),校正效果很理想(如圖11所示)。
2、對中包含有文字、表格、公式,帶分欄的圖(圖3),文字的校正效果基本滿意(如圖12所示)。表格部分,右上角有部分區域文字與表格線重疊,這是由於對表格線這種相對複雜的拓撲結構,避讓措施可能失效。左邊有小段表格線斷開,這是由於該小區段左邊的區段包含了一段文字,導致在區段在區段合併時,未滿足合併的條件。公式部分,右邊大部分校正效果很好,左部由於區段合併不準確,未能校正。總體說來,該圖像從原來基本進行無法進行OCR(原因為行切分失敗)被校正為合適OCR,且其中的表格、公式等區域也有了很大的改善。
3、對圖中包含圖像、花邊區域的圖(圖4),文字區域被較好的校正。圖像和花邊部分,如「具體實施方式
」中(5)所述,該圖像和花邊被分別劃分入某區段中,它們不參與採樣點的採集,但它們的畸變趨勢被所在區段中的文本部分反映出來,被與文本同步校正。因此雖然圖像內部和花邊在校正後可能會出現畸變加重的情況(如圖13右側的圖像部分所示),但對OCR而言,非文本區域是不需要識別的,因此其內部的畸變不產生任何負面影響,重要的是通過這種位置的同步校正,圖像和花邊等非文本區域與文本區域的相對位置未發生改變,因此避免了對OCR的版面分析等操作產生副作用。
4、對文字行傾斜角度跨度大、有分欄版式、文字行長短差異大的圖(圖19),由其校正後的結果圖(如圖20所示)來看,效果很理想。
通過本實施例可以看到,本發明的文稿圖像畸變校正技術可明顯地提高圖像的主觀質量,特別是在OCR的運用中,文本區域的文字被較好的校正,能正常進行版面分析、切分、識別等後續處理。文本之外的其餘區域被同步校正,不再對OCR產生負作用。
權利要求
1.一種文稿圖像幾何畸變的校正方法,包括以下步驟(1)對圖像進行二值化預處理;(2)在二值化圖像上求出遊程圖;(3)用一系列垂直線與遊程圖中的黑色部分相交,獲得一系列穿越交線,簡稱穿越線;(4)將穿越線分配到不同的區段中,獲得區段列表;(5)從每個區段中挑選出能反映該區段幾何畸變的採樣點;(6)根據採樣點對每個區段進行曲線擬合,將區段中的所有像素按此曲線校正到一條水平直線;(7)對區段外的區域做背景填充。
2.如權利要求1所述的一種文稿圖像幾何畸變的校正方法,其特徵是在步驟(1)中,對圖像進行二值化預處理後利用版面分析的技術或手工分析出文本、圖像表格區域,每個區域單獨校正;或者不進行版面分析,在整個圖像上統一進行校正。
3.如權利要求1所述的一種文稿圖像幾何畸變的校正方法,其特徵是在步驟(2)中,對橫排文稿圖像生成遊程圖時,X與Y方向的塗黑閾值應相差2倍以上,達到X方向多塗黑,Y方向儘量保留空白的目的。
4.如權利要求1所述的一種文稿圖像幾何畸變的校正方法,其特徵是在步驟(3)中,用一系列貫穿整個圖像的垂直線與遊程圖相交,獲得一系列穿越線,穿越線可以視為對遊程圖的抽樣,每條穿越線直觀地反映出遊程圖中該位置的幾何特性,如位置和高度,各次穿越的水平間距為N個像素,N為常數或者是根據圖像密度分布設為變化的值。
5.如權利要求1、2、3或4所述的一種文稿圖像幾何畸變的校正方法,其特徵是在步驟(4)中,分析穿越線,將穿越線分配入不同的區段中,獲得區段列表,穿越線分配到不同區段時滿足以下條件1)相臨的穿越線上沿或下沿大體對齊;2)相臨的穿越線在水平方向相互包含;此外,所得的區段可按一定的規則合併、拆分,合併、拆分的規則包括a.根據幾何形狀,將較小的區段合併入周圍與之重疊最大的宿主段中;b.根據幾何形狀,將有首尾交疊的行合併;c.從區段中查找穿越線中點位置跳變過大的位置,斷為兩行。
6.如權利要求1、2、3或4所述的一種圖像校正的方法,其特徵是在步驟(5)中,在每個區段中按是否能描述該區段彎曲趨勢的要求,挑選所需的採樣點集,挑選的原則是區段中相臨穿越線中點連續,跳變小的中點集合。
7.如權利要求1、2、3或4所述的一種文稿圖像幾何畸變的校正方法,其特徵是在步驟(6)中,為每個區段計算矯正的目標位置時,預設的Y方向位置用該區段中所有的採樣點的平均值表示,此外,對預設位置採用後來者避讓已確定者的方法調整。
8.如權利要求1、2、3或4所述的一種文稿圖像幾何畸變的校正方法,其特徵是在步驟(6)中,將曲線擬合到目標時,根據每個區段選出來的採樣點,採用以下的曲線擬合方式多項式擬合、貝塞爾曲線擬合、B樣條擬合、橢圓曲線。
9.如權利要求8所述的一種文稿圖像幾何畸變的校正方法,其特徵是所述的多項式擬合是小於6階的固定階數多項式擬合,或自適應的變階數多項式擬合。
10.如權利要求9所述的一種文稿圖像幾何畸變的校正方法,其特徵是在步驟(4)中,分析穿越線,獲得遊程區段列表,組成遊程的穿越線滿足但不限於以下條件1)相臨的穿越線上沿或下沿大體對齊;2)相臨的穿越線在水平方向相互包含;所得的區段可按一定的規則合併、拆分,合併、拆分的規則包括a.根據幾何形狀,將較小的區段合併入周圍與之重疊最大的宿主段中;b.根據幾何形狀,將有首尾交疊的行合併;c.從區段中查找穿越線中點位置跳變過大的位置,斷為兩行;在步驟(5)中,在每個區段中按是否能描述該區段彎曲趨勢的要求,挑選所需的採樣點集,挑選的原則是區段中相臨穿越線中點連續,跳變小的中點集合;在步驟(6)中,為每個區段計算矯正的目標位置時,預設的Y方向位置可用但不限於用該區段中所有的採樣點的平均值表示,此外,可以對預設位置採用後來者避讓已確定者的方法調整。
11.如權利要求1、2、3或4所述的一種文稿圖像幾何畸變的校正方法,其特徵是如果所處理的是豎排文稿時,將所描述的水平方向與垂直方向互換,即X方向與Y方向互換。
12.如權利要求10所述的一種文稿圖像幾何畸變的校正方法,其特徵是如果所處理的是豎排文稿時,將所描述的水平方向與垂直方向互換,即X方向與Y方向互換。
全文摘要
本發明涉及計算機信息處理領域的圖像處理技術,具體涉及一種以複雜文本內容為主的畸變圖像的校正方法。現有的技術通過水平投影找到文本行的位置,再擬合文本行中心線進行校正,因此只能對工整的、彎曲程度輕微的,文本行從左一直貫穿到右的純文本文稿圖像進行校正。當文稿中出現圖像、表格等非文本區域,或文本行彎曲嚴重、版面有錯行分欄等稍複雜一些的排版時,就無法再找到文本行,從而不能再進行後續的處理。本發明所述的方法通過對圖像進行遊程塗黑處理,在遊程圖上劃分區段,以段中規則部分帶動不規則部分進行校正,不但能準確地校正複雜文稿中的文字,而且對一般文稿圖像中的表格、花邊、圖片的校正也有較大的改善。
文檔編號G06K9/00GK1804861SQ20051013518
公開日2006年7月19日 申請日期2005年12月29日 優先權日2005年12月29日
發明者康凱, 杜鵬飛, 劉芝, 賀白 申請人:北大方正集團有限公司, 北京北大方正技術研究院有限公司, 北京大學