基於sift特徵與灰度差值直方圖特徵的文字識別方法
2023-11-04 12:49:32 1
專利名稱:基於sift特徵與灰度差值直方圖特徵的文字識別方法
技術領域:
本發明涉及的是一種圖像文字識別技術領域的方法,具體是一種基於SIFT
特徵與灰度差值直方圖特徵的文字識別方法。
背景技術:
目前,圖像文字識別技術的應用十分廣泛,該技術就是從一幅圖像中識別 出所包含的文字信息。其實,西方國家在文本識別技術領域已取得了不少研究 成果,但是他們的研究對象大多局限於英文字母。由於中文具有複雜的筆畫結 構、龐大的漢字庫、各種不同類型的字體,使得漢字識別技術成為一個研究難 點。
傳統的文本識別技術一般包括文本定位、文本增強以及成熟的OCR技術。 對於基於OCR技術的文本識別方法而言,其識別性能與文本定位的準確率和文 本增強後的圖像質量有很大關係。而文本定位的準確率又取決於所選文字特徵 的描述能力。傳統的文字特徵描繪子大致可以概括為基於結構信息與基於統計 信息兩大類。基於結構信息的方法來描述漢字字形在理論上比較恰當,但是, 在實際應用中,面臨的主要問題是抗幹擾能力差,例如圖像中文字的傾斜、扭 曲、斷裂、粘連、對比度差等等,而這些因素直接影響到結構基元的提取。基 於統計信息的描述方法,主要是提取待識別模式的一組統計特徵,然後按照一 定準則確定決策。例如,幾何矩(geometricmoment)特徵m. k. hu提出利用 矩不變量作為特徵的想法,所涉及到的幾何矩均在線性變換下保持不變。但在 實際環境中,很難保證線性變換這一前提條件;傅立葉描繪子利用傅立葉函 數模擬封閉的輪廓線,將傅立葉函數的各個係數作為特徵的,對於輪廓線不封 閉的字符圖像不適用,因此很難用於筆劃斷裂的字符的識別。
經對現有技術文獻的檢索發現《基於筆劃的手寫體漢字方向分解特徵提取 方法》(載華南理工大學學報自然科學版),提出了一種利用筆劃密度特徵識 別文字的方法,文字以固定掃描次數沿水平、垂直或對角線方向掃描時的穿透
4次數。這種特徵描述了漢字的各部分筆劃的疏密程度,提供了比較完整的信息。 在圖像質量可以保證的情況下,這種特徵相當穩定,但是在字符內部筆劃粘連 時誤差較大。在實際運用中,上述特徵的描述能力受背景複雜度、光照強度、 文字字體、文字傾斜程度、文字尺寸等情況的影響。
發明內容
本發明的目的在於克服現有技術中的不足,提出一種基於SIFT特徵與灰度
差值直方圖特徵的文字識別方法,本發明利用文字關鍵區域的局部特徵及灰度
對比度統計特徵來描述文字,並利用該信息來識別複雜背景下的文字。 本發明是通過以下技術方案實現的,本發明包括以下步驟.-
(1) 建立漢字模板圖庫,每張模板圖片只含單個漢字。每個模板漢字涵蓋
不同字形的一號字體;
(2) 提取待識別漢字圖片的特徵點,記錄每個特徵點的相關信息,即位置 信息、鄰域尺度信息、主方向,並計算出SIFT特徵點的128維向量;其中,這 些待識別圖片上漢字的字體、字號、旋轉度、拉伸度、在圖片中所處的位置、 所處背景的複雜程度都可以有所不同;
(3) 利用步驟(2)中得到的每個特徵點的相關信息,計算兩倍鄰域尺度 範圍內灰度差值統計直方圖,得到特徵點的120維向量;
(4) 將步驟(2)和步驟(3)中計算得到的特徵點的128維向量和120維 向量合併在一起,歸併成總的特徵向量,得到待識別漢字圖片的特徵向量;
(5) 計算模板圖庫中模板文字進行特徵向量的計算,並存於漢字模板圖庫
中;
(6) 將待識別漢字圖片的特徵向量與模板圖庫中模板文字圖片的特徵向量 相匹配從得到的模板圖庫中模板文字圖片的特徵向量集合中,尋找與待識別 漢字圖片的特徵向量相匹配的特徵點;
(7) 對識別到的漢字圖片進行相似度排序,檢測識別效果根據正確匹配
點對數的結果以及特徵向量間的相似度,將步驟6得到的匹配結果通過加權排
序的方法,最終得到模板庫中與待識別漢字較匹配的漢字。
與現有技術相比,本發明具有以下有益效果
本發明利用文字關鍵區域的局部特徵及灰度對比度統計特徵來識別複雜背景下的文字,解決了複雜背景、傾斜、形變、光線變換等不同質量的圖像上的 文字識別問題,無需定位圖像中的文字區域,即無需離線地做大量文字統計特 徵的機器學習工作;無需對文字進行前期增強處理;無需對圖像中的漢字進行 傾斜矯正、尺度縮放、位置平移等處理;可以部分匹配不同字體的漢字,大大 提高了文字識別率。
圖l是本發明的流程。
圖2是同種字體的文字匹配效果。
圖3是同種文字不同字體的匹配效果。
具體實施例方式
下面結合附圖對本發明的實施例作詳細說明本實施例在以本發明技術方 案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發明的 保護範圍不限於下述的實施例。
如圖1所示,本實施例包括以下步驟
(1) 輸入待識別的漢字圖片,待檢測圖片上的漢字的字形、字號、文字在 圖像中所處位置、旋轉度、拉伸度、背景複雜度都可以有所不同。
(2) 進行SIFT特徵點檢測運用SIFT算法進行SIFT特徵點向量描述, 提取待識別漢字圖片的特徵點,記錄每個特徵點的相關信息,即位置信息、鄰 域尺度信息、主方向,並計算出SIFT特徵點的128維向量。
(3) 灰度差值直方圖描述利用步驟(2)中得到的關於每個特徵點的相 關信息,計算兩倍鄰域尺度範圍內灰度差值統計直方圖,得到120維向量
3. 1)以步驟(2)檢測到的特徵點為中心,以步驟(2)得到的尺度(scale) 的兩倍為半徑確定統計灰度差值的鄰域範圍;
3.2) 將該鄰域旋轉一個角度,使得步驟(2)得到的主方向與坐標系X軸 正方向的夾角為0;
3.3) 將半徑量化為5級,將360度等分成12級,建立對數極坐標,從而 將鄰域劃分成60個子區域;3.4) 計算中心特徵點與各個子鄰域內其他像素點的差值,若得到的差值大 於0,則將正差值的像素個數累加l,若得到的差值小於0,則將負差值的像素
個數累加1,最終每個區域會形成2維的統計直方3.5) 循環步驟3.4),直至計算完所有的子區域,得到60個子區域對應的 120維向量。
(4) 將步驟(2)和步驟(3)中計算得到的兩種向量合併在一起,歸併成 總的特徵向量,得到待識別漢字圖片的特徵向量。
(5) 計算模板圖庫中模板文字圖片的特徵向量,並存於資料庫中。
(6) 將待識別漢字圖片的特徵向量與模板圖庫中模板文字圖片的特徵向量 進行匹配,尋找與待識別漢字圖片的特徵向量相匹配的特徵點。其中,每張模 板圖片只含有單個漢字,且涵蓋了不同字形的一號字體。
針對兩幅圖片的特徵點對集,遍歷模板圖庫中模板文字圖片的每個特徵點, 計算每個特徵點對應的特徵向量與待識別漢字圖片所有特徵向量的歐式距離,
若最近鄰距離與次近鄰距離之比在閾值範圍之內,則認為該特徵點與最近鄰向 量所對應的特徵點是匹配點對。
(7) 對檢測到的漢字圖片進行相似度排序,檢測識別效果根據正確匹配 點對數的統計結果以及特徵向量間的相似度,將步驟(6)得到的結果通過一個 加權排序的方法,最終得到模板庫中與待識別漢字較匹配的漢字。所示圖2是 同種字體的文字匹配效果,分別為黑體常規的"舟"和黑體加粗的"舟"。圖3 是同種文字不同字體的匹配效果,分別是隸書傾斜字體的"名"與黑體常規字 體的"名"。第一列圖是本專利提出的算法得到的效果圖,第二列圖是SIFT算 法得到的效果圖。連線表示正確匹配上的點對。
本實施例利用文字關鍵區域的局部特徵及灰度對比度統計特徵來識別複雜 背景下的文字,解決了複雜背景、傾斜、形變、光線變換等不同質量的圖像上 的文字識別問題,減少了大量文字統計特徵的機器學習工作;可以部分匹配不 同字體的漢字,大大提高了文字識別率。
權利要求
1、一種基於SIFT特徵與灰度差值直方圖特徵的文字識別方法,其特徵在於,包括以下步驟(1)建立漢字模板圖庫;(2)提取待識別漢字圖片的特徵點,記錄每個特徵點的位置信息、鄰域尺度信息、主方向信息,並計算出SIFT特徵點的128維向量;(3)利用步驟(2)中得到的每個特徵點的位置信息、鄰域尺度信息、主方向信息,計算兩倍鄰域尺度範圍內灰度差值統計直方圖,得到120維向量;(4)將特徵點的128維向量和120維向量合併在一起,歸併成總的特徵向量,得到待識別漢字圖片的特徵向量;(5)計算模板圖庫中模板文字進行特徵向量的計算,並存於資料庫中;(6)待識別漢字圖片的特徵向量與模板圖庫中模板文字圖片的特徵向量進行匹配,尋找與待識別漢字圖片的特徵向量相匹配的特徵點;(7)對識別到的漢字圖像進行相似度排序,檢測識別效果。
2、根據權利要求1所述的文字識別方法,其特徵是,所述計算兩倍鄰域尺度範圍內灰度差值統計直方圖,是指1) 以步驟(2)檢測到的特徵點為中心特徵點,以鄰域尺度的兩倍大小為半徑確定統計灰度差值的鄰域範圍;2) 將鄰域範圍旋轉一個角度,使主方向與坐標系X軸正方向的夾角為O;3) 將半徑量化為5級,將360度等分成12級,從而將鄰域劃分成60個子區域;4) 計算中心特徵點與各個子鄰域內其他像素點的差值,若得到的差值大於 0,則將正差值的像素個數累加1,若得到的差值小於O,則將負差值的像素個 數累加1,形成2維的統計直方圖;5) 循環步驟4),直至計算完所有的子區域,得到60個子區域對應的120 維向量。
3、 根據權利要求1所述的基於SIFT特徵與灰度差值直方圖特徵的文字識 別方法,其特徵是,所述的待識別漢字圖片的特徵向量與模板圖庫中模板文字 圖片的特徵向量進行匹配,是指,遍歷模板圖庫中模板文字圖片的每個特徵點, 計算每個特徵點對應的特徵向量與待識別漢字圖片所有特徵向量的歐式距離,若最近鄰距離與次近鄰距離之比在閾值範圍之內,則認為該特徵點與最近鄰向 量所對應的特徵點是匹配點對。
4、 根據權利要求1所述的基於SIFT特徵與灰度差值直方圖特徵的文字識 別方法,其特徵是,步驟(7)所述檢測,是指,根據正確匹配點對數的統計結 果以及特徵向量間的相似度,將步驟(6)得到的結果通過加權排序的方法,得 到模板圖中與待識別漢字相匹配的漢字。
全文摘要
本發明涉及的是一種圖像文字識別技術領域的基於SIFT特徵與灰度差值直方圖特徵的文字識別方法。本發明包括以下步驟1.構建漢字模板圖庫,其中存儲了各種複雜背景下字體類別、文字大小、方向均不相同的圖片。2.對模板圖庫中的圖片進行特徵提取。3.計算待識別漢字的特徵向量。4.尋找模板庫中與待識別漢字最相近的漢字。本發明提出的識別方法無需對圖片做任何預處理,無需對海量的文字特徵做大規模的機器學習,創新性地藉助局部特徵的優勢,巧妙地結合區域內的灰度統計信息來描述、匹配文字,實驗結果表明文字識別效果較好,並對同一個字的不同類型字體也能做出很好地辨識。
文檔編號G06K9/46GK101561866SQ20091005214
公開日2009年10月21日 申請日期2009年5月27日 優先權日2009年5月27日
發明者桐 武, 管海兵, 琪 鄭, 貞 金, 凱 陳 申請人:上海交通大學