新四季網

一種影像檔案電子資料的識別系統的製作方法

2023-06-11 07:48:21 1

一種影像檔案電子資料的識別系統的製作方法
【專利摘要】本發明提供一種影像檔案電子資料的識別系統,包含:預處理模塊、版面分析模塊、信息識別模塊、信息分類模塊、信息校正模塊、信息補錄模塊。本發明能夠自動識別掃描圖像,從中提取有用信息,並按照一定的分類規則保存到資料庫中,供用戶檢索、查詢,最大程度減少用戶的工作量。本發明的識別系統,基於連通體的區域聚類方法來解決版面印刷字符區域的準確提取問題,還基於自然語言理解的錯誤糾正方法和信息分類算法來解決字符識別率低和信息分類困難的問題,抗幹擾性強,提升了識別的效率和準確性。
【專利說明】一種影像檔案電子資料的識別系統
【技術領域】
[0001]本發明涉及數據管理系統領域,特別涉及一種影像檔案電子資料的識別系統。
【背景技術】
[0002]現代社會中,紙質文檔(例如銀行票據憑證、個人信息表等等)仍然被廣泛使用,對紙質文檔的存儲、管理及文件上的信息歸類、查找都十分困難。計算機和智慧型手機的普及,使得通過電子方法對紙質文檔進行管理成為可能,但是將紙質文檔上的信息通過人工輸入電子系統需要耗費大量的時間和人力;而通過智能系統自動識別票據內容還存在很多局限。
[0003]諸如銀行業務中,票據上的大量信息都是列印上去的印刷體的數字及中英文字符,準確提取並識別這些信息對自動票據處理有著重要作用。然而,由於票據版面的複雜性和識別要求的特殊性,在實際系統中可能會遇到各種困難:票據版面上存在印章、油墨、手寫信息、背景圖案等等幹擾信息;另外票據上還會出現字符粘連、字體字號變化頻繁、識別信息不全等問題。針對於銀行系統中的兌付業務而言,其過程是將每個櫃員辦理的業務票據與電腦中存儲的流水信息進行比對,以檢查操作員是否進行了誤操作;如果票據內容識別錯誤會導致帳目不平的後果。

【發明內容】

[0004]為了解決上述現有問題,本發明提供了一種影像檔案電子資料的識別系統,實現印刷字符信息和幹擾信息的分離;多字體印刷字符的自動識別;基於自然語言理解方法進行錯誤校正、識別結果分類與信息提取,從而提高識別效率和準確性。
[0005]本發明的技術方案是提供一種影像檔案電子資料的識別系統,其包含:
信息識別模塊,對圖像中的信息進行識別;
信息分類模塊,將識別出的信息中具有固定格式及內容的信息進行分類得到不同的信息項,為每個信息項構建相應的查找表,並對信息項的關聯信息進行記錄;
信息校正模塊,基於信息分類結果及其查找表和信息項關聯信息,對識別出的信息進行校正;
所述識別系統將圖像上經過識別、校正後得到的信息及信息項的查找表和信息項關聯信息,構成與該圖像對應的電子檔案存入至資料庫中,供接入的用戶終端或外部系統進行查詢或分析處理。
[0006]可選地,所述識別系統進一步設置有索引生成器,將圖像與其電子檔案的匹配關係記錄在索引信息中;用戶終端或外部系統通過檢索所述索引信息或其組合,從圖像存儲器中查詢相應的圖像。
[0007]可選地,所述索引信息是文字、圖形或語音格式;所述索引信息也存入與圖像對應的電子檔案中。
[0008]可選地,所述識別系統進一步設置有圖像存儲器至信息校正模塊的傳輸接口,以便從圖像存儲器中調取保存的圖像,供信息校正時與識別出的信息進行比對。
[0009]可選地,所述識別系統進一步設置有與信息校正模塊信號連接的信息補錄模塊,提供對遺漏或錯誤識別的信息進行手動輸入及編輯的操作支持。
[0010]可選地,所述識別系統進一步設置有預處理模塊,對圖像進行包含二值化的預處理後,輸送至識別系統中的後續模塊。
[0011]可選地,所述識別系統進一步設置有版面分析模塊,從圖像中提取出識別區域,切分出文字行,並去除幹擾信息。
[0012]可選地,所述版面分析模塊,將圖像中相鄰的同顏色像素點連接形成連通體,設置閾值來排除不符合規則的連通體;再將位置相鄰的若干個連通體組成連通體行後進行聚類,確定需要的識別區域。
[0013]本發明的另一個技術方案是提供一種影像檔案電子資料的識別系統,其包含: 預處理模塊,對圖像進行包含二值化的預處理;
版面分析模塊,從預處理過的圖像中提取出識別區域;
信息識別模塊,對圖像的識別區域進行信息識別;
信息分類模塊,將識別出的信息中具有固定格式及內容的信息進行分類得到不同的信息項,為每個信息項構建相應的查找表,並對信息項的關聯信息進行記錄;
信息校正模塊,基於信息分類結果及其查找表和信息項關聯信息,對識別出的信息進行校正;
信息補錄模塊,提供對遺漏或錯誤識別的信息進行手動輸入及編輯的操作支持;
所述識別系統將圖像上經過識別、校正、補錄後得到的信息及信息項的查找表和信息項關聯信息,構成與該圖像對應的電子檔案存入至資料庫中,供接入的用戶終端或外部系統進行查詢或分析處理。
[0014]與現有技術相比,本發明提供的影像檔案電子資料的識別系統,其優點在於:本發明能夠自動識別掃描圖像,從中提取有用信息,並按照一定的分類規則保存到資料庫中,供用戶檢索、查詢,最大程度減少用戶的工作量。本發明的識別系統,基於連通體的區域聚類方法來解決版面印刷字符區域的準確提取問題,還基於自然語言理解的錯誤糾正方法和信息分類算法來解決字符識別率低和信息分類困難的問題,抗幹擾性強、識別準確性高、識別效率高。
【專利附圖】

【附圖說明】
[0015]圖1是本發明所述影像檔案電子資料的識別系統的示意圖。
【具體實施方式】
[0016]本發明提供的影像檔案電子資料的識別系統,對掃描紙質文檔得到的圖像進行信息識別,形成與該信息相匹配的電子檔案存入資料庫,供用戶後續查詢使用。
[0017]如圖1所示,本發明中通過預處理模塊,對掃描獲得的圖像,先進行諸如旋轉傾斜圖像、二值化、光度對比度調節等預處理。在實際應用中,可以是將掃描儀或攝錄頭獲取的圖像直接輸入本發明的識別系統,也可以是將獲取的圖像先進行緩存,識別系統再從緩存中讀入圖像進行預處理。[0018]本發明中通過版面分析模塊,從圖像中提取出需要進行識別的區域,切分出文字行,並去除幹擾信息(例如印章、手寫體、背景圖案、底紋、噪音等)。一種從圖像中提取識別區域的示例方式,是以圖像版面內的連通體分析為基礎,採用區域生長算法對連通體行進行聚類,從而確定所需的識別區域。
[0019]具體地,所述連通體由版面中同顏色像素點(白像素或黑像素)連通構成:從一個像素點出發,若其相鄰的4個或8個方向上有相鄰的同顏色像素點,則將兩者連接起來,直到找不到相鄰的同顏色像素點,則將已經找到的同顏色像素點作為一個連通體。這裡可以通過BAG (block adjacency graph)來尋找圖像中的連通體。
[0020]圖像中不同特徵的連通體往往混雜在一起。其中,背景紋理產生的連通體通常表現為小的點或者窄長的線,手寫字產生的連通體往往形狀不規則;而本發明中需要識別的由連續的印刷字產生的連通體,一般是比較規則的方塊或者較寬的條帶。因而,對連通體的長度、寬度、傾斜角度等參數設置閾值,來去掉那些明顯不符合規則的連通體。之後,根據位置關係,將位置相鄰的連通體組成連通體行。再對這些連通體進行聚類,確定需要的信息域。
[0021]即,對於每一個連通體行Li,為它定義一個屬性Pi (X, y, z,…,count),其中x、y、z表示連通體行Li本身具有的特徵,比如高、寬、密度等,count用來計算與其相似並且相鄰的連通體行個數。Counti定義如下:
【權利要求】
1.一種影像檔案電子資料的識別系統,其特徵在於,包含: 信息識別模塊,對圖像中的信息進行識別; 信息分類模塊,將識別出的信息中具有固定格式及內容的信息進行分類得到不同的信息項,為每個信息項構建相應的查找表,並對信息項的關聯信息進行記錄; 信息校正模塊,基於信息分類結果及其查找表和信息項關聯信息,對識別出的信息進行校正; 所述識別系統將圖像上經過識別、校正後得到的信息及信息項的查找表和信息項關聯信息,構成與該圖像對應的電子檔案存入至資料庫中,供接入的用戶終端或外部系統進行查詢或分析處理。
2.如權利要求1所述的識別系統,其特徵在於, 所述識別系統進一步設置有索引生成器,將圖像與其電子檔案的匹配關係記錄在索引信息中;用戶終端或外部系統通過檢索所述索引信息或其組合,從圖像存儲器中查詢相應的圖像。
3.如權利要求2所述的識別系統,其特徵在於, 所述索引信息是文字、圖形或語音格式;所述索引信息也存入與圖像對應的電子檔案中。
4.如權利要求3所述的識別系統,其特徵在於, 所述識別系統進一步設置有圖像存儲器至信息校正模塊的傳輸接口,以便從圖像存儲器中調取保存的圖像,供信息校正時與識別出的信息進行比對。
5.如權利要求1所述的識別系統,其特徵在於, 所述識別系統進一步設置有與信息校正模塊信號連接的信息補錄模塊,提供對遺漏或錯誤識別的信息進行手動輸入及編輯的操作支持。
6.如權利要求1所述的識別系統,其特徵在於, 所述識別系統進一步設置有預處理模塊,對圖像進行包含二值化的預處理後,輸送至識別系統中的後續|吳塊。
7.如權利要求1或6所述的識別系統,其特徵在於, 所述識別系統進一步設置有版面分析模塊,從圖像中提取出識別區域,切分出文字行,並去除幹擾信息。
8.如權利要求7所述的識別系統,其特徵在於, 所述版面分析模塊,將圖像中相鄰的同顏色像素點連接形成連通體,設置閾值來排除不符合規則的連通體;再將位置相鄰的若干個連通體組成連通體行後進行聚類,確定需要的識別區域。
9.一種影像檔案電子資料的識別系統,其特徵在於,包含: 預處理模塊,對圖像進行包含二值化的預處理; 版面分析模塊,從預處理過的圖像中提取出識別區域; 信息識別模塊,對圖像的識別區域進行信息識別; 信息分類模塊,將識別出的信息中具有固定格式及內容的信息進行分類得到不同的信息項,為每個信息項構建相應的查找表,並對信息項的關聯信息進行記錄; 信息校正模塊,基於信息分類結果及其查找表和信息項關聯信息,對識別出的信息進行校正; 信息補錄模塊,提供對遺漏或錯誤識別的信息進行手動輸入及編輯的操作支持; 所述識別系統將圖像上經過識別、校正、補錄後得到的信息及信息項的查找表和信息項關聯信息,構成與該圖像對應的電子檔案存入至資料庫中,供接入的用戶終端或外部系統進行查詢或 分析處理。
【文檔編號】G06K9/62GK103995904SQ201410262810
【公開日】2014年8月20日 申請日期:2014年6月13日 優先權日:2014年6月13日
【發明者】林珉 申請人:上海珉智信息科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀