新四季網

理賠單據的字符識別方法及伺服器與流程

2023-09-12 00:33:00 1


本發明涉及計算機技術領域,尤其涉及一種理賠單據的字符識別方法及伺服器。



背景技術:

隨著大眾保險意識的增強、購買保險的客戶群大幅增多,保險公司需處理的客戶理賠申請越來越多,保險公司作業人員需錄入的理賠單據影像也越來越多,以致於錄單作業人員的人力緊張,同時,經常會出現錄單錯誤。為了有效減少錄單錯誤、提高錄單效率,目前,有些保險公司在錄單作業過程中引入ocr(opticalcharacterrecognition,光學字符識別)技術,以自動識別出理賠單據影像的字符以填充到對應的輸入欄位中。

然而,現有的利用ocr技術進行理賠單據影像字符的識別方案僅利用自身的識別引擎對整個理賠單據影像中的字符進行統一識別,並未考慮理賠單據框架格式對識別精度的影響,也並未考慮單據中的框線對字符識別的幹涉,使得現有的識別方案的識別精度不高,需要耗費大量的人力、物力進行校驗。



技術實現要素:

本發明的主要目的在於提供一種理賠單據的字符識別方法及伺服器,旨在提高理賠單據的識別精度。

為實現上述目的,本發明提供的一種理賠單據的字符識別方法,所述方法包括以下步驟:

伺服器在收到待識別字符的理賠單據影像後,按照該理賠單據框架格式的框線排布進行區域分割,獲得一個或多個分割區域;

調用預先確定的分析模型對獲得的各個分割區域進行分析,並利用預先確定的識別規則對分析出的各個分割區域分別進行字符識別,以識別出各個分割區域中的字符。

優選地,所述調用預先確定的分析模型對獲得的各個分割區域進行分析的步驟包括:

調用預先確定的分析模型對獲得的各個分割區域進行分析,以分析出可利用光學字符識別引擎識別的第一分割區域和不可利用光學字符識別引擎識別的第二分割區域;

所述利用預先確定的識別規則對分析出的各個分割區域分別進行字符識別的步驟還包括:

利用預先確定的光學字符識別引擎對各個所述第一分割區域進行字符識別,以識別出各個所述第一分割區域中的字符,並調用預先確定的識別模型對各個所述第二分割區域進行字符識別,以識別出各個所述第二分割區域中的字符。

優選地,所述預先確定的分析模型為卷積神經網絡模型,所述預先確定的分析模型的訓練過程如下:

a、針對預先確定的理賠單據框架格式,獲取預設數量的基於該理賠單據框架格式的理賠單據影像樣本;

b、對每一個理賠單據影像樣本按照該理賠單據框架格式的框線排布進行區域分割,並確定出各個理賠單據影像樣本中利用光學字符識別引擎識別錯誤的第三分割區域和利用光學字符識別引擎識別正確的第四分割區域;

c、將所有第三分割區域歸入第一訓練集,將所有第四分割區域歸入第二訓練集;

d、分別從所述第一訓練集和所述第二訓練集中提取出第一預設比例的分割區域作為待訓練的分割區域,並將所述第一訓練集和所述第二訓練集中剩餘的分割區域作為待驗證的分割區域;

e、利用提取的各個待訓練的分割區域進行模型訓練,以生成所述預先確定的分析模型,並利用各個待驗證的分割區域對生成的所述預先確定的分析模型進行驗證;

f、若驗證通過率大於或等於預設閾值,則訓練完成,或者,若驗證通過率小於預設閾值,則增加理賠單據影像樣本的數量,並重複執行上述步驟a、b、c、d、e,直至驗證通過率大於或等於預設閾值。

優選地,所述預先確定的識別模型為長短期記憶lstm模型,所述預先確定的識別模型的訓練過程如下:

獲取預設數量的分割區域樣本,對各個分割區域樣本以該分割區域樣本所含字符來進行標註;

將預設數量的分割區域樣本按照預設比例分為第一數據集和第二數據集,並將所述第一數據集作為訓練集,將所述第二數據集作為測試集;

將所述第一數據集送入lstm網絡進行模型訓練,每隔預設時間,使用訓練得到的模型對所述第二數據集中的分割區域樣本進行字符識別,並將識別的字符與該分割區域樣本的標註進行比對,以計算識別的字符和標註的誤差;

若訓練得到的模型識別字符的誤差出現發散,則調整預設的訓練參數並重新訓練,直至使得訓練得到的模型識別字符的誤差能夠收斂;

若訓練得到的模型識別字符的誤差收斂,則結束模型訓練,將生成的模型作為訓練好的所述預先確定的識別模型。

優選地,所述分割區域是由該理賠單據框架格式的框線所圍成的最小單位的區域,且所述分割區域為不包含框線的區域。

此外,為實現上述目的,本發明還提供一種理賠單據的字符識別伺服器,所述字符識別伺服器包括:

分割模塊,用於在收到待識別字符的理賠單據影像後,按照該理賠單據框架格式的框線排布進行區域分割,獲得一個或多個分割區域;

識別模塊,用於調用預先確定的分析模型對獲得的各個分割區域進行分析,並利用預先確定的識別規則對分析出的各個分割區域分別進行字符識別,以識別出各個分割區域中的字符。

優選地,所述識別模塊還用於:

調用預先確定的分析模型對獲得的各個分割區域進行分析,以分析出可利用光學字符識別引擎識別的第一分割區域和不可利用光學字符識別引擎識別的第二分割區域;

利用預先確定的光學字符識別引擎對各個所述第一分割區域進行字符識別,以識別出各個所述第一分割區域中的字符,並調用預先確定的識別模型對各個所述第二分割區域進行字符識別,以識別出各個所述第二分割區域中的字符。

優選地,所述預先確定的分析模型為卷積神經網絡模型,所述預先確定的分析模型的訓練過程如下:

a、針對預先確定的理賠單據框架格式,獲取預設數量的基於該理賠單據框架格式的理賠單據影像樣本;

b、對每一個理賠單據影像樣本按照該理賠單據框架格式的框線排布進行區域分割,並確定出各個理賠單據影像樣本中利用光學字符識別引擎識別錯誤的第三分割區域和利用光學字符識別引擎識別正確的第四分割區域;

c、將所有第三分割區域歸入第一訓練集,將所有第四分割區域歸入第二訓練集;

d、分別從所述第一訓練集和所述第二訓練集中提取出第一預設比例的分割區域作為待訓練的分割區域,並將所述第一訓練集和所述第二訓練集中剩餘的分割區域作為待驗證的分割區域;

e、利用提取的各個待訓練的分割區域進行模型訓練,以生成所述預先確定的分析模型,並利用各個待驗證的分割區域對生成的所述預先確定的分析模型進行驗證;

f、若驗證通過率大於或等於預設閾值,則訓練完成,或者,若驗證通過率小於預設閾值,則增加理賠單據影像樣本的數量,並重複執行上述步驟a、b、c、d、e,直至驗證通過率大於或等於預設閾值。

優選地,所述預先確定的識別模型為長短期記憶lstm模型,所述預先確定的識別模型的訓練過程如下:

獲取預設數量的分割區域樣本,對各個分割區域樣本以該分割區域樣本所含字符來進行標註;

將預設數量的分割區域樣本按照預設比例分為第一數據集和第二數據集,並將所述第一數據集作為訓練集,將所述第二數據集作為測試集;

將所述第一數據集送入lstm網絡進行模型訓練,每隔預設時間,使用訓練得到的模型對所述第二數據集中的分割區域樣本進行字符識別,並將識別的字符與該分割區域樣本的標註進行比對,以計算識別的字符和標註的誤差;

若訓練得到的模型識別字符的誤差出現發散,則調整預設的訓練參數並重新訓練,直至使得訓練得到的模型識別字符的誤差能夠收斂;

若訓練得到的模型識別字符的誤差收斂,則結束模型訓練,將生成的模型作為訓練好的所述預先確定的識別模型。

優選地,所述分割區域是由該理賠單據框架格式的框線所圍成的最小單位的區域,且所述分割區域為不包含框線的區域。

本發明提出的理賠單據的字符識別方法及伺服器,在對理賠單據影像進行字符識別前,按照該理賠單據框架格式的框線排布對其進行區域分割,利用預先確定的識別規則對該理賠單據的各個分割區域分別進行字符識別,以分別識別出各個分割區域中的字符。由於考慮到理賠單據框架格式對識別精度的影響,在進行字符識別前先按照理賠單據框架格式的框線排布進行區域分割,再針對各個分割區域來進行字符識別,避免了在對整個理賠單據影像中的字符進行統一識別時單據中的框線對字符識別的影響及幹涉,能有效提高對理賠單據中字符的識別精度。

附圖說明

圖1為本發明理賠單據的字符識別方法第一實施例的流程示意圖;

圖2為本發明理賠單據的字符識別方法第二實施例的流程示意圖;

圖3為本發明理賠單據的字符識別伺服器第一實施例的功能模塊示意圖。

本發明目的的實現、功能特點及優點將結合實施例,參照附圖做進一步說明。

具體實施方式

為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚、明白,以下結合附圖和實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,並不用於限定本發明。

本發明提供一種理賠單據的字符識別方法。

參照圖1,圖1為本發明理賠單據的字符識別方法第一實施例的流程示意圖。

在第一實施例中,該理賠單據的字符識別方法包括:

步驟s10,伺服器在收到待識別字符的理賠單據影像後,按照該理賠單據框架格式的框線排布進行區域分割,獲得一個或多個分割區域;

本實施例中,伺服器可以接收用戶發出的包含待識別字符的理賠單據影像的字符識別請求,例如,接收用戶通過手機、平板電腦、自助終端設備等終端發送的字符識別請求,如接收用戶在手機、平板電腦、自助終端設備等終端中預先安裝的客戶端上發送來的字符識別請求,或接收用戶在手機、平板電腦、自助終端設備等終端中的瀏覽器系統上發送來的字符識別請求。

伺服器在收到待識別字符識別的理賠單據影像後,按照該理賠單據框架格式的框線排布進行區域分割,理賠單據影像中按照其框架格式排布有橫向或豎向的框線,以組成各項輸入欄供用戶填寫相關信息。本實施例中,按照該理賠單據框架格式的框線排布進行區域分割,獲得一個或多個分割區域。例如,在一種實施方式中,由於一般不同類型的保險均對應有不同的單據格式模板,因此,可預先根據用戶上傳的單據類型(可能不同的保險有不同的單據格式),獲取到對應的單據模板,然後根據模板的格式來分割。如可根據收到的待識別字符的理賠單據影像的單據類型,找到該理賠單據影像對應的單據模板,然後根據其對應的單據模板進行區域分割。該分割區域是由該理賠單據框架格式的框線所圍成的最小單位的區域,且該分割區域為不包含框線的區域,以避免後續在對每一分割區域進行字符識別時框線對識別精度的幹涉及影響,該分割區域類似於excel表格的每個方格,excel表格的每個方格即是最小區域內不包含框線的區域。

步驟s20,調用預先確定的分析模型對獲得的各個分割區域進行分析,並利用預先確定的識別規則對分析出的各個分割區域分別進行字符識別,以識別出各個分割區域中的字符。

在按照該理賠單據框架格式的框線排布對理賠單據影像進行區域分割得到一個或多個分割區域後,可調用預先確定的分析模型對獲得的各個分割區域進行分析,並利用預先確定的識別規則對各個分割區域分別進行字符識別,以識別出各個分割區域中的字符,也即理賠單據影像中的字符。例如,可利用預先確定的分析模型分析各個分割區域所適用的識別模型或識別方式,再根據分析出的結果針對各個分割區域利用適合各個分割區域自身的識別模型或識別方式來進行字符識別,以提高字符識別的準確率。如針對不同的分割區域,可分析出字符識別的方式為利用光學字符識別引擎進行識別,也可以用其他識別引擎或訓練的識別模型來進行識別,在此不做限定。識別出各個分割區域中的字符,還可將各個分割區域中的字符自動填充、錄入至與該理賠單據影像對應的電子理賠單據的各相應輸入欄位中。

本實施例在對理賠單據影像進行字符識別前,按照該理賠單據框架格式的框線排布對其進行區域分割,利用預先確定的識別規則對該理賠單據的各個分割區域分別進行字符識別,以分別識別出各個分割區域中的字符。由於考慮到理賠單據框架格式對識別精度的影響,在進行字符識別前先按照理賠單據框架格式的框線排布進行區域分割,再針對各個分割區域來進行字符識別,避免了在對整個理賠單據影像中的字符進行統一識別時單據中的框線對字符識別的影響及幹涉,能有效提高對理賠單據中字符的識別精度。

如圖2所示,本發明第二實施例提出一種理賠單據的字符識別方法,在上述實施例的基礎上,所述步驟s20包括:

步驟s201,調用預先確定的分析模型對獲得的各個分割區域進行分析,以分析出可利用光學字符識別引擎識別的第一分割區域和不可利用光學字符識別引擎識別的第二分割區域;

步驟s202,利用預先確定的光學字符識別引擎對各個所述第一分割區域進行字符識別,以識別出各個所述第一分割區域中的字符,並調用預先確定的識別模型對各個所述第二分割區域進行字符識別,以識別出各個所述第二分割區域中的字符。

本實施例中,在按照該理賠單據框架格式的框線排布進行區域分割得到一個或多個分割區域後,在對獲得的分割區域進行識別之前,還調用預先確定的分析模型對獲得的各個分割區域進行分析,以分析出無需深度識別的第一分割區域和需要深度識別的第二分割區域。例如,以當前自身的識別引擎為ocr字符識別引擎為例進行說明,可將ocr字符識別引擎能正確識別或識別率高的區域作為無需深度識別的區域,即利用當前自身的ocr字符識別引擎即可對該區域的字符進行正確的識別,無需藉助其他識別方式。將ocr字符識別引擎無法識別或識別率低的區域作為需要深度識別的區域,即利用當前自身的ocr字符識別引擎無法對該區域的字符進行正確的識別,需藉助其他識別方式如經訓練過的識別模型來進行字符識別。

在分析出該理賠單據影像中可利用ocr字符識別引擎進行正確識別的第一分割區域和不可利用ocr字符識別引擎識別的第二分割區域之後,即可針對分析出的第一分割區域和第二分割區域採取不同的識別方式進行字符識別。利用預先確定的ocr字符識別引擎對各個所述第一分割區域進行字符識別,以正確識別出各個所述第一分割區域中的字符。調用預先確定的識別模型對各個所述第二分割區域進行字符識別,以正確識別出各個所述第二分割區域中的字符,該預先確定的識別模型可以是針對大量分割區域樣本進行訓練好的識別模型,也可以是比自身的ocr字符識別引擎識別方式更複雜、識別效果更好的識別引擎,在此不做限定。

進一步地,在其他實施例中,所述預先確定的分析模型為卷積神經網絡(convolutionalneuralnetwork,簡稱cnn)模型,所述預先確定的分析模型的訓練過程如下:

a、針對預先確定的理賠單據框架格式,獲取預設數量(例如,50萬個)的基於該理賠單據框架格式的理賠單據影像樣本;

b、對每一個理賠單據影像樣本按照該理賠單據框架格式的框線排布進行區域分割,並確定出各個理賠單據影像樣本中ocr字符識別引擎識別錯誤的第三分割區域和ocr字符識別引擎識別正確的第四分割區域;

c、將所有第三分割區域歸入第一訓練集,將所有第四分割區域歸入第二訓練集;

d、分別從第一訓練集和第二訓練集中提取出第一預設比例(例如,80%)的分割區域作為待訓練的分割區域,並將第一訓練集和第二訓練集中剩餘的分割區域作為待驗證的分割區域;

e、利用提取的各個待訓練的分割區域進行模型訓練,以生成所述預先確定的分析模型,並利用各個待驗證的分割區域對生成的所述預先確定的分析模型進行驗證;

f、若驗證通過率大於等於預設閾值(例如,98%),則訓練完成,或者,若驗證通過率小於預設閾值,則增加理賠單據影像樣本的數量,並重複執行所述步驟a、b、c、d、e,直至驗證通過率大於或等於預設閾值。

本實施例中利用經大量理賠單據影像樣本訓練過的卷積神經網絡模型來進行分割區域分析,能夠準確分析出理賠單據的各個分割區域中可利用ocr字符識別引擎來正確識別字符的第一分割區域和無法利用ocr字符識別引擎來正確識別字符的第二分割區域,以便後續針對第一分割區域和第二分割區域分別採用不同的識別方式來進行準確的字符識別操作,從而提高對理賠單據中字符的識別精度。

進一步地,在其他實施例中,所述預先確定的識別模型為長短期記憶(longshort-termmemory,簡稱lstm)模型,所述預先確定的識別模型的訓練過程如下:

獲取預設數量(例如,10萬)的區域樣本,該區域樣本可以是歷史數據中對若干理賠單據按照其框架格式的框線排布進行區域分割後的分割區域樣本。在一種實施方式中,可統一將分割區域樣本中的字體設置為黑色,背景設置為白色,以便於進行字符識別。並將各個分割區域樣本進行標註,如可將各個分割區域樣本的名稱命名為該分割區域樣本所包含的字符以進行標註。

將預設數量的分割區域樣本按照預設比例(例如,8:2)分為第一數據集和第二數據集,將第一數據集作為訓練集,將第二數據集作為測試集,其中,第一數據集的樣本數量比例大於或者等於第二數據集的樣本數量比例。

將第一數據集送入lstm網絡進行模型訓練,每隔預設時間(例如每30分鐘或每進行1000次迭代),對模型使用第二數據集進行測試,以評估當前訓練的模型效果。例如,在測試時,可使用訓練得到的模型對第二數據集中的分割區域樣本進行字符識別,並將利用訓練得到的模型對分割區域樣本的字符識別結果與該分割區域樣本的標註進行比對,以計算出訓練得到的模型的字符識別結果與該分割區域樣本的標註的誤差。具體地,在計算誤差時,可採用編輯距離作為計算標準,其中,編輯距離(editdistance),又稱levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符,一般來說,編輯距離越小,兩個串的相似度越大。因此,在以編輯距離作為計算標準來計算訓練得到的模型的字符識別結果與該分割區域樣本的標註的誤差時,計算得到的誤差越小,說明訓練得到的模型的字符識別結果與該分割區域樣本的標註的相似度越大;相反,計算得到的誤差越大,說明訓練得到的模型的字符識別結果與該分割區域樣本的標註的相似度越小。

由於該分割區域樣本的標註為該分割區域樣本的名稱也即該分割區域樣本所包含的字符,因此,計算出的訓練得到的模型的字符識別結果與該分割區域樣本的標註的誤差即為訓練得到的模型的字符識別結果與該分割區域樣本所包含的字符之間的誤差,能反映出訓練得到的模型識別出的字符與正確的字符之間的誤差。記錄每一次對訓練的模型使用第二數據集進行測試的誤差,並分析誤差的變化趨勢,若分析測試時的訓練模型對分割區域樣本的字符識別的誤差出現發散,則調整訓練參數如activation函數、lstm層數、輸入輸出的變量維度等,並重新訓練,使測試時的訓練模型對分割區域樣本的字符識別的誤差能夠收斂。當分析測試時的訓練模型對分割區域樣本的字符識別的誤差收斂後,則結束模型訓練,將生成的訓練模型作為訓練好的所述預先確定的識別模型。

本實施例中,針對ocr字符識別引擎無法識別的區域,採用訓練好的lstm模型進行識別,由於lstm模型為經大量分割區域樣本訓練過的,且對分割區域樣本的字符識別的誤差收斂的模型,配合lstm模型自身的長期記憶功能使該lstm模型在識別分割區域中的字符時,能利用模型記住的長期信息如上下文信息等,更加準確地識別出分割區域中的字符,從而進一步提高對理賠單據中字符的識別精度。

本發明進一步提供一種理賠單據的字符識別伺服器。

參照圖3,圖3為本發明理賠單據的字符識別伺服器第一實施例的功能模塊示意圖。

在第一實施例中,該理賠單據的字符識別伺服器包括:

分割模塊01,用於在收到待識別字符的理賠單據影像後,按照該理賠單據框架格式的框線排布進行區域分割,獲得一個或多個分割區域;

本實施例中,伺服器可以接收用戶發出的包含待識別字符的理賠單據影像的字符識別請求,例如,接收用戶通過手機、平板電腦、自助終端設備等終端發送的字符識別請求,如接收用戶在手機、平板電腦、自助終端設備等終端中預先安裝的客戶端上發送來的字符識別請求,或接收用戶在手機、平板電腦、自助終端設備等終端中的瀏覽器系統上發送來的字符識別請求。

伺服器在收到待識別字符識別的理賠單據影像後,按照該理賠單據框架格式的框線排布進行區域分割,理賠單據影像中按照其框架格式排布有橫向或豎向的框線,以組成各項輸入欄供用戶填寫相關信息。本實施例中,按照該理賠單據框架格式的框線排布進行區域分割,獲得一個或多個分割區域。例如,在一種實施方式中,由於一般不同類型的保險均對應有不同的單據格式模板,因此,可預先根據用戶上傳的單據類型(可能不同的保險有不同的單據格式),獲取到對應的單據模板,然後根據模板的格式來分割。如可根據收到的待識別字符的理賠單據影像的單據類型,找到該理賠單據影像對應的單據模板,然後根據其對應的單據模板進行區域分割。該分割區域是由該理賠單據框架格式的框線所圍成的最小單位的區域,且該分割區域為不包含框線的區域,以避免後續在對每一分割區域進行字符識別時框線對識別精度的幹涉及影響,該分割區域類似於excel表格的每個方格,excel表格的每個方格即是最小區域內不包含框線的區域。

識別模塊02,用於調用預先確定的分析模型對獲得的各個分割區域進行分析,並利用預先確定的識別規則對分析出的各個分割區域分別進行字符識別,以識別出各個分割區域中的字符。

在按照該理賠單據框架格式的框線排布對理賠單據影像進行區域分割得到一個或多個分割區域後,可調用預先確定的分析模型對獲得的各個分割區域進行分析,並利用預先確定的識別規則對各個分割區域分別進行字符識別,以識別出各個分割區域中的字符,也即理賠單據影像中的字符。例如,可利用預先確定的分析模型分析各個分割區域所適用的識別模型或識別方式,再根據分析出的結果針對各個分割區域利用適合各個分割區域自身的識別模型或識別方式來進行字符識別,以提高字符識別的準確率。如針對不同的分割區域,可分析出字符識別的方式為利用光學字符識別引擎進行識別,也可以用其他識別引擎或訓練的識別模型來進行識別,在此不做限定。識別出各個分割區域中的字符,還可將各個分割區域中的字符自動填充、錄入至與該理賠單據影像對應的電子理賠單據的各相應輸入欄位中。

本實施例在對理賠單據影像進行字符識別前,按照該理賠單據框架格式的框線排布對其進行區域分割,利用預先確定的識別規則對該理賠單據的各個分割區域分別進行字符識別,以分別識別出各個分割區域中的字符。由於考慮到理賠單據框架格式對識別精度的影響,在進行字符識別前先按照理賠單據框架格式的框線排布進行區域分割,再針對各個分割區域來進行字符識別,避免了在對整個理賠單據影像中的字符進行統一識別時單據中的框線對字符識別的影響及幹涉,能有效提高對理賠單據中字符的識別精度。

進一步地,在上述實施例的基礎上,上述識別模塊02還用於:

調用預先確定的分析模型對獲得的各個分割區域進行分析,以分析出可利用光學字符識別引擎識別的第一分割區域和不可利用光學字符識別引擎識別的第二分割區域;

利用預先確定的光學字符識別引擎對各個所述第一分割區域進行字符識別,以識別出各個所述第一分割區域中的字符,並調用預先確定的識別模型對各個所述第二分割區域進行字符識別,以識別出各個所述第二分割區域中的字符。

本實施例中,在按照該理賠單據框架格式的框線排布進行區域分割得到一個或多個分割區域後,在對獲得的分割區域進行識別之前,還調用預先確定的分析模型對獲得的各個分割區域進行分析,以分析出無需深度識別的第一分割區域和需要深度識別的第二分割區域。例如,以當前自身的識別引擎為ocr字符識別引擎為例進行說明,可將ocr字符識別引擎能正確識別或識別率高的區域作為無需深度識別的區域,即利用當前自身的ocr字符識別引擎即可對該區域的字符進行正確的識別,無需藉助其他識別方式。將ocr字符識別引擎無法識別或識別率低的區域作為需要深度識別的區域,即利用當前自身的ocr字符識別引擎無法對該區域的字符進行正確的識別,需藉助其他識別方式如經訓練過的識別模型來進行字符識別。

在分析出該理賠單據影像中可利用ocr字符識別引擎進行正確識別的第一分割區域和不可利用ocr字符識別引擎識別的第二分割區域之後,即可針對分析出的第一分割區域和第二分割區域採取不同的識別方式進行字符識別。利用預先確定的ocr字符識別引擎對各個所述第一分割區域進行字符識別,以正確識別出各個所述第一分割區域中的字符。調用預先確定的識別模型對各個所述第二分割區域進行字符識別,以正確識別出各個所述第二分割區域中的字符,該預先確定的識別模型可以是針對大量分割區域樣本進行訓練好的識別模型,也可以是比自身的ocr字符識別引擎識別方式更複雜、識別效果更好的識別引擎,在此不做限定。

進一步地,在其他實施例中,所述預先確定的分析模型為卷積神經網絡(convolutionalneuralnetwork,簡稱cnn)模型,所述預先確定的分析模型的訓練過程如下:

a、針對預先確定的理賠單據框架格式,獲取預設數量(例如,50萬個)的基於該理賠單據框架格式的理賠單據影像樣本;

b、對每一個理賠單據影像樣本按照該理賠單據框架格式的框線排布進行區域分割,並確定出各個理賠單據影像樣本中ocr字符識別引擎識別錯誤的第三分割區域和ocr字符識別引擎識別正確的第四分割區域;

c、將所有第三分割區域歸入第一訓練集,將所有第四分割區域歸入第二訓練集;

d、分別從第一訓練集和第二訓練集中提取出第一預設比例(例如,80%)的分割區域作為待訓練的分割區域,並將第一訓練集和第二訓練集中剩餘的分割區域作為待驗證的分割區域;

e、利用提取的各個待訓練的分割區域進行模型訓練,以生成所述預先確定的分析模型,並利用各個待驗證的分割區域對生成的所述預先確定的分析模型進行驗證;

f、若驗證通過率大於等於預設閾值(例如,98%),則訓練完成,或者,若驗證通過率小於預設閾值,則增加理賠單據影像樣本的數量,並重複執行所述步驟a、b、c、d、e,直至驗證通過率大於或等於預設閾值。

本實施例中利用經大量理賠單據影像樣本訓練過的卷積神經網絡模型來進行分割區域分析,能夠準確分析出理賠單據的各個分割區域中可利用ocr字符識別引擎來正確識別字符的第一分割區域和無法利用ocr字符識別引擎來正確識別字符的第二分割區域,以便後續針對第一分割區域和第二分割區域分別採用不同的識別方式來進行準確的字符識別操作,從而提高對理賠單據中字符的識別精度。

進一步地,在其他實施例中,所述預先確定的識別模型為長短期記憶(longshort-termmemory,簡稱lstm)模型,所述預先確定的識別模型的訓練過程如下:

獲取預設數量(例如,10萬)的區域樣本,該區域樣本可以是歷史數據中對若干理賠單據按照其框架格式的框線排布進行區域分割後的分割區域樣本。在一種實施方式中,可統一將分割區域樣本中的字體設置為黑色,背景設置為白色,以便於進行字符識別。並將各個分割區域樣本進行標註,如可將各個分割區域樣本的名稱命名為該分割區域樣本所包含的字符以進行標註。

將預設數量的分割區域樣本按照預設比例(例如,8:2)分為第一數據集和第二數據集,將第一數據集作為訓練集,將第二數據集作為測試集,其中,第一數據集的樣本數量比例大於或者等於第二數據集的樣本數量比例。

將第一數據集送入lstm網絡進行模型訓練,每隔預設時間(例如每30分鐘或每進行1000次迭代),對模型使用第二數據集進行測試,以評估當前訓練的模型效果。例如,在測試時,可使用訓練得到的模型對第二數據集中的分割區域樣本進行字符識別,並將利用訓練得到的模型對分割區域樣本的字符識別結果與該分割區域樣本的標註進行比對,以計算出訓練得到的模型的字符識別結果與該分割區域樣本的標註的誤差。具體地,在計算誤差時,可採用編輯距離作為計算標準,其中,編輯距離(editdistance),又稱levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符,一般來說,編輯距離越小,兩個串的相似度越大。因此,在以編輯距離作為計算標準來計算訓練得到的模型的字符識別結果與該分割區域樣本的標註的誤差時,計算得到的誤差越小,說明訓練得到的模型的字符識別結果與該分割區域樣本的標註的相似度越大;相反,計算得到的誤差越大,說明訓練得到的模型的字符識別結果與該分割區域樣本的標註的相似度越小。

由於該分割區域樣本的標註為該分割區域樣本的名稱也即該分割區域樣本所包含的字符,因此,計算出的訓練得到的模型的字符識別結果與該分割區域樣本的標註的誤差即為訓練得到的模型的字符識別結果與該分割區域樣本所包含的字符之間的誤差,能反映出訓練得到的模型識別出的字符與正確的字符之間的誤差。記錄每一次對訓練的模型使用第二數據集進行測試的誤差,並分析誤差的變化趨勢,若分析測試時的訓練模型對分割區域樣本的字符識別的誤差出現發散,則調整訓練參數如activation函數、lstm層數、輸入輸出的變量維度等,並重新訓練,使測試時的訓練模型對分割區域樣本的字符識別的誤差能夠收斂。當分析測試時的訓練模型對分割區域樣本的字符識別的誤差收斂後,則結束模型訓練,將生成的訓練模型作為訓練好的所述預先確定的識別模型。

本實施例中,針對ocr字符識別引擎無法識別的區域,採用訓練好的lstm模型進行識別,由於lstm模型為經大量分割區域樣本訓練過的,且對分割區域樣本的字符識別的誤差收斂的模型,配合lstm模型自身的長期記憶功能使該lstm模型在識別分割區域中的字符時,能利用模型記住的長期信息如上下文信息等,更加準確地識別出分割區域中的字符,從而進一步提高對理賠單據中字符的識別精度。

需要說明的是,在本文中,術語「包括」、「包含」或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句「包括一個……」限定的要素,並不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。

通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到上述實施例方法可藉助軟體加必需的通用硬體平臺的方式來實現,當然也可以通過硬體來實現,但很多情況下前者是更佳的實施方式。基於這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質(如rom/ram、磁碟、光碟)中,包括若干指令用以使得一臺終端設備(可以是手機,計算機,伺服器,空調器,或者網絡設備等)執行本發明各個實施例所述的方法。

以上參照附圖說明了本發明的優選實施例,並非因此局限本發明的權利範圍。上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。另外,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同於此處的順序執行所示出或描述的步驟。

本領域技術人員不脫離本發明的範圍和實質,可以有多種變型方案實現本發明,比如作為一個實施例的特徵可用於另一實施例而得到又一實施例。凡在運用本發明的技術構思之內所作的任何修改、等同替換和改進,均應在本發明的權利範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀