新四季網

字符檢測方法和裝置與流程

2023-05-18 23:29:46 1


本申請涉及人工智慧領域,具體涉及機器學習領域,尤其涉及字符檢測方法和裝置。



背景技術:

機器學習被廣泛應用於大數據、圖像識別、語音識別等技術領域。然而,對於圖片中的字符的檢測,目前,由於既有的標註樣本通常為詞級別的標註樣本,無法參與對字符進行檢測的機器學習模型的訓練,導致對字符進行檢測的機器學習模型無法得到充分的訓練,進而造成無法對圖片中的字符進行較為精確地檢測。此外,只有符合嚴格的標註規範的樣本才能參與訓練,進一步導致可參與訓練的標註樣本數量的減少。

發明信息

本申請提供了字符檢測方法和裝置,用於解決上述背景技術部分存在的技術問題。

第一方面,本申請提供了字符檢測方法,該方法包括:將包含經標註的詞語的圖片作為機器學習模型的輸入;基於被機器學習模型預測出的位於經標註的詞語的標註區域內的字符的預測結果和經標註的詞語的標註信息,從被機器學習模型預測出的位於經標註的詞語的標註區域內的字符中選取出用於訓練機器學習模型的字符;基於選取出的字符的特徵,對機器學習模型進行訓練,以利用訓練後的機器學習模型對圖片中的字符進行檢測。

第二方面,本申請提供了字符檢測裝置,該裝置包括:輸入單元,配置用於將包含經標註的詞語的圖片作為機器學習模型的輸入;選取單元,配置用於基於被機器學習模型預測出的位於經標註的詞語的標註區域內的字符的預測結果和經標註的詞語的標註信息,從被機器學習模型預測出的位於經標註的詞語的標註區域內的字符中選取出用於訓練機器學習模型的字符;訓練單元,配置用於基於選取出的字符的特徵,對機器學習模型進行訓練,以利用訓練後的機器學習模型對圖片中的字符進行檢測。

本申請提供的字符檢測方法和裝置,通過將包含經標註的詞語的圖片作為機器學習模型的輸入;基於被機器學習模型預測出的位於經標註的詞語的標註區域內的字符的預測結果和經標註的詞語的標註信息,從被機器學習模型預測出的位於經標註的詞語的標註區域內的字符中選取出用於訓練機器學習模型的字符;基於選取出的字符的特徵,對機器學習模型進行訓練。實現了利用既有的詞級別標註的圖片即可對機器學習模型進行充分地訓練,得到可對圖片中的字符進行檢測的機器學習模型,降低了訓練可對圖片中的字符進行檢測的機器學習模型的開銷。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特徵、目的和優點將會變得更明顯:

圖1示出了根據本申請的字符檢測方法的一個實施例的流程圖;

圖2示出了根據本申請的字符檢測方法的另一個實施例的流程圖;

圖3示出了適用於本申請的字符檢測方法的一個示例性架構圖;

圖4示出了根據本申請的字符檢測裝置的一個實施例的結構示意圖;

圖5示出了適於用來實現本申請實施例的字符檢測裝置的計算機系統的結構示意圖。

具體實施方式

下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用於解釋相關發明,而非對該發明的限定。另外還需要說明的是,為了便於描述,附圖中僅示出了與有關發明相關的部分。

需要說明的是,在不衝突的情況下,本申請中的實施例及實施例中的特徵可以相互組合。下面將參考附圖並結合實施例來詳細說明本申請。

請參考圖1,其示出了根據本申請的字符檢測方法的一個實施例的流程。該方法包括以下步驟:

步驟101,將包含經標註的詞語的圖片作為機器學習模型的輸入。

在本實施例中,包含經標註的詞語的圖片中可以包含用於對詞語的位置進行標註的對象。

例如,圖片中包含用於對圖片中的詞語的位置進行標註的包圍詞語的標註框,可以將該圖片中的位於該標註框內的詞語稱之為經標註的詞語,將該包含經標註的詞語的圖片稱之為詞級別標註的圖片,將該標註框稱之為經標註的詞語的標註信息。

在本實施例中,可以將詞級別標註的圖片作為機器學習模型的輸入。當圖片中的一個位置存在字符的概率大於閾值時,機器學習模型可以預測該位置可能存在字符,可以將位於該位置的對象稱之為被預測出的字符。機器學習模型可以輸出被預測出的字符的預測結果。

在本實施例的一些可選的實現方式中,機器學習模型為卷積神經網絡。

在本實施例中,機器學習模型可以為卷積神經網絡,卷積神經網絡可以包括但不限於:深度卷積網絡、SSD(single shot multibox detector)、R-FCN:(Object Detection via Region-based Fully Convolutional Networks)、Faster RCNN等通用物體預測深度卷積網絡框架。

在本實施例的一些可選的實現方式中,被機器學習模型預測出的字符的預測結果包括:字符對應的置信度、字符對應的包圍盒,經標註的詞語的標註信息包括:經標註的詞語對應的包圍盒。

應理解,在本實施例中,包圍盒並不特指某一對象,可以將機器學習模型對圖片中的待檢測的對象進行預測時使用的包圍待檢測的對象的對象稱之為包圍盒。相應地,包圍盒可以對應一個置信度。

以機器學習模型為卷積神經網絡SSD為例,在將詞級別標註的圖片作為SSD的輸入即將詞級別標註的圖片輸入到SSD之後,SSD可以輸出被預測出的字符的預測結果。被預測出的字符的預測結果可以包括:該字符對應的包圍盒(bounding box)和該字符對應的置信度(text/non-text score),該字符對應的置信度可以用於表示包圍盒中的對象為字符的概率。

在本實施例的一些可選的實現方式中,還包括:將詞級別標註的數據集中的詞級別標註的圖片作為包含經標註的詞語的圖片,詞級別標註的圖片包括:用於對詞語的位置進行標註的包圍詞語的標註框。

例如,詞級別標註的數據集COCO-Text數據集中包含詞級別標註的圖片。詞級別標註的圖片包含用於對詞語的位置進行標註的包圍詞語的標註框和位於該標註框內的經標註的詞語。可以將COCO-Text數據集中的詞級別標註的圖片作為機器學習模型的輸入。

步驟102,基於標註區域內的字符的預測結果和標註信息,選取出用於訓練的字符。

在本實施例中,為了利用詞級別標註的圖片對機器學習模型進行訓練,得到用於對圖片中的字符進行檢測的機器學習模型,可以首先從被機器學習模型預測出的字符中查找出位置位於經標註的詞語的標註區域內的字符。然後,可以基於被預測出的位於經標註的詞語的標註區域內的字符的預測結果和經標註的詞語的標註信息,從被預測出的位於經標註的詞語的標註區域內的字符中選取出適用於參與機器學習模型的訓練的字符。

以機器學習模型為卷積神經網絡SSD,詞級別標註的圖片中包含標註框為例,經標註的詞語的標註信息為該標註框。經標註的詞語的標註區域為該標註框佔用的區域。該標註框可以為任意形狀例如多邊形,用於包圍圖片中的詞語對詞語的位置進行標註。該標註框也可稱之為經標註的詞語對應的包圍盒。在將包含經標註的詞語的圖片作為SSD的輸入之後,SSD可以輸出被預測出的字符的預測結果。被SSD預測出的字符的預測結果可以包括:該字符對應的包圍盒和該字符對應的置信度,該字符對應的置信度可以用於表示包圍盒中的對象為字符的概率。可以首先從被SSD預測出的字符中查找出位於該標註框內的字符。例如,當被預測出的字符對應的包圍盒在經標註的詞語對應的包圍盒中時,則可以確定該被檢測出的字符的位置位於該標註框內。然後,可以根據被SSD預測出的位於標註框內的字符的預測結果和經標註的詞語對應的包圍盒,從被SSD預測出的位於標註框內的字符中選取出用於適用於參與SSD的訓練的字符。

在本實施例的一些可選的實現方式中,從被機器學習模型預測出的位於經標註的詞語的標註區域內的字符中選取出用於訓練機器學習模型的字符包括:基於被機器學習模型預測出的位於經標註的詞語的標註區域內的字符對應的包圍盒的區域與經標註的詞語對應的包圍盒的區域之間的比例關係和被機器學習模型預測出的位於經標註的詞語的標註區域內的字符之間的對齊情況,從被機器學習模型預測出的字符中選取出用於訓練機器學習模型的字符。

以機器學習模型為卷積神經網絡SSD,詞級別標註的圖片中包含標註框為例,經標註的詞語的標註信息為該標註框。經標註的詞語的標註區域為該標註框佔用的區域。該標註框可以為任意形狀例如多邊形,用於包圍圖片中的詞語對詞語的位置進行標註。該標註框也可稱之為經標註的詞語對應的包圍盒。

SSD預測出的位於標註框內的字符的預測結果可以包括:字符對應的包圍盒和字符對應的置信度。在從被SSD預測出的位於標註框內的字符中的字符中選取出用於訓練SSD的字符時,可以根據被SSD預測出的位於標註框內的字符對應的包圍盒和經標註的詞語對應的包圍盒的面積之間的比例關係和預測出的位於標註框內的字符之間的對齊情況,選取出用於參加SSD訓練的字符。選取出的字符應滿足:對應的包圍盒的面積儘可能多地覆蓋經標註的詞語對應的包圍盒的面積以及儘可能地在同一直線上。

步驟103,基於選取出的字符的特徵,對機器學習模型進行訓練。

在本實施例中,在通過步驟102從被機器學習模型預測出的位於經標註的詞語的標註區域內的字符中選取出用於訓練機器學習模型的字符之後,可以利用選取出用於訓練機器學習模型的字符的特徵,對機器學習模型進行訓練。

例如,通過步驟102從被預測出的位於標註框內的字符中選取的字符滿足:對應的包圍盒儘可能多地覆蓋經標註的詞語對應的包圍盒的面積以及儘可能地在同一直線上。可以利用從位於標註框內的字符中選取出的字符的特徵,例如利用從位於標註框內的字符中選取出的字符對應的包圍盒對機器學習模型進行訓練。

在本實施例中,步驟101-步驟103可以執行多次,從而,多次對機器學習模型進行訓練,得到用於對圖片中的字符進行檢測的機器學習模型。在每一次訓練中,通過步驟101將包含經標註的詞語的圖片即詞級別標註的圖片作為機器學習模型的輸入,例如將COCO-Text數據集中的詞級別標註的圖片作為機器學習模型的輸入。通過步驟102基於機器學習模型預測出的經標註的詞語的標註區域內字符的預測結果和經標註的詞語的標註信息,從預測出的位於經標註的詞語的標註區域內的字符中選取出適用於參與訓練機器學習模型的字符。通過步驟103利用選取出的用於對機器學習模型進行訓練的字符的特徵,對機器學習模型進行訓練。

在本實施例中,步驟101-步驟103所涉及的對機器學習模型的訓練方式可以應用在深度卷積網絡、SSD、R-FCN、Faster RCNN等通用物體預測深度卷積網絡框架中。從而,利用既有的詞級別標註的圖片例如COCO-Text數據集中的詞級別標註的圖片即可對機器學習模型進行充分地訓練,得到可對圖片中的字符進行檢測的機器學習模型,降低了訓練可對圖片中的字符進行檢測的機器學習模型的開銷。適用於多種不同的機器學習模型,進一步地,參與訓練的詞級別標註的圖片不會受到嚴格的標註規範的限制,也可參與訓練,增加了參與訓練的詞級別標註的圖片的數量,進一步充分地對機器學習模型進行訓練。

請參考圖2,其示出了根據本申請的字符檢測方法的另一個實施例的流程。該方法包括以下步驟:

步驟201,將包含經標註的詞語的圖片作為卷積神經網絡的輸入。

在本實施例中,包含經標註的詞語的圖片中包含用於對詞語的位置進行標註的對象。

例如,圖片中包含用於對圖片中的詞語的位置進行標註的包圍圖片中的詞語的標註框,可以將該圖片中的位於該標註框內的詞語稱之為經標註的詞語,將該包含經標註的詞語的圖片稱之為詞級別標註的圖片,將該標註框稱之為經標註的詞語的標註信息。

在本實施例中,可以將詞級別標註的數據集中的詞級別標註的圖片作為卷積神經網絡的輸入。例如,詞級別標註的數據集COCO-Text數據集包含詞級別標註的圖片。詞級別標註的圖片包含用於對詞語的位置進行標註的包圍詞語的標註框即經標註的詞語的標註信息和位於該標註框內的經標註的詞語。可以將COCO-Text數據集中的詞級別標註的圖片作為卷積神經網絡的輸入。

在本實施例中,卷積神經網絡可以包括但不限於:深度卷積網絡、SSD(single shot multibox detector)、R-FCN:(Object Detection via Region-based Fully Convolutional Networks)、Faster RCNN等通用物體預測深度卷積網絡框架。在將詞級別標註的圖片作為卷積神經網絡的輸入之後,由卷積神經網絡進行前向傳播,卷積神經網絡可以輸出被預測出的字符的預測結果。被卷積神經網絡預測出的字符的預測結果可以包括:該字符對應的包圍盒和該字符對應的置信度,該字符對應的置信度可以用於表示包圍盒中的對象為字符的概率。

應理解,在本實施例中,包圍盒並不特指某一對象,可以將機器學習模型對圖片中的待檢測的對象進行預測時使用的包圍待檢測的對象的對象稱之為包圍盒。相應地,包圍盒可以對應一個置信度。

步驟202,基於標註區域內的字符的預測結果和標註信息,選取出用於訓練的字符。

在本實施例中,為了利用詞級別標註的圖片對卷積神經網絡進行訓練,得到用於對字符進行檢測的卷積神經網絡,可以首先從被卷積神經網絡預測出的字符中查找出位置位於經標註的詞語的標註區域內的字符。然後,可以基於被卷積神經網絡預測出的位於經標註的詞語的標註區域內的字符的預測結果和經標註的詞語的標註信息,從被預測出的位於經標註的詞語的標註區域內的字符中選取出適用於參與機器學習模型的訓練的字符。

以卷積神經網絡為SSD,詞級別標註的圖片中包含標註框為例,經標註的詞語的標註信息為該標註框。經標註的詞語的標註區域為該標註框佔用的區域。該標註框可以為任意形狀例如多邊形,用於包圍圖片中的詞語對詞語的位置進行標註。該標註框也可稱之為經標註的詞語對應的包圍盒。

在將詞級別標註的圖片作為SSD的輸入之後,SSD預測出的位於標註框內的字符的預測結果可以包括:字符對應的包圍盒和字符對應的置信度。可以首先從被預測出的字符中查找出位於該標註框內的字符。例如,當被預測出的字符對應包圍盒在經標註的詞語對應的包圍盒中時,則該被檢測出的字符的位置可以相當於位於該標註框內。然後,可以根據預測出的位於標註框內的字符對應的包圍盒和經標註的詞語對應的包圍盒的面積之間的比例關係和預測出的位於標註框內的字符之間的對齊情況,選取出適用於參加SSD訓練的字符。選取出的字符應滿足:對應的包圍盒的面積儘可能多地覆蓋經標註的詞語對應的包圍盒的面積以及儘可能地在同一直線上。

在本實施例中,可以採用以下方式從預測出的位於經標註的詞語的標註區域內的字符中選取出適用於參與卷積神經網絡的訓練的字符:可以採用K-NN(k-nearest neighbors)算法對被卷積神經網絡預測出的位於經標註的詞語的標註區域內的字符對應的包圍盒計算k近鄰,得到一個表示預測出的位於經標註的詞語的標註區域內的字符之間的連接關係的拓撲結構。

例如,採用K-NN算法根據位於經標註的詞語的標註區域內的每一個字符對應的包圍盒的中心點的位置,計算k近鄰,得到個表示位於經標註的詞語的標註區域內的字符之間的連接關係的拓撲結構。在該拓撲結構中,一個字符可以與其他被卷積神經網絡預測出的位於經標註的詞語的標註區域內的k個字符相連接。兩個相連接的字符之間可以具有權重值wij,權重值wij可以採用以下公式計算:

其中,d(i,j)表示兩個相連接的字符之間的距離,表示所有字符連接對中的字符之間的距離的平均值,ti和tj表示兩個相連接的字符各自對應的置信度。兩個相連接的字符之間的距離可以為兩個相連接的字符對應的包圍盒的中心點的位置之間的距離。

在該拓撲結構中,兩個相連接的字符可以構成一個字符連接對。在分別計算出每一個字符連接對中的兩個相連接的字符之間的距離之後,例如,計算出每一個字符連接對中的兩個相連接的字符對應的包圍盒的中心點的位置之間的距離之後,可以計算每一個字符連接對中的兩個相連接的字符之間的距離的平均值,得到上述所有字符連接對中的字符之間的距離的平均值。

在對被卷積神經網絡預測出的位於經標註的詞語的標註區域內的字符對應的包圍盒計算k近鄰,得到表示字符之間的連接關係的拓撲結構之後,可以從該拓撲結構中查找出最大生成樹。該最大生成樹包括所有被卷積神經網絡預測出的位於經標註的詞語的標註區域內的字符,所有被卷積神經網絡預測出的位於經標註的詞語的標註區域內的字符在最大生成樹中依次連接,並且,依次連接的字符中兩兩相連接的字符之間的權重值之和最大。

在查找出最大生成樹之後,可以查找出最大生成樹和最大生成樹中的子樹中得分較高的樹。將得分較高的樹中的字符作為用於參與卷積神經網絡訓練的字符。從而,使得參與卷積神經網絡訓練的字符對應的包圍盒的面積覆蓋儘可能多地佔用詞級別的標註信息所對應的面積,參與卷積神經網絡訓練的字符儘可能地落在同一直線上。

可以採用以下得分計算公式計算最大生成樹或最大生成樹中的子樹的得分s:

s=w·s1+(1-w)·s2

其中,Bchars表示子樹或當前樹中的字符對應的包圍盒。子樹或當前樹中的字符為多個時,Bchars可以表示由每一個字符對應的包圍盒組成的包圍盒集合。

Banno表示經標註的詞語對應的包圍盒,area(Bchars)表示子樹或當前樹中的字符對應的包圍盒的面積,子樹中的字符為多個時,area(Bchars)則可每一個字符對應的包圍盒的面積之和。area(Banno)表示經標註的詞語對應的包圍盒的面積,λ1和λ2表示Bchars的中心坐標協方差矩陣C的最大和第二大特徵值。

s1可以用於描述被機器學習模型預測出的位於經標註的詞語的標註區域內的字符對應的包圍盒的區域與經標註的詞語對應的包圍盒的區域之間的比例關係,s2可以用於描述被機器學習模型預測出的位於經標註的詞語的標註區域內的字符之間的對齊情況。

可以採用以下方式查找出最大生成樹和最大生成樹中的子樹中得分較高的樹:在第一次計算得分時,將最大生成樹作為當前樹,利用上述得分計算公式計算當前樹的得分,w的取值為預設權重值例如w的取值為0.5,得到當前樹的得分。同時,可以對當前樹中的每一個字符連接對分別進行剪枝,在每一次剪枝之後,連接字符對中的一個字符與該字符上遊的字符可以構成一個子樹,連接字符對中的另一個字符與該另一個字符下遊的字符可以構成一個子樹。在對當前樹中的每一個字符連接對分別進行剪枝之後,可以得到多個子樹。可以通過得分計算公式計算每一個子樹的得分,利用上述得分計算公式計算子樹的得分時,w的取值為子樹對應的字符連接對中的兩個相連接的字符之間的權重值。

在計算出當前樹和子樹的得分之後,可以判斷多個子樹中得分最高的子樹的得分是否大於當前樹的得分。當得分最高的子樹的得分小於當前樹的得分時,可以將當前樹中的字符作為用於訓練經標註的詞語的標註區域內的字符。當得分最高的子樹大於當前樹的得分時,可以將得分最高的子樹作為當前樹,再次對得分最高的子樹中的每一個字符連接對分別進行剪枝,計算對該當前樹中的字符連接對進行剪枝後得到的多個子樹的得分,再次將得到的得分最高的子樹的分數與該當前樹的得分進行比較,直至查找出最大生成樹和最大生成樹中的子樹中得分較高的樹。

步驟203,基於選取出的字符對應的包圍盒,對卷積神經網絡進行訓練。

在本實施例中,在通過步驟202從被卷積神經網絡預測出的位於經標註的詞語的標註區域內的字符中選取出用於訓練卷積神經網絡的字符之後,可以利用選取出用於訓練卷積神經網絡的字符對應的包圍盒作為卷積神經網絡的監督學習方式的標籤信息,根據預設損失函數進行後向傳導,以有監督學習方式對卷積神經網絡進行訓練,更新卷積神經網絡的參數。

在本實施例中,步驟201-步驟203可以執行多次,從而,多次對卷積神經網絡進行訓練,得到用於對圖片中的字符進行檢測的卷積神經網絡。在每一次訓練中,通過步驟201將包含經標註的詞語的圖片作為機器學習模型的輸入,例如將COCO-Text數據集中的詞級別標註的圖片作為卷積神經網絡的輸入,由卷積神經網絡進行前向傳播。通過步驟202基於預測出的經標註的詞語的標註區域內字符的預測結果和經標註的詞語的標註信息,從預測出的位於經標註的詞語的標註區域內的字符中選取出適用於參與訓練卷積神經網絡的字符。選取出的字符可以滿足:對應的包圍盒儘可能多地覆蓋經標註的詞語對應的包圍盒的面積以及儘可能地在同一直線上。通過步驟203利用選取出的字符對應的包圍盒作為卷積神經網絡的監督學習方式的標籤信息,根據預設損失函數進行後向傳導,以有監督學習方式對卷積神經網絡進行訓練。

在本實施例中,步驟201-步驟203所涉及的對卷積神經網絡的訓練方式可以應用在深度卷積網絡、SSD、R-FCN、Faster RCNN等通用物體預測深度卷積網絡框架中。從而,利用既有的詞級別標註的圖片例如COCO-Text數據集中的詞級別標註的圖片即可對卷積神經網絡進行充分地訓練,得到可對圖片中的字符進行檢測的卷積神經網絡,降低了訓練可對圖片中的字符進行檢測的卷積神經網絡的開銷。適用於多種不同的卷積神經網絡,進一步地,參與訓練的詞級別標註的圖片不會受到嚴格的標註規範的限制,也可參與訓練,增加了參與訓練的詞級別標註的圖片的數量,進一步充分地對卷積神經網絡進行訓練。

請參考圖3,其示出了適用於本申請的字符檢測方法的一個示例性架構圖。

詞級別標註的圖片:作為卷積神經網絡的輸入,可以包含標註框和位於標註框內的經標註的詞語。經標註的詞語的標註信息為該標註框。標註框可以為任意形狀例如多邊形,用於包圍圖片中的詞語對詞語的位置進行標註。可以將詞語別標註的數據集例如COCO-Text數據集中的詞級別標註的圖片作為深度卷積網絡的輸入。

卷積神經網絡:接收輸入的詞級別標註的圖片,輸出預測結果。預測結果包括:字符對應的包圍盒和字符對應的置信度。卷積神經網絡可以包括但不限於:深度卷積網絡、SSD(single shot multibox detector)、R-FCN:(Object Detection via Region-based Fully Convolutional Networks)、Faster RCNN等通用物體預測深度卷積網絡框架。

字符模板更新裝置:在每一次訓練中,同時接收卷積神經網絡的預測結果和詞級別的標註圖片的詞級別的標註信息即標註框,結合卷積神經網絡的預測結果和詞級別的標註圖片的詞級別的標註信息,從預測出的位於經標註的詞語的標註區域內的字符中選取出適用於參與訓練機器學習模型的字符,將選取出的字符對應的包圍盒進行組合,得到更新的字符模板。更新的字符模板可以作為卷積神經網絡當前訓練過程的後向傳播對應的標籤信息。字符模板更新裝置使得整個用於對字符檢測的卷積神經網絡的訓練過程不需要依賴成本巨大的字符級別的標註信息,能夠讓卷積神經網絡使用更多的文字數據集參與訓練。

在每一次訓練開始時,向卷積神經網絡輸入詞級別標註的圖片,卷積神經網絡完成一次前向傳播,進行網絡預測,輸出被預測出的字符的預測結果。接著,字符模板更新裝置結合卷積神經網絡輸出的預測結果和詞級別的標註信息,輸出包含選取出用於對卷積神經網絡進行訓練的字符對應的包圍盒的更新的字符模板。最後,卷積神經網絡將更新的字符模板作為監督學習標籤,根據預先定義的損失函數來完成一次網絡的後向傳導,進行網絡更新即更新卷積神經網絡的參數,完成一次對卷積神經網絡的訓練。

在針對卷積神經網絡的訓練中,由於僅需詞級別的標註信息即標註框即可對卷積神經網絡進行充分地訓練,並不依賴於精確到字符級別的標註信息例如標註框中的每一個字符對應的標註信息,使得能夠利用更多的文字數據集來參與訓練,尤其是只有詞級別的標註信息的數據集例如COCO-Text數據集參與訓練。進一步地,參與訓練的詞級別標註的圖片不會受到嚴格的標註規範的限制,也可參與訓練,增加了參與訓練的詞級別標註的圖片的數量,進一步充分地對卷積神經網絡進行訓練。

請參考圖4,其示出了根據本申請的字符檢測裝置的一個實施例的結構示意圖。該裝置實施例與圖1所示的方法實施例相對應。

如圖4所示,本實施例的字符檢測裝置400包括:輸入單元401,選取單元402,訓練單元403。輸入單元401配置用於將包含經標註的詞語的圖片作為機器學習模型的輸入;選取單元402配置用於基於被機器學習模型預測出的位於經標註的詞語的標註區域內的字符的預測結果和經標註的詞語的標註信息,從被機器學習模型預測出的位於經標註的詞語的標註區域內的字符中選取出用於訓練機器學習模型的字符;訓練單元403配置用於基於選取出的字符的特徵,對機器學習模型進行訓練,以利用訓練後的機器學習模型對圖片中的字符進行檢測。

在本實施例的一些可選的實現方式中,機器學習模型為卷積神經網絡。

在本實施例的一些可選的實現方式中,預測結果包括:字符對應的包圍盒、字符對應的置信度,標註信息包括:經標註的詞語對應的包圍盒。

在本實施例的一些可選的實現方式中,預測結果基於在將包含經標註的詞語的圖片作為機器學習模型的輸入之後,機器學習模型進行前向傳播而獲得。

在本實施例的一些可選的實現方式中,訓練單元403包括:監督學習子單元(未示出),配置用於將選取出的字符對應的包圍盒作為機器學習模型的監督學習方式的標籤信息;機器學習模型根據預設損失函數進行後向傳導,更新機器學習模型的參數。

在本實施例的一些可選的實現方式中,選取單元402包括:字符選取子單元(未示出),配置用於基於被機器學習模型預測出的位於經標註的詞語的標註區域內的字符對應的包圍盒的區域與經標註的詞語對應的包圍盒的區域之間的比例關係和被機器學習模型預測出的位於經標註的詞語的標註區域內的字符之間的對齊情況,從被機器學習模型預測出的字符中選取出用於訓練機器學習模型的字符。

在本實施例的一些可選的實現方式中,字符選取子單元進一步配置用於:對被機器學習模型預測出的位於經標註的詞語的標註區域內的字符對應的包圍盒計算k近鄰,得到字符之間的連接關係,其中,每一個字符連接k個其他的字符;採用以下公式計算兩個相連接的字符之間的權重值wij:

其中,兩個相連接的字符構成一個字符連接對,d(i,j)表示兩個相連接的字符之間的距離,表示所有字符連接對中的字符之間的距離的平均值,ti和tj表示兩個相連接的字符各自對應的置信度;查找出最大生成樹,最大生成樹包括:依次連接的被機器學習模型預測出的字符並且字符之間的權重值之和最大;執行以下選取操作:對當前樹中的每一個字符連接對分別進行剪枝,得到多個子樹,其中,當選取操作為首次執行時當前樹為最大生成樹;採用以下公式計算子樹或當前樹的得分s:

s=w·s1+(1-w)·s2

其中,Bchars表示子樹或當前樹中的字符對應的包圍盒,Banno表示經標註的詞語對應的包圍盒,area(Bchars)表示子樹或當前樹中的字符對應的包圍盒的面積,area(Banno)表示經標註的詞語對應的包圍盒的面積,λ1和λ2分別表示Bchars的中心坐標協方差矩陣的最大特徵值和第二大特徵值,當選取操作為首次執行時w為預設權重值,當選取操不是首次執行時w為子樹對應的字符連接對中的兩個字符之間的權重值;判斷得分最高的子樹的得分是否大於當前樹的得分;若是,將得分最高的子樹作為當前樹,以及再次執行選取操作;若否,將當前樹中的字符作為用於訓練機器學習模型的字符。

在本實施例的一些可選的實現方式中,裝置400還包括:標註信息獲取單元(未示出),配置用於將詞級別標註的數據集中的詞級別標註的圖片作為包含經標註的詞語的圖片,詞級別標註的圖片包括:用於對詞語的位置進行標註的包圍詞語的標註框。

圖5示出了適於用來實現本申請實施例的字符檢測裝置的計算機系統的結構示意圖。

如圖5所示,計算機系統500包括中央處理單元(CPU)501,其可以根據存儲在只讀存儲器(ROM)502中的程序或者從存儲部分508加載到隨機訪問存儲器(RAM)503中的程序而執行各種適當的動作和處理。在RAM503中,還存儲有系統500操作所需的各種程序和數據。CPU501、ROM502以及RAM503通過總線504彼此相連。輸入/輸出(I/O)接口505也連接至總線504。

以下部件連接至I/O接口505:包括鍵盤、滑鼠等的輸入部分506;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分507;包括硬碟等的存儲部分508;以及包括諸如LAN卡、數據機等的網絡接口卡的通信部分509。通信部分509經由諸如網際網路的網絡執行通信處理。驅動器510也根據需要連接至I/O接口505。可拆卸介質511,諸如磁碟、光碟、磁光碟、半導體存儲器等等,根據需要安裝在驅動器510上,以便於從其上讀出的電腦程式根據需要被安裝入存儲部分508。

特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為計算機軟體程序。例如,本公開的實施例包括一種電腦程式產品,其包括有形地包含在機器可讀介質上的電腦程式,所述電腦程式包含用於執行流程圖所示的方法的程序代碼。在這樣的實施例中,該電腦程式可以通過通信部分509從網絡上被下載和安裝,和/或從可拆卸介質511被安裝。

附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統、方法和電腦程式產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所標註的功能也可以以不同於附圖中所標註的順序發生。例如,兩個接連地表示的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執行規定的功能或操作的專用的基於硬體的系統來實現,或者可以用專用硬體與計算機指令的組合來實現。

作為另一方面,本申請還提供了一種非易失性計算機存儲介質,該非易失性計算機存儲介質可以是上述實施例中所述設備中所包含的非易失性計算機存儲介質;也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質。上述非易失性計算機存儲介質存儲有一個或者多個程序,當所述一個或者多個程序被一個設備執行時,使得所述設備:將包含經標註的詞語的圖片作為機器學習模型的輸入;基於被所述機器學習模型預測出的位於經標註的詞語的標註區域內的字符的預測結果和所述經標註的詞語的標註信息,從被所述機器學習模型預測出的位於經標註的詞語的標註區域內的字符中選取出用於訓練機器學習模型的字符;基於選取出的字符的特徵,對所述機器學習模型進行訓練,以利用訓練後的所述機器學習模型對圖片中的字符進行檢測。

以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發明範圍,並不限於上述技術特徵的特定組合而成的技術方案,同時也應涵蓋在不脫離所述發明構思的情況下,由上述技術特徵或其等同特徵進行任意組合而形成的其它技術方案。例如上述特徵與本申請中公開的(但不限於)具有類似功能的技術特徵進行互相替換而形成的技術方案。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀