新四季網

文本糾錯方法、裝置、計算機設備及可讀存儲介質與流程

2024-04-16 17:03:05

1.本發明涉及圖像識別
技術領域:
:,具體而言,涉及一種文本糾錯方法、裝置、計算機設備及可讀存儲介質。
背景技術:
::2.ocr(opticalcharacterrecognition),全稱光學字符識別,即將圖像中的文本轉換為計算機可以直接處理的格式,該技術在各個業務領域中有著廣泛的應用。如在金融領域,可以通過ocr技術對大量的財務報告中的語句和數據進行自動化提取,以高效、低成本的方式迅速獲取信息,幫助數據使用者根據信息做出投資決策。但是ocr技術在識別過程中可能會出現某些文字的識別錯誤,因此針對識別結果的糾錯工作變得必不可少。3.現有技術現有的糾錯方法主要是從預先獲取的混淆集中進行選擇從而找到正確文字進行對錯字的替換以完成糾錯,該方法要求對語料庫前期的進行大量得訓練,費時費力且無法確保精確度。此外,只通過語義通順程度對字符進行糾錯,指標單一,糾錯效率低。因此,目前相關技術在對圖像文本中識別的錯誤字符進行糾正處理時,存在的效率低、精確度低的問題。技術實現要素:4.本發明的目的之一在於提供一種文本糾錯方法、裝置、計算機設備及可讀存儲介質,用於提高文本糾錯的效率和準確度,本發明可以這樣實現:5.第一方面,本發明提供一種文本糾錯方法,所述方法包括:獲取待糾錯文本對應的文字序列、所述文字序列中各個文字的置信度、以及各個所述文字的圖像組成的圖像序列;根據所述文字序列,得到所述待糾錯文本對應的語義信息特徵,並根據所述圖像序列,得到所述待糾錯文本對應的圖像信息特徵;其中,所述語義信息特徵和所述圖像信息特徵分別是通過預訓練的糾錯模型的語義信息提取器和圖像特徵提取器得到;所述糾錯模型還包括依次連接的第一全連接層、transformer層和第二全連接層;所述第一全連接層用於對所述語義信息特徵和所述圖像信息特徵進行線性變換以獲得所述語義信息特徵和所述圖像信息特徵各自的權重信息;將所述語義信息特徵和所述圖像信息特徵進行融合,並基於融合後的特徵,預測所述待糾錯文本的每個文字位置上的候選字集合;所述transformer層用於將所述語義信息特徵和所述圖像信息特徵進行句子層面的理解和融合,得到所述融合後的特徵;所述融合後的特徵通過所述第二全連接層處理後被用來得到每個文字位置屬於某個字符的概率分布;對所述文字序列中置信度小於預設置信度閾值的目標文字,基於所述目標文字所在文字位置上的候選字集合進行糾錯。6.第二方面,本發明提供一種文本糾錯裝置,包括:獲取模塊,用於:獲取待糾錯文本對應的文字序列、所述文字序列中各個文字的置信度、以及所述各個文字的圖像組成的圖像序列;確定模塊,用於:根據所述文字序列,得到所述待糾錯文本對應的語義信息特徵,並根據所述圖像序列,得到所述待糾錯文本對應的圖像信息特徵;其中,所述語義信息特徵和所述圖像信息特徵分別是通過預訓練的糾錯模型的語義信息提取器和圖像特徵提取器得到;所述糾錯模型還包括依次連接的第一全連接層、transformer層和第二全連接層;所述第一全連接層用於對所述語義信息特徵和所述圖像信息特徵進行線性變換以獲得所述語義信息特徵和所述圖像信息特徵各自的權重信息;預測模塊,用於將所述語義信息特徵和所述圖像信息特徵進行融合,並基於融合後的特徵,預測所述待糾錯文本的每個文字位置上的候選字集合;所述transformer層用於將所述語義信息特徵和所述圖像信息特徵進行句子層面的理解和融合,得到所述融合後的特徵;所述融合後的特徵通過所述第二全連接層處理後被用來得到每個文字位置屬於某個字符的概率分布;糾錯模塊,用於對所述文字序列中置信度小於預設置信度閾值的目標文字,基於所述目標文字所在文字位置上的候選字集合進行糾錯。7.第三方面,本發明提供一種電子設備,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執行的電腦程式,所述處理器可執行所述電腦程式以實現第一方面所述的方法。8.第四方面,本發明提供一種可讀存儲介質,其上存儲有電腦程式,所述電腦程式被處理器執行時實現第一方面所述的方法。9.本發明提供的文本糾錯方法、裝置、計算機設備及可讀存儲介質,方法包括:獲取待糾錯文本對應的文字序列、所述文字序列中各個文字的置信度、以及所述各個文字的圖像組成的圖像序列;根據所述文字序列,得到所述待糾錯文本對應的語義信息特徵,並根據所述圖像序列,得到所述待糾錯文本對應的圖像信息特徵;將所述語義信息特徵和所述圖像信息特徵進行融合,並基於融合後的特徵,預測所述待糾錯文本的每個文字位置上的候選字集合;對所述文字序列中置信度小於預設置信度閾值的目標文字,基於所述目標文字所在文字位置上的候選字集合進行糾錯。整個過程充分考慮了語義信息和字形信息,根據融合的特徵信息確定了候選字,信息利用更充分,可以幫助提高糾錯準確率。附圖說明10.為了更清楚地說明本發明實施例的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應當理解,以下附圖僅示出了本發明的某些實施例,因此不應被看作是對範圍的限定,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他相關的附圖。11.圖1為本技術實施例提供的一種應用場景示意圖;12.圖2為本發明實施例提供的糾錯模型的結構示意圖;13.圖3為本發明實施例提供的文本糾錯方法的示意性流程圖;14.圖4為本發明實施例提供的步驟304的示意性流程圖;15.圖5為本發明實施例提供的步驟306的示意性流程圖;16.圖6為本發明實施例提供的文本糾錯裝置的功能模塊圖;17.圖7為本發明實施例提供的計算機設備的結構框圖。具體實施方式18.為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發明實施例的組件可以以各種不同的配置來布置和設計。19.因此,以下對在附圖中提供的本發明的實施例的詳細描述並非旨在限制要求保護的本發明的範圍,而是僅僅表示本發明的選定實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。20.應注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨後的附圖中不需要對其進行進一步定義和解釋。21.在本發明的描述中,需要說明的是,若出現術語「上」、「下」、「內」、「外」等指示的方位或位置關係為基於附圖所示的方位或位置關係,或者是該發明產品使用時慣常擺放的方位或位置關係,僅是為了便於描述本發明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本發明的限制。22.此外,若出現術語「第一」、「第二」等僅用於區分描述,而不能理解為指示或暗示相對重要性。23.需要說明的是,在不衝突的情況下,本發明的實施例中的特徵可以相互結合。24.請參見圖1,圖1為本技術實施例提供的一種應用場景示意圖,該場景包括:用戶10、終端設備11和伺服器12。其中,終端設備11中可安裝有各種客戶端。終端設備11的客戶端和伺服器12之間通過通信網絡建立通信連接後,終端設備11的客戶端可以將要識別、糾錯的內容發送給伺服器12,由伺服器12進行識別並糾錯,得到糾錯結果,再將糾錯結果發送給終端設備11的客戶端。25.其中,終端設備11可以但不限於是掃描儀、數位相機、各種具有圖像信息採集功能的個人計算機、筆記本電腦、智慧型手機、平板電腦、智能穿戴設備等計算機設備。26.伺服器12可以用獨立的伺服器或者是多個伺服器組成的伺服器集群或者分布式系統來實現,還可以是提供雲服務、雲資料庫、雲計算、雲函數、雲存儲、網絡服務、雲通信、中間件服務、域名服務、安全服務、cdn(contentdeliverynetwork,內容分發網絡)、以及大數據和人工智慧平臺等基礎雲計算服務的雲伺服器。終端設備11以及伺服器12可以通過有線或無線通信方式進行直接或間接地連接,本技術在此不做限制。27.終端設備11和伺服器12可通過通信網絡進行通信連接,通信網絡可以是無線保真(wirelessfidelity,wifi)熱點網絡、藍牙(bluetooth,bt)網絡或近距離無線通信技術(nearfieldcommunication,nfc)網絡等近距離通信網絡、還可以是第三代移動通信技術(3rd-generationwirelesstelephonetechnology,3g)網絡、第四代移動通信技術(the4thgenerationmobilecommunicationtechnology,4g)網絡、第五代移動通信技術(5th-generationmobilecommunicationtechnology,5g)網絡、未來演進的公共陸地行動網路(publiclandmobilenetwork,plmn)或網際網路等。28.繼續參見圖1,目前,對文本進行糾錯的過程如下:輸入待識別的圖像,然後利用ocr技術對圖像進行識別,得到識別結果。接著將識別結果中的文本作為待糾錯的文本,針對待糾錯的文本,目前存在三種主要的糾錯方法,經過研究發現,這些糾錯方法均存在缺陷:29.第一種:基於混淆集糾錯。30.根據自定義的校驗規則或者統計學上概率計算等方式檢測出哪個文字是錯誤的;再從混淆集中進行選擇從而找到正確文字進行對錯字的替換以完成糾錯,混淆集是基於積累的業務語料庫或者預設的按照某些規則(比如形近字音近字)預先生成的。選擇正確文字的過程就是糾錯的過程,這個過程可能包括多個子方法,主要子方法包括:計算混淆集庫中的字與錯字的相似度、計算包含錯字的短文本與用語料庫中的字替換掉錯字之後得到的新的短文本之間的相似度或者編輯距離、根據自定義的規則計算相似度得分等。31.然而,在ocr識別的場景下,混淆集可能無法覆蓋所有的候選字,糾錯結果更傾向於預測為混淆集裡的字或者只能為其中的字,從而影響糾錯能力;而且它無法覆蓋所有的相似關係,也無法區分相似當中的差異性,所以在對ocr結果進行糾錯的時候也可能無法充分的利用漢字在字音字形字義上的相似與差異特點,影響糾錯能力。32.第二種:基於模型糾錯。33.從ocr的輸出中獲得備選字符和對應的置信度,根據置信度將備選字符組合,模型最終作為一個檢驗字符組合通順度或者語義的工具選擇合適的字符組合;或者模型為預設的概率統計模型,選取概率最大的字符組合。34.然而,從模型角度來進行糾錯,只把模型當成最終檢驗通順度的工具,那隻考慮到了漢字語義和序列的性質;相應的,使用語言模型的時候如果只藉助其生成候選字也只是考慮到了語義信息,而漢字本身的特徵沒有考慮,比如字形結構,而忽略掉的字形信息可能也會影響糾錯能力。35.第三種:混淆集和模型結合的糾錯方法。36.通過模型進行錯誤的檢測,糾錯時先用混淆集初步篩選得到候選字集合,再利用模型進行進一步的篩選,通過判斷語義或者句子通順度選擇最優的結果;或者通過模型對混淆集中字的特徵信息進行學習再對輸入的文本進行糾錯。37.這種結合方法雖然能夠改善糾錯的效果,但是在糾錯過程中仍然只通過語義通順程度對字符進行糾錯,指標單一,精確度不能滿足用戶需求。38.通過對上述對現有技術的概括和局限性的分析,本技術實施例提供了一種文本糾錯方法,能夠在糾錯過程中,不使用上述提到的混淆集,儘可能避免其短板。並且,考慮到現有部分方法未使用到文字字形信息的問題,本技術實施例增加了字形信息的使用,為糾錯模型提供更多特徵信息,使得文字圖像信息特徵和文字語義信息特徵對齊,信息利用更充分,可以幫助提高糾錯準確率。39.在介紹本發明實施例提供的文本糾錯方法之前,先對本發明實施例涉及的糾錯模型進行介紹。40.請參見圖2,圖2為本發明實施例提供的糾錯模型的結構示意圖,該糾錯模型可以包括:語義信息提取器、圖像特徵提取器、第一全連接層、transformer層、第二全連接層,各個模型結構的連接順序如圖2所示。41.語義信息提取器用於接收輸入的文字序列,輸出語義信息特徵,語義信息提取器可以利用與業務場景有關的語料進行訓練,訓練方法可以採用現有的模型訓練方法,此處不作過多說明。圖像特徵提取器用於接收輸入的圖像序列,輸出圖像信息特徵。42.作為一種可選的實施方式,語義信息提取器可以但不限於是bert模型,圖像特徵提取器可以但不限於是堆疊的n層resnet殘差網絡。43.第一全連接層用於將語義信息提取器提取的語義信息特徵和圖像特徵提取器提取的圖像信息特徵進行線性變換,並將線性變換的結果輸入到sigmoid函數中,得到語義信息特徵和圖像信息特徵各自的權重信息。44.transformer層用於將語義信息特徵和圖像信息特徵進行句子層面的理解和融合,得到語義信息和圖像信息的融合特徵,transformer層的層數可以根據實際需求進行設置,例如,可以設置3-6層的transformer結構。45.transformer層得到的融合特徵通過第二全連接層進行處理,然後將處理後的融合特徵進行層歸一化(layernormalization),將歸一化後的融合特徵輸入到softmax函對數中進行求解,得到每個文字位置屬於某個字符的概率分布。46.可以理解的是,從模型結構上來看,本技術中的糾錯模型與現有的文本糾錯模型在結構上完全不同,從功能上看,本技術中的糾錯模型的各個組成部分分工不同,所述第一全連接層用於對所述語義信息特徵和所述圖像信息特徵進行線性變換;所述transformer層用於將所述語義信息特徵和所述圖像信息特徵進行句子層面的理解和融合,得到所述融合後的特徵;所述融合後的特徵通過所述第二全連接層用於處理後被用來得到每個文字位置屬於某個字符的概率分布,上述糾錯模型的各個組成部分以及對應的技術特徵在功能上彼此相互支持、存在相互作用關係,從而實現準確糾錯的效果。47.作為一種可選的實施方式,本技術實施例中的糾錯模型也可以不集成語義信息提取器、以及圖像特徵提取器,糾錯模型、語義信息提取器以及圖像特徵提取器作為獨立的功能模塊協同的實現文本糾錯方法。48.下面將結合相關附圖以及圖2中提供的糾錯模型,對本技術實施例提供的文本糾錯方法進行詳細介紹。49.請參見圖3,圖3為本發明實施例提供的文本糾錯方法的示意性流程圖,該方法的執行主體可以圖1中的伺服器12,方法包括:50.s300、獲取待糾錯文本對應的文字序列、文字序列中各個文字的置信度、以及各個文字的圖像組成的圖像序列。51.s302、根據文字序列,得到待糾錯文本對應的語義信息特徵,並根據圖像序列,得到待糾錯文本對應的圖像信息特徵;其中,所述語義信息特徵和所述圖像信息特徵分別是通過預訓練的糾錯模型的語義信息提取器和圖像特徵提取器得到;所述糾錯模型還包括依次連接的第一全連接層、transformer層和第二全連接層;所述第一全連接層用於對所述語義信息特徵和所述圖像信息特徵進行線性變換以獲得所述語義信息特徵和所述圖像信息特徵各自的權重信息;52.s304、將語義信息特徵和圖像信息特徵進行融合,並基於融合後的特徵,預測待糾錯文本的每個文字位置上的候選字集合;所述transformer層用於將所述語義信息特徵和所述圖像信息特徵進行句子層面的理解和融合,得到所述融合後的特徵;所述融合後的特徵通過所述第二全連接層處理後被用來得到每個文字位置屬於某個字符的概率分布;53.s306、對文字序列中置信度小於預設置信度閾值的目標文字,基於目標文字所在文字位置上的候選字集合進行糾錯。54.在上述文本糾錯方法中,首先得到待糾錯文本對應的文字序列、以文字序列對應的圖像序列,通過糾錯模型的語義信息提取器和圖像特徵提取器得到語義信息特徵和圖像信息特徵,然後通過糾錯模型的第一全連接層用於對語義信息特徵和圖像信息特徵進行線性變換,然後通過transformer層用於將語義信息特徵和圖像信息特徵進行句子層面的理解和融合,最後融合後的特徵通過第二全連接層用於處理後被用來得到每個文字位置屬於某個字符的概率分布,可以看出,上述糾錯模型的各個組成部分以及對應的技術特徵在功能上彼此相互支持、存在相互作用關係,融合語義信息特徵和圖像信息特徵,然後基於融合後的特徵預測每個文字位置上的候選字集合,進而對需要糾錯的目標文件,基於該目標文字所在文字位置上的候選字集合進行糾錯,整個過程充分考慮了語義信息和字形信息,根據融合的特徵信息確定了候選字,信息利用更充分,可以幫助提高糾錯準確率。55.下面對上述步驟s300至步驟s306進行詳細介紹。56.在步驟s300中、獲取待糾錯文本對應的文字序列、文字序列中各個文字的置信度、以及各個文字的圖像組成的圖像序列。57.上述待糾錯文本是基於現有的文字識別技術,從待識別圖像中識別出來的文本。待識別的圖像可以是可攜式文件格式(portabledocumentformat,pdf)文件中的某一頁圖片,或者也可以是廣告單、海報等,本技術對此不作限定。58.作為一種可選的實施方式,伺服器12可以先獲取待識別的圖像,然後利用ocr技術對待識別的圖像進行識別,得到ocr識別文本,作為本技術實施例中的待糾錯文本,例如,將圖像上的字符轉換為可編碼的文本格式,此處可參閱現有技術的具體實現,在此不作過多說明。59.因此,針對上述步驟s300,本發明實施例給出了一種可能的實施方式,即步驟s300可以包括如下步驟:60.a1:對待識別文本圖像基於光學字符識別模型進行識別,輸出文字序列、文字序列中各個文字的置信度、以及各個文字的坐標值;61.a2:基於各個文字的坐標值,對待識別文本圖像進行切割,得到圖像序列。62.例如,待識別文本圖像中的文本內容為「合併儲備」,通過光學字符識別模型識別結果為:合、並、儲、備,每個文字對應的置信度值為[l1,l2,l3,l4],每個文字在待識別圖像所在圖像坐標系中的作為[[x1,y],[x2,y],[x3,y].[x4,y]]。[0063]置信度可以用來確定哪些文字需要進行後續的糾錯流程。[0064]坐標可以用於指示從待識別文本圖像中準確裁剪出每個文字對應的圖像。例如,可以對待識別文本圖片計算垂直投影、合併投影計算分割框、根據分割框裁剪,目的是把原圖片中的文字序列依次切割成多個僅包含單字的圖片,每個單字圖片都與解析後的單個文字相對應。[0065]需要說明的是,上述待識別文本圖像僅僅是待識別圖像中其中一行文字對應的圖像,具體的,可以從待識別圖像中進行裁剪,得到的每一行文本對應的圖像作為待識別文本圖像,這樣一來可以避免對整個待識別圖像進行文本識別出現的文本順序對齊的問題。[0066]還需要說明的是,為了滿足後續糾錯模型的數據格式,得到文字序列之後,還控制序列長度在最大長度小於或等於預設長度閾值,例如125,如果得到的序列長度大於預設長度閾值,則將原文字序列進行分割,保證每個子文字序列長度小於預設長度閾值。[0067]在獲得文字序列和圖像序列之後,即可執行步驟s302。[0068]在步驟s302中、根據文字序列,得到待糾錯文本對應的語義信息特徵,並根據圖像序列,得到待糾錯文本對應的圖像信息特徵;[0069]本技術實施例中,語義信息特徵是通過圖2所示的糾錯模型的語義信息提取器獲得的。[0070]作為一種可選的實施方式,語義信息提取器可以但不限於是預訓練的bert模型,該bert模型可以基於不同業務場景下的語料進行訓練,相應業務場景下語義的理解會有增強,從而實現不同業務場景中的文本糾錯效果。業務場景可以但不限於是:金融、社交、直播、遊戲等等,本技術實施例對此不作限定。[0071]為了準確提取語義信息,本技術實施例中的語義信息提取器的結構可以是多層的transformer結構,該結構作為自然語言理解領域的一個基礎架構,可以在整個結構的最後一層輸出文字在語義信息上的表徵,對於transformer結構的具體細節,本技術在此不作過多說明。[0072]本技術實施例中,語義信息特徵通過一個矩陣進行表示,記作hs=(h1s,h2s,…hns),hs為語義(semantic)信息特徵矩陣的符號表示,h1s,h2s,…hns為每個文字的語義信息表徵,其中,n為預編碼後的文字序列的長度。[0073]因此,本技術實施例還給出了一種提取語義信息特徵的實施方式,如下b1至b2所示:[0074]b1:對文字序列進行預編碼;[0075]b2將預編碼後的文字序列輸入到預訓練的糾錯模型的語義信息提取器中,得到語義信息特徵。[0076]可以理解的是,對文字序列預編碼的目的是將文字序列轉換成語義信息提取器能夠處理的數據格式,以語義信息提取器為bert模型為例,在將文字序列輸入到bert模型之前,需要先將文字序列進行轉換即將文字序列預編碼成一串數據,數據的長度,也就是上述內容中的n,可以根據實際需求進行設置,此處不做限定。[0077]需要注意的是,n可以基於語義信息提取器本技術的數據格式要求進行取值,這裡不作限制。[0078]在提取語義信息特徵的同時,還可以基於圖像序列提取每個文字對應的圖像信息特徵,這裡所說的圖像信息特徵也可以理解為文字的字形結構特徵,可想而知,結合語義信息和字形信息進行文本糾錯,可以提升糾錯結果的準確性。[0079]在本技術實施例中,圖像信息特徵可以通過圖2所示的圖像特徵提取器進行提取。[0080]作為一種可選的實施方式,圖像特徵提取器可以但不限於是堆疊的n層的resnet殘差網絡。[0081]本技術實施例還給出了一種提取圖像信息特徵的實施方式,如下c1至c2所示:[0082]c1:將圖像序列中的每張圖像轉換成預設尺寸的矩陣;[0083]c2:按照圖像序列中各個圖像的順序,對得到的各個矩陣進行拼接,並將拼接後的矩陣輸入預訓練的糾錯模型的圖像特徵提取器中,得到圖像信息特徵。[0084]為了提升運算速度,可以以灰度模式將圖像序列中的每張圖像,將每張圖像轉換成預設尺寸的矩陣,需要注意的是,這裡設置的預設尺寸需要和圖像特徵提取器的層數相匹配,即圖像特徵提取器的層數為n,每張圖像轉為m*m*1的矩陣,那麼n與m之間需要滿足關係式:2n=m,也就是說,如果resnet網絡是4層,那麼每張圖像加載後都被轉為16*16*1的矩陣。[0085]將上述轉換後得到的矩陣依次輸入圖像特徵提取器,通過圖像特徵提取器提取的圖像信息特徵可以記作hg=(h1g,h2g,…hng),hg為圖像(graphic)信息特徵的符號表示,h1g,h2g,…hng為每個圖像對應的圖片信息表徵。[0086]獲得待糾錯文本對應的語義信息特徵和圖像信息特徵之後,即可執行步驟s304。[0087]在步驟s304中、將語義信息特徵和圖像信息特徵進行融合,並基於融合後的特徵,預測待糾錯文本的每個文字位置上的候選字集合。[0088]本實施例中,將得到的語義信息特徵hs和圖像信息特徵hg在特徵的維度上進行拼接,相當於語義信息的特徵和字形一起做了特徵的擴充,得到矩陣ha=(h1s,g,h2s,g,…hns,g),其中ha可以看作是融合後的特徵的表徵。[0089]上述「融合」相當於對每一個位置上的語義信息特徵和圖像信息特徵進行了聚合。比如hs為維度為(2,128,768)的矩陣,hg為維度為(2,128,768)的矩陣,2為句子個數,128為每個句子字符數,ha為兩者在最後一個維度拼接後的矩陣,維度為(2,128,768*2)。[0090]需要注意的是,上述例子中hs維度為(2,128,768),其中的2是句子數,在訓練階段,為了提升訓練效率,句子數相當於一個訓練批次(batchsize)中句子的訓練語句的個數,但在模型的應用階段,hs維度中的句子數通常設置為1,為一個待糾錯文本。[0091]得到融合後的特徵之後,即可預測每個文字位置上的候選字集合。[0092]本技術實施例中,候選字來自預先建立的字典,本技術實施例可以基於融合後的特徵,預測字典中的候選字屬於待糾錯文本中每個文字位置上的概率,進而可以基於概率確定出候選字集合。候選字集合可以用來對某些需要進行糾錯的文字位置上的文字進行糾錯。[0093]因此,本技術實施例還給了一種步驟s304的實施方式,請參見圖4,圖4為本技術實施例提供的步驟s304的示意性流程圖,步驟s304可以包括如下步驟:[0094]s304-1,基於語義信息權重和圖像信息權重,對語義信息特徵和圖像信息特徵進行加權求和,得到融合後的特徵。[0095]作為一種可選的實施方式,上述語義信息權重和圖像信息權重可以根據實際需求預先設置,語義信息權重和圖像信息權重的大小關係不作限定。[0096]作為一種較佳的實施方式,可以基於本技術提供的實施方式確定,如下d1至d2:[0097]d1:對語義信息特徵和圖像信息特徵進行特徵拼接,並基於拼接後的特徵和預設權重參數,構建權重矩陣。[0098]本技術實施例中,對語義信息特徵和圖像信息特徵進行特徵拼接,即對上述hs和hg進行特徵拼接,得到ha,將得到的ha輸入到圖2所示的第一全連接層做線性變換,目的是為了將語義信息和圖像信息通過加權求和的方式融合在一起,顯現變換的結果為:w·ha+b,其中,w為初始權重矩陣,參數可以學習,b為常數向量。[0099]d2:利用激活函數對權重矩陣進行求解,輸出語義信息權重和圖像信息權重。[0100]針對線性變換的結果,使用激活函數進行求解,得到最終的權重矩陣g=sigmoid(w·ha+b),sigmoid為激活函數,然後將g在輸出特徵的維度上變為2,分別得到兩個權重矩陣分量:ws=g[:,:,0]和wg=g[:,:,1],其中,ws為語義信息權重,wg為圖像信息權重。[0101]利用得到的ws和wg,將語義信息特徵hs和圖像信息特徵hg進行加權求和得到ws·hs+wg·hg,即為h,即h=ws·hs+wg·hg。[0102]將上述步驟中得到特徵h作為圖2中的transformer結構中進行句子層面的理解和融合之後的特徵表徵。[0103]作為一種可選的實施方式,transformer的層數可以設置為3-6層,此處不作限制。[0104]s304-2,將融合後的特徵輸入歸一化指數函數中,預測預建立的字典中每個候選字屬於每個文字位置的概率。[0105]本實施例中,字典是語義提取器本身預設的,在將h輸入歸一化指數函數之前,為了滿足歸一化指數函數所處理的數據格式,還可以先對h進行歸一化,即將h依次通過圖2所示的第二全連接層和歸一化層,然後將歸一化後的h輸入歸一化指數函數中,這裡的歸一化指數函數為softmax函數,歸一化指數函數的求解結果為一個概率矩陣,概率矩陣中每個向量即為每個文字位置對應的概率向量,一個概率向量中每個向量位置代表字典中候選字的索引,向量位置上的概率即該索引對應的候選字的概率,從而得到了每個文字位置屬於某個文字的概率分布。[0106]s304-3,針對每個文字位置,按照概率值從大到小的順序,從預建立字典中確定出多個候選字,組成候選字集合。[0107]針對每個文字位置,按照概率值從大到小的順序從它對應的概率向量中取前k個概率值對應的候選字,組成候選字組合。[0108]例如,k為4,概率向量為[p1,p2,p3,p4,…pn],其中,p1》p2》p3》p4》…》pn,那麼取前p1、p2、p3、p4各自對應的候選字,組成候選字集合。[0109]得到每個文字位置上的候選字集合,即可執行本發明實施例中的糾錯流程。參見步驟s306。[0110]在步驟s306中、對文字序列中置信度小於預設置信度閾值的目標文字,基於目標文字所在文字位置上的候選字集合進行糾錯。[0111]本實施例中,得到文字序列的同時可以得到每個文字對應的置信度,該置信度表徵文字識別正確的置信度,因此,對於每個字都進行置信度的判斷。事先設定閾值,如果置信度高於閾值則認為解析結果與原圖片對應內容相符,解析正確,不需要進行糾錯;對於置信度小於預設置信度閾值的文字,則需要進行糾錯。因此,在得到置信度小於預設置信度閾值的目標文字之後,即可基於該目標文字對應的候選字集合,進行糾錯。[0112]本發明實施例給出了一種基於候選字集合進行糾錯的實施方式,請參見圖5,圖5為本技術實施例提供的步驟s306的示意性流程圖,步驟s306可以包括:[0113]s306-1,將候選字集合中概率最大值對應的候選字確定為待確認字;[0114]s306-2,若待確認字滿足預設條件,則確定目標文字為正確的文字。[0115]預設條件為:待確認字與目標文字相同,且概率最大值大於預設概率閾值。[0116]設置上述預設條件的原因是:由於目標文字識別過程中也可能出現錯誤,即將正確的文字識別為錯誤的文字,而本技術通過融合了圖像信息和語義信息的特徵所預測出來的所屬某個文字位置上的概率分布正好可以作為正確文字的參考依據,因此,假設待確認字與目標文字相同,但是概率大於預設概率閾值,則表明前期識別出來的目標文字以及後續基於目標文字預測到的待確認字均是正確的,一旦不滿足這種預設條件,則表明前期的目標文字以及基於目標文字預測到的待確認字可能本身就是錯誤的。[0117]若待確認字滿足上述預設條件,則認為該文字位置上的目標文字是正確的,不需要進行糾錯,否則執行步驟s306-3。[0118]s306-3,若待確認字不滿足預設條件,則將目標文字替換成待確認字,或者,基於目標文字和候選字集合中每個候選字的筆畫相似度以及每個候選字的概率,確定出目標候選字,並將目標文字替換成目標候選字。[0119]若待確認字不滿足上述預設條件,則表明目標文字是錯誤的,此時,可以按照如下任意一種方式對目標文字進行糾錯。[0120]作為一種可選的實施方式,將目標文字替換成待確認字,即完成對目標文字的糾錯。[0121]作為另一種可選的實施方式,基於目標文字和候選字集合中每個候選字的筆畫相似度以及每個候選字的概率,確定出目標候選字,並將目標文字替換成目標候選字,即完成對目標文字的糾錯。[0122]具體為:對目標文字和候選字集合中的候選字分別進行拆解,拆解成按筆畫順序排列的筆畫序列,然後對候選字和目標文字求相似度,以相似度和候選字的概率的加權求和值為依據,取最大值對應的候選字作為目標候選字,其中,相似度和概率各自的權重可能根據多次的實驗經驗或者根據統計結果而選擇。[0123]需要說明的是,本技術實施例只對中文文本進行糾正,如果待糾錯文本某個文字位置上的值是除漢字之外的數字、字母或符號,則不予以糾正,直接使用到對應位置的值;同理,如果候選字集中存在數字、字母或符號的候選詞,則這些候選詞也可以予以排除在候選字集合外,在剩下的候選字集合進行選擇。[0124]還需要說明的是,對於地名和組織等詞,可能模型本身而言可能會造成一定的誤糾,為了進一步提高模型的準確性,如果有可使用的關於地名、組織名、專有詞等詞庫,可以引入ner模型。先將ocr的結果放入ner中識別出可能的地名、組織名和專有詞等,根據上述糾錯模型對於有錯誤的位置,可以把包括錯誤位置的從ner識別出來的實體與詞庫中的名稱進行比對,將詞庫中的詞作為候選詞,最終以編輯距離或者相似度等指標為依據,選擇合適的替換詞。[0125]基於上述實施例,本技術實施例還提供一種文本糾錯裝置,該裝置的結構如圖6所示,圖6為本發明實施例提供的文本糾錯裝置的功能模塊圖,該文本糾錯裝置400可包括:獲取模塊401、確定模塊402、預測模塊403和糾錯模塊404。[0126]獲取模塊401,用於:獲取待糾錯文本對應的文字序列、文字序列中各個文字的置信度、以及各個文字的圖像組成的圖像序列;[0127]確定模塊402,用於:根據文字序列,得到待糾錯文本對應的語義信息特徵,並根據圖像序列,得到待糾錯文本對應的圖像信息特徵;其中,所述語義信息特徵和所述圖像信息特徵分別是通過預訓練的糾錯模型的語義信息提取器和圖像特徵提取器得到;所述糾錯模型還包括依次連接的第一全連接層、transformer層和第二全連接層;所述第一全連接層用於對所述語義信息特徵和所述圖像信息特徵進行線性變換以獲得所述語義信息特徵和所述圖像信息特徵各自的權重信息;[0128]預測模塊403,用於將語義信息特徵和圖像信息特徵進行融合,並基於融合後的特徵,預測待糾錯文本的每個文字位置上的候選字集合;所述transformer層用於將所述語義信息特徵和所述圖像信息特徵進行句子層面的理解和融合,得到所述融合後的特徵;所述融合後的特徵通過所述第二全連接層處理後被用來得到每個文字位置屬於某個字符的概率分布;[0129]糾錯模塊404,用於對文字序列中置信度小於預設置信度閾值的目標文字,基於目標文字所在文字位置上的候選字集合進行糾錯。[0130]可以理解的是,獲取模塊401、確定模塊402、預測模塊403和糾錯模塊404可以協同的執行圖3中的各個步驟以實現相應的技術效果。[0131]在可選的實施方式中,獲取模塊401,具體用於:對待識別文本圖像基於光學字符識別模型進行識別,輸出文字序列、文字序列中各個文字的置信度、以及各個文字的坐標值;基於各個文字的坐標值,對待識別文本圖像進行切割,得到圖像序列。[0132]在可選的實施方式中,確定模塊402,具體用於:對文字序列進行預編碼;將預編碼後的文字序列輸入到預訓練的糾錯模型的語義信息提取器中,得到語義信息特徵。將圖像序列中的每張圖像轉換成預設尺寸的矩陣;按照圖像序列中各個圖像的順序,對得到的各個矩陣進行拼接,並將拼接後的矩陣輸入預訓練的糾錯模型的圖像特徵提取器中,得到圖像信息特徵。[0133]在可選的實施方式中,預測模塊403,具體用於:基於語義信息權重和圖像信息權重,對語義信息特徵和圖像信息特徵進行加權求和,得到融合後的特徵;將融合後的特徵輸入歸一化指數函數中,預測預建立的字典中每個候選字屬於每個文字位置的概率;針對每個文字位置,按照概率值從大到小的順序,從預建立字典中確定出多個候選字,組成候選字集合。[0134]在可選的實施方式中,預測模塊403,具體用於:對語義信息特徵和圖像信息特徵進行特徵拼接,並基於拼接後的特徵和預設權重參數,構建權重矩陣;利用激活函數對權重矩陣進行求解,輸出語義信息權重和圖像信息權重。[0135]在可選的實施方式中,糾錯模塊404,具體用於:將候選字集合中概率最大值對應的候選字確定為待確認字;若待確認字滿足預設條件,則確定目標文字為正確的文字;預設條件為:待確認字與目標文字相同,且概率最大值大於預設概率閾值;若待確認字不滿足預設條件,則將目標文字替換成待確認字;或者,基於目標文字和候選字集合中每個候選字的筆畫相似度以及每個候選字的概率,確定出目標候選字,並將目標文字替換成目標候選字。[0136]需要說明的是,本技術以上實施例中對模塊的劃分是示意性的,僅僅為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,另外,在本技術各個實施例中的各功能單元可以集成在一個處理單元中,也可以是單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以採用硬體的形式實現,也可以採用軟體功能單元的形式實現。[0137]集成的單元如果以軟體功能單元的形式實現並作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基於這樣的理解,本技術的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟體產品的形式體現出來,該計算機軟體產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,伺服器,或者網絡設備等)或處理器(processor)執行本技術各個實施例方法的全部或部分步驟。而前述的存儲介質包括:u盤、移動硬碟、只讀存儲器(read-onlymemory,rom)、隨機存取存儲器(randomaccessmemory,ram)、磁碟或者光碟等各種可以存儲程序代碼的介質。[0138]基於上述實施例,本技術實施例還提供一種計算機設備的示意圖,該計算機設備用於實現上述實施例中的文本糾錯方法。參閱圖7所示,計算機設備500包括:存儲器501、處理器502、通信接口503、和總線504,該存儲器501、處理器502和通信接口503相互之間直接或間接地電性連接,以實現數據的傳輸或交互。例如,這些元件相互之間可通過一條或多條通訊總線或信號線實現電性連接。[0139]可選的,總線504可以是外設部件互連標準(peripheralcomponentinterconnect,pci)總線或擴展工業標準結構(extendedindustrystandardarchitecture,eisa)總線等。總線可以分為地址總線、數據總線、控制總線等。為便於表示,圖7中僅用一條粗線表示,但並不表示僅有一根總線或一種類型的總線。[0140]在本技術實施例中,處理器502可以是通用處理器、數位訊號處理器、專用集成電路、現場可編程門陣列或者其他可編程邏輯器件、分立門或者電晶體邏輯器件、分立硬體組件,可以實現或者執行本技術實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者任何常規的處理器等。結合本技術實施例所公開的方法的步驟可以直接體現為硬體處理器執行完成,或者用處理器中的硬體及軟體模塊組合執行完成。軟體模塊可以位於存儲器501中,處理器502讀取存儲器501中的程序指令,結合其硬體完成上述方法的步驟。[0141]在本技術實施例中,存儲器501可以是非易失性存儲器,比如硬碟(harddiskdrive,hdd)或固態硬碟(solid-statedrive,ssd)等,還可以是易失性存儲器(volatilememory),例如ram。存儲器還可以是能夠用於攜帶或存儲具有指令或數據結構形式的期望的程序代碼並能夠由計算機存取的任何其他介質,但不限於此。本技術實施例中的存儲器還可以是電路或者其它任意能夠實現存儲功能的裝置,用於存儲指令和/或數據。[0142]存儲器501可用於存儲軟體程序及模塊,如本發明實施例提供的文本糾錯裝置400的指令/模塊,可以軟體或固件(firmware)的形式存儲於存儲器501中或固化在計算機設備500的作業系統(operatingsystem,os)中,處理器502通過執行存儲在存儲器501內的軟體程序及模塊,從而執行各種功能應用以及數據處理。該通信接口503可用於與其他節點設備進行信令或數據的通信。[0143]所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。[0144]可以理解,圖7所示的結構僅為示意,計算機設備500還可以包括比圖7中所示更多或者更少的組件,或者具有與圖7所示不同的配置。圖7所示的各組件可以採用硬體、軟體或其組合實現。[0145]基於以上實施例,本技術還提供了一種存儲介質,存儲介質中存儲有電腦程式,電腦程式被計算機執行時,使得計算機執行以上實施例提供的文本糾錯方法。[0146]基於以上實施例,本技術實施例還提供了一種電腦程式,當電腦程式在計算機上運行時,使得計算機執行以上實施例提供的文本糾錯方法。[0147]基於以上實施例,本技術實施例還提供了一種晶片,晶片用於讀取存儲器中存儲的電腦程式,用於執行以上實施例提供的文本糾錯方法。[0148]本技術實施例中還提供一種電腦程式產品,包括指令,當其在計算機上運行時,使得計算機執行以上實施例提供的文本糾錯方法。[0149]本技術實施例是參照根據本技術實施例的方法、設備(系統)、和電腦程式產品的流程圖和/或方框圖來描述的。應理解可由指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。[0150]這些電腦程式指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的製造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。[0151]這些電腦程式指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用於實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。[0152]以上,僅為本發明的具體實施方式,但本發明的保護範圍並不局限於此,任何熟悉本
技術領域:
:的技術人員在本發明揭露的技術範圍內,可輕易想到的變化或替換,都應涵蓋在本發明的保護範圍之內。因此,本發明的保護範圍應以權利要求的保護範圍為準。當前第1頁12當前第1頁12

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀