新四季網

識別信件發送信息的方法和配置的製作方法

2023-05-22 23:59:21 2

專利名稱:識別信件發送信息的方法和配置的製作方法
技術領域:
本發明涉及一種各獨立權利要求前序部分所述的方法和配置,特別有利地適合於確定用非拉丁字母文字所書寫的信件發送信息。
各種自動識別發送信息、特別是地址信息的系統(OCR,即光學文字識別系統),在信件處理領域是非常有名的,例如在DE 195 31 392中所描述的那樣。採用先進的OCR信件分揀裝置,信件的處理速度可達到每秒鐘10封,即每小時36000封,甚至可以更快。然而識別可靠性會隨著文字的字體以及寫在信封表面的地址信息的總體質量而有很大的變化。被成功識別的信件會打上一個機器可識別的條形碼,使用這樣的條形碼可以按照任意所需的分類方法對信件進行進一步的機器處理。特別地,使用條形碼進行信件分類可以按照郵遞員分發信件的相應順序進行分類。
亞洲地區經濟的增長和信件處理量的增長導致加快研製東方文字自動識別系統,以便限制成本,提高郵政服務質量。與西方國家郵局已經採用自動化新技術的情況相比,對信件識別系統提出了新的要求,因為在亞洲地區的大部分國家,中文文字被指定為書寫本地區信件地址的文字。與西方拉丁文字的字母不同,中文文字是由表意的漢字組成的,每個漢字都可以表示一個詞。西文字母表只有30至60個字母,而中文日常生活中常用的就有3000至6000個不同的漢字,每個都有自己的特徵形式。與西文的拉丁文字系統相比,中文字符系統的這種非封閉性以及每個特定字符的表意結構,降低了OCR系統的有效性。此外問題還有,信件上的地址可以橫著寫,也可以豎著寫,而且中文與西文字符經常混合出現。
通常,自動識別系統不僅對西文字符,也對中文字符的識別率差別很大,因此有必要對自動識別系統輔以不同形式的人工幹預。最簡單的輔助方法是對不能自動識別的信件採用人工分類方法。當然隨著勞動力成本的不斷增長,這種方法的成本特別高,非常不經濟。另外,這種人工分揀的信件在以後不再能夠採用機械方法繼續分類,因而產生兩股相互分開的信件分流,必須在某個特定時間再用人工進行合併。
為了克服OCR系統拒分信件人工分揀的這些缺點,人們發明了多種方法進行信件人工編碼。所有這些方法都需要操作員的人工參與,以某種方式給信件打上條形碼,這種方式應滿足可通過同一架機器對OCR識別的和條形碼編碼的兩種信件進行機械分類。
另一種對拒分信件進行編碼的方法是使用所謂的人工編碼臺。這些信件本身一個接一個地在操作員面前通過人工編碼臺,操作員對每封信件利用儘量多的信息進行編碼,以便識別出單義的地址信息。然後利用地址目錄表將所得的地址轉換為分揀條形碼,打在信件上。被編碼的信件將利用與適於OCR的條形碼分揀器(BCS)在機械上相同的BCS繼續處理。這種人工編碼臺方法最先由美國郵政和皇家郵政在七十年代使用。這種裝置的主要缺點是信件必須從OCR信件流中分開,而操作員要識別出從他面前通過的信件由於人的生理條件局限也存在困難。
處理OCR拒分信件的最新進展是發明了在線視頻編碼系統(OVS)。這種OVS不是將信件本身通過人工編碼臺,而是將信件的視頻圖像送給操作員進行編碼。視頻圖像展示給操作員的同時,信件本身保留在延遲傳送帶上。此處信件通常運行一段足夠長的時間,以便使OVS操作員對所處理的圖像輸入必要的分揀信息。通常延遲傳送帶的延遲時間是10至30秒。延遲傳送帶越長,成本及對保養的要求會越高,設備也越大。
使用OVS的主要問題是,所能支配的時間僅僅足夠仔細輸入郵政編碼信息(ZIP或PC),需要使用的延遲傳送帶的長度就可能會不切實際地長。
只要有ZIP或PC,OVS就也可以有效地應用於中文地址的信件,當然有ZIP或PC的信件在許多東方國家還是比較少的,而且在可預見的將來這種情況還會保持下去。
因此,為了儘量減少必要的在線延遲時間,需要發明一種特殊的編碼方法。
為了提高編碼效率和/或能夠輸入所有的地址信息要素,即ZIP/PC、街道/信箱、收件人/信箱、收件人/公司等,因此在現有技術中發明了許多方法,主要有以下幾種預視編碼法(Vorschau-Codierung)預視編碼法同時顯示兩封信件的圖像,一個在另一個的上面。下面的圖像是活動的,即對它的數據進行編碼。經過適應訓練,操作員可以在對下面的圖像進行編碼的同時,還能看得見上面圖像的地址信息。上面的圖像緊接著變成活動的,處理過程繼續進行。在對一個接一個的圖像進行編碼時採用認知功能的和機械功能的完全重疊運行,預視編碼法能夠成倍提高操作員的工作效率。摘錄編碼法(Extraktionscodierung)因為在實際能擁有的在線延遲時間內操作員僅能可靠地輸入地址信息要素ZIP/PC,摘錄編碼法僅輸入與街道有關的地址組分中關鍵的組成部分。這種編碼法通常基於一種特殊設計的編碼規則,在其中,使用固定長度編碼作為關鍵詞對地址目錄表進行索引。例如皇家郵政使用基於前三個字母和最後兩個字母的摘要編碼法。此時要求操作員必須熟記特殊規則,以便避免多餘地址信息,而又照顧到諸如方向等不同的特殊標記,如東、西,或者街、巷、路等分類標記。
儘管摘錄編碼法有一定的編碼效率,但也存在幾個嚴重的缺點,特別是複雜的摘錄規則需要常常顧及到街名的結尾部分,而手寫信件中這些部分又是經常寫得最不清楚的。另外人們還發現,不單義摘錄的出現概率很高,即一個摘錄編碼對應目錄中多個街道名,因而得不到一個單義的分揀結果。此外還要注意的是,只要沒有使用一種簡單重複的鍵盤輸入,而需操作員作出判斷,操作員的輸入速度就會降低。補碼法(Komplettierungscodierung)與摘錄編碼法相反,補碼法對每一個要編碼的地址採用一個可變的輸入。實際輸入與地址目錄表進行比較,直到達到單義吻合。只要確定出部分單義吻合,通過顯示地址的剩餘部分,就能加快識別的速度。這種技術的問題是操作員必須給出明確的停止信號,而且必須顯示地址信息的剩餘部分,因此降低了輸入效率,也不能使用預視編碼法。
理論上所有上述視頻編碼技術都可以應用於中文字符信件的處理,儘管中文字符快速輸入技術的匱乏使得這些方法的可用度受到限制。操作員輔助的OCR技術(Operateur-assistierte OCR-Technik)為了提高在線處理地址信息的能力,美國郵政試驗了操作員輔助的OCR技術。這種方法注重提高對OCR拒分的地址圖像的處理能力。由於操作員在辨認寫錯的字母時速度很慢,而且另一方面還產生複雜的識別錯誤,如斷句斷詞錯誤,因此與簡單地輸入地址的方法相比,這種方法的工作效率通常較低。離線編碼法(Off-line Codierung)由於以上提及的編碼技術中沒有一種在單純使用在線編碼時能達到較高的編碼效率,最近提出了一種離線編碼系統,如美國專利US PS 49 92 649中描述的那樣。這種系統中對不能識別地址的信件另外增加一種信息,即跟蹤識別信息(TID)。不能識別的信件單獨存放的同時,將這些信件的圖像信息傳送給操作員進行編碼,而對編碼過程沒有特別的時間限制。接著這些信件送到TID識別設備,TID與所輸入的地址信息連接在一起。在此基礎上,也可以將通常的條形碼分揀信息打在信件上,以便使相關信件可以象通常的OCR識別信件一樣地進行處理。雖然這種離線視頻編碼方法是一種有效的對所有地址信息進行編碼的方法,但是,不能識別地址的信件需要增加額外的處理能力,而且物流也相應複雜。
操作員輔助的OCR技術基本上也適合於中文字符書寫的信件,然而至今為止還沒有快速輸入這種文字的方法。
使這種情況更加惡化的是,這種方法對操作員的要求相對較高,需經必要的訓練,還需要具備一定的知識。
採用語音輸入裝置的視頻編碼方法可以加快發送信息的輸入速度,但只是把地址編碼時的時間問題推遲到選擇地址信息編碼候選者的階段。
在獨立的權利要求1和9中所給出的發明解決的問題是,採用語音輸入技術,用最少的人工選擇要求,對以地址形式書寫的發送信息,特別是在信件上用非拉丁字母文字手寫的地址信息進行快速編碼。
採用語音輸入的輔助方法,對從OCR處理法的不全面或不單義的結果中選出的候選者進行篩選,就能很快地自動識別出正確的候選者,並不需要操作員的幹預。這種方法特別適合於以中文字符書寫的信件的編碼過程。
本發明的有利實施形式可從各相關的權利要求中獲知。
根據權利要求2,用鍵盤輸入所顯示地址信息的數字部分從而降低處理要求,是一種有益的方法。
根據權利要求3,有利的是,為了利用語音識別技術選擇候選者,將OCR處理法確定的字符數目與語音識別的字符數目相比較,然後從OCR處理法確定的字符中挑選出其字符數超過統計確定的極限字符的候選者。此時按照權利要求4,可採用分段結果。
另一種根據權利要求5所述的有利選擇方法中,將OCR處理法用概率確定的字符與語音識別法候選者的字符進行位置上的比較,選擇出概率最大的超過極限值的候選者。
根據權利要求6,有利的是,順序執行以下步驟來確定街道名-檢查該街道名是否存在於一個地址庫/街道名目錄表中;-與OCR處理法確定的字符數目相比較,根據字符數目進行選擇;-對候選者的字符與OCR處理法確定的字符進行位置上的比較。
如果發送信息中的數字部分通過鍵盤輸入,則根據權利要求7和8,有利的是採用一個用於計數的OCR裝置來搜尋這些數字,並藉助其幫助確定地址、地址行的方向和名稱段在地址行中的位置。
下面藉助附圖對本發明作進一步說明,附圖中

圖1是本發明配置的示意框圖;圖2是中文字符信件的編碼過程的數據流程圖。
圖1示出的是實施本發明方法的信件分揀設備的示意框圖。OCR信件分揀器10由輸送裝置11組成,該裝置將信件從儲存室12中一封接一封取出,並以大約每秒鐘10封的速度送到高解析度圖像掃描器17進行信件圖像的獲取。接著信件被送到延遲傳送帶13上。信件通常在信封表面上有發送信息,特別是地址信息。OCR裝置20對從圖像掃描器17處獲得的信件圖像中的地址信息進行處理。若能完全處理,則啟動條形碼印表機14,在該信件上打上相應的條形碼,並送至分揀盒16繼續分揀。OCR裝置20由一個或多個微處理器21以及相應的存儲器22組成,存儲器用於存儲信件的圖像。OCR裝置還包括字典23,內含ZIP編碼、城市名、街道名以及其它與地址有關的信息。在處理顯示地址信息的圖像時,優選以特徵為目標減少從地址目錄表中抽取的條目數,從而形成一個分字典。然後抽取的每一條目按概率排序,以便在處理時產生作為正確識別地址的一系列數據。此外,OCR裝置還包含一個處理裝置30以及數個視頻編碼臺40,視頻編碼臺40直接或通過區域網(LAN)31與處理裝置30相連。優選將工作站用作視頻編碼臺。如果OCR裝置不能完全識別信件圖像,這幅圖像從OCR裝置20傳送到處理裝置30,處理裝置30控制一個TID條形碼印表機15,並將該幅圖像發送到任一臺視頻編碼臺40。TID條形碼印表機15在該信件打上標識碼TID,以便在以後使所處理的地址信息與信件本身連接在一起。在這種情況下,圖像處理優選離線進行,當然在延遲時間足夠長的情況下理論上也可以使用視頻編碼方式在線進行。在後一種情況下,TID信息也可以在一段時間後,也即在給定的時間內視頻編碼不能給出一個完全的處理結果時再打在信件上。
如圖所示,每個視頻編碼臺40都與一個用於鍵盤輸入的鍵盤50和一個語音輸入裝置(由話筒60和語音識別模塊70組成)連接在一起。
在處理裝置30中,從語音識別模塊70給出的候選者中進行挑選,從而完成本發明。
如圖2所示,在識別中文字符的地址信息時,另增加一臺離線的OCR裝置100雖然不是必須的,但卻是非常有利的。這臺離線OCR裝置會在識別結果不完全或不單義時再掃描一遍。若能給出單義的或完全的識別結果,則結果被接收110,編碼過程也相應結束。若不能得到這樣的結果,則相應的圖像會送到帶有鍵盤50、話筒60和語音識別模塊70的視頻編碼臺40。
操作員閱讀地址,並對著話筒60說出街道名,同時利用鍵盤50輸入門牌號碼。隨後在屏幕上顯示一幅新的圖像,顯示出不單義或不完全的自動處理的地址結果,並開始一個新的編碼過程。
根據圖2,語音識別模塊70給出三個候選者,分別由三個字符組成。在離線OCR裝置100不能給出完全的處理結果時同樣也確定三個字符,其中第一個字符的概率最高,第二個字符的概率稍低,而第三個字符是不確定的。然後處理裝置30中語音識別模塊70對候選者進行選擇120。首先藉助於處理裝置30檢查帶有給定門牌號碼301的三個候選者是否存在於街道名目錄表中。若存在,則接著進行字符數目的比較。語音識別所給出的三個候選者應該與離線OCR裝置100所給出的結果(3個鍵)相符合。
經這樣的比較後,三個候選者繼續保留在選擇範圍內,字符再從位置上按概率進行比較。
在最後的位置上,OCR裝置不能確認單個字符,因此在此位置不能進行選擇比較。
在第二位置,OCR裝置100確定出概率較低的字符,候選者2和3也同樣在第二個位置顯示這個字符。此時還不能作出選擇。通過對OCR裝置100高概率給出的處於第一個位置上具有高概率的字符與候選者相應的字符進行比較,得出結果,只有候選者2含有在第一個位置上的這個字符,因此將這個候選者作為單義的答案。若不能單義地選擇得到具有統計概率門限的候選者,則將此所尋找地址的圖像打上一個特殊的編碼130。此時用鍵盤輸入的數字(此處是門牌號碼301)可用於在OCR裝置100輸出的結果低於確定概率門限時重新實施OCR處理,在其中,利用所輸入的數字,確定出地址行的位置和方向以及街道名區域。
顯然,同樣可以利用語音輸入裝置輸入名稱和數字,再對利用OCR結果確定的候選者進行篩選或選擇。
權利要求
1.一種藉助視頻編碼臺識別信件發送信息的方法,在至少一個OCR裝置,包括在一個名稱目錄表進行比較,不能單義地自動處理髮送信息後,採集、數位化和存儲含有發送信息信件表面的圖像,並將其傳遞至視頻編碼臺,接著藉助由話筒和語音識別模塊組成的話音輸入裝置至少輸入在各個視頻編碼臺的屏幕上顯示的各發送信息中的名稱,其中,從OCR自動處理的不完全和/或不單義的結果中選擇語言識別的候選者。
2.根據權利要求1所述的方法,其中,用鍵盤輸入所顯示的發送信息中的數字部分。
3.根據權利要求1或2所述的方法,其中,在OCR處理法中以可能的精度確定字符的數目,並與語音識別候選者的相應字符的數目進行比較,並從OCR處理法確定的字符數目中挑選出其字符數目高於統計概率門限的候選者。
4.根據權利要求3所述的方法,其中,從OCR處理法的分段結果中確定字符數目。
5.根據權利要求1或2所述的方法,其中,將OCR處理法確定的並按概率輸出的字符與語音識別候選者的字符進行位置上的比較,選擇出超過概率門限的概率最大的候選者。
6.根據上述任一項權利要求所述的方法,其中確定街道名稱時,首先,從街道名目錄表中選擇出帶有所屬門牌號碼的街道名候選者;第二,與OCR處理法確定的字符數目進行比較,選擇出字符數目相符的候選者;第三,與OCR處理法確定的字符進行位置上的比較,選擇出符合條件的候選者。
7.根據上述任一項權利要求所述的方法,其中,藉助一個計數-OCR裝置,在地址表-ROI中盡力搜索用鍵盤輸入的發送信息中的數字部分,然後藉助所找到的數字,確定出所搜尋的地址行及其方向。
8.根據權利要求7所述的方法,其中,藉助所述計數-OCR裝置所找到的數字及其位置消息,確定地址行中的名稱段。
9.一種識別信件發送信息的配置,包括-一個獲取信件圖像的裝置(17),-一個對顯示發送信息的信件表面的圖像進行自動處理的OCR裝置(20、100),並在一個目錄表中進行比較,-一個對包含發送信息的信件表面的圖像進行視頻編碼的裝置,包括至少一個視頻編碼臺(40),它包括一個鍵盤(50)、一個顯示器和一個由話筒(60)和語音識別模塊(70)組成的語音輸入裝置,-一個處理裝置(30),它對視頻編碼裝置的輸入和輸出裝置和OCR裝置(20、100)之間的數據流進行監控,其中在處理裝置(30)中,從OCR裝置(20、100)給出的不完全和/或不單義的結果中選擇出語音識別模塊(70)的相應候選者。
10.根據權利要求9所述的配置,其中,在處理裝置(30)中,對OCR裝置(20、100)確定的字符數目與語音識別模塊(70)給出候選者的字符數目進行比較,從OCR裝置(20、100)給出的字符數目中挑選出其字符數目超過統計門限值的候選者。
11.根據權利要求9所述的配置,其中,在處理裝置(30)中,將OCR裝置(20、100)確定的並按概率輸出的字符與語音識別模塊(70)輸出相應的候選者的字符進行位置上的比較,選擇出超過概率門限的概率最大的候選者。
全文摘要
本發明涉及藉助視頻編碼臺識別信件發送信息的方法和配置,在OCR裝置(100)不能單義地自動處理髮送信息後,經採集、數位化和存儲的信件表面的圖像被發送到視頻編碼臺(40)。在此,通過語音輸入裝置(60、70)至少輸入名稱,然後從OCR不單義的自動處理結果中選擇出語音識別的候選者(120)。這一點的有利實現方法是,在考慮概率因素的前提下,將各自確定的字符數目與OCR裝置確定的字符數目相比較,或將候選者的字符與OCR裝置確定的字符進行位置上的比較。
文檔編號G06K9/00GK1268076SQ98808597
公開日2000年9月27日 申請日期1998年9月21日 優先權日1997年9月27日
發明者沃爾特·羅森鮑姆 申請人:西門子公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀