新四季網

編碼轉換方法

2023-08-06 06:14:31 3

專利名稱:編碼轉換方法
技術領域:
本發明涉及一種編碼轉換方法,尤其是應用於不同編碼方式的點陣字集間的轉 換。
背景技術:
在世界上不同的區域皆有當地通用的文字編碼方式,但這些不同的編碼方式 間,即使是相同的字符,卻常常無法正確地轉換為另一種編碼方式(例如日本的JIS, Shift-JIS,大陸的GB2312,臺灣地區的Big5等),尤其是一些衍生出來的編碼,可能不同的 出版社或者一些公司會常年按照自己的使用需求增補一些編碼。自從Unicode的出現解決了不同區域的統一編碼問題,使用Unicode作為數據編 碼已經是一種趨勢。然而目前有不少公司仍擁有一部分早期的產品或數據採用非Unicode 編碼,這些產品及數據有很高的機率無法對應Unicode完成轉換。針對這些無法轉換為Unicode的編碼方式,目前常見的作法是以整個字符進行全 圖比對。然而,不同的編碼之間,其所採用的字型差異可能相當大,雖然採用字型相近的字 集進行比對,其比對相當不易,再者,圖形符號字符的轉換相較於文字字符更是不易。

發明內容
本發明為解決背景技術中存在的上述技術問題,而提出編碼轉換方法。本發明的技術解決方案是本發明為一種編碼轉換方法,用於不同編碼點陣字集的 辨識及轉換,其特殊之處在於該方法包含以下步驟1)讀入第一字集,並選取第一字符;2)讀入第二字集,並選取第二字符;3)獲取屬於第一字符的第一筆劃;4)獲取屬於第二字符的第二筆劃;5)比對第一字符的第一筆劃及第二字符的第二筆劃;6)輸出比對結果。上述步驟3)和步驟4)中獲取筆劃的具體步驟如下a)在各字符的位圖中,掃描包含各字符的有效點的矩形範圍;b)在矩形範圍中建立二維坐標;c)將矩形範圍分四個象限;d)根據由上至下,由左至右的原則,分別獲取各字符的筆劃。上述步驟d)中,根據由上至下,由左至右的原則是在位圖中,按照至上而下、由左 至右的規則,由最高及最左點開始作為起點。上述步驟d)中,獲取各筆劃的步驟包括dl)由起點將掃描方向區分成八個方向上,下,左,右,左上,左下,右上,右下;d2)以起點為中心,沿緊鄰八個方向掃描是否有鄰近點,由鄰近點方向推進至無連接鄰近點;d3)完成筆劃的掃描,記錄筆劃的基本筆劃分類及所在象限位置。上述步驟d2)中當掃描時發現多個鄰近點,則朝向原前進方向掃描前進。上述步驟d)之後還包括步驟e)獲得各筆劃的基本筆劃類型及所在的象限位置。上述步驟5)的具體步驟如下5. 1)建立容許值,界定獲取第一筆劃與第二筆劃始末以及轉彎處可容許的雜點數量;5. 2)忽略雜點而不進行比對。上述步驟幻中若第一字符與第二字符相符合,則在步驟6)輸出第二字符作為比 對結果。上述步驟幻中若第一字符與第二字符不符合,則重新執行步驟4)及步驟幻,選取 下一個第二字符進行比對。上述第一字符與第二字集比對無相對應第二字符,則輸出第一字符至轉換錯誤 表。通過本發明提供的,僅有少數的第一字符會無法找到對應的第二字符,而被記錄 於轉換錯誤表。僅有記錄在轉換錯誤表的第一字符需要通過人工比對,不需以人工逐字比 對每個第一字符與每個第二字符。根據本方法產生的編碼轉換表,可快速地將以第一字集 記錄的電子數據,轉換為以第二字集記錄的電子數據。


圖1為本發明流程圖2為本發明八方向筆劃搜尋方法示意圖3為本發明筆劃獲取方法示意圖(一);
圖4為本發明筆劃獲取方法示意圖(二);
圖5為本發明筆劃獲取方法示意圖(三);
圖6為本發明筆劃獲取方法示意圖(四);
圖7為本發明筆劃獲取方法示意圖(五);
圖8為本發明筆劃獲取方法示意圖(六);
圖91為本發明筆劃比對方法示意圖(一);
圖92為本發明筆劃比對方法示意圖(二);
圖93為本發明筆劃比對方法示意圖(三);
圖94為本發明筆劃比對方法示意圖(四);
圖95為本發明筆劃比對方法示意圖(五);
圖96為本發明筆劃比對方法示意圖(六)。
其中,110/120/130/140/150/160-第一字符「機」的第一筆210/220/'230/240/250/260-第二字符「初」的第二筆劃,310/320/330/340/350/360-第二字符「 機」的第二筆劃,122/122/132/142-筆划起點,122/122/132/142-筆劃終點;
具體實施例方式
本發明應用於轉換裝置,以進行不同編碼字集的辨識及轉換。基於字符位圖,該轉換裝置比對不同字集中的字符,以找出不同字集中互相對應的字符。參見圖1,本發明利用轉換裝置讀入第一字集,並選取第一字符( 印10),接著讀 入第二字集,並選取第二字符(Step 20)。其中第一字集中包含多個第一字符,第二字集中 包含多個第二字符。接著轉換裝置從第一字符中獲取屬於第一字符的一個或多個第一筆劃,並獲取第 二字符的一或多個第二筆劃,以根據第一筆劃及第二筆劃,比對第一字符的第一筆劃及第 二字符的第二筆劃(St印30)。基於方便人們用筆書寫,文字型態都是基於方便書寫的原則所創造,因此每一個 字符都有其書寫順序,即筆順。漢字書寫順序通常如下先橫後豎、先左後右、先上後下,先 外后里、先撇後捺等基本原則。而漢字的構成可以按照邊旁部首拆解,而邊旁部首還可以按 照筆劃肢解。基於前述筆順,轉換裝置在字符的位圖中,掃描包含字符的有效點的矩形範圍,從 而在該矩形範圍中建立二維坐標;接著按照二維坐標將該矩形範圍分四個象限。依照中文 書寫習慣「由上至下,由左至右」的原則,依照筆順分別獲取該字符的筆劃。獲取筆劃的原則在於,能一筆書寫下去,不會使用二筆;所有的筆劃構成中儘量先 直行後拐彎。所有筆劃一定是按照一個方向或者筆順由起點書寫至終點,不會先兩頭後中 間,或由中間朝兩頭書寫。筆劃依據漢字筆劃原則,可大致分類為下列可一筆連成的基本筆劃
點、圓點,長點,頓點,甩點,上挑點,短橫點,短豎點橫上仰橫,下斜橫,長橫,拱弧橫,短橫豎長豎,短豎,左傾豎,右傾豎,左彎豎,右彎豎撇短撇,長撇捺真捺,直捺,拖尾捺,帶挑捺,回鋒捺挑點挑、斜挑、豎挑、撇挑折圓角折,尖角折,直角折鉤藏鉤,長尾鉤,平鉤,圓鉤依據上述筆劃分類,轉換裝置先辨識各字符中,各筆劃所屬的基本筆劃分類。在找尋第一個筆劃時,在位圖中,按照至上而下、由左至右的規則,由最高最左點 開始作為第一個起點111,由起點11連續擴展掃描筆劃。筆劃的掃描順序為由上而下、由左 而右、先撇後捺進行掃描順序。掃描的重點在於取得每一筆劃所屬的基本筆劃分類及所在 的象限位置,掃描順序依循如圖2的米字型態。圖2所示為簡體中文「機」字符的局部示意圖,轉換裝置由起點111開始,將掃描方向區分成8個方向上B,下F,左H,右D,左上A,左下G,右上C,右下E。若以起點111為 中心,8個方向與起點111恰可形成漢字的米字。轉換裝置找出起點111之後,以起點111為中心,沿緊鄰八個米字方向掃描是否有 鄰近點,如果有則朝向該鄰近點掃描前進,推進至無連接鄰近點,即完成該筆劃的掃描,記 錄該筆劃的基本筆劃分類及所在象限位置。若掃描時發現多個鄰近點,朝向原前進方向掃 描前進。以下以簡體中文「機」字符,說明每個字符的完整掃描過程。參見圖3所示,轉換裝置先找到最左最上的起點111,並得知起點111位於二維坐 標中的第二象限。接著轉換裝置以起點111為中心,沿緊鄰八個米字方向掃描是否有鄰近 的點;如果發現鄰近點,則朝該鄰近點掃描前進,且在具有多個鄰近點時,以原前進方向優 先掃描前進。因此,圖3可持續向下沿I方向推進至無連接像素,此第一個筆劃101的終點 112在二維坐標第三象限,為「丨」筆劃,則完成第一個筆劃101的記錄,紀錄第一個筆劃101 的基本筆劃分類為「丨」筆劃,所屬象限為第二象限至第三象限。參見圖4所示,回溯到前一「丨」筆劃的掃描歷程中段,在「丨」筆劃的中間位置,其 中一點具有多個鄰近點,即對於該點而言,其米字範圍內有非向下的掃描方向。按照筆劃從 左到右的順序,優先往左相鄰點推進,找到第二個筆劃102的起點121,其位於二維坐標第 二象限。按照筆劃從左到右的順序,往右沿J方向推進至終點122,得到第二個筆劃102為 第二象限到第二象限的「一」,完成第二個筆劃102的記錄,紀錄第二個筆劃102的基本筆劃 分類為「一」筆劃,所屬象限為第二象限至第二象限。參見圖5所示,同樣回溯到前一「丨」筆劃的掃描歷程,回溯到米字範圍內下一個 有非向下的像素位置,同樣依據前述掃描過程找出第三個筆劃的基本筆劃分類為「)」,其 所屬象限位置為第二象限至第三象限。此時依據所掃描的點發現,因為起點131和終點132 距離筆劃中心不大於2個像素點。此短筆劃在不同的字集中,可能會有位於不同象限的情 況,若依照原字集所得的象限置在另一個字集中搜尋,可能會漏失存在的筆劃,造成比對不 合。因此,對於短筆劃所屬的象限位置,需要抖動假設,加大比對象限位置,上下相鄰的二象 限的組合,皆列為短筆劃所屬的象限位置,因此第三個筆劃103應記錄為下列三種可能第 二象限至第二象限的「 j,,;第二象限至第三象限的「 j,,;第三象限至第三象限的「 J 」。參見圖6,同樣回溯到前一「丨」筆劃的掃描歷程,回溯到米字範圍內下一個有非向 下的像素位置,同樣依據前述掃描過程找出第四個筆劃104的基本筆劃分類為「、」。同樣 地,因為起點141和終點142距離筆劃中心不大於2個像素點,所以需要抖動假設,將第四 個筆劃記錄為下列三種可能第二象限至第二象限的「、」;第二象限至第三象限的「、」;第 三象限至第三象限的「、」。參見圖7,剩餘部分繼續尋找最左最上點,並依據相鄰位置往下搜尋。找到第五個 筆劃105 第一象限至第三象限的「 J 」。參見圖8,回溯到米字範圍內下一個有非向下的像素位置,往非下方的其它方向推 進,向右方依一筆可能最長連貫原則推進至最右,再掃描發現向下有可推進的像素點,再繼 續推進,依此方法推進至無連續像素點為止,獲取到第六筆第一筆劃106 「乙」。前述筆劃獲取方法,分別對第一字符及第二字符執行,取得第一字符的第一筆劃 及第二字符的第二筆劃,之後再比對第一筆劃及第二筆劃(St印30)。
如前所述,不同字集之間採用的字符,會有微小差異,並不會完全相同。特別是在 筆劃的起始點、終點及轉彎處常會有裝飾字型用的雜點,因此在比對第一字符及第二字符 時,需先建立容許值(St印31),限定筆劃在起始點、終點及轉彎處可容許忽略一個像素半 徑內的修飾用雜點,例如圖9. 1中的第二字符第二筆划起始點處較第一筆劃多出一個像素 的修飾點,因為在容許值範圍內,故可視兩者為相同筆劃「丨」;同樣地,如圖9. 6中的第一筆 劃與第二筆劃可視為相同筆劃「乙」。接著將此第一字符的第一筆劃與第二字符的第二筆劃逐筆比對(St印30),比對方 法詳述於後。例如第一字符「機」與第二字符「初」,依筆順逐筆比對。先檢查是否有對等的第二字符(St印40),若有對等的第二字符則輸出第二字符 (Step 41),本實施例中第二字符帶有裝飾字型用的雜點,比對之後發現第二字符「初」並非 對等的第二字符,接著代入容許值限制再重新比對筆劃(St印42),比對歷程如下說明。參見圖9.1所示,第一個第一筆劃110 「 [ 」依容許值限制與第一個第二筆劃 210 「 [ 」的基本筆劃類型及所屬象限位置相符。參見圖9. 2所示,第二個第一筆劃120 「一」依容許值限制與第二個第二筆劃 220 「一」的基本筆劃類型及所屬象限位置相符。參見圖9. 3所示,第三個第一筆劃130 「 J 」依抖動假設,可以落在三種象限位置, 而其基本筆劃類型為「)」;而第三筆第二筆劃230的基本筆劃類型為「 j 」,且其所屬象限 位置符合前述第三筆第一筆劃130的三種象限位置其中之一,因此第三個第一筆劃110與 第三個第二筆劃相符。參見圖9.4所示,同樣地,依據抖動假設,,第四個第一筆劃140的基本筆劃類型 「、」及所屬象限位置其中之一與第四個第二筆劃MO的基本筆劃類型「、」及所屬象限位 置相符。參見圖9. 5所示,第五個第一筆劃150與第五個第二筆劃250不相符。由於比對之後發現第一字符與所指定的第二字符並不相符,因此再檢查第二字集 中的所有第二字符是否已比對完畢(St印43),若已比對完畢此第一字符在第二字集中仍 無找尋到對等的第二字符,則將此第一字符輸出至轉換錯誤表(St印44),此轉換錯誤表包 含所有無對等第二字符的第一字符,以利執行人工校正程序;若尚有未比對的第二字符則 回溯至乂印20讀取下一第二字符並重複執行比對程序,如後段所述。第一字符「機」與下一個第二字符「機」,依筆順逐筆比對。先檢查是否有對等的第二字符(St印40),本實施例中第二字符帶有裝飾字型用 的雜點,比對之後發現第二字符「機」並非對等的第二字符,接著代入容許值限制再重新比 對筆劃(Step 42)。參見圖9.1所示,第一個第一筆劃110 「 [ 」依容許值限制與第一個第二筆劃 310 「 [ 」的基本筆劃類型及所屬象限位置相符。參見圖9. 2所示,第二個第一筆劃120 「一」依容許值限制與第二個第二筆劃 320 「一」的基本筆劃類型及所屬象限位置相符。參見圖9. 3所示,第三個第一筆劃130 " J 」依容許值限制與第三個第二筆劃 330 「 J 」的基本筆劃類型及所屬象限位置相符。
參見圖9. 4所示,第四個第一筆劃140 「、」依容許值限制與第四個第二筆劃 340 「、,,的基本筆劃類型及所屬象限位置相符。參見圖9. 5所示,第五個第一筆劃150 " J 」依容許值限制與第五個第二筆劃 350 「 J,,的基本筆劃類型及所屬象限位置相符。參見圖9. 6所示,第六個第一筆劃160 「乙」依容許值限制與第六個第二筆劃 360 「乙」的基本筆劃類型及所屬象限位置相符。第一字符中每個第一筆劃皆在第二字符中找到相符合的第二筆劃之後,此第二字 符即為第二字集中與第一字符相應的第二字符,將此第二字符輸出(St印41)。最後,檢查第一字集中的所有第一字符是否已比對完畢(St印50),若尚有未比對 的第一字符則讀取下個第一字符並重複執行前述Step 10至Step50筆劃獲取及比對程序。當所有第一字符已比對完畢後,即可得到第一字集的第一字符,與第二字集的第 二字符的對應關係,以製作成編碼轉換表。通過本發明步驟,僅有少數的第一字符會無法找 到對應的第二字符,而被記錄於轉換錯誤表。僅有記錄在轉換錯誤表的第一字符需要通過 人工比對,不需以人工逐字比對每個第一字符與每個第二字符。根據本方法產生的編碼轉 換表,可快速地將以第一字集記錄的電子數據,轉換為以第二字集記錄的電子數據。
權利要求
1.一種編碼轉換方法,用於不同編碼點陣字集的辨識及轉換,其特徵在於該方法包 含以下步驟1)讀入第一字集,並選取第一字符;2)讀入第二字集,並選取第二字符;3)獲取屬於第一字符的第一筆劃;4)獲取屬於第二字符的第二筆劃;5)比對第一字符的第一筆劃及第二字符的第二筆劃;6)輸出比對結果。
2.根據權利要求1所述的一種編碼轉換方法,其特徵在於所述步驟幻和步驟4)中 獲取筆劃的具體步驟如下a)在各字符的位圖中,掃描包含各字符的有效點的矩形範圍;b)在矩形範圍中建立二維坐標;c)將矩形範圍分四個象限;d)根據由上至下,由左至右的原則,分別獲取各字符的筆劃。
3.根據權利要求2所述的一種編碼轉換方法,其特徵在於所述步驟d)中,根據由上 至下,由左至右的原則是在位圖中,按照至上而下、由左至右的規則,由最高及最左點開始 作為起點。
4.根據權利要求3所述的一種編碼轉換方法,其特徵在於所述步驟d)中,獲取各筆 劃的步驟包括dl)由起點將掃描方向區分成八個方向上,下,左,右,左上,左下,右上,右下; d2)以起點為中心,沿緊鄰八個方向掃描是否有鄰近點,由鄰近點方向推進至無連接鄰 近點;d3)完成筆劃的掃描,記錄筆劃的基本筆劃分類及所在象限位置。
5.根據權利要求4所述的一種編碼轉換方法,其特徵在於所述步驟d2)中當掃描時 發現多個鄰近點,則朝向原前進方向掃描前進。
6.根據權利要求2或3或4或5所述的一種編碼轉換方法,其特徵在於所述步驟d) 之後還包括步驟e)獲得各筆劃的基本筆劃類型及所在的象限位置。
7.根據權利要求1所述的一種編碼轉換方法,其特徵在於所述步驟幻的具體步驟如下5. 1)建立容許值,界定獲取第一筆劃與第二筆劃始末以及轉彎處可容許的雜點數量; 5. 2)忽略雜點而不進行比對。
8.根據權利要求7所述的一種編碼轉換方法,其特徵在於所述步驟幻中若第一字符 與第二字符相符合,則在步驟6)輸出第二字符作為比對結果。
9.根據權利要求7所述的一種編碼轉換方法,其特徵在於所述步驟幻中若第一字符 與第二字符不符合,則重新執行步驟4)及步驟幻,選取下一個第二字符進行比對。
10.根據權利要求9所述的一種編碼轉換方法,其特徵在於所述第一字符與第二字集 比對無相對應第二字符,則輸出第一字符至轉換錯誤表。
全文摘要
本發明提供一種編碼轉換方法,用於不同編碼點陣字集的辨識及轉換。根據該方法,轉換裝置先讀入第一字集,並選取第一字符,接著讀取讀入第二字集,並選取第二字符。之後,轉換裝置分別獲取屬於第一字符的第一筆劃及獲取屬於第二字符的第二筆劃。最後,轉換裝置比對第一字符的第一筆劃及第二字符的第二筆劃,以確定第一字符及第二字符是否將對應,以輸出比對結果。當完成所有第一字符比對後,即可製作出第一字符及第二字符對應關係的編碼轉換表。
文檔編號G06F17/22GK102096662SQ20101057461
公開日2011年6月15日 申請日期2010年12月6日 優先權日2010年12月6日
發明者鍾輝, 陳淮琰 申請人:無敵科技(西安)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀