新四季網

一種無字庫的漢字智能生成方法

2023-05-20 00:04:46

專利名稱:一種無字庫的漢字智能生成方法
技術領域:
本發明屬於信息技術領域,涉及一種計算機的無字庫漢字智能生成方法。
背景技術:
目前,各種計算機作業系統中的中文信息處理採用的是漢字字庫方式。存在著(1) 難以建立長期穩定的漢字信息化標準;(2)不符合漢字的造字規律,影響對文化的傳承;與漢字教學脫節,極大地浪費了社會資源;(4)無法很好的滿足整個社會的應用需求, 許多漢字無法進入計算機;(5)信息熵高,是效率最低的文字信息系統。針對漢字字庫存在的弊端,許多有識之士探索著解決的途徑和方法,對漢字生成 技術進行了研究與探討,一些運用筆畫或組件來生成漢字的方法應運而生。公開號為CN 1277377A,
公開日為2000年12月20日的中國發明專利公開了一種 「漢字字形自動生成方法及其裝置」。該發明將漢字表示成以漢字部件為操作數,將漢字部 件設計成512個並分成獨立、左右、上下和包圍4類。部件間結構關係為基於運算符號的 數學表達式,分別用lr\ud\ld\lu\ru\le\re\ue\de\we十種算符來表示部件之間的結構關 系。將上述部件編碼和結構關係存入專用控制卡中,從專用控制卡中讀取工作環境參數,並 抽取漢字表達式,再按漢字筆畫抽取方法抽取所述512個漢字部件筆畫端點坐標、判斷筆 畫類型,生成漢字框架。筆畫生成採用B樣條函數,形成漢字字形。該專利對部件本身的結 構來進行分類(4類),又對部件之間的關係(結構)來進行描述,既不符合漢字學的思想, 又繁瑣重複;生成漢字採用筆畫,複雜繁難,仍然依賴於漢字字庫。公開號為CN 1294357A,
公開日為2001年5月9日的中國發明專利公開了一種「漢 字筆畫造字法」。該發明以形聲字的造字規律,由五種基本筆畫組成漢字的原理,採用遞歸 定義算法,將漢字歸納為52個中文字母字,並用全息漢字表達式來自動生成各種字體和字 型。但52個中文字母字沒有漢字文化依據,筆畫組成原理繁難;遞歸算法和全息表達式雖 然可以描述漢字,但複雜繁難,難以推廣使用,而且仍然需要漢字字庫。已授權發明專利「漢字電子化中的拼部組字方法」(CN1253781C)所公開的是一種 智能造字的方法,該方法認為漢字由漢字成分組成,所有漢字成分都是漢字基元在不同漢 字結構中的拓撲變換;而漢字基元是漢字的基本元素,主要由象形指事字及其符號構成,反 映了漢字的表意特徵。而發明人的另一發明專利申請「一種基於結構和基元的漢字編碼輸 入方法」(CN101551711A)在前一專利CN1253781C的基礎上解決了漢字結構和基元編碼問 題,提出漢字可劃分成整體、左右等17種結構。漢字是方塊文字,漢字及其基元都可以作出 其外接矩形。漢字成分(即漢字各級結構及各個基元)構成的外接矩形之間的幾何圖形位 置是漢字的結構。與拼音文字(word)中字母的大小和形態一致不同,同一基元在不同漢字 中的大小、位置和形態都可能不同。雖然通過拓撲變換可以解決同一基元在不同漢字中的 大小、位置和形態有所不同的問題,但在CN101551711A專利申請中尚未解決如何根據編碼 來實現智能造字中的上述變換參數的推導問題。

發明內容
本發明的目的在於克服現有技術的缺點與不足,提供一種無字庫的漢字智能生成 方法,解決了如何根據基於「一種基於結構和基元的漢字編碼輸入方法」(CN101551711A)中 未能解決的通過輸入漢字編碼來確定組成漢字的各個組成成分的外接矩形的定位尺寸和 矩形尺寸的問題,對編碼所規定的基元進行拓撲變換而實現智能造字。漢字是不斷發展的 大字符集,新的漢字將會不斷產生,本發明是通過已有漢字的基元變換知識來推求新出現 的漢字中的基元變換知識,因此可以沒有字庫而只有基元庫,通過輸入的漢字編碼自動地 生成漢字,從而實現真正意義上的智能造字。本發明通過以下技術方案來實現上述目的本無字庫的漢字智能生成方法,通過 漢字的編碼自動地生成漢字,這一過程包括以下步驟Si、根據輸入的漢字編碼,獲得漢字的結構樹;S2、根據漢字的結構樹,構造由漢字各級結構及各個基元的外接矩形組成的拼 圖;S3、確定漢字各級結構的外接矩形的的位置和形狀;確定各個基元在目標漢字中 的外接矩形的位置和形狀;S4、根據步驟S3得到的各個基元在目標漢字中的外接矩形的位置和形狀,確定拓 撲變換係數;S5、利用拓撲變換方法和步驟S4獲得的拓撲變換係數,將漢字基元變換到目標漢 字中去,完成目標漢字中各級結構及各個基元的變換。步驟S3所述各個基元在目標漢字中的外接矩形為歸一化外接矩形
;其中w、Η分別為漢字的高和寬,並以漢字左上角為原點建立一個直角
坐標系,向右的方向為X軸,向下的方向為y軸,X、y為基元左上頂點的坐標,W.h為基元的 尚禾口寬。步驟S3所述確定各個基元在目標漢字中的外接矩形的位置和形狀為首先確定 漢字基元在漢字中的最大可能外接矩形;然後以所述最大可能外接矩形為基準,調整漢字 基元的大小和縱橫比,使漢字基元位於所述最大可能外接矩形的中間位置。步驟S5所述的拓撲變換方法為仿射變換方法,仿射變換的定義為 其中,矩陣A表示線性變換,主對角線上的元素aA、dAdA分別表示源圖像在x、y方 向上的縮放比例,次對角線上的元素bA、cA分別表示在x、y方向上旋轉因子,向量t的分量 tx、ty分別表示在映射空間χ、y方向上的平移量。步驟Sl所述的漢字編碼由基元編碼和結構編碼組成,每一個基元配置在一個由 兩個按鍵排列組合而成的基元鍵值上,取相應的基元鍵值作為基元編碼,結構編碼根據漢 字的基本結構獲得;所述的漢字基本結構包括整體結構;左上包圍結構、左下包圍結構、 右上包圍結構、上三包圍結構、下三包圍結構、左三包圍結構和全包圍結構;架嵌結構、互嵌 結構;品字結構、雙重疊結構;左右結構、左中右結構、多列結構;上下結構、上中下結構和 多排結構。
在所述的無字庫的漢字智能生成方法中,從各個基元的標準外接矩形R0 = (x0, y0 w0, h0)變換到步驟S3所述的各個基元在目標漢字中的外接矩形R= (x,y,w,h),其拓 撲變換係數為
其中,XO為X軸方向平移量,XS為寬度壓縮量,yo為y軸方向平移量,ys為高度 壓縮量。本發明通過對漢字結構特點的分析,將求解漢字基元映射的任務分解為五個步驟 進行根據輸入的漢字編碼通過推理獲得漢字的結構樹,通過遍歷漢字的結構樹將多級結 構的漢字分解成一系列一級結構的漢字,通過分析漢字組成成分(即漢字基元)的外接矩 形拼圖來確定構成的漢字組成成分外接矩形的大小和位置,通過漢字基元的標準外接矩形 到漢字基元在目標漢字中的外接矩形的變換來獲取漢字基元的變換係數,通過對漢字基元 進行拓撲變換得到漢字,從而實現智能造字。本發明相對於現有技術具有如下的優點及效 果1、根據漢字輸入的編碼通過推理獲得漢字的結構樹,通過遍歷漢字的結構樹構成 以獲取漢字成分外接矩形的矩形尺寸和該矩形的位置尺寸,通過基元尺寸和變換目標的外 接矩形尺寸以及已有漢字基元拓撲變換知識推求需要變換基元在造字變換中的基元變換 知識,實現拓撲變換而實現智能造字。不依賴漢字字庫,只要建立有限的漢字基元庫就可以 造出近乎無限的漢字。2、利用漢字以象形、指事字及其符號作為漢字基元(基本元素)來「造」字,凸現 漢字的「表意」特徵,傳承了漢字文化。3、造字過程的本質是「寫字」而不是「選字」,體現了用電子工具和電子介質作為書 寫介質和工具的書寫過程,傳承了漢字文化。4、拓撲變換的過程是計算機後臺完成的,人工輸入漢字的過程完全利用識字教育 的知識進行,實現了與識字教育的無縫連接。5、漢字基元只有1085個,漢字結構只有18種,可以建立長期穩定的標準,漢字不 斷髮展,而結構、基元和編碼標準則長期穩定不變;因此本發明具有良好的穩定性,能很好 地適應漢字的發展變化。


圖1是漢字樹形結構及其符號化表示;圖2是漢字「蘑」的外接矩形拼圖;
圖3是漢字基元外接矩形示意圖4是整體型漢字樹形結構;圖5是包圍向前型漢字樹形結構;圖6是重疊型漢字樹形結構;圖7是橫列縱排型漢字樹形結構;圖8是漢字《 _,,的結構樹;圖9是漢字 _,,的外接矩形拼圖;圖10是漢字《 ,,的三級結構推導圖;圖11是漢字 _,,的二級結構推導圖;圖12是漢字《 _,,的一級結構推導圖;圖13是漢字 _,,的最終推導效果圖;圖14是其它一些漢字的推導效果圖。
具體實施例方式下面結合實施例及附圖對本發明作進一步詳細的描述,但本發明的實施方式不限 於此。實施例本發明的基本依據是基於「一種基於結構和基元的漢字編碼輸入方 法」(CN101551711A)所確定的17種漢字的基本結構,將漢字的基本結構拓展成18種整體 結構;包圍結構7種(左上包圍結構、左下包圍結構、右上包圍結構、上三包圍結構、下三包 圍結構、左三包圍結構和全包圍結構);鑲嵌結構2種(架嵌結構和互嵌結構);重疊結構2 種(品字結構、雙重疊結構);橫排結構3種(左右結構、左中右結構和多列結構)和縱排 結構3種(上下結構、上中下結構和多排結構)。漢字的結構可由上述基本結構組成層次結 構,即漢字可具有一級或多級結構,每級結構包括一個或多個基元並由漢字編碼唯一確定; 漢字編碼由結構編碼和基元編碼組成,每一個基元配置在一個由兩個按鍵排列組合而成的 基元鍵值上,取相應的基元鍵值作為基元編碼。本發明的輸入是漢字編碼,輸出是與該輸入編碼相對應的漢字,實施的步驟為第一步,根據輸入的漢字編碼,獲得漢字的結構樹。根據上述漢字編碼信息,可以完全確定漢字的結構級數、每級漢字的結構及該結 構所包含的基元。因此,就可以畫出該漢字的結構樹。例如,漢字「蘑」,其用符號表示的樹 形結構如圖1所示。對漢字的結構樹按深度優先先根遍歷就得到了漢字的編碼;反之,從漢 字的編碼也可以得到漢字的結構樹。第二步,根據漢字的結構樹,構造由漢字各級結構及各個基元的外接矩形組成的 拼圖。漢字是方塊文字,漢字和漢字基元都可以以其外接矩形拼組成一個字形,例如漢 字「蘑」,其外接矩形拼圖如圖2所示。第三步,確定漢字各級結構的外接矩 的的位置和形狀;確定各個基 在目標漢 字中的外接矩形的位置和形狀。
設漢字的高和寬分別為W和H,以其左上角為原點,向右的方向為χ軸,向下的方向 為y軸,則可以建立一個直角坐標系。由於漢字基元都是從漢字中截取的,因此該坐標系也 適用於漢字基元。漢字基元的外接矩形定義為一個四元組R = (X,y, w, h) χ e
, y e
, w e
,h e
其中χ和y表示漢字基元外接矩形的左上頂點坐標,w和h分別表示漢字基元外 接矩形的寬和高。一個漢字基元的外接矩形如圖3所示。同一個漢字中漢字基元的外接矩形信息會隨漢字字號的改變而改變,但漢字 基元在漢字中的拓撲結構是不變的,為了統一分析,需要將漢字基元的外接矩形歸一 化。以圖3為例,對其中漢字基元的外接矩形進行歸一化處理,得到的外接矩形為
艮=(·^,"^,^·,!),稱為漢字基元的歸一化外接矩形。後文中出現的外接矩形,如不特別 WHWH
指明,均指歸一化外接矩形。獲取漢字基元拓撲變換係數的方法如下假設某一個漢字基元的標準外接矩形為 R0= (xyy。^,。,該漢字基元經過變換後,其外接矩形為R= (X,y,w,h),那麼從Rtl到R 的拓撲變換係數為 其中,X0為χ軸方向平移量,xs為寬度壓縮量,yo為y軸方向平移量,ys為高度 壓縮量。漢字基元的標準外接矩形是通過掃描漢字基元的標準圖片獲得的,漢字基元的標 準圖片是事先由人工篩選和製作的。於是,只要知道一個漢字基元的標準外接矩形信息和其在某一漢字中的外接矩形 信息,就可以確定該漢字基元在這個漢字中的拓撲變換係數。由於漢字基元的標準外接矩 形都可以獲得,因此求漢字基元拓撲變換係數的問題就轉化為求漢字基元在漢字中的外接 矩形。對於漢字基元在漢字中的外接矩形,可以通過對漢字基元圖像和漢字圖像進行模式匹配來獲取相應漢字基元在漢字中的變換 數據,將這些變換數據加以整理,歸納成漢字基元變換知識,並建立知識庫與推理機。使用 時根據輸入漢字編碼中的結構基元信息,推導出漢字基元在漢字中的外接矩形,再利用公 式(1)求出漢字基元的拓撲變換係數。本發明分兩步確定漢字基元在目標漢字中的外接矩形的位置和形狀(即外接矩 形的定位尺寸和形狀尺寸)首先確定漢字基元在漢字中的最大可能外接矩形,然後以這 個最大可能外接矩形為基準,調整漢字基元大小,並將漢字基元調整到這個最大可能外接 矩形中的合適位置,即調整漢字基元的大小和縱橫比,使漢字基元位於該最大可能外接矩
形的中間位置。基元在漢字中的縱橫比是反映基元在漢字中形狀的重要參數,是基元的高與寬之 比。設漢字基元的外接矩形為R = &,7,《,11),要將漢字基元的縱橫比調整為1~,調整後的 外接矩形為i,則在調整基元的縱橫比時,有三種調整方法保持寬不變,則i = (x,_y,w』w.r)保持高不變,則R = {x,y,—,h)
r減小大的量,則 居中操作是指將一個外接矩形在某一坐標軸方向上調整到另一個外接矩形的中 間位置。設兩個外接矩形分別為R1和R2,那麼將R1在X軸方向上居中到R2中,得到的新的 外接矩形R的參數為 將R1在Y軸方向上居中到R2中,得到的新的外接矩形R的參數為 將隊同時在XY軸方向上居中到R2中,等價於先將R1在X軸方向上居中到R2,再 將R1在Y軸方向上居中到R2中。平鋪操作是指將一個外接矩形在某一坐標軸方向上擴展或壓縮到另外一個外接 矩形中。設兩個外接矩形分別為R1和R2,那麼將R1在X軸方向上平鋪到R2中,得到的新的 外接矩形為R = (x2,Y1, w2, Ii1)(7)將R1在Y軸方向上平鋪到R2中,得到的新的外接矩形為R = (X1, j2, W1, h2)(8)將隊同時在XY軸方向上平鋪到R2中,得到的新的外接矩形為R =R2(9)
在智能造字系統中,可以將漢字按結構分為一級結構漢字和多級結構漢字,對於 多級結構漢字,可以將其各級子結構當作一個新的漢字來看待,從而將求解多級結構漢字 中各漢字基元拓撲變換係數的任務分解為對一系列一級結構漢字的求解。以「胡」為例,其 包含兩級結構,第一級結構是左右,第二級結構是上下,用上面方法可以將對「胡」的求解分 解為由「十」和「 口 」組成的「古」的求解和對由「古」和「月」組成的「胡」的求解。但是在 對「古」求解過程中所確定的「十」和「 口 」的外接矩形都是相對「古」而不是相對「胡」的, 因此必須通過變換,將「十」的「 口,,的外接矩形變換為相對「胡」的。對於兩個外接矩形R1 和 R2,若=X1 ( x2, Y1 ( J2, X^w1 彡 x2+w2, Y^h1 彡 y2+h2,則 稱R1包含R2,或R2包含於R10若R2包含於R1,則R2到R1的相對外接矩形為 若外接矩形R1包含R2, R2包含R3,且R2到R1的相對外接矩形為R21,R3到R2的相
對外接矩形為R32,那麼R3到R1的相對外接矩形的四個參數分別為 『 這樣,知道了 「十」和「口」相對於「古」的外接矩形,以及「古」相對於「胡」的外接 矩形,就可以根據公式⑶計算出「十」和「口」相對於「胡」的外接矩形。第四步,根據第三步得到的各個基元在目標漢字中的外接矩形的位置和形狀,確 定拓撲變換係數。變換的方法符合拓撲變換的要求即可,以下將採用仿射變換作為拓撲變換方法, 本發明採用的方法包括但不限於仿射變換。設W表示圖像,χ表示該圖像中的一個點。則 仿射變換的定義為 其中,矩陣A表示線性變換,主對角線上的元素aA、dA分別表示源圖像在χ、y方 向上的縮放比例,次對角線上的元素bA、cA分別表示在χ、y方向上旋轉因子,向量t的分 量tx、ty分別表示在映射空間χ、y方向上的平移量。由於漢字是方塊字,方正為漢字圖形 的基本特徵之一,線性變換矩陣A中次對角線上的元素應該為零,而主對角線上的元素aA、 dA就反映了漢字基元映射到漢字中的大小和形態。漢字基元的圖像是已知的,目標漢字中的圖像通過第三步可以獲得。那麼利用兩 幅圖像中四個不共線的點就可以解出變換方程中的四個未知數,從而獲得拓撲變換係數。第五步,利用拓撲變換方法和第四步獲得的拓撲變換係數,將漢字基元變換到目 標漢字中去,完成目標漢字中各級結構及各個基元的變換,從而實現了智能造字。因為可以將求解多級結構漢字中漢字基元變換知識的任務分解成對一系列一級 結構漢字的求解,所以在此首先對求解一級結構漢字的過程進行描述。在漢字的六大類結構中,包圍結構和鑲嵌結構,橫列結構和縱排結構在漢字構成 上有很大的相似性,故在求解時將其合併為包圍鑲嵌類與橫列縱排類。因此,可以將所有一級結構的漢字分成四種類型,即整體型(即獨體型)、包圍鑲嵌型、重疊型和橫列縱排型。 以下分別介紹這四種類型的一級結構漢字的求解方法。對於獨體型漢字,其樹形結構如圖4所示。因為所有的獨體字都是漢字基元,所有 獨體字的仿射變換係數都是(0,1,0,1),故獨體型漢字中基元的外接矩形就是漢字基元的 標準外接矩形,這樣根據公式(1)得到的漢字基元的仿射變換係數就是(0,1,0,1)。對於包圍鑲嵌型漢字,其共同特徵是第一個漢字基元總是一個框架,這個框架可 以包圍一個漢字基元或子結構,或者可以嵌入一個或幾個漢字基元或子結構,稱這個框架 式的漢字基元為包圍體;那些被包圍體包圍或嵌入到包圍體中的漢字基元或子結構稱為嵌 入體。包圍鑲嵌型漢字的樹形結構如圖5所示。包圍鑲嵌型漢字中各漢字基元的最大可能 外接矩形直接由包圍體決定。作為包圍體的基元,其本身和其包圍的部分的最大外接矩形 信息均保存在專家系統的知識庫中,求解時將包圍體對應的知識從知識庫中取出並應用於 包圍體及其所包圍的部分上,即可獲得各部分的最大外接矩形。對於包含體,其最大外接矩 形就是其在漢字中的實際外接矩形;對於嵌入體,先按公式(4)調整其縱橫比,然後再將調 整後的外接矩形同時在XY方向上調整到其最大外接矩形中,即可得到其在漢字中的實際 外接矩形,然後利用公式(1)就可以計算出各部分的變換係數。對於重疊型漢字,其特徵是結構本身就已經決定了結構中各部分的最大外接矩 形,重疊型漢字的樹形結構如圖6所示。重疊型漢字中的各部分的最大外接矩形信息存放 在專家系統的知識庫中,求解時,根據結構從知識庫中讀取相應的信息並將其應用到漢字 中的各部分,然後按公式(4)調整各部分的縱橫比,再將各部分同時在XY方向上居中到最 大外接矩形中,就得到了各部分在漢字中的外接矩形,最後利用公式(1)計算出各部分的 變換係數。對於橫列縱排型漢字,漢字中各部分的外接矩形不僅與各部分在結構中出現的次 序有關,也與各部分的大小有關,越大的部分在橫列縱排型漢字中所佔的比重往往也越大。 衡量各部分大小的參數是各部分的標準外接矩形,對於漢字基元使用其標準外接矩形,對 於子結構,因為其外接矩形必然已經推出(深度優先的遍歷方式決定),故使用推出的外接 矩形。在推導時,先根據各部分的標準外接矩形,確定其在整個結構中的比重,然後再根據 其在結構中出現的次序,確定其最大可能外接矩形。對於橫列結構,利用公式(3)確定各部 分的縱橫比,再將各部分在Y方向上居中到最大外接矩形中,在X方向上居中到最大外接矩 形中;對於縱排結構,利用公式(2)確定各部分的縱橫比,再將各部分在X方向上居中到最 大外接矩形中,在Y方向上居中到最大外接矩形中,即可得到各部分在漢字中的外接矩形, 然後利用公式(1)計算出各部分的變換係數。橫列縱排型漢字的樹形結構如圖7所示。下面以漢字《 Pl,,為例,詳細說明求解漢字基元變換係數的過程1、《|_,,字的編碼為:M,8gO,0,9d0,J,341,210,通過編碼可以得到其結構樹如圖 8所示。從漢字的結構樹可以看出,該漢字有三級結構。一級結構為M,二級結構為0,三級 結構為J。2、根據結構樹與各漢字基元的特點,可以確定該漢字的外接矩形拼圖如圖9所 示。3、根據漢字的結構樹和漢字的外接矩形拼圖,將漢字 _,,分解為一系列一級結構的漢字的求解。這個分解的過程從結構樹的最末端,外接矩形拼圖的最裡面開始,共包括以下 3步(1)將三級結構分離出來作為一個漢字進行求解,如圖10所示。這個漢字的編碼為J,341,210,利用前面所述的橫列縱排型漢字的求解方法,可以
得到兩個基元在漢字《胃,,中的外接矩形分別為341 (0. 031,0,0. 94,0. 59)210 (0. 281,0. 59,0. 44,0. 41)(2)將二級結構分離出來作為一個漢字進行求解,其中設(1)中所求得的漢字為 「#1」,將其作為一個基元看待,如圖11所示,這個漢字的編碼為0,9d0,#1。利用前面所述 的包圍鑲嵌型漢字的求解方法,可以得到兩個基元在漢字「唐」中的外接矩形分別為9d0 (0,0. 031,0. 938,0. 938)#1 (0. 26,0. 251,0. 66,0. 72)(3)記(2)中所求得的漢字為#2,將其作為一個基元,帶入一級結構中,如圖12所 示;此時漢字的編碼為M,8gO,#2。利用前面所述的包圍鑲嵌型漢字的求解方法,可以得到
兩個基元在漢字「 jfl,,中的外接矩形分別為8g0 (0. 094,0. 063,0. 813,0. 875)#2 (0. 294,0. 283,0. 453,0. 455)4、由於漢字《胃,,包含「#2」,「#2」包含「#1」,根據公式(11),可以依次求得漢字
中各基元的絕對外接矩形為8g0 (0. 094,0. 063,0. 813,0. 875)9d0 (0. 294,0. 297,0. 424,0. 427)341 (0. 421,0. 397,0. 279,0. 193)210 (0. 495,0. 589,0. 131,0. 134)根據公式(1)計算漢字各基元的仿射變換係數為8g0 (0,1,0,1)9d0 (0. 294,0. 453,0. 283,0. 455)341 (0. 411,0. 298,0. 387,0. 32)210 (0. 41,0. 298,0. 501,0. 32)5、將各基元按上述仿射變換係數進行變換,並將變換結果組合到一起就可以得到 漢字的圖形,如圖13所示。利用這5步,可以推導出一些其它漢字的推導效果圖,如圖14所示。上述實施例為本發明較佳的實施方式,但本發明的實施方式並不受上述實施例的 限制,其他的任何未背離本發明的精神實質與原理下所作的改變、修飾、替代、組合、簡化, 均應為等效的置換方式,都包含在本發明的保護範圍之內。
權利要求
一種無字庫的漢字智能生成方法,其特徵在於通過漢字的編碼自動地生成漢字,這一過程包括以下步驟S1、根據輸入的漢字編碼,獲得漢字的結構樹;S2、根據漢字的結構樹,構造由漢字各級結構及各個基元的外接矩形組成的拼圖;S3、確定漢字各級結構的外接矩形的的位置和形狀;確定各個基元在目標漢字中的外接矩形的位置和形狀;S4、根據步驟S3得到的各個基元在目標漢字中的外接矩形的位置和形狀,確定拓撲變換係數;S5、利用拓撲變換方法和步驟S4獲得的拓撲變換係數,將漢字基元變換到目標漢字中去,完成目標漢字中各級結構及各個基元的變換。
2.根據權利要求1所述的無字庫的漢字智能生成方法,其特徵在於,步驟S3所述各個基元在目標漢字中的外接矩形為歸一化外接矩形艮 分別為漢字的高WHWH和寬,以漢字左上角為原點建立一個直角坐標系,向右的方向為X軸,向下的方向為y軸,X、 y為基元左上頂點的坐標,w、h為基元的高和寬。
3.根據權利要求1所述的無字庫的漢字智能生成方法,其特徵在於,步驟S3所述確定 各個基元在目標漢字中的外接矩形的位置和形狀為首先確定漢字基元在漢字中的最大可 能外接矩形;然後以所述最大可能外接矩形為基準,調整漢字基元的大小和縱橫比,使漢字 基元位於所述最大可能外接矩形的中間位置。
4.根據權利要求1所述的無字庫的漢字智能生成方法,其特徵在於,所述拓撲變換方法為仿射變換方法,仿射變換的定義為 其中,矩陣A表示線性變換,主對角線上的元素aA、dA分別表示源圖像在χ、y方向上 的縮放比例,次對角線上的元素bA、cA分別表示在x、y方向上旋轉因子,向量t的分量tx、 ty分別表示在映射空間χ、y方向上的平移量。
5.根據權利要求1所述的無字庫的漢字智能生成方法,其特徵在於,步驟Sl所述漢字 編碼由基元編碼和結構編碼組成,每一個基元配置在一個由兩個按鍵排列組合而成的基元 鍵值上,取相應的基元鍵值作為基元編碼,結構編碼根據漢字的基本結構獲得;所述漢字的 基本結構包括整體結構;左上包圍結構、左下包圍結構、右上包圍結構、上三包圍結構、下 三包圍結構、左三包圍結構和全包圍結構;架嵌結構、互嵌結構;品字結構、雙重疊結構 』左 右結構、左中右結構、多列結構;上下結構、上中下結構和多排結構。
6.根據權利要求1所述的無字庫的漢字智能生成方法,其特徵在於,從各個基元的標 準外接矩形Rtl= (x0,y0,w0,h0)變換到步驟S3所述各個基元在目標漢字中的外接矩形R = (X,y,w,h),其拓撲變換係數為 其中,XO為X軸方向平移量,XS為寬度壓縮量,yo為y軸方向平移量,ys為高度壓縮量。
全文摘要
本發明為無字庫的漢字智能生成方法。系統中可以沒有字庫而只有基元庫,通過對漢字構成特點的分析,將求解漢字基元映射知識的任務分解為五個步驟進行。根據漢字輸入的編碼通過推理獲得漢字的結構樹,通過遍歷漢字的結構樹將多級結構的漢字分解成一系列一級結構的漢字,通過分析漢字組成成分的外接矩形拼圖來確定構成的漢字成分外接矩形的大小和位置,通過基元的標準外接矩形到基元在漢字中的外接矩形的對比來獲取漢字基元的變換係數,通過對漢字基元進行拓撲變換得到漢字,從而實現智能造字。解決了現有技術中未能通過輸入漢字編碼來確定組成該漢字的各個組成成分的外接矩形的定位尺寸和矩形尺寸的問題,使得進入計算機的漢字再不受字庫的限制。
文檔編號G06F3/023GK101930299SQ20101026303
公開日2010年12月29日 申請日期2010年8月25日 優先權日2010年8月25日
發明者段騁森, 皮佑國 申請人:華南理工大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀