冷僻漢字的筆順子字檢索法的製作方法
2023-06-09 05:07:46 3
專利名稱:冷僻漢字的筆順子字檢索法的製作方法
技術領域:
本發明涉及一種漢字檢索方法,具體的說是一種冷僻漢字的筆順子字檢索法,該方法同樣適用普通漢字檢索。
背景技術:
—、漢字檢索和輸入的時代背景和
背景技術:
我國歷史悠久、文字發展時間漫長,所以文字存在數量巨大、字形多樣、一字多音、簡體與繁體共存、常 用字與冷僻字共存等現象。每個人由於文化水平、工作領域不相同,而導致很多文字在遇到時不知道發音、不知道偏旁、當前輸入法不識別該字等問題。關於漢字檢索和輸入的現狀是:漢字的顯示問題初見解決,但檢索和輸入仍存在較多問題。近年來,計算機的處理已普及到了漢字處理的各個領域,縱觀漢字漢庫的發展史,我們發現可以分為兩個階段:最早大陸的GB2312 (收錄6763個常用簡體漢字)和港澳臺的BIG5碼(收錄13060個常用繁體漢字)同時出現,只解決了常見漢字的顯示、和輸入問題,但仍存在冷僻漢字無法顯示、二者的互不兼容、輸入法多樣等問題;第二階段是Unicode漢字,該字庫收超過10萬多國文字,可以顯示絕大多數漢字,相比第一階段,也只是解決了冷僻字的顯示、中國大陸、港澳臺、海外漢字之間的兼容問題,但隨之而來未能解決的是其中漢字的輸入。縱觀該字庫的特點,對於冷僻字的輸入,如果照搬現有的輸入法,存在如下問題:1、以漢字發音為主的拼音輸入法將全面失效。作為中國人,都以能認識中國字為榮,但據不完全統計,漢字數量本身就近十萬,即使這樣,隨著新的古籍的發現,仍有增加的可能,除非是漢文字專家,否則幾乎沒有幾個人能認識半數以上,更談不上某字的發音了,例如「籲、灌、鱺」的發音。因此拼音輸入法對冷僻字無法繼續使用。2、以拆字為主的字型輸入法將部分無效。當引入冷僻字後,這些輸入法中存在的問題主要是會出現大量重碼。以五筆字型為例,其輸入法最大的優勢就是重碼少,可以實現盲打,但當隨著收錄編碼漢字的增多,重碼大大增加,使其優勢盡失。二、本發明的背景知識1、筆順:相對於發音和拆字,筆順輸入法就簡單的多,只要知道筆順就可以寫字,而不必一定認識所檢索和輸入的字。漢字中有「五筆劃」劃分法,即將漢字的筆劃劃分為「橫豎撇捺折」五種,其中:
權利要求
1.一種冷僻漢字的筆順子字檢索法,包括創建和檢索;所述的創建是給含有冷僻漢字的字庫增加筆順欄位,按照寫字的筆劃順序,「橫豎撇捺折」分別用「 12345」為碼值,將每個漢字的筆順代碼數據添加到筆順欄位裡;所述的漢字檢索方法是通過輸入筆順代碼數據檢索漢字。
2.根據權利要求1所述的冷僻漢字的筆順子字檢索法,其特徵在於:對於複雜字或者冷僻字稱之為母字,對於母字採用兩步檢索,第一步是將母字按照寫字的筆劃順序分成多個子字和不能獨立成字筆順,採用其它輸入法檢索到每個子字,提取每個子字的筆順代碼數據,將組成該母字各子字的筆順代碼數據和不能獨立成字筆順的筆順代碼數據合成該母字的筆順代碼數據;第二步是通過合成的該母字的筆順代碼數據檢索到該母字。
3.根據權利要求1所述的冷僻漢字的筆順子字檢索法,其特徵在於:所述的給含有冷僻漢字的資料庫筆順欄位增加筆順代碼,採用如下步驟來實現: (1)首先給冷僻漢字庫少量漢字的筆順欄位手工錄入筆順代碼數據; (2)採用上述兩步檢索的方法形成該母字筆順代碼數據並檢索該字; (3)檢索不到該母字證明是一個沒有賦予筆順代碼數據的新字,通過其它檢索方法檢索到該母字,並將步驟(2)形成的筆順代碼數據賦予該母字的筆順欄位。
全文摘要
本發明公開了一種冷僻漢字的筆順子字檢索法,包括創建和檢索;所述的創建是給含有冷僻漢字的資料庫筆順欄位生成編碼,按照寫字的筆劃順序,「橫豎撇捺折」分別用「12345」作為碼值,將每個漢字的筆順代碼數據添加到筆順欄位裡;所述的漢字檢索方法是通過輸入筆順代碼數據檢索漢字。該方法適合於古文研究、圖書館、古籍文獻的錄入、內容查找等領域。首次採用將子字作為部件參與輸入法,通過筆順彌補子字不能涵蓋全字所有部件的缺點,實現字根和筆順的任意組合,相對於拆字法該發明不需要窮舉所有的組合,支持模糊查詢。
文檔編號G06F17/30GK103164466SQ20111042232
公開日2013年6月19日 申請日期2011年12月16日 優先權日2011年12月16日
發明者李瑞民, 杜根遠, 邱穎豫 申請人:李瑞民, 杜根遠, 邱穎豫