一種超大字符集漢字形碼編碼法及其輸入鍵盤的製作方法
2023-06-08 09:43:41 1
專利名稱:一種超大字符集漢字形碼編碼法及其輸入鍵盤的製作方法
技術領域:
本發明屬於形碼漢字電腦輸入法及其鍵盤。
本發明人於20世紀80年代曾提出五筆字型漢字電腦輸入技術方案,並在在1986年全國推廣應用,但五筆字型(86版)是針對解決GB2312(80)中的6763個漢字的輸入提出的技術方案,對於國家信息產業部頒布於2000年的GB18030-2000漢字集,甚至更大的字符集,五筆字型(86版)技術方案不能形成一個可以有效解決大字符集漢字編碼輸入的完整的編碼體系,不能有效解決超大字符集漢字字詞的輸入,已遠遠不能適應各行業特別是國內外中文應用的需要。
本發明的目的是建立一個科學的碼元體系,提出一套解決GB18030標準大字符集或更大的漢字集輸入的方案,以此形成一個完整的編碼體系,以滿足各行業對大字符集漢字輸入的需要。
本發明採用五筆字型(86版)可以分為5區共25個鍵位的鍵盤、或數字鍵盤,本發明包括可對GB2312進行編碼的碼元體系、編碼規則及其輸入鍵盤。本發明在五筆字型(86版)碼元基礎上,針對GB18030或更大字符集漢字輸入的需要,根據漢字構字規律和組字頻度,設計增加了一批具有突出的實質性特點的碼元,以此形成超大字符集數萬個漢字的新的碼元體系,並依據相容性、規律性原理將這些新的碼元科學地安排在現行五筆字型鍵盤的5個區、每區5個位共25個鍵位上。
其中新增碼元有 車 貝金 門 馬糹 黽新增碼元在鍵盤上的設置可以是碼元 可放在1區12位F鍵上,碼元可 放在1區13位D鍵上;碼元 可放在2區22位J鍵上,碼元車 可放在2區24位L鍵上,碼元貝可放在2區25位M鍵上;碼元金可放在3區35位Q鍵上;碼元 可放在4區41位Y鍵上,碼元門可放在42位U鍵上,碼元 可放在45位P鍵上;碼元 可放在5區52位B鍵上,碼元 可放在5區53位V鍵上,碼元馬可放在5區54位C鍵上,碼元糹 黽可放在5區55位X鍵上。
本發明的碼元體系的全部碼元及其在5區25個鍵位上的配置如附圖
所示。
本發明的碼元體系,可以採用五筆字型(86版)的取碼方法對GB18030或大字符集中的全部簡繁漢字的字詞編碼,採用的方法是(1)編碼的最大長度為4或5;(2)當一個字拆不足4或5個碼元時,擊空格鍵結束;(3)或者補加識別碼,包括末筆字型識別碼和構形碼中的一種或兩種。
本發明可同時處理GB18030漢字或更大漢字集中數萬個簡體漢字與繁體漢字。本發明在同時處理簡體漢字與繁體漢字時,其方法是可採用大寫字母表示簡體碼元對應的繁體碼元及其編碼,而用小寫字母表示其簡體碼元及其編碼,也可採用大寫字母表示簡體碼元及其編碼,而用小寫字母表示簡體碼元對應的繁體碼元及其編碼。
本發明突出的實質性特點在於,首先解決了編碼工程中最根本的問題--碼元設計的科學合理性,創造性地設計了輸入超大字符集所必需的碼元;併合理地安排各碼元鍵位,與五筆字型(86版)已有碼元相輔相成,形成一個超大字符集的碼元體系。
本發明是在保持了現有技術碼元和拆分編碼方法的基礎上,以浩繁的統計計算結果為理論依據,重新定量,創造性地設計了超大字符集漢字輸入的新碼元,並以此碼元體系為基礎,建立起一套可處理超大字符集數萬個漢字輸入的完整的編碼體系。例如在GB18030大字符集中,構字頻率較高的「 馬 」等,利用五筆字型的現有技術,必需對上述碼元做進一步的拆分,而對筆畫較多、結構複雜的大量繁體字來說,即加大了拆分的難度,又提高了重碼率。本發明直接將其作為碼元,併科學合理地的安排分布鍵位,進一步實現了直觀分解、易學易用,且重碼率大大降低。
本發明顯著的進步在於,新碼元的增加及該科學的碼元體系的建立,才得以對GB18030或更多漢字的超大字符集中的數萬個漢字及詞彙進行有規律地編碼拆分,才得以按照五筆字型取碼法,運用行之有效的方式,完成了約佔GB18030字符集總編碼體系75%比例新增漢字的編碼,才得以建立起一套完整的超大字符集編碼體系,以此形成一個超大的漢字編碼體系。
本發明的顯著進步還在於,該編碼體系與五筆字型(86版)編碼體系兼容,GB18030字集的27000多個漢字,可以全部按照五筆字型(86版)的拆分取碼方法進行編碼輸入,加強了編碼的唯一性,保證了編碼的唯一性,使得用原碼元體系為擴大3倍之多的漢字編碼時,本來必然大增的重碼率得到控制和明顯降低,提高了漢字輸入速度。從而本發明建立的大字符集編碼體系,有效解決了大字符集漢字的電腦輸入的問題。
本發明可以採用五筆字型(86版)使用的電腦標準鍵盤,對漢字單字和詞彙的拆分編碼,向電腦輸入數萬個單字和數量不限的詞彙。
本發明可以採用電腦或終端的英文鍵盤,對應五個區共25個鍵位的字母鍵位上可以標識出區位號、碼元。
本發明用現行數字鍵對漢字的字詞編碼輸入時,可直接在數字鍵上輸入單字或詞語參加編碼的碼元的區位號11-55,最多擊鍵8次,而不必使用字母鍵。
本發明的實施例如下如碼元焉有175個字以該字開頭,遤颿馬馭馯馰馱馲馳馴馵馶馷馸馹馺馻馼馽馾馿駀駃馱駅駆 駈駉駊駋駍駎駏駐駒駓駔 駗駘駙駚駛駜駝駞駟駠駢駣駤駴駧駒駩駪駣駬駭駮駯駱駱馴駳駴駠駶駷駸駹駺驛駻駼駽 駿騀騁騂騃騄騅駒駧騇騉騊騻騌騍騎騏騐騑騷験騔騕騘騙騚騛騜騠 騟騡騢騣騤騥騦騧 騩騪騬騮騯騱騲騳騴騵騶騷騸騹聵鸌騽騾騿驂驃驄驅驆驪驉驊騤驌驎驏驐驑駻驓驔驕驖驗驙驛驜驎驟驠驢驣驤騤驦驧驕驩驅騳根據五筆字型取碼法,每個字最多取四碼,如不加碼元焉會有174字重碼。所有這些174個以馬開頭的字的前三碼都相同(GHF-1二),最後一碼的編碼空間只有25種可能(A-Y),即使將174個字平均分配在25個鍵位上,也會有近7個(174/25)字擠在同一個鍵位上。統計表明,不加馬碼元,有99.4%的字重碼,且最多重碼字達16個之多,而在增加恩碼元後,以嫣.開頭的175個字中,僅有6對二重字,重碼率僅為6.8%,重碼率降低了92.2%。
又如將碼元 放在4區45位P鍵上,而不放在其它鍵位上,這是基於五筆字型碼元設置的規律性及最大程度降低重碼率的前提下決定的。
首先,因碼元 首筆為「、」(代號為4),次筆為「乙」(代號為5),根據碼元規律性,首筆代號與區號一致,次筆代號與位號一致,故應放在捺區(4區)的45鍵位P上。
其次,捺區前三個鍵位(Y鍵、U鍵、I鍵)碼元基本飽合,且常用碼元較多,即只有在0鍵和P鍵上選擇。只所以不選擇0鍵,是因為0鍵的碼元「 」 「 」易與碼元 發生重碼。 在編碼中一般出現在漢字第二碼(據統計的87字中有41字 處於第二碼),而碼元 也是多處於漢字的第二碼(據統計113字中有112處於第二碼),容易造成重碼。
再次,只所以將 放在P鍵上,是因為P鍵上的常用碼元「冖」、「宀」、 一般處於第一碼,常用碼元「L」、「L」多處於末碼, 常作為第二碼出現,這樣有效地通過碼元的鍵位安排,離散了重碼。
本發明可應用於各種涉及漢字的電腦及終端設備、軟體產品、網絡、通訊及各類圖書管理、檢索和音像製品及印刷品中,可以滿足各行各業對漢字輸入的需要。
權利要求
1.一種超大字符集漢字形碼編碼法及其輸入鍵盤,包括可對GB2312(80)字集的漢字進行科學編碼的五筆字型(86版)的碼元體系、編碼規則及其輸入鍵盤,其特徵在於根據構字規律和組字頻度設計了可以為GB18030字集和超大字符集數萬個漢字進行科學地拆分編碼的新的碼元 車 貝金 門 馬糹 黽以此與五筆字型(86版)公開的字根(碼元)組合形成新的碼元體系,並依據相容性、規律性原理將這些新的碼元科學地安排在五筆字型(86版)鍵盤的5個區、每區5個位共25個鍵位上,新增碼元在五筆字型(86版)鍵盤上的設置可以是碼元 可放在1區12位F鍵上,碼元可 放在1區13位D鍵上;碼元 可放在2區22位J鍵上,碼元車 可放在2區24位L鍵上,碼元貝可放在2區25位M鍵上;碼元金可放在3區35位Q鍵上;碼元 可放在4區41位Y鍵上,碼元門可放在42位U鍵上,碼元 可放在45位P鍵上;碼元 可放在5區52位B鍵上,碼元 可放在5區53位V鍵上,碼元馬可放在5區54位C鍵上,碼元糹 黽可放在5區55位X鍵上。
2.如權利要求1所述的超大字符集漢字形碼編碼法及其輸入鍵盤,其特徵在於按照其碼元體系及鍵盤分布,可以用五筆字型(86版)的取碼方法對大字符集中的全部簡繁漢字的字詞編碼,採用的方法是(1)編碼的最大長度為4或5;(2)當一個字拆不足4或5個碼元時,擊空格鍵結束或者補加識別碼,包括末筆字型識別碼和構形碼中的一種或兩種;(3)使用數字鍵對漢字的字詞編碼輸入時,可直接在數字鍵上輸入單字或詞語參加編碼的碼元的區位號11-55,最多擊鍵8次。
3.如權利要求1所述的超大字符集漢字形碼編碼法及其輸入鍵盤,其特徵在於採用電腦或終端的英文鍵盤,對應五個區共25個鍵位的字母鍵位上可以標識出區位號、碼元。
4.如權利要求1所述的超大字符集漢字形碼編碼法及其輸入鍵盤,其特徵在於採用大寫字母表示簡體碼元對應的繁體碼元及其編碼,而用小寫字母表示其簡體碼元及其編碼,也可採用大寫字母表示簡體碼元及其編碼,而用小寫字母表示簡體碼元對應的繁體碼元及其編碼。
5.如權利要求1所述的超大字符集漢字形碼編碼法及其輸入鍵盤,其特徵在於本發明可應用於各種涉及漢字的電腦及終端設備、軟體產品、網絡、通訊及各類圖書管理、檢索和音像製品及印刷品中,可以滿足各行各業對漢字輸入的需要。
全文摘要
一種超大字符集漢字形碼編碼法及其輸入鍵盤,包括可對GB2312(80)字集編碼的五筆字型(86版)的碼元體系、編碼規則及輸入鍵盤,本發明根據構字規律和組字頻度設計了可為GB18030字集和超大字符集數萬個漢字進行科學拆分編碼的新的碼元,以此與五筆字型(86版)公開的字根(碼元)組合成新的碼元體系,並依據相容性、規律性原理將新碼元科學安排在五筆字型(86版)鍵盤的5個區、每區5位共25個鍵位上,按五筆字型取碼法,實現大字符集漢字的輸入。
文檔編號G06F3/023GK1324017SQ0111841
公開日2001年11月28日 申請日期2001年5月30日 優先權日2001年5月30日
發明者王永民 申請人:王永民