新四季網

一種偏旁部首漢字輸入方法

2023-10-08 10:52:19

專利名稱:一種偏旁部首漢字輸入方法
技術領域:
本發明屬於計算機漢字輸入領域。是一項應用於《漢字擴展內碼規範》即「GBK」所涵蓋之漢字字符的計算機輸入,並支持對GB18030-2000《信息交換漢字編碼字符集》中27484個漢字及集外漢字進行規範化編碼的發明。
從現有技術上看,現有「形碼」有兩大嚴重困擾漢字信息處理的問題;一是現有「形碼」中,絕大多數是以實現GB2312-80字符集,即《信息交換用漢字編碼字符集——基本集》中6763個漢字的計算機漢字輸入而設計,它直接制約了計算機對集外漢字的信息處理能力。
雖然,少數支持WINDOS系統的輸入方法,如《鄭碼輸入法》、《表形碼輸入法》具有對「GBK」二萬多個漢字的處理能力,但簡、繁漢字不能共容,重碼多。而《規範王碼漢字輸入法及鍵盤》通過CN1204080A公開的「末型構碼識別」及「簡、繁大小寫字符切換」等技術,把20902個漢字的重碼率降到了5%之內,卻也因此把碼長增加到了五碼,使用了大寫英文字符,實際擊鍵甚至到了六次,給實際應用帶來極大不便。
可見,實現對「集外」漢字編碼,還是一個有待解決的問題。
二是現有「形碼」不符合漢字規範化要求。
現有「形碼」認為,漢字是由「部件」構成。依此,按照一定的規則把漢字拆分為若干個構字部件(或「字根」)進行計算機鍵盤編碼構成了現有「形碼」共有的技術特徵。
由於構成漢字的部件多、而應用於編碼的鍵位少的矛盾,現有「形碼」幾乎都採用了優選「部件」的方法實施對漢字編碼,為了把漢字拆分為符合編碼要求的「部件」,往往把漢字拆分為人為定義的「部件」組合。甚至,更多的方案僅僅從編碼需要出發,對漢字任意「肢解」,其種種令人匪夷所思的漢字拆分規則破壞了漢字之偏旁部首構成的嚴謹特點,背離了人們傳統的認字、識字經驗,與我國的語文教學也不相適應,不僅造成了難學難記,難以普及;而且,隨著漢字字庫的不斷擴展,也難以實現其發明。
如《GB13000.1字符集漢字規範部件表》就有560個構字部件,在GB18030-2000中又增補了幾十個部件,如果以有限的「部件」對漢字編碼,不可避免地要對這些規範「部件」進一步拆分,其結果,一是無法按規範「部件」要求實施對漢字進行取碼編程;二是難以支持對不斷擴展的漢字字符的計算機輸入。
在這樣一種技術背景下,本發明是一種偏旁部首漢字輸入方法,其目的是在規範的基礎上,建立一個快速、易學,具有多種實現方式的方法,並適應對不斷擴展大字庫漢字編碼輸入,以解決中文信息處理的現代化、國際化需要,促進漢字輸入技術的最終統一。
為實現上述目的,本發明的技術解決方案是建立在漢字由偏旁部首構成之傳統認識基礎上,把漢字直觀定義為由「部首」與「結構」的兩個獨立存在的基本部分以「偏」和「旁」的形式組合構成,依此規定「部首」取一碼、「結構」取二碼,實行「三碼元」編程;所取「碼元」,依照「丶、一、丨、丿、乙」五種基本筆劃的屬性特徵、及不同組合規律,通過定義26個「正方部首」建部類歸,實現在標準英文鍵盤上,即PC鍵盤用A-Z對漢字進行編碼輸入。
關於偏旁,《辭海》有這樣一段解釋「舊稱漢字中合體字的左方為偏右為旁,上下左右統稱偏旁」。可見,「偏」和「旁」指的是漢字構成的基本形式,究其實,不光是上下左右,其它結構,如左上右下、右上左下及內外結構的漢字都可以視之為「偏」和「旁」的組合。因此,按照漢字之先「偏」後「旁」書寫順序,本發明把先寫的部分稱為「偏」,後寫的部分稱為「旁」,並根據漢字的具體組合方式,歸納為以下幾種類型1,右上偏左下旁如「氫、蝨、載、戎、勻、司、這、建」等;2,左上偏右下旁如「壓、度、左、右、病」等;3,左偏右旁型如「辭、海、偏、漢、解、釋」等;4,上偏下旁型如「合、是、類、型、字、旁」等;5,左下偏右上旁如「趙、尷、旭」等;6,外偏內旁、內偏外旁如「國、同、區、凡、兇、函」等。
也就是說,依照以上所述六種「偏」和「旁」的組合方式,只要是合體漢字都可以直觀分解為兩個獨立存在的基本部分一是「部首」部分,指的是在「偏」和「旁」兩個部分之中,為許多漢字所共有,而且與這些共有漢字保持含義上的聯繫的「偏」或「旁」。如「江、河、湖、海」,其中「偏」的部分「氵」為這些漢字所共有、並含有「水」的意思,本發明稱之為「部首」。也就是說,根據目前比較統一的漢字歸部體系,凡被《新華字典》或《現代漢語小詞典》等規定確立為部首的,基本上符合本發明的「部首」概念。
對於難以確認部首的合體漢字,本發明則統一規定其「偏」的部分為「部首」。如《新華字典》中大量的難檢字,象「彠、鼙、懿、黇、整、馘、甦、夠、臻、孵」等等,其「偏」即「尋、鼓、壹、黃、敕、首、更、句、至、卵」被確立為部首。
二是「結構」部分,它是本發明對除「部首」以外的另一部分的總稱,指的是獨立於「部首」的表示漢字讀音、表意或指示的「偏」或「旁」。如「江、河、湖、海」中之「旁」的部分「工、可、胡、每」稱為「結構」。
對於獨體類漢字,除「犬、尤、龍、我、成」等右上有一點的漢字,本發明規定其右上點為部首外,一律可以虛擬一個「部首」進行統一建部歸類,並直接用PC鍵盤符號鍵「/」,數字鍵盤可以用數字符「8」表示其歸類部首代碼。
獨體漢字,指的是獨立存在的不可分割的音、意、形統一的漢字或構字「部件」,包括1,筆劃相交型漢字或部件,如「十、來、中、申、戈、未、聿」等;2,筆劃相接型漢字或部件,如「工、上、口、山、止」等;3,筆劃聚合型漢字或部件,如「心、水、小、二、三、八、兒、川、灬、氵」等;4,兩個部件組合獨體漢字,如「比、文、亡、單、見」等。
由此,本發明把漢字的構成直觀定義為漢字是由「部首」與「結構」兩個獨立存在的基本部分以「偏」和「旁」的形式組合構成。
報據上述漢字構成定義特徵,實施「三碼元」編程可以具體說明如下首先規定,「部首」取一碼,稱為「部首碼元」,「結構」取二碼,分別稱為「結構碼元」和「結構補碼」,按漢字之先「偏」後「旁」書寫順序,其取碼流程用公式表示為偏為部首時,編碼=部首碼元+結構碼元+結構補碼;旁為部首時,編碼=結構碼元+結構補碼+部首碼元;獨體類漢字的編碼=獨體本碼+獨體末型+獨體歸部代碼(「/」或「8」)。
「部首」取一碼,是把符合本發明之「部首」定義的「偏」或「旁」作為「碼元」取碼。
「結構」取兩碼,是把符合本發明之「結構」定義的「偏」或「旁」作為「碼元」取碼,並按規定對「結構」之最後完成的部分進行補碼識別,稱為「結構補碼」。
一,當「結構」為合體漢字時,「結構補碼」指「結構」之最後完成部分,可以是1,「點」起筆劃組合,如「搱、釃」中的「辛、鹿」;2,「左上偏右下旁」、「右上偏左下旁」的組合」,如「詭、揭」中「厄、匃」;3,「人」起成「上偏下旁」的組合,如「搽、摻」中「茶旁、參旁」;4,「結構」為「左偏右旁型」、「外偏內旁型」的「旁」,如「蕩、揠」中「易、妟」;5,規定「結構」如「吳、色、拖旁」等,可以是容錯取「人、乚、右向折交」;除1、2、3,4、5規定之外,指按書寫順序「結構」之最後完成的「獨體字」部分。
二,當「結構」為獨體字時,「結構補碼」指
1,「結構」之最後完成筆劃,有「交、接、散」三種情形「散」指的是最後完成的獨立單筆,如「下、刃、旦、」等,均取其末筆。
「接」指的是獨立單筆接於其它筆塊,如「產、上、止、皿、蟲、刀、屍、戶」等;「交」指的是末筆交於其它筆劃,如「本、中、曳、更、手、毛」等。直觀上分別取其「橫交、豎交、撇交、點交、右向和左向折交」;並可以直接用符號鍵之「]」、「[」、「』」、「;」、「.」、「,」或數字鍵1、2、3、4、5、6依次編碼。
2,「結構」之約定俗成,或本發明規定的「末型」嵌套型末型如「疌、大、無、開」中的「止、人、兒、兩豎」及「木」為三撇聚合等;相接型末型如「衣、豕、滅、石」中的「衣底、豕底、火、口」等;離散型末型如「六、為」中的「八、灬」等;3,「結構」為「一、二、三、心、人、兒、川、九、壬」時,結構補碼=結構碼元;4,「結構」之最後完成部分為「十」時,一律取前一部件,並加「[」;5,「戈、我、成、龍」等「結構」,可以是按由「交撇」與「點」組合構成末型,「結構補碼」由交撇「』」+「丶」點組合碼構成。
以「三碼元」取碼原則為基礎,本發明的取碼規則還可以包括對特定漢字只取「部首」與「結構」兩碼,並加字型識別碼,稱為「二碼字」。包括1,「部首」與單筆劃「結構」組合,如「扎、億、乞」等;2,「部首」與結構為「大、工、來、王、甘、廠、火、廣、八、金、禾、魚、鳥、幾、山、內、口、日、曰、目、田、土、比、了、已、巴、乙」等組合;3,其它為克服重碼允許容錯可以只取一碼的「結構」的組合,如「夜、旁」,或部首與「高」組合的漢字等,可以只取「偏」和「旁」碼。
此外,應用於漢字之「詞」或「詞組」的輸入,其取碼規則用公式表示二字詞=首字偏碼+首字旁碼+次字偏碼+次字旁碼,獨體字時取本碼和末型碼;三字詞=首字偏碼+次字偏碼+三字偏碼+三字旁碼,獨體字時取本碼和末型碼;四字詞=首字偏碼+次字偏碼+三字偏碼+四字偏碼,獨體字時取本碼;多字詞=首字偏碼+次字偏碼+三字偏碼+四字偏碼,獨體字時取本碼。
根據以上規則所取「碼元」,可以按照其「丶、一、丨、丿、乛」五種基本筆劃或「框」(指的是不同筆劃組成三面、或四面包圍的型)的屬性特徵及不同組合規律,進行分類歸部,每部通過定義一個象徵符號表示對所屬碼元進行歸部,這個定義符號稱為「正方部首」。
在PC鍵盤上,把「正方部首」及歸部「碼元」設置為五區二十六位,用A-Z26個字符表示,可以實現對所有漢字進行編碼,其特徵是一,「橫」起筆劃「碼元」共五部,定義了「一、二、三、、丅」五個「正方部首」對符合同一歸部定義的「碼元」,並依次用「Q、W、E、R、T」表示編碼Q=「一」部,對單橫起筆,除其它規定情形之「橫」起碼元依部編碼;W=「二」部,對起筆符合下列定義的橫起筆劃「碼元」依部編碼1、凡連續二橫起筆「除」「韋」的碼元,如「二、幹、夫、天、於、未、末」等;2、直觀上形成天地雙橫的碼元,如「工、亞、五、互、亙」等;3、橫起連續被兩筆「交」除「廿、 、甘、其偏」的碼元,如「艹」等;4、此外,「來、夾」兩個碼元因直觀上形同連續二橫,也被列在「二」部。
E=「三」部,對起筆符合下列屬性特徵的「碼元」進行歸部1,凡連續三橫起筆的碼元,如「三、豐、耒、非、韭、 」等;2,直觀上視為三橫的碼元,如「王、」等;3,橫起連續被三筆交的碼元,歸部碼元有「卅、 」及特殊碼元「韋」等;4,「廿、世、革、 、共」起型的碼元,取意「艹」下加一橫,也被列為「三」部。R=「」部,表示起筆為連續四橫、或「 」等橫起被四筆交、或橫起第二筆形為折、為「框」的碼元,如「車、匠、丁、長、戈、西、束、東、事」,及「镸、長、甘」等。
T=「丅」部。表示橫起筆劃組合形成上檔下通如「丅、下、平、石、耳、歹、萬、豕、丌、兀、嚴、、而、面」等,或「其偏」,及「廠、戊、索偏、賣偏」等起型的碼元。
二,「點」起「碼元」五部,定義了「丶、冫、氵、灬、忄」等五個正方部首,對符合同一歸部定義的「碼元」,依次用「A、S、D、F、G」進行編碼A=「丶」部,表示凡一點起筆,除「灬」和「忄」部規定的所有碼元,歸部碼元如「言(訁)、文、方、立、辛、卒、率、音、六、義、為、亡」等等;S=「冫」部,表示兩點起筆的碼元,如「冫、丬、丷、火、米、羊、頭、單、半」等;D=「氵」部,表示三點起筆的碼元和「、輝偏、小、 」等三點的變型;F=「灬」部,表示連續四點起筆或點起第二筆形為折的碼元,如「灬、辶、礻、衤、戶、良、永、之、冖」等,或「門」,或「疒、業、赤旁」等起始的碼元也列為此部;G=「忄」部,表示「心」(忄),或「廣、宀、穴」等「蓋」型組合(除「疒」)形成的「左上偏右下旁」、「上偏下旁」等碼元。
三,「撇」起「碼元」七部,定義了「丿、 彡、乂、亽、、勹」七個「正方部首」進行建部歸類,編碼依次為「Z、X、C、V、B、N、M」。
Z=「丿」部,表示起筆為獨立單撇,或單撇接一橫、一豎的所有碼元。歸併碼元有「丿、亻、、人、入、攵、丘、 、段偏」等等;X=「 」部,表示起筆為雙撇(除「舟」),或撇起連續二橫(除「忄」中規定)、二豎、二點組合,或撇起兩筆聚合碼元。如「彳、 、戶、 、牜、缶、朱、失、矢、氣、採、八、兒」等,或「」;C=「彡」部,表示起筆為三撇,或撇起連續或直觀上為三橫(除「忄」中規定)、三點組合及撇起三筆聚合的碼元。如「釒( 、金)、彡、年、生、無、爫、川」等;V=「乂」部,表示起筆為「乂、力、匕、九、丸」等撇起筆劃被交,或「白、血、自、臼、身、舟、、幣、鬼、臾」等撇起下帶「框」的碼元;B=「亽」部,表示撇起下橫形成上檔下通的碼元,如「千、舌、升、秉、禾、毛、手、夭、我」等,或「人蓋」組合為「上偏下旁」的碼元,如「飠(飠)、食、合、令」等;N=「」部,表示起筆為撇起接單折組合成「框」除「飠」的碼元。如「夕、久、氏、皮、夂、夊、樂、、欠、魚、魚、角、芻、奐」,或「片、延偏」等組合的碼元;M=「勹」部,表示起筆為撇起接一筆多折組合成「框」的碼元。歸併碼元有「幾、月、勹、勺、烏(烏)、鳥(鳥)、風(風)、乃」等;四,「豎」起「碼元」五部。即根據豎起筆劃組合為「框」的特點,定義了「山、口、日、目、田」五個「正方部首」對豎起筆劃碼元建部歸類,依次用「P、O、I、U、Y」編碼P=「山」部,表示起筆豎起形成半框,如「冂、骨、巾、見、貝、 」等,或「卩、報旁」等直觀上視為豎起半框,及「山」等取義豎起半「框」的碼元;O=「口」部,表示起筆為連續筆劃形成「口」字除「蟲、貴偏」的碼元;I=「日」部,表示起筆為一豎、或「日、蟲、貴偏」起型的碼元;U=「目」部,表示「介旁、止、齒、齒」等二豎起筆、或「目、罒、且、皿、見、、黑」,或「具偏」等形同「且」的碼元及「曲」等起筆的碼元;Y=「田」部,表示起筆為三豎、或「田」、或「十」起接橫、接框組合除「古」外的碼元,如「土、士、走、吉、 直、南」等。
五,「折」起筆劃類「碼元」。根據折起筆劃形成的角度大小,依次定義為「亅、∠、 ㄑ」四個正方部首,對摺起碼元進行歸部。編碼依次為「L、K、J、H」L=「亅」部,表示起筆為豎鉤、或「乛蓋、疋」等碼元,或橫起第二筆為豎鉤的碼元,可以視為豎鉤起筆,歸併於「亅」部,如「扌、寸、才、 」等;K=「∠」部,表示起筆折起成銳角的碼元。如「了、厶、么、糹、子、以、 」等;J=「 」部,表示起筆為折起筆劃成直角、或折起筆劃、或與其它筆劃組合成「框」的碼元。如「已、己、巳、巴、弓、聿、屮、肀、 弔、彑、母」等;H=「ㄑ」部,表示起筆為折起成鈍角、弧角或一筆多折除「 」的碼元。如「女、乚、乙、阝、廴、飛、與」等。
本發明的實現,也可以描述為把PC鍵盤分為五區26位,直接用「一、丨、丿、丶、乙」五類26個「正方部首」表示鍵帽,稱為「正方部首漢字鍵盤」第一區用「1」表示區號,包括「Q、W、E、R、T」依次表示為「一、二、三、匚、」,用序列號1、2、3、4、5表示其位號;第二區用「2」表示區號,包括「P、O、I、U、Y」依次表示為「冂、口、日、目、田」,用序列號1、2、3、4、5表示其位號;第三區用「3」表示區號,包括「Z、X、C、V、B、N、M」依次表示為「丿、 彡、乂、亽、、勹」, 用序列號1、2、3、4、5、6、7表示其位號;第四區用「4」表示區號,包括「A、S、D、F、G」依次表示為「丶、冫、氵、灬、忄」,用序列號1、2、3、4、5表示其位號;第五區用「5」表示區號,包括「L、K、J、H」依次表示為「亅、∠、 、ㄑ」 ,用序列號1、2、3、4表示其位號。
報據「正方部首漢字鍵盤」的設計原理,本發明可以通過簡單的定義轉換,實現數字鍵盤、或其它多種模擬定義鍵盤、及其終端的漢字輸入「正方部首數字鍵盤」漢字輸入技術,即通過數字鍵盤用0——9十個數字符號對「正方部首」及歸部碼元編碼,其特徵是依照我國3月份是頒布的GB18031l數字鍵盤的鍵位設定要求,用1、2、3、4、5依次代表第一筆為「橫、豎、撇、點、折」之「碼元」,即「正方部首漢字鍵盤」之區號,並用序列號1、2、3、4、5……表示「正方部首」所在「鍵盤」位號,規定「區號+位號」即兩個數字鍵碼組合表示一個「正方部首」及所屬碼元的編碼,根據這一數字鍵盤定義,本發明稱為「正方部首數字鍵盤」。
應用「正方部首數字鍵盤」輸入漢字,即按「三碼元」取碼規則,依次輸入三組「區號+位號」6個數字符,或「二碼字」輸入兩組「區號+位號」4個數字符表示的漢字編碼。
所述其它模擬鍵盤輸入技術,其特徵是按照「區號+位號」原理,可以設計一個表示「區號」的鍵碼、和一個表示「位號」的鍵碼,兩個鍵碼組合表示一個「正方部首」及歸部「碼元」,實現多種定義鍵盤及終端的漢字輸入。或在現有漢字識別技術基礎上,通過模擬輸入代表漢字的三個「正方部首」,經「內碼」轉換,手寫輸入漢字。
以上所述技術,構成了本發明實施對漢字編碼的核心技術,也就是說,通過上述不同實現方式依次輸入「三碼元」可以實現對漢字進行計算機編碼輸入,並作為計算機漢字檢字的方法,應用於編纂或使用電子辭書。
為了克服以上「三碼元」可能造成的重碼,並解決大字庫編程中的簡繁漢字共容問題,本發明規定在上述「三碼元」編程基礎上,所有漢字依照以下規則加「識別碼」一,「字型」識別碼規則。
1,「旁」為「部首」的漢字,如「部、基、別、進、暮」等,或「二碼字」,或者當「偏」為部首,並且為「大、革、酉、耳、方、米、礻、疒、穴、廣、彳、舟、山、日、目、田、阝、弓」等,在「三碼元」編程的基礎上,統一加「字型」識別碼;2,「旁」為「結構」,且為「左上偏右下旁」、或「穴」起成「上偏下旁」的組合,或規定之「享、亢、焦、翁、翕、巠、尋、壽、侖、龠」等,識別「結構」之字型;3,漢字重碼時,GB2312-80之集外漢字可以通過「字型識別碼」分離重碼;4,當部首為「艹」時,除常用字外,「結構」為獨體時要進行「獨體」識別;對1、2、3、4規定之「字型」或「結構」識別技術,即分別用標準鍵盤上的六個符號鍵作為識別代碼,表示漢字或「結構」的不同「偏」和「旁」組合形式。其中符號「]」表示「右上偏左下旁」除「旁「為「辶、廴」的漢字,數字鍵盤用1表示;符號「[」表示「左上偏右下旁」,數字鍵盤用2表示;符號「』」表示「左偏右旁型」,數字鍵盤用3表示;符號「;」表示「上偏下旁型」,數字鍵盤用4表示;符號「.」表示「外偏內旁」、或「旁「為「辶、廴」的漢字,數字鍵盤用5表示;符號「,」表示「內偏外旁」,數字鍵盤用6表示;符號「/」表示獨體結構、雜型,數字鍵盤用「8」表示。二,繁體識別規則其特徵是當漢字含有「車、言、 、飠、魚、烏、齒、貝、 、馬」等十個繁體「部件」時,優先要求對漢字進行繁體識別。
當「偏」含上述繁體部件時,識別代碼為「,」,數字鍵盤用「7」識別;當「旁」含上述繁體部件時,識別代碼為「.」,數字鍵盤用「9」識別。
三,「空格鍵」技術其特徵是除上述情形之外,所有漢字在「三碼元」的基礎上,或簡碼漢字一律補「空格鍵」輸入;數字鍵盤用「0」或可以特設「OK」鍵。
通過以上識別碼規則,本發明第一次實現了常用字即GB2312-80中676.3個漢字無重碼,「GBK」中的漢字編碼,重碼率也控制在5%之內,經「簡碼」或其它分級處理手段,實際重碼率僅在2%左右,是現有「形碼」中重碼率最低的一種方法。
而且,與現有「形碼」比較,本發明更加符合漢字構成規範一方面,偏旁部首漢字輸入方法,體現了漢字之形、意、音統一的本質特徵,符合人們傳統的認字、識字經驗。而且與我國語文教學完全一致。其優點在於人們可以根據漢字的表意、表音特點,直觀分解「碼元」、並依照學齡經驗輸入漢字。
另一方面,根據漢字構成的「部件學」原理,按偏旁部首構成原理直觀分解碼元,符合國家規定之「部件」規範,如GB13000.1中的560個部件,本發明第一次實現了無進一步拆分,並嚴格按筆劃筆順規律實施對漢字編碼的方法。
在規範的基礎上,本發明能夠帶來以下積極效果1,本發明在實現對「GBK」中漢字字符編碼輸入的基礎上,第一次解決了《信息交換漢字編碼字符集》GB18030-2000中27484個漢字的編碼問題,並具有對進一步擴展的集外漢字進行編碼的能力。為徹底解決戶政、郵政、金融、及漢字研究和古籍整理等迫切需要漢字信息處理,提供了一種規範的漢字輸入方法。
2,簡、繁漢字統一編碼,解決了簡、繁漢字共容的問題,適用於海內外人們不同的漢字使用習慣,即一種方法,應用於簡、繁編碼輸入的不同需要,這一顯著進步,為統一全球漢字輸入方法開創了一個嶄新的局面。
3,字、詞分級編碼,解決了詞庫的任意擴展問題,達到漢字高速輸入的目的。
4,應用於計算機漢字檢索技術,本發明為編纂或使用電子辭書提供了一種規範性與易學性統一的計算機部首檢字方法。
5,本發明是唯一具多種實現方式,可以實現電話、行動電話、傳真機、信息家電、掌上電腦及更多數字、或其它特殊模擬鍵盤等終端的漢字輸入,擴大了計算機漢字輸入技術的應用領域,是一種廣泛應用於現代生活的漢字輸入技術。
6,按偏旁部首規律並以定義的方式對漢字進行編碼,無字根記憶,規範、易學,而且完全與傳統中文教學相適應,適用於不同年齡、不同學齡經驗,對於進一步普及,規範計算機漢字輸入具有現實意義。
可以預見,本發明之上述優點及能夠帶來的積極效果,將給計算機漢字輸入領域帶來一輪新的革命。
權利要求
1.一種按偏旁部首的漢字輸入方法,是一項通過計算機PC鍵盤或數字鍵盤編碼實現漢字輸入的發明,其特徵是建立在漢字由偏旁部首構成之傳統認識基礎上,把漢字的構成定義為由「部首」與「結構」兩個獨立存在的基本部分以偏和旁的形式組合,依此規定「部首」取一碼、「結構」取兩碼,實行「三碼元」編程,並按漢字之先「偏」後「旁」書寫順序規定取碼流程,用公式表示為偏為部首時,編碼=部首碼元+結構(結構碼元+結構補碼);旁為部首時,編碼=結構(結構碼元+結構補碼)+部首碼元;獨體漢字的編碼=獨體本碼+獨體末型+獨體漢字字歸部代碼「/」(或數字符8);所取「三元碼」,按照「一、丶、丿、丨、乙」五種基本筆劃及「框」(指的是不同筆劃組成三面、或四面包圍的型)的屬性特徵及不同的組合規律,可以歸納為五類26部,每部通過定義一個象徵符號表示,對所屬「碼元」進行歸部,這個定義符號稱為「正方部首」,並在PC鍵盤,即標準英文鍵盤上用A-Z等26個英文字符表示,對起始筆劃、筆型及組合規律符合以下同一歸部定義的「碼元」依部編碼Q=「一」表示單橫,除橫起筆劃之其它規定情形以外的所有碼元;W=「二」表示兩橫、或「工、亞」等直觀上形成天地兩橫或「艹、卄」等起型碼元;E=「三」表示三橫、或「王、」等直觀上三橫並列,或「卅、 」等橫起連續被三筆交的,或「廿、世、革、 共」及特殊規定「韋」等起型的碼元;R=「」表示四橫、或「丁、戈、車、車、束」等橫起筆劃第二筆為折、為「框」,及「甘」和「镸、長、髟」等橫起成「框」起型的碼元;T=「丅」表示「丅、下、石、歹、耳、豖」等橫起筆劃組合形成上檔下通(除第二筆型為折、為框),或「其偏」、及「廠、索偏、賣偏」等橫起為「蓋」起型的碼元;A=「丶」表示一點起筆,或言(「訁」),除點起筆劃之其它規定情形的碼元;S=「冫」表示連續兩點起筆的所有碼元,如「冫、丷、丬、火、米」等;D=「氵」表示起筆為三點「氵、學偏」,或「、輝偏、小、 」等變型的碼元;F=「灬」表示起筆為連續四點、或「辶、之、礻、衤、戶、冖、冘、良」等點起第二筆為折(除「訁」)、或「門」等點起成「框」,或「疒、業、赤底」起型的碼元;G=「忄」表示「忄、心」或「廣、宀、穴蓋」等點起成「蓋」除「疒」起形的碼元;Z=「丿」表示起筆為獨立單撇起筆,或單撇接一橫、一豎、一點的碼元;X=「 」表示起筆為兩筆撇起(除「舟」),或撇起連續二橫、二豎、二點及撇起兩筆聚合的碼元,如「彳、戶、 牛、牜、午、缶、朱、失、矢、氣、採、八、兒、」等;C=「彡」表示起筆為三筆撇起,或撇起筆劃與三橫、三點組合及撇起三筆聚合的碼元,如「彡、 釒( 、金)、生、年、無、爫、採、川」等;V=「乂」表示起筆為撇起筆劃被交、或「白、臼、舟」等撇起接「框」的碼元;B=「亽」表示起筆為「千、舌、毛、禾、手、升、我」等撇起與下橫組合形成上檔下通,及「食(飠)、亽、含、合、令」等「人」起成「上偏下旁」組合的碼元N=「」表示起筆為撇起與單折相接組合成框,除「飠」的碼元M=「勹」表示起筆為撇起與一筆多折組合成「框」的碼元,如「幾、月、鳥(鳥)」等;P=「冂」表示豎起半框、或「卩」、「山」等直觀上和取義豎起半框起型的碼元;O=「口」表示連續筆劃,形成「口」字起型(除「蟲、貴偏、」)的碼元;I=「日」表示一豎起型、或「日、蟲、貴偏」起型的碼元;U=「目」表示起筆為二豎,如「止、齒、齒、介旁」等、或「目、罒、且、皿、見、、黑」,或「具偏」等形同「且」的碼元及「曲」等碼元;Y=「田」表示起筆為三豎、或「田、甲、畢、裡」等取義「四框」,或「土、士、 、南」等「十」字起型接橫、接「框」(除「古」)的碼元L=「亅」表示起筆為「亅、刂、乛蓋」、或「扌、寸、才、 」等豎釣交橫的碼元;K=「∠」表示折起筆形成銳角,除「亅」規定的碼元,如「子、糹( )」等;J=「 」表示「 、已、馬、 」等折起筆劃成直角、或「彑、母」等折起筆劃組合成「框」的碼元H=「ㄑ」表示折起筆形成鈍角、弧角或「阝」等一筆多折(除「 」)起筆的碼元。
2.如權力l所述偏旁部首漢字輸入方法,其特徵在於「偏」和「旁」指的是漢字構成的基本形式,即把漢字直觀分解為兩個部分,並依照之先「偏」後「旁」書寫順序,把先寫的部分稱為「偏」,後寫的部分稱為「旁」,歸納為①、右上偏左下旁; ②、左上偏右下旁;③、左偏右旁型;④、上偏下旁型;⑤、左下偏右上旁;⑥、外偏內旁、內偏外旁等六種組合方式;依此,把漢字直觀分解為以下兩個獨立存在的基本部分一是部首部分,指的是為許多漢字所共有而且保持含義上聯繫的「偏」或「旁」,或對於難以確認部首的合體漢字,統一規定「偏」為「部首」;二是結構部分,即相對於「部首」,即除「部首」以外,表示讀音、或表示指示、表意的「偏」或「旁」的部分,本發明稱之為「結構」。
3.如權力1所述偏旁部首漢字輸入方法,其特徵是獨體類漢字,可以是由一個獨立存在的部分獨立構成的不可分割的音、意、形統一的漢字,或構字「部件」,包括①,筆劃相交型漢字或部件,如「十、來、中、申、戈、未、聿」等;②,筆劃相接型漢字或部件,如「工、上、口、山、止」等;③,筆劃聚合型漢字或部件,如「心、水、小、二、三、八、兒、川、灬、氵」等;④,兩個部件組合獨體漢字,如「比、文、亡、單、見」等。
4.如權力2所述偏旁部首漢字輸入方法,其特徵是「部首」取一碼,是把符合本發明之「部首」定義的「偏」或「旁」作為「碼元」,稱為「部首碼元」;「結構」取二碼,是把符合本發明定義之「結構」的「偏」或「旁」作為「碼元」,稱為「結構碼元」;並對「結構」進行補碼識別,稱為「結構補碼」當「結構」為獨體字時,「結構補碼」為最後完成的、能夠獨立的單筆劃,或約定俗成的末型,或結構為「一、二、三、甘、小、心、人、兒、川、九、水」等筆劃聚合型獨體漢字時,「結構補碼」等於「結構」本碼;當「結構」為合體漢字時,「結構補碼」指「結構」之最後完成部分,可以是①,「點」起筆劃組合,如「搱、釃」中的「辛、鹿」;②,「左上偏右下旁」、「右上偏左下旁的組合」,如「詭、揭」中「厄、匃」;③,「人」起成「上偏下旁」的組合,如「搽、摻」中「茶旁、參旁」;④,「結構」為「左偏右旁型」、「外偏內旁型」的「旁」,如「蕩、揠」中「易、妟」;除①、②、③,④規定之外,指按書寫順序「結構」之最後完成的「獨體字」部分
5.如權力4所述偏旁部首漢字輸入方法,其特徵是當「結構」為獨體,且獨立末筆為交筆時,「結構補碼」可以是直接取交筆,可以直接用符號鍵之「]」、「[」、「』」、「;」、「.」、「,」或數字鍵1、2、3、4、5、6依次表示末筆為「橫、豎、撇、點捺、左向折、右向折」等交筆「碼元」的編碼。
6.如權力1、2、3所述偏旁部首漢字輸入方法,其特徵是下列情形漢字可以只取「部首碼元」和「結構碼元」兩碼,並加字型識別,稱為「二碼字」一是「部首」與單筆劃部件組合的漢字,如「扎、億、乞」等;二是「部首」與「大、工、王、甘、廠、火、廣、人、八、金、禾、魚、鳥、幾、山、內、口、日、曰、目、田、土、比、了、已、巴、乙」等「結構」的組合漢字;三是「部首」與其它為克服重碼可以允許只取一碼的「結構」的組合,如「夜、旁」或部首與「高」組合的漢字等,可以只取「偏」和「旁」碼。
7.如權力1、2、3所述偏旁部首漢字輸入方法,其特徵是「詞」或「詞組」的取碼規則用公式表示為二字詞=首字偏碼+首字旁碼+次字偏碼+次字旁碼,獨體字時取本碼和末型碼;三字詞=首字偏碼+次字偏碼+三字偏碼+三字旁碼,獨體字時取本碼和末型碼;四字詞=首字偏碼+次字偏碼+三字偏碼+四字偏碼,獨體字時取本碼;多字詞=首字偏碼+次字偏碼+三字偏碼+四字偏碼,獨體字時取本碼。
8.如權力1所述偏旁部首輸入方法,其特徵在於「正方部首」分為五類26部,可以描述為通過PC鍵盤五區二十六位,把A-Z26個英文字符鍵帽直接表示為26個「正方部首」,根據這一規則的鍵盤語言設置,本發明定名為「正方部首漢字鍵盤」,其中第一區包括「Q、W、E、R、T」,依次表示橫起筆劃之「一、二、三、、丅」等五個「正方部首」及歸部「碼元」,用序列號1、2、3、4、5表示其位號;第二區包括P、O、I、U、Y」,依次表示「豎」起筆劃之「冂、口、日、目、田」等五個正方部首及歸部碼元,用序列號1、2、3、4、5表示其位號;第三區包括「Z、X、C、V、B、N、M」,依次表示「點」起筆劃之「丿、 、彡、乂、亽、、勹」等七個「正方部首」及歸部「碼元」,用序列號1、2、3、4、5、6、7表示其位號;第四區包括「A、S、D、F、G」,依次表示撇起筆劃之「丶、冫、氵、灬、忄」等五個「正方部首」及歸部「碼元」,用序列號1、2、3、4、5表示其位號;第五區包括「L、K、J、H」等,依次表示「折」起筆劃之「亅、∠、 ㄑ」等四個正方部首及歸部碼元,用序列號1、2、3、4表示其位號。
9.如權力1、8所述偏旁部首輸入方法,其特徵是本發明的實現可以是用0——9十個數字鍵對「正方部首」及所屬碼元編碼,實現電話、傳真、手提電話等數字鍵盤或終端漢字輸入技術的轉換,方法是依照GB18031之數字鍵盤的鍵位設定,用數字1、2、3、4、5依次表示為橫、豎、撇、點、折等五區,每區用序列號1、2、3、4、5……表示「正方部首」所在鍵位,稱為位號,用兩個數字鍵,即「區號」+「位號」表示一個「正方部首」及歸部碼元;按「三碼元」取碼規則,通過輸入三組「區號+位號」即6個數字符,或「二碼字」兩組「區號+位號」4個數字符實現數字鍵盤的漢字編碼輸入;或者還可以是運用「位號」+「區號」原理對「正方部首」及歸部「碼元」編碼,設計的其它模擬鍵盤或非鍵盤方式的漢字輸入方法;或在現有「漢字識別技術」基礎上,通過模擬手寫輸入「正方部首」,實現對漢字手寫方式輸入。均屬於本發明權力要求範圍。
10.如權力1、2、3所述偏旁部首漢字輸入方法,其特徵是「三碼元」基礎上,為克服重碼,可以對下列規定漢字進行字型識別、或「結構」部分字型、或繁體識別①,當「旁」為部首,如「部、基、別、進、暮」等,或是當「偏」且為「大、革、酉、耳、方、米、礻、疒、穴、廣、彳、舟、山、日、目、田、阝、弓」等,統一在「三碼元」基礎上,加字型識別碼;②,當「旁」為「結構」,且為「左上偏右下旁」,「穴」起之「上偏下旁」結構,或為「享、亢、焦、翁、翕、坙、壽、侖、龠、 」等,識別「結構」字型③,漢字重碼時,GB2312-80之集外漢字可以通過「字型識別碼」分離重碼;④,當部首為「艹」時,除常用字外,「結構」為獨體時要進行「獨體」識別;⑤,是當漢字中含有「車、言、 、飠、魚、鳥、齒、貝、 、馬」等十個繁體字部件時,要求對漢字進行繁體識別;⑥,「空格鍵」補碼規則,除上述規定情形外,所有漢字在「三碼元」基礎上,或「簡碼字」一律補「空格鍵」輸入漢字,數字鍵盤設為0、或特設一個「OK」鍵。
11.如權10所述偏旁部首漢字輸入方法,其特徵是對漢字進行字型識別、或結構「部分」字型識別,可以用PC鍵盤上的七個符號鍵作為識別代碼,對規定「漢字」或「結構」進行字型識別,即①、符號「]」表示「右上偏左下旁」除「旁」為「辶、廴」的漢字,②、符號「[」表示「左上偏右下旁」,③、「』」表示「左偏右旁型」,④、符號「;」表示「上偏下旁型」,⑤、符號「.」表示「左下偏右上旁」、或「旁」為「辶、廴」的漢字,⑥、符號「,」表示「外偏內旁、內偏外旁」,⑦、符號「/」表示獨體與雜型,或數字鍵用1、2、3、4、5、6、8依次表示以上所述「偏」和「旁」的組合方式;繁體識別,可以是當「偏」含權力10之⑤所述繁體部件時,PC鍵盤識別代碼為「,」,數字鍵盤設為「7」,當「旁」含上述繁體部件時,PC鍵盤識別代碼為「.」,數字鍵盤用「9」識別。
全文摘要
一種偏旁部首漢字輸入方法,是解決「GBK」所涵蓋漢字字符之規範編碼的發明,它以漢字之偏旁部首構成的傳統認識為基礎,把漢字定義為由部首與結構兩個基本部分以偏和旁的形式組合構成,依此規定:部首取一碼,結構取兩碼,並按先偏後旁書寫順序取碼,實行「三碼元」編程。所取碼元,按起始筆劃的屬性特徵及組合規律,通過定義26個「正方部首」建部歸類,實現在計算機鍵盤上用A-Z編碼,或通過數字鍵盤用0-9編碼輸入漢字。
文檔編號G06F21/64GK1355465SQ0012810
公開日2002年6月26日 申請日期2000年12月1日 優先權日2000年12月1日
發明者劉再基 申請人:劉再基

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀