漢字筆畫與多重結構信息編碼法的製作方法
2023-04-28 01:52:41 3
專利名稱:漢字筆畫與多重結構信息編碼法的製作方法
技術領域:
本發明屬漢字信息化領域,它提供了一種將漢字結構信息用於漢字的計算機鍵盤輸入編碼方案。
背景技術:
漢字的計算機輸入編碼方案主要有音碼和形碼兩大類,本方案屬於型碼類,現有的較完整成熟的型碼輸入法主要有「五筆字型」、「鄭碼」、「倉頡碼」(主要用於臺灣地區)等幾種,其特點是將漢字拆分為不同的部件(「字素」、「元」、「字根」等)再將各部件用鍵入碼代替。在必要時也會將漢字結構類型(目前共認的簡單類型有上下,左右,包交三種)用指定字符代替。如五筆字型中的交叉識別碼,但並不將結構類型作為主要的編碼信息源。其缺點是字根繁雜,難於記憶,更主要的是編碼過程沒有充分利用漢字的結構信息。
發明內容
本方案則充分利用漢字結構的層次特點,將漢字結構與計算機鍵盤的平面布局相對應,同時又將漢字筆劃歸類後作為編碼信息。從而免除了學習者的記憶字根的麻煩。該方案主要包括以下兩部分(一)漢字結構拆分和取筆原則。
(二)與鍵盤的映射關係。
(一)漢字結構拆分和取筆原則1.首先,依照漢字(包括日本漢字和韓國漢字)筆畫數將漢字分類。它決定漢字拆分後的部件數,依此漢字可分為七類①一分漢字,單筆漢字僅三個(一,乙,和○)。
②一分半漢字,又稱原字,即筆畫數大於1小於或等於5而且可以出現在其它漢字中成為其一個獨立部件的漢字。
③二分漢字,即筆畫數大於1,小於或等於5的所有漢字。
④二分半漢字,即筆畫數大於5,小於或等於7的漢字。
⑤三分漢字,即筆畫數大於7,小於或等於10的漢字。
⑥三分半漢字,即筆畫數大於10,小於或等於12的漢字;⑦四分漢字,即筆畫數大於12的漢字。
2.將漢字筆畫分為五類①橫,又稱土筆,因「一」如地平線,它包括由橫演化而成為的提 在內。如「地」中左下一筆。
②豎,又稱木筆,因「丨」如挺立的大樹。
③撇,又稱金筆,因「丿」或「ノ」如同匕首或大刀。包括由撇演化而成的提 如「泰」中下部 的左下筆。
④捺,又稱火筆,它包括點「、」在內,二者如同燃燒升騰的火焰。
⑤折,又稱水筆,因 如彎曲的河流,它包括上述四類筆畫以外的所有其它筆畫如「し」「乛」等等。
3.漢字結構關係分類漢字結構關係包括平面關係和隸屬層次關係。
平面關係分為①上下關係②左右關係③內外或交叉關係漢字結構關係又有不同的級別,即結構的層次性,除前述的一分漢字(「一」、「乙」「○」)之外的任何一個漢字都可折分為兩個部分,即首部和末部,這兩個部件之間的結構關係稱為一級結構,如最簡單的「二」可拆為「一」和「一」,兩個「一」之間為上下關係,筆畫達37畫之多的「鼻囊」可拆分為「鼻」和「囊」,二者之間為左右關係。如果一級結構中的某個部件又可拆分為兩個部件,即一部和二部,所產生的結構關係稱為二級結構;同理,如果二級結構中的某個部件再進行拆分產生的部件為三級部件,即前部和後部,其結構關係稱為三級結構。本方案最多只將一個漢字拆分至三級結構,且不超過四個部件。可見漢字的三種結構關係表示的是一個漢字的同級結構中兩個部件之間的位置關係。
結構關係類型的確定使用以下規則假設一個漢字或其一個部件的外接矩形為A,四條邊分別為上邊「T」,下邊「B」,左邊「L」,右邊「R」。而拆分出的兩個部件的外接矩形分別稱為S1,S2。如果S1與A重合部分最多的邊為上邊,S1的下邊與「B」不重合,而S2的上邊與「T」不重複,S2與A重合部分最多的邊為下邊,則這兩個部件之間為上下關係,如「內」「包」。
如果S1與A重合部分最多的邊為左邊,右邊又不與「R」重合,而S2的左邊與「L」不重合,與A重合部分最多的邊為右邊,則這兩個部件之間為左右關係。
如果S1的左邊與「L」部分重合,右邊與「R」部分重合,S2的上邊與「T」部分重合,下邊與「B」部分重合則這兩個部件之間為交叉關係;如果S1完全把S2包圍,則二者為包圍關係,無論交叉或包圍統稱包交關係,通常所指「辶」「廴」「匸」「凵」等與其中的部件為包圍關係。
4.在以上漢字分類,筆劃分類,結構關係分類和結構層次定義的基礎上,依照下列拆分通則對漢字進行拆分。拆分通則
①直觀合理。
②原字優先③連筆成塊④等筆均衡「直觀合理」是指依照漢字構成中明顯的塊狀特性,由縱向或橫向分割溝將漢字自然地分割為幾個部分,如「好」顯然可拆分為「女」和「子」,「呂」拆分為「口」和「口」。單筆一般不作為一個部件拆分,除非該漢字筆畫數為二或三筆,或該單筆與其它部分有明顯的分隔特徵如「麗」、「絲」中的「一」,「亂」、「乳」中的「乚」,「蝨」中的 等。「大」可拆為「一」和「人」(交叉關係)。「子」可拆為「了」和「一」(交叉關係)。另外,包圍型的漢字,如果構成的包圍圈為整齊的四方形,按包交結構,如果某一邊長出,則依其所在方位不同可拆為其它結構類型,如「四」拆為「口」和「兒」(包交結構),而「皿」拆為「ㄇ」和 (上下結構)。「目」拆為「口」和「二」(包交結構),「且」拆為 和「三」(上下結構)。
「原字優先」是指利用漢字會意,形音等特點,當一個漢字或部件如果不能直觀地拆分為兩個部件或可有不同的拆分結果時,以本案前述的「原字」為優先,如「冀」,既可拆為 和「共」,又可拆為「北」和「異」但由於第二種拆分中有「北」為原字,故應選後者。
「連筆成塊」是指相連的筆畫儘量不拆分,同時也指「氣」相連的筆畫,即雖然表面上並不相連,但在書寫中會比其它筆畫更連貫或有「一氣呵成」的感覺,如「愛」中的「爫」,「小」而的「八」,「水」中的 「玉」中的 「丹」中的「亠」 「母」中的 「乖」中的「北」,「哭」中的「口口」,乘中的「北」,「爽」中的 「真」中「具」 拆為 和 「鬥」中的 中的「彡」 「正」中的「一」「井」中的 等。
「等筆均衡」是指一個漢字或一部件拆分後的兩部分筆畫數儘量相近,即以二者筆畫數相差較小者為拆分方案,如「樹」既可拆為「權」和「寸」,也可拆為「木」和「對」,而「寸」和「木」又都為原字,依「原字優先」也無法取捨,而根據「等筆均衡」則應取第二種方案,因「權」和「寸」筆畫數分別為6和3,而「木」和「對」筆畫數為4和5。
5.依據上述拆分規則對各類漢字進行拆分一分漢字不用拆分。
二分漢字此類漢字依拆分通則均拆分為兩個部件,稱為首部和未部,二者所對應的結構關係為一級結構。分別取首,未部的前兩筆,不足兩筆時僅取一筆。
二分漢字先依拆分通則對其進行一級拆分,並確定一級結構類型,再對兩個部件中筆畫較多的一部進行二級拆分,若二者筆畫數相同,則取不是原字的一個部件進行拆分。若二者筆畫相同,且又都是原字則取末部進行二級拆分,拆分後的部件稱為首一部、首二部或末一部、末二部,其結構類型為二級結構。取首部的前兩筆,末一部和末二部各取第一筆,或首一部和首二部各取一筆,末部取前兩筆。如「格」的首部為「木」,末一部為「夂」末二部為「口」,一級結構為「左右」,二級結構為「上下」,取「木」的前兩筆,「一」、「丨」, 和「口」的第一筆 和「丨」。
更嚴謹(針對專業打字人員)的取筆方法是比較首部,末二部或首一部,末部的筆畫數,取筆畫數較多者的前兩筆,若二者筆畫數相同,則取其中為原字者的前兩筆,若二者均為原字,則取末二部或末部的前兩筆。
四分漢字,先依三分漢字相同的拆分方法將其拆分為三個部件首一部、首二部、末部,或首部、末一部、末二部,然後再對三者中筆畫數最多者進行三級拆分,並確定三級結構關係類型。若三者筆數相同,則對首一部、末部或首部、末二部之中不是原字的部件進行拆分,若這兩部均為原字或均不是原字,則對末部或末二部進行拆分,最後四個部為首一部、首二部、末一部,末二部,或首一前部、首一後部、首二部、末部;或首一部、首二前部、首二後部、末部;或首部、末一前部,末一後部、末二部;或首部、末一部,末二前部、末二後部。
一分半漢字界與一分漢字與二分漢字之間,若不拆分,則依書寫順序取其首筆之後的各筆,取完為止;若拆分,則與二分漢字的拆分與取筆原則相同。
二分半漢字既可按二分漢字拆分,又可按三分漢字拆分。
三分半漢字既可按三分漢字拆分,又可按四分漢字拆分。
(二)與鍵盤的映射關係。
以標準美國鍵盤布局為參照,即在Microsoft DOS中Keyb設置Keyboard Code為us,採用下述方法在漢字與鍵位之間建立對應關係,即由漢字到鍵位的映射。
主映射域包括三十一個鍵位。具體包括二十六個英文字母鍵(A~Z),及「;」「,」「。」「/」和空格鍵;輔助映射域包括鍵盤右側的數字鍵,即1,2,3,4,5,6,7,8,9,0,十個鍵位。
主映射域的劃分有兩種方法1、QWERT為橫起區,YUIOP為豎起區,ASDFG為撇起區,HJKLM為捺起區,ZXCVB為折起區;同時,在縱向上RFV和UJ為橫筆位,EDC和IK為豎筆位,WSX和OL為撇筆位,QAZ和PM為捺筆位,TGB和YH為折筆位,空格鍵為分隔鍵。這種劃分方法對應於一分漢字和無需拆分的一分半漢字的映射關係,具體是指以該字的首筆確定其對應的區,然後,從第二筆起以每筆筆畫類型對應於該區內相同的筆位,不足四筆時以空格鍵結束。
如「口」首筆為「丨」,確定其對應的區為豎起區(YUIOP),後續兩筆為 和「一」,對應該區內的折鍵位「Y」和橫鍵位「U」,不足四筆以空格鍵結束,故其編碼為「YU 」( 為空格鍵)。同理「本」編碼為「EWQR」。
2、將主映射域劃分為起始區和終止區,拆分為兩個或兩個以上部件的漢字其編碼首位都在起始區內,其編碼末位都在終止區內。起始區又分為上部、左部和包部,上部包括Q、W、E、R、T,右部包括A、S、D、F、D,包部包括Z、X、C、V、B,終止區又分為下部、右部、交部和空格鍵,其中下部包括Y、U、I、O、P,右部包括H、I、K、L「;」,交部包括N、M、「,」、「.」和「/」。同時,縱向又將R、F、V和U、J、M稱為橫筆位,E、D、C和I、K、「,」稱為豎筆位,W、S、X和O、L「.」稱為撇筆位,Q、A、Z和P,「;」「/」稱為捺筆位,T、G、B和Y、H、N稱為折筆位。該劃分方法對應於所有至少拆分為兩個部件的漢字與鍵位的映射關係,具體如下(1)對於僅拆分為兩個部件的漢字(包括二分漢字和與二分漢字拆分和取筆方法相同的二分半漢字)先依據結構關係確定其首部在起始區的位置和末部在終止區的位置,再按照取筆順序在相應部中選取與筆畫對應的鍵位。
如「天」拆為「二」和「人」,二者為上下結構,故先在「上部」中取「二」的前兩筆對應的鍵位「RR」,再在「下部」中取「人」的前兩筆對應的鍵位「OP」故「天」的編碼為「RROP」,而「夫」拆為「二」和「人」,但二者為交叉結構,故其編碼為「VV./」。同理「好」的編碼為「GAHH」注意,「上部」、「下部」等名稱並不一定指在上的部件或在下的部件,只是指兩個部件之間為「上下關係」,按照書寫順序個別情況下,有可能是在下面的部件對應「上部」,而在上面的部件對應「下部」,如「內」,但通常情況下並不會出現這種現象。同樣,「包部」、「交部」,只是指二者之間結構關係為包圍或交叉關係,並不一定外面的部件對應「包部」,被包在裡面的部件對應「交部」,例如「遠」按書寫順序「元」在先,對應「包部」,「辶」後寫,對應「交部」,雖然後者包著前者。
(2)對於拆分為三個部件的漢字(包括三分漢字和與三分漢字取筆方法相同的二分半漢字和三分半漢字),應先按一級結構類型確定兩個一級部件所對應的「部」,再用其中被拆分的一個部件的兩個二級部件所對應的「部」代替其一級部件所對應的部,從而構成代表三個部件所對應的「部」名順序,稱為「部序」;如果「部序」中的中間一個部名與其中另兩個部名相同,則按照「上左包上」或「下右交下」的順序用後面的部名代替該部名,最後依照「部序」再將各部件所取的筆畫對應於相應的鍵位即形成該漢字的編碼。
如「眾」拆為「人」和「從」,一級結構類型為「上下」,「從」又拆分為「人」和「人」,對應的二級結構類型為「左右」,用「左右」代替「上下」中的「下」形成「部序」,「上左右」,如果每個部件取其首筆(這裡均為「丿」),則「上部」的「W」,「左部」的「S」和「右部」的「L」組合成「眾」的編碼「WSL」。如「芸」一級結構為「上下」,兩個部件為「艹」和「雲」,「雲」再拆為「二」和「厶」,二級結構類型仍為「上下」,用後一個「上下」代替前一個「上下」中的「下」,形成的「部序」為「上上下」,其中間的「上」被「上左包上」順序中「上」後面的「左」替換,形成的「部序」為「上左下」,這三個部件中「艹」取前兩筆「一」、「丨」,對應「上部」的「RE」,「二」的第一筆「一」,對應「左部」的「F」,「厶」取第一筆 對應「下部」的「Y」,於是,「芸」的編碼為「REFY」。
(3)四分漢字或與之拆分方法相同的三分半漢字與鍵位的映射關係比較複雜,詳述如下①對於僅拆分至二級結構的漢字,即四個部件為首一部、首二部、末一部和末二部,應先按兩個二級結構關係類型確定區四個部件對應的部形成一個「部序」,如果該字的一級結構為「上下」型,則「部序」中第二部應由「下右交下」中與之對應的部名的下一個部名取代,形成最終為「部序」;如果該字的一級結構為「左右」型,則「部序」中第二個部名由「下右交下右」中對應部名的後面第二個部名取代形成最終的「部序」;如果該字的一級結構類型為「包交」型,則「部序」中第二個部名和第四個部名均由「下右交下」中對應部名後一個部名取代形成最終的「部序」。然後依照最終的「部序」按首一部、首二部、末一部、末二部各部件首筆的筆畫對應的筆位進行取碼。
例如「超」先拆分為「走」和「召」,一級結構關係為「包交」,首部「走」又拆為「土」和 二級結構關係為「上下」,末部「召」拆為「刀」和「口」,二級結構關係也是「上下」,兩個二級結構關係形成部序「上下上下」。而其一級結構關係為「包交」,依照上述規則,其部序中第二個部名「下」由「下右交下」的後一個部名「右」取代,第四個部名「下」也由「右」取代,形成新的部序「上右下右」,然後按照首一部「土」的首筆「一」,首二部 的首筆「丨」末一部「刀」的首筆 和末二部「口」的首筆「丨」分別在「上右上右」各部中對應的筆位「R」、「K」、「T」、「K」便構成「超」的編碼「RKTK」。
②對於首、末部之一不拆分,而另一個又進行了二級和三級拆分的漢字,應是按照各部件順序對應的部名形成一個部序。
如果部序中的第一個部名為首部所對應的部名,而第二個部名與第一個部名相同,則第二個部名由其在「上左包上左包」中對應的部名的後面第二個部名取代;如果第三個部名與第四個部名即末二個部名相同,而第二個部名沒有上述的取代過程,則第三個部名由其在「下右交下」中對應的部名後面的部名所取代;如果第二個部名已經被取代過,則第三個部名由其在「下右交下右交」中的後面第二個部名代替;如果第三個部名與第一個部名相同,並且第二個部名已被取代,則第三個部名由其在「上左包上左包」中對應部名的後一個部名取代。
如果部序中的第四個部名為末部對應的部名,而第三個部名與之相同,則第三個部名由其在「下右交下右交」中對應部名的後一個部名取代;如果第二個部名與第一個部名即首一部對應的部名相同,而第三個部名沒有上述的取代過程,則第二個部名由其在「上左包上左包」中對應的部名後第二個部名取代;如果第三個部名已被和代過,第二個部名由其在「上左包上左包」中的對應部名後面一個部各取代;如果第二個部名與第四個部名相同,並且第三個部名已被取代過,則第二個部名由其在「下右交下右交」中對應部名的後面第二個部名取代。
經上述對部序的修正後形成最終的部序,之後,按各部件首筆對應各部中的相應的筆位即完成該漢字的編碼。
輔助映射域的十個鍵位劃分為①筆畫鍵位區,包括1、2、3、4、5,它們分別對應橫、豎、撇、捺、折五類筆畫。
②結構類型鍵位區,包括7、8、9,分別對應上下結構,左右結構和包交結構三種結構關係。
③分隔鍵位,即「0」。
④功能鍵位即「6」,它是字詞功能換鍵。
一分漢字或不拆分的一分半漢字與輔助映射域的映射關係為
按書寫順序用筆畫鍵位區內對應的筆畫鍵排列,不足五筆時可用分隔鍵「0」結尾。
對於其它漢字,按照每個部件的先後順序取其首筆對應的筆畫鍵,必要時可取某一部件的第二筆;兩個部件之間的結構關係用結構類型鍵位區中對應的鍵;該結構類型鍵重複的次數與其結構級別相同,即一級結構用一次,二級結構用兩次,三級結構用三次,必要時,即不能明確判斷該漢字編碼完結時,可用「0」結尾。
例如「大」的書寫順序為「一」、「ノ」, 其編碼為「1340」。「洋的拆分方案為」首部「氵」 末部「羊」,一級結構為「左右」,「羊」又拆為「」和「キ」二級結構類型為「上下」,故其編碼為「4847710」。
輔助映射域的映射關係亦適用於電話等終端的漢字輸入。
權利要求
1.本發明屬於漢字計算機輸入編碼技術領域,本領域以漢字字型為編碼信息源的編碼方法具有「見字得碼」的優點,其中以目前最為普及的「五筆字型」編碼法為代表,但其複雜的字根難於記憶,拆分規則也不易掌握,本方案以漢字部件的筆畫和結構類型及層次特點作為信息源,並對計算機鍵盤進行不同方式的平面劃分,將二者以動態方式映射對應形成編碼從而克服了現有技術的上述缺點,其特徵在於(1)依據漢字筆畫數將漢字分為七類。一分漢字、二分漢字、三分漢字、四分漢字和一分半、二分半漢字、三分半漢字,由此決定該漢字應拆分為幾個部件。(2)漢字結構關係有平面關係和隸屬分級關係。(3)依拆分原則「直觀合理,原字優先,連筆成塊,等筆均衡」將漢字拆分為部件並確定結構關係類型,再依據映射關係轉換成編碼。(4)將計算機鍵盤布局劃分為域、區、部、位以適應不同的映射關係。
2.根據權利要求1所述的漢字七種類型為一分漢字(單體字)僅包括「一」、「乙」和「○」三個漢字,不拆分,僅有一個部件。二分漢字筆畫數大於1小於或等於5的漢字,拆分為兩個部件。三分漢字筆畫數大於7小於或等於10的漢字,拆分為三個部件。四分漢字筆畫數大於12的漢字,拆分為四個部件。一分半漢字(原字)筆畫數大於1,小於或等於5,並可作為另一個漢字拆分中獨立的一個部件,可以拆為兩個部件,也可不拆分。二分半漢字筆畫數為6或7的漢字,既可拆為兩個部件,也可拆為三個部件。三分半漢字筆畫數為11或12的漢字,既可拆為三分部件,也可拆為四個部件。
3.權利要求1所述漢字結構關係。漢字兩個同級部件的隸屬分級關係分為一級結構關係由一個漢字直接拆分為兩個部件之間的關係。二級結構關係由一級部件再次拆分為兩個二級部件之間的關係。三級結構關係由二級部件再次拆分成兩個三級部件之間的結構關係。
4.根據權利要求1所述的鍵盤布局劃分,主要特徵是主映射域在橫向上劃為「上部」、「下部」、「左部」、「右部」、「包部」和「交部」。「上部」、「左部」和「包部」組成起始區。「下部」、「右部」、「交部」和空格鍵組成終止區。同時縱向上又劃為「橫筆位」、「豎筆位」、「撇筆位」、「捺筆位」和「折筆位」。輔助映射域中包括結構關係鍵位區。漢字與鍵位的映射關係在主映射域內為部件筆畫對應「筆位」,結構關係對應「部」的排列順序;在輔助映射域內為結構關係對應結構鍵位的重複次數。
5.根據權利要求4所述的漢字與輔助映射域的映射關係亦適用於電話等終端的漢字輸入。
全文摘要
本發明屬於漢字計算機輸入編碼技術領域。本方案以漢字部件的筆畫和結構類型及層次特點作為信息源,並對計算機鍵盤進行不同方式的平面劃分,將二者以動態方式映射對應形成編碼。依據漢字筆畫數將漢字分類,由此決定該漢字應拆分為幾個部件。依據「直觀合理,原字優先,連筆成塊,等筆均衡」拆分原則將漢字拆分為部件並確定結構關係類型,再依據映射關係轉換成編碼。將計算機鍵盤布局劃分為域、區、部、位以適應不同的映射關係。
文檔編號G06F3/023GK1512312SQ0215999
公開日2004年7月14日 申請日期2002年12月31日 優先權日2002年12月31日
發明者楊紅林 申請人:楊紅林