新四季網

漢字拆分和編碼方法

2023-05-02 10:03:46 2

專利名稱:漢字拆分和編碼方法
技術領域:
本發明是關於漢字的一種拆分和編碼方法。
目前漢字編碼方法很多,已經在計算機上使用的漢字編碼方法有幾十種,其中包括最常見的拼音碼、首尾碼、五筆字型碼、大眾碼和表形碼等。這些編碼都未能很好地同時解決漢字拆碼的簡易性、漢字輸入的快速性和編碼方法易記易學三方面的矛盾。例如拼音碼,雖然簡單易學,但重碼率高,輸入速度慢。首尾碼、五筆字型碼、大眾碼和表形碼等雖能實現漢字的快速輸入,但漢字拆碼難,部件或字根難以記憶。最近出現的自然碼,是在雙拼法基礎上發展起來的,它採用以詞為主導、字詞混合的編碼方法,其漢字輸入速度更高。但是這種編碼方法仍然存在漢字不易拆碼、部件多、難以記憶等缺點。
本發明的漢字拆分和編碼方法在於通過選擇漢字中的子漢字對漢字拆分,然後採用聲碼、韻碼和形碼(英文字母或數字)中的各種碼或部分碼對漢字或漢字拆分後的各個部分(以下統稱為子部)進行編碼。這樣使漢字拆分變得十分簡單,因此徹底克服了許多編碼方法中存在的漢字難拆分、部件多、難記憶等缺點。對於熟練掌握漢語拼音、一般掌握漢語拼音和完全不懂漢語拼音的人,都能夠做到漢字拆分容易、編碼方法簡單、易記易學、重碼率低,可以實現漢字的高速度輸入。
下面對本發明進行詳細說明。
按漢字拆分成的子部數目不同,本發明的編碼體系可分為兩分體系(漢字最多拆分成兩部分)、三分體系(漢字最多拆分成三部分)和四分體系(漢字最多拆分成四部分)。對於不同的編碼體系,有不同的編碼方法。在每種體系中,可分為以10個數字或10個英文字母為碼元的全形碼法和以26英文字母為碼元的四位碼長形碼法。前者又分為五位碼長法和六位碼長法,後者又分為全形碼法和部分形碼法。本發明共提供了12種編碼方法,可採用任何一種方法對所有漢字和詞組進行編碼。
子漢字是指漢字本身或子部中所包含的由最大部分構成的漢字。我們規定交式單體字不拆分,因此交式單體字不包含子漢字。另外,我們規定漢字「一」不是子漢字,因此「一」不作為子漢字參與對漢字的拆分。
本發明對漢字的拆分原則是1.按照二分體系或三分體系或四分體系將漢字最多拆分成二或三或四部分。如將「辭」拆分成兩部分時,為「舌」和「辛」,拆分成三部分時,為「舌」、立」和「十」,拆分成四部分時,為「千」、「口」、「立」和「十」。
2.按照二分體系或三分體系或四分體系將漢字儘量拆分成二或三或四部分。如在四分體系中,「許」拆分成「訁」、「丿」、「一」和「十」四部分。
3.漢字拆分時,儘量先取最大的部分作為子漢字,如有需要,子漢字還可繼續拆分。如「暮」先拆分成「莫」和「日」,在三分和四分體系中,「莫」再逐步拆分出「大」、「日」。「熊「也類似。
4.漢字中的各部分儘可能多地參與編碼。如「贛」拆分成四部分時,先拆分出「章」後,再從其右半部拆分出「貢」,「貢」再拆成「工」和「貝」。
5.除相交筆畫外,所有漢字都按筆畫順序進行拆分。如從「產」的前部分拆分出子漢字「立」,而不從後部分拆分出子漢字「廠」。
6.漢字儘可能多地拆分出子漢字。例如在四分體系中,「躁」拆分成。口」、「止」、「品」和「木」。「簷」拆分出。木」、「八」和「言」,而不是拆分出「木」和「廠」。
漢字本身、第一子部和第二子部等都可有形碼,分別記為形01、形02、形11、形12、形21和形22等。漢字本身可有聲碼、韻碼,子漢字可有聲碼,它們可分別記為聲0、韻0、聲1、聲2等。分別表示漢字聲碼、韻碼和第一、第二子部的聲碼等。
二分體系中漢字的拆分方法和編碼方法在二分體系中,通過選擇漢字的字首或字尾部分(當字首不存在子漢字時)的子漢字對漢字拆分,並按漢字是否可拆分,將漢字分為單部字和雙部字,然後採用聲碼、韻碼和形碼中的各種碼或部分碼對漢字或漢字拆分後的子部進行編碼。
1.單部字具有下列特徵的漢字為單部字。
(1)交式單體字,如東、未、申、中、串和豐等。
(2)不能拆分出子漢字的連或散式單體字,如心、瓜、爪和予等。
(3)不能拆分出子漢字的雙體字或多體字,如卵、扎和巡等。
(4)僅中間部分可拆分出子漢字的漢字,例如烹、羔。
2.雙部字具有下列特徵的漢字為雙部字。
(1)至少字首部分為子漢字的連式或散式單體字,如父、太、今、令、矛、產、名、易、星、歲和盡等。「太」拆分為「大」和「丶」,「盡」可拆分為「尺」和「
」。
(2)僅字尾部分為子漢字的連式或散式單體字,如白、亞、亙等,「白」拆分為「丿」和「日」,「亙」拆分為「一」和「旦」。
(3)雙體字中至少有一體為子漢字,如從、明、訂、江、過、閉、暢、春、純和氙等。「明」拆分為「日」和「月」,「鵝」拆分為「我」和「鳥」。
(4)僅字首或字尾部分為子漢字的漢字,前者如足、走等,後者如受、帝、字、著、帚和學等。「足」拆分為「口」和「
」,「受」拆分為「爫」和「又」等。
三分體系中漢字的拆分方法和編碼方法在三分體系中,採用下列步驟對漢字拆分,(1)通過選擇漢字的字首或字尾部分(當字首不存在子漢字時)的子漢字對漢字拆分,拆分後的子部可按其中的子漢字繼續拆分,(2)如果字首或字尾部分都沒有子漢字,則可通過選擇漢字中間部分的子漢字對漢字拆分,根據漢字拆分結果,將漢字分為單部字、雙部字和三部字,然後採用聲碼、韻碼和形碼中的各種碼或部分碼對漢字或漢字拆分後的子部進行編碼。
二分體系中的某些單部字,在三分體系中仍為單部字,例如串,而一些單部字可通過字的中間部分拆分成三部字,例如「羔」。如果二分體系中的雙部字可繼續拆分,則可以拆成三部字。如果僅第一部或者第二部可拆分成兩部分,則只要將其拆分,就可以拆成三部字。如果第一部和第二部均可拆分成兩部分,則它們的拆分原則是如果第一、第二部拆分後,得到的子漢字數目分別為α和β,當α≤β時,則拆分第二部。注意如果拆分第一部後各部所包含的子漢字總數大於拆分第二部後各部所包含的子漢字總數,則拆分第一部。如按三分法拆分「殿」,拆分左半部後子漢字有「屍」、「共」和「殳」,總數為三,拆分右半部後的子漢字只有「幾」和「又」,總數為二,所以應拆分左半部。如果第一、第二部都不包含子漢字,則漢字仍為雙部字。
下面具體對單部字、雙部字和三部字進行詳細說明。
1.單部字具有下列特徵的漢字為單部字。
(1)交式單體字如東、未、申、中、串和豐等。
(2)無法拆分出子漢字的連或散式單體字如心、瓜、爪和予等。
(3)無法拆分出子漢字的雙體字或三體字如卵、扎和巡等。
2.雙部字具有下列特徵的漢字為雙部字。
(1)只能拆分出一個子漢字或只能拆分成兩個子漢字的連式或散式單體字,例如父、太、白、今、矛、產、亞、名、易、星和歲等。「太」拆成「大」和「丶」,「歲」拆分為「山」和「夕」。
(2)雙體字中至少有一體為子漢字,且此二體不能再拆出子漢字,例如從、明、訂、江、過、閉、鵝、汞、純和氙等。「明」拆分為「日」和「月」,「鵝」拆分為「我」和「鳥」。
(3)僅字首或者字尾部為子漢字的漢字,前者如足、走等,後者如受、帝、字、著、帚和學等。「足」拆分為「口」和「
」,「受」拆分為「
」和「又」等。(4)三體字或多體字中,拆分成兩部分後,不能再拆分出子漢字,如「昂」拆分為「日」和「
」。
3.三部字具有下列特徵的漢字為三部字。
(1)可拆分出子漢字、且該子漢字可再拆分出子漢字的連或散式單體字,如光、矢、百、卓、丟、午、舌和缶等。「舌」拆分為「千」和「口」,「千」再拆分為「丿」和「十」。
(2)可拆分出兩個子漢字的連或散式單體字,例如桌、享和卒等。「卒」拆分為「亠」、「從」和「十」。
(3)僅中間部分為子漢字的漢字,例如魚、羔和荒等。「魚」可拆分為「」、「田」和「一」,「荒」拆成「艹」、「亡」和「
」。
(4)至少有一體為子漢字、並且該子漢字可再拆分出子漢字的雙體字,例如敵、柏、玻、殘、柔、肩、閏、遲和慶等。從「玻」拆分出「皮」,從「皮」再拆分出「又」。
(5)三體字中至少有兩體為子漢字,如享、崇、冀、崽、品、嶄、想、枷、斑、輯、昭、部、尉、闊、廂和屢等。「崽」拆分成「山」、「田」和「心」,「斑」拆分為「王」、「文」和「王」。
(6)三體字中有兩體可構成子漢字、且該子漢字可再拆分出一個子漢字,如徹、餵、漕和褓等。「褓」的最右面兩體可構成子漢字「保」,從「保」中可再拆分出一個子漢字「呆」。
(7)具有下列特徵的三體字或多體字,如贏和囂等,它們均由五個獨立的子漢字構成,則拆分出最前面兩個子漢字作為第一、第二部,剩餘部分作為第三部。例如「贏」拆分為「亡」、「口」和「
」。疑和嶷等,可採取類似方法進行拆分。如「疑」拆分為「匕」、「矢」和「
」。
四分體系中漢字的拆分方法和編碼方法在四分體系中,採用下列步驟對漢字拆分,(1)通過選擇漢字的字首或字尾部分(當字首不存在子漢字時)的子漢字對漢字拆分,拆分後的子部可以按照其中的子漢字繼續拆分,(2)如果漢字的字首或字尾部分都沒有子漢字,則可以通過選擇漢字中間部分的子漢字對漢字拆分,根據漢字拆分結果,將漢字分為單部字、雙部字、三部字和四部字,然後採用聲碼、韻碼和形碼中的各種碼或部分碼對漢字或者漢字拆分後的子部進行編碼。
漢字按照二分法和三分法拆分後,有的可繼續拆分成三部字和四部字,有的應直接從二分體系中雙部字拆分成四部字,不應經過三部字。如「糕」經過兩次拆分後,為「丷」、「木」和「羔」,在四分體系中它應拆為「米」、 「丷」、「王」和「灬」。
對三分體系中的三部字,如果第一、第二和第三部拆分後,得到的子漢字數目分別為α、β和γ,當α≤β和γ≤β時,則規定拆分第二部。當α≤γ和β<γ時,則規定拆分第三部。如果拆分第一部後各部所包含的子漢字總數分別大於拆分第二部和第三部後各部的子漢字總數,則拆分第一部,例如「壁」拆分為「屍」、「口」、「辛」和「土」。如果拆分第三部後各部包含的子漢字總數大於拆分第二部後各部包含的字漢字子漢字總數、且不小於拆分第一部後各部的子漢字總數,則規定拆分第三部。如果第一、第二和第三部都不包含子漢字,則漢字仍為三部字。
具體地說,三分體系中關於單部字和雙部字的說明仍然適合於四分體系,而三部字的說明在四分體系中有些不同。
1.三部字具有下列特徵的漢字為三部字。
(1)可拆分出一個子漢字、且該子漢字只可再拆分出一個子漢字的連式或者散式單體字,如光、矢、百、卓、丟、午、舌和缶等。
(2)只可拆分出兩個子漢字的連或散式單體字,如桌等。
(3)僅中間部分含有一個子漢字的漢字,如參、魚、羔和荒等。
(4)至少有一體為子漢字、且僅該子漢字只可再拆分出一個子漢字的雙體字,如柏、殘、柔、肩、遲和慶等。
(5)三體字中至少有兩體為子漢字,且三體都不能再拆出子漢字,例如享、崽、森、品、嶄、想、枷、樹、湘、輯、昭、凱、部和廂等。
(6)三體字中僅兩體可構成子漢字、且該子漢字只可再拆分出一個子漢字,而另一體不能拆分出子漢字,如徹、餵和漕等。
2.四部字具有下列特徵的漢字為四部字。
(1)在至少有一體為子漢字的雙體字中,至少有一體含有兩個以上的子漢字,如說、熊、糅、餈和蓽等。
(2)在至少有一體為子漢字的雙體字中,兩體中各含有一個以上的子漢字,例如踉和糲等。
(3)三分體系中的三部字,至少有一部還可分出一個子漢字,例如智、壁、鵠、解、煤、蜘、弼、凰、屢、盜、哭和闊等。
(4)漢字拆分成四部分後,至少有三部為子漢字,如燠、潭、蹉、蹁、腐、摩、鼓、驥、蟑和鰨等。
(5)中間部分可拆分出兩個子漢字,如烹和卒等。
(6)漢字拆分成四部分後,至少第一和第三部均為子漢字或至少第二和第四部均為子漢字,前者如煮、熹、亟和嬗等,後者如復、褚、靠、灌、疑和攝等。
(7)具有下列特徵的多體字,如贏和囂等,它們均由五個獨立的子漢字構成,則拆分出最前面的三個子漢字作為第一、第二、第三部,剩餘部分作為第四部。又如嶷,可採取類似的方法進行拆分。
各種體系中漢字的編碼方法和編碼規則在不同的編碼體系中,漢字編碼方法都包含有四位碼長法、五位碼長法和六位碼長法。五位碼長法和六位碼長法均採用10個數字或英文字母作碼元,它們分別與不同的筆畫及其組合相對應,即分別對應於橫、豎、撇、點、折、叉、串、撇、點和方塊及其組合筆畫等。四位碼長全形碼法採用26個英文字母作碼元,它們分別與不同筆畫及其組合相對應,即分別對應於橫、豎、撇、點、折、叉、串、八和方塊及其它們的組合筆畫等。下面說明採用10個數字或英文字母作碼元的編碼方法(以下簡稱為10碼元編碼法)和編碼規則。10個碼元的典型代碼規則見下表
高頻字或高頻部首作為子漢字或非子漢字子部時,不再拆分。10個碼元0-9可用10個英文字母Q、W、E、R、T、Y、U、I、O和P或其它英文字母代替。
我們在前面曾指出過除相交筆畫外,所有漢字都按照筆畫順序進行拆分。如對於「戌」、「吏」等有相交筆畫的漢字,均要優先處理相交筆畫,「戌」的編碼為734,「吏」的編碼為772。
帶有叉和串的漢字或者子部編碼規則如下1兩筆相叉,代碼一律為6。
2三筆相串,代碼一律為7。
3四筆以上筆畫相交,優先處理相串筆畫。如「豐」的編碼為76,「夷」的編碼為774。
10碼元編碼方法和編碼規則10碼元編碼方法分為五位碼長法和六碼長法。
五位碼長法單部字編碼規則為形01+形02+形03+形04+形05,碼長為1-5碼。
雙部字如果第一部僅有一碼,則第二部最多取四個碼,編碼規則為形11+形21+形22+形23+形24,碼長為2-5碼。
如果第一部有兩個以上碼,則第二部最多取三個碼,編碼規則為形11+形12+形21+形22+形23,碼長為3-5碼。
三部字如果第一部和第二部都僅有一個碼,則第三部最多取三個碼,編碼規則為形11+形21+形31+形32+形33,碼長為3-5碼。
如果第一部只有一個碼,第二部有兩個以上碼,則第三部最多取兩個碼,其編碼規則為形11+形21+形22+形31+形32,碼長為4-5碼。
如果第一部有兩個以上碼,則第三部最多取兩個碼,編碼規則為形11+形12+形21+形31+形32,碼長為4-5碼。
四部字如果第一部有兩個以上碼,編碼規則為形11+形12+形21+形31+形41,碼長為5碼。。
如果第一部僅有一個碼,而第二部有兩個以上碼,編碼規則為形11+形21+形22+形31+形41,碼長為5碼。。
如果第一部和第二部都僅有一個碼,而第三部有兩個以上碼,編碼規則為形11+形21+形31+形32+形41,碼長為5碼。。
如果第一、第二和第三部都僅有一個碼,則第四部最多取有兩個碼,編碼規則為形11+形21+形31+形41+形42,碼長為4-5碼。
詞組的編碼方法如下雙字詞 第一字的第一、第二碼+第二字的第一、第二和第三碼。
三字詞 第一字的第一、第二碼+第二字的第一、第二碼+第三字的第一碼。
四字詞 第一字的第一、第二碼+第二、第三和第四字的第一碼。
多字詞 第一字的第一、第二碼+第二、第三和最後一字的第一碼。
六位碼長法單部字形01+形02+形03+形04+形05,碼長為1-5碼。
雙部字如果第一部僅有一個碼,則第二部最多取四個碼,編碼規則為形11+形21+形22+形23+形24,碼長為2-5碼。
如果第一部有兩個以上碼,則第二部最多取四個碼,編碼規則為形11+形12+形21+形22+形23+形24,碼長為3-6碼。
三部字如果第一部和第二部都只有一個碼,則第三部最多取三個碼,編碼規則為形11+形21+形31+形32+形33,碼長為3-5碼。
如果第一部只有一個碼,第二部有兩個以上碼,則第三部最多取三個碼,編碼規則為形11+形21+形22+形31+形32+形33,碼長為4-6碼。
如果第一部有兩個以上碼,則第二、第三部最多取兩個碼,編碼規則為形11+形12+形21+形22+形31+形32,碼長為4-6碼。
四部字如果第一部有兩個以上碼,編碼規則為形11+形12+形21+形31+形41,碼長為5碼。
如果第一部只有一個碼,而第二部有兩個以上碼,編碼規則為形11+形21+形22+形31+形41,碼長為5碼。
如果第一部和第二部都只有一個碼,而第三部有兩個以上碼,編碼規則為形11+形21+形31+形32+形41,碼長為5碼。
如果第一、第二和第三部都只有一個碼,則第四部最多取有兩個碼,編碼規則為形11+形21+形31+形41+形42,碼長為4-5碼。
詞組的編碼方法如下雙字詞 第一字的第一、第二碼+第二字的第一、第二、第三和第四碼。
三字詞 第一字的第一、第二碼+第二字的第一、第二碼+第三字的第一、第二碼。
四字詞 第一、第二字的第一、第二碼+第三和第四字的第一碼。
多字詞 第一、第二字的第一、第二碼+第三和最後一字的第一碼。
26碼元編碼方法和編碼規則採用26個英文字母作碼元的編碼方法和編碼規則如下在四位碼長全形碼法中選擇26個英文字母作為碼元,它們分別與不同的筆畫及其組合相對應,即分別對應於橫、豎、撇、點、折、叉、串、八和方塊及其組合筆畫等。
26個碼元的代碼規則見下錶帶有叉和串的漢字或子部編碼規則如下1一橫筆和一豎筆相叉,代碼一律為H,其它的兩筆相叉,代碼一律為N。
2一橫筆和兩豎筆相串,代碼一律為J,一豎筆和兩橫筆相串,則代碼一律為U,其它的三筆畫相串,代碼一律為M。
3四筆以上筆畫相交,優先處理相串筆畫。如「豐」的編碼為UH,「夷」的編碼為MMF。
26碼元編碼法一律採用四位碼長法。
單部字 編碼規則為形01+形02+形03+形04。
雙部字如果第一部僅有一個碼,則第二部最多取三個碼,編碼規則為形11+形21+形22+形23,碼長為2-4碼。
如果第一部有兩個以上碼,則第二部最多取兩個碼,編碼規則為形11+形12+形21+形22,碼長為3-4碼。
三部字如果第一部和第二部都僅有一個碼,則第三部最多取兩個碼,編碼規則為形11+形21+形31+形32,碼長為3-4碼。
如果第一部僅有一個碼,第二部有兩個以上碼,編碼規則為形11+形21+形22+形31,碼長為4碼。
注高頻字或高頻部首作為子漢字或非子漢字子部時,不再拆分。如果第一部有兩個以上碼,編碼規則為形11+形12+形21+形31,碼長為4碼。
四部字編碼規則為 形11+形21+形31+形41,碼長為4碼。
詞組的編碼方法如下雙字詞 第一字的第一、第二碼+第二字的第一、第二碼。
三字詞 第一字的第一、第二碼+第二字的第一碼+第三字的第一碼。
四字詞 第一、第二、第三和第四字的第一碼相加。
多字詞 第一、第二、第三和最後一字的第一碼相加。
除四位碼長全形碼法外,還有利用漢字聲碼、韻碼、形碼和子漢字聲碼、形碼以及非子漢字形碼進行混合編碼的方法,即四位碼長部分形碼法。在這些方法中,漢字本身最多可有三個形碼,子漢字和非子漢字子部只有一個形碼。聲碼和韻碼分別取漢字或子漢字拼音的聲母和韻母的首字母或者按雙拼法取碼。在二分體系中,漢字編碼方法還有聲0韻0聲1[形1]聲2[形2]法,其編碼規則如下單部字 聲0+韻0+形01+形02雙部字 聲0+韻0+聲1[形1]+聲2[形2]聲1[形1]表示聲1不存在時,以形1代替。聲2[形2]意義相同。
在三分體系中,漢字編碼方法還有聲0聲1[形1]聲2[形2]聲3[形3]法,其編碼規則如下單部字 聲0+形01+形02+形03雙部字 聲0+聲1{形1}+聲2[形2],當聲1存在時聲0+聲1[形1]+聲2{形2},當聲1不存在時三部字 聲0+聲1[形1]+聲2[形2]+聲3[形3]聲1{形1}表示聲1不存在時,以形1代替,聲1存在時,增加形1。聲2{形2}意義相同。
而在四分體系中,漢字編碼方法還有聲1[形1]聲2[形2]聲3[形3]聲4[形4]法,其編碼規則如下單部字 聲0+形01+形02+形03雙部字 聲1{形1}+聲2{形2}三部字 聲1{形1}+聲2[形2]+聲3[形3],當聲1存在時聲1[形1]+聲2{形2}+聲3[形3],當聲1不存在、而聲2存在時四部字 聲1[形1]+聲2[形2]+聲3[形3]+聲4[形4],詞組的編碼方法同上。
對於五位碼長法和六位碼長法,碼元取碼規則還可採用常用的四角號碼方法,具體見下表
本發明的漢字編碼方法具有規律性強的優點,特別是採用了具有規律性的筆畫及其筆畫組合作為形碼,因此對於熟練掌握漢語拼音、一般掌握漢語拼音和完全不懂漢語拼音的人,都可以選擇不同的編碼方法進行編碼,都能做到易記易學,漢字拆分十分簡單,重碼率低和漢字輸入速度快。
權利要求
1.一種漢字拆分和編碼方法,其特徵是通過選擇漢字中的子漢字對漢字拆分,然後採用聲碼、韻碼和形碼中的各種碼或部分碼對漢字或者漢字拆分後的子部進行編碼以及對詞組進行編碼。
2.按照權利要求1所述的漢字拆分和編碼方法,其特徵是在二分體系中,通過選擇漢字的字首部分或者字尾部分的子漢字對漢字拆分,並按漢字是否可拆分,將漢字分為單部字和雙部字,再採用聲碼、韻碼和形碼中的各種碼或部分碼對漢字或漢字拆分後的子部進行編碼以及對詞組進行編碼。
3.按照權利要求1所述的漢字拆分和編碼方法,其特徵是在三分體系中,採用下列步驟對漢字拆分,(1)通過選擇漢字的字首部分或者字尾部分的子漢字對漢字拆分,拆分後的子部可以按照其中的子漢字繼續拆分,(2)如果漢字的字首部分或字尾部分沒有子漢字,則可通過選擇漢字中間部分的子漢字對漢字拆分,根據漢字拆分結果,將漢字分為單部字、雙部字和三部字,然後採用聲碼、韻碼和形碼中的各種碼或部分碼對漢字或漢字拆分後的子部進行編碼以及對詞組進行編碼。
4.按照權利要求1所述的漢字拆分和編碼方法,其特徵是在四分體系中,採用下列步驟對漢字拆分,(1)通過選擇漢字的字首部分或者字尾部分的子漢字對漢字拆分,拆分後的子部可以按照其中的子漢字繼續拆分,(2)如果漢字的字首部分或字尾部分沒有子漢字,則可通過選擇漢字中間部分的子漢字對漢字拆分,根據漢字拆分結果,將漢字分為單部字、雙部字、三部字和四部字,然後採用聲碼、韻碼和形碼中的各種碼或部分碼對漢字或漢字拆分後的子部進行編碼以及對詞組進行編碼。
5.按照權利要求2或3或4所述的漢字拆分和編碼方法,其特徵是漢字本身有聲碼、韻碼和形碼,子漢字子部只有聲碼和形碼,非子漢字子部只有形碼,漢字本身最多可有五個形碼,子漢字和非子漢字子部只有一個形碼,聲碼和韻碼分別取漢字或子漢字拼音的聲母和韻母的首字母或者按雙拼法取碼。
6.按照權利要求5所述的漢字拆分和編碼方法,其特徵是在二分體系中,漢字編碼方法有全形碼法和聲0韻0聲1[形1]聲2[形2]法,全形碼法有四位碼長法、五位碼長法和六位碼長法,而聲0韻0聲1[形1]聲2[形2]法只有四位碼長法。
7.按照權利要求5所述的漢字拆分和編碼方法,在三分體系中,漢字編碼方法有全形碼法和聲0聲1[形1]聲2[形2]聲3[形3]法,全形碼法有四位碼長法、五位碼長法和六位碼長法,而聲0聲1[形1]聲2[形2]聲3[形3]法只有四位碼長法。
8.按照權利要求5所述的漢字拆分和編碼方法,在四分體系中,漢字編碼方法有全形碼法和聲1[形1]聲2[形2]聲3[形3]聲4[形4]法,全形碼法有四位碼長法、五位碼長法和六位碼長法,聲1[形1]聲2[形2]聲3[形3]聲4[形4]法只有四位碼長法。
9.按照權利要求6或7或8所述的漢字拆分和編碼方法,其特徵是在五位碼長法和六位碼長法中,選擇10個數字0-9或10個英文字母作為碼元,它們分別與不同筆畫及其組合相對應,即分別對應於橫、豎、撇、點、折、叉、串、撇、點和方塊及其組合筆畫等,碼元還可採用四角號碼方法取碼。
10.按照權利要求6或7或8所述的漢字拆分和編碼方法,其特徵是在四位碼法中,選擇26個英文字母作為碼元,它們分別與不同的筆畫及其組合相對應,即分別對應於橫、豎、撇、點、折、叉、串、八和方塊及其組合筆畫等。
全文摘要
漢字的一種拆分和編碼方法,其特點是通過選擇漢字中的子漢字對漢字拆分,然後採用聲碼、韻碼和形碼(英文字母或數字)中的各種碼或部分碼對漢字或漢字拆分後的子部進行編碼。可採用二分體系、三分體系和四分體系中的任何一種方法對所有漢字和詞組進行編碼。對熟練掌握漢語拼音、一般掌握漢語拼音和完全不懂漢語拼音的人,都能做到漢字拆分容易、編碼方法簡單、易記易學、重碼率低,可實現漢字的高速度輸入。
文檔編號G06F3/023GK1199887SQ9711065
公開日1998年11月25日 申請日期1997年5月18日 優先權日1997年5月18日
發明者邱勵楠, 邱行中 申請人:邱勵楠

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀