新四季網

通用多功能漢字編碼方法及處理系統的製作方法

2023-05-23 11:42:06

專利名稱:通用多功能漢字編碼方法及處理系統的製作方法
技術領域:
本發明涉及一種通用多功能漢字編碼方法及裝置,通用於計算機、電話等設備的漢字輸入、檢索、排序、漢字拼形字庫、漢字文本通訊等各漢字信息處理領域。
漢字編碼源於漢字的檢字法。廣泛使用的檢字法包括音序檢字法、偏旁部首檢字法、筆畫檢字法、四角號碼檢字法等。五筆字型和倉頡碼則分別廣泛用於簡體和繁體漢字的計算機輸入。電話機等只有數字鍵的設備主要採用筆畫編碼,輔以拼音(注音)輸入。隨著漢字處理技術的深入發展,泛字符集漢字的輸入和處理也已日益迫切,倉頡碼提供了一種漢字拼形解決方法。而漢字的識字教育中一般是合體字教偏旁部首、獨體字教筆畫順序。這裡的偏旁部首不受鍵盤的限制,不需要作取捨和歸併,能充分反映漢字的結構特徵,這使字根部件甚至部首檢字法都難以與它取得一致。
漢字的檢字、簡繁體輸入、電腦電話機輸入、拼形與漢字識字教育等採用不同的編碼不但造成了人力物力的極大浪費,而且已經引起了漢字教育和使用的混亂。
字根編碼採用字母編碼,字根眾多,難以記憶和使用,在數字鍵盤上還需額外的映射規則,也不符合漢字使用者單手寫字的習慣,因此難以作為通用的漢字編碼。
採用數字編碼的漢字號碼輸入法如王永民的「簡易五筆畫輸入法」,李金凱的「長城筆形碼輸入法」,等採用0-9十個數字或其子集按照筆畫順序取碼的方法,因特徵單元過小,按照筆畫順序取碼使各部分取碼不均衡,無法反映筆畫的空間位置,因此碼長較長,且長短不一,重碼率很高,無法反映漢字的結構特徵。一些筆畫編碼採用了字首或字尾的概念,如;黃金富的「唯物碼漢字輸入法」,陳培基的「部首號碼輸入法」,廖明德(臺灣)的「行列輸入法」,戚桐欣(臺灣)的「中易系統」中的「中文123式」,等,增強了編碼規律性,但也增加了編碼複雜性,同樣無法作為通用的漢字編碼。
四角號碼以編碼順序表示筆畫的空間位置,編碼方法簡單,碼長一致,是唯一一種國家推薦的編碼檢字方法。但四角號碼「一個筆形前角用過,后角作0」失去了大量信息,全包圍、半包圍結構漢字中取碼不均衡,都造成了大量的重碼,雖然採取了「外圍是『門口門』的三類字,左右兩下角取裡面的筆形,但上、下、左、右還有附加筆形的不在此例」的措施,仍然不能令人滿意;在處理角形不明顯的漢字時,採取了「下角筆形偏在一角的,按實際位置取角,缺角作0,但「弓虧」等字作偏旁時,取2作整個字的左下角號碼。」、「角形儘量取復筆;」、「點下帶橫折的,如「空戶」等字的上角取點作3;」、「角形有兩復筆和一復筆一單筆的,不論高低,一律取最左和最右的筆形;有兩復筆可取的,在上角取較高的復筆,在下角取較低的復筆;」、「當中起筆的撇,下角有他筆的,取他筆作角,但左邊起筆的撇,取撇筆作角。」等處理方法使取碼方法複雜、難以掌握,卻仍然無法明確每一個漢字的角。四角號碼按「Z」字形順序取角,割裂了漢字的結構,因此編碼比較雜亂,難以反映漢字的結構特徵,也無法作為通用的漢字編碼。
安子介先生的安氏數碼法吸收了部首法和四角號碼法的優點,但把部首由210個減少至170個,在反映漢字的結構特徵方面前進了一大步。但限制部首的數量必須作出取捨,因此仍然與部首教育中的部首有差異,也無法涵蓋所有漢字,只能通過設立五個「類屬」加以彌補,使編碼方法和編碼過程複雜化。安氏數碼法保留了四角號碼的一些缺陷以及編碼位數的增長等使它難以成為通用的漢字編碼。
因此,現有編碼的複雜性、與識字教育的不一致、不同條件下的適應性等方面難以滿足各方面的需求,都無法作為漢字的通用編碼。
本發明公開的就是一種通用多功能漢字編碼及處理系統。
本發明的目的是通過採用數字筆形編碼,按漢字的結構分塊,按單元塊的走向順序取角,結合取邊、取端來實現的。
編碼過程可以由以下幾步組成1.按漢字的結構組成方式對半切分,把漢字分為一到三個單元塊。
例如上下、左右、內外結構漢字分別切分為上下、左右、內外兩個單元塊;上中下、左中右結構漢字分別切分為上中下、左中右三個單元塊;難於切分的漢字則不切分,整個漢字作為一個單元塊。
分塊的方法類似於漢字識字教育中劃分偏旁部首,按成字、匹配和字源的原則切分即各塊儘可能成字或由於其他部件組字的能力,符合漢字的造字規律。優先按相離關係切分,只有相接的兩個筆形的漢字不再切分。
對於包圍結構漢字,可優先按「H」型結構分為左右兩個單元塊。
2.按先上後下、先左後右的順序排列單元塊,同一單元塊按單元塊或筆形的走向順序取角。
例如上下結構漢字按左上、右上、左下、右下順序(「Z」形)取角,左右結構漢字按左上、左下、右上、右下順序(「H」形)取角,其他結構漢字以此類推。
只有一個單元塊的漢字,按筆形走向順序取角,如「州」按「H」形取角,「主」按「Z」取角。筆形走向不明確的,可優先按「Z」形取角。
3.取角是取實際佔角的筆形和靠外、靠兩端的筆形。
漢字是方塊字,通常四角分明很容易取角,但也有一些漢字的角呈階梯狀,此時應優先取靠外的筆形、後取靠兩端的筆形。其中兩端是依據取角順序確定的,例如「H」形取角時,左右各有上下兩端「Z」形取角時,上下各有左右兩端。
4.取過筆形視為移去,多單元漢字佔角單元各取兩個筆形,不足則可以補以中間單元筆形,無中間單元則補「0」。一單元漢字不足四個筆形也補「0」。
5.偏旁按其位置編碼,空角補「0」。
6.筆形編碼可按四角號碼的筆形編碼,按下表取筆形編碼則可取得更好的效果表(1)筆形編碼表
注表中字例及編碼僅供說明筆形編碼參考,不作定義、解釋編碼規則的依據。
本編碼可與現有各種漢字編碼類似的方式用於計算機、電話機等設備的漢字輸入、漢字檢索等領域。採用的鍵盤可以是大鍵盤數字鍵、數字小鍵盤或字母鍵虛擬數字鍵,也可以以語音、手寫(圖形)、雙音多頻信號等方式來輸入、傳遞編碼。
用作輸入法,可以不經選字直接四碼輸入GB2312字符集中的約3000字和GBK字符集中的約5000字,與常用的漢字數量相當,在計算機、電話機中一樣可以盲打輸入常用漢字。對於次常用字,GB2312中99.5%的漢字、GBK字符集中90%的漢字可以在十選的範圍內輸入。與倉頡碼類似,本編碼可用於建立拼形字庫,最終實現所有泛字符集漢字的輸入和處理。即本編碼可高速輸入常用的漢字,方便輸入所有漢字。
為同時在數字鍵盤上輸入字母、數字、符號等,可以採用區位碼的方式,也可以以多次按鍵的方式為字母、數字、符號編碼。
區位碼的方式把字母及標點符號分布在全部或部分數字按鍵上,以其所在按鍵數字為區碼,以其在該鍵上的序號為位碼;有對應關係的字符安排在同一鍵的對應位置上;常用的字符安排在可雙擊按鍵輸入的位置上。輸入區位碼即可輸入字母、數字、符號。
多次按鍵的方式;把字母及標點符號分布在全部或部分數字按鍵上,輸入時先按所在鍵,再多次按特定鍵(如*鍵)來選定。
用於字、辭典編制,四位數字編碼與一般字、辭典的頁碼相似,可以代替頁碼,比拼音更直觀。此外,與拼音配合,字符編碼的前二碼或後二碼獨立或分別與另一字符串的編碼或指定編碼進行比較,可以近似地找出具有相同形旁或聲旁的漢字或按形旁或聲旁排列漢字。在編製漢字校對字典時,提供相同形旁或聲旁的漢字作候選字、詞或按形旁或聲旁排列候選字、詞可以使漢字的校對更直觀、更有實際意義。
採用本編碼進行文本通訊,設備間利用最簡單的聲音傳送設備傳輸表示數字符號的信號(如雙音多頻信號)來傳輸漢字文本,不需要額外的接口就可以實現遠、近程有(無)線文本通訊,可以實現機器、人工解碼輸入完全兼容,聾啞人、不便使用語音時也可以通過電話進行文本信息的交流。
本編碼具有編碼方法簡單,記憶量小,與識字教育一致,適應性強,編碼效率高的特點,因此可以一碼多用,節約大量人力物力,促進漢字應用的規範化、標準化。
實施例智能輸入法本編碼有與拼音類似的性質,碼長相同,前二碼與聲母相似、後二碼與韻母相似,可以與拼音一樣整句輸入、縮拼輸入。
因重碼極少,可以盲打高速輸入常用漢字、次常用漢字,又因採用數字編碼還可用於電話機等設備的漢字輸入。
簡易文本通訊系統採用本編碼以雙音多頻傳輸可以像語音傳輸一樣快速建立和斷開連接,可以通過揚聲器和話筒發送和接收,同時可以兼容人工和機器解碼、輸入。很適合名片交換、簡訊息發布等交換信息量比較小,對傳輸速度要求不高,但要求能快速建立和斷開連接的過程的需要。
漢字校對字典受輸入法影響,漢字的拼寫錯誤很不規則,難以離開原稿進行校對和糾正,漢字的拼寫檢查往往有名無實。使用本編碼輸入發生的錯誤只影響某一偏旁,很容易離開原稿進行校對和糾正,使用拼音輸入時使用本編碼編制的校對字典可提供相同聲旁的漢字,使漢字拼寫檢查名至實歸。
漢字拼形字庫以本編碼為基礎生成拼形字庫,可以實現人工輔助拼形。漢字拼形字庫不但可以大大節約字庫容量,而且符合漢字的造字規律,可以通過拼形生成新字,解決超出特定字符集漢字的處理問題。
本編碼不經改變即可用於各預域。
權利要求
1.通用多功能漢字編碼方法及處理系統,採用0-9十個數字或其子集作為編碼碼元,包括按一定規則對字符進行編碼與下列步驟中的一個或多個的組合1)把字符或映射字符的其它形式按字符編碼進行排列,並存儲在介質上,2)以物理鍵盤或模擬鍵盤、語音、手寫等方式輸入編碼來輸入或輔助輸入字符信息,3)以傳輸、存儲編碼的方式傳輸、存儲字符,4)把字符串的編碼與另一字符串的編碼或指定編碼進行比較,並按比較結果作出標記、修改、輸出特定信息等操作,其特徵在於按漢字的結構組成方式對半切分,把漢字分為一到三個單元塊;按先上後下、先左後右的順序排列單元塊,同一單元塊按單元塊或筆形的走向順序取角編碼。
2.權利要求(1)所述通用多功能漢字編碼方法及處理系統,其特徵在於取角是取實際佔角的筆形和靠外、靠兩端的筆形。
3.權利要求(1)所述通用多功能漢字編碼方法及處理系統,其特徵在於取過筆形視為移去,多單元漢字佔角單元各取兩個筆形,不足則可以補以中間單元筆形,無中間單元則補特定的數字;一單元漢字不足四個筆形也補特定的數字。
4.權利要求(2)所述通用多功能漢字編碼方法及處理系統,其特徵在於取過筆形視為移去,多單元漢字佔角單元各取兩個筆形,不足則可以補以中間單元筆形,無中間單元則補特定的數字。一單元漢字不足四個筆形也補特定的數字。
5.權利要求(4)所述通用多功能漢字編碼方法及處理系統,其特徵在於偏旁按其位置編碼,空角補特定的數字。
6.權利要求(5)所述通用多功能漢字編碼方法及處理系統,其特徵在於筆形編碼按下表取得表(1)筆形編碼表
注表中字例及編碼僅供說明筆形編碼參考,不作定義、解釋編碼規則的依據。
7.權利要求(6)所述通用多功能漢字編碼方法及處理系統,其特徵在於把字母及標點符號分布在全部或部分數字按鍵上,以其所在按鍵數字為區碼,以其在該鍵上的序號為位碼;輸入區位碼來輸入字母、數字、符號。
8.權利要求(6)所述通用多功能漢字編碼方法及處理系統,其特徵在於字符串的編碼與另一字符串的編碼或指定編碼進行比較是按字符編碼的前二碼或後二碼獨立或分別進行的,以近似地找出具有相同特徵(同一位置具有相同偏旁)的漢字或按特定要求排列漢字。
9.權利要求(6)所述通用多功能漢字編碼方法及處理系統,其特徵在於採用本編碼進行文本通訊,設備間利用最簡單的聲音傳送設備傳輸表示數字符號的信號來傳輸漢字文本。
全文摘要
通用多功能漢字編碼方法及處理系統,一種四位數字漢字編碼方法及處理系統,解決漢字的檢字、簡繁體輸入、電腦電話機輸入、拼形等採用不同的編碼造成人力物力的極大浪費,並且與漢字識字教育不一致引起漢字教育和使用的混亂的問題。按漢字結構切分漢字,按單元(筆形)走向取角,取佔角、靠邊、兩端的筆形為角,分塊均衡取碼。編碼簡單、規範、高效、通用,能夠滿足漢字檢索、輸入和深入發展漢字處理技術的需要。
文檔編號G06F3/023GK1267015SQ9912091
公開日2000年9月20日 申請日期1999年9月22日 優先權日1999年3月13日
發明者練新 申請人:練新

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀