新四季網

漢語鍵盤輸入系統及其應用技術的製作方法

2023-05-15 18:47:41

專利名稱:漢語鍵盤輸入系統及其應用技術的製作方法
技術領域:
本發明涉及計算機鍵盤輸入處理技術領域的漢語鍵盤輸入系統及其應用技術,尤其涉及漢語音節代碼及其字符和漢字代碼及其字符的鍵盤輸入。
現有的漢語信息處理系統如圖16所示,採用通用或專用計算機基本硬體及其DOS6.22中文版,UCDOS,SPDOS,Windows3.2/95/98中文版,Windows NT,外掛的中文之星,四通立方RichWin,以及COSA和COSIX等漢字作業系統10,在此基礎上(1).使用通用鍵盤裝置4,鍵盤輸入處理軟體8,實現漢字信息的鍵盤輸入處理;(2).使用顯示輸出處理軟體9,和顯示輸出設備7實現字符和圖形地顯示輸出處理;(3).使用圖形掃描輸入設備11,圖形字符處理軟體12實現字符和圖形的輸入處理;(4).使用列印輸出處理軟體13,和印表機類輸出設備14,實現字符和圖形的列印輸出處理;(5).使用話筒等聲音輸入設備1,音效卡2的模擬/數字轉換器,「世音通」或IBM ViaVoice等漢語語音識別輸入軟體5,實現漢語語音識別輸入處理;(6).使用「天音話王」等漢語語音合成輸出軟體6,音效卡2的數字/模擬轉換器和聲音輸出設備3例如揚聲器實現漢語語音合成輸出處理;(7).使用GB2312-80與BIG5碼相互轉換軟體15,或者BIG5與GB13000.1-93碼相互轉換軟體16,或者GB13000.1-93與其它漢字代碼相互轉換軟體17,實現不同代碼漢字的相互轉換處理,使用漢字與漢語拼音相互轉換軟體18實現漢字與漢語拼音的相互變換處理。從而分別在公知的大、中、小、微型、便攜、掌上型計算機,數字助理,網絡計算機、終端機、工控機、單片機等各種計算機,中外文印表機、字幕機、室內外廣告顯示屏等文字處理設備,電報機、電傳機、網絡電話機等漢語通訊設備上,實現各種漢語信息的輸入輸出和相互變換處理。
其中的漢語鍵盤輸入處理,把要輸入的漢語音節符號和漢字詞語等漢語信息,分解為漢語拼音的聲母、韻母和聲調,或注音符號的聲母,介母,韻母和聲調等輸入要素,附加或單獨使用漢字的筆畫、部件、字根、字義、字序等字形信息的輸入要素,相互合併和分組而成為輸入碼元,標記或映射在普通鍵盤或專用鍵盤的輸入鍵位上,在漢字作業系統軟體10上運行輸入字符與目標漢語信息的對照轉換軟體,實現漢語信息的鍵盤輸入處理。
目前已有近千種漢字編碼輸入法問世。其中全拼音輸入法應用最廣,但輸入速度太慢;聲韻雙拼輸入法很受歡迎,但同音字太多、不認識的字難以輸入,速度很難提高,鍵盤布局也難以統一;「WPS文字處理系統」的雙音雙拼輸入技術,利用雙字詞輸入單字,簡單易學,但不認識的字難以輸入。漢字鍵盤輸入公認的世界記錄是由″聲數碼″於1992年創造的,簡體連續文本的輸入速度達到每分鐘269.7字,其單字用漢字讀音的聲母,韻母,聲調和排序號選字輸入,非單字詞用聲韻雙拼或聲母編碼輸入,重碼較多,難以記憶,至今難以廣泛應用;專業打字員使用″五筆字型輸入法″,一般人需要死記硬背幾個月才能達到每分鐘上百字的輸入速度,一旦不用又容易忘記,並且只能看著材料輸入,很難邊聽邊輸入或邊寫作邊輸入。香港和臺灣等地,則採用注音符號和技術水平與大陸相當的形碼編碼輸入法。計算機專業的華人主要使用英語操作計算機。因此,漢字鍵盤輸入是華人使用計算機的一個「瓶頸」式障礙,能夠快速輸入漢字的人很少,使計算機的普及和應用受到限制。因此,社會上普遍存在著漢字輸入「好學的打不快、打得快的不好學」等技術偏見。其實,這只是現有技術的概括和總結。
存在這些問題的原因是,鍵盤輸入的目的只有漢字詞語,忽略了漢語音節。漢語信息尤其是漢語音節信息的分析和研究沒有適應漢語信息處理的發展需要。
法定《漢語拼音方案》的漢語音節由聲母、韻母和聲調組成,其雙拼為聲母+帶調韻母。聲母只有21個,帶調韻母多達175個,只區分四聲也有140個,分別映射在最多47個字符鍵的普通鍵盤上,聲母偏少、韻母偏多,無法實現帶調雙拼輸入,只好改成聲母、韻母和聲調的三拼輸入方式,輸入漢語音節的編碼效率不足50%,三鍵一音不比平均三鍵一字的形碼輸入法效率高,所以通常採用聲韻雙拼。漢語注音符號的漢語音節,由聲母,介母,韻母和聲調組成,其中介母和韻母組成《漢語拼音方案》的韻母,其餘相類似。總之,還沒有一種漢語語音方案在普通鍵盤上非常規範地實現帶調雙拼,並且支持漢語拼音化。這是一切以字音為基礎漢字編碼輸入法的局限性之根源。
形碼編碼輸入法經過20多年的發展已經很成熟,各種各樣的方法均有人進行了嘗試。由於漢字的字根至少有600個,漢字總數多達數萬個,組字規律千變萬化,分別映射在最多47個字符鍵的鍵盤上很難記憶。漢字信息主要是讀音其次才是字形,因此,所有的形碼編碼輸入法,單字的平均動態碼長均為3左右,很難再縮短,達到了極限,留給詞碼的編碼空間又很少,因此形碼的詞輸入並沒有優勢。而且,大字符集給形碼增加了難度,″98規範王碼″不得不使用5個鍵輸入一個單字。
本發明人於1992年7月20日申請,並於1994年2月2日公開了「雙拼漢語編碼法及其鍵盤」(公開號CN1081523A),提出一種在普通鍵盤上擊鍵兩次即可輸入一個漢語音節,從而實現漢語信息帶調雙拼輸入的方案。但當時只找出一種方案,輸入要素的選取及其鍵位布局很不合理,規律較少難以記憶,重碼較多。本發明人於1997年4月27日又提出″全息漢語輸入技術及其鍵盤和漢語計算機″(申請號97110633.9)的專利申請,並於1998年4月26日利用優先權提出改進的申請″漢語輸入技術及其漢語鍵盤和漢語計算機″(申請號98107699.8)。本發明則是進一步的改進、創新、完善和提高。
1995年3月22日公開的發明專利申請″新拼音漢字輸入法及其鍵盤設計″(公開號為CN1100538A),用52個聲母及15個韻母拼寫漢字,設計出44鍵的漢字輸入方案。其鍵盤設計不盡完善,同一個韻母i卻安排在不同的三列健位上,聲調的布局沒有考慮其實用頻度的差別,其輸入的目的也僅限於漢字。
《計算機研究與發展》1998年5月期刊登″大規模文本計算機音字相互轉換技術的研究″一文,提出一種基於統計和分析方法相結合語言理解模型的計算機自動音字轉換技術,已用於大詞表非特定人孤立詞語音識別系統和中文Windows95和98,Windows NT4.0的″微軟拼音輸入法″,使用英文字符組成拼音符號輸入,可用數字標調。其實驗測試的音字正確轉換率平均為不帶聲調88.5%,帶聲調94.7%。實際使用發現,不區分聲調的轉換錯誤較多難以容忍;區分聲調的轉換錯誤明顯減少,比較實用,但輸入一個帶調音節至少擊鍵三次,沒有明顯的速度優勢。
UCDOS等漢字軟體實現的智能拼音輸入技術比較成熟,其音節符號的鍵盤輸入也是聲韻雙拼和全拼,對於詞庫中沒有的詞或任意漢字的組合,可以智能動態的生成新詞,再出現時可以按詞輸入。
總之,現有的漢字鍵盤輸入法問題較多。受歡迎的技術有各種形碼的單字編碼輸入,能夠輸入不認識的字;聲韻雙拼的詞輸入,按音輸入非常簡單;雙音雙拼的詞帶單字輸入,無需記憶字根一學就會;智能拼音的動態造詞輸入,造詞方便;拼音/漢字智能轉換輸入,通用詞語的輸入快捷簡單。這些方法各有其優勢,但尚未融合和統一。
現有的漢語語音合成輸出技術,例如漢語音效卡,「天音話王」等,均是面向漢字的,沒有涉及漢語音節符號。現有漢語語音識別輸入技術,美國IBM公司的ViaVoice最具有代表性,已經被多家公司採用,其識別的結果均為漢字字符,不支持漢語音節符號。對於識別不準的給出首選漢字,不易和其它漢字相區別而難以事後校對和修改。
現有漢字字符的顯示輸出技術,主要有DOS下16X16點陣的常規顯示、24X24點陣的特殊顯示,以及Windows下的所見即所得的漢字顯示。而漢語音節符號只限於漢語拼音符號等常規音節符號的顯示,實用價值有限。
現有的漢字字符的列印輸出,主要有點陣字形,矢量字形和Windows的Truetype字形等,漢語音節符號只限於漢語拼音符號等常規音節符號的列印輸出,實用價值也有限。
現有的手寫體和印刷體漢字字符識別輸入技術比較成熟,如美國Motorola公司的″慧筆″手寫體識別輸入,清華文通公司的″清華OCR″印刷體識別輸入等產品,但漢語音節符號的字符識別只限於漢語拼音符號或漢語注音符號等常規音節符號。
現有的漢語音節符號和漢字符號的相互變換處理,主要用於漢語語音識別輸入,如美國IBM公司的ViaVoice軟體;或語音合成輸出,如中國福建中銀集團的「天音話王」等軟體;或漢字鍵盤輸入,如「微軟拼音輸入法」等。其中漢語音節代碼一般使用英文字符的組合,不通用,不可讀。
現有的漢語音節符號都是組合符號,沒有整體符號,與漢字符號相比較,沒有得到應有的重視,還不是漢語信息處理的主要對象。
總之,現有漢語信息的輸入、輸出和變換處理,一般僅限於單一的漢字。漢語語音音節符號及其代碼的輸入、輸出和變換處理僅用作漢字處理的輔助手段,而不是直接處理對象。因此,無論是理論,還是實際產品,都稱作漢字或中文處理系統,而忽略了漢語語音音節符號及其代碼。至今還沒有能夠同時或交互式地處理漢字和音節的漢語處理系統出現。
計算機的應用操作已經從最初的DOS命令行一維界面,演變為目前的二維圖形界面。然而,迄今為止,文字還是主要的信息處理對象。雖然有多媒體技術的外在支持,但語音和文字的信息處理並沒有合而為一,口語和漢字讀音的音節信息沒有得到充分重視。文字符號都有代碼,但音節符號有代碼的並不多,例如英語就沒有通用的音節代碼。語言是從口語演變而來,先有口語後有文字,文字是語音的記錄符號,可以沒有文字,但不能沒有口語。因此,口語的信息處理比文字更為重要。即使是漢語語音產品,也是把漢語語音轉換為漢字,再利用漢字字符去操作計算機,如Dutty++中文語音導航系統,其漢語語音識別的輸入操作就是通過漢字指令中轉實現的,而且與漢字的鍵盤輸入不相關聯。其實,只使用音節符號,就足以支持語音操作功能。
由於地理,政治和歷史等原因,導致漢字代碼多種體系並存,有中國大陸的GB2312-80,GB13000.1-93,臺灣的BIG5等,使不同代碼的漢語信息難以相互交流。四通利方的RichWin軟體,″東方快車″翻譯軟體,″漢神中文視窗″軟體等,都提供不同漢字代碼的文本轉換工具,把漢字文本從一種代碼,轉換為另一種代碼,並且能夠自動識別和顯示不同代碼的漢字,甚至實現了不同代碼漢字的同屏無縫顯示。但漢字的鍵盤輸入還沒有突破代碼體系的限制,一般僅限於同一代碼體系內的漢字輸入處理,難以超越漢字代碼的限制。
本發明的目的分別為
1.從漢語音節的鍵盤輸入入手,總結出漢語音節的兩元分解和兩元合成規律,提出直接實現漢語音節帶調雙拼的「漢語語音方案」,利用計算機及其普通鍵盤,每擊鍵兩次即可輸入一個漢語音節,從而設計出漢語鍵盤,可以直接輸入兩個單字節字符組成的漢語音節代碼,根據需要轉換為注音符號,漢語拼音符號,代音漢字,與漢字字符相互兼容並且字節數相等的″漢語音節字符″等漢語音節符號,使漢語音節的鍵盤輸入相互統一。承認漢語音節在漢語信息處理中的獨特地位和作用,承認可記錄口語的漢語表音文字的實際存在,設計出與漢字字符字節數相等並且相互兼容的漢語音節字符及其代碼,成為漢語語音的通用代碼,使漢語的語音和文字兩種媒介的信息,在漢語音節的層次上相互統一,便於相互變換和處理;
2.使用漢語鍵盤輸入系統實現同音同義漢語音節符號的同步轉換輸入;
3.使用漢語鍵盤輸入系統實現同音字的選擇輸入;
4.使用漢語鍵盤輸入系統實現漢字詞語的編碼輸入;
5.使用漢語鍵盤輸入系統實現漢字詞語整音節編碼輸入,以便與漢語語音識別輸入相互兼容和相互補償;
6.使用漢語鍵盤輸入系統實現單個漢字的雙音單字編碼輸入,簡化單字的輸入;
7.使用漢語鍵盤輸入系統實現字形不同的同音同義漢字的同步轉換輸入,主要是簡體漢字和繁體漢字的同步轉換輸入;
8.使用漢語鍵盤輸入系統實現不同代碼體系的同音同義漢字的同步轉換輸入;
9.使用漢語鍵盤輸入系統實現同音同義的漢字/音節符號的同步轉換輸入;
10.使用漢語鍵盤輸入系統,連續輸入漢字語句讀音的漢語音節符號,利用音節-漢字智能轉換程序轉換為漢字,簡化漢字的鍵盤輸入;
11.把音節/漢字智能轉換輸入與漢字詞語編碼輸入結合起來,以便相互補償,提高輸入準確度;
12.在智能轉換與字詞編碼輸入相結合的基礎上,增加新詞自動生成功能,使連續兩個或兩個以上單個輸入的漢字,以後再出現時用其讀音自動轉換輸入;
13.使用漢語鍵盤輸入系統,採用命令行方式的符合「規範漢語」的漢語語音指令及其音節符號指令和相應的漢字指令操作計算機,使漢語指令相互統一,構成漢語操作界面;
14.使用漢語鍵盤輸入系統,把漢語信息的鍵盤輸入與漢語語音識別輸入結合起來,構成漢語輸入處理系統;
15.在圖形界面的基礎上增加命令行方式的漢語語音指令及其音節符號指令和相應的漢字指令操作和應用計算機,構成漢語圖形操作界面;
16.使用漢語鍵盤輸入系統,把漢語信息的鍵盤輸入與漢語語音合成輸出結合起來;
17.使用漢語鍵盤輸入系統,把漢語信息的鍵盤輸入,漢語語音的識別輸入和合成輸出綜合起來,使漢語音節符號和漢字詞語在音節的層次上相互統一,構成完整的漢語處理系統;
漢語信息包括漢語語音聲音信號及其音節符號和漢字詞語兩種媒介的多種信息。漢語語音含義很廣,包括所有華人使用的各種方言,以下用漢語普通話為代表。漢語音節符號包括切音漢字,注音符號,代音漢字,表音類漢語盲文,漢語拼音,威妥瑪式拼法,國際音標等,參見漢語拼音和威妥瑪式拼法音節對照表,以及漢語拼音聲母韻母和國際音標對照表(《漢英詞典》第957-960頁,商務印書館,1980年10月第一版),均具有特定的表音功能,一般以漢語拼音為代表。漢字詞語由於受到計算機信息處理和相互交換的限制,一般是指中國國家標準GB2312-80《信息交換用漢字編碼字符集-基本集》;或者國際標準ISO-10646和相應的中國國家標準GB13000.1-93「信息技術通用多八位編碼字符集(UCS)第一部分體系結構與多文種平面」,包括GBK擴展國標字符代碼和Unicode國際字符代碼;以及臺灣和香港等地的BIG5代碼,或者其它國家或地區已經制訂的以及將要制定的漢字代碼標準,以下一律表述為漢字詞語。
漢語信息的結構組成可以用公式表示
漢語信息=語言信息(音節信號+音節符號)+文字信息(漢字符號+漢字讀音)
=音節信息(音節信號+漢字讀音)+字符信息(音節符號+漢字符號)
其中,語言信息是漢語口語;文字信息是漢語書面語。音節符號包括漢語拼音,注音符號,代音漢字等。漢語的語言和文字兩種媒介信息的共性是音節信息,其個性分別是語音信息和字符信息,有多種不同的語音和符號體系。用音節符號描述的漢語信息,是純正的表音文字;而英語等表音文字,由於文字與其讀音有一定的差別,並不是完全對應的,因此就其表音功能來說還不如漢語音節符號精確。所以,用漢語音節符號記錄的漢語,是最純粹的表音文字,最容易學習。
各種漢語信息共同的、本質的、和最基本的信息就是漢語音節,是所有漢語信息不可缺少的。所說的漢語音節是帶有聲調並實際存在的,不區分聲調的只是音節的組合,對此不再另外說明。
音節和語義相同的漢語語音及其音節符號和漢字詞語的信息處理,包含三個不同層次,可以合併處理而在整體上得到簡化。由於聲音信號與時間相關聯且不可分離,需要話筒,音效卡和揚聲器等輸入輸出設備,其信息處理主要是數位化聲音數據的實時處理及其與音節符號的相互變換,即漢語語音識別輸入和語音合成輸出,是漢語信息處理的第一個層次。聲音信號雖然比較複雜,基本信息卻是簡單的漢語音節,可以用音節符號記錄,分詞之後也具有表義能力,是世界上最簡單的表音文字,例如漢語速記,漢語盲文,漢語手指語和漢語旗語等。語音識別的結果和語音合成的對象以及語音記錄符號都可以歸結為漢語音節符號,這是漢語信息處理的第二個層次。第三個層次的漢字詞語除具有讀音的音節信息外,還具有字形和筆畫信息,信息總量最為豐富,是漢語信息處理的主要對象,是世界上最複雜的文字,鍵盤輸入也最難。其最接近的漢語信息就是漢語音節符號。所以,第二個層次的漢語音節符號是漢語語音和漢字詞語的紐帶,是漢語信息處理的關鍵。
為了表述方便,本發明以漢語拼音為主描述漢語音節,其結論並不限於漢語拼音。如果改成其它的漢語音節符號,例如注音符號,國際音標等,以及在本發明基礎上制定的各種音節符號,其表音功能都是相同的。
本發明把漢語音節分解為聲介母和帶調韻母或帶調介母,把《漢語拼音方案》中屬於韻母的介母i、u、ü分離出來,與聲母合併分別組成i介、u介、ü介聲介母,無介母的聲介母稱作零介聲介母。有幾個韻母,in是ien的簡化,ing是ieng的簡化,iu是iou的簡化,ui是uei的簡化,un是uen的簡化,不簡化才能正確的分離出介母和韻母。韻母一律帶調。介母i、u、ü單獨用作韻母或單獨構成音節時,既要分離出介母歸入聲介母,又要保留帶調介母。不需要相互區分時,帶調韻母和帶調介母統稱為帶調韻母。聲介母可稱作「首音」,帶調韻母和帶調介母可稱作「尾音」,能夠組成幾乎所有的漢語音節,稱作「漢語音節要素」,由此形成「漢語語音方案」,與中國國家標準GB/T15720-1995″中國盲文″的″漢語雙拼盲文方案″較為接近,具體內容如下
聲介母(62個)
b,p,m,f,d,t,n,l,g,k,h,zh,ch,sh,r,z,c,s,零聲母,計19個零介聲介母;bi,pi,mi,di,ti,ni,li,ji,qi,xi,zhi,chi,shi,ri,zi,ci,si,yi,計18個i介聲介母;bu,pu,mu,fu,du,tu,nu,lu,gu,ku,hu,zhu,chu,shu,ru,zu,cu,su,w,計19個u介聲介母;ju,qu,xu,yu,nü,lü,計6個ü介聲介母。其中聲介母zhi,chi,shi,ri,zi,ci,si可以省略,聲介母數量減少為55個。如果取消零聲母,則聲介母減少為54個;
帶調韻母(52個)。
ā,á,ǎ,à,āi,ái,ǎi,ài,ān,án,ǎn,àn,āng,áng,ǎng,àng,āo,áo,ǎo,ào,ē,é,ě,è,ēi,éi,ěi,èi,ēn,én,ěn,èn,ēng,éng,ěng,èng,er,ér,ěr,èr,ō,ó,ǒ,ò,ōng,óng,ǒng,òng,ōu,óu,ǒu,òu,其中er是兒化音的標記符號,用以代替漢字″兒″;
帶調介母(12個)
ī,í,ǐ,ì,ū,ú,ǔ,ù,ǖ,ǘ,ǚ,ǜ。
帶調介母只能和含有相同介母的聲介母組成音節ī,í,ǐ,ì只能和i介聲介母組成音節,ū,ú,ǔ,ù只能和u介聲介母組成音節,ǖ,ǘ,ǚ,ǜ只能和ü介聲介母組成音節。除聲介母Y和W外,其它聲介母與帶調介母直接組合的音節符號,中間多出一個介母,原本是介母一分為二所致,應與帶調介母合而為一,否則與拼音音節符號有所區別。但也可以接受。如果省略zhi,chi,shi,ri,zi,ci,si,則帶調介母i可以直接與聲母zh,ch,Sh,r,z,c,s組成帶調音節。零介、i介,u介和o介聲介母分別和帶調韻母連讀即可直接組成相應的零介,i介,u介和ü介音節。
輕聲聲調只有幾十個,實用頻度也不大,可以併入其它聲調之中,例如併入陰平聲調或去聲聲調。而m、n,ng等幾個鼻韻母。一般可以省略,需要時可以特殊處理。有一個特殊音節「Fiào」,對應一個方言用字,需要時可以增加一個聲介母「Fi」。
表1列出簡化拼音,漢語拼音和注音符號的聲介母對照表,表2列出簡化拼音。漢語拼音和注音符號的帶調韻母對照表,表1和表2可以稱作「漢語音節要素表」。其中表1簡拼的聲介母Zhi,Chi,Shi,Ri,Zi,Ci,Si直接省略。
漢語音節的切分和合成規則是把漢語音節在介母之後切分,介母在最後則切分出帶調介母聲介母和同介母的帶調介母,或聲介母和帶調韻母連讀組成漢語音節。表3列出漢語音節的兩元分解和兩元組合表,表中使用代音漢字作為漢語音節符號。
漢語音節要素總計126個,可簡化為119個,用數字代碼表示,稱作音節要素代碼用高位置1的單字節表示,則兼容高位置0的英文字符代碼,但不兼容雙字節的漢字代碼;用高位置0的單字節表示,兼容高位置1的雙字節漢字代碼,但不兼容高位置0的單字節英文字符代碼。是純粹的漢語系統。從計算機的最底層支持漢語介於中間的方案,直接兼容單字節英文字符代碼和雙字節漢字代碼,用單字節字符表示音節要素代碼,兩個單字節字符的組合表示一個漢語音節,但必須區分聲介母和帶調韻母的先後順序,否則前面刪除奇數個單字節,後面的聲介母和帶調韻母會串位而產生錯誤,音節之間使用空格等分隔符號就可避免,但不容易識別和認讀,顯示或列印時需要轉換為漢語音節符號。個別音節容易和兩個字母的英文單詞如「an」和「be」等混淆。使用雙字節代碼表示最多126個音節要素,幾乎可以在任何一個漢字系統上利用其造字程序實現,其音節代碼均為兩個雙字節組成的四個字節。其音節符號可以直接使用半角的英文字母構造,比較直觀,容易推廣,但比漢字符號的字節數多一倍,與漢字混合排版比較方便,仍有相互變換時的串位問題,比普通的漢語拼音符號更適合計算機處理.此外,代音漢字可直接作為雙字節的音節代碼。但與漢字難區分。
本發明設計出與漢字代碼相互兼容並且字節數相等的漢語音節字符及其代碼,是漢語音節的直接代表。也是一切漢語信息的共有信息,使漢語的語音和文字兩種媒介信息,在漢語音節的層次上相互統一,便於相互變換和處理。由於中國國家標準GB2312-80還有1300多個空碼位,GBl3000.1-93以及未來擴展的ISO/IEC-10646代碼體系。都將保留一定數量的空碼位,可以為漢語音節編碼,按通用的音序排列。由於UniCode另有「oxe000-oxe760」總計1888個連續的字符編碼空間空閒。可以為漢語音節編碼。更便於排序和檢索,但不能向下兼容GB2312-80的音節字符。在美國微軟公司繁體版Windows95的BIG5漢字代碼體系中,十六進位8100-a0fe的編碼空間均空閒,可為漢語音節編碼,如果與GB2312-80的音節代碼分段落對應,使之只差幾個常數,則便於信息交換。
依據《漢語拼音方案》,可以縮短拼式,用
代替Zh,用
代替Ch,用
代替Sh。用
代替ng,也可以直接用g代替ng而不會產生歧義,使每個音節的字母數不超過4個,從而設計出漢語音節的專用字符。稱作「漢語音節字符」,既代表漢語語音音節,又代表漢字的讀音音節。見表4「漢語音節字符及其代碼和代音漢字」。由於字母較多,每個音節字符至少需要24×24的點陣才能顯示或列印。
音節字符必須簡化才能使用16×16點陣的顯示字形。把聲介母ji,qi,xi,zhi,chi,shi,ri,zi,ci,si的介母i省略,視為隱含在聲母中,則jang就是jiang,qeng就是qieng,而xong就是xjong,等等。可以減少新增字符的數量,但音節符號與漢語拼音有一定區別。可以簡化介母i,u、ü,分別標在聲母符號上,用一個點表示i,一個橫表示u,兩個點表示ü,拼音音節最多3個字母。注音符號音節最多2個字母。便可以用16×16點陣構造漢語音節字符。見表5"簡化漢語音節字符",缺點是需要特殊記憶。
上述兩種字形的音節字符可以使用相同的代碼,以便相互補償。使用時,能用表4的漢語音節字符。就不用表5的簡化漢語音節字符。對於DOS等軟體,無論是低版本,還是高版本,由於使用16×16點陣的基本顯示字形,所以,只能使用簡化的漢語音節字符,除非支持24×24點陣的特殊顯示;而Windows3.2/95/98中文版等漢字系統軟體,兩種音節字符均可使用,但需要重新造字。不同字形的音節字符可視為同一音節代碼的不同字體。
表4和表5的音節字符是利用MSDOS6.22中文版的造字程序實現的。其中音節字符按十進位區號和16進位國標頁號區分段落,中間用「區」字分開。表4的音節字符後面標出其十進位的位號和16進位位號。例如,音節「Hàn」處在13區ad的段落內,音節後的符號是20b4,因此其區位碼為1320,而國標碼為ADB4。表5隻標出簡化音節字符,可與表4對照查看。
還可以使用注音符號,國際音標等漢浯音節符號設計漢語音節字符,儘可能使用相同的音節代碼而音節字符的字形可以不同,以便於信息交流。注音符號的音節一般只有3個字母,不需要改動就能直接用作注音符號的音節字符,需要壓縮時把介母ㄧ,ㄨ,ㄩ簡化為其前面聲母符號上的「.」,「-」和「..」即可,相應的音節符號減少為兩個字母。還可以利用國際音標設計音節字符。
漢語音節代碼一定要統一,以便於信息交流。法定標準發布之前,希望實施者都採用本發明制定的標準。
除代音漢字和音節字符之外,其它音節符號都是單字節字符或雙字節字符的組合符號,其整個音節符號與漢字字符不等長,不便於交互處理或相互變換處理,而代音漢字難以和普通漢字相區分,所以,本發明以音節字符為主。需要時利用相應的音節字符/音節符號轉換軟體,轉換為其它的漢語音節符號。
表3比依據《漢語拼音方案》編制的漢浯音節表大為簡化,所以才能簡化鍵盤輸入。漢語音節要素,印刷。成型或映射在普通鍵盤的字符鍵位上,首次輸入聲介母,再次輸入帶調介母或帶調韻母,擊鍵兩次即可輸入一個漢語音節,稱作漢語鍵盤。由於一個鍵位一般設置兩個音節要素,所輸入的英文字符轉換為漢語音節符號後才容易識讀,所以,漢語鍵盤不能脫離計算機。計算機可以附帶普通計算機鍵盤,通過運行漢語鍵盤輸入軟體而支持漢語鍵盤;此外,漢語鍵盤可以有專用的計算機。
圖1-圖15列出15種類型的漢語鍵盤,兼容英文鍵盤。聲介母Zhi,chi,shi,ri,zi,ci,si省略,用聲介母zh,ch,sh,r,z,c,s與帶調介母ī,í,ǐ,ì分別組成相應的音節。輕聲聲調與陰平聲調合併。聲介母Fi與ào組成特殊音節「Fiào」,需要時把Fi作為聲介母安排在聲介母F鍵上。
依據表1和表2,圖1-圖15的鍵盤圖,所標註的漢語拼音符號可以替換為注音符號,簡化的漢語拼音符號等漢語音節符號,從而構成相應的漢語鍵盤實施例。
人名和地名等不標調的漢語拼音,是漢語譯成外語的國際標準;音譯的外國人名和地名等專有詞,可以使用不標聲調的音節字符代替漢字。因此,可以把音節字符的陰平聲調併入輕聲聲調,如表5的陰平聲調一律不標調,可以代表不區分聲調的音節組即聲韻雙拼音節,用於不標調的場合。
使用漢語鍵盤,先輸入聲介母,再輸入帶調韻母或帶調介母;但零聲母音節的輸入順序相反,用帶調韻母補加一個隔音符號「`」輸入,可視為在帶調韻母之後書寫,或稱作零聲母音節的補位輸入鍵,在圖1-15中標註為「補位」。
實施漢語鍵盤的簡單方法是採用聯想漢字輸入環境、DOS6.22中文版,Windows95,98中文版及其包含的DOS7.0中文版等軟體,依據其碼錶規則編制漢語音節符號與英文字符的輸入碼對照表,即可通過簡單編譯,實現漢語音節符號的鍵盤編碼輸入。編制專用的輸入法軟體才能支持特殊的輸入功能。
漢語鍵盤使用46個輸入字符,而DOS6.22及DOS7.0中文版、Windows3.2中文版,UCDOS等軟體,其原有設置限制個別字符的使用。例如符號健「-」和「=」用作重碼的翻頁鍵,可以改用Shift鍵或Alt鍵與PgUp,PgDn等鍵的組合鍵替代。最好與軟體的開發商協商修改,有的軟體經過分析也能自行修改,但其修改的後果有時難以預料,必須自行承擔其責任。例如,對於MSDOS6.22和MSDOS7.0,使用PCTOOL工具軟體修改鍵盤模塊HZKBD,方法是找到3b75改成3a75,找到2d75改成4075,找到3d74改成2374,找到3d0d2d0c改成2b0d5f0c,則47個字符都可用作輸入字符。本方法只是一個實施例,是否可靠需經美國微軟公司確認。
也可以不使用「-」和「=」。圖1-15中,字符「-」的帶調韻母ǎi用字符「\」替代,「-」鍵的聲介母Xu則拆成Xu,Xuan,Xue,Xuen四個整體音節,補加帶調韻母ǖ,ǘ,ǚ,ǜ輸入。圖1-15的圓括號「」中分別標出代替「-」和「=」鍵的輸入要素。
本發明的漢語鍵盤,其更為精確的定義就是漢語鍵盤輸入系統,依賴於支持漢字字符的漢字處理系統,以及增加雙字節或多字節漢語音節字符的漢語處理平臺。圖16漢字處理系統結構框圖中,由通用鍵盤裝置4,鍵盤輸入處理軟體8和計算機基本硬體及漢字作業系統軟體10構成漢字鍵盤輸入系統;圖17的漢語處理系統結構框圖中,增加獨立的音節/漢字轉換軟體19構成漢語鍵盤輸入系統。兩種鍵盤輸入系統均能輸入常規漢語音節符號和漢字詞語。留有至少1280個雙字節或多字節空閒字符代碼的漢字處理系統,增加音節字符的顯示字庫和列印字庫,組成圖17的″漢語音節代碼及其音節字符支持平臺21,才能處理音節字符。也有一些漢字處理系統例如希望漢字系統UCDOS等軟體,不能支持雙字節的1280個漢語音節字符,需要進行系統改造。
同音同義的漢語語音及其音節符號和漢字詞語,都包含共同的漢語音節信息,在漢語音節的層次上相互統一其中注音符號,漢語拼音,音節字符等音節符號的差別是字形不同,相互間一一對應;而漢字符號有多種代碼體系,還有簡,繁體之分,相互間基本一一對應;音節符號和漢字符號之間的對應關係較為複雜,需要音節/漢字或漢字/音節轉換程序及其智能轉換知識庫的支持。可以概括地說,同音同義的漢語信息有漢語語音及其各種音節符號和各種代碼體系的漢字詞語,只要輸入其中一種漢語信息,就可以利用同步轉換程序,採用不同的提示行,同一個編輯窗口的不同編輯區域,或不同的編輯窗口,進行同步轉換輸入。所輸入的不同代碼可以分別保存在不同的文件中,從而形成對比文件。
同音同義漢語信息的同步轉換輸入包括(1).同音同義的音節符號同步轉換輸入;(2).不同代碼體系的同音同義漢字字符的同步轉換輸入;(3).同音同義的漢字字符及其音節符號的同步轉換輸入;(4).同音同義的音節符號及其漢字字符的同步轉換輸入。
1.使用漢語鍵盤輸入漢語音節符號
使用漢語鍵盤輸入每個漢語音節的兩個英文字符,稱作輸入字符,是最直接的漢語音節代碼,補加空格等分隔標記適用於純西文軟體,但不容易認讀;使用其識別轉換程序則能轉換為容易識讀的漢語音節符號,類似英文制表符的識別轉換。
漢語鍵盤的直接輸入目標是注音符號,漢語拼音符號和漢語音節字符等漢語音節符號。利用輸入字符與音節符號的編碼對照表編制音節符號的鍵盤輸入軟體就能分別輸入。
在GB2312-80標準及GB13000.1-93標準中,用雙字節的字母組成一個漢語音節符號,漢語拼音需要1-6個,注音符號需要2-4個(必須補加標調符號),音節符號較長。可以利用126個雙字節空閒字符編碼設計雙字節的聲介母,帶調韻母和帶調介母符號,分別包含1-3個字母,其字形如表1和表2所示,兩個雙字節符號組成一個4位元組的音節符號,其中Y和W之外的聲介母與帶調介母的組合,中間多一個介母i,u或ü,例如音節「Juǜ」,「Lií」等。韻母符號例如iu,ui,un,ing等不再簡化,其餘相同。與音節字符相比,佔用字符編碼少,容易實現,易推廣,比原有符號簡捷,能夠直接發揮漢語鍵盤的輸入優勢,但字節數比漢字多一倍,相互變換時和排版時字符必然串位。可以用於不支持雙字節音節字符的漢字系統,例如UCDOS。
把26個大寫英文字母改為標調的a,o,e,i,u,ü符號,參見″漢神中文視窗軟體″的字體,配合小寫英文字母,可以組成規範的漢語拼音音節符號,但不能兼容大寫的英文字母;除非使用1,2,3,4,5等符號分別表示陰平,陽平,上聲,去聲和輕聲聲調。
每個漢語音節中選取較常用的漢字稱作代音漢字,如表3所示,可以直接利用現有的漢字系統資源,容易認讀,但很難和普通漢字符號區分,需要長時間學習才能應用,而習慣用漢字的人又覺得彆扭。
上述的漢語音節符號及其代碼,可以直接記錄漢語口語即漢語速記,組成漢語音節文本即口語文件,能夠直接使用語音合成軟體輸出語音。音節符號與漢字字符混用,就是把漢語的語音和文字兩種媒介的信息在字符層次上合而為一,有利於相互變換處理。日語把表音的假名和漢字混合使用,發揮了重要作用,並以假名的鍵盤輸入為基礎,通過假名-漢字轉換程序實現日語漢字的鍵盤輸入。
漢浯音節字符的鍵盤輸入,可以作為漢字輸入的一個中間環節,利用音節-漢字智能轉換技術,動態實時,或靜態一次性地。把「音節字符」文本轉化為相應的漢字字符文本。那些難以自動轉換的「音節字符」可以保留,以便以後進行手工替換性的轉換。這比使用頻度判據給出錯誤的漢字,在所有的漢字中尋找錯誤的漢字再進行人工修改明顯優越。
採用圖1-圖15所示的任意一種漢語鍵盤,首次輸入聲介母、再次輸入帶調韻母或帶調介母,擊健兩次即可輸入一個漢語音節即「兩鍵一音」,再利用輸入字符與漢語音節符號對照表,由鍵盤輸入處理模塊把輸入字符轉換為所要輸入的漢語音節符號。設定最大輸入碼長為2,個別有重碼的使用聲音告警,用數字鍵選擇輸入。
輸入「HànYǔZhēnJīngQi」5個音節,首先拆分出「H、àn。Yü、ǚ,Zh、ēn,Ji、ēng。Qi、i」10個輸入要素。在漢語鍵盤上找到相應的輸入健位,依次擊健即可。採用圖1所示類型的漢語鍵盤,依次鍵入英文字符「hh.2;rjtq,」;或者採用圖2所示類型的漢看鍵盤,依次鍵入英文字符「hh.2irjtq,」;或者採用圖3所示類型的漢語鍵盤,依次鍵入英文字符「hh.2irjtq,」;或者採用圖4所示類型的漢語鍵盤。依次鍵入英文字符「hh.2irjtq,」,或者採用圖5所示類型的漢語鍵盤,依次鍵入英文字符「hh.2vvjtq,」,或者採用圖6所示類型的漢語鍵盤,依次鍵入英文字符「hh.2arjtq,」,或者採用圖7所示類型的漢語鍵盤,依次鍵入英文字符「hh.2irjtq,」,或者採用圖8所示類型的漢語鍵盤,依次鍵入英文字符「hh.5iwjyq,」,或者採用圖9所示類型的漢語鍵盤,依次鍵入英文字符「hf.5iyjwq,」。或者採用圖10所示類型的漢語鍵盤。依次鍵入英文字符「hh.2;rjtqc」,或者採用圖11所示類型的漢語鍵盤,依次鍵入英文字符「hh.2;rjtqc」。或者採用圖12所示類型的漢語鍵盤,依次鍵入英文字符「hh.2irjtqc」,或者採用圖13所示類型的漢語鍵盤,依次鍵入英文字符「hh.2irjtqc」,或者採用圖14所示類型的漢語鍵盤,依次鍵入英文字符「hh.2;rjtqc」,或者採用圖15所示類型的漢語鍵盤,依次鍵入英文字符「hh.2irjtqc」,都能輸入這些漢語音節。
所輸入的兩個英文字符,可以分別轉換為全形漢語拼音符號「HànYǚZhēnJīngQi」,4位元組的漢語拼音音節符號「(H)(àn)(Y)(ǚ)(Zh)(ēn)(Ji)(ēng)(Qi)(i)」(括號內是一個雙字節符號,以下同)。全形注音符號「ㄏ

ㄓㄣㄐ丨ㄥㄑ
」,4位元組注音音節符號「(ㄏ)(
)(ㄩ)(
)(ㄓ)(ㄣ)(ㄐㄧ)(ㄥ)(ㄑㄧ)(
)」依據注音符號設計的雙字節音節字符「(ㄏ
)(ㄩ
)(ㄓㄣ)(ㄐㄧㄥ)(ㄑ
)」,表3的代音漢字「漢與真經其」。表4所示的漢語音節字符「(Hàn)(Yǚ)(
ēn)(Jiē
)(Qi)」表5所示的簡化音節字符「(Hàn)(
ǚ)(
ēn)(jē
)(Qi)」等漢語音節符號。具體的輸入方法是分別建立各種漢語音節符號與其輸入字符對照表,編譯出相應的鍵盤輸入程序,即可分別輸入各種漢語音節符號。其中雙字節的音節字符需要圖17中漢語音節代碼及其音節字符支持平臺21才能顯示或列印,其它音節符號在普通的漢字系統上就能實現,其中4位元組的音節符號需要使用造字程序造出相應的雙字節音節要素符號組合而成。
使用漢語鍵盤能夠輸入各種類型的漢語音節代碼或其音節符號,不管是單字節的組合代碼或其符號,還是雙字節。四字節或多字節的音節代碼或其音節符號,甚至是加密的音節代碼或其音節符號。其前提是提供一個漢語鍵盤的輸入字符與目標音節代碼或其音節符號的對照表。編譯出相應的鍵盤輸入程序即可輸入。所有的音節代碼或其音節符號,都可以歸結為同一種類型的漢語音節信息。
與現有技術相比,輸入一個漢語音節的擊鍵次數由三次減少為兩次。漢語音節的輸入碼長由3減少為2,輸入效率提高50%。漢語音節的輸入速度與漢語口語表達速度相接近,可達200個音節/分鐘,最高可達300個音節/分鐘,本身就是漢語電腦速記。漢語音節的編碼效率由三鍵一音的42%(1300÷22÷35÷4),提高為兩鍵一音的61%(1300÷46÷46)。漢語音節的重碼率僅為千分之五,只有6對音節重碼。在普通鍵盤上非常規範地實現了"兩鍵一音",即漢語音節的帶調雙拼。與《漢語拼音方案》相比,161個音節要素減少為126個音節要素。可以進一步簡化為119個;音節符號基本相同,用雙字節即可編碼,與漢字符號字節數相同並且相互兼容,能夠混合使用。交互處理。從而改進為《漢語語音方案》。
漢語鍵盤輸入要素的健位布局不同。其音節的具體輸入健位也有所不同。為了表述方便,以下涉及音節的輸入時。不再區分具體的鍵盤布局。因為每個鍵盤都能輸入音節,輸入的結果是相同的。
2.同音同義音節符號的同步轉換輸入
同音同義的音節符號之間一一對應,輸入其中一種符號,就可以同步地轉換為其它的音節符號。除鍵盤的音節輸入字符,代音漢字和音節字符為兩個字節的符號之外。其它的音節符號均是多個字節,而且不等長。音節輸入字符是鍵盤輸入的基本字符,因為現有的漢字系統幾乎都建立在英文系統之上,為了及時發現輸入錯誤,音節輸入字符一般作為提示符號顯示,一個輸入過程完成後即清除。
音節字符最有代表性,可以作為所有音節符號的同步轉換輸入的基礎。建立音節輸入字符與音節字符對照表,實現音節字符的鍵盤輸入,再分別建立音節字符與漢語拼音,注音符號,代音漢字等漢語音節符號在同一個代碼體系內或不同代碼體系之間的代碼對照表,在音節字符的輸入過程中調用,即可同步轉換輸入其它的漢語音節符號。如果輸入目標不是音節字符,則可以作為一個中間過渡符號無需顯示,直接顯示目標音節符號如果輸入目標是音節字符。其它的音節符號可以作為提示符號,以便使用輸入者熟悉的音節符號輸入不熟悉的音節字符。鍵盤輸入的提示符號和目標符號還可以是任意的漢語音節符號,例如,輸入注音符號時,可以使用漢語拼音符號提示。即使輸入者不認識注音符號也能正確輸入。因此,除具有輸入字符的提示外,還可以增加相同或不同代碼體系的各種音節符號的同步轉換輸入提示,其中後者需要使用現有的不同代碼體系的同屏顯示技術,能夠利用輸入者熟悉的音節符號,輸入不熟悉的音節符號,熟悉一種音節符號,就能夠輸入任意的音節符號。
輸入目標也不限於一個,可以選擇同音同義的兩個或多個音節符號同步轉換輸入,所輸入的音節字符,可以相互對比排列在同一行上,例如「ㄊㄨ
/tóng/同_ㄅ
/bù/不_ㄓㄨ
/zhuǎn/轉_ㄏㄨ
/huàn/換_ㄕㄨ/shū/書_ㄖ
/rù/入_ㄒㄧㄣ/xiēn/新_ㄐ
/jì既_ㄕ
/shù/數」,其中的漢字是代音漢字,或者相互對比排列在上下對應的兩行或多行上,例如
「ㄊㄨ


ㄏㄨ
ㄕㄨ ㄖ
ㄒ ㄧ ㄣ ㄐ


「tóng bù zhuǎn huànshū rù xiēn jì shù」
「同 不 轉 換 書入新 既術」所輸入的目標信息,可以是各種類型同音同義的漢語音節代碼或其音節符號,甚至是隨意加密的漢語音節代碼或其音節符號,只要提供漢語鍵盤的音節輸入字符與其漢語音節代碼或其音節字符的對照表,就可以編譯出同步轉換的鍵盤輸入程序而同步輸入,即使是不能顯示的音節代碼,使用其它音節符號也能同步提示輸入。
也可以把同音同義的兩種或多種音節符號,同步轉換地輸入兩個或多個相互對比的文件中。例如在分欄編輯的兩個文件之中,分別輸入漢語拼音符號和漢語音節字符,使輸入過程相互同步,在一個文件中輸入或修改,在另一個文件中自動地進行同樣的輸入或修改。只要其中一個文件的輸入正確無誤,其它同步轉換輸入的文件也一定正確無誤,哪怕輸入的音節符號屬於其它的代碼體系,不能在本代碼體系內顯示和列印,也能一次性的正確輸入。例如,中國大陸的人可以在一個文件中輸入漢語拼音的音節符號,進行必要的編輯和修改,在另一個文件中同步轉換輸入,同步編輯和同步修改為同音同義的臺灣BIG5碼的注音符號,甚至不需要顯示,再利用電子郵件發給臺灣人,對方不需要代碼轉換程序就能直接認讀。如果使用不同代碼體系的同屏顯示技術,則可以進行不同代碼體系的音節符號的同步轉換輸入和同屏對比的顯示,編輯和修改,直接生成兩個或多個相互對比的同音同義的音節符號文件。
這項技術使漢語音節的信息處理超越了不同代碼體系的界限和簡,繁體的字形差別,只要使用一種漢語音節符號,就能輸入各種同音同義的漢語音節符號,或一次輸入多個同音同義的音節符號文件,使輸入效率明顯提高,使漢語信息處理和華人之間的信息交流更加方便。
3.同音字選擇輸入
漢語音節的輸入字符替換成相應漢語音節的同音漢字,依據靜態的或動態的字頻順序排列,最大輸入碼長為2,同音字選擇輸入,這是最基本的漢字輸入方法,其前提是必須認識所要輸入的漢字。對於支持音節字符的軟體,例如圖17所示的漢語處理系統,把音節字符也作為一種漢字,按同音字輸入,以便代替漢語拼音記錄漢語語音,直接音譯外來語,或作為只知道讀音卻不知道具體漢字的語音記錄符號,便於以後修改。
同音字通常依據字的統計頻度按固定順序靜態排列,頻度高的字排在前面,其中第一個字用其讀音音節補加空格即可輸入,定義為二級簡碼,可以直接使用表3所示的代音漢字。其它的字使用數字或上檔字符選擇輸入。經常打字的人記住其固定順序就不需要看提示行選字了。也可在此基礎上進行動態調整,把剛剛用過的字作為最常用字,排在其它同音字的前面,因字的位置不固定,所以不適合經常打字的人,比較適合偶爾打字的人。把兩者結合起來,以統計數據為基礎,每個字都標註其頻度值,以後出現一次頻度加1,依據當前頻度值由大到小的順序排列同音字,則字的相對位置比較穩定,該調整時還能針對具體的使用者予以調整,可稱作動態累頻調序。此外,還可以輔助人工強行調序。
編制漢語音節的輸入字符與多個同音漢字的編碼對照表,利用一些漢字系統提供的漢字編碼輸入法編譯程序,就可以實現漢字同音字的輸入。設定最大輸入碼長為2,首次擊健輸入漢字讀音的聲介母,再次擊健輸入漢字讀音的帶調介母或帶調韻母,同音漢字就顯示在提示行上,用數字或上檔字符等選擇即可輸入所要的字。動態累頻調序的實施比較複雜,需要編制動態累頻調序程序。
代音漢字與同音漢字的輸入可以結合起來,設定最大輸入碼長為2,每輸入一個音節之後,如果再輸入一個音節,則前一個音節的代音漢字直接上屏,否則,輸入一個空格或其它不用於編碼的字符等標記進入剛剛輸入音節的同音字選擇狀態,用數字或上檔字符選擇輸入。
對於電腦速記等應用,音節的鍵盤輸入和同音字的手工選擇可以分開處理。現場記錄時使用漢語音節符號,之後再利用軟體逐個音節進行手工轉換或校對。其中的音節符號使用″音節字符″或代音漢字較為適用;而其它音節符號不等長,有的還需要為某些音節補加分隔符號如空格等,選字後音節的字節數還可能變化而影響段落的整齊性。這是本發明設計″音節字符″的一個主要原因。
對於音節字符文本,可以一次性成批的選字,把光標自動或手動地移動到一個音節符號,自動打開同音字提示行,用數字或上檔字符選字輸入。支持整句拼音輸入的″拼音王″軟體就有類似的特色。
還可以使用單字的翻字鍵,設立一個向前順序的翻字鍵和一個向後順序的翻字鍵,例如使用成對的上下或左右光標鍵,依據上述同音字的順序,把當前剛剛輸入或光標所指的音節符號或其同音字,一個一個地依次更替,直至所要輸入的字出現為止。
實施時,需要編制每個音節符號的同音字鍊表,音節符號及其同音字依據一定的順序,一般是字的頻度順序排列,光標指向哪個音節符號或代音漢字或任何一個同音字,就調出哪個同音字鍊表,用數字或上檔字符選擇輸入,或使用單個字的翻字鍵逐個選字輸入。
例如,輸入「漢語信息」四個字,分別輸入音節「hàn」提示出「1漢2焊3罕4翰5撼6捍7旱8憾9汗0悍」選1或輸入空格輸入;輸入音節「yǚ」提示出「1與2語3予4雨5隅6隅7虞8嶼9字0禹」選2輸入,或按一次正向翻字鍵而輸入;輸入音節「xièn」提示出「1信2芯3釁4囟」選1輸入或輸入空格輸入;輸入音節「xī」提示出「1西2息3希4析5吸6烯7昔8熙9硒0矽」選2輸入或按一次正向翻字鍵輸入。或者一次性輸入「漢語信息」的4個音節字符「(hàn)(yǚ)(xièn)(xī)」,以後再把光標移動到某個音節字符上,同時打開同音字提示行,用數字等選字符號輸入漢字,或進入單個漢字的翻字狀態,用成對的翻字鍵依次更替。
與現有技術相比,區分聲調後同音字的字數僅是不區分聲調的四分之一,同音字的選字範圍明顯減小,GB2312-80中,每個音節中最多的漢字數為60個,平均為6個,一般不需要翻頁選字。
4.漢字詞語編碼輸入
兩鍵一音,使漢字詞語的編碼輸入大為簡化。設定最大輸入碼長為4,雙字詞直接輸入讀音;三字詞輸入每個字讀音的聲介母,也可再補加第三個字的帶調韻母;四字及四字以上詞則輸入第一,二,三,四或最後一字的聲介母。單字的輸入則複雜一些。
除獨體字外,大部分漢字是兩個或兩個以上的字根組成,而字根幾乎都有讀音,用字根讀音或其聲介母和帶調韻母為漢字編碼,把單字看作由字根組成的詞,按詞的方式輸入。還可以利用整字的讀音代替那些難讀、難記、或結構複雜難以拆分的字根。至於常用字,可以設計1300個一、二級簡碼,用一、兩個輸入字符加一個空格輸入。表3的代音漢字也是依據漢語音節而選定的二級簡碼漢字,具體的輸入健位取決於所用的漢語鍵盤。一級簡碼依據每個鍵位的聲介母選定,選取每個健位的聲介母中最常用的字。
現有的漢字編碼輸入法,使用單個健位定義常用字根,稱作基本字根,一般為100個左右,其餘的字根要拆成基本字根,往往違背漢字的結構規律。總計約600個字根,都必須直接或間接地標記或映射在幾十個鍵位上,其難學、難記是不可避免的。而本發明只利用字根的讀音即兩個鍵位的組合來標記或映射在鍵位上,所以,對基本字根的數量沒有限制,無需再拆分字根。把一個可拆的漢字看成字根組成的非單字詞而按詞輸入,認識字根就足以輸入,並不需要記住漢字的編碼。這是人們日常生活中一貫採用的方法,有著悠久的歷史,如「矢口否認」是「知」字拆成的「矢」和「口」,等等。除一些非單字字根或不常用的字根其讀音不為人們所熟悉、需要特殊記憶之外,大部分字根都是人們認識的。這種方法對漢字的總量沒有限制,對簡體和繁體都適用。
漢字字根的制定和漢字的拆分方法取決於所用的字符集。對於GB2312-80和GB13000.1兩個字符集而言,以《信息處理用GB13000.1字符集漢字部件規範》為基礎,有明確讀音的字根直接採用,沒有讀音的字根歸入字形相近的字根,或者″放大″字根,採用包含該字根且有讀音的字根。只能組成一,兩個字又沒有讀音的字根,直接使用其所組成的字為字根,例如″可″字的外圍字根只組成一個″可″字,所以直接使用″可″字為字根。由於字根位置的變化產生的筆畫變形,其字根視為同一個。例如,處在左側的字根,如果其最後一筆為「一」或「橫彎勾」,則變形為「提」「子」在左側變形為「孑」,「己」在「改」字中的筆畫變形都很明顯;處在上下位置的字根也有變形,豎長形的字根變成扁形;有的字根是書寫習慣所致,例如「絲」實際上不是三個字根組成,而是左右兩個字根的聯筆而成。此外,「印」字的左部分字根是「爪」字的變形;「獎」字的上半部分字根是「將」字簡化而來,因此其字根應讀「jiǎng」。與普通輸入法不同的是,由於一、二級簡碼多達1300個,常用字一般人都認識,很多字都按詞輸入,所以,拆字輸入的只是一小部分,只要是常用字,儘管很難拆分,也沒必要象形碼那樣非拆不可,利用簡碼或同音字選字輸入也很輕鬆。
制定一個數量最少的基本字根集,減輕初學者的字根記憶負擔;再適當增加一些組合字根作為輔助字根,以便使用最大的字根拆分漢字。拆字的規則主要依據《信息處理用GB13000.1字符集漢字部件規範》的「《漢字基礎部件表》使用規則」。
對於組字頻度很高且讀音相同的字根,採取一些特殊措施以便減少重碼的數量。例如,字根″目″和″木″,可以把其中一個字根進一步拆分,把″目″拆成″口″和″二″,或把″木″拆成″十″和″八″。
拆分漢字時,儘可能拆成兩個可讀的字根,依據漢字的整體結構而不單純依據筆畫的書寫順序,否則容易偏離組字的本義。一般是先左後右,先上後下,先外後內,先左上角起筆後右下角末筆。例如,「講」字先拆「訁」後拆「井」;「晨」字先拆「日」後拆「辰」;「國」字先拆「口」後拆「玉」;「這」字先拆「文」後拆「辶」。上下結構的「男」拆成「田、力」而不是「日、力」;「房」拆成「戶、方」;品字結構的字則拆成2個或3個字根,「品」字拆成「口、口、口」,「眾」字拆成「人,從」或「人,人,人」。難以拆分的字,整字又不認識的,可以用筆劃的讀音檢索輸入。例如用這些字的第一、二個筆劃的讀音,必要時使用第一,二,三,四或最後一個筆劃讀音的聲介母檢索輸入。也可使用通配符,替代罕用的字根。
字根的輸入,可以按其讀音補加一個或兩個未使用的字符而輸入,例如圖1-圖15中的字符組合fj,或圖1-圖9中的字符組合dk等,均是未用的字符組合。
拆分漢字的原則是拆大不拆小,拆整不拆零,拆相離不拆相交。例如,「意」字應該拆成「音」和「心」而不是「立」,「日」和「心」;「譁」字拆成「口」和「華」而不是「口」,「化」和「十」;「元」字拆成「一」和「兀」而不是「二」和「兒」。
實施例如下
設定最大輸入碼長為4,雙字詞和詞組依次取其讀音的音節直接輸入;三字詞和詞組依次取第一、二、三個字讀音的聲介母補加空格或第三個字的帶調韻母輸入;四字及四字以上的詞和詞組依次取第一、二、三及末字讀音的聲介母編碼輸入;
單字的輸入有幾種方式
首選聲介母補加空格輸入的一級簡碼數字鍵,符號鍵補加空格鍵輸入原符號的全形字符,但符號「/」補加空格輸入頓號「、」,字母鍵補加空格輸入其所表示聲介母的音節中最常用漢字作為一級簡碼漢字,分別為聲介母Du-對,聲介母B和Bu-不,聲介母C-從,聲介母D-的,聲介母Di和Mu-地,聲介母F-分,聲介母G-個,聲介母H-和,聲介母Sh-是,聲介母Ji-就,聲介母K-可,聲介母L-了,聲介母M-每,聲介母N-能,聲介母Li-兩,聲介母P-派,聲介母Qi-其,聲介母R-人,聲介母S-三,聲介母T-他,聲介母Hu和Nü-或,聲介母Bi和Fu-並,聲介母W-為,聲介母Xi-下,聲介母Y-一,聲介母Z-在。
如果把每個輸入字符補加一個鍵例如「=」而輸入其全形字符,則數字鍵和符號鍵也可補加空格輸入一級簡碼聲介母Tu-圖,聲介母Ti-條,聲介母Zu-作,聲介母Su-所,聲介母Cu-村,聲介母Qu和Ru-如,聲介母Gu-過,聲介母Ju和Nu-軍,聲介母Ni-年,聲介母Ku-快,聲介母Lu和Lü-路,聲介母Yu-與,聲介母Xu-學,聲介母Pi和Pu-平,聲介母Zh-中,聲介母Zhu-住,聲介母Ch-成,聲介母Chu-出,聲介母Shu-水,聲介母Mi-面。
每個音節補加空格輸入二級簡碼,例如採用表3中的代音漢字作為二級簡碼;
每個音節補加fj輸入該音節的同音字,重碼用數字鍵選擇輸入;
圖1-圖9所示的漢語鍵盤,每個音節補加dk,而圖10-圖15所示的漢語鍵盤則補加kd,輸入該音節讀音的字根,重碼用數字選擇輸入;
表6列出字根讀音表,包括″常用字根″,用於輸入GB2312-80國標字符集的一級漢字;補加″非常用字根″,輸入GB2312-80國標字符集的漢字;補加″擴充至大字符集簡體字的字根″,輸入GB13000.1-93國標大字符集簡體漢字;補加″擴充至大字符集繁體字的字根″,輸入GB13000.1-93國標大字符集的漢字。根據使用者的具體應用進行選擇記憶。難以拆分的字列出難拆字表,用筆順等字形信息排序,便於查找和輸入。例如,根據一,丨,丿,丶,乙的筆畫順序分別排列難拆字,以便於檢索和查找。
用每個字的字根讀音為該字編碼,編碼方法與非單字詞的編碼相似,2個字根組成的字依次按其字根的讀音音節輸入,3個字根組成的字依次取字根讀音的聲介母補加空格或第3個字根的帶調韻母輸入,4個或4個以上字根組成的字依次取第1,2,3,4或末字根讀音的聲介母輸入。
例如,輸入「漢語」依次輸入音節「hàn」,「yǚ」;輸入「計算機」依次輸入聲介母「ji」,「su」,「ji」補加空格,或者依次輸入聲介母「ji」,「su」,「ji」補加第三個字「機」的帶調韻母「ī」;輸入「哈爾濱市」依次輸入聲介母「h」,「ěr」,「bi」,「shi」;輸入「人民解放軍」依次輸入聲介母「r」,「mi」,「ji」和「f」或「ju」;輸入「人造地球衛星」依次輸入聲介母「r」,「z」,「di」和「qi」或「xi」;輸入「第一次世界大戰」依次輸入聲介母「di」,「y」,「ci」和「shi」或「zh」。輸入單字「鐵」拆成「釒」和「失」依次輸入音節「jiēn」,「shī」;輸入單字「眾」拆成「人」,「人」,「入」依次輸入聲介母「r」,「r」,「r」補加空格或補加第三個字的帶調韻母「én」;輸入單字「除」拆成「阝」,「人」,「一」,「木」依次輸入聲介母「fu」,「r」,「h」,「mu」;輸入單字「器」拆成「口」,「口」,「大」,「丶」,「口」,「口」依次輸入聲介母「k」,「k」,「d」,「k」。
標點符號和數字符號採用原符號補加空格輸入,類似於一級簡碼。
這種輸入方式,除單字拆成字根再按其讀音輸入外,非單字詞取其全部或部分讀音信息即可輸入,再配合一級簡碼和一千二百多個二級簡碼,輸入每個漢字的平均動態碼長為2.1接近2這個極限;而現有技術,幾乎無一例外地徘徊在平均動態碼長為3的水平上,輸入效率提高近50%。
漢語語音及其音節符號和漢字詞語是漢語信息的不同表現形式,是本發明實現了這些不同形式漢語信息鍵盤輸入上的統一,不僅輸入鍵位相同,輸入方法也基本相同,為漢語信息的綜合應用和相互變換處理創造了條件。
5.漢字詞語整音節編碼輸入
把完整的漢語音節作為基本單元為漢字詞語編碼。不限定最大輸入碼長,以空格等字符作為結束標記,兩字及兩字以上的詞和詞組直接按其讀音音節依次輸入,單字拆成兩個或兩個以上的字根,也按其讀音音節依次輸入,用空格等字符完成一個詞或字的輸入。例如″張″拆成″弓″和″長″,″蠔″拆成″蟲″和″毛″等分別輸入。
採用本發明第3項漢字詞語編碼輸入技術,不限定最大輸入碼長,每個漢字詞語的鍵盤輸入都以空格作為結束符號,就能直接實施本項發明。例如,輸入「漢語」按其讀音依次輸入音節「hà n」,「yǚ」補加空格結束;輸入「差不多」按其讀音依次輸入音節「chà」,「bù」,「duō」補加空格結束;輸入「中華人民共和國」按其讀音依次輸入音節「zhōng」,「huó」,「rén」,「mién」,「gòng」,「hé」,「guó」補加空格結束;輸入單字「鋼」拆成「釒」和「岡」依次輸入音節「jiēn」,「gāng」補加空格結束;輸入單字「眾」拆成基本字根「人」,「人」,「人」依次輸入音節「rén」,「rén」,「rén」補加空格結束;或者拆成「人」,和「從」依次輸入音節「rén」,「cóng」補加空格結束;輸入單字「除」拆成基本字根「阝」,「人」,「一」,「木」依次輸入音節「fù」,「rén」,「héng」,「mù」補加空格結束;或者拆成「阝」和「餘」依次輸入音節「fù」,「yǘ」補加空格結束;輸入單字「器」拆成基本字根「口」,「口」,「大」,「丶」,「口」,「口」依次輸入音節「kǒu」,「kǒu」,「dà」,「diǎn」,「kǒu」,「kǒu」補加空格結束;或者拆成字根「哭」和基本字根「口」,「口」依次輸入音節「kū」,「kǒu」,「kǒu」補加空格結束。
標點符號按其讀音音節輸入,例如「,」號用「dòuhào」輸入,「ㄍ」用「zuǒ shū mién ghào」輸入。
這種輸入方式不是最快的,但最小輸入單位都是音節,和漢語語音識別輸入相同,能夠相互補償各自的缺點,納入到一個系統中交互處理,是本發明的特色之一。由於漢語語音識別輸入的識別率有限,不認識的漢字和單字難以準確輸入,可以採用鍵盤輸入方法把漢字拆成幾個字根讀入,但需讀入空格等結尾標記。
6.雙音單字漢語鍵盤輸入
以漢字詞語的鍵盤輸入為基礎,用雙字詞輸入所含的單字,共有三種方法
(1).把要輸入的單字作為雙字詞的第一個字,輸入雙字詞後再用退格鍵刪除後一個字。實際上就是漢字詞語編碼輸入方式,只是增加單字的雙音輸入技巧。例如,要輸入單字″各″,可以輸入″各個″一詞,再用退格鍵刪除單字″個″。
(2).把漢字詞語輸入作為常態,設置一個狀態轉換鍵,使用右Shift鍵或字符組合鍵,按一下就進入雙音單字輸入狀態,鍵入雙字詞只輸入第一個字,補加空格則輸入第二個字,除非再按一下轉換鍵返回詞語輸入狀態,否則繼續保持雙音單字輸入狀態。例如,把漢字詞語輸入作為常態,用右Shift鍵作為狀態轉換鍵,按一下之後,再輸入雙音節詞只輸入第一個字,鍵入「我們」只輸入「我」,再鍵入「來到」只輸入「來」,若此時輸入空格則輸入「到」字。直到再按一次右Shift鍵回到正常的詞語編碼輸入狀態。適合非單字詞比單字多的文本輸入。
(3).把雙音單字的輸入狀態作為常態,需要輸入第二個字則補加一個空格,需要輸入非單字詞語則用右Shift鍵或字符組合鍵作為狀態轉換鍵切換,與輸入方式(2)正好相反。例如,把雙音單字輸入作為常態,鍵入雙字詞只輸入第一個單字,補加空格再輸入第二個字,用組合鍵″Alt″+J等作為狀態轉換鍵,按一下進入漢字詞語的編碼輸入狀態,再按一下回到雙音單字輸入狀態,適合單字比非單字詞多的文本輸入。
方法(2)和(3)可以納入到一個系統中,增設狀態轉換鍵相互切換,例如使用「Ctrl+H」的組合鍵進行切換,以便適應不同的輸入場合。
這種方法輸入單字比較容易,不需要記憶字根的讀音,容易學習,可以充分發揮本發明的技術優勢。選取與單字詞意義相同的雙字詞輸入單字,能夠促進漢語雙音化,減少單字詞的使用。此外,不管單字還是非單字詞,其簡體及其繁體的輸入方法均是一致的,有利於海峽兩岸及其海內外的文化交流,也便於古籍經典的整理和研究。
7.字形不同的同音同義漢字的同步轉換輸入
前述的第3,4,5,6項,輸入目標都是漢字,無論是簡體漢字,還是繁體漢字,不管是GB2312-80字符集,還是GB13000.1-93字符集,或者是ISO/IEC10646字符集,以及BIG5字符集,只要有相應的漢字系統的支持,編寫相應的漢字鍵盤輸入程序就能直接輸入。同音同義的簡,繁體漢字或不同代碼體系的漢字,其差別僅在於字形和代碼,原則上是同一種漢語信息的不同表達形式,因此只要輸入一種字形和代碼的漢字,就能夠利用固定的相互關係知識庫,同步轉換輸入同音同義的其它字形的漢字代碼。這種轉換方式需要有簡體和繁體相互兼容的字符集的支持,例如有Windows95中文版/98中文版的GBK字符集或WindowsNT的CJK字符集等的支持。
在GB13000.1-93字符集內,包含簡,繁兩種字體的漢字,可以依據其相互映射關係編制同音同義簡體/繁體映射表和繁體/簡體映射表,依據一種字體,就能轉換出另一種字體。應用在鍵盤輸入過程,就是簡/繁體或繁/簡體同步轉換輸入。除提示鍵盤的輸入字符外,還可以提示相互對照的簡,繁體漢字,以便同時輸入相互對照的兩個文件,或使用認識的漢字作為提示而輸入並不認識的另一種字體的漢字。
由於簡體漢字是從繁體漢字發展而來,繁體與簡體是多對一,而簡體到繁體是一對多,因此繁體到簡體的轉換比簡體到繁體的轉換簡單和容易。把繁體作為基礎,建立繁體詞庫等知識庫,配合繁體/簡體轉換程序,就可以同時處理繁體和簡體文字。
依據《國際標準漢字大字典》(電子工業出版社,1998年5月第一版),可以建立簡體漢字/繁體漢字,以及繁體漢字/簡體漢字的轉換對照表,實現相互變換處理。
8.代碼不同的同音同義漢字的同步轉換輸入
同樣,不同字符集的同一個漢字或簡體和繁體字形不同的漢字,編制相互對照的同音同義漢字代碼映射表,例如GB2312-80與BIG5,GB13000.1-93與BIG5等等,輸入其中一種代碼的漢字,就能同步轉換為同音同義的另一種代碼的漢字。
不同代碼體系的漢字數量都有差別,例如GB2312-80和BIG5,漢字數分別為6763和1萬3千多個,並非一一對應,但常用漢字基本上都包含了,因此相互間的代碼轉換一般是沒問題的。需要有GB2312-80到BIG5的代碼映射表,以及BIG5到GB2312-80的代碼映射表,才能進行相互變換。只要輸入其中一種代碼,就可以同步地轉換為另一種代碼。在單一代碼體系的漢字系統上,兩者難以同時顯示,除非利用「東方快車」或「漢神中文視窗」等不同代碼漢字的同屏顯示技術才能同時顯示。
所輸入的同音同義的不同代碼的漢字,可以相互對比排列在同一行內,或者相互對比排列在上下對應的兩行或多行上,或左右對應的兩列或多列上。也可以把同音同義的不同代碼的漢字,同步轉換地輸入相互對比的兩個或多個文件中,每個文件輸入一種代碼的漢字。例如在分欄對比編輯的兩個文件之中,在其中一個文件中輸入簡體或繁體漢字,相應的在另一個文件中輸入同音同義的繁體或簡體漢字;使輸入過程相互同步,在一個文件中輸入或修改,在另一個文件中自動地進行同樣的輸入或修改。只要其中一個文件的輸入正確無誤,同步轉換輸入的文件也一定正確無誤,哪怕輸入的漢字屬於其它的代碼體系,不能在本代碼體系內顯示和列印,也能一次性的正確輸入。例如,中國大陸的人可以輸入簡體漢字,同步轉換輸入臺灣的繁體漢字,直接用電子郵件發給臺灣人,對方不需要代碼轉換程序就能直接認讀。如果使用不同代碼體系的同屏顯示技術,則可以進行同音同義不同代碼漢字的同屏對比輸入提示和編輯,直接輸入,編輯和生成兩個或多個相互對比的文件。
這項技術使漢語信息處理超越了不同代碼體系的界限和簡,繁體的差別,只要使用一種代碼的漢字,就能輸入同音同義的各種代碼漢字,一次輸入多個對比文件,使輸入效率明顯提高,使漢語信息處理和華人之間的信息交流更加方便。此外,只要使用輸入者熟悉的一種代碼漢字,就能輸入其它代碼體系同音同義漢字的代碼,便於相互交流。
9.同音同義的漢字和音節符號的同步轉換輸入
現有的音節符號/漢字符號智能轉換鍵盤輸入,都包含音節符號和漢字符號的輸入過程,只是把漢字作為唯一的輸入目標而忽略了音節符號,原因之一就是普通音節符號的實用性較差。音節字符與漢字符號兼容而且字節數相等,就可以和漢字混合使用。
漢字的語音合成輸出,漢字的自動注音等都需要利用漢字提取其讀音信息。漢字包含其讀音的音節信息,所以輸入漢字能夠同步轉換輸入其音節符號。
只有一個讀音的漢字其漢字/音節轉換很簡單,有一個漢字/音節映射表即可;有多個讀音的漢字,必須利用漢字的組詞屬性確定其讀音,其漢字/音節轉換較為複雜,需要漢字/音節詞庫和漢字/音節轉換知識庫。為了提高正確轉換率,漢字/音節詞庫側重於多音字的詞。每個多音字都有一個常用讀音,列入常用漢字讀音表,其它的讀音列入漢字/音節詞庫。進行漢字/音節轉換,首先檢索漢字/音節映射表,沒有再檢索漢字/音節詞庫和漢字/音節轉換知識庫,還沒有則檢索常用漢字讀音表給出常用讀音。轉換的漢字讀音可以直接使用漢語音節符號。使用音節字符較為理想,既能簡化映射表,又便於使用音節字符/音節符號映射錶轉換為其它音節符號。
漢字/音節智能轉換輸入的主要用途是漢字及其音節符號對照文本的輸入處理,主要用於漢語教學領域,兒童讀物的編輯和出版。現有方法有手工注音,漢語自動分詞注音等,需要專門的軟體支持。本發明則利用圖16的漢字/音節轉換軟體22,和音節代碼與漢語拼音,注音符號,代音漢字等的轉換軟體18,19和20,分別實現漢字與音節字符,漢語拼音,注音符號,代音漢字等的轉換處理。
這項技術能夠同步地輸入漢字及其拼音的對照文件,用於兒童出版物的編輯和排版,提高工作效率。例如,漢字及其讀音的漢語拼音符號在上下兩行對比排列,只要輸入漢字,就可以利用漢字/漢語拼音轉換程序,同步地轉換出相應的漢語拼音,標在相應的漢字上面,從而同時輸入,也可以同時編輯和修改。例如,以下只要輸入漢字,利用漢字/音節轉換就能同步地輸入音節符號;或者只輸入第一行的注音符號或第二行的漢語拼音,藉助音節/漢字智能轉換輸入程序的支持就能同步地輸入第三行的漢字及另一種音節符號
「ㄊㄨ

ㄓㄨ
ㄏㄨ
ㄕㄨ ㄖ
ㄒㄧㄣ ㄐ


「tóng bùzhuǎn huàn shū rù xiēnjì shù」
「同 步 轉 換 輸入 新 技 術」
10.音節/漢字智能轉換輸入
使用漢語鍵盤輸入漢語音節,再採用比較成熟的音節-漢字智能轉換技術,把所輸入的音節轉換為漢字詞語,可以達到或接近兩鍵一字的漢字輸入極限,使漢字輸入的難度極大的簡化,便於全面的普及和應用。圖16的漢字鍵盤輸入處理系統,需要獨立的音節-漢字智能轉換輸入軟體;圖17的漢語鍵盤輸入處理系統,直接包含音節/漢字轉換軟體19。
把微軟拼音輸入法的輸入鍵盤進行重新定義,使用本發明的漢語鍵盤,其漢語音節的表音符號由單字節的英文字母組成,其標調符號使用數字符號,即與微軟拼音輸入法相適應,就可以直接實施本項技術。
例如,輸入″漢語鍵盤是一種新技術產品″,依次輸入其讀音的漢語音節,則整句轉換的過程為輸入「hàn」轉換為「漢」;輸入「yǚ」轉換為「漢語」;輸入「jiàn」轉換為「漢語建」;輸入「pó n」轉換為「漢語鍵盤」;輸入「shì」轉換為「漢語鍵盤是」;輸入「yì」轉換為「漢語鍵盤示意」;輸入「zhǒng」轉換為「漢語鍵盤是一種」;輸入「xīn」轉換為「漢語鍵盤是一種新」;輸入「jì」轉換為「漢語鍵盤是一種心跡」;輸入「shù」轉換為「漢語鍵盤是一種新技術」;輸入「chǎn」轉換為「漢語鍵盤是一種新技術產」;輸入「piěn」轉換為「漢語鍵盤是一種新技術產品」。
也可以把輸入的音節用音節字符表示,則在整個句子輸入完出現標點符號或其它非漢字字符之後,整個句子一次性轉換為″漢語鍵盤是一種新技術產品″。
把音節字符作為一種漢字符號處理,那些不能確切轉換或不需要轉換的音節字符就可以直接保留,需要人工轉換時自動查找音節字符,手工替換為漢字符號。例如用整句轉換輸入法輸入″他的名字叫章英革″,直接轉換為漢字且中間不增加修改過程的結果為″它的名字叫張應葛″,夾雜音節字符則結果為″(tā)的名字叫(zhāng)(yīng)(gě)″,其中括號內的拼音符號代表音節字符,如果不聯繫上下文,人也很難把這些音節轉換為準確的漢字,因此不能過分要求計算機,所以,保留其音節字符是合理的。其後修改時,凡是遇到音節字符都調出其同音字選擇輸入,或者用查找與替換的方法替換成漢字。對於外來語轉譯回來的不常用的中國人名,地名等,以及外國人名,地名等專有名詞,可以直接使用音節字符,沒必要轉換為漢字。
在音節的智能轉換輸入過程中,允許使用聲介母補加空格輸入一級簡碼甚至二級簡碼如果第偶數次輸入一個空格,則空格前面輸入的視為聲介母而輸入一級簡碼漢字;如果第奇數次輸入一個空格,則空格前面輸入了完整的音節,該空格的作用可以是人工切分出一個短語,或者把剛剛輸入的音節作為二級簡碼漢字處理,此時連續輸入兩個空格才能輸入一個空格。
使用漢語鍵盤作為″微軟拼音輸入法″的輸入鍵盤,由於直接區分聲調,其輸入的效果就會明顯地提高,而且能夠達到兩鍵一字的漢字輸入極限,是目前所有的漢字輸入技術都無法實現的。由於本發明的特殊性,音節/漢字智能轉換輸入的效率能夠進一步地提高。
11.音節-漢字智能轉換,輔助漢字詞語編碼,一次性精確地輸入漢字詞語
以音節-漢字智能轉換為基礎,系統支持的通用漢字詞語按其讀音的音節依次輸入,出現非通用的漢字詞語,例如人名,地名,單位名等難以智能轉換的漢字或無序的及不認識的漢字,以及字數超過2的多字詞等,先輸入字符″\″等符號作為編碼輸入的引導符號,把剛剛輸入的音節符號串智能轉換為漢字串,隨後編碼輸入單字或多字詞,最大輸入碼長為4,重碼選擇輸入。可以使用一級簡碼,二級簡碼,單字編碼和詞編碼,補加空格或達到最大輸入碼長後,如果不再輸入引導符號,就返回到智能轉換輸入狀態。由於雙字詞只需輸入音節,其數量最多,編碼輸入還需要引導符號,因此雙字詞編碼輸入意義不大;但同音雙字詞中不常用的詞,用戶自定義的新雙字詞,也可以使用編碼方法輸入。三字及三字以上的多字詞,編碼輸入比音節符號的輸入擊鍵次數少,其詞的字數越多越是明顯,所以多字詞的編碼輸入可以保留。有的單字拆分成字根之後,其字根的讀音可能與某些通用詞或詞組相同而產生重碼,使用引導符號就可以相互隔離而避免重碼。編碼輸入的引導符號可以採用閒置的字符如「\」,上擋字符如大寫的英文符號,「Tab」鍵和空格鍵等。如果使用空格,半角空格輸入兩次才能輸入一個全形空格。還可設立一個狀態轉換鍵,在音節-漢字智能轉換輸入和輔助漢字詞語編碼輸入的兩個輸入狀態之間進行切換。
把本發明的漢字編碼輸入法和微軟拼音輸入法兩項技術結合起來,就可以實施本項技術。例如,輸入″他的名字叫章英革″,不能正確轉換的音節(tā),(zhāng),(yīng),(gě),可以用編碼輸入漢字,用字符「\」作為編碼輸入的引導符號。其輸入過程為鍵入「\rényě」輸入「他」,再鍵入「dē」,「míng」,「zì」,「jiào」轉換為「的名字叫」,鍵入「\lìzǎo」輸入「章」,鍵入「\cǎoyāng」輸入「英」,「革」拆成「廿」,「口」和「十」,取每個字根的聲介母鍵入「ni」,「k」,「sh」補加空格輸入。
這種輸入方式能夠克服微軟拼音輸入法的缺點,而不單純依賴音節-漢字智能轉換輸入。一般人不認識的字以及非詞庫中的詞,還能利用漢字編碼輸入法拆字輸入,能夠正確的一次性完成整個輸入過程,避免出現不能正確轉換的錯誤。
12.智能轉換,字詞編碼和動態造詞相結合
在上述音節-漢字智能轉換和字詞編碼輸入的基礎上,再進一步,凡是用字詞編碼輸入的連續排列的幾個單字,只要是系統詞庫中沒有的詞,都智能動態的自動生成新詞,臨時或永久保留在新增詞庫中,其後一旦出現,輸入各個單字的讀音音節即可自動轉換為漢字。新詞還同時生成新詞的鍵盤輸入編碼。
與現有智能拼音輸入法不同,新詞的輸入編碼與其各個單字的輸入編碼無關,只與其單字的讀音有關。只有一個讀音的單字直接使用其讀音的音節或聲介母為新詞編碼,有多個讀音的單字,用其多個讀音的音節或聲介母為新詞生成多個編碼,第一次使用新詞輸入後,根據輸入者使用的讀音保留一個編碼,其餘的編碼則取消。如果生成的新詞不止一個讀音,則需要不止一個新詞的生成過程;也可以保留新詞多個讀音的多個輸入編碼,但會產生一些無用的輸入碼,可以人工或自動地定期刪除。
例如,上述的「章英革」在第一次輸入之後,用漢字/音節轉換程序得出其音節詞「(zhāng)(yēng)(gě)」,把音節字符與其漢字對等保存成為新詞,再出現時輸入三個連續的音節「(zhāng)(yēng)(gě)」就可以輸入其相應的漢字詞「章英革」。再利用音節字符與其漢語鍵盤的輸入字符對照表,取這三個字讀音的聲介母「Zh」,「Y」,「G」補加空格或「革」字的帶調韻母「ě」而生成新詞的輸入編碼。以後直接利用其輸入編碼輸入。
同樣,用漢字編碼連續輸入「畢」和「升」兩個字之後,計算機自動生成新詞「畢升」並保存起來,以後再出現這個人名,輸入「BìShēng」兩個音節即可自動輸入。
動態自動生成新詞的方法是,把字詞編碼輸入的連續排列的幾個單字,利用漢字/音節轉換程序轉換為相應的音節字符,臨時或永久地保存在一個附加的音節詞-漢字詞雙向對照詞庫中,與通用詞庫一起使用,可以選擇通用詞庫優先或新增詞庫優先。
13.漢語操作界面
漢語操作界面包括漢字操作界面和漢語音節操作界面,是漢語信息處理的進一步深化。採用命令行方式的符合「規範漢語」的音節字符指令或相應的漢字指令操作和應用計算機,使音節字符指令和漢字指令以及語音指令相互統一,構成漢語操作界面。
在DOS作業系統基礎上,一些漢字系統採用漢字指令代替英文指令操作和應用計算機,由於漢字的輸入本來就比較困難,因此,阻礙了漢字指令的廣泛應用,很多人不得不使用英文指令。實際上,操作和應用計算機的指令很少,充其量不過幾千個詞,但卻難住了絕大多數華人。本發明使用漢語音節符號指令,尤其是音節字符指令,與漢語語音識別輸入的語音指令相統一。其中音節符號指令適用於漢語的初學者,由於漢語的音節符號與漢語口語一一對應,所以只要具備一定的口語詞彙就能使用,比以英語為母語的人學習英文指令還容易。
採用無重碼的非單音詞作為漢語音節字符指令,一一對應相應的漢字指令,具有相同的音節信息,根據需要進行選擇,依據音節字符-漢字對照表相互轉換,語音信號指令則轉換為相應的漢語音節字符指令再執行,因此,漢語音節指令包含語音信號及其音節字符和相應的漢字三種類型,無重碼的非單音詞是確定漢語音節指令的規範,稱作「漢語音節指令規範」。符合這一規範的漢語音節指令可以用作音節字符和漢字字符的鍵盤輸入指令以及語音識別輸入的語音指令。
無論使用鍵盤,還是使用語音識別輸入裝置操作計算機,或者使用字符編寫漢語程序設計語言,都可以使用漢語音節指令代替英文指令,使計算機的應用和操作徹底漢語化。
相應於命令行的英文DOS指令,可以編制對等的漢語音節指令,既可以使用音節字符指令,又可以使用相應的漢字字符指令,配合語音識別輸入裝置,又能支持漢語語音指令。例如,英文指令dir是列目錄的命令,可以使用漢語音節及其字符指令「mùlù」或相應的漢字指令「目錄」代替。每個英文指令都有相應的漢語音節字符及其漢字指令對應,只使用漢語就可以操作計算機。
《漢語程序設計語言》(電子工業出版社,1994年5月出版),採用漢字作為漢語彙編語言和程序設計語言的基本指令,其漢字指令的鍵盤輸入就比較困難。改成音節字符指令,難度就大為減小。
DOS命令行的字符指令可以使用圖形界面操作替代,但語音指令是一維線性的與圖形界面難以融合,難以替代.所以一維的漢語操作界面還有一定的使用價值。
採用符合「漢語音節指令規範」的漢語語音及其音節字符和相應的漢字字符指令,使漢語的語音和文字兩種媒介信息的指令相互統一。使用一種指令實現的操作,使用另外兩種指令也有效。漢語的初學者使用音節字符指令,一般人使用漢字字符指令,兩者都能使用漢語語音指令,易於普及和推廣。
14.漢語輸入處理系統
把漢語信息的鍵盤輸入與漢語語音識別輸入結合起來,可以交替地使用鍵盤或話筒輸入漢語音節符號或漢字詞語。其中,漢語語音音節的識別輸入和音節符號的鍵盤輸入相互等效,漢字詞語的鍵盤編碼輸入和依據整音節漢字詞語編碼讀入的漢字詞語識別輸入相等效。
圖16中,由聲音輸入設備1輸入聲音信號,用音效卡2轉換為語音數據,再由語音識別輸入軟體5識別出漢字代碼,組成現有的漢語語音識別輸入系統,其實質總是包含漢語音節的識別輸入和音節-漢字轉換兩個環節。由於不能直接接收鍵盤輸入的漢語音節符號,所以難以結合成一個整體。
圖17中,分離出獨立的音節/漢字轉換軟體19,可以同時或分別交替地處理來自鍵盤輸入處理軟體8和語音識別輸入軟體5的漢語音節符號,使漢語語音識別輸入和漢語信息的鍵盤輸入相互統一,構成完整的漢語輸入系統。
以漢語鍵盤輸入為主,語音音節識別輸入為輔,使用相同的音節符號及其代碼,在同一個輸入窗口或輸入編輯區內進行輸入處理。例如,輸入「zhōnghuárénmíngònghé guó」,可以分別或交替地使用漢語鍵盤和漢語語音音節識別輸入。
把漢字詞語的鍵盤編碼輸入,應用於漢字詞語的語音識別輸入,能夠提高語音識別輸入的準確性和實用性。尤其是直接使用語音識別輸入難以正確識別的單字詞,不常用的漢字和不認識的漢字,可以把單字拆成兩個或兩個以上的音節讀入。例如輸入″漢斯″兩個字,因為不是通用詞,只能按單字輸入,用語音識別按讀音很難正確輸入,可以使用鍵盤輸入的拆字方法拆成「shuěi
ò u」讀入「漢」字,「qī jīn」讀入「斯」字。
實施本項發明,在DOS環境下把語音識別輸入的音節或漢字轉換為音節符號或漢字字符,與鍵盤輸入相互融合即可。由於語音識別對系統的要求較高,因此DOS下的語音識別一般採用較多的硬體支持,目前還沒有統一的規範。
這類輸入方法能夠有選擇的充分利用鍵盤輸入的準確性,以及語音識別輸入的簡單方便性,使兩者合而為一,在音節輸入的層次上相互統一,優勢互補。
15.漢語圖形操作界面
在圖形操作界面的基礎上增加上述命令行方式的漢語語音指令及其音節字符指令和相應的漢字指令操作和應用計算機,構成漢語圖形操作界面。
現有的圖形操作界面,雖然定義了各種形式的鍵盤操作快捷鍵,但與命令行的字符指令不同,都包含控制鍵,實際是用鍵盤直接操作。由於語音操作的逐漸介入,必須定義適當的語音指令。
Dutty++所實現的語音控制,和鍵盤輸入的字符指令沒有關聯,因此不能實現鍵盤和語音指令的相互補償和相互替代。以字符的鍵盤輸入為基礎,支持符合規範的音節字符指令和相應的漢字指令,就能實現漢語語音及其音節字符和相應漢字字符的指令操作。
在字符編輯狀態使用漢語鍵盤,必須區別字符和字符指令兩種輸入狀態字符指令可以用回車鍵或「Tab」鍵等確認鍵輸入,否則輸入的就是字符。使用語音識別輸入方式,需要區分語音指令識別輸入和語音字符識別輸入兩個狀態,可以用滑鼠操作設置,或者用鍵盤輸入操作設置,也可以直接使用語音指令設置,例如使用「打開語音控制」和「關閉語音控制」的語音指令,但其相應字符的識別輸入必須與此相區別。
在Windows95中文版的圖形操作界面上,利用鍵盤輸入程序創建漢語操作界面,使用符合「漢語音節指令規範」的漢語音節字符指令,使漢語語音識別輸入操作,漢語音節字符的鍵盤輸入操作,漢字字符的鍵盤輸入操作,在漢語音節的層次上通過漢語鍵盤輸入程序相互統一。依據其漢字編碼鍵盤輸入程序的設計規範,以及本發明第1項的漢語音節符號輸入方法,利用前述的雙向音節-漢字對照詞庫進行相互變換,使用音節符號指令與漢語語音識別輸入程序等應用程式相聯接,就能夠編制出符合標準IME格式的漢語鍵盤輸入程序。
例如,用鍵盤或語音識別輸入「GuānJī」的漢語語音指令及其音節字符指令或相應的漢字字符指令「關機」,計算機經過必要的提示和確認即查找相應的指令操作程序完成其操作而把計算機的電源切斷。其中「關機」指令通過漢字/音節轉換程序轉換為音節字符指令,再查找並執行相應的應用程式。
16.漢語信息的鍵盤輸入與漢語語音合成輸出的結合
漢語鍵盤輸入的漢語音節符號或漢字詞語,都具有讀音的信息,可以使用語音合成輸出程序輸出語音,從而實現鍵盤輸入的動態語音校對,不需要觀看顯示器即可判斷當前的輸入是否正確,從而把視線集中到打字的文稿上,提高打字速度和準確度。
語音合成輸出包含漢字-音節轉換和音節合成輸出兩個部分,現有技術通常忽略中間的音節,只採用音節代碼而沒有可讀的音節符號,使音節的鍵盤輸入和音節的合成輸出難以融合。圖17中,分離出獨立的漢字/音節轉換軟體20,使語音合成輸出軟體6能夠接收漢語鍵盤輸入的音節符號而直接輸出漢語語音,從而介入鍵盤輸入過程。
在整音節漢字詞語編碼輸入過程中,鍵盤的音節輸入直接用語音合成輸出,就可以進行語音校對,從而代替利用顯示器的視力校對。例如,輸入單字「國」,只要在鍵盤輸入過程中同步地用語音合成輸出「wéiyǜ」2個音節的聲音,就能判斷鍵盤輸入是正確無誤的,不再需要觀看顯示結果了。
漢語音節的鍵盤輸入是本發明的基礎,漢字詞語的輸入是通過漢語音節的輸入實現的,所以,漢語音節的語音合成輸出校對對於漢字詞語的輸入很有意義,不但在漢字輸入之後能夠進行校對,在漢字輸入過程中也能進行校對,從而提高漢字輸入的精確性,減少輸入中觀看顯示器的次數,降低工作強度。
17.漢語處理系統
把漢語信息的鍵盤輸入,漢語語音識別輸入和語音合成輸出綜合起來,使漢語音節符號和漢字詞語在音節的層次上相互統一,構成完整的漢語處理系統,能夠處理屬於文字和聲音兩種不同媒介的漢語信息。
由於漢語信息=漢字信息+音節信息,所以漢語處理系統=漢字處理系統+音節處理系統。其中音節處理系統主要處理音節字符,包括漢語語音識別輸入和語音合成輸出,音節字符的鍵盤輸入,手寫體或印刷體識別輸入,顯示輸出和列印輸出等。由於漢語音節及其音節字符只有1300對,與漢字字符相互兼容,使兩種字符的信息處理合而為一,所以其信息處理大為簡化。
漢語語音聲音信號的識別輸入,把音節字符作為中間識別結果,與鍵盤輸入使用相同的音節-漢字轉換軟體轉換為漢字,從而簡化系統開銷,避免重複處理。
漢語語音合成輸出,一改傳統的漢字到語音的直接轉換方式,利用漢字/音節轉換軟體把漢字轉換為音節字符,然後再調用聲音數據輸出語音信號。這樣,不管是音節文本,還是漢字文本,都能用語音合成輸出。
圖16是現有漢字處理系統的結構框圖,處理的主要對象是漢字字符和英文字符。在公知的計算機基本硬體和漢字作業系統軟體10的基礎上
聲音輸入設備1,音效卡2上的模數/轉換器和語音識別輸入軟體5構成的漢語語音識別輸入系統,以及語音合成輸出軟體6,音效卡2上的數字/模擬轉換器,及聲音輸出設備3構成的漢語語音合成輸出系統,其處理對象均是漢字字符和常規漢語音節符號,所用的漢語音節代碼通常是過渡性臨時代碼,不能顯示和識讀。通用鍵盤裝置4和鍵盤輸入處理軟體8構成的漢字鍵盤輸入系統,顯示輸出處理軟體9和顯示輸出設備7構成的漢字顯示輸出處理系統,圖形掃描輸入設備11和圖形字符處理軟體12構成的圖形和漢字輸入處理系統,列印輸出處理軟體13和印表機類輸出設備14構成的圖形及字符列印輸出處理系統等,都是以漢字為主要的輸入對象和輸出結果,均不包含與漢字字符地位相等同的漢語音節字符的輸入和輸出處理;
圖17是漢語處理系統的結構框圖,是在圖16的漢字處理系統基礎上,使用漢語鍵盤輸入漢語信息,增加與漢字字符相互兼容並且字節數相等的漢語音節字符及其代碼的輸入,輸出及其變換處理。其中,聲音輸入設備1,音效卡2上的模/數轉換器和漢語語音識別輸入軟體5構成漢語語音識別輸入系統;漢語語音合成輸出軟體6,音效卡2上的數字/模擬轉換器及聲音輸出設備3構成漢語語音合成輸出系統;通用鍵盤裝置4,鍵盤輸入處理軟體8和音節/漢字轉換軟體21構成漢語鍵盤輸入處理系統;顯示輸出處理軟體9和顯示輸出設備7構成圖形和字符顯示輸出處理系統;圖形掃描輸入設備11和圖形字符處理軟體12構成圖形和字符輸入處理系統;列印輸出處理軟體13和印表機類輸出設備14構成圖形及字符列印輸出處理系統;都是以漢語音節及其音節符號和漢字詞語為主要的輸入對象和輸出結果。
圖17與圖16相比,增加獨立的音節/漢字轉換軟體21,除處理來自語音識別輸入軟體5的漢字字符和音節字符外,還處理來自鍵盤輸入處理軟體8的音節字符;還增加獨立的漢字/音節轉換軟體22,把來自於系統軟體10和音節/漢字轉換軟體21的漢字直接轉換為漢語音節字符或其它漢語音節符號,使語音合成輸出軟體只需處理音節符號,並且可以直接把鍵盤輸入處理軟體8和語音識別輸入軟體5輸入的音節符號轉換為語音信號輸出,簡化原有的漢字處理環節。
為了向下兼容,圖17中可以選用包含音節/漢字轉換過程的語音識別輸入軟體5,和包含漢字/音節轉換過程的語音合成輸出軟體6.能夠充分發揮圖17漢語處理系統整體效率的方案則是使語音識別輸入軟體5不包含音節/漢字轉換過程,而語音合成輸出軟體6則不包含漢字/音節轉換過程。
漢語音節字符和漢字符號的相互變換處理,是漢語信息處理的一個關鍵環節,也是一個難點,難就難在漢語的口語和書面語的差別上。
漢語的語言和文字是同一語言的不同表現形式,其共性多於個性。每個漢字都有明確的讀音,每個語音音節都有相應的漢字。不考慮字形的差別,只要是無重碼的非單字詞,兩者就是等同的,可以一一對應和互換。單字詞的差別就明顯了,一音多字,一字多音比較普遍。因此,無重碼的非單字詞是漢語的語言和文字兩種信息的交集,也是能夠近似表達相同漢語意義的關鍵所在,可以稱作「規範漢語」,與之對應的稱作「不規範漢語」,兩者的分界線就是「無重碼的非單字詞」,兩者的組合就是漢語的全集。應用智能處理技術,「規範漢語」會越來越大,最終成為漢語全集。
漢語的雙音化趨勢使「規範漢語」的集合越來越大,而「不規範漢語」的集合越來越小。如果用漢語音節字符代表其所有的同音單字詞,「規範漢語」與「不規範漢語」就合而為一了。就是說,音節字符也是一種漢字,其字義是同音字意義的總和。
使用「規範漢語」,更便於漢語尤其是口語的交流和理解,而且足以應付常規的漢語信息處理需要。因此其用途很廣。
只有不加修改地處理現有的文字資料時,才需要使用「不規範漢語」,通常是專業打字員的工作;如果自己用計算機寫文章,可以只使用「規範漢語」而迴避「不規範漢語」;至於操作計算機,使用「規範漢語」已經足夠了
可以用音節符號記錄漢語口語,用空格分詞。最小的語言表達單位,一般語言是詞,漢語則是音節。漢字組詞的屬性是隱含的,但也是分詞的,因為多音字在詞中的讀音卻是明確的,只是漢語書面語沒有分詞斷空的習慣。
用漢語音節符號分詞表達,就是漢語的表音文字,是漢字改革的一個方向,適合漢語的初學者使用,是漢語教學的第一個學習內容。如果配合漢語音節自動分詞技術,可以不需要人工分詞,接近漢語口語的自然表達方式。
漢語音節的自動分詞方法是把具有分詞標記的音節詞和詞組,按照一定的順序如音序排列即構成音節詞庫,再增加分詞知識庫進行分詞或組詞把詞或詞組的音節之間,用空格等分詞標記分開;或者把組詞的音節用組詞標記如聯字符號「-」等聯接;對於具有分隔標記的音節串,在詞或詞組之間去除分隔標記。由於音節詞庫總是有限的,並且不斷地增加新詞,所以,對於具有分隔標記的音節串比較容易分詞,詞庫中沒有的詞,音節之間保持分離狀態。
符合「規範漢語」的音節文本和漢字文本的差別在於字形,利用音節-漢字雙向詞庫就能相互變換。所述詞庫需要分詞標記,或組詞標記,音節詞或漢字詞分別按照相同的次序對等排列,還可單獨用於漢語音節或漢字字符的自動分詞。
不符合「規範漢語」的音節文本和漢字文本,其相互變換處理的難度大得多,除需要規範的音節-漢字詞庫的支持外,還需要智能轉換知識庫的支持。
必須指出,世界逐漸走向同一,漢字中夾雜一些英文字符已經習已為常,夾雜本民族的漢語音節字符也理所當然。本發明使漢語音節字符具有漢字一樣的語言表達地位,是音節符號與漢字夾雜使用的一個基礎。
把漢語信息鍵盤輸入,漢語語音識別輸入,漢語語音合成輸出綜合起來,把原有的鍵盤輸入和語音識別輸入以及音節文本到漢字文本轉換的音節-漢字轉換模塊,以及原有的語音合成輸出和漢字文本到音節文本的漢字-音節轉換模塊分離出來公用,從而組成漢語處理系統。其系統構成建立在前述各個分項技術基礎之上,前述一些實施例的匯總就是本項技術的綜合實施例採用圖1所示類型的漢語鍵盤,表4所示的漢語音節字符及其代碼,本發明第1項的漢語音節符號輸入技術實施例,第4項的漢字詞語整音節編碼輸入技術實施例,第8項的智能轉換,字詞編碼和動態造詞相結合的漢字詞語輸入技術實施例,第9項漢語輸入處理系統實施例,第10項漢語信息的鍵盤輸入與漢語語音合成輸出的結合實施例,就構成一個漢語處理系統實施例。
由於本發明確立出適應資訊時代的漢語音節的分解和組合規則,設計出最能表現漢語特色的漢語音節字符,兼容漢字字符,使漢語語音及其音節符號和漢字詞語的信息處理在音節的層次上相互統一,構成漢語計算機的基本符號體系,使具備漢語拼音基礎知識的人就能使用計算機,而無需掌握足夠多的漢字知識,使學習計算機的年齡由通常小學畢業以後提前為小學一年級以後。由此可以建立具有民族特色並且直接與漢語語音系統相互兼容的漢語處理系統,推進計算機的漢語應用和普及。


圖1-圖15是本發明設計的15種類型的漢語鍵盤圖。每個鍵盤圖上,除標註英文鍵盤的符號外,還標註與英文符號不同的漢語拼音形式的聲介母,帶調韻母和帶調介母。其中聲介母的第一個字母大寫,以便與英文字符相適應,相應的音節符號也要大寫,突出漢語的單音節特性。
表1簡化拼音,漢語拼音和注音符號的聲介母對照表
表2簡化拼音,漢語拼音和注音符號的帶調韻母對照表
表3漢語音節的兩元分解和兩元組合表
表4漢語音節字符及其代碼和代音漢字
表4漢語音節字符及其代碼和代音漢字(續1)
表4漢語音節字符及其代碼和代音漢字(續2)
表5簡化漢語音節字符
表6 常用字根
續表6
續表權利要求
1.一種屬於計算機鍵盤輸入處理技術領域的漢語鍵盤輸入系統及其應用技術,利用公知的各種類型計算機硬體設備及其軟體系統,使用鍵盤輸入軟體,把漢語音節和漢字詞語等漢語信息分解為聲介母和帶調韻母或聲介母和帶調介母,標記或映射在計算機鍵盤上,敲擊相應的輸入健位,實現漢語信息的鍵盤輸入;本發明其特徵是
(1).所述聲介母為b,p,m,f,d,t,n,l,g,k,h,zh,ch,sh,r,z,c,s,零聲母計19個零介聲介母;bi,pi,mi,di,ti,ni,li,ji,qi,xi,zhi,chi,shi,ri,zi,ci,si,y計18個i介聲介母;bu,pu,mu,fu,du,tu,nu,lu,gu,ku,hu,zhu,chu,shu,ru,zu,cu,su,w計19個u介聲介母;ju,qu,xu,yu,nü,lü計6個ü介聲介母;所述帶調韻母為ā,á,ǎ,à,ā i,ái,ǎi,ài,ān,án,ǎn,àn,āng,áng,ǎng,àng,āo,áo,ǎo,ào,ē,é,ě,è,ēi,éi,ěi,èi,ēn,én,ěn,èn,ēng,éng,ěng,èng,ér,ěr,èr,ō,ó,ǒ,ò,ōng,óng,ǒng,òng,ōu,óu,ǒu,òu;所述帶調介母為ī,í,ǐ,ì,ū,ú,ǔ,ù,ǖ,ǘ,ǚ,ǜ;
(2).帶調介母只能和含有相同介母的聲介母組成音節,零介、i介、u介和ü介聲介母分別和帶調韻母連讀即可組成相應的漢語音節;
(3)所述聲介母,帶調韻母和帶調介母,分別標記或映射在計算機鍵盤的字符鍵上,從而組成圖1,圖2,圖3,圖4,圖5,圖6,圖7,圖8,圖9,圖10,圖11,圖12,圖13,圖14或圖15所示類型的漢語鍵盤;
(4)首次擊鍵輸入聲介母,再次擊鍵輸入帶調介母或帶調韻母,擊鍵兩次即可輸入一對字符組成的漢語音節代碼,補加空格等分隔標記即可代表一個漢語音節;或者直接轉換成注音符號,簡化的注音符號,漢語拼音符號,簡化的漢語拼音符號,代音漢字,與漢字字符及其代碼相互兼容並且字節數相等的漢語音節字符及其代碼等任意一種漢語音節符號。
2.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是所述漢語鍵盤輸入的任意一種漢語音節符號,根據輸入需要可同步轉換為同音同義的其它漢語音節符號。
3.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是首次輸入漢字讀音的聲介母,再次輸入漢字讀音的帶調介母或帶調韻母,擊鍵兩次即可輸入一組同音漢字,按照一定的順序排列選擇輸入。
4.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是所輸入的漢語信息是單個漢字、詞和詞組,最大輸入碼長為4,在所述漢語鍵盤的輸入鍵位上,聲介母補加空格輸入一級簡碼單字詞,每個漢語音節補加空格輸入二級簡碼單字詞,雙字詞或兩個字根組成的漢字按其讀音直接輸入,三字詞或三個字根組成的漢字依次按其讀音的聲介母補加空格或補加第3個讀音的帶調韻母輸入,四字及四字以上詞和詞組或四個和四個以上字根組成的漢字分別取第1、2、3及最後一個讀音的聲介母輸入。
5.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是不限定最大輸入碼長,每個漢語音節補加空格輸入簡碼單字詞,兩字及兩字以上的詞和詞組按其讀音的音節依次輸入,補加空格結束,單字拆成兩個或兩個以上的字根,也按其讀音的漢語音節依次輸入,補加空格結束。
6.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是最大輸入碼長為4,使用雙字詞讀音的兩個音節輸入雙字詞的第一個字,補加空格再輸入雙字詞的第二個字。
7.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是輸入簡體漢字或繁體漢字,使用簡體-繁體或繁體-簡體轉換程序,同步地轉換為同音同義的繁體漢字或簡體漢字。
8.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是輸入任意一種代碼體系的漢字,使用相互轉換程序,同步地轉換為同音同義的其它代碼體系的漢字。
9.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是輸入漢字詞語,使用漢字/讀音轉換程序,同步地轉換為漢語音節符號。
10.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是連續輸入漢字語句讀音的漢語音節符號,使用音節-漢字智能轉換程序轉換為漢字。
11.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是對於通用漢字詞語組成的短語,連續輸入其讀音的漢語音節符號,直至出現非通用的人名,地名,單位名,不常用和不認識的漢字等不能正確智能轉換的漢字,先輸入字符「\」等狀態轉換標記完成當前短語的輸入,利用相應的音節-漢字智能轉換程序把此前輸入的音節符號轉換為漢字,並切換為一個且僅限於一個漢字詞語的編碼輸入狀態,用漢字編碼輸入法輸入漢字。
12.按照權利要求11所述的漢語鍵盤輸入系統及其應用技術,其特徵是利用漢字編碼輸入的連續兩個或兩個以上的漢字,自動生成新詞及其輸入編碼,再次出現時可以使用詞的編碼輸入,或使用其讀音的漢語音節符號智能轉換輸入。
13.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是採用命令行方式的漢語語音及其音節符號指令和相應的漢字指令操作計算機,使漢語語音指令及其音節符號指令和漢字指令在音節層次上相互統一,構成漢語操作界面。
14.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是把漢語信息的鍵盤輸入與漢語語音識別輸入結合起來,可以交替地使用鍵盤或話筒輸入漢語音節符號或漢字詞語,構成漢語輸入系統。
15.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是在圖形界面的基礎上增加命令行方式的漢語語音指令及其音節符號指令和相應的漢字指令操作和應用計算機,構成漢語圖形操作界面。
16.按照權利要求1所述的漢語鍵盤輸入系統及其應用技術,其特徵是使用相同的漢語音節符號及其代碼,把漢語鍵盤輸入的漢語音節直接用漢語語音合成輸出,漢字則通過漢字-音節轉換程序轉換為音節符號再進行語音合成輸出。
17.按照權利要求15和權利要求16所述的漢語鍵盤輸入系統及其應用技術,其特徵是使用相同的漢語音節符號及其代碼,把漢語信息的鍵盤輸入,漢語語音識別輸入和語音合成輸出綜合起來,使漢語音節及其音節符號和漢字詞語的信息處理在音節的層次上相互統一,構成漢語信息處理系統。
全文摘要
一種屬於計算機鍵盤輸入處理技術領域的漢語鍵盤輸入系統及其應用技術,使用公知的計算機及其普通鍵盤,依次輸入聲介母和帶調韻母即可輸入一個漢語音節,進而輸入漢字詞語,設計出與漢字字符相互兼容並且字節數相等的音節字符及其代碼,使漢語語音及其表音符號和漢字詞語的鍵盤輸入,顯示和列印輸出,相互變換處理,語音識別輸入和合成輸出處理等,在音節層次上相互統一,是使用漢語操作和應用計算機最全面和最徹底的解決方案。
文檔編號G06F3/023GK1275732SQ99108119
公開日2000年12月6日 申請日期1999年5月30日 優先權日1999年5月30日
發明者梁晨 申請人:梁晨

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀