新四季網

利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法

2023-10-08 13:00:59 1

專利名稱:利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法
技術領域:
本發明屬於計算機漢字錄入方法技術領域,具體涉及一種利用漢字全信息通過全文檢索方式獲取生僻漢字的通用檢字錄入方法。
背景技術:
中國作為世界四大文明古國之一,有著五千年悠久的文明發展史和一脈相承的文化底蘊,而漢字,則是傳承整個中華文明的基本元素。漢字經過數千年的發明和衍變,目前流傳下來的總數量大約7萬左右,其中常用漢字大約有三、四千。經過多年的研究和實踐已經比較好的解決了對常用漢字的計算機錄入問題。但是對大量的生僻漢字的錄入一直沒有較好的解決方案。這些數量龐大的生僻漢字即便對於受過高等教育的人群而言,也很少有人認識和使用,其使用人群相當狹窄,再加上目前計算機尚無法處理這類漢字,生僻漢字基本處於「死字」的狀態。事實上,現在的國際字符編碼標準Unicode已經將約五萬個生僻漢字的編碼放到了四個字節的長字節編碼區,以解決二字節編碼碼位不足的難題,而微軟公司多年前也已在通用軟體MS Word中預先安裝了總數接近七萬漢字的超大字符集,但是這些一直沒有引起國人的注意。一個被忽略的事實是這些生僻漢字卻大量存在於中國的古代典籍中,與常用漢字一起構成「漢字」這一中華文明的載體,其本身也是國家寶貴的文化遺產的組成部分。在一般的古籍中約有千分之一的漢字屬於四個字節的生僻漢字,而在諸如《說文解字》、《康熙字典》等字書類古籍中,四個字節編碼的漢字出現的頻率可以高達百分之三到五左右。很顯然,捨棄這些生僻字而建構的中文知識庫絕對是不完整的。
目前,主要的漢字輸入方法無非有根據讀音輸入和根據字形輸入兩種方法,然而對生僻漢字而言,這兩種輸入方法都有一定不足。首先對於讀音輸入方法,基本上所有的生僻漢字絕大多數人都完全不認識,在加上有很多字在歷史的演化的進程中已經失去了其讀音,或讀音不確定,僅僅根據讀音輸入生僻漢字是不行的。其次,利用字形對生僻漢字進行錄入雖然不存在像讀音輸入法那樣的問題,然而目前所存在的字形輸入方法,如《五筆字型》輸入法等,往往需要使用者預先進行長時間的學習和訓練,這個限制條件使得字形輸入法目前在非打字員人群中不具有優勢影響力。普通用戶,如需要大量使用生僻漢字的研究人員,是無法很快掌握這種方法的。
面對3000到1萬多的常見漢字,中國人使用了23年的輸入法已經沒有大的突破的空間了。但是,要處理7萬漢字,以至於今後要處理的更多的漢字或字符,普通的輸入法顯露出種種缺陷和不足。面對這樣一個超級混沌的客觀存在,迫切的需要一套概念全新的輸入方法。

發明內容
本發明針對目前在生僻漢字錄入方法上存在的不足和缺陷,針對人們普遍對生僻漢字了解信息不全的事實,針對生僻漢字錄入的難點和生僻漢字多系由簡單漢字組合而成的特性,提出一種利用漢字全信息,即利用每個漢字所對應的字形、字音(如果有)、字義(如果有)、筆畫數、公用編碼(如生僻漢字一定存在的對應的五筆編碼)等客觀特徵,實現生僻漢字錄入的方法。由於在歷史演化的過程中,這些特徵已形成了固定的標準,通過匯總這些客觀特徵,再利用全文檢索的方式尋找所有和用戶輸入特徵相匹配的漢字,進而完成生僻漢字的錄入。這一方法可以滿足生僻漢字使用者特定群體研究、錄入生僻漢字的需求。
根據本發明的利用漢字全信息通過全文檢索方式獲取生僻漢字的通用檢字錄入方法,具體步驟包括(1)對生僻漢字進行整理,獲取該錄入法需要處理的生僻漢字字符集;(2)對該生僻漢字集根據每個漢字的客觀特徵進行全信息整理,並建立資料庫;(3)用戶輸入時,用拼音或數字的方式對要錄入的生僻漢字進行描述,利用全文檢索的方法對生僻漢字字符集裡的每個漢字的全信息進行全文檢索;(4)利用漢字筆畫的數字信息對檢字結果排序輸出。
以上步驟即實現了生僻漢字的通用檢字錄入,用戶只要從檢字排序輸出的結果中,選出要錄入的漢字即可。
本發明的特點針對生僻漢字的使用人群的特徵提供的帶有檢索性質的生僻漢字錄入方法;利用生僻漢字中存在的全部信息,包括字形、字義、字音和筆畫數等信息,進行全文檢索,通過對生僻漢字的全文檢索完成生僻漢字的錄入。
可以兼容簡潔輸入方法,諸如拼音輸入法或《五筆字型》輸入法。


下面結合附圖對本發明進一步詳細地說明圖1是為本發明的生僻漢字的通用檢字錄入方法的流程框圖。
具體實施例方式
下面參照本發明的附圖,更詳細地描述本發明的最佳實施例。
如圖1所示為本發明的生僻漢字的通用檢字錄入方法的流程框圖,根據本發明的生僻漢字的通用檢字錄入方法具體包括以下步驟(1)對生僻漢字進行整理,獲取該錄入法需要處理的生僻漢字字符集;對生僻漢字字符集可以採用Unicode進行管理;這裡所指的生僻字主要是國標GB2312-80《信息交換用漢字編碼字符集》基本集之外的漢字。
(2)對該生僻漢字集根據每個漢字的客觀特徵進行全信息整理,並建立資料庫;這些信息可以採用拼音或數字的方式表示,也可以採用其他形式的編碼表示;這裡所指的漢字全信息包括字義、字形、筆畫、字音、公用編碼等信息。
全信息的整理包括字義、字形、筆畫、字音以及公用編碼信息的搜集。
對字義信息的收集,我們利用了《說文解字》、《康熙字典》等古代字書中的相關信息對該生僻漢字集逐字整理字義的信息;對字音信息的收集,不僅包括生僻漢字的拼音讀音信息(如果有),也包括其上古音、中古音等古代發音信息(如果有);對字形信息的搜集,可以整理每個生僻漢字的總筆畫數信息和部外筆畫數信息(如果有),同時根據每個生僻漢字的字形對生僻漢字進行拆分及文字描述。由於生僻漢字多由常見簡單漢字通過組合的方式構成,或者由常見簡單漢字增減筆畫得到,因此可以通過這些常見簡單漢字來描述生僻漢字。少數生僻漢字是少筆畫非組合漢字,對於這些字可以利用基本漢字筆畫,例如點、橫、撇、捺、折等,配合漢字筆畫數,解決生僻漢字中的少筆畫非組合形聲字的錄入問題。
一些常用的公用編碼,如生僻漢字所對應的五筆編碼,也納入全信息中,熟悉五筆字型輸入法的用戶也可以通過輸入所要錄入的生僻漢字的五筆編碼來實現漢字的錄入。
所有這些信息將採用拼音或數字的方式表示,並輸入全信息資料庫。
(3)用戶輸入時,用拼音或數字的方式對要錄入的生僻漢字進行描述,利用全文檢索的方法對生僻漢字字符集裡的每個漢字的全信息進行全文檢索。
(4)利用漢字筆畫的數字信息對檢字結果排序輸出。
以上步驟即實現了生僻漢字的通用檢字錄入,用戶只要從檢字排序輸出的結果中,選出要錄入的漢字即可。
本發明的利用漢字全信息的生僻漢字錄入法,主要解決對國標GB2312-80《信息交換用漢字編碼字符集》基本集之外的漢字的計算機錄入問題。對於每個漢字,在其演化的過程中,已具有固定的字形,字義,絕大部分漢字也具有固定的一個或多個讀音,這些固定特徵的和就構成了漢字全信息。對於生僻漢字而言,用戶對這些客觀信息了解是不全的,全信息錄入方法的優點就在於,用戶可以最大限度的利用他所知道的關於要輸入漢字的一種或多種信息來實現漢字的輸入。用戶只需要輸入其所知道的關於錄入漢字的任何信息,都可以完成該漢字的錄入。輸入的信息越多,待選漢字會越少。
下面結合一些具體生僻字的檢字錄入,來進一步說明本發明方法的具體實現例如設定漢字全信息表的結構為{字頭字音;字義;字形;筆畫數;五筆編碼}。
則以下幾個生僻漢字的全信息分別為{ wéi;古文為;丿橫豎臼;12;wnnv}{ wéi;古文為;爪三;8;endf,end}{ ?;?;求心;11;fiyn} (讀音不明,字義不明。)在利用檢索引擎具體處理時需要預先對全信息進行簡化,包括對內容的簡化,和對基礎筆畫,點(、=d)、橫(一=h)、豎(丨=s)、撇(丿=p)、捺(=n)、折(=z,向下折)以及乙(y,向上折)的簡化,然後採用拼音或數字的方式進行表示並輸入資料庫。上述全信息在處理後變為{ wei;wei;pie p zhe z zhe z heng h shu sjiu;12;wnnv}{ wei;wei;zhua zhe z san;8;endf,end}{ ?;?;qiu xin;11;fiyn}(讀音不明,字義不明。)
用戶在錄入漢字的時候可以根據自己對要錄入漢字信息了解的多少,隨意輸入所知關於該漢字的一種或多種信息,程序將根據用戶輸入的漢字信息,利用全文檢索的方法對生僻漢字字符集中的每個漢字的全信息進行全文檢索,尋找所有與用戶輸入的漢字信息相匹配的生僻漢字,並根據漢字筆畫的信息對檢字結果排序輸出。用戶在檢字結果中尋找自己所需要的生僻漢字,從而完成生僻漢字的錄入。由於採用的是全文搜索的方法,用戶輸入的漢字信息不需要遵循一定的先後順序,對於字形信息的輸入也可以只包含漢字部分的形狀信息或者與輸入漢字相像的形狀信息,因此具有很大的靈活性。
例如在上述例子中,用戶想要輸入 可以通過輸入其字音「wei」或者字義「wei」或者筆畫數「8」或者全部或部分字形描述如「san」、「zhua san」、「zhua zhe san」或者五筆編碼「endf」、「end」或者將上述信息隨意組合如字音+字形「wei zhua zhesan」、筆畫數+五筆編碼+字義「8 endfwei」來完成該漢字的輸入。組合的信息之間用空格格開。當然,用戶輸入的信息越多,最後的待選漢字就會越少,本發明的優點與技術效果生僻漢字的使用人群大多為研究人員,不具備使用諸如《五筆字型》等字形錄入法的能力。採用漢字全信息的漢字錄入方式,將可以利用儘可能多的信息採用檢索的方式完成生僻漢字的錄入。該方法的優點在於不需要學習,也沒有字根,用戶輸入的漢字特徵不需要遵循一定的先後順序,因此具有很大的靈活性。
儘管為說明目的公開了本發明的具體實施例和附圖,其目的在於幫助理解本發明的內容並據以實施,但是本領域的技術人員可以理解在不脫離本發明及所附的權利要求的精神和範圍內,各種替換、變化和修改都是可能的。因此,本發明不應局限於最佳實施例和附圖所公開的內容。
權利要求
1.一種利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法,具體包括以下步驟1)對生僻漢字進行整理,獲取該錄入法需要處理的生僻漢字字符集;2)對該生僻漢字集根據每個漢字的客觀特徵進行全信息整理,並建立資料庫;3)用戶輸入時,用拼音或數字的方式對要錄入的生僻漢字進行描述,利用全文檢索的方法對生僻漢字字符集裡的每個漢字的全信息進行全文檢索;4)利用漢字筆畫的數字信息對檢字結果排序輸出。
2.如權利要求1所述的利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法,其特徵在於對生僻漢字字符集用Unicode進行管理。
3.如權利要求1所述的利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法,其特徵在於所述的生僻字主要是指國標GB2312-80《信息交換用漢字編碼字符集》基本集之外的漢字。
4.如權利要求1所述的利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法,其特徵在於所述的漢字全信息包括字義、字形、筆畫、字音、公用編碼信息。
5.如權利要求1所述的利用漢字全信息通過全文檢索獲取生僻字的檢字錄入方法,其特徵在於進一步,用戶只要從檢字排序輸出的結果中,選出要錄入的漢字即可。
全文摘要
本發明針對目前在生僻漢字錄入方法上存在的不足和缺陷,針對人們普遍對生僻漢字了解信息不全的事實,針對生僻漢字錄入的難點和生僻漢字多系由簡單漢字組合而成的特性,提出一種利用漢字全信息,即利用每個漢字所對應的字形、字音(如果有)、字義(如果有)、筆畫數、公用編碼(如生僻漢字一定存在的對應的五筆編碼)等客觀特徵,實現生僻漢字錄入的方法。由於在歷史演化的過程中,這些特徵已形成了固定的標準,通過匯總這些客觀特徵,再利用全文檢索的方式尋找所有和用戶輸入特徵相匹配的漢字,進而完成生僻漢字的錄入。這一方法可以滿足生僻漢字使用者特定群體研究、錄入生僻漢字的需求。
文檔編號G06F17/30GK1719390SQ200510012219
公開日2006年1月11日 申請日期2005年7月18日 優先權日2005年7月18日
發明者錢則侃, 王宏源, 趙鋒 申請人:王宏源

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀