新四季網

一種支持四字節的典籍資料庫與歷史地理信息系統關聯的方法

2023-06-03 11:33:36 1

專利名稱:一種支持四字節的典籍資料庫與歷史地理信息系統關聯的方法
技術領域:
本發明屬於計算機技術領域,具體涉及一種實現支持四字節的典籍資料庫 與歷史地理信息系統關聯的方法。
背景技術:
統一碼(Unicode)的學名是〃Universal Multiple-Octet Coded Character Set",簡稱為UCS。 UCS規定了如何用多個字節表示各種文字的具體方法。目前 在UCS中已經被編碼的東亞表意字符大約有7萬多個,其中大部分是生僻漢字。 UCS有兩種格式UCS-2和UCS-4 。顧名思義,UCS-2就是用兩個字節編碼,UCS-4 是用4個字節編碼(實際上只用了31位,最高位必須為0)。這些編碼的傳輸依 照UTF(UCS Transformation Format)設定的規範進行,常見的UTF規範包括 UTF-7、 UTF-8以及UTF-16。典籍資料庫是將古籍文獻和出土文獻等內容加以整理並錄入計算機的電子 資源資料庫。目前北京時代瀚堂科技公司的古籍檢索系統 (http:〃www. neohytung.com)及其在資料庫中的應用"龍語瀚堂典籍資料庫" (http:〃ww. dragoninfo. cn)就是一個可以支持UCS-4標準的典籍資料庫,目 前可以對於包括大量生僻漢字在內的七萬多漢字實現査詢、顯示等各種功能。地理信息系統(GIS, Geographic Information System)是一種基於計算機 的工具,它可以對地球上存在的東西和發生的事件進行成圖和分析。GIS技術可 以將具有獨特視覺化效果和地理分析功能的地圖與一般的資料庫操作(例如查詢 和統計分析等)集成在一起。隨著科學技術的進步,GIS技術日漸成熟,將歷史 數據輸入GIS已經不存在技術上的障礙,通過網際網路發布GIS的成果已經完全可
歷史地理信息系統(HGIS)是各個歷史時期基礎地理信息系統資料庫,該系 統依據GIS技術,表達隨著時間變遷而改變的基礎地理信息空間分布,同時為用 戶提供最簡潔的數據査詢、檢索、編繪數據地圖和連接用戶數據的功能。如輸入 歷史年份、地名等關鍵詞,就可以査詢在特定時間,特定地點的歷史地理信息。目前與中國相關的歷史地理信息系統,如"中華文明之時空基礎架構"(臺 灣中央研究院http:〃ccts. sinica. edu. tw),其採用遵循BIG5標準的格式存儲 和傳輸這些編碼;又如"中國歷史地理信息系統"(復旦大學歷史地理研究中心 http:〃yugong. fudan. edu. cn/Ichg/Chgis—Intr. asp),其採用遵循GB2312標準 的格式存儲和傳輸這些編碼。它們都只能處理雙字節字符的査詢和顯示,對於符 合統一碼(Unicode)標準的所有含有四字節的文本內容無法進行查詢。這些系 統對於UCS-2以外的漢字採用圖片替代或自行造字的方式進行顯示,用自行設定 的編碼進行存儲。歷史地理信息和中文典籍數據之間有著緊密的聯繫。 一方面,中文典籍數據 的整理和研究需要依靠歷史地理信息,如對於著名詩人李白生平經歷的研究, 在歷史地理信息系統的協助下會更為有效準確,可將時間、地點、人物同時呈現 給査詢者;另一方面,歷史地理信息需要中文典籍數據的豐富內容來補充,如 對於黃河改道的研究中,將典籍數據中對黃河改道的描述與歷史地理信息對應和 聯繫起來就可以更加便捷準確地得出結論,典籍資料庫可為歷史地理信息研究提 供史料支持。由於使用統一碼(Unicode)編碼的四字節生僻漢字主要出現在古 代地名、人名等專有名詞中,因此在將歷史地理信息系統和中文典籍資料庫進行 結合的過程中,需要考慮生僻漢字的問題。現有的歷史信息系統對UCS-2以外的漢字通常使用自行造字或圖片替代的 處理方法。圖片替代的方法僅能解決非UCS-2漢字在系統中的顯示問題;同時, 現有歷史信息系統使用造字的方法雖可解決非UCS-2漢字的顯示問題,卻無法與 其他系統相互兼容。由於現有的使用圖片或造字的方法不符合任何國際或者國內 標準,使得常規的歷史地理信息系統的內容無法完全在系統外使用通用瀏覽器顯 示和保存,也無法實現對包含四字節編碼的東亞表意文字進行搜索和査詢,所以 目前的系統無法實現典籍資料庫與歷史地理信息系統之間正常、全面的關聯。

發明內容
鑑於上述原因,本發明的主要目的是提供一種實現支持四字節的中文典籍數 據庫與支持四字節的歷史地理信息系統相互之間關聯的方法。
為了能對含有四字節文字的文本內容進行檢索,需要將歷史地理信息與典籍 數據中的文本內容建立相應的索引,並將它們中的所有的地名、人名等專有名詞 信息抽取出來組成轉換對應表。
兩個系統的關聯方式如下-
A、 當從典籍資料庫向歷史地理信息系統關聯時,將典籍資料庫中該記錄的 地名信息通過轉換對應表進行轉換,對轉換後的地名信息附加上年代等 專有名詞信息在歷史地理信息索引中檢索,從而關聯到歷史地理信息系統。
B、 當從歷史地理信息系統向典籍資料庫關聯時,將歷史地理信息系統中該 記錄的地名信息通過轉換對應表進行轉換,對轉換後的地名信息附加上 年代等信息在典籍數據索引中檢索從而關聯到典籍資料庫。
本發明的優點與技術效果
由於四字節生僻漢字在典籍資料庫與歷史地理信息系統中的客觀存在,導致 在目前的典籍資料庫與歷史地理信息系統之間建立全面關聯存在困難。本發明使用了支持統一碼(Unicode)四字節編碼東亞表意文字的搜尋引擎和支持統一碼 (Unicode)四字節編碼東亞表意文字的繁簡、中日韓、異體字的相互轉換和包 含統一碼(Unicode)四字節編碼東亞表意文字地名、山脈、河流、湖泊、沙漠、 海岸線等主要自然地理要素的古今名稱、俗稱、別名的相互對應模塊,極大地提 高了歷史地理信息和典籍數據間關聯的有效性和全面性;並將歷史地理信息系統 和中文典籍資料庫的功能進行了擴展,用戶通過這種方法可以更為方便地使用這 兩個系統,更為有效地獲取索取信息,提高研究工作的效率。


圖1為本發明在典籍資料庫與歷史地理信息系統之間的關聯方式示意圖
具體實施方式
本發明對典籍數據與歷史地理信息建立索引及結合對四字節文字的特殊處 理方法,具體實施步驟如下A. 在典籍資料庫中,記錄與文檔相關的地名、時間等信息。如對某一首詩歌的記錄,補充詩歌的創作年代,寫作地點;對甲骨文、金文、簡帛、璽印等 出土文獻、文物的記錄補充出土地點,文物年代信息。這樣有利於將典籍數據和 歷史地理信息更準確、有效、全面的聯繫起來;B. 使用支持統一碼(Unicode)四字節編碼東亞表意文字的搜尋引擎對典籍 資料庫中的所有文檔內容(包括A步驟記錄的內容)建立査詢索引。所謂建立索 引就是使用支持四字節編碼文字的方式對含有四字節編碼文字的文檔內容進行 分析,從而建立倒排表的過程。通過這個過程,可以得到供査詢檢索時所使用的 倒排表。而含有四字節編碼文字的文檔的內容是指以某種格式保存的典籍數據內 容,包括在A步驟中額外補充的與歷史地理信息相關的內容。C. 使用支持統一碼(Unicode)四字節編碼東亞表意文字的搜尋引擎對歷史地理信息系統中的地名、時間以及相關的各種補充信息等建立査詢索引。對包含 統一碼(Unicode)四字節編碼東亞表意文字的信息,尤其是四字節漢字圖片和 造字字符需改成統一碼(Unicode)編碼格式。和B步驟類似,這裡是對歷史地 理信息系統中的文本內容建立倒排表索引。歷史地理信息系統中的文本內容包括 地名,時間,相關事件,補充描述等,地名包括聚落、行政區域和疆域、自然地 理要素;時間包括公元紀年、年號紀年、幹支紀年等多種時間信息的綜合。D. 將歷史地理信息和典籍數據中的所有地名、年代信息抽取出來組成轉換 對應表,該表含有四字節編碼的文字。例如歷史地理信息系統的"永巷"對應典 籍資料庫的"永銜"、"永銜"。E. 通過包含統一碼(Unicode)四字節編碼東亞表意文字的繁簡、中日韓、 異體字的相互對應,以及使用轉換對應表對包含統一碼(Unicode)四字節編碼
東亞表意文字地名的簡體、繁體、今地所在、古今俗稱、別名的相互對應,從而 實現針對歷史地理信息的對應轉換。F. 從典籍資料庫向歷史地理信息系統關聯時,將典籍資料庫中該記錄的地名等信息通過E中的方式進行轉換,得到一系列査詢關鍵詞,並按照一定的査詢 邏輯在C步驟建立的索引中進行査詢檢索,得到與典籍資料庫該條記錄相關的一 系列歷史地理信息,從而關聯到歷史地理信息系統。G. 從歷史地理信息系統向典籍資料庫關聯時,將歷史地理信息系統中該記 錄的地名等信息通過E中的方式進行轉換,得到一系列査詢關鍵詞,並按照一定 的査詢邏輯在在B步驟建立的索引中進行查詢檢索,得到與歷史地理信息系統該 條記錄相關的一系列典籍數據信息,從而關聯到典籍資料庫。通過上述步驟可以實現在中文典籍資料庫與歷史地理信息系統在含有統一 碼(Unicode)四字節編碼文字的超大字符集之上的兩者相互之間關聯。為了理 解本發明的關聯方法,我們在此公開了本發明的具體實施的步驟和附圖,以期本 領域的技術人員可以理解。由於含有統一碼(Unicode)四字節編碼文字的自然 含有單字節和二字節字符,在不脫離本發明及所附的權利要求的精神和範圍內, 各種相關的替換、變化和修改方案都是可能的,因此,本發明得不局限於實例和 附圖所公開的內容。
權利要求
1. 一種可以實現支持四字節編碼東亞表意文字的典籍資料庫與歷史地理信息系統關 聯的方法,包括將歷史地理信息中的文本內容與典籍數據中的文本內容使用支持含Unicode四字節編碼東亞表意文字的搜尋引擎分別建立相應的索引庫。
2. —種可以實現支持四字節編碼東亞表意文字的典籍資料庫與歷史地理信息系統關 聯的方法,包括將典籍數據和歷史地理信息兩者中的地名、人名等專有名詞信息 抽取出來,並建立同義詞表性質的,含有Unicode四字節編碼東亞表意文字的專 有名字轉換對應表,對包含人名、地名等專有名詞的古今俗稱、別名的相互對應 實現關鍵詞的轉換。
3. 如在權利要求l、 2所述的可以實現支持四字節編碼東亞表意文字的典籍資料庫與 歷史地理信息系統關聯的方法,其特徵在於對轉換後的地名等專有名詞信息附 加上年代等信息在歷史地理信息索引中檢索,從而關聯到歷史地理信息系統。
4. 如在權利要求l、 2所述的可以實現支持四字節編碼東亞表意文字的典籍資料庫與 歷史地理信息系統關聯的方法,其特徵在於對轉換後的地名等專有名詞信息附 加上年代等信息在典籍數據索引中檢索,從而關聯到典籍資料庫。
5. 如在權利要求l、 2、 3、 4所述的可以實現支持四字節編碼東亞表意文字的典籍數 據庫與歷史地理信息系統關聯的方法,其特徵在於在對典籍資料庫和歷史地理 信息系統進行檢索時,或者調用轉換對應表時,通過包含Unicode四字節編碼東 亞表意文字的繁簡、中日韓、異體字的相互對應來實現關鍵詞的轉換。
全文摘要
本發明公開了一種實現支持四字節的典籍數據與歷史地理信息關聯的方法。該方法使用支持統一碼(Unicode)四字節編碼東亞表意文字的搜尋引擎對典籍數據與歷史地理信息建立查詢索引庫,通過對包含統一碼(Unicode)四字節編碼東亞表意文字的繁簡、中日韓、異體字的相互對應,以及使用轉換對應表對包含統一碼(Unicode)四字節編碼東亞表意文字地名的古今俗稱、別名的相互對應實現關鍵詞的轉換,並按照一定的查詢邏輯進行查詢檢索,從而得到相關的記錄內容。本發明很好的解決了當前典籍數據與歷史地理信息之間因為存在統一碼(Unicode)四字節編碼東亞表意文字而無法關聯匹配問題及當前歷史地理信息系統中的統一碼(Unicode)四字節顯示、存儲、檢索及不同系統間的兼容性問題。
文檔編號G06F17/30GK101122905SQ20061008916
公開日2008年2月13日 申請日期2006年8月8日 優先權日2006年8月8日
發明者馮健康, 張向輝, 王宏源, 鋒 趙 申請人:王宏源

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀