新四季網

基於Unicode編碼的跨庫檢索方法

2023-04-25 02:09:36 1

專利名稱:基於Unicode編碼的跨庫檢索方法
技術領域:
本發明屬於計算機技術領域,特別涉及一種基於Unicode編碼的跨庫檢索方法。
背景技術:
隨著電子資源總量與種類的迅猛增長,圖書館擁有越來越多的異構資料庫,例如一些大型圖書館一般都擁有多種電子期刊資料庫,電子圖書資料庫,自建的特色資料庫等等。這些獨立的資料庫在給檢索用戶提供豐富信息的同時也帶來了很多不便,用戶若要查詢某一信息往往需要依次進入各個電子資源的搜索界面進行搜索,並且要對各個資料庫的搜索規則有足夠的認識,方可獲得所需的信息。因此跨庫檢索技術成為當前圖書館檢索技術領域的一個熱門技術,也出現了一些解決方案與產品。當前實現跨庫檢索主要包括三種主流方法。一、通過資料庫接口軟體與不同的資料庫直接連接;二、將不同資料庫間的格式進行轉換;三、運用元搜尋引擎的基本原理,封裝資料庫的Web客戶端。
隨著資料庫技術的發展,近幾年出現了越來越多的古代信息的電子化資料庫產品,例如關於考古出土的甲骨文、金文、簡帛、古代書籍的信息很多已經轉換成電子文本數據,這些信息也逐漸以典籍資料庫的形式進入圖書館。但是,由於古文中包含了大量非常用的文字,超出了當前二字節編碼的常用文字字符的範圍,譬如漢字總字符數如果超過2萬就無法利用雙字節來進行管理,因此目前圖書館使用的典籍類資料庫技術還要用到包括多字節/寬字節編碼(Multibytes/Wide Char)方式等高級的字符管理技術。通俗的說,多字節編碼就是外碼,一般為可變長編碼,主要用於信息存儲和交換;寬字節編碼就是內碼,為定長碼,通常一個字符對應4個字節,主要用於信息處理。常見的多字節編碼有UTF-8,ISO8859系列,GB2312,GBK,EUC-JP等。GB18030是最新的漢字編碼字符集國家標準,向下兼容GBK和GB2312標準。GB18030編碼是一二四字節變長編碼。一字節部分從0x0~0x7F與ASCII編碼兼容。二字節部分,首字節從0x81~0xFE,尾字節從0x40~0x7E以及0x80~0xFE,與GBK標準基本兼容。四字節部分,第一字節從0x81~0xFE,第二字節從0x30~0x39,第三和第四字節的範圍和前兩個字節分別相同。四字節部分覆蓋了從0x0080開始,除去二字節部分已經覆蓋的所有Unicode3.1碼位。Unicode有一個特性它包括了世界上所有的字符字形。所以,各個地區的語言都可以建立與Unicode的映射關係。
在包含了這些多字節/寬字節編碼方式,尤其是含有四字節Unicode字符的典籍資料庫系統中,當前的跨庫檢索系統就無能為力了,他們無法實現對包含四字節編碼信息典籍資料庫和其它基於二字節、單字節編碼的資料庫進行跨庫檢索。

發明內容
鑑於上述原因,本發明的主要目的是提供一種基於Unicode編碼的跨庫檢索方法。該跨庫檢索方法基於Unicode編碼,使跨庫檢索可以跨越單字節編碼信息資料庫、二字節編碼信息資料庫和四字節編碼信息資料庫。
在實現基於Unicode編碼的跨庫檢索時,其步驟包括A、建立電子資料庫格式描述表。為當前存在的每一個電子資料庫建立相應的格式描述信息,並將其插入格式描述表中。格式描述信息記錄的內容包括電子資料庫內容的編碼格式、電子資料庫內容的語言信息、是否包含四字節信息和電子信息內容文件的文件格式。
B、提取本地鏡像的電子資料庫內容索引信息並基於Unicode為其建立倒排索引表。
C、採用元搜尋引擎的模式,為用戶提供統一的基於Unicode編碼的查詢接口。用戶提交查詢後,將用戶的查詢條件同時送入以下兩個處理流程。
D1、將用戶查詢條件送入本地建立的倒排序表中進行查詢。並將查詢結果返回用戶。查詢結果除包括索引表中查詢命中的記錄信息外,還包括該記錄所屬電子資料庫的格式描述信息。
D2、對於沒有為其建立倒排索引表的電子資料庫,將用戶查詢條件由Unicode轉換為其相應要求的查詢條件編碼後,送入相應電子資料庫的檢索系統中進行檢索。並根據電子資料庫返回結果的編碼類型將結果統一轉換成Unicode編碼格式,並採用相應的顯示方式進行顯示。此外查詢結果還包括該記錄所屬電子資料庫的格式描述信息。
E、在顯示結果時,為用戶提供排序規則(例如時間順序、Unicode優先、特定庫優先)。根據用戶的選擇決定返回結果記錄顯示的先後順序。
本發明的特點1、本發明使得跨庫檢索能夠有效跨越不同編碼格式的電子資料庫,為用戶提供統一風格的查詢和顯示界面。
2、由於在本地對電子資料庫建立了倒排索引,可以大大提高用戶的檢索速度。


圖1為本發明進行跨庫檢索時的數據處理流程示意圖。
具體實施例方式
本發明的主要目的是提供一種基於Unicode編碼的跨庫檢索方法。具體的實施方法如下A、建立電子資料庫格式描述表。為當前存在的每一個電子資料庫建立相應的格式描述信息,並將其插入格式描述表中。格式描述信息記錄的內容包括電子資料庫內容的編碼格式、電子資料庫內容的語言信息、是否包含四字節信息和電子信息內容文件的文件格式。
其中編碼格式包括Unicode、GB2312、BIG5、ISO、GB18030等等。
電子資料庫內容的語言信息包括中文簡體、中文繁體、英文、德文、法文、日文、韓文、蒙文、藏文、義大利文、西班牙文等。
電子信息內容的文件格式包括PDF、Microsoft Word/PowerPoint/Excel、CAJ、HTML、TXT、TIFF、JPEG、GIF、PNG、BMP等(其中TIFF、JPEG、GIF、PNG、BMP等格式的文件是通過OCR提取其中的文字內容加入資料庫的)。
B、提取本地鏡像的電子資料庫內容索引信息並基於Unicode為其建立基於詞庫的倒排索引表。在建立索引時將四字節作為獨立的詞進行處理,並將其加入詞庫中。
C、採用元搜尋引擎的模式為用戶提供統一的基於Unicode編碼的查詢接口。但當前的元搜尋引擎技術大都將用戶輸入的查詢條件分發給其下層的搜尋引擎,在本發明中,為了能使該條件輸入框能正常顯示各種Unicode字符,該輸入框的內容要指定為能顯示Unicode編碼字符的超大字符集字體或擴展字符集字體。用戶提交查詢後,將用戶的查詢條件同時送入以下兩個處理流程。
D1、將用戶查詢條件送入本地建立的倒排序表中進行查詢。並將查詢結果返回用戶。查詢結果除包括索引表中查詢命中的記錄信息外,還包括該記錄所屬電子資料庫的格式描述信息。
D2、對於沒有為其建立倒排索引表的電子資料庫,將用戶查詢條件由Unicode轉換為其相應要求的查詢條件編碼後,送入相應電子資料庫的檢索系統中進行檢索。並根據電子資料庫返回結果的編碼類型將結果統一轉換成Unicode編碼格式,並採用相應的顯示方式進行顯示。此外查詢結果還包括該記錄所屬電子資料庫的格式描述信息。
E、在顯示結果時,也根據元搜尋引擎的方式,綜合顯示從各子庫返回的結果。用戶可以從以下的可選排序規則(時間順序、Unicode優先、特定庫優先等)選擇決定返回結果記錄顯示的先後順序。
其中,時間順序在系統查詢時,結果記錄按照結果返回的時間先後順序進行顯示,結果返回速度快的記錄排在結果返回速度慢的記錄前面顯示。
Unicode優先根據步驟A中記錄的各電子資料庫的編碼格式信息,在一定時間內,顯示基於Unicode編碼的電子資料庫返回的結果。該時間過後,則其餘結果按照返回時間的先後順序進行顯示。
特定庫優先用戶在查詢時,可以指定特定的資料庫優先顯示,在一定的時間內,顯示用戶指定的特定資料庫中返回的結果記錄。該時間過後,則其餘結果按照返回時間的先後順序進行顯示。
在顯示具體的結果時,根據步驟A中記錄的各電子資料庫中記錄的編碼格式信息和語言格式信息為其選擇合適的顯示方式進行顯示。
本發明的優點與技術效果本發明主要特點在,在元搜索技術的基礎上,採用了基於Unicode的跨庫檢索流程,對於用戶查詢入口和結果輸出接口都採用統一的Unicode編碼格式。在建立本地索引時,也是基於Unicode編碼建立的。同時本發明還提供了用戶可自己選擇的記錄結果排序方法。可以使用戶可以更好更快的在多種不同語言,不同編碼的電子資料庫中檢索出自己需要的信息。
權利要求
1.一種基於Unicode編碼的跨庫檢索方法。該方法為資料庫檢索用戶提供統一的基於Unicode編碼的查詢接口。根據用戶輸入的檢索條件,對一個或多個跨越單字節編碼信息、二字節編碼信息和四字節(含Unicode)編碼信息的資料庫或倒排索引表進行檢索,並返回符合條件的檢索結果。
2.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於首先為當前存在的每一個電子資料庫建立相應的格式描述信息表。其格式描述信息包括電子資料庫的編碼格式、電子資料庫內容的語言信息、是否包含四字節信息、以及電子信息內容文件的文件格式四部分信息。
3.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於提取本地鏡像的電子資料庫內容索引信息並基於Unicode為其建立倒排索引表。
4.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於為用戶提供統一的基於Unicode編碼的查詢接口,用戶輸入的查詢條件輸入框的內容要能顯示Unicode編碼字符的超大字符集字體或擴展字符集字體。
5.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於將用戶查詢條件送入本地建立的倒排序表中進行查詢。並將查詢結果返回用戶。查詢結果除包括索引表中查詢命中的記錄信息外,還包括該記錄所屬電子資料庫的格式描述信息。
6.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於對於沒有為其建立倒排索引表的電子資料庫,將用戶查詢條件由Unicode轉換為其相應要求的查詢條件編碼後,送入相應電子資料庫的檢索系統中進行檢索。並根據電子資料庫返回結果的編碼類型將結果統一轉換成Unicode編碼格式,並採用相應的顯示方式進行顯示。此外查詢結果還包括該記錄所屬電子資料庫的格式描述信息。
7.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於在顯示結果時,為用戶提供三種排序規則(時間順序、Unicode優先、特定庫優先)。根據用戶的選擇決定返回結果記錄顯示的先後順序。
全文摘要
本發明公開了一種基於Unicode編碼的跨庫檢索方法。該方法為資料庫檢索用戶提供統一的基於Unicode編碼的查詢接口。根據用戶輸入的檢索條件,對Unicode倒排索引表進行檢索,並返回符合條件的檢索結果。該方法首先記錄各電子資料庫格式信息,然後為本地鏡像的資料庫索引信息基於Unicode建立倒排索引。同時本發明還提供了用戶可自己選擇的記錄結果排序方法。可以使用戶可以更好更快的在多種不同語言,不同編碼的電子資料庫中檢索出自己需要的信息。
文檔編號G06F17/30GK1825309SQ20061000105
公開日2006年8月30日 申請日期2006年1月18日 優先權日2006年1月18日
發明者馮建康, 王宏源, 趙鋒 申請人:王宏源

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀