基於Unicode編碼的跨庫檢索方法
2023-04-25 02:09:36 2
專利名稱:基於Unicode編碼的跨庫檢索方法
技術領域:
本發明屬於計算機技術領域,特別涉及一種基於Unicode編碼的跨庫檢索方法。
背景技術:
隨著電子資源總量與種類的迅猛增長,圖書館擁有越來越多的異構資料庫,例如一些大型圖書館一般都擁有多種電子期刊資料庫,電子圖書資料庫,自建的特色資料庫等等。這些獨立的資料庫在給檢索用戶提供豐富信息的同時也帶來了很多不便,用戶若要查詢某一信息往往需要依次進入各個電子資源的搜索界面進行搜索,並且要對各個資料庫的搜索規則有足夠的認識,方可獲得所需的信息。因此跨庫檢索技術成為當前圖書館檢索技術領域的一個熱門技術,也出現了一些解決方案與產品。當前實現跨庫檢索主要包括三種主流方法。一、通過資料庫接口軟體與不同的資料庫直接連接;二、將不同資料庫間的格式進行轉換;三、運用元搜尋引擎的基本原理,封裝資料庫的Web客戶端。
隨著資料庫技術的發展,近幾年出現了越來越多的古代信息的電子化資料庫產品,例如關於考古出土的甲骨文、金文、簡帛、古代書籍的信息很多已經轉換成電子文本數據,這些信息也逐漸以典籍資料庫的形式進入圖書館。但是,由於古文中包含了大量非常用的文字,超出了當前二字節編碼的常用文字字符的範圍,譬如漢字總字符數如果超過2萬就無法利用雙字節來進行管理,因此目前圖書館使用的典籍類資料庫技術還要用到包括多字節/寬字節編碼(Multibytes/Wide Char)方式等高級的字符管理技術。通俗的說,多字節編碼就是外碼,一般為可變長編碼,主要用於信息存儲和交換;寬字節編碼就是內碼,為定長碼,通常一個字符對應4個字節,主要用於信息處理。常見的多字節編碼有UTF-8,ISO8859系列,GB2312,GBK,EUC-JP等。GB18030是最新的漢字編碼字符集國家標準,向下兼容GBK和GB2312標準。GB18030編碼是一二四字節變長編碼。一字節部分從0x0~0x7F與ASCII編碼兼容。二字節部分,首字節從0x81~0xFE,尾字節從0x40~0x7E以及0x80~0xFE,與GBK標準基本兼容。四字節部分,第一字節從0x81~0xFE,第二字節從0x30~0x39,第三和第四字節的範圍和前兩個字節分別相同。四字節部分覆蓋了從0x0080開始,除去二字節部分已經覆蓋的所有Unicode3.1碼位。Unicode有一個特性它包括了世界上所有的字符字形。所以,各個地區的語言都可以建立與Unicode的映射關係。
在包含了這些多字節/寬字節編碼方式,尤其是含有四字節Unicode字符的典籍資料庫系統中,當前的跨庫檢索系統就無能為力了,他們無法實現對包含四字節編碼信息典籍資料庫和其它基於二字節、單字節編碼的資料庫進行跨庫檢索。
發明內容
鑑於上述原因,本發明的主要目的是提供一種基於Unicode編碼的跨庫檢索方法。該跨庫檢索方法基於Unicode編碼,使跨庫檢索可以跨越單字節編碼信息資料庫、二字節編碼信息資料庫和四字節編碼信息資料庫。
在實現基於Unicode編碼的跨庫檢索時,其步驟包括A、建立電子資料庫格式描述表。為當前存在的每一個電子資料庫建立相應的格式描述信息,並將其插入格式描述表中。格式描述信息記錄的內容包括電子資料庫內容的編碼格式、電子資料庫內容的語言信息、是否包含四字節信息和電子信息內容文件的文件格式。
B、提取本地鏡像的電子資料庫內容索引信息並基於Unicode為其建立倒排索引表。
C、採用元搜尋引擎的模式,為用戶提供統一的基於Unicode編碼的查詢接口。用戶提交查詢後,將用戶的查詢條件同時送入以下兩個處理流程。
D1、將用戶查詢條件送入本地建立的倒排序表中進行查詢。並將查詢結果返回用戶。查詢結果除包括索引表中查詢命中的記錄信息外,還包括該記錄所屬電子資料庫的格式描述信息。
D2、對於沒有為其建立倒排索引表的電子資料庫,將用戶查詢條件由Unicode轉換為其相應要求的查詢條件編碼後,送入相應電子資料庫的檢索系統中進行檢索。並根據電子資料庫返回結果的編碼類型將結果統一轉換成Unicode編碼格式,並採用相應的顯示方式進行顯示。此外查詢結果還包括該記錄所屬電子資料庫的格式描述信息。
E、在顯示結果時,為用戶提供排序規則(例如時間順序、Unicode優先、特定庫優先)。根據用戶的選擇決定返回結果記錄顯示的先後順序。
本發明的特點1、本發明使得跨庫檢索能夠有效跨越不同編碼格式的電子資料庫,為用戶提供統一風格的查詢和顯示界面。
2、由於在本地對電子資料庫建立了倒排索引,可以大大提高用戶的檢索速度。
圖1為本發明進行跨庫檢索時的數據處理流程示意圖。
具體實施例方式
本發明的主要目的是提供一種基於Unicode編碼的跨庫檢索方法。具體的實施方法如下A、建立電子資料庫格式描述表。為當前存在的每一個電子資料庫建立相應的格式描述信息,並將其插入格式描述表中。格式描述信息記錄的內容包括電子資料庫內容的編碼格式、電子資料庫內容的語言信息、是否包含四字節信息和電子信息內容文件的文件格式。
其中編碼格式包括Unicode、GB2312、BIG5、ISO、GB18030等等。
電子資料庫內容的語言信息包括中文簡體、中文繁體、英文、德文、法文、日文、韓文、蒙文、藏文、義大利文、西班牙文等。
電子信息內容的文件格式包括PDF、Microsoft Word/PowerPoint/Excel、CAJ、HTML、TXT、TIFF、JPEG、GIF、PNG、BMP等(其中TIFF、JPEG、GIF、PNG、BMP等格式的文件是通過OCR提取其中的文字內容加入資料庫的)。
B、提取本地鏡像的電子資料庫內容索引信息並基於Unicode為其建立基於詞庫的倒排索引表。在建立索引時將四字節作為獨立的詞進行處理,並將其加入詞庫中。
C、採用元搜尋引擎的模式為用戶提供統一的基於Unicode編碼的查詢接口。但當前的元搜尋引擎技術大都將用戶輸入的查詢條件分發給其下層的搜尋引擎,在本發明中,為了能使該條件輸入框能正常顯示各種Unicode字符,該輸入框的內容要指定為能顯示Unicode編碼字符的超大字符集字體或擴展字符集字體。用戶提交查詢後,將用戶的查詢條件同時送入以下兩個處理流程。
D1、將用戶查詢條件送入本地建立的倒排序表中進行查詢。並將查詢結果返回用戶。查詢結果除包括索引表中查詢命中的記錄信息外,還包括該記錄所屬電子資料庫的格式描述信息。
D2、對於沒有為其建立倒排索引表的電子資料庫,將用戶查詢條件由Unicode轉換為其相應要求的查詢條件編碼後,送入相應電子資料庫的檢索系統中進行檢索。並根據電子資料庫返回結果的編碼類型將結果統一轉換成Unicode編碼格式,並採用相應的顯示方式進行顯示。此外查詢結果還包括該記錄所屬電子資料庫的格式描述信息。
E、在顯示結果時,也根據元搜尋引擎的方式,綜合顯示從各子庫返回的結果。用戶可以從以下的可選排序規則(時間順序、Unicode優先、特定庫優先等)選擇決定返回結果記錄顯示的先後順序。
其中,時間順序在系統查詢時,結果記錄按照結果返回的時間先後順序進行顯示,結果返回速度快的記錄排在結果返回速度慢的記錄前面顯示。
Unicode優先根據步驟A中記錄的各電子資料庫的編碼格式信息,在一定時間內,顯示基於Unicode編碼的電子資料庫返回的結果。該時間過後,則其餘結果按照返回時間的先後順序進行顯示。
特定庫優先用戶在查詢時,可以指定特定的資料庫優先顯示,在一定的時間內,顯示用戶指定的特定資料庫中返回的結果記錄。該時間過後,則其餘結果按照返回時間的先後順序進行顯示。
在顯示具體的結果時,根據步驟A中記錄的各電子資料庫中記錄的編碼格式信息和語言格式信息為其選擇合適的顯示方式進行顯示。
本發明的優點與技術效果本發明主要特點在,在元搜索技術的基礎上,採用了基於Unicode的跨庫檢索流程,對於用戶查詢入口和結果輸出接口都採用統一的Unicode編碼格式。在建立本地索引時,也是基於Unicode編碼建立的。同時本發明還提供了用戶可自己選擇的記錄結果排序方法。可以使用戶可以更好更快的在多種不同語言,不同編碼的電子資料庫中檢索出自己需要的信息。
權利要求
1.一種基於Unicode編碼的跨庫檢索方法。該方法為資料庫檢索用戶提供統一的基於Unicode編碼的查詢接口。根據用戶輸入的檢索條件,對一個或多個跨越單字節編碼信息、二字節編碼信息和四字節(含Unicode)編碼信息的資料庫或倒排索引表進行檢索,並返回符合條件的檢索結果。
2.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於首先為當前存在的每一個電子資料庫建立相應的格式描述信息表。其格式描述信息包括電子資料庫的編碼格式、電子資料庫內容的語言信息、是否包含四字節信息、以及電子信息內容文件的文件格式四部分信息。
3.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於提取本地鏡像的電子資料庫內容索引信息並基於Unicode為其建立倒排索引表。
4.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於為用戶提供統一的基於Unicode編碼的查詢接口,用戶輸入的查詢條件輸入框的內容要能顯示Unicode編碼字符的超大字符集字體或擴展字符集字體。
5.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於將用戶查詢條件送入本地建立的倒排序表中進行查詢。並將查詢結果返回用戶。查詢結果除包括索引表中查詢命中的記錄信息外,還包括該記錄所屬電子資料庫的格式描述信息。
6.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於對於沒有為其建立倒排索引表的電子資料庫,將用戶查詢條件由Unicode轉換為其相應要求的查詢條件編碼後,送入相應電子資料庫的檢索系統中進行檢索。並根據電子資料庫返回結果的編碼類型將結果統一轉換成Unicode編碼格式,並採用相應的顯示方式進行顯示。此外查詢結果還包括該記錄所屬電子資料庫的格式描述信息。
7.如在權利要求1所述的基於Unicode編碼的跨庫檢索方法,其特徵在於在顯示結果時,為用戶提供三種排序規則(時間順序、Unicode優先、特定庫優先)。根據用戶的選擇決定返回結果記錄顯示的先後順序。
全文摘要
本發明公開了一種基於Unicode編碼的跨庫檢索方法。該方法為資料庫檢索用戶提供統一的基於Unicode編碼的查詢接口。根據用戶輸入的檢索條件,對Unicode倒排索引表進行檢索,並返回符合條件的檢索結果。該方法首先記錄各電子資料庫格式信息,然後為本地鏡像的資料庫索引信息基於Unicode建立倒排索引。同時本發明還提供了用戶可自己選擇的記錄結果排序方法。可以使用戶可以更好更快的在多種不同語言,不同編碼的電子資料庫中檢索出自己需要的信息。
文檔編號G06F17/30GK1825309SQ20061000105
公開日2006年8月30日 申請日期2006年1月18日 優先權日2006年1月18日
發明者馮建康, 王宏源, 趙鋒 申請人:王宏源