新四季網

一種支持多數據源的索引維護方法

2023-09-19 02:37:45


專利名稱::一種支持多數據源的索引維護方法
技術領域:
:本發明屬於搜尋引擎
技術領域:
,具體涉及一種索引庫更新維護方法。
背景技術:
:企業信息化產生了大量的原始信息或加工信息,如各種文本信息、多媒體信息等。這些信息中包含了用戶感興趣的各種內容,需要對這些信息進行有效存儲與檢索。這種信息檢索系統的主要特點一是,數據來源多,當原始信息產生之後,要求能夠儘快地進入檢索系統,並能夠被檢索;二是,用戶對信息檢索的響應時間有更高的要求,特別地索引庫的更新過程不能對用戶檢索的響應時間產生影響。三是,不同類型企業用戶在檢索過程中,可能對檢索的時間範圍有一定區別,有的要求對剛產生的數據能夠進行即時查詢,而有的要求能夠查詢歷史上某個時間段的數據。現有的搜尋引擎研究在海量信息處理、體系結構等方面已經有了很大的進展,如google公司發明的Bigtable等一系列技術[1],有效地解決了海量信息的分布式存儲與索引中的主要問題,為上層應用提供了統一的數據接口。在企業級的文本信息存儲與檢索技術方面,為了適應企業用戶對檢索響應時間的要求,人們提出了多種匹配算法、索引庫的組織方法以及軟體體系結構設計方法等。其中,索引庫的組織及其維護方法由於對檢索性能有較大的影響,而成為搜尋引擎設計的關鍵。歸納起來,主要有以下幾類方法一是,針對集中式環境下的索引結構,主要是基於倒排索引結構及其改進方法[2]。二是,針對分布式環境下的索引結構,在倒排結構的基礎上,對索引建立算法進行了分布式處理的增強[3,4]。這些方法在海量信息的存儲、索引管理以及提高檢索系統性能方面,起了關鍵作用。隨著用戶對檢索系統性能要求的不斷提高,人們需要在索引庫實時維護機制方面提出新的方法,以便在大量的索引庫中快速定位與選擇某次檢索所需要的索引庫片斷,避免在大索引庫中檢索記錄,同時避免索引庫更新過程對用戶檢索所造成的影響,進一步縮短用戶檢索的響應時間。而現有各種方法在解決這些需求時尚存在一定的不足,具體說明如下1.對多個數據源上的數據同時建立索引時,現有方法由於需要進行索引庫的不斷更新,而造成建立索引時產生延遲,從而影響用戶即時檢索的需要。2.由於索引的更新在一個大的索引庫上進行,因此,在更新期間容易發生用戶檢索無法進行的現象,或檢索請求的處理過程變慢。3.面對用戶在檢索過程中對時間範圍的限定,現有方法實際上還是在大的索引庫中進行,因此,檢索效率的提升是很有限的。由此可見,為了實現對多數據源進行索引創建,同時保證用戶檢索的響應時間不受影響,需要引入新的索引庫並發實時更新維護機制,才能有效克服目前存在的問題並滿足企業用戶需要。本發明的目的就是設計這樣的索引庫更新維護機制。
發明內容本發明的目的主要是針對搜尋引擎性能進一步改善的需要,提出一種新的索引庫維護方法。本發明基於對多個數據源同時建立索引的性能需求而提出一種索引庫維護方法。本發明針對索引伺服器中索引庫的組織方式、更新方法及檢索過程,將整個索引庫分為一系列子索引庫,每個子索引庫存儲一定時間粒度內的索引,子索引庫包含一個獨立的目錄及相關文件。本發明的總體流程如圖1。操作步驟分為三個流程,具體如下一.子索引庫的數據加載(1)生成新的子索引庫,並按照一定的命名方式對該子索引庫進行標識;(2)對該子索引庫進行加鎖;(3)按照建立索引結構的算法[5,6]創建數據對應的索引文件,實現數據加載;(4)子索引庫解鎖;(5)通知索引伺服器上的檢索請求處理進程,將該子索引庫標識為可用庫。二.子索引庫的合併(1)按照一定的時間間隔選擇需要合併的子索引庫;(2)生成新的子索引庫,並按照一定命名方式對該子索引庫進行標識;(3)對該子索引庫進行加鎖;(4)按照與索引結構相對應的索引合併算法[5,6]將所選擇的子索引庫合併,寫入到新的子索引庫;(5)子索引庫解鎖;(6)通知索引伺服器上的檢索請求處理進程,將所選擇的子索引庫標識為不可用,而將新的子索引庫標識為可用。三.用戶檢索請求的處理(1)從接收到的用戶檢索請求命令中,提取指定的時間範圍;(2)根據該時間範圍,選擇符合時間條件的子索引庫,作為處理當前檢索命令的索引庫;(3)執行檢索過程,並返回結果。支持多數據源的索引維護方法,其特徵在於對子索引庫具有如下的標識DATE1-DATE2,其中DATEl與DATE2分別表示索引庫中所包含的數據文件的最早與最遲的生成時間,格式均為yyyyYYDDHHMMSS,yyyy表示年份,YY表示月份,DD表示日,ⅠⅡⅠ表示小時數,ⅥM表示分鐘,SS表示秒數。本發明的支持多數據源的索引維護方法,索引合併具有靈活的時間粒度,即由G1、G2和G3表示不同時間粒度,對應的子索引庫具有如下特點SUB_SET1={siDATE2-DATE1>G1}SUB_SET2={siDATE2-DATE1>G2}SUB_SET3={siDATE2-DATE1>G3}其中,G1>G2>G3。本發明的支持多數據源的索引維護方法,用戶的檢索請求在合適的時間範圍子索引庫中進行;針對檢索請求所限定的查詢時間範圍[tl,t2],根據以下選擇方法選擇用於本次查詢的可用子索引列表tl<=DATEl<=t2或tl<=DATE2G1}SUB__SET2=IsiDATE2-DATE1>G2}SUB__SET3=IsiDATE2-DATE1>G3}其中,G1>G2>G3。Gl,G2,G3代表不同的時間粒度。(2)對所選擇的子索引庫集分別按照以下處理流程執行(a)在索引庫中建立相應的子目錄,將目錄名稱命名為DATE1-DATE2,其中DATEl與DATE2分別表示子索引庫集中各個子索引庫的最早與最遲時間標識;(b)在該子目錄中生成lock文件,表示該子索引庫處於加鎖狀態;(c)按照索引算法相對應的索引合併算法(具體的算法在本發明中沒有限制,可選用目前任何已有的算法,如針對倒排索引結構的合併算法[5,6]等),將所選擇的所有子索引庫合併,並寫入到新的子索引庫中;(d)刪除lock文件,表示該子索引庫處於解鎖狀態;(e)通知用戶檢索請求處理進程,將所選擇的子索引庫標識為不可用,而將新生成的子索引庫標識為可用;(f)刪除子索引庫集中的各個子索引庫。(3)轉本進程的流程(1)繼續執行,直到用戶終止該進程的運行。3、用戶檢索請求處理進程當產生新的用戶檢索請求時,該進程開始按照下面的流程執行(1)從檢索請求串中提取檢索所限定的查詢時間範圍[tl,t2];(2)根據時間範圍,選擇用於本次查詢的可用子索引列表,方法如下tl<=DATEl<=t2或tl<=DATE2G1}SUB__SET2=IsiDATE2-DATE1>G2}SUB__SET3=IsiDATE2-DATE1>G3}其中,G1>G2>G3。4.如權利要求3所述的支持多數據源的索引維護方法,其特徵在於用戶的檢索請求在合適的時間範圍子索引庫中進行;針對檢索請求所限定的查詢時間範圍[tl,t2],根據以下選擇方法選擇用於本次查詢的可用子索引列表tl<=DATEl<=t2或tl<=DATE2<=t2,其中DATEl和DATE2為各個子索引庫的標識。5.如權利要求1所述的支持多數據源的索引維護方法,其特徵在於子索引庫的數據加載過程中,通過產生加鎖文件的方式來避免合併進程對正在加載的子索引庫進行合併,也避免正在加載的子索引庫被用戶檢索處理進程選擇為檢索範圍。6.如權利要求1所述的支持多數據源的索引維護方法,其特徵在於子索引庫合併過程中,通過產生加鎖文件的方式來避免正在生成的新子索引庫被用戶檢索請求處理進程選擇為檢索範圍。全文摘要本發明屬於搜尋引擎
技術領域:
,具體涉及一種支持多數據源的索引維護方法。本發明將整個索引庫分為一系列子索引庫,每個子索引庫存儲一定時間粒度內的索引,子索引庫包含一個獨立的目錄及相關文件。操作步驟分為三個流程子索引庫的數據加載、子索引庫的合併、用戶檢索請求的處理。本發明通過設置子索引庫,便於實現索引的實時更新;通過設置合適的索引合併檢測周期,實現具有不同時間粒度的子索引庫互相共存;將用戶限定時間範圍的檢索請求映射到子索引庫上,索引的更新可以在獨立的子索引庫中進行而不影響用戶的檢索請求,從而保證響應時間滿足用戶要求。文檔編號G06F17/30GK101989301SQ201010515780公開日2011年3月23日申請日期2010年10月22日優先權日2010年10月22日發明者吳承榮,曾劍平申請人:復旦大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀