新四季網

一種針對二維數據表的高效索引及創建和查詢方法

2023-04-28 13:59:56

專利名稱:一種針對二維數據表的高效索引及創建和查詢方法
技術領域:
本發明屬於數據存儲領域,尤其是涉及一種針對二維數據表的高效索引及創建和查詢方法。
背景技術:
關係型資料庫中的關係表,就是一種典型的二維數據。常見的數據計算系統中往往採用粗粒度索引(rough index)或者精確索引,來降低針對欄位進行搜索時的I/O量,從而提升查詢性能。精確索引又分全局索引和局部索引兩種,以哈希索引為例全局哈希索引查詢性能很好,但創建和維護的代價極高,數據膨脹率很大(往往比原始數據膨脹1. 5倍以上,甚至更大)。局部哈希索引對每個數據塊分別創建索引,對某個數據塊更新時的維護代價僅限於這個數據塊的索引數據,因而維護代價較低。但是,查詢時每塊的索引都要被掃描,I/o次數較多,性能不如全局索引。粗粒度索引是一種局部索引,其存儲的內容是每個數據塊中的統計信息。由於統計信息數據量很小,在查詢時,其I/o代價幾乎可以忽略不計如果要查找某一欄位中取值為100的數據,可以利用帶有最大值、最小值信息的粗粒度索引,即可在無需打開任何數據的前提下,立即排除掉肯定不命中的數據塊(最大值小於100或最小值大於100);同時,可以確定肯定命中的數據塊(最大值和最小值都等於100)。而後,再打開其他無法確定的數據,即可準確定位所有命中的數據。但對於分布較離散的數據非常容易失效(極端情況下,粗粒度索引可能無法過濾掉任何數據,查詢性能無法得到任何提升)。再者,粗粒度索引無法精確定位查詢結果,對於不能精確排除的數據塊,仍要打開原始數據進行掃描。

發明內容
本發明要解決的問題是提供一種針對二維數據表的高效索引及創建和查詢方法。為解決上述技術問題,本發明採用的技術方案是一種針對二維數據表的高效索引的創建方法,包括I)將二維數據表分成若干的數據塊;2)為數據塊創建塊粗粒度索引;3)為數據塊創建塊精確索引。進一步的,所述的第3步驟中的塊局部索引為局部哈希索引。進一步的,所述的第I步驟包括I)按一定行數將二維表進行水平切割;2)按列將二維表進行垂直切割。根據本發明的另一方面還提供了一種針對二維數據表的高效索引,包括塊粗粒度索引,用以排除肯定不命中目標數據塊和確定肯定命中的目標數據塊;
塊局部精確索引,用以精確定位塊中命中數據。進一步的,所述塊局部精確索引為塊局部哈希索引。進一步的,所述的高效索引包括至少一個的塊粗粒度索引和至少一個的塊局部精確索引。進一步的,所述的粗粒度索引存儲針對塊的統計信息。進一步的,所述的粗粒度索引存儲針對塊中數據的最大值和最小值。本發明還提供了一種針對二維數據表的高效索引的查詢方法,包括包括I)根據粗粒度索引選出塊中肯定命中和肯定不命中的目標塊; 2)根據上一步篩選出的結果對於無法判定的目標塊用局部精確索引進行掃描,最終精確定位全部命中的數據。由於採用上述技術方案,能夠以較低的創建和維護代價,同時索引數據膨脹率較小,I/O代價低,有效的提高了效率。


圖1是本發明針對二維數據表的高效索引的創建方法流程示意2是本發明針對二維數據表的高效索引的查詢方法流程示意3是本發明中一個實例中將二維數據表分割成數據塊的示意4是本發明中一個實例二維數據表索引存儲示意5是本發明中一個實例中針對設定查詢條件為數據取值等於100的查詢示意圖
具體實施例方式由圖1可以看出,本發明針對二維數據表的高效索引的創建方法流程按照I)將二維數據表分成若干的數據塊;2)為數據塊創建塊粗粒度索引;3)為數據塊創建塊局部索引;採用以上3個步驟對二維數據表創建高效索引。圖1按照水平分割粒度為η (即每個數據塊中數據行數為η)進行切割。另外,一般都採用如圖3所示按一定行數和列數對二維表進行水平和垂直切割。圖2為是本發明針對二維數據表的高效索引的查詢方法流程示意圖,按照圖2所設定的步驟對二維數據表進行分塊高效檢索。本發明的一個實例場景,如圖3所示,將二維數據從邏輯上二維數據從邏輯上進行網格化(無需將數據在物理上進行網格化存儲),形成以數據塊為單位的視圖;本實施例作為一個列式資料庫,每個數據列獨立存儲,並以固定行數為單位劃分塊(Data Cell)。在為其中一列數據創建索引時,把粗粒度索引緊湊存儲於一個文件中;本地哈希索引也緊湊存儲保存在另一個文件中(其中,每個塊的某一個哈希索引的中屬於同一個哈希衝突鏈中的所有數據緊湊存儲在一起,保證掃描一個塊的索引只需一次I/o)。圖4中,每個局部索引中的小方塊表示局部哈希索弓I中哈希值相同的數據所組成的哈希桶如圖5所示,在設定了一定的查詢條件以後,在本實施例中設定為查詢數值為100的條件,在對二維數據表進行查詢時,首先對組成二維數據表的每一個數據塊(Data Cell)的粗粒度索引進行過濾,由粗粒度索引的特性可知,如本實例中,粗粒度索引保存了該塊的統計信息,包括了該塊中最大和最小值。通過粗粒度索引的初步過濾,能夠有效的選出肯定命中和肯定不命中的塊,對於暫時無法精確確定是否命中的情況,則由塊中的局部哈希索引進行進一步的掃描,可以精確定位全部命中的數據。在進行精確查詢時,粗粒度索引文件只需一次IO即可被裝入內存。經過粗粒度索引過濾後,每個需要用局部哈希索引進行定位的數據塊也只需一次IO即可。在數億至數百億規模的數據量下進行測試,使用本發明所描述的索引,可以使平均查詢性能提升5倍以上。本發明相對於全局哈希索引方案,雖然查詢性能有所不及,但是其創建和維護代價更低,數據膨脹率也相對較低,雖然增加了粗粒度索引,但由於粗粒度索引的創建維護代價極低,其性能損失和數據膨脹幾乎可以忽略不計。查詢時,首先基於粗粒度索引進行過濾,多數情況下可以過濾掉一些DC,而這個過濾的I/O代價比起打開並掃描這些被過濾掉數據塊的本地哈希索引要小得多。本發明對於二維數據表的追加數據建立索引也非常簡單、便捷,對於新增加的數據也可以按照上述方法創建索引,對於新增加的數據可以分割成若干的塊,單獨為新增加的數據增加一個或多個的塊粗粒度索引及塊哈希索引,這樣無需對整個二維數據表的索引進行修改,維護代價很低。以上對本發明的一個實施例進行了詳細說明,但所述內容僅為本發明的較佳實施例,不能被認為用於限定本發明的實施範圍。凡依本發明申請範圍所作的均等變化與改進等,均應仍歸屬於本發明的專利涵蓋範圍之內。
權利要求
1.一種針對二維數據表的高效索引的創建方法,包括 1)將二維數據表分成若干的數據塊(DataCell,簡稱DC); 2)為數據塊創建塊粗粒度索引; 3)為數據塊創建塊精確索引。
2.根據權利要求1所述的創建方法,其特徵在於所述的第3步驟中的塊局部索引為局部哈希索引。
3.根據權利要求1所述的創建方法,其特徵在於所述的第I步驟包括 O按一定行數將二維表進行水平切割; 2)按列將二維表進行垂直切割。
4.一種根據權利要求1所述的創建方法所創建的針對二維數據表的高效索引,所述的聞效索引包括 塊粗粒度索引,用以排除肯定不命中目標數據塊和確定肯定命中的目標數據塊; 塊局部精確索引,用以精確定位塊粗粒度索弓I無法精確判定的數據塊中命中數據的精確位置。
5.根據權利要求4所述的高效索引,其特徵在於所述塊局部精確索引為塊局部哈希索引。
6.根據權利要求4所述的高效索引,其特徵在於所述的高效索引包括至少一個的塊粗粒度索引和至少一個的塊局部精確索引。
7.根據權利要求4所述的高效索引,其特徵在於所述的粗粒度索引存儲針對塊的統計信息。
8.根據權利要求7所述的高效索引,其特徵在於所述的粗粒度索引存儲針對塊中數據的最大值和最小值。
9.一種根據權利要求4所述的針對二維數據表的高效索引的查詢方法,包括 1)根據粗粒度索引選出塊中肯定命中和排除肯定不命中的目標塊; 2)根據上一步篩選出的結果對於無法判定的目標塊用局部精確索引進行掃描,最終精確定位全部命中的數據。
全文摘要
本發明提供了一種針對二維數據表的高效索引,包括用以排除所屬塊的肯定不命中的目標的數據塊粗粒度索引和用以精確定位塊粗粒度索引無法精判定的數據塊中命中數據的塊精準索引。此外,本發明還提供了一種針對二維數據表的高效索引的創建及查詢方法。本發明的有益效果是能夠以較低的創建和維護代價來創建和維護二維數據表索引,同時索引數據膨脹率較小,I/O代價低,有效的提高了效率。
文檔編號G06F17/30GK103020305SQ20121059410
公開日2013年4月3日 申請日期2012年12月29日 優先權日2012年12月29日
發明者孟祥斌, 崔維力, 武新, 趙偉 申請人:天津南大通用數據技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀