新四季網

索引的介紹和原理分析是什麼(索引的介紹和原理分析)

2023-08-08 08:02:35

索引的定義

MySQL官方對索引的定義為:索引(Index)是協助MySQL高效獲取數據的數據結構。

本質上,索引的目的是為了提高查詢效率,通過不斷地縮小想要獲取數據的範圍來篩選出最終想要的結果,同時把隨機的事件變成順序的事件,也就是說,有了這種索引機制,我們可以總是用同一種查找方式來鎖定數據。

可以類比銀行的保險柜,比如你要找歸屬你的保險柜子。如果沒有索引,你需要拿著鑰匙,一個個的保險柜的試過去才能找到屬於你的保險柜。但是如果有了索引,而且保險柜能夠以物理分區的方式存在在對應的區域,同時你可以根據鑰匙上的編號(A1003-10-17),找到保險柜所在 A1003的存放房間,找到存放室保險柜的第10排,再找到第17個位置,找到屬於你的保險柜,這個定位就快很多了。在沒有索引的情況下,要想完成這個事情還是比較困難的。

索引的原理

除了保險柜之外,生活中可以引出很多類似的索引例子,如字典詞典的目錄、圖書館的檢索錄、火車的座次表等。

它們的原理一致:不斷地縮小數據範圍來篩選數據,並把隨機數據變成順序數據,方便我們更快地鎖定數據。

這種索引的理解同樣適用我們的資料庫查詢,但是資料庫會有很多更複雜的情況,除了等值查詢外,還有範圍查詢(>、<、between、in)、模糊查詢(like)、併集查詢(or)、交集查詢(and)等等。這就要求資料庫選擇更加複雜和成熟的方式來應對所有問題。

根據我們上面保險柜的案例,可以對數據按照一定規則進行拆分,這樣匹配的範圍就降低了,但是這遠遠不夠滿足資料庫複雜的查詢要求。於是,資料庫系統的設計者從查詢算法的角度進行優化。

其中最基本的查詢算法是順序查找(linear search),這種算法複雜度為O(n),在數據量很大時就很不理想了,而且數據量越大,計算越複雜。

但沒關係,強大的計算機科學提供了更多優秀的查找算法,比如二分查找(binary search)、二叉樹查找(binary tree search)等。

但是這些查找算法都要求應用於特定的數據結構之上,如二分查找要求被檢索數據有序,而二叉樹查找只能基於二叉查找樹結構上操作, 數據本身的組織結構不可能完全滿足各種數據結構,理論上也無法同時要求將多列都按順序進行組織。

因此, 在數據之外,資料庫系統還維護著滿足特定查找算法的數據結構,這些數據結構以某種方式引用(指向)數據,這樣就可以在這些數據結構上實現高級查找算法。這種數據結構,就是索引。

這與上面MySQL官方對索引的定義遙相呼應了。

看下面的圖:

圖舉例了一種索引方式。右邊是一個數據表,這邊一共模擬了兩列七行的數據, 欄位1 的是數據記錄的物理地址(實際應用中邏輯上相鄰的記錄在磁碟上並不一定物理相鄰,這邊主要為了舉例)。為了加快 欄位2 的查找,可以維護一個左邊所示的二叉查找樹,每個節點分別包含索引鍵值和一個指向對應數據記錄物理地址的指針,這樣就可以運用二叉查找在O(log2n)O(log2n)的複雜度內獲取到相應數據。

這是索引的一種表現形式,但是實際的資料庫系統中比較普遍是採用B 樹來實現的。B 樹中的B代表平衡(balance),不是二叉(binary)。因為B 樹是從最早的平衡二叉樹演化而來的,所以我們可以先了解下二叉查找樹、平衡二叉樹(AVLTree)和平衡多路查找樹(B-Tree),因為B 樹是由這些樹逐步演進而來。

二叉查找樹

二叉樹具有以下性質:左子樹的鍵值小於根的鍵值,右子樹的鍵值大於根的鍵值。 所以左中右是依次遞增的一個過程。

如下圖所示就是一棵二叉查找樹,

觀察該二叉樹有有如下發現,深度為1的節點的查找次數為1,深度為2的查找次數為2,深度為n的節點的查找次數為n,因此其平均查找次數為 (1 2 2 3 3 3 3) / 7 = 2.4次。

二叉查找樹也可以是如下結構(同樣滿足二叉樹 左 < 中 < 大的特性),同樣是7,21,35,42,51,77,89 這七個數字,也可以按照下圖的方式來構造:

但是這棵二叉樹的查詢效率就低了,平均查找次數為(1 2 3 4 5 6 6)/7=3.8次。

因此若想二叉樹的查詢效率儘可能高,需要這棵二叉樹是平衡的 ,從而引出新的定義:AVL樹(即平衡二叉樹)。

平衡二叉樹(AVL Tree)

平衡二叉樹(AVL樹)在符合二叉查找樹的條件下, 還滿足任何節點的兩個子樹的高度最大差為1。 下面的兩張圖片,左邊是AVL樹,它的任何節點的兩個子樹的高度差1;

同理,在平衡二叉樹進行插入或刪除節點,也可能導致AVL樹失去平衡,這種失去平衡的二叉樹可以有四種狀態:LL(左左)、RR(右右)、LR(左右)、RL(右左)。

看下圖示:

我們來逐一看下這幾種狀態。

LL(LeftLeft),即 左左。 是指插入或刪除一個節點後,根節點的左孩子(Left Child)的左孩子(Left Child)還有非空節點,導致根節點的左子樹比右子樹高度>1,AVL樹失去平衡。

RR(RightRight),即 右右。 是指插入或刪除一個節點後,根節點的右孩子(Right Child)的右孩子(Right Child)還有非空節點,導致根節點的右子樹比左子樹高度>1,AVL樹失去平衡。

LR(LeftRight),即 左右。 插入或刪除一個節點後,根節點的左孩子(Left Child)的右孩子(Right Child)還有非空節點,導致根節點的左子樹比右子樹高度>1,AVL樹失去平衡。

RL(RightLeft),即 右左。 插入或刪除一個節點後,根節點的右孩子(Right Child)的左孩子(Left Child)還有非空節點,導致根節點的右子樹比左子樹高度>1,AVL樹失去平衡。

失去平衡的AVL樹,可以通過旋轉來修復,旋轉的本質是將樹的節點進行調整,達到恢復平衡的目的。下面逐一來看下。

LL的旋轉: LL失去平衡的情況下,可以通過一次旋轉讓AVL樹恢復平衡。步驟如下:

1、將根節點的左孩子作為新根節點。

2、將新根節點的右孩子作為原根節點的左孩子。

3、將原根節點作為新根節點的右孩子。

如下圖所示:

RR的旋轉: RR失去平衡的情況下,旋轉方法與LL旋轉相反,步驟如下:

1、將根節點的右孩子作為新根節點。

2、將新根節點的左孩子作為原根節點的右孩子。

3、將原根節點作為新根節點的左孩子。

如下圖所示:

LR的旋轉: LR失去平衡的情況下,需要進行兩次旋轉,步驟如下:

1、圍繞根節點的左孩子進行RR旋轉。

2、圍繞根節點進行LL旋轉。

如下圖所示,它轉了兩次,最後恢復成一棵AVL樹:

RL的旋轉: RL失去平衡的情況下也需要進行兩次旋轉,旋轉方法與LR旋轉相反,步驟如下:

1、圍繞根節點的右孩子進行LL旋轉。

2、圍繞根節點進行RR旋轉。

如下圖所示,它轉了兩次,最後恢復成一棵AVL樹:

平衡多路查找樹(B-Tree)

我們知道,磁碟這種存儲設備是以磁碟塊(block)為基本單位的,而B-樹也是基於這種存儲方式設計的平衡查找樹。

所以當我們從系統磁碟讀取數據時,以磁碟塊(block)為基本單位映射到內存中,位於同一個磁碟塊中的數據會被一次性讀取出來,而不是只取需要的數據。InnoDB存儲引擎中有頁(Page)的概念,頁是其磁碟管理的最小單位。InnoDB存儲引擎中默認每個頁的大小為16KB,可通過參數innodb_page_size將頁的大小設置為4K、8K、16K,我們可以在命令窗口輸入以下腳本查看:

1 mysql> show variables like 'innodb_page_size';2 ------------------ ------- 3 | Variable_name | Value |4 ------------------ ------- 5 | innodb_page_size | 16384 |6 ------------------ ------- 7 1 row in set

而系統一個磁碟塊的存儲空間往往沒有這麼大,因此InnoDB每次申請磁碟空間時都會是若干地址連續磁碟塊來達到頁的大小16KB。

InnoDB在把磁碟數據讀入到磁碟時會以頁為基本單位,在查詢數據時如果一個頁中的每條數據都能有助於定位數據記錄的位置,

這將會減少磁碟I/O次數,提高查詢效率。

B-Tree結構的數據可以讓系統高效地找到數據所在的磁碟塊。為了描述B-Tree,首先定義一條記錄為一個二元組[key, data] ,key為記錄的鍵值,對應表中的主鍵值,data為一行記錄中除主鍵外的數據。對於不同的記錄,key值互不相同。

一棵m階的B-Tree有如下特性:

1. 每個節點最多有m個孩子。

2. 除了根節點和葉子節點外,其它每個節點至少有Ceil(m/2)個孩子。

3. 若根節點不是葉子節點,則至少有2個孩子

4. 所有葉子節點都在同一層,且不包含其它關鍵字信息

5. 每個非終端節點包含n個關鍵字信息(P0,P1,…Pn, k1,…kn)

6. 關鍵字的個數n滿足:ceil(m/2)-1 <= n <= m-1

7. ki(i=1,…n)為關鍵字,且關鍵字升序排序。

8. Pi(i=1,…n)為指向子樹根節點的指針。P(i-1)指向的子樹的所有節點關鍵字均小於ki,但都大於k(i-1)

B-Tree中的每個節點根據實際情況可以包含大量的關鍵字信息和分支,如下圖所示為一個3階的B-Tree:

每個節點佔用一個盤塊的磁碟空間,一個節點上有兩個升序排序的關鍵字和三個指向子樹根節點的指針,指針存儲的是子節點所在磁碟塊的地址。兩個鍵值數據劃分成的三個範圍域對應三個指針指向的子樹的數據的範圍域。以根節點為例,兩個鍵值數據為33和66,P1指針指向的子樹的數據範圍為小於33,P2指針指向的子樹的數據範圍為33~66之間,P3指針指向的子樹的數據範圍為大於66。

模擬查找關鍵字55的過程:

1、根據根節點找到磁碟塊Disk1,讀入內存。第1次操作磁碟I/O。

2、比較鍵值55在區間(33,66),找到磁碟塊Disk1的指針P2。

3、根據P2指針找到磁碟塊Disk3,讀入內存。第2次操作磁碟I/O。

4、比較鍵值55在區間(39,62),找到磁碟塊Disk3的指針P2。

5、根據P2指針找到磁碟塊Disk8,讀入內存。第3次操作磁碟I/O。

6、在Disk8中的鍵值列表中找到關鍵字55。

通過上面的操作過程,發現需要3次磁碟I/O操作,和3次內存查找操作。由於內存中的關鍵字是一個有序表結構, 可以利用二分法查找提高效率。而3次磁碟I/O操作是影響整個B-Tree查找效率的決定因素。

B-Tree相對於AVLTree縮減了節點個數,使每次磁碟I/O取到內存的數據都發揮了作用,從而提高了查詢效率。

B Tree

B Tree是在B-Tree基礎上的一種優化,使其更適合實現外存儲索引結構,InnoDB存儲引擎就是用B Tree實現其索引結構。

從上面的B-Tree結構圖中可以看到每個節點中不僅包含數據的key值,還有data值。而每一個頁的存儲空間是有限的,如果data數據較大時將會導致每個節點(即一個頁)能存儲的key的數量很小,當存儲的數據量很大時同樣會導致B-Tree的深度較大,增大查詢時的磁碟I/O次數,進而影響查詢效率。在B Tree中,所有數據記錄節點都是按照鍵值大小順序存放在同一層的葉子節點上,而非葉子節點上只存儲key值信息,這樣可以大大加大每個節點存儲的key值數量,降低B Tree的高度,提高查找效率。

B Tree相比較於B-Tree的不同點:

1、非葉子節點只存儲鍵值信息。

2、所有葉子節點之間都有一個鏈指針。

3、數據記錄都存放在葉子節點中。

將上面的B-Tree優化,由於B Tree的非葉子節點只存儲鍵值信息,假設每個磁碟塊能存儲4個鍵值及指針信息,則變成B Tree後其結構如下圖所示:

通常在B Tree上有兩個頭指針,一個指向根節點,另一個指向關鍵字最小的葉子節點,而且所有葉子節點(即數據節點)之間是一種鏈式環結構。因此可以對B Tree進行兩種查找運算:一種是對於主鍵的範圍查找和分頁查找,另一種是從根節點開始,進行隨機查找。

可能上面例子中只有22條數據記錄,看不出B Tree的優點,下面做一個推算:

InnoDB存儲引擎中頁的大小為16KB,一般表的主鍵類型為INT(佔用4個字節)或BIGINT(佔用8個字節),指針類型也一般為4或8個字節,也就是說一個頁(B Tree中的一個節點)中大概存儲16KB/(8B 8B)=1K個鍵值(因為是估值,為方便計算,這裡的K取值為〖10〗^3)。也就是說一個深度為3的B Tree索引可以維護10^3 * 10^3 * 10^3 = 10億 條記錄。

實際情況中每個節點可能不能填充滿,因此在資料庫中,B Tree的高度一般都在2~4層。mysql的InnoDB存儲引擎在設計時是將根節點常駐內存的,也就是說查找某一鍵值的行記錄時最多只需要1~3次磁碟I/O操作。

資料庫中的B Tree索引可以分為聚集索引(clustered index)和輔助索引(secondary index)。上面的B Tree示例圖在資料庫中的實現即為聚集索引,聚集索引的B Tree中的葉子節點存放的是整張表的行記錄數據。輔助索引與聚集索引的區別在於輔助索引的葉子節點並不包含行記錄的全部數據,而是存儲相應行數據的聚集索引鍵,即主鍵。當通過輔助索引來查詢數據時,InnoDB存儲引擎會遍歷輔助索引找到主鍵,然後再通過主鍵在聚集索引中找到完整的行記錄數據。

總結

根據上面,二叉查找樹,紅黑樹等數據結構也可以用來實現索引,但是文件系統及資料庫系統普遍採用B Tree作為索引結構( 目前MySQL的MYISAM 和 INNODB 都是採用B Tree作為索引結構 ),這是因為B Tree索引的設計是以計算機磁碟存儲結構為理論基礎的。

索引以索引文件的形式存儲在磁碟上,當採用B Tree查找的時候,產生磁碟I/O消耗對性能的影響比其他方式小很多( 評價一個數據結構作為索引的優劣最重要的指標就是在查找過程中磁碟I/O操作次數的漸進複雜度 )。

換句話說,索引的結構組織要儘量減少查找過程中磁碟I/O的存取次數,而B Tree無疑是較優的算法。

原文連結: http://www.cnblogs.com/wzh2010/p/14411428.html

如果覺得本文對你有幫助,可以轉發關注支持一下

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了