加入收藏 | 设为首页 | 会员中心 | 我要投稿 云计算网_梅州站长网 (https://www.0753zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > MySql教程 > 正文

MySQL 覆盖索引

发布时间:2022-09-12 16:44:02 所属栏目:MySql教程 来源:
导读:  本文主要概述mysql的覆盖索引,以及几种常见的优化场景

  内容概要

  聚集索引和辅助索引

  —innodb存储引擎是索引组织表,即表中的数据按照主键顺序存放。而聚集索引就是按照每张表的主
  本文主要概述mysql的覆盖索引,以及几种常见的优化场景
 
  内容概要
 
  聚集索引和辅助索引
 
  —innodb存储引擎是索引组织表,即表中的数据按照主键顺序存放。而聚集索引就是按照每张表的主键构造一颗B+树,同时叶子节点中存放的即为整张表的记录数据
 
  —聚集索引的叶子节点称为数据页,数据页,数据页!重要的事说三遍。聚集索引的这个特性决定了索引组织表中的数据也是索引的一部分。
 
  —非主键索引
 
  —叶子节点=键值+书签。Innodb存储引擎的书签就是相应行数据的主键索引值
 
  辅助索引检索数据图示如下
 
  02e814446da64610faadb2047447dac00bf1241e
 
  由于检索数据时,总是先获取到书签值(主键值),再返回查询,因此辅助索引也被称之为二级索引
 
  什么是覆盖索引
 
  覆盖索引(covering index)指一个查询语句的执行只需要从辅助索引中就可以得到查询记录,而不需要查询聚集索引中的记录。也可以称之为实现了 索引覆盖。
 
  那么,优点显而易见。辅助索引不包含一整行的记录,因此可以大大减少IO操作。覆盖索引是mysql dba常用的一种SQL优化手段
 
  先看一个简单示例
 
  f9f63889fcd0c60d5f837b1e0a633e8ad4b903a5
 
  从执行计划看到,这个SQL语句只通过索引,就取到了所需要的数据,这个过程,就称为索引覆盖
 
  几种优化场景
 
  1、无where条件的查询优化
 
  如下这个查询
 
  5c0aee6dcacf2845c0b2824b5d2b808fe65daa95
 
  执行计划中,type为ALL,代表进行了全表扫描,扫描的行数也与表的行数一致
 
  如何改进?优化措施很简单,就是对这个查询列建立索引。如下,
 
  mysql> alter table t1 add key(staff_id);
  我们再看一下优化之后的效果
 
  mysql> explain select sql_no_cache count(staff_id) from t1\G
  *************************** 1. row ***************************
             id: 1
    select_type: SIMPLE
          table: t1
           type: index
  possible_keys: NULL
            key: staff_id
        key_len: 1
            ref: NULL
           rows: 1023849
  1 row in set (0.00 sec)
  Using index表示使用到了索引
 
  80af484e7e92311c289f0a473c6f684fb244effc
 
  从时间消耗上来看,才100W的数据,已经有了比较明显的差别了
 
  执行计划解读如下:
 
  Possible_keys为null,说明没有where条件时优化器无法通过索引检索数据;
 
  但是这里使用了索引的另外一个优点,即从索引中获取数据,减少了读取的数据块的数量
 
  无where条件的查询,可以通过索引来实现索引覆盖查询,但前提条件是,查询返回的字段数足够少,更不用说select *之类的了。毕竟,建立key length过长的索引,始终不是一件好事情。
 
  2、二次检索优化
 
  如下这个查询,
 
   mysql> select sql_no_cache rental_date from t1 where inventory_id<80000;
  …
  …
  | 2005-08-23 15:08:00 |
  | 2005-08-23 15:09:17 |
  | 2005-08-23 15:10:42 |
  | 2005-08-23 15:15:02 |
  | 2005-08-23 15:15:19 |
  | 2005-08-23 15:16:32 |
  +---------------------+
  79999 rows in set (0.13 sec)
  执行计划:
 
  mysql> explain select sql_no_cache rental_date from t1 where inventory_id<80000\G
  *************************** 1. row ***************************
             id: 1
    select_type: SIMPLE
          table: t1
           type: range
  possible_keys: inventory_id
            key: inventory_id
        key_len: 3
            ref: NULL
           rows: 153734
          Extra: Using index condition
  1 row in set (0.00 sec)
  从执行计划,我们看到,这个SQL其实是使用到了索引的,虽然查询的数据量很大,但是相对比全表扫描的性能消耗,优化器还是选择了索引。
 
  更优的改进措施?
 
  从上面执行计划中,我们发现Extra信息为Using index condition而不是Using index,这说明,使用的检索方式为二级检索,即79999个书签值被用来进行回表查询。可想而知,还是会有一定的性能消耗的
 
  尝试针对这个SQL建立联合索引,如下
 
  mysql> alter table t1 add key(inventory_id,rental_date);
  这个联合索引前置列为where子句的检索字段,第二个字段为查询返回的字段。下面来看下效果如何。
 
  为避免优化器对索引的选择出现偏差,我们首先收集一下统计信息
 
  mysql> analyze table t1\G
  *************************** 1. row ***************************
     Table: sakila.t1
        Op: analyze
  Msg_type: status
  Msg_text: OK
  1 row in set (0.03 sec)
  执行计划
 
  mysql> explain select sql_no_cache rental_date from t1 where inventory_id<80000\G
  *************************** 1. row ***************************
             id: 1
    select_type: SIMPLE
          table: t1
           type: range
  possible_keys: inventory_id,inventory_id_2
            key: inventory_id_2
        key_len: 3
            ref: NULL
           rows: 162884
          
  1 row in set (0.00 sec)
  同样是使用索引,但这里的提示信息为Using index而不是Using index condition。这代表没有了回表查询的过程,也就是实现了索引覆盖
 
  查询消耗
 
  mysql> select sql_no_cache rental_date from t1 where inventory_id<80000;
  …
  …
  | 2005-08-23 15:08:00 |
  | 2005-08-23 15:09:17 |
  | 2005-08-23 15:10:42 |
  | 2005-08-23 15:15:02 |
  | 2005-08-23 15:15:19 |
  | 2005-08-23 15:16:32 |
  +---------------------+
  79999 rows in set (0.09 sec)
  从执行时间上来看,快了大约40ms,虽然只有40ms,但在实际的生产环境下,却可能会因系统的总体负载被无限放大。
 
  和前面场景限制类似,当where条件与查询字段总数较少的情况下,使用这种优化建议,是个不错的选择。
 
  3、分页查询优化
 
  分页查询的优化,相信大部分的DBA同学都碰到过,通常比较常规的优化手段就是查询改写,这里主要介绍一下新的思路,就是通过索引覆盖来优化
 
  如下这个查询场景
 
  mysql> select tid,return_date from t1 order by inventory_id limit 50000,10;
  +-------+---------------------+
  | tid   | return_date         |
  +-------+---------------------+
  | 50001 | 2005-06-17 23:04:36 |
  | 50002 | 2005-06-23 03:16:12 |
  | 50003 | 2005-06-20 22:41:03 |
  | 50004 | 2005-06-23 04:39:28 |
  | 50005 | 2005-06-24 04:41:20 |
  | 50006 | 2005-06-22 22:54:10 |
  | 50007 | 2005-06-18 07:21:51 |
  | 50008 | 2005-06-25 21:51:16 |
  | 50009 | 2005-06-21 03:44:32 |
  | 50010 | 2005-06-19 00:00:34 |
  +-------+---------------------+
  10 rows in set (0.75 sec)
  在未优化之前,我们看到它的执行计划是如此的糟糕
 
  mysql> explain select tid,return_date from t1 order by inventory_id limit 50000,10\G
  *************************** 1. row ***************************
             id: 1
    select_type: SIMPLE
          table: t1
           type: ALL
  possible_keys: NULL
            key: NULL
        key_len: NULL
            ref: NULL
           rows: 1023675
          
  1 row in set (0.00 sec)
  全表扫描,加上额外的排序,相信产生的性能消耗是不低的
 
  如何通过覆盖索引优化呢?
 
  我们创建一个索引,包含排序列以及返回列,由于tid是主键字段,因此,下面的复合索引就包含了tid的字段值
 
  mysql> alter table t1 add index liu(inventory_id,return_date);
  Query OK, 0 rows affected (3.11 sec)
  Records: 0  Duplicates: 0  Warnings: 0
  mysql> analyze table t1\G
  *************************** 1. row ***************************
     Table: sakila.t1
        Op: analyze
  Msg_type: status
  Msg_text: OK
  1 row in set (0.04 sec)
  那么,效果如何呢?
 
  mysql> select tid,return_date from t1 order by inventory_id limit 50000,10;
  +-------+---------------------+
  | tid   | return_date         |
  +-------+---------------------+
  | 50001 | 2005-06-17 23:04:36 |
  | 50002 | 2005-06-23 03:16:12 |
  | 50003 | 2005-06-20 22:41:03 |
  | 50004 | 2005-06-23 04:39:28 |
  | 50005 | 2005-06-24 04:41:20 |
  | 50006 | 2005-06-22 22:54:10 |
  | 50007 | 2005-06-18 07:21:51 |
  | 50008 | 2005-06-25 21:51:16 |
  | 50009 | 2005-06-21 03:44:32 |
  | 50010 | 2005-06-19 00:00:34 |
  +-------+---------------------+
  10 rows in set (0.03 sec)
  可以发现,添加复合索引后,速度提升0.7s!
 
  我们看一下改进后的执行计划
 
  mysql> explain select tid,return_date from t1 order by inventory_id limit 50000,10\G
  *************************** 1. row ***************************
             id: 1
    select_type: SIMPLE
          table: t1
           type: index
  possible_keys: NULL
            key: liu
        key_len: 9
            ref: NULL
           rows: 50010
          
  1 row in set (0.00 sec)
  执行计划也可以看到,使用到了复合索引,并且不需要回表
 
  接下来,我们对比一下,索引覆盖与常规优化手段的效果差异
 
  为了让结果更明显,我将查询修改为 limit 800000,10
 
  现在看一下,通过覆盖索引查询的性能消耗
 
  mysql> select tid,return_date from t1 order by inventory_id limit 800000,10;
  +--------+---------------------+
  | tid    | return_date         |
  +--------+---------------------+
  | 800001 | 2005-08-24 13:09:34 |
  | 800002 | 2005-08-27 11:41:03 |
  | 800003 | 2005-08-22 18:10:22 |
  | 800004 | 2005-08-22 16:47:23 |
  | 800005 | 2005-08-26 20:32:02 |
  | 800006 | 2005-08-21 14:55:42 |
  | 800007 | 2005-08-28 14:45:55 |
  | 800008 | 2005-08-29 12:37:32 |
  | 800009 | 2005-08-24 10:38:06 |
  | 800010 | 2005-08-23 12:10:57 |
  +--------+---------------------+
  与之对比的是如下改写SQL方式
 
  改写后的sql如下,思想是通过索引消除排序
 
  select a.tid,a.return_date from  t1 a
  inner join
  (select tid from t1 order by  inventory_id limit 800000,10) b on a.tid=b.tid;
  并在此基础上,我们为inventory_id列创建索引,并删除之前的覆盖索引
 
  mysql> alter table t1 add index idx_inid(inventory_id),drop index liu;
  然后收集统计信息。
 
  查询消耗如下
 
  mysql> select a.tid,a.return_date from  t1 a inner join  (select tid from t1 order by  inventory_id limit 800000,10) b on a.tid=b.tid;
  +--------+---------------------+
  | tid    | return_date         |
  +--------+---------------------+
  | 800001 | 2005-08-24 13:09:34 |
  | 800002 | 2005-08-27 11:41:03 |
  | 800003 | 2005-08-22 18:10:22 |
  | 800004 | 2005-08-22 16:47:23 |
  | 800005 | 2005-08-26 20:32:02 |
  | 800006 | 2005-08-21 14:55:42 |
  | 800007 | 2005-08-28 14:45:55 |
  | 800008 | 2005-08-29 12:37:32 |
  | 800009 | 2005-08-24 10:38:06 |
  | 800010 | 2005-08-23 12:10:57 |
  +--------+---------------------+
  可以看到,这种优化手段较前者时间消耗多了大约140ms。
 
  这种优化手段虽然使用索引消除了排序mysql表索引,但是还是要通过主键值回表查询。因此,在select返回列较少或列宽较小的时候,我们可以通过建立复合索引的方式优化分页查询,效果更佳,因为它不需要回表!
 
  总体建议
 
  索引具有以下两大用处:
 
  1、通过索引检索仅需要数据
 
  2、从索引中直接获取查询结果
 
  覆盖索引的优势,就是利用到索引的第二大用处,在某些场景下,具有意想不到的优化效果。个
 

(编辑:云计算网_梅州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!