MySQL 中区分度小的组合索引问题 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MySQL 5.5 Community Server
MySQL 5.6 Community Server
Percona Configuration Wizard
XtraBackup 搭建主从复制
Great Sites on MySQL
Percona
MySQL Performance Blog
Severalnines
推荐管理工具
Sequel Pro
phpMyAdmin
推荐书目
MySQL Cookbook
MySQL 相关项目
MariaDB
Drizzle
参考文档
http://mysql-python.sourceforge.net/MySQLdb.html
hzj629206
V2EX    MySQL

MySQL 中区分度小的组合索引问题

  •  
  •   hzj629206 2018-09-27 17:22:22 +08:00 4584 次点击
    这是一个创建于 2601 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有 idx_status (status, update_time)

    status 就是有限的状态值 update_time 是 unix timestamp 的整数值

    现在 3000 0000 表中,select * from tbl where status = xx and update_time between yy to zz.

    效率很低。

    status 区分度小这个都知道,如果只有 idx_status (status),这显然会很慢。 但不明白(status, update_time)为什么也慢?

    单独在 update_time 上建索引,则效率正常,很快。

    有人能解释这是什么原理吗?

    8 条回复    2018-09-28 14:56:31 +08:00
    yemoluo
        1
    yemoluo  
       2018-09-27 18:08:23 +08:00   1
    吐槽下 3000 0000,写法难道不是 30 000 000。

    between to 是哪个数据库的语法

    如果使用的是 MySQL,可以在前面添加 explain 就知道了。

    楼主,在 update_time 的情况下 status 就是一个废物。update_time 可以说是除了主键之外离散度最高的。

    因为没有其它信息,我猜,是因为引擎发现 status 的离散度不高,直接使用全表扫描了
    hzj629206
        2
    hzj629206  
    OP
       2018-09-27 18:41:15 +08:00
    @GTim
    between xx and yy. sorry 写错了。

    explain 结果是使用 idx_status,也使用 FORCE INDEX(idx_status)试过了,应该是使用了这个索引的。

    我的疑问是单独用 update_time 是可行的,但目前存在的(status, update_status)问题出在哪里?
    littlewing
        3
    littlewing  
       2018-09-27 19:35:37 +08:00
    因为优化器发现 status 值太少了,选择使用全表扫描。可以试一下 force index?
    建议单独为 update_time 建一个索引
    zjp
        4
    zjp  
       2018-09-27 19:52:36 +08:00
    换成 (update_time, status) 试试。不管怎样执行 EXPLAIN 再说,光猜没用
    Raymon111111
        5
    Raymon111111  
       2018-09-27 20:39:43 +08:00
    因为用啥索引是靠猜的

    因为建了太多无用的索引导致猜错了

    force index 一下吧
    sagaxu
        6
    sagaxu  
       2018-09-27 23:22:30 +08:00 via Android
    之前试过组合索引(a, b),a 是值域为 0-2 的 int 类型,b 是分布稀疏的 int 类型,单表 1 亿条数据,数据 20 多 g,索引 2g 多,使用 a=0 and b between 1000 and 2000 做条件,结果集条数几百,查询速度是豪秒级。

    所以这不是区分度的问题
    xidianlz
        7
    xidianlz  
       2018-09-28 10:44:51 +08:00
    额 感觉题主是不是什么地方设置错了,首先理论上不会这样,其次我自己造了一千万的数据,也没复现这种情况
    encro
        8
    encro  
       2018-09-28 14:56:31 +08:00
    status=xx,单 xx 的值接近一半时,自动使用全表扫描好像会。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     982 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 19:43 PVG 03:43 LAX 11:43 JFK 14:43
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86