统计数据的需求在我们日常开发中是非常容易遇到了,MySQL也支持多种的计算的函数,
接下来我们来看一看他们之间有什么区别,以及他们是否存在一些坑。
count(*)、count(1)、count(id)的区别
count的含义:count() 是一个聚合函数,对于返回的结果集,一行行地判断,如果 count 函数的参数不是 NULL,累计值就加 1,否则不加。最后返回累计值。
count(字段)比较特殊,则表示返回满足条件的数据行里面,参数“字段”不为 NULL 的总个数
分析性能差别原则
- server 层要什么就给什么;
- InnoDB 只给必要的值;
- 现在的优化器只优化了 count(*) 的语义为“取行数”,其他“显而易见”的优化并没有做
例子:
count(主键 id) 来说,InnoDB 引擎会遍历整张表,把每一行的 id 值都取出来,返回给 server 层。server 层拿到 id 后,判断是不可能为空的,就按行累加。
count(1) 来说,InnoDB 引擎遍历整张表,但不取值。server 层对于返回的每一行,放一个数字“1”进去,判断是不可能为空的,按行累加。
count(字段),server要字段,就返回字段,如果字段为空,就不做统计,字段的值过大,都会造成效率低下。
效率排序
count(字段)<count(主键 id)<count(1)≈count(*)
为什么count(*)最快?
优化器做了工作,找到最小的数来遍历。
InnoDB 是索引组织表,主键索引树的叶子节点是数据,而普通索引树的叶子节点是主键值。所以,普通索引树比主键索引树小很多。对于 count(*) 这样的操作,遍历哪个索引树得到的结果逻辑上都是一样的。因此,MySQL 优化器会找到最小的那棵树来遍历。在保证逻辑正确的前提下,尽量减少扫描的数据量,是数据库系统设计的通用法则之一。
关于NULL的几个坑
// 数据中存在null值数据 select count(*) from audit_log a; 结果:1
select count(id) from audit_log a; 结果:0
我们看到count的结果不一致,记录数应该是1,count(id)却等于0
这是因为count(字段)是不统计,字段值为null的值
所以在字段为非空字段的情况下,需要使用count(*)来解决这个问题。