mapreduce join mysql
- 作者: 行走在冷夜中
- 来源: 51数据库
- 2020-09-29
rows代表这个步骤相对上一步结果的每一行需要扫描的行数,可以看到这个sql需要扫描的行数为35773*8134,非常大的一个数字。本来c和h表的记录条数分别为40000+和10000+,这几乎是两个表做笛卡尔积的开销了(select * from c,h)。
于是我上网查了下MySQL实现join的原理,原来MySQL内部采用了一种叫做 nested loop join的算法。Nested Loop Join 实际上就是通过驱动表的结果集作为循环基础数据,然后一条一条的通过该结果集中的数据作为过滤条件到下一个表中查询数据,然后合并结果。如果还有第三个参与 Join,则再通过前两个表的 Join 结果集作为循环基础数据,再一次通过循环查询条件到第三个表中查询数据,如此往复,基本上MySQL采用的是最容易理解的算法来实现join。所以驱动表的选择非常重要,驱动表的数据小可以显著降低扫描的行数。
首先join的列要有索引这是必须的。另外如果只是join,那是笛卡尔积,不要忘记加where的条件,因为你要考虑有一个1亿多条的大表在关联。应该根据实际情况,尽可能多的加上条件,尽可能的找出小表里你想要的,然后去关联大表。当然以常量关联大表是最好的了...
于是我上网查了下MySQL实现join的原理,原来MySQL内部采用了一种叫做 nested loop join的算法。Nested Loop Join 实际上就是通过驱动表的结果集作为循环基础数据,然后一条一条的通过该结果集中的数据作为过滤条件到下一个表中查询数据,然后合并结果。如果还有第三个参与 Join,则再通过前两个表的 Join 结果集作为循环基础数据,再一次通过循环查询条件到第三个表中查询数据,如此往复,基本上MySQL采用的是最容易理解的算法来实现join。所以驱动表的选择非常重要,驱动表的数据小可以显著降低扫描的行数。
首先join的列要有索引这是必须的。另外如果只是join,那是笛卡尔积,不要忘记加where的条件,因为你要考虑有一个1亿多条的大表在关联。应该根据实际情况,尽可能多的加上条件,尽可能的找出小表里你想要的,然后去关联大表。当然以常量关联大表是最好的了...
推荐阅读
