MapReduce之Combiner合并
-
Combiner是MR程序中
Mapper和Reducer
之外的一种组件(本质是一个Reducer类) -
Combinr组件的父类就是
Reducer
-
Conbimer只有在驱动类里设置了之后,才会运行
-
Combiner和Reducer的区别在于运行的位置:
map—-sort—copy—sort(shuffle阶段)—reduce
- ==Combiner是在每一个MapTask所在的节点运行
- Reducer是接收全局所有Mapper的输出结果==
-
Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量(减少磁盘IO和网络IO)
-
Cormbiner能多应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。 Combiner用在加减操作的场景,不能用在乘除操作的场景
比如:
-
Combiner既有可能在MapTask端调用:
①每次溢写前会调用Combiner对溢写的数据进行局部合并
②在merge时,如果溢写的片段数>=3,如果设置了Combiner,Combiner会再次对
数据进行Combine! -
Combiner既有可能在ReduceTask端调用:
③shuffle线程拷贝多个MapTask同一分区的数据,拷贝后执行merge和sort,
如果数据量过大,需要将部分数据先合并排序后,溢写到磁盘!
如果设置了Combiner,Combiner会再次运行!