【Dr.Elephant中文文档-8】调优建议
- 2019 年 12 月 26 日
- 筆記
你可以使用Dr. Elephant
来分析你的作业(只需在搜索页贴入你的作业ID),就可以知道你的作业有哪些地方需要优化。
1.加速你的作业流
一般对于特定的作业,最好有自己的配置。大多数情况下,作业的默认配置无法提供最佳性能。尽管作业调优比较费劲,但一些简单的调整往往也能带来不错的效果。
需要特别注意的是mapper
和reducer
的数量,io
和内存使用的配置,以及生成的文件数量。对这几个参数进行调整,让参数更适合当前的任务,可以极大的提升任务的执行性能。
Apache的官网中Hadoop Map/Reduce Tutorial
(http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html#Task_Execution__Environment)这篇文章提供很多详细且有用的调试建议,有兴趣的可以仔细看看。
2.常规建议
2.1.逐步调优很重要
对于Pig
作业来说,如果使用默认参数来设置reducer
的数量,这对作业的性能可能是致命的。一般来说,对每个Pig
作业,都花一些时间来调优参数PARALLEL
是非常值得做的。例如:
memberFeaturesGrouped = GROUP memberFeatures BY memberId PARALLEL 90;
2.2.文件数vs块数量
为了防止NameNode
崩溃,存大文件比小文件更合理。NameNode
每存储一个文件大概消耗70 bytes
,每存储一个块大概消耗60 byte
。一般情况下,对于任务来说,使用一个较大的文件要比使用十个小文件的效率高一些。在大规模集群下,这10 byte
的差距会越来越大。此外在许多情况下,1个大文件比10个小文件操作起来更高效。
2.3.Java任务内存管理
默认情况下,每个map/reduce
作业可以分配最大2G的内存。对于java任务,这2G的空间既包括1G的堆内存,又包括0.5-1G的非堆内存。对于有些任务来说,默认的空间分配可能是不够用的。下面列举了一些能够减少内存使用的技巧:
2.3.1.UseCompressedOops
32位JVM
使用32bit无符号整型来定位内存区域,最大可定义的堆内存为(2^32 -1) = 4GB
。64位的JVM
虚拟机使用64bit的无符号Long整型来定位内存区域,最大可定义的堆内存大小为(2^64 - 1) = 16
艾字节。虽然定义的堆内存增加了,但是用Long
代替int
型,所需内存空间也增加了。大约为原来的1.5倍。这使得你可以突破1G堆空间的限制,对此你可以做些什么呢?现在所有的JVM
都支持UseCompressedOops
选型,在某些情况下,他使用32bit的空间代替64bit空间来保存内存定位信息。这将可以减少内存的占用而不用回到32bit的情况。你可以在azkaban
的作业文件中增加以下选项来实现:
hadoop-inject.mapreduce.(map|reduce).java.opts=-Xmx1G -XX:+UseCompressedOops
注意azkaban
默认会使用自定义的属性覆盖掉默认配置属性,而不是将自定义的部分添加到mapred-site.xml
默认文件中。你需要确认CompressedOops
选项和其他默认的配置都是有效的。需要确认的是:"-Xmx1G"是配置文件mapred-site.xml
中的,而其他的配置文件是我们自定义的。
2.3.2.UseCompressedStrings
这个选项会将String
类型的变量转化为byte[]
类型来保存。如果一个任务中使用了大量的String
类型变量,那么这个选项将会极大的节约内存使用。在参数mapreduce.(map|reduce).java.opts
配置中添加-XX:+UseCompressedString
就会激活这个选项。每个作业分配的虚拟内存空间是需要的物理内存空间的2.1倍。如果我们程序抛出以下错误:
Container [pid=PID,containerID=container_ID] is running beyond virtual memory limits. Current usage: 365.1 MB of 1 GB physical memory used; 3.2 GB of 2.1 GB virtual memory used. Killing container
你就可以尝试使用这个选项来对程序进行优化。
2.4.关键调优参数
2.4.1.Mappers
mapreduce.input.fileinputformat.split.minsize
这个参数表示输入到map
中的每个文件块切分的大小的最小值。通过增加dfs.blocksize
的块大小,可以增加每个map
中输入文件块的大小,从而减少map
的数量。这是因为如果说你设置mapreduce.input.fileinputformat.split.minsize
的大小为HDFS块大小(dfs.blocksize)的4倍时,那么输入到每个map
的数量就是4倍的dfs.blocksize
,这样就减少了map
的数量。如果把这个值设置为256
MB,那么输入的文件大小就是268435456
bit。
mapreduce.input.fileinputformat.split.maxsize
这个参数表示当使用CombineFileInputFormat
和MultiFileInputFormat
时,输入到map
的每个文件的最大值。当这个值小于dfs.blocksize
时,会增加作业的mapper
的数量。这是因为如果说你设置mapreduce.input.fileinputformat.split.minsize
的大小为HDFS块大小(dfs.blocksize)的1/4时,这样就将输入到每个map
的文件大小限制为dfs.blocksize
的1/4,就增加了map
的数量。这个值是输入文件切分的值。因此要设置为256MB,你将指定值为268435456。需要注意的是,如果在使用CombineFileInputFormat
时未设置最大分割大小,则作业将仅使用1个mapper
来处理作业。(这可能是你不希望看到的)
2.4.2.Reducers
mapreduce.job.reduces
影响作业流性能的最大杀手之一是reducers
的数量。reducers
数量过少,可能会使任务时间超过15分钟,而数量过多也同样会有问题。针对每个特定的任务因地制宜的调整reducer
数量是一项艺术。下面列了一些方法来帮助我们来设置合适的reducer
数量:
reducers
越多意味着Namenode
上文件越多,过多的小文件可能会导致Namenode
宕机。因此如果reduce
输出不大(小于512M),可以减少reducers
的数量reducers
越多意味着每个reducer
处理数据的时间越短,如果reducers
数量过少。那么每个reducer
的消耗时间就会增加,reducer
运行越快,就能处理更多的作业。
在大型任务中,清洗(Shuffling)操作的代价是比较高的。我们通过HDFS
文件系统的各个计数器可以看到有大量的数据需要在不同的节点间进行交换。我们用20个reducers
的作业来做个试验,文件系统的计数器如下:FileSystemCounter:
- FILE_BYTES_READ | 2950482442768
- HDFS_BYTES_READ | 1223524334581
- FILE_BYTES_WRITTEN | 5967256875163
我们可以看到有超过1K个map
产生了约5TB的中间数据。再看下清洗时间:Shuffle Finished:17-Aug-2010 | 13:32:05 | ( 1hrs, 29mins, 56 sec)
Sort Finished:17-Aug-2010 | 14:18:35 | (46mins, 29sec)
可以看出,大约有5TB的数据花费了1个半小时来清洗,然后有花了46分钟来进行排序。这个时间成本是巨大的。我们希望任务可以在5-15分钟内完成。我们现在已经解决了这个问题。让我们来算一下:使用20个reducers
需要消耗360分钟,200个reducers
则需要36分钟,400个reducers
则需要18分钟。因此围绕这个逻辑来进行改进,将reducers
控制在500个以下则出现以下结果:Shuffle Finished:17-Aug-2010 | 16:32:32 | ( 12 mins, 46 sec)
Sort Finished:17-Aug-2010 | 16:32:37 | (4sec) 效果看着还不错,通过一些调优,我们可以缩短一些任务时间。正如你猜的那样,反过来也一样。如果清洗时间很短,CPU使用也很少,那么说明reducer
数量过少,合适的配置需要通过不断的试验来确定。
mapreduce.job.reduce.slowstart.completedmaps
这个参数决定了在reducer
开始执行之前,至少有多少比例的mapper
必须执行结束。默认值是80%。对于大多数任务,调整这个数字的大小可能会带来性能提升。决定这个数字的因素是:
- 每个
reducer
接收到多少数据 - 剩下的
map
每一个map
作业需要花费的时间 如果map
的输出数据量比较大,一般会建议让reducer
提前开始执行去处理这些数据。如果map
任务产生的数量不是很大,一般建议让reducer
的执行时间开始的晚一些。对于清洗过程的一个粗略的时间估计是:当所有的mapper
结束后开始,到第一个reducer
开始执行的时间为止。这是reducer
获得所有的输入所需要的时间。一般认为,reducers
开始执行时间是:最后一个map
结束时间+清洗时间。
2.4.3.压缩
mapreduce.map.output.compress
将这个参数设置为True
可以将map
输出的数据进行压缩。这可以减少节点间的数据交互,但我们必须确保解压缩的时间要比传输时间短,否则会起反作用。对于大型或可以高度压缩的map
输出数据,这个参数选型非常有必要,将大量减少清洗时间。对于小型map
输出数据集,关闭这个参数,将降低解压缩带来的CPU消耗时间。注意与mapreduce.output.fileoutputformat.compress
选项不同,那个参数决定了任务的输出回写到HDFS
时是否需要压缩。
2.4.4.内存
mapreduce.(map|reduce).memory.mb
新版Hadoop
中增加了堆内存的限制特性。这使得系统在繁忙情况下更好的管理资源分配。默认情况下,系统会分配给Java
任务1GB的堆内存,以及0.5-1GB的非堆内存空间。因此,mapreduce.(map|reduce).memory.mb
的默认值为2GB。在某些情况下,这个内存值是不够用的。如果只是设置Java
的参数-Xmx
,任务会被杀死,需要同时设置参数mapreduce.(map|reduce).momory.mb
才能有效的提升或者限制内存使用。
2.4.5.进阶
控制io.sort.record.percent
的值
参数io.sort.record.percent
决定使用多少的间接缓存空间来保存每条和每条记录的元信息。一般来说,这个参数的设置是不合理的。
假设在map
作业中使用日志的xml
的配置文件:
property |
value |
---|---|
bufstart |
45633950 |
bufend |
68450908 |
kvstart |
503315 |
kvend |
838860 |
length |
838860 |
io.sort.mb |
256 |
io.sort.record.percent |
0.05 |
使用上面的值:
property |
value |
---|---|
io.sort.spill.percent (length-kvstart+kvend) / length) |
0.8 |
Size of meta data is (bufend-bufstat) |
22816958 (MB) |
Records in memory (length-(kvstart+kvend)) |
671087 |
Average record size (size/records) |
34 Bytes |
Record+Metadata |
50 Bytes |
Records per io.sort.mb (io.sort.mb/(record+metadata)) |
5.12 million |
Metadata % in io.sort.mb ((records per io.sort.mb)*metadata/io.sort.mb) |
0.32 |
我们可以在256MB的缓存中保存很多数据。但是io.sort.record.percent
应该设置为0.32,而不是0.5。当设置为0.5时,记录的元信息的缓存会比记录的缓存更大。
调整这个参数会使map
运行的更快,磁盘溢出问题更少,因为io.sort.mb
的效率更高了;不会再很快就使用完元数据缓冲区的80%空间。
调整io.sort.record.percent
后会使得许多map
数据不再溢出到磁盘,减少了55%的磁盘溢。最终,系统节省了30%的CPU资源消耗,和30分钟运行时间。
mapreduce.(map|reduce).speculative
这个参数决定了是否允许相同的map/reduce
并行执行。你大概知道当发生数据倾斜时,有些mapper
或reducer
会运行很长时间。在这种情况下,你可能希望通过一些预判来防止数据倾斜。
2.4.6.Pig
在Pig
中你可以通过增加以下命令来设置Hadoop
和Pig
SET <property_name> <property_value>;
例如,如果你的map
内存不足,可以通过以下命令增加内存
SET mapreduce.map.memory.mb 4096;
在Azkaban
中,可以通过以下命令实现
jvm.args=-Dmapreduce.map.memory.mb=4096 to your job properties.
pig.maxCombinedSplitSize / 增加或减少mapper
数量
默认情况下,Pig
合并了小文件(pig.splitCombination
默认为true
),直到需要切分的HDFS
块大小超过512MB。要进一步增加这个值,需要调高pig.maxCombinedSplitSize
。相关详情可以看这里
(https://pig.apache.org/docs/r0.11.1/perf.html#combine-files)。你可以在你的Pig
脚本中添加以下命令
set pig.maxCombinedSplitSize <size-in-bytes>;
在你的Pig
脚本的开头。如果您通过Azkaban
执行此Pig
脚本,您也可以通过添加以下命令来设置他
jvm.args=-Dpig.maxCombinedSplitSize=<size-in-bytes>
在你的作业属性中。如果你的mapper
耗时太长,想增加mapper
数量,你必须同时设置
set pig.maxCombinedSplitSize <size-in-bytes>; set mapreduce.input.fileinputformat.split.maxsize <size-in-bytes>;
如果值小于512MB。是因为Pig
拆分块的值超过了pig.maxCombinedSplitSize
,拆分大小由以下配置决定
max(mapreduce.input.fileinputformat.split.minsize, min(mapreduce.input.fileinputformat.split.maxsize, dfs.blocksize))
提供一些集群设置:
mapreduce.input.fileinputformat.split.minsize=0 mapreduce.input.fileinputformat.split.maxsize is unset dfs.blocksize=536870912 // 512 MB will evaluate to 512 MB.
Reducers数量
在Pig
中,你可以基于每个作业控制Reducer
的数量,还可以选择为整个脚本设置默认的reducers
数量。浏览此处获取更多信息。
2.4.7.Hive
- mapreduce.input.fileinputformat.split.minsize
- mapreduce.input.fileinputformat.split.maxsize
- mapreduce.input.fileinputformat.split.minsize.per.node
- mapreduce.input.fileinputforomat.split.minsize.per.rack
对应Hive
来说,你可能需要设置以上4个参数来调整切分大小。例如:
-- The following are the default configurations on our Hadoop clusters. set mapreduce.input.fileinputformat.split.maxsize = 2147483648; set mapreduce.input.fileinputformat.split.minsize = 1073741824; set mapreduce.input.fileinputformat.split.minsize.per.node = 1073741824; set mapreduce.input.fileinputformat.split.minsize.per.rack = 1073741824;
如果你想增加mapper
的数量,就减少这些配置的值;反之,则增加这些配置的值。
dr.elephant
系列基础文章到此就完结了,后续会整理成合集,并推出实战问题解决方案。