Spark性能相关参数配置
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configuration.html 中提供了这些可配置参数中相当大一部分的说明.
但是文档的更新总是落后于代码的开发的, 还有一些配置参数没有来得及被添加到这个文档中, 最重要的是在这个文档中,对于许多的参数也只能简单的介绍它所代表的内容的字面含义, 如果没有一定的实践基础或者对其背后原理的理解, 往往无法真正理解该如何针对具体应用场合进行合理配置。
本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。需要注意的是,理论上,没有绝对正确的配置(否则也就不需要对应的配置参数了,Spark框架内部直接写死就好了),所以请结合自己的实际情况,辩证的看下面的内容。
由于本文主要针对和性能相关的一些配置参数进行阐述,所以基本不会覆盖其它和性能没有太多关系的配置参数。
Shuffle 相关Storage相关配置参数压缩和序列化相关schedule调度相关
章节
Shuffle 相关
spark.shuffle.managerspark.shuffle.sort.bypassMergeThresholdspark.shuffle.consolidateFilesspark.shuffle.spillspark.shuffle.memoryFraction / spark.shuffle.safetyFractionspark.shuffle.spill.compress / spark.shuffle.compress Storage相关配置参数
spark.local.dirspark.executor.memoryspark.storage.memoryFractionspark.streaming.blockInterval 压缩和序列化相关
spark.serializerspark.rdd.compressspark.broadcast.compressspark.io.compression.codec schedule调度相关
spark.cores.maxspark.task.cpusspark.scheduler.modespark.locality.waitspark.speculation
Shuffle 相关
spark.shuffle.managerspark.shuffle.sort.bypassMergeThresholdspark.shuffle.consolidateFilesspark.shuffle.spillspark.shuffle.memoryFraction / spark.shuffle.safetyFractionspark.shuffle.spill.compress / spark.shuffle.compress Storage相关配置参数
spark.local.dirspark.executor.memoryspark.storage.memoryFractionspark.streaming.blockInterval 压缩和序列化相关
spark.serializerspark.rdd.compressspark.broadcast.compressspark.io.compression.codec schedule调度相关
spark.cores.maxspark.task.cpusspark.scheduler.modespark.locality.waitspark.speculation
转载请注明原文地址: https://ju.6miu.com/read-962266.html