转载

Spark 调优（二）：JVM 调优

Spark 由 Scala/Java 编写的，Spark 的 Driver 和 Executor 是运行在集群中的 JVM 进程，依赖 Java 内存管理和 GC。在生产环境中，通常使用几十上百甚至更大的内存，这在传统的 Java 应用中极为少见。

Spark 通过 spark.driver.extraJavaOptions 和 spark.executor.extraJavaOptions 可以为 Driver 和 Executor 添加额外的 JVM 选项。

GC 监控

开启 JMX：

-Dcom.sun.management.jmxremote.port=<端口号> -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false

即可以通过 JDK 自带的 GUI 工具 jconsole 或 jstat 实时监控程序。

以使用 jstat 查看 GC 为例：

jstat -gc <进程号>@<主机名>:<端口号>

关于 JMX 的更多信息，点击 Monitoring and Management Using JMX Technology 查看。

输出 GC 信息到 Worker 节点的 stdout 输出：

-verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps

使用 G1 垃圾收集器， -XX:+UseG1GC 。

如果任务从 HDFS 读取数据，任务使用的内存大小可以通过从 HDFS 数据块大小估计出来。注意，解压缩之后的数据块经常增长两到三倍。所以，如果有四个任务，HDFS 块大小为 128MB，估计 Eden 大小为 4*3*128MB 。

内存大于 4GB 小于 32GB， -XX:+UseCompressedOops 启动指针压缩。

Tuning Spark - Spark Document
Tuning Java Garbage Collection for Apache Spark Applications
Java Platform, Standard Edition HotSpot Virtual Machine Garbage Collection Tuning Guide

原文 http://dyingbleed.com/spark-tuning-2-2/

正文到此结束

所属分类：编程技术 Java

本文标签： ssl cat Document AOP apache 进程 App Collection java 管理 IO js IDE executor ip 数据 ORM remote UI scala 端口 HDFS http JVM authenticate 集群主机 id
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。