千家信息网

如何进行spark on yarn集群调优

发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,今天就跟大家聊聊有关如何进行spark on yarn集群调优,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。jar包管理:在spark-def
千家信息网最后更新 2025年12月02日如何进行spark on yarn集群调优

今天就跟大家聊聊有关如何进行spark on yarn集群调优,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

  • jar包管理:在spark-default.conf文件中指定Spark.YARN.jars在hdfs上的SPARK需要的jar包。否则每次提交application,spark会将driver端的SPARK_HOE下的jar.node, spark.locality.wait.pack包分发到各节点上。浪费磁盘资源和网络资源。

  • yarn队列资源不足导致的应用运行失败,这类问题主要针对提交作业的调优:

  • 1.在J2EE中间层,通过线程池技术提交作业,并设置线程池大小为1。

  • 2.若只有一个应用,可以将资源调整到最大

  • 3.若有些spark应用明显的耗时,可以spark拥有的资源进行分类(耗时任务和快速任务),此时可以使用两个线程池提交作业,每个线程池大小为1。

  • 数据本地化:分布式存储是大数据技术的核心,而为了提高大数据计算的效率,使计算靠近数据,减少移动大量数据而产生的网络io和磁盘io。

    • spark中的本地级别有:PROCESS_LOCAL(进程本地化,效率最高), NODE_LOCAL(节点本地化), PACK_LOCAL(机架本地化), ANY, NO_PREF。在实际运行中我们希望的是大多数计算是进程本地化或节点本地化。

    • 调优方式:1. 优化算法 2. 数据设置合理的副本数 3. 将常用的rdd设置缓存 4. 设置spark相关参数spark.locality.wait,spark.locality.wait.process, spark.locality.wait.node, spark.locality.wait.pack。 在client模式下运行,观察运行日志,使得大多数计算是PROCESS_LOCAL,同时application运行时间减少了,才是有效的优化。为了提升数据计算本地化级别而牺牲application运行时间,是不可取得,这样也会造成大量资源的闲置和较长的等待时间。

  • Executor经常被kill掉,出现Container killed by YARN for exceeding memory limits,内存被用完导致此类问题的发生:

    • 移除rdd缓存

    • spark.storage.memoryFraction:spark数据缓存的的内存占比,默认0.6,即可以使用executor的60%内存持久化数据。在缓存达到临界值,数据可能不能缓存或写入到磁盘。当executor经常被kill的时候,应该降低该值。

    • spark.yarn.Executor.memoryoverhead:该参数是在yarn模式下堆外内存的调节,默认情况下为是每一个executor的内存大小的10%

  • YARN-Cluster模式下JVM栈内存溢出:

    • JVM永久代PermGen设置 Spark.Driver.extraJavaOptions="-XX:PermSize=128M -XX:MaxPermSize=256M"(PermGen out of Memory error log)

    • 在spark-sql中将复杂的sql语句简化为多个简单的sql进行处理(JVM stack overflow)

看完上述内容,你们对如何进行spark on yarn集群调优有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

数据 内存 资源 运行 缓存 线程 内容 大小 时间 模式 磁盘 节点 作业 应用 集群 任务 参数 技术 效率 级别 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 南昌市app软件开发公司 java软件开发的大公司 海外服务器国内允许用吗 互联网科技技术咨询和支持 苹果服务器通道什么时候开 伟航互联网科技公司 包头市纪委监委信息网络技术中心 数据库索引几阶 自考计算机网络安全与管理 网络安全科技馆适合孩子吗 安徽gps卫星时钟服务器云主机 wow服务器经常断开 指南针软件开发流程 残联网络安全宣传周活动方案 阿里网盘映射到云服务器 怎么看数据库的关系 服务器中存储权限 2021年济南市网络安全大赛 数据库原理第五版课后答案解析 网络安全防范措施防火墙 软件开发可行研究 海外服务器国内允许用吗 服务器5位数的端口访问不到 委托软件开发需求表 信息技术教案数据库管理 河北网络技术咨询热线 安徽网络技术服务代理品牌 天沃科技与工业互联网 网络安全基础知识论文 查询数据库中所有男生的信息
0