千家信息网

如何解析Spark集群和任务执行过程

发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,本篇文章给大家分享的是有关如何解析Spark集群和任务执行过程,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Spark集群组件Spark
千家信息网最后更新 2025年12月01日如何解析Spark集群和任务执行过程

本篇文章给大家分享的是有关如何解析Spark集群和任务执行过程,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

Spark集群组件


Spark是典型的Master/Slave架构,集群主要包括以下4个组件:
Driver:Spark框架中的驱动器,运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster
Master:主节点,控制整个集群,监控worker。在Yarn模式中为全局资源管理器
Worker:从节点,负责控制计算节点,启动Executor。类比Yarn中的节点资源管理器
Executor:运算任务执行器,运行在worker节点上的一个进程。类似于MapReduce中的MapTask和ReduceTask

Spark基本执行流程

以StandAlone运行模式为例:


1.客户端启动应用程序及Driver相关工作,向Master提交任务申请资源
2.Master给Worker分配资源,通知worker启动executor

3.Worker启动Executor,Worker创建ExecutorRunner线程,ExecutorRunner会启动ExecutorBackend进程,Executor和Driver进行通信(任务分发监听等)

4.ExecutorBackend启动后向Driver的SchedulerBackend注册,SchedulerBackend将任务提交到Executor上运行
5.所有Stage都完成后作业结束

笔者强调:

  1. Driver端进行的操作

    1. SparkContext构建DAG图

    2. DAGScheduler将任务划分为stage、为需要处理的分区生成TaskSet

    3. TaskScheduler进行task下发

    4. SchedulerBackend将任务提交到Executor上运行
  2. 资源划分的一般规则

    1. 获取所有worker上的资源

    2. 按照资源大小进行排序

    3. 按照排序后的顺序拿取资源

      1. 轮询

      2. 优先拿资源多的
  3. Spark不同运行模式任务调度器是不同的,如Yarn模式:yarn-cluster模式为YarnClusterScheduler,yarn-client模式为YarnClientClusterScheduler

以上就是如何解析Spark集群和任务执行过程,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。

任务 资源 模式 运行 集群 节点 过程 不同 更多 知识 篇文章 组件 资源管理 进程 工作 排序 控制 管理 全局 典型 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 湖北网络安全存储服务器机箱采购 只替换部分单元格数据库 邮箱服务器真实ip 嵌入式软件开发时间评估一般原则 恐龙岛怎样选服务器 acs数据库的搜索字段 数据库设计id和编码的区别 软件开发的三级架构是什么 系统网络技术部职能 软件开发生产需要作那些认证 提升网络安全等级的措施 国内软件开发企业哪些条件 海珠专业网络数据库维护 服务器换完内存条系统起不来 绿园区网络技术服务质量保障 国基北盛服务器 锐捷云课堂服务器照片 数据库用户名密码在哪 海口市网络安全技术部 frp服务器搭建web脚本 翔安区宣传网络安全 广东万熹互联网科技有限公司 房山区数据库耐磨材料技术 db2数据库怎么配置 软件开发都要学习什么 随州专业的软件开发中心 网络安全文案图片 qq加群 服务器维护 同一网段打不开web服务器 一个系统多少张数据库表合理
0