千家信息网

Kubernetes中如何部署Spark

发表于:2025-11-09 作者:千家信息网编辑
千家信息网最后更新 2025年11月09日,小编给大家分享一下Kubernetes中如何部署Spark,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Spark是新一代
千家信息网最后更新 2025年11月09日Kubernetes中如何部署Spark

小编给大家分享一下Kubernetes中如何部署Spark,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

Spark是新一代分布式内存计算框架,Apache开源的顶级项目。相比于Hadoop Map-Reduce计算框架,Spark将中间计算结果保留在内存中,速度提升10~100倍;同时它还提供更丰富的算子,采用弹性分布式数据集(RDD)实现迭代计算,更好地适用于数据挖掘、机器学习算法,极大提升开发效率。

构建Spark容器

在Kubernetes上部署应用的第一步,是创建容器。虽然有些项目会提供官方的容器镜像,但截止到写此文时,Apache Spark并没有提供官方镜像。因此我们将自己创建Spark容器,让我们从Dockerfile开始。

FROM java:openjdk-8-jdkENV hadoop_ver 2.8.2ENV spark_ver 2.4.4RUN mkdir -p /opt && \cd /opt && \curl http://archive.apache.org/dist/hadoop/common/hadoop-${hadoop_ver}/hadoop-${hadoop_ver}.tar.gz | \   tar -zx && \ln -s hadoop-${hadoop_ver} hadoop && \echo Hadoop ${hadoop_ver} installed in /optRUN mkdir -p /opt && \cd /opt && \curl http://archive.apache.org/dist/spark/spark-${spark_ver}/spark-${spark_ver}-bin-without-hadoop.tgz | \   tar -zx && \ln -s spark-${spark_ver}-bin-without-hadoop spark && \echo Spark ${spark_ver} installed in /optENV SPARK_HOME=/opt/sparkENV PATH=$PATH:$SPARK_HOME/binENV HADOOP_HOME=/opt/hadoopENV PATH=$PATH:$HADOOP_HOME/binENV LD_LIBRARY_PATH=$HADOOP_HOME/lib/nativeRUN curl http://central.maven.org/maven2/org/apache/hadoop/hadoop-aws/2.8.2/hadoop-aws-2.8.2.jar -o /opt/spark/jars/hadoop-aws-2.8.2.jarRUN curl http://central.maven.org/maven2/org/apache/httpcomponents/httpclient/4.5.3/httpclient-4.5.3.jar -o /opt/spark/jars/httpclient-4.5.3.jarRUN curl http://central.maven.org/maven2/joda-time/joda-time/2.9.9/joda-time-2.9.9.jar -o /opt/spark/jars/joda-time-2.9.9.jarRUN curl http://central.maven.org/maven2/com/amazonaws/aws-java-sdk-core/1.11.712/aws-java-sdk-core-1.11.712.jar -o /opt/spark/jars/aws-java-sdk-core-1.11.712.jarRUN curl http://central.maven.org/maven2/com/amazonaws/aws-java-sdk/1.11.712/aws-java-sdk-1.11.712.jar -o /opt/spark/jars/aws-java-sdk-1.11.712.jarRUN curl http://central.maven.org/maven2/com/amazonaws/aws-java-sdk-kms/1.11.712/aws-java-sdk-kms-1.11.712.jar -o /opt/spark/jars/aws-java-sdk-kms-1.11.712.jarRUN curl http://central.maven.org/maven2/com/amazonaws/aws-java-sdk-s3/1.11.712/aws-java-sdk-s3-1.11.712.jar -o /opt/spark/jars/aws-java-sdk-s3-1.11.712.jarADD start-common.sh start-worker start-master /ADD core-site.xml /opt/spark/conf/core-site.xmlADD spark-defaults.conf /opt/spark/conf/spark-defaults.confENV PATH $PATH:/opt/spark/bin

在这个Dockerfile中,我们首先从官方地址下载Apache Spark和Hadoop,然后从Maven获取关联的jar包。当所有关联的文件都已经下载并解压到一个特定的目录后,我们将这些重要的配置文件添加到镜像中。

在这个过程中,你可以很方便的添加自己环境特有的配置。

原本我们可以跳过以上步骤,直接使用一个预先构建好的镜像,但是通过解读这些步骤可以让我们的读者看到Spark容器内部的内容,高级用户可以据此修改来满足他们特殊的需求。

以上示例中使用到的Dockerfile和其他关联的配置文件,可以从这个GitHub仓库中获取。如果要使用这个仓库中的内容,请先使用以下命令将其克隆到本地:

git clone git@github.com:devshlabs/spark-kubernetes.git

现在,你可以根据需要在你的环境中进行任何更改,然后构建镜像,并上传到你使用的容器注册表中。在本文的示例中,我使用Dockerhub作为容器注册表,命令如下:

cd spark-kubernetes/spark-containerdocker build . -t mydockerrepo/spark:2.4.4docker push mydockerrepo/spark:2.4.4

记得将其中的mydockerrepo替换为你实际的注册表名字。

在Kubernetes上部署Spark

至此,Spark容器镜像已经构建好,并可以拉取使用了。让我们使用此镜像来部署Spark Master和Worker。第一步是创建Spark Master。我们将使用Kubernetes ReplicationController创建Spark Master。在本文的示例中,我仅用单实例创建Spark Master。而在有HA需求的生产环境中,你可能需要将副本数设置为3或者以上。

kind: ReplicationControllerapiVersion: v1metadata:name: spark-master-controllerspec:replicas: 1selector:component: spark-mastertemplate:metadata: labels:   component: spark-masterspec: hostname: spark-master-hostname subdomain: spark-master-headless containers:   - name: spark-master     image: mydockerrepo/spark:2.4.4     imagePullPolicy: Always     command: ["/start-master"]     ports:       - containerPort: 7077       - containerPort: 8080     resources:       requests:         cpu: 100m

为了使Spark Worker节点可以发现Spark Master节点,我们还需要创建headless服务。 当你从GitHub仓库完成克隆,并进入spark-kubernetes目录后,就可以启动Spark Master服务了,命令如下:

kubectl create -f spark-master-controller.yamlkubectl create -f spark-master-service.yaml

现在,确保Master节点和所有的服务都正常运行,然后就可以开始部署Worker节点了。Spark Worker的副本数设置为2,你可以根据需要修改。Worker启动命令如下: kubectl create -f spark-worker-controller.yaml 最后,通过以下命令确认是否所有服务都正常运行: kubectl get all 执行以上命令,你应该可以看到类似下面的内容:

NAME                               READY     STATUS    RESTARTS   AGEpo/spark-master-controller-5rgz2   1/1       Running   0          9mpo/spark-worker-controller-0pts6   1/1       Running   0          9mpo/spark-worker-controller-cq6ng   1/1       Running   0          9mNAME                         DESIRED   CURRENT   READY     AGErc/spark-master-controller   1         1         1         9mrc/spark-worker-controller   2         2         2         9mNAME               CLUSTER-IP      EXTERNAL-IP   PORT(S)             AGEsvc/spark-master   10.108.94.160           7077/TCP,8080/TCP   9m

向Spark集群提交Job

现在让我们提交一个Job,看看是否执行正常。不过在此之前,你需要一个有效的AWS S3账户,以及存有样本数据的桶存在。我使用了Kaggle下载样本数据,样本数据可以从https://www.kaggle.com/datasna … s.csv获取,获取以后需要上传到S3的桶里。假定桶名是s3-data-bucket,那么样本数据文件则位于s3-data-bucket/data.csv。 数据准备好以后,将其加载到一个Spark master pod中执行。以Pod名为spark-master-controller-5rgz2为例,命令如下: kubectl exec -it spark-master-controller-v2hjb /bin/bash 如果你登录进入了Spark系统,可以运行Spark Shell:

export SPARK_DIST_CLASSPATH=$(hadoop classpath)spark-shellSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).Spark context Web UI available at http://192.168.132.147:4040Spark context available as 'sc' (master = spark://spark-master:7077, app id = app-20170405152342-0000).Spark session available as 'spark'.Welcome to ____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//___/ .__/\_,_/_/ /_/\_\   version 2.4.4 /_/Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_221)Type in expressions to have them evaluated.Type :help for more information.scala>

现在让我们告诉Spark Master,S3存储的详细信息,在上文所示的Scale提示符中输入以下配置:

sc.hadoopConfiguration.set("fs.s3a.endpoint", "https://s3.amazonaws.com")sc.hadoopConfiguration.set("fs.s3a.access.key", "s3-access-key")sc.hadoopConfiguration.set("fs.s3a.secret.key", "s3-secret-key")

现在,只需将以下内容粘贴到Scala提示符中,以提交Spark Job(请记得修改S3相关字段):

import org.apache.spark._import org.apache.spark.rdd.RDDimport org.apache.spark.util.IntParamimport org.apache.spark.sql.SQLContextimport org.apache.spark.graphx._import org.apache.spark.graphx.util.GraphGeneratorsimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.tree.DecisionTreeimport org.apache.spark.mllib.tree.model.DecisionTreeModelimport org.apache.spark.mllib.util.MLUtilsval conf = new SparkConf().setAppName("YouTube")val sqlContext = new SQLContext(sc)import sqlContext.implicits._import sqlContext._val youtubeDF = spark.read.format("csv").option("sep", ",").option("inferSchema", "true").option("header", "true").load("s3a://s3-data-bucket/data.csv")youtubeDF.registerTempTable("popular")val fltCountsql = sqlContext.sql("select s.title,s.views from popular s")fltCountsql.show()

最后,你可以使用kubectl patch command命令更新Spark部署。比如,你可以在负载较高时添加更多工作节点,然后在负载下降后删除这些工作节点。

以上是"Kubernetes中如何部署Spark"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

命令 容器 数据 镜像 内容 节点 文件 服务 配置 仓库 官方 样本 注册表 环境 示例 篇文章 关联 运行 内存 分布式 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 9年级网络安全手抄报 网络安全研究方法和过程 乌镇世界互联网大会金融科技 双跨三都有哪些服务器 sql语句怎么添加数据库 江苏红色文化馆软件开发 珠海信息软件开发设计 嵌入式软件开发基础实训指导书 不能远程访问flask服务器 如何提高数据库技术 对应到关系数据库就是视图 美国网络安全产业商业模式 游天下网络技术 改数据库用户数据 华为全球最大数据库 湖南的网络安全 教师网络安全教育怎么做 江西创推网络技术有限公司 公共平台用阿里云服务器吗 嘉定区数据软件开发销售方法 黑龙江智慧团建软件开发公司 网络安全模式可以长时间工作吗 紧急网络安全专项防御 连霍高速哪个服务器有水库 直接用交换机设置dhcp服务器 软件开发基本要求 福建企业软件开发价格 教育系统网络安全应急演练 幸福福鼎网络安全课程 计算机网络技术综合测试试卷
0