千家信息网

如何进行Spark集群部署的探讨

发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,本篇文章给大家分享的是有关 如何进行Spark集群部署的探讨,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。Spark集群部署第一步:安装
千家信息网最后更新 2025年12月01日如何进行Spark集群部署的探讨

本篇文章给大家分享的是有关 如何进行Spark集群部署的探讨,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

Spark集群部署

第一步:安装软件
Spark 1.5.4:wget http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz
Hadoop 2.6.3:wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz
scala :apt-get install scala
第二步:配置环境变量
执行/etc/profile
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/BIN:${SCALA_HOME}/bin:${SPARK_HOME}/bin:/home/supermap/program/hadoop-2.6.3/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export SCALA_HOME=/usr/lib/scala/scala-2.11.7
export PATH=${SCALA_HOME}/bin:$PATH
export SPARK_HOME=/program/spark-1.5.2-bin-hadoop2.6
source /etc/profile
第三步:创建镜像
通过OpenStack管理器根据配置好的虚拟机创建镜像,生成的镜像配置如下:
镜像概况信息

________________________________________
名称 spark-hadoop
ID 61055db5-598b-4f1a-98fa-d2cbbf305d0c
状态 Active
公有 False
受保护的 False
校验和 47acf7993101713aee17764802602941
________________________________________
配置 4.4 GB
容器格式 BARE
磁盘格式 QCOW2
最小磁盘 60.0GB

第四步:创建虚拟机
基于创建的镜像,生成2台虚拟机,加上最开始用于创建镜像的1台,一共3台虚拟主机,名称分别为:
spark_hadoop_master
spark_hadoop_slave1
spark_hadoop_slave2
下面就可以开始做与创建Spark集群相关的操作了。
第五步:设置主机名
1.在/etc/hostname中就改主机名,分别设置三台主机为master、slave1、slave2,并重启


通过测试root@master :~# ssh slave1,在输入root用户密码后可以登录。
第六步:修改ssh无密码访问
首先开启root用户访问权限
1. 修改/etc/ssh/sshd-config文件,设置如下:
2. PermitRootLogin yes
3. PubkeyAuthentication yes
4. PasswordAuthentication yes
重新启动ssh服务:service ssh restart
再进行如下测试,可以免输入密码登录了。

把spark-env.sh.template拷贝为spark-env.sh
把slaves.template拷贝为slaves

vim打开spark-env.sh修改其中的内容,加入以下设置

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_80
export SPARK_MASTER_IP=192.168.12.154
export SPARK_WORKER_MEMORY=4g
export SCALA_HOME=/usr/lib/scala/scala-2.11.7
export HADOOP_CONF_DIR=/home/supermap/program/hadoop-2.6.3/conf

SPARK_WORKER_MEMORY:制定的Worker节点能够最大分配给Excutors的内存大小,由于配置的虚拟机是4g内存,为了最大限度使用内存,这里设置4G。
接下来配置slaves文件,把Workers节点都添加进去:

最后通过访问spark管理页面查看服务状态

以上就是 如何进行Spark集群部署的探讨,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。

镜像 配置 集群 主机 内存 密码 最大 名称 拷贝 文件 更多 格式 状态 用户 知识 磁盘 篇文章 节点 服务 测试 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 青岛真情巴士的软件开发怎么样 制作我的世界服务器 我的世界客户端登录服务器太卡 数据库不存在数据却查到了数据 河北领行网络技术服务公司 网络安全法 监督管理 如何根据服务器序列号查cpu 代码包是放在应用服务器里面的吗 沈阳禹辰软件开发有限公司 数据库受到的安全威胁名单 工控网络安全解决方案 防沉迷网络安全教育讲稿 sql数据库设置单个人用户 软件开发项目面试问题 化工实时数据库 access数据库换电脑 服务器系统装好后需要装数据库吗 为啥5g手机无法连接服务器 数据库专业对口怎么写 软件开发公司会计新手 网易游戏软件开发工程师怎么样 管理打印服务器实验报告 哈尔滨智融网络技术服务 服务器 集中管理 网络安全算法仿真实验 军人手机网络安全措施 服务器的管理模式 魔兽世界插件服务器怎么更新 远程宽带管理器服务器 济南系统软件开发中心
0