千家信息网

spark技巧有哪些呢

发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,spark技巧有哪些呢,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。1. 设置消息尺寸最大值def main(args:
千家信息网最后更新 2025年12月01日spark技巧有哪些呢

spark技巧有哪些呢,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

1. 设置消息尺寸最大值

def main(args: Array[String]) {    System.setProperty("spark.akka.frameSize", "1024")}

2.与yarn结合时设置队列

val conf=new SparkConf().setAppName("WriteParquet")conf.set("spark.yarn.queue","wz111")val sc=new SparkContext(conf)

3.运行时使用yarn分配资源,并设置--num-executors参数

nohup /home/SASadm/spark-1.4.1-bin-hadoop2.4/bin/spark-submit--name mergePartition--class main.scala.week2.mergePartition--num-executors 30--master yarnmergePartition.jar >server.log 2>&1 &

4.读取impala的parquet,对String串的处理

sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

5.parquetfile的写

case class ParquetFormat(usr_id:BigInt , install_ids:String )val appRdd=sc.textFile("hdfs://").map(_.split("\t")).map(r=>ParquetFormat(r(0).toLong,r(1)))sqlContext.createDataFrame(appRdd).repartition(1).write.parquet("hdfs://")


6.parquetfile的读

val parquetFile=sqlContext.read.parquet("hdfs://")parquetFile.registerTempTable("install_running")val data=sqlContext.sql("select user_id,install_ids from install_running")data.map(t=>"user_id:"+t(0)+" install_ids:"+t(1)).collect().foreach(println)

7.写文件时,将所有结果汇集到一个文件

repartition(1)

8.如果重复使用的rdd,使用cache缓存

cache()

9.spark-shell 添加依赖包

 spark-1.4.1-bin-hadoop2.4/bin/spark-shell local[4] --jars code.jar

10.spark-shell使用yarn模式,并使用队列

spark-1.4.1-bin-hadoop2.4/bin/spark-shell --master yarn-client --queue wz111

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注行业资讯频道,感谢您对的支持。

文件 队列 帮助 技巧 最大 清楚 内容 参数 对此 尺寸 文章 新手 更多 最大值 模式 消息 知识 结果 缓存 行业 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 软件开发风险策划 北京捷瑞网络技术有限公司 网络安全软硬件 数据库前沿技术是什么 德州天皓网络技术传销 湖南软件开发外包 网络安全宣传周专题揭秘 戴尔服务器风扇设置 软件开发CPU选因特尔还是瑞龙 mssql数据库无符号整形 卸载软件显示无法打开数据库文件 融享互联网科技创新公司 电脑服务器共享连接不上 腾讯服务器运维工程师面试题 vf数据库实用教程答案 一台服务器可以多人同时操作么 软件开发具体做些什么 计算机网络技术毕业可以当什么 微软 sql数据库 嵌入式 数据库模式对应于 数据库逻辑设计应首先 qt适合什么软件开发 软件开发技术是什么 分布式数据库的体系结构特点 戴尔服务器的管理口 非常实用的私人云盘服务器 搭建本地dns加速服务器 网络安全课程上海交大下载 湖南惠普服务器维修调试虚拟主机 CBM数据库检索不到主题词
0