spark怎么读取hbase数据并转化为dataFrame
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,本篇内容主要讲解"spark怎么读取hbase数据并转化为dataFrame",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"spark怎么读取hbase数据
千家信息网最后更新 2025年12月02日spark怎么读取hbase数据并转化为dataFrame
本篇内容主要讲解"spark怎么读取hbase数据并转化为dataFrame",感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习"spark怎么读取hbase数据并转化为dataFrame"吧!
最近两天研究Spark直接读取hbase数据,并将其转化为dataframe。之所以这么做,
1、公司的数据主要存储在hbase之中
2、使用dataframe,更容易实现计算。
尽管hbase的官方已经提供了hbase-spark 接口,但是并未对外发布,而且目前的项目又有这方面的需求,且网上关于这么方面的参考比较少,
故贴出来,代码如下,仅供参考
import org.apache.hadoop.hbase.client._import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.{TableName, HBaseConfiguration}import org.apache.hadoop.hbase.util.Bytesimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkContext, SparkConf}/** * Created by seagle on 6/28/16. */object HBaseSpark { def main(args:Array[String]): Unit ={// 本地模式运行,便于测试 val sparkConf = new SparkConf().setMaster("local").setAppName("HBaseTest")// 创建hbase configuration val hBaseConf = HBaseConfiguration.create() hBaseConf.set(TableInputFormat.INPUT_TABLE,"bmp_ali_customer")// 创建 spark context val sc = new SparkContext(sparkConf)val sqlContext = new SQLContext(sc)import sqlContext.implicits._// 从数据源获取数据 val hbaseRDD = sc.newAPIHadoopRDD(hBaseConf,classOf[TableInputFormat],classOf[ImmutableBytesWritable],classOf[Result])// 将数据映射为表 也就是将 RDD转化为 dataframe schema val shop = hbaseRDD.map(r=>( Bytes.toString(r._2.getValue(Bytes.toBytes("info"),Bytes.toBytes("customer_id"))), Bytes.toString(r._2.getValue(Bytes.toBytes("info"),Bytes.toBytes("create_id"))) )).toDF("customer_id","create_id") shop.registerTempTable("shop")// 测试 val df2 = sqlContext.sql("SELECT customer_id FROM shop") df2.foreach(println) }代码能够运行的前提是
1、 引用了 spark-sql jar
2、配置了Hbase-site.xml ,并将其放在工程的根目录下
到此,相信大家对"spark怎么读取hbase数据并转化为dataFrame"有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
数据
代码
内容
并将
学习
测试
运行
实用
更深
仅供参考
之中
之所以
也就是
公司
兴趣
前提
官方
实用性
实际
工程
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
南京红阵网络安全技术
办公软件开发史
access数据库生成不了
浙江游戏软件开发
南阳嵌入式软件开发招聘
敏捷软件开发冲刺是什么意思
电信机顶盒测试无法连接服务器
从数据库中查找记录用
一机无法同时访问数据库服务器
人间地狱ps5版服务器
网络安全专业大学排名及分数线
网络安全的威胁主要是
数据库原理第六章第六题
服务器攻略
舟山云浮网络技术优化平台
网络安全协会吸收会员的情况
合肥服务器机柜批发
张家口网络安全
用友服务器能从上海移动到四川吗
任务管理服务器灰色
手机网络服务器忙是怎么回事
数据库建一个存图片的表格
手机能看腾讯云服务器吗
网络安全与美中关系
辽宁服务器系统租用
网络安全研究计划怎么写
国内服务器哪个好
oracle 数据库卡住了
路由器显示远端服务器没有响应
软件开发代理合同