千家信息网

第56课:Spark SQL和DataFrame的本质

发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,一、Spark SQL与DataframeSpark SQL之所以是除Spark core以外最大和最受关注的组件的原因:a) 能处理一切存储介质和各种格式的数据(你同时可以方便的扩展Spark SQ
千家信息网最后更新 2025年12月03日第56课:Spark SQL和DataFrame的本质

一、Spark SQL与Dataframe

Spark SQL之所以是除Spark core以外最大和最受关注的组件的原因:

a) 能处理一切存储介质和各种格式的数据(你同时可以方便的扩展Spark SQL的功能来支持更多的数据类型,例如KUDO)

b)Spark SQL 把数据仓库的计算能力推向了一个新的高度。不仅是无敌的计算速度(Spark SQL比Shark快了一个数量级,Shark比Hive快了一个数量级),尤其是在tungsten成熟以后会更加无可匹敌。更为重要的是把数据仓库的计算复杂度推向了历史新高度(Spark后续推出的Dataframe可以让数据仓库直接使用机器学习、图计算等算法库来对数据仓库进行深度数据价值的挖掘)。

c)Spark SQL(Dataframe,DataSet)不仅是数据仓库的引擎,同时也是数据挖掘的引擎,更为重要的是Spark SQL是科学计算和分析的引擎。

d)后来的DataFrame让Spark SQL一举成为大数据计算引擎的技术上的霸主(尤其是在钨丝计划的强力支持下)。

e) Hive+Spark SQL+DataFrame

1) Hive负责廉价的数据存储

2) Spark SQL 负责高速的计算

3)DataFrame 负责复杂的数据挖掘


二、DataFrame与RDD

a)R和Python中都有DataFrame,Spark中的DataFrame从形式上看,最大的不同点就是其天生是分布式的;你可以简单的认为DataFrame是一个分布式的Table,形式如下:

NameAgeTel
StringIntLong
StringIntLong
StringIntLong
StringIntLong
StringIntLong
StringIntLong

而RDD的形式如下:

Person
Person
Person
Person
Person
Person

RDD不知道数据行的属性,而DataFrame知道数据的列信息

b)RDD和DataFrame的根本差异

RDD以record为基本单位,Spark在处理RDD时无法优化RDD的内部细节,所以也就无法进行更深入的优化,这极大的限制了Spark SQL的性能。

DataFrame中包含了每个record的metadata信息,也就是说DataFrame优化时基于列内部优化,而不像RDD基于行进行优化。


三、Spark企业级最佳实践

阶段1 文件系统+C语言处理

阶段2 JavaEE + 传统数据库(扩展性太差,不支持分布式。即便有部分数据库支持分布式,但是因为事务一致性的关系,速度非常慢)

阶段3 Hive hive的计算能力有限,速度非常慢。

阶段4 Hive转向Hive+Spark SQL

阶段5 Hive+Spark SQL+DataFrame

阶段6 Hive+Spark SQL+DataFrame+DataSet



数据 阶段 仓库 分布式 引擎 支持 形式 速度 处理 复杂 最大 重要 信息 同时 数据库 数据挖掘 数量 数量级 是在 能力 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 网络安全监管漏洞 写网页时链接数据库的步骤 ef core怎么更新数据库 平安银行软件开发工资待遇 无线网络安全试验结论 linux适合做服务器 深圳汽车软件开发方案 网络安全为网络强国建设 软件开发实习生主要干嘛 京东软件开发实习生天天上班吗 云端服务器的优点 怎么用群晖配置web服务器 ssms创建数据库数据表 广东工业大学网络安全学院排名 高校网络安全具体事例 为什么网络安全的短板是内网 深圳市人人时代网络技术 数据库服务没有了怎么办 奥的斯机电服务器故障代码 关于关于网络安全的小报 珠海商城软件开发定做 香港微信网络技术有限公司 游戏服务器管理工具 网络安全与执法属于法学类吗 上海文化消费数据库 淮北服务器机柜加工价格 网络安全论文的检索文献摘录 数据库表的关键词是什么 网络安全事故可能导致的危害英文 新网络安全审查办法
0