spark2.x由浅入深深到底系列六之RDD java api详解四
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,学习spark任何的知识点之前,先对spark要有一个正确的理解,可以参考:正确理解spark本文对join相关的api做了一个解释SparkConf conf = new SparkConf().s
千家信息网最后更新 2025年12月02日spark2.x由浅入深深到底系列六之RDD java api详解四
学习spark任何的知识点之前,先对spark要有一个正确的理解,可以参考:正确理解spark
本文对join相关的api做了一个解释
SparkConf conf = new SparkConf().setAppName("appName").setMaster("local");JavaSparkContext sc = new JavaSparkContext(conf);JavaPairRDD javaPairRDD = sc.parallelizePairs(Arrays.asList(new Tuple2<>(1, 2), new Tuple2<>(3, 4), new Tuple2<>(3, 6), new Tuple2<>(5, 6)));JavaPairRDD otherJavaPairRDD = sc.parallelizePairs(Arrays.asList(new Tuple2<>(3, 9), new Tuple2<>(4, 5)));//结果: [(4,([],[5])), (1,([2],[])), (3,([4, 6],[9])), (5,([6],[]))]System.out.println(javaPairRDD.cogroup(otherJavaPairRDD).collect());//结果: [(4,([],[5])), (1,([2],[])), (3,([4, 6],[9])), (5,([6],[]))]// groupWith和cogroup效果是一模一样的System.out.println(javaPairRDD.groupWith(otherJavaPairRDD).collect());//结果: [(3,(4,9)), (3,(6,9))]//基于cogroup实现的,就是取cogroup结果中相同key在两个RDD都有value的数据System.out.println(javaPairRDD.join(otherJavaPairRDD).collect());//结果: [(1,(2,Optional.empty)), (3,(4,Optional[9])), (3,(6,Optional[9])), (5,(6,Optional.empty))]//基于cogroup实现的,结果需要出现的key以左边的RDD为准System.out.println(javaPairRDD.leftOuterJoin(otherJavaPairRDD).collect());//结果: [(4,(Optional.empty,5)), (3,(Optional[4],9)), (3,(Optional[6],9))]//基于cogroup实现的,结果需要出现的key以右边的RDD为准System.out.println(javaPairRDD.rightOuterJoin(otherJavaPairRDD).collect());//结果: [(4,(Optional.empty,Optional[5])), (1,(Optional[2],Optional.empty)), (3,(Optional[4],Optional[9])), (3,(Optional[6],Optional[9])), (5,(Optional[6],Optional.empty))]//基于cogroup实现的,结果需要出现的key是两个RDD中所有的keySystem.out.println(javaPairRDD.fullOuterJoin(otherJavaPairRDD).collect()); 从上可以看出,最基本的操作是cogroup这个操作,下面是cougroup的原理图:
如果想对cogroup原理更彻底的理解,可以参考:spark core RDD api原理详解
结果
原理
两个
参考
相同
一模一样
右边
就是
效果
数据
知识
知识点
学习
解释
由浅入深
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
大雁深圳网络技术有限公司
东营软件开发兼职
服务器主板加显卡教程
聚力青春守护网络安全总结
航天航空网络安全概念
我的世界空岛生存手机版服务器
在数据库中用存储过程打标
国外服务器和国内服务器
奇迹显示和服务器连接中断
思唯网络安全系统培训
西电南校区网络安全创新研究大楼
小蚁云服务器怎么绑定设备
数据库清除密码
宝牛网络技术有限公司
梦幻西游恭喜发财服务器如何
安卓软件开发快速入门
网络安全概论思考题答案
网上书店数据库实训项目答案
服务器电源如何修
使命召唤到底有几个服务器
jdbc连接数据库jar
查看数据库配置
我的世界基岩版服务器价格
小程序如何连接本地数据库
网络安全建设制度文档
win7 vpn 服务器
思唯网络安全系统培训
数据库 查询 join
淘宝网络安全负责人是谁
简述我国列车网络技术发展的情况