spark union 特别注意
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,今天遇到一个很诡异的问题。表Auseridhousecoderesctimeu1code111301表Buseridhousecoderesctimeu2code201302表Cuseridnamet
千家信息网最后更新 2025年12月02日spark union 特别注意
今天遇到一个很诡异的问题。
表A
| userid | housecode | res | ctime |
|---|---|---|---|
| u1 | code1 | 1 | 1301 |
表B
| userid | housecode | res | ctime |
|---|---|---|---|
| u2 | code2 | 0 | 1302 |
表C
| userid | name | type | time |
|---|---|---|---|
| u1 | 大海 | 0 | 1303 |
然后对表A进行处理操作
表A.createOrReplaceTempView("t1");
JavaRDD
t1= s.createDataFrame(rdd, HistoryModelExt.class);
然后查看t1, t1.show()
| u1 | code1 | 1 | 1301 |
|---|---|---|---|
| .. | .. | .. | .. |
数据还在,然后 B union A 然后 join C(通过userid), 理论上应该是有结果的,感觉就像1+1=2 这么肯定,但是还真没有数据,非常诧异。
刚开始以为是自己程序哪里有问题,苦苦寻找,发现一切正常, 最后回到 union这个方法上。
为了看清楚前因后果, 我把B union A的数据打印了出来,发现了一个奇怪的事情
| userid | housecode | res | ctime |
|---|---|---|---|
| u2 | code2 | 0 | 1302 |
| 1301 | code1 | 1 | u1 |
当时一下子就明白为什么join 没有数据了, A的schema已经与B不一致了。
原来 union函数并不是按照列名合并,而是按照位置合并。
但是在JavaRDD
查看源代码
/** * Applies a schema to an RDD of Java Beans. * * WARNING: Since there is no guaranteed ordering for fields in a Java Bean, * SELECT * queries will return the columns in an undefined order. * * @since 2.0.0 */ def createDataFrame(rdd: RDD[_], beanClass: Class[_]): DataFrame = { val attributeSeq: Seq[AttributeReference] = getSchema(beanClass) val className = beanClass.getNameval rowRdd = rdd.mapPartitions { iter => // BeanInfo is not serializable so we must rediscover it remotely for each partition. SQLContext.beansToRows(iter, Utils.classForName(className), attributeSeq) } Dataset.ofRows(self, LogicalRDD(attributeSeq, rowRdd.setName(rdd.name))(self)) }看注释,fields的顺序是不保证的, 原来如此。
这样你在union前乖乖的执行
t1.select("userId","houseCode","res","ctime"); 这样顺序就又恢复了,大数据排查问题特别麻烦,感觉是一个很大的坑,希望能帮到后来人。
数据
问题
一致
感觉
顺序
很大
诡异
诧异
前因后果
原来如此
乖乖
事情
位置
函数
后来人
大海
对象
方法
是在
注释
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
顺义区制造软件开发报价
帮人买服务器犯法吗
网络安全的利与弊议论文
广州凶宅 数据库
未转变者为什么进不去服务器视频
网络安全绘画大全三年级
免费vpn服务器
小米软件开发上班真实感受
正规扫爆服务器
vba怎么填入数据建立数据库
数据库对关系进行水平分割
服务器分之8 2
甲基化位点在线数据库
如何看待当前网络安全形势
数据库在软件开发中的作用
东软网络安全事业
山西开源软件开发要多少钱
2021国家网络安全宣传片
阿里云数据库密码重置
公钥服务器是否安全
粒鲜生网络技术有限公司
我要打开服务器安全怎么打开
mc服务器怎么换大厅
网络技术店铺
如何访问zkt打卡机数据库
计算机网络技术单元测试
怎么连接本地服务器的数据库
杭州源锦网络技术有限公司
语言学判断数据库
电子商务网络技术调查目的