MapReduce的思想
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,项目实战案例:搜狗日志查询分析数据:一、电商大数据平台整体架构1、大数据(Hadoop、Spark、Hive)都是一种数据仓库的实现方式核心问题:数据存储、数据计算什么是数据仓库?传统的解决大数据的方
千家信息网最后更新 2025年12月03日MapReduce的思想
项目实战案例:搜狗日志查询分析
数据:
一、电商大数据平台整体架构
1、大数据(Hadoop、Spark、Hive)都是一种数据仓库的实现方式
核心问题:数据存储、数据计算
什么是数据仓库?传统的解决大数据的方式,就是一个数据库
一般只做查询
2、大数据平台整体的架构 部署:Apache、Ambari(HDP)、CDH二、在项目中使用使用瀑布模型(软件工程:方法论)
1、瀑布模型几个阶段?
2、每个阶段完成的任务
三、使用MapReduce进行分析处理(Java程序)
1、MapReduce的基本原理(编程模型)
() 思想来源:Google的论文:MapReduce 问题 PageRank(网页排名)
() 先拆分、再合并-----> 分布式计算
2、使用MapReduce进行日志分析四、使用Spark进行分析和处理(Scala语言、Java语言)
1、Spark的优点和体系架构
2、使用Scala开发Spark任务进行日志分析
bin/spark-shell --master spark://bigdata11:7077
val rdd1 = sc.textFile("hdfs://mydemo71:8020/myproject/data/SogouQ1.txt") val rdd2=rdd1.map(_.split("\t")).filter(_.length==6) rdd2.count() val rdd3=rdd2.filter(_(3).toInt==1).filter(_(4).toInt==2) rdd3.count() rdd3.take(3)五、使用Hive(蜂巢)进行分析和处理
1、什么是Hive?特点?Hive体系结构
是基于HDFS之上的数据仓库
支持SQL语句
是翻译器:SQL ----> MapReduce(Spark任务)
2、使用Hive进行查询操作 ① 创建Hive对应的表 create table sogoulog(accesstime string,useID string,keyword string,no1 int,clickid int,url string) row format delimited fields terminated by ','; ** ② 将原始数据进行清洗:因为有些不满足长度为6 val rdd1 = sc.textFile("hdfs://mydemo71:8020/myproject/data/SogouQ1.txt") val rdd2=rdd1.map(_.split("\t")).filter(_.length==6) val rdd3 = rdd2.map(x=>x.mkString(",")) 这里需要注意转成字符串 rdd3.saveAsTextFile("hdfs://mydemo71:8020/myproject/cleandata/sogou") ** ③ 将清洗后的数据导入Hive load data inpath '/myproject/cleandata/sogou/part-00000' into table sogoulog; load data inpath '/myproject/cleandata/sogou/part-00001' into table sogoulog; ④ 使用SQL查询满足条件的数据(只显示前10条)** select * from sogoulog where no1=1 and clickid=2 limit 10;**查询10号部门 工资大于2000的员工 很多人都知道我有大数据培训资料,都天真的以为我有全套的大数据开发、hadoop、spark等视频学习资料。我想说你们是对的,我的确有大数据开发、hadoop、spark的全套视频资料。如果你对大数据开发感兴趣可以加口群领取免费学习资料: 763835121
数据
分析
查询
资料
开发
仓库
任务
日志
架构
模型
处理
体系
全套
学习资料
平台
整体
方式
瀑布
视频
语言
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
阿里云服务器支持php
怎么看一台服务器负荷多少w
中央网络安全宣传活动
三亚应该软件开发方案
强东网络技术有限公司
吉林驾驶舱系统软件开发
Hp 服务器 消除告警
搭建局域网 服务器
刀片服务器和机架服务器怎样区分
网络安全员培训题库
聊天服务器修改器
软件开发者问答软件
中兴2019软件开发笔试
当今数据库技术发展
中恒云能互联网科技有限公司
计算机网络技术公考
web地图软件开发
校园信息网络安全隐患排查台账
云海 服务器
台湾的软件开发薪资
软件开发企业内外部环境
网络安全成什么趋势
推荐学生网络安全教育平台
宝德服务器陕西代理
阿里云服务器测试工程师
信息网络安全应急演练评估
山东猫话通网络技术
医院信息网络安全整改报告
软件开发和智能工程宣传文案
物流中转数据库设计