Spark 分析网站排名热度
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,需求:/ 解决是一个各个子模块内的热度排名--》 排名得用sortBy ---》 (可能就是简单的排序,或者是二次排序) ---》// 前面有一个wordCount---》 算出次数出来 --》 考虑
千家信息网最后更新 2025年12月02日Spark 分析网站排名热度
需求:
/ 解决是一个各个子模块内的热度排名--》 排名得用sortBy ---》 (可能就是简单的排序,或者是二次排序) ---》
// 前面有一个wordCount---》 算出次数出来 --》 考虑什么作为key
//算的一个网站下面,每个子模块下面的网页热度前2名 :
// 算的一个网站下面,每个子模块下面的网页热度前2名 --》 每个子模块下面的网页的次数的前2名
// 在实际开发中,真正代码时间可能只占20-30% ,其他时间都在理解需求,想思路
import java.net.URLimport org.apache.spark.{SparkConf, SparkContext}object Data_anlysis { def main(args: Array[String]) { val conf = new SparkConf().setAppName("data-anysis").setMaster("local[2]") val sc = new SparkContext(conf) val linesRDD = sc.textFile("d://web_data.log") val rdd01 =linesRDD.map(line => { val lineSplited = line.split("\t") (lineSplited(1),1) }) val rdd02 = rdd01.reduceByKey(_+_) val rdd03 = rdd02.map(tup => { val url = tup._1; val host = new URL(url).getHost (host,url,tup._2) }) val rdd04 = rdd03.groupBy(_._1) val rdd05 = rdd04.mapValues(iter => { iter.toList.sortBy(_._3).reverse.take(2) }) println(rdd05.collect().toBuffer) sc.stop() }}运行结果会把网站的日志数据按照某一模块的要求列出排名前2个结果展示出来。
模块
个子
热度
网站
网页
面的
时间
次数
结果
需求
排序
代码
在理
实际
就是
思路
数据
日志
开发
运行
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
雅安软件开发厂家
fifa足球世界数据库准
惠普服务器服务电话
美国网络安全交流法案
可搜网络技术
免费软件开发工具
怎么筛选两行相同的数据库
杭州正规模具制造管理软件开发
连接公共网络安全证书
苏州管理软件开发机构
网赌软件开发被抓
苏州网络技术开发咨询报价
极客如何设置网络安全
网络技术工作岗位
怎么调用管理服务器
应用中心服务器连接异常
土豆服务器网速
信息系统网络安全认证
焦点科技是互联网公司吗
网络安全班会知识
吉首网络技术招聘
南平仓库管理软件开发
怎样应聘网络安全工程师
新乡畅玩网络技术
软件开发小程序免费
软件开发+坑
石柱计算机网络技术职业学校
国内好玩的mc pvp服务器
大华联动报警服务器无法启动
数据库传递函数依赖的定义