SogouQ中如何计算查询词URL最优 Rank
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,这期内容当中小编将会给大家带来有关SogouQ中如何计算查询词URL最优 Rank,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。PS1: 日志原格式是GB2312编
千家信息网最后更新 2025年12月01日SogouQ中如何计算查询词URL最优 Rank
这期内容当中小编将会给大家带来有关SogouQ中如何计算查询词URL最优 Rank,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。
PS1: 日志原格式是GB2312编码, 一定要记得转成UTF-8
PS2: 日志格式和格式说明:
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL,
这个格式有坑, 深坑:
"该URL在返回结果中的排名\t用户点击的顺序号"这两个字段之间的分割符并不是制表符\t, 而是空格
val sogouQRdd = sc.textFile("hdfs://node1:9000/sogouQ/input")sogouQRdd.cache # 在下一次Action操作时, 将日志文件缓存到内存中求出日志文件条目总数
val itemCountRdd = sogouQRdd.countitemCountRdd: Long = 1724264
对于每一个查询词, 求出该 URL 在返回结果中的排名为1, 且用户点击的顺序号为1的条目总数
这说明此次搜索结果的 URL 的 Rank 最优
val suitableRankRdd = sogouQRdd.filter(_.split('\t').length == 5).map(_.split('\t')).filter(_(3).split(' ')(0).toInt == 1).filter(_(3).split(' ')(1).toInt == 1).countsuitableRankRdd: Long = 279859计算查询词 URL 最优 Rank 的频率:
最优Rank频率 = URL最优Rank次数 / 条目总数
suitableRankRdd / itemCountRdd = 0.1623
所以查询词 URL最优Rank 的频率为 16.23%
上述就是小编为大家分享的SogouQ中如何计算查询词URL最优 Rank了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注行业资讯频道。
查询
用户
日志
格式
结果
总数
条目
顺序
顺序号
频率
内容
文件
求出
分析
专业
两个
中小
之间
内存
内容丰富
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
睢宁软件开发答疑解惑
服务器接不同交换机
启用语言和数据库
房山区数据库耐磨材料技术
网络安全利与弊的总结
10g文件导入数据库占多大空间
一个数据库对应一个文件
eplan怎样建立数据库
vmware怎么搭建虚拟服务器
时代中国网络安全中心
计算机网络技术 就业发展
软件开发课程小结
国网络安全工作的轮廓是什么
数据库 媒体集有2个
有关于网络安全的词语
网络技术的职业规划
systems中心化数据库
锐捷云课堂服务器照片
建立数据库的查询操作系统
怎样传镜像到内网服务器
数据库一个对象格式
hypermill宏数据库
网络安全法律法规都有哪些
为什么数据库装不上去
嘉祥网络安全宣传周
计算机网络技术和软件技术专升本
数据库的左右外连接
宁夏吴忠软件开发公司排名
网络安全的丽的视频
数据库恢复的基本思想有哪些