如何实现generate.max.count的参数处理
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,本篇文章为大家展示了如何实现generate.max.count的参数处理,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。对generate.max.count
千家信息网最后更新 2025年12月01日如何实现generate.max.count的参数处理
本篇文章为大家展示了如何实现generate.max.count的参数处理,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
对generate.max.count参数的处理在org.apache.nutch.crawl.Generator内部类Selector中
org.apache.nutch.crawl.Generator中相关变量声明情况
private HashMaphostCounts = new HashMap ();private int maxCount;
内部类Selector的config方法中
maxCount = job.getInt(GENERATOR_MAX_COUNT, -1);
reduce方法中的处理
/***1、获取 某一主机下的int[] ,如果为null,声明一个数组,放入map中,int数组第2个值+1;*///1int[] hostCount = hostCounts.get(hostordomain);if (hostCount == null) { hostCount = new int[] { 1, 0 }; hostCounts.put(hostordomain, hostCount);}hostCount[1]++;// increment hostCount//2、检查是否到了topN的数量,如果hostCount的第一个值大于limit// check if topN reached, select next segment if it iswhile (segCounts[hostCount[0] - 1] >= limit//segCounts : && hostCount[0] < maxNumSegments) { hostCount[0]++; hostCount[1] = 0;}// reached the limit of allowed URLs per host / domain// see if we can put it in the next segment?if (hostCount[1] >= maxCount) { if (hostCount[0] < maxNumSegments) { hostCount[0]++; hostCount[1] = 0; } else { if (hostCount[1] == maxCount + 1 && LOG.isInfoEnabled()) { LOG.info("Host or domain " + hostordomain + " has more than " + maxCount + " URLs for all " + maxNumSegments + " segments. Additional URLs won't be included in the fetchlist."); } // skip this entry continue; }}entry.segnum = new IntWritable(hostCount[0]);segCounts[hostCount[0] - 1]++;上述内容就是如何实现generate.max.count的参数处理,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。
处理
参数
内容
技能
数组
方法
知识
简明
简明扼要
主机
变量
就是
情况
数量
文章
更多
篇文章
行业
资讯
资讯频道
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
长岛软件开发哪家好
深圳市科银软件开发有限公司
ui在软件开发里占多少
长沙网络安全产业园入驻企业
网络安全的灾备
服务器挂载数据盘丢失
天涯明月刀手游第一个服务器
软件开发自学创业
pop服务器怎么填
数据库 ds
端游pubg怎么换服务器
西安信雅达软件开发
一台服务器搭建多台云电脑
北京网络安全总队领导
服务器主板用多大的好
查看orcale数据库版本
如何宣传网络安全教育平台
永丰天气预报软件开发
软件开发销售总监怎么抽团队
数据库设置默认表空间
mysql修改数据库ip
linux 下 网络安全
登入游戏服务器超时是什么意思
软件开发结算计费
马鞍山hpe机架式服务器哪家好
战术小队为啥老是服务器断开
开源数据库行业
上海揆安 网络安全检查
软件开发c 面试题
网络安全板块儿