怎么用Storm IPResolutionBolt写爬虫
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,本篇内容介绍了"怎么用Storm IPResolutionBolt写爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅
千家信息网最后更新 2025年12月03日怎么用Storm IPResolutionBolt写爬虫
本篇内容介绍了"怎么用Storm IPResolutionBolt写爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
package com.digitalpebble.storm.crawler.bolt;import java.net.InetAddress;import java.net.MalformedURLException;import java.net.URL;import java.util.HashMap;import java.util.Map;import org.slf4j.Logger;import org.slf4j.LoggerFactory;import backtype.storm.task.OutputCollector;import backtype.storm.task.TopologyContext;import backtype.storm.topology.OutputFieldsDeclarer;import backtype.storm.topology.base.BaseRichBolt;import backtype.storm.tuple.Fields;import backtype.storm.tuple.Tuple;import backtype.storm.tuple.Values;public class IPResolutionBolt extends BaseRichBolt { public static final Logger LOG = LoggerFactory .getLogger(IPResolutionBolt.class); OutputCollector _collector; @SuppressWarnings("unchecked") public void execute(Tuple tuple) { String url = tuple.getStringByField("url"); HashMap metadata = null; //在这里判断我们的tuple是否包含着Meradata if (tuple.contains("metadata")) metadata = (HashMap) tuple .getValueByField("metadata"); //这里的Metadata是一个HashMap,持有的是一个 的对象组合 String ip = null; String host = ""; URL u; try { u = new URL(url); host = u.getHost(); } catch (MalformedURLException e1) { LOG.warn("Invalid URL: " + url); // ack it so that it doesn't get replayed _collector.ack(tuple); return; } try { long start = System.currentTimeMillis(); final InetAddress addr = InetAddress.getByName(host); ip = addr.getHostAddress(); long end = System.currentTimeMillis(); LOG.info("IP for: " + host + " > " + ip + " in " + (end - start) + " msec"); //在这里我们发射 url,ip,metadata 并且针对tuple做一个Ack _collector.emit(tuple, new Values(url, ip, metadata)); _collector.ack(tuple); } catch (final Exception e) { LOG.warn("Unable to resolve IP for: " + host); _collector.fail(tuple); } } public void declareOutputFields(OutputFieldsDeclarer declarer) { declarer.declare(new Fields("url", "ip", "metadata")); } public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) { _collector = collector; }} 在这里我们需要关注, declareOutputFields在设定我们的Tuple records对象的时候,是传递的"url","ip","metadata", 而不是一个封装好的对象。
一旦我们传递的records的数量比较多。那么请宁务必将传递的值设置为对象。并且在接受方,getValues(0)的方式取得。
"怎么用Storm IPResolutionBolt写爬虫"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
对象
爬虫
内容
更多
知识
实用
学有所成
接下来
有的是
困境
实际
情况
接受方
数量
文章
方式
时候
案例
编带
网站
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
如何用网页制作数据库
特种人员资料数据库
数据库王能斌
福田区网络安全教育平台
万方数据库7.0版
数据库关联字段的几种情况
光猫注册了怎么对接到服务器
会员服务器网络设置
批量管理服务器带web界面
软件开发 设计模式
软件开发od岗位
win10兼容的数据库版本
组装高性价比服务器cpu台式机
超凡先锋一直卡在获取服务器信息怎么回事
代号 探戈 数据库
1u服务器主机i3
sql数据库清理垃圾
acs是全文数据库吗
江苏省少年网络安全比赛
怎样设置客户端关闭服务器
校园网络安全责任部门
数据库管理
数据库用户赋予权限代码
忻州软件开发设计
数据库字段说明是什么意思
网络安全法案
新时期网络安全工作
查询达梦数据库锁表
甘南州国家网络安全
京东网络技术ppt