Nutch报错怎么办
发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,这篇文章主要介绍了Nutch报错怎么办,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。Indexer: java.io.IOExcept
千家信息网最后更新 2025年12月02日Nutch报错怎么办
这篇文章主要介绍了Nutch报错怎么办,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。
Indexer: java.io.IOException: Job failed!
环境:nutch2.8 local模式 solr服务正常
ParseSegment: finished at 2014-07-14 21:21:19, elapsed: 00:00:35CrawlDB updateCrawlDb update: starting at 2014-07-14 21:21:21CrawlDb update: db: crawl/crawldbCrawlDb update: segments: [crawl/segments/20140714190910]CrawlDb update: additions allowed: trueCrawlDb update: URL normalizing: falseCrawlDb update: URL filtering: falseCrawlDb update: 404 purging: falseCrawlDb update: Merging segment data into db.CrawlDb update: finished at 2014-07-14 21:21:30, elapsed: 00:00:09Link inversionLinkDb: starting at 2014-07-14 21:21:33LinkDb: linkdb: crawl/linkdbLinkDb: URL normalize: trueLinkDb: URL filter: trueLinkDb: internal links will be ignored.LinkDb: adding segment: crawl/segments/20140714190910LinkDb: merging with existing linkdb: crawl/linkdbLinkDb: finished at 2014-07-14 21:21:42, elapsed: 00:00:09Dedup on crawldbIndexing 20140714190910 on SOLR index -> http://192.168.122.104:8080/solrIndexer: starting at 2014-07-14 21:21:55Indexer: deleting gone documents: falseIndexer: URL filtering: falseIndexer: URL normalizing: falseActive IndexWriters :SOLRIndexWriter solr.server.url : URL of the SOLR instance (mandatory) solr.commit.size : buffer size when sending to SOLR (default 1000) solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml) solr.auth : use authentication (default false) solr.auth.username : use authentication (default false) solr.auth : username for authentication solr.auth.password : password for authenticationIndexer: java.io.IOException: Job failed! at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:114) at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:176) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:186)
解决方法:
1、查看nutch日志发现是nutch在向solr请求的时候有Bad Request导致的
2、查看solr日志(在solr的web页面上的logging)中查看找到org.apache.solr.common.SolrException: ERROR: [doc=http://18.ifeng.com/] unknown field 'anchor'
3、从2中可以看出是缺少叫做'anchor'的field,那么在solr的solr/collection1/conf/schema.xml文件中增加'anchor'字段
No agents listed in 'http.agent.name' property
原因:$NUTCH_HOME/conf/nutch-site.xml中没有设置http.agent.name值,nutch较新版本(TODO:确切版本待考证)中这个值为空的话就会报这个错误。
解决:这个值其实就是User-Agent值,可以填写浏览器UA值以达到伪装成浏览器访问的目的。注意!填写后需使用ant重新编译才能生效。
感谢你能够认真阅读完这篇文章,希望小编分享的"Nutch报错怎么办"这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!
篇文章
怎么办
日志
浏览器
浏览
价值
兴趣
原因
同时
字段
就是
文件
方法
时候
更多
朋友
模式
版本
环境
目的
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全的小口令
网络安全奥利匹克杯
数据库原理 王
苏州城市学院图书馆数据库
web调用数据库时间失败
数据库查询班级表中的班级数量
珠海oa软件开发外包
网络安全十个准则
企业的app软件开发
网络安全软件开发设计
h3c服务器关闭告警
b站游戏数据库
网络安全整改备案回函
img软件开发
沈阳奇搜网络技术怎么样
网络安全小卫士教学设计
俄罗斯国家安全战略网络安全
未来无界网络技术有限公司口碑
联想sr860服务器外包装尺寸
网络安全电子产品
qq联系赵女士 网络安全
苹果手机备份时显示服务器超时
cf外挂导致服务器暂停
软件开发前置是什么意思
兰州软件开发工资
数据库怎么保存两位小数
数据库连接字符串怎么
戴尔服务器磁盘增加
学习数据库收获了什么
数据库普通形式