千家信息网

Nutch1.9如何安装

发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,小编给大家分享一下Nutch1.9如何安装,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、 Nutch安装并整合到Sol
千家信息网最后更新 2025年12月03日Nutch1.9如何安装

小编给大家分享一下Nutch1.9如何安装,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

一、 Nutch安装并整合到Solr

1、下载并解压Nutch(此处使用版本1.9) http://nutch.apache.org/

2、修改apache-nutch-1.9/conf/nutch-site.xml

http.agent.name

My Nutch Spider

3、添加需要爬取的urls种子,创建apache-nutch-1.9/urls/seed.txt:

此处添加一条url(如:http://www.oschina.net/)

4、Nutch与Solr整合需要替换Solr Home中的Schema.xml

首先做好备份:

mv solr_home/solr/collection1/conf/schema.xml solr_home/solr/collection1/conf/schema.xml.org

将nutch中的schema-solr4.xml copy到solr_home中,如下:

cp apache-nutch-1.9/conf/schema-solr4.xml solr_home/solr/collection1/conf/schema.xml

5、修改solr_home/solr/collection1/conf/schema.xml,

由于覆盖了之前配置好的IK分词器。所以需要重新配置:

中增加如下内容:

将需要用到IK分词的字段的type值修改以上定义的name

到此处配置完成。

测试爬取:

bin/crawl urls/ crawldb/ http://localhost:8080/solr/ 1

当完成后,打开solr的管理界面,点击query将会看到nutch爬取的数据

以上是"Nutch1.9如何安装"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

内容 篇文章 配置 整合 不怎么 备份 大部分 字段 数据 更多 版本 界面 知识 种子 行业 资讯 资讯频道 频道 加一 参考 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 网络安全教育知识的重要性 软件开发的面试题笔试 有索引的数据库表查询 安全集成或服务器 软件开发资金消耗 208分专科软件开发 农村宅基地数据库规范试行 辩证看待网络技术 安徽智能还款软件开发 金华女子监狱网络安全管理 长沙雨人网络安全电话平台 旅店业网络安全 采购网络安全设备的申请报告 权威数据库官网有 中华人们共和国网络安全法 沛县正规软件开发答疑解惑 平板电脑装阿里云服务器流程 互联网科技类型 中国网络安全与审查技术 网络安全可以从事哪些岗位 jsp删除数据库指定行 关于加强网络安全教育的提案 珠海pc软件开发市场价 河北少儿科教频道网络安全回放 用友u8 数据库 不符合 公司能开网络技术服务的发票吗 服务器操作系统与服务器的关系 天堂2单机服务器 长治市委网络安全和信息化委员 服务器配置软件本地运行
0