千家信息网

小说网站爬虫

发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,小说网站爬虫第一天从今天开始,学习一下爬虫的知识,爬取小说网站。第一天:网站:http://www.bxwx9.org小说:大主宰语言:IDEA+javajar包:maven工程,所以放上depend
千家信息网最后更新 2025年12月02日小说网站爬虫

小说网站爬虫第一天

从今天开始,学习一下爬虫的知识,爬取小说网站。

第一天:

网站:http://www.bxwx9.org

小说:大主宰

语言:IDEA+java

jar包:maven工程,所以放上dependencies,每一个jar包的作用大家去研究一下

项目结构:

需求:获取小说的章节列表中的标题和URL

原理:

  • 用谷歌浏览器F12查看网页的内容,找到章节列表所在的元素

  • 使用标签选择器来选择需要的内容

    代码如下操作:

    中文乱码的解决:

运行的效果图:

明天继续!!!!

0