python如何爬取豆瓣各分类书单
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,这篇文章主要介绍"python如何爬取豆瓣各分类书单",在日常操作中,相信很多人在python如何爬取豆瓣各分类书单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"pyt
千家信息网最后更新 2025年12月03日python如何爬取豆瓣各分类书单
',re.S)这篇文章主要介绍"python如何爬取豆瓣各分类书单",在日常操作中,相信很多人在python如何爬取豆瓣各分类书单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"python如何爬取豆瓣各分类书单"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

代码展示:
pachon2.5.py# -- coding: utf-8 --import urllibimport urllib2import reimport sysreload(sys)sys.setdefaultencoding('utf-8')class book: #豆瓣书籍的类def init(self, types, page):self.baseUrl = 'http://www.douban.com/tag/'self.types = typesself.filename = 'doubanbook.txt'self.page = page
def getContents(self): #爬取源代码try:#if self.page == 0:url = self.baseUrl + self.types + '/book'#else:# url = self.baseUrl + self.types + '/book?start=' + str(self.page)user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.65 Safari/537.36'headers = { 'User-Agent' : user_agent}request = urllib2.Request(url,headers = headers)response = urllib2.urlopen(request)content = response.read() #.decode('utf-8')pattern = re.compile('(.*?).*?>(.*?)
items = re.findall(pattern,content) return items except urllib2.URLError, e: if hasattr(e, "reason"): print u"豆瓣链接错误,错误原因", e.reason return None
def writetext(self, items): #写入txt for item in items: print item[0],item[1] files = open(self.filename,'a') files.write(item[0]) files.write(item[1]) files.write('\n') files.close()
def strat(self): #启动函数 self.writetext(self.getContents()) print u"""出现乱码为正常现象,在与本脚本相同的文件夹下会多出一个, doubanbook.txt的文件里面有所爬书籍,如你把本脚本放在桌面,文件便会出现在桌面""" print u"结束输入 'O' , 联系作者输入 'A'" end = raw_input('>') if end == 'A': print u"QQ邮箱:1021644861@qq.com" raw_input('>') else: print "over"到此,关于"python如何爬取豆瓣各分类书单"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
豆瓣
书单
分类
学习
文件
书籍
更多
桌面
脚本
错误
帮助
输入
实用
相同
接下来
乱码
代码
作者
函数
原因
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
云服务器国外
大三网络安全专业
win7数据库自启动
数据库漏洞没有用户名密码
mt4为什么要服务器
网络安全对联
物联网下的网络安全
儿童手机软件开发
健康码能用到数据库吗
数据库删除全部权限
服务器 为人民服务
软件开发相关职称
软件开发ppt怎么写
青浦区创新数据库服务电话多少
t110服务器 进pe
珠海游戏直播软件开发
湿地公园数据库系统
备份视频软件开发
局域网网络安全设计答辩
网络安全防盗地址
nat支持80的服务器
数据库安全性控制有哪些方面
数据库startup
县 区网络安全宣传周总结
安全接入服务器地址怎么获得
服务器win2003
win pe 服务器
软件开发 里程碑事件
机架式服务器的结构
天府软件开发