如何用python爬虫抓豆瓣电影数据
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,本篇内容介绍了"如何用python爬虫抓豆瓣电影数据"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!代
千家信息网最后更新 2025年12月01日如何用python爬虫抓豆瓣电影数据
本篇内容介绍了"如何用python爬虫抓豆瓣电影数据"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
代理Ip池生成函数
#生成代理池子,num为代理池容量
def proxypool(num): n = 1 os.chdir(r'/Users/apple888/PycharmProjects/proxy IP') fp = open('host.txt', 'r') proxys = list() ips = fp.readlines()
while n for p in ips: ip = p.strip('\n').split('\t') proxy = 'http:\\' + ip[0] + ':' + ip[1] proxies = {'proxy': proxy} proxys.append(proxies) n+=1 return proxys 下面开始爬
下面开始爬豆瓣电影的电影数据,我们要获取 电影名、演员、评分。
#爬豆瓣电影的代码
def fetch_movies(tag, pages, proxys): os.chdir(r'/Users/apple888/PycharmProjects/proxy IP/豆瓣电影') url = 'https://movie.douban.com/tag/爱情?start={}' headers = { 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/' '537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Mobile Safari/537.36'}
#用csv文件保存数据 csvFile = open("{}.csv".format(tag), 'a+', newline='', encoding='utf-8') writer = csv.writer(csvFile) writer.writerow(('name', 'score', 'peoples', 'date', 'nation', 'actor'))
for page in range(0, pages*(20+1), 20): url = url.format(page)
try: respones = requests.get(url, headers=headers, proxies=random.choice(proxys))
while respones.status_code!=200: respones = requests.get(url, headers=headers, proxies=random.choice(proxys)) soup = BeautifulSoup(respones.text, 'lxml') movies = soup.find_all(name='div', attrs={'class': 'pl2'})
for movie in movies: movie = BeautifulSoup(str(movie), 'lxml') movname = movie.find(name='a')
# 影片名 movname = movname.contents[0].replace(' ', '').strip('\n').strip('/').strip('\n') movInfo = movie.find(name='p').contents[0].split('/')
# 上映日期 date = movInfo[0][0:10]
# 国家 nation = movInfo[0][11:-2] actor_list = [act.strip(' ').replace('...', '')
for act in movInfo[1:-1]]
# 演员 actors = '\t'.join(actor_list)
# 评分 score = movie.find('span', {'class': 'rating_nums'}).string
# 评论人数 peopleNum = movie.find('span', {'class': 'pl'}).string[1:-4] writer.writerow((movname, score, peopleNum, date, nation, actors))
except:
continue print('共有{}页,已爬{}页'.format(pages, int((page/20))))执行上面函数的代码
import timestart = time.time()proxyPool= proxypool(50)fetch_movies('烂片', 111, proxyPool)end = time.time()lastT = int(end-start)print('耗时{}s'.format(lastT))Perfect
"如何用python爬虫抓豆瓣电影数据"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
电影
豆瓣
数据
代理
爬虫
代码
内容
函数
更多
演员
知识
生成
评分
实用
学有所成
接下来
人数
困境
国家
实际
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
3d视觉系统图像信号软件开发
方舟生存进化手游服务器自动重启
数据库系统双层嵌套查询示例
服务器能换ssd吗
财政厅网络安全培训班召开
数据库原理如何去除相同列
宾馆餐饮软件开发
某公司需建立产品数据库
通信网络技术有哪些专业
ios软件开发工程师学习
一般网站换服务器多长时间
常熟电子网络技术费用
浙江软件开发驻场价格
网络安全答案及解析
公安 网络技术
项目全过程管理软件开发公司排名
电影订票软件开发
国家电网网络安全案例
网络安全会议ppt
数据库表合并
如何修改服务器ip
数据库快
上海单机版外贸软件开发公司
广东软件开发攻略
机关单位网络安全整改方案
四川都仆网络技术有限公司
天谕最新服务器
2020国家网络安全宣传周答案
温岭奔跑网络技术
深圳软件开发大专学历