怎么使用Python爬虫
发表于:2025-11-07 作者:千家信息网编辑
千家信息网最后更新 2025年11月07日,本篇内容介绍了"怎么使用Python爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1.导入模块i
千家信息网最后更新 2025年11月07日怎么使用Python爬虫
本篇内容介绍了"怎么使用Python爬虫"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1.导入模块
import re from bs4 import BeautifulSoup import requests import time import json import pandas as pd import numpy as np
2.状态码
r = requests.get('https://github.com/explore') r.status_code3. 爬取*乎
#浏览器header和cookies headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'} cookies = {'cookie':'_zap=3d979dbb-f25b-4014-8770-89045dec48f6; d_c0="APDvML4koQ-PTqFU56egNZNd2wd-eileT3E=|1561292196"; tst=r; _ga=GA1.2.910277933.1582789012; q_c1=9a429b07b08a4ae1afe0a99386626304|1584073146000|1561373910000; _xsrf=bf1c5edf-75bd-4512-8319-02c650b7ad2c; _gid=GA1.2.1983259099.1586575835; l_n_c=1; l_cap_id="NDIxM2M4OWY4N2YwNDRjM2E3ODAxMDdmYmY2NGFiMTQ=|1586663749|ceda775ba80ff485b63943e0baf9968684237435"; r_cap_id="OWY3OGQ1MDJhMjFjNDBiYzk0MDMxMmVlZDIwNzU0NzU=|1586663749|0948d23c731a8fa985614d3ed58edb6405303e99"; cap_id="M2I5NmJkMzRjMjc3NGZjNDhiNzBmNDMyNDQ3NDlmNmE=|1586663749|dacf440ab7ad64214a939974e539f9b86ddb9eac"; n_c=1; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1586585625,1586587735,1586667228,1586667292; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1586667292; SESSIONID=GWBltmMTwz5oFeBTjRm4Akv8pFF6p8Y6qWkgUP4tjp6; JOID=UVkSBEJI6EKgHAipMkwAEWAkvEomDbkAwmJn4mY1kHHPVGfpYMxO3voUDK88UO62JqgwW5Up4hC2kX_KGO9xoKI=; osd=UlEXAU5L4EelEAuhN0kMEmghuUYlBbwFzmFv52M5k3nKUWvqaMlL0vkcCaowU-azI6QzU5As7hO-lHrGG-d0pa4=; capsion_ticket="2|1:0|10:1586667673|14:capsion_ticket|44:YTJkYmIyN2Q4YWI4NDI0Mzk0NjQ1YmIwYmUxZGYyNzY=|b49eb8176314b73e0ade9f19dae4b463fb970c8cbd1e6a07a6a0e535c0ab8ac3"; z_c0="2|1:0|10:1586667694|4:z_c0|92:Mi4xOGc1X0dnQUFBQUFBOE84d3ZpU2hEeVlBQUFCZ0FsVk5ydTVfWHdDazlHMVM1eFU5QjlqamJxWVhvZ2xuWlhTaVJ3|bcd3601ae34951fe72fd3ffa359bcb4acd60462715edcd1e6c4e99776f9543b3"; unlock_ticket="AMCRYboJGhEmAAAAYAJVTbankl4i-Y7Pzkta0e4momKdPG3NRc6GUQ=="; KLBRSID=fb3eda1aa35a9ed9f88f346a7a3ebe83|1586667697|1586660346'} start_url = 'https://www.zhihu.com/api/v3/feed/topstory/recommend?session_token=c03069ed8f250472b687fd1ee704dd5b&desktop=true&page_number=5&limit=6&action=pull&ad_interval=-1&before_id=23'4. beautifulsoup解析
s = requests.Session() start_url = 'https://www.zhihu.com/' html = s.get(url = start_url, headers = headers,cookies = cookies,timeout = 5) soup = BeautifulSoup(html.content) question = [] ## 名称 question_address = [] ## url temp1 = soup.find_all('div',class_='Card TopstoryItem TopstoryItem-isRecommend') for item in temp1: temp2 = item.find_all('div',itemprop="zhihu:question") # print(temp2) if temp2 != []: #### 存在专栏等情况,暂时跳过 question_address.append(temp2[0].find('meta',itemprop='url').get('content')) question.append(temp2[0].find('meta',itemprop='name').get('content'))5. 存储信息
question_focus_number = [] #关注量 question_answer_number = [] # 回答量 for url in question_address: test = s.get(url = url,headers = headers,cookies = cookies,timeout = 5) soup = BeautifulSoup(test.content) info = soup.find_all('div',class_='QuestionPage')[0] # print(info) focus_number = info.find('meta',itemprop="answerCount").get('content') answer_number = info.find('meta',itemprop="zhihu:followerCount").get('content') question_focus_number.append(focus_number) question_answer_number.append(answer_number)6. 整理信息并输出
question_info = pd.DataFrame(list(zip(question,question_focus_number,question_answer_number)),columns = ['问题名称','关注人数','回答人数'] for item in ['关注人数','回答人数']: question_info[item] = np.array(question_info[item],dtype = 'int') question_info.sort_values(by='关注人数',ascending = False)
输出:
"怎么使用Python爬虫"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
人数
输出
爬虫
信息
内容
名称
情况
更多
知识
实用
学有所成
接下来
专栏
困境
实际
文章
案例
模块
浏览器
状态
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
联想服务器装数据库
drds数据库安装
网络工程与网络安全工程一样吗
数据库费
工业软件开发项目
数据库管理技术原理
长沙市高新区网络安全
计算机三级选网络技术
网络安全咨询顾问挣多吗
网络技术与新媒体学校
本地建站导出数据库
sql 数据库 加载
网络安全知识作文250字
长春师创软件开发有限公司
东营学习软件开发
软件开发过程费账务处理
网络安全全概念股
一体化的软件开发工具是
联通网络技术研究院全称
湖北省哪里招聘网络安全工程师
软件开发结构方式有哪些
软件开发逾期未完成
辽宁网络安全宣传内容
互联网如何引领科技发展
网络安全的电影
ssm之保存图片到数据库
网络技术片头视频
广州工业软件开发哪家可靠
刘政平谈网络安全问题
附加数据库时候出错