Python如何爬取某乎问答数
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,这篇文章主要为大家展示了"Python如何爬取某乎问答数",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取某乎问答数"这篇文章吧。前言Py
千家信息网最后更新 2025年12月03日Python如何爬取某乎问答数
这篇文章主要为大家展示了"Python如何爬取某乎问答数",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取某乎问答数"这篇文章吧。
前言
Python是个获取数据的小能手,所以这次希望能用它在*乎爬取一些的问题的回答数,练练手。
1.导入模块
import refrom bs4 import BeautifulSoupimport requestsimport timeimport jsonimport pandas as pdimport numpy as np
2.状态码
r = requests.get('https://github.com/explore')r.status_code3. 爬取*乎
#浏览器header和cookiesheaders = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'}cookies = {'cookie':'_zap=3d979dbb-f25b-4014-8770-89045dec48f6; d_c0="APDvML4koQ-PTqFU56egNZNd2wd-eileT3E=|1561292196"; tst=r; _ga=GA1.2.910277933.1582789012; q_c1=9a429b07b08a4ae1afe0a99386626304|1584073146000|1561373910000; _xsrf=bf1c5edf-75bd-4512-8319-02c650b7ad2c; _gid=GA1.2.1983259099.1586575835; l_n_c=1; l_cap_id="NDIxM2M4OWY4N2YwNDRjM2E3ODAxMDdmYmY2NGFiMTQ=|1586663749|ceda775ba80ff485b63943e0baf9968684237435"; r_cap_id="OWY3OGQ1MDJhMjFjNDBiYzk0MDMxMmVlZDIwNzU0NzU=|1586663749|0948d23c731a8fa985614d3ed58edb6405303e99"; cap_id="M2I5NmJkMzRjMjc3NGZjNDhiNzBmNDMyNDQ3NDlmNmE=|1586663749|dacf440ab7ad64214a939974e539f9b86ddb9eac"; n_c=1; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1586585625,1586587735,1586667228,1586667292; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1586667292; SESSIONID=GWBltmMTwz5oFeBTjRm4Akv8pFF6p8Y6qWkgUP4tjp6; JOID=UVkSBEJI6EKgHAipMkwAEWAkvEomDbkAwmJn4mY1kHHPVGfpYMxO3voUDK88UO62JqgwW5Up4hC2kX_KGO9xoKI=; osd=UlEXAU5L4EelEAuhN0kMEmghuUYlBbwFzmFv52M5k3nKUWvqaMlL0vkcCaowU-azI6QzU5As7hO-lHrGG-d0pa4=; capsion_ticket="2|1:0|10:1586667673|14:capsion_ticket|44:YTJkYmIyN2Q4YWI4NDI0Mzk0NjQ1YmIwYmUxZGYyNzY=|b49eb8176314b73e0ade9f19dae4b463fb970c8cbd1e6a07a6a0e535c0ab8ac3"; z_c0="2|1:0|10:1586667694|4:z_c0|92:Mi4xOGc1X0dnQUFBQUFBOE84d3ZpU2hEeVlBQUFCZ0FsVk5ydTVfWHdDazlHMVM1eFU5QjlqamJxWVhvZ2xuWlhTaVJ3|bcd3601ae34951fe72fd3ffa359bcb4acd60462715edcd1e6c4e99776f9543b3"; unlock_ticket="AMCRYboJGhEmAAAAYAJVTbankl4i-Y7Pzkta0e4momKdPG3NRc6GUQ=="; KLBRSID=fb3eda1aa35a9ed9f88f346a7a3ebe83|1586667697|1586660346'}start_url = 'https://www.zhihu.com/api/v3/feed/topstory/recommend?session_token=c03069ed8f250472b687fd1ee704dd5b&desktop=true&page_number=5&limit=6&action=pull&ad_interval=-1&before_id=23'4. beautifulsoup解析
s = requests.Session()start_url = 'https://www.zhihu.com/'html = s.get(url = start_url, headers = headers,cookies = cookies,timeout = 5)soup = BeautifulSoup(html.content)question = [] ## 名称question_address = [] ## urltemp1 = soup.find_all('div',class_='Card TopstoryItem TopstoryItem-isRecommend')for item in temp1: temp2 = item.find_all('div',itemprop="zhihu:question")# print(temp2) if temp2 != []: #### 存在专栏等情况,暂时跳过 question_address.append(temp2[0].find('meta',itemprop='url').get('content')) question.append(temp2[0].find('meta',itemprop='name').get('content'))5. 存储信息
question_focus_number = [] #关注量question_answer_number = [] # 回答量for url in question_address: test = s.get(url = url,headers = headers,cookies = cookies,timeout = 5) soup = BeautifulSoup(test.content) info = soup.find_all('div',class_='QuestionPage')[0]# print(info) focus_number = info.find('meta',itemprop="answerCount").get('content') answer_number = info.find('meta',itemprop="zhihu:followerCount").get('content') question_focus_number.append(focus_number) question_answer_number.append(answer_number)6. 整理信息并输出
question_info = pd.DataFrame(list(zip(question,question_focus_number,question_answer_number)),columns = ['问题名称','关注人数','回答人数']for item in ['关注人数','回答人数']: question_info[item] = np.array(question_info[item],dtype = 'int')question_info.sort_values(by='关注人数',ascending = False)
输出:
以上是"Python如何爬取某乎问答数"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
人数
问答
内容
篇文章
信息
名称
问题
学习
帮助
输出
专栏
前言
情况
数据
易懂
更多
条理
模块
浏览器
状态
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
渲染农场软件开发
咸阳比较大软件开发公司
数据库原理及应用王雯
重庆长寿蔬菜配送软件开发
哪里有服务好的软件开发
多看网络安全视频
数据库用户的字段表名
无为蜂享网络技术有限公司
远程服务器为什么不能登陆
软件开发毕业后可以转行么
计算机网络安全方面的
数据库关联表怎么做
计算机网络技术规划教材
网络安全与信息安全好的学校
个人游戏服务器cpu选什么
网络安全联盟 百科
什么叫网络安全保护义务
树莓派开放服务器
统计网络安全和信息工作
基于构件的软件开发是指
链有服务器是什么情况
r730服务器管理端口图片
网络安全法由谁监督
梅州一学校违反网络安全法
天谕是什么软件开发的
青岛网络安全招聘
定时软件开发
网络安全上机操作题
批量管理服务器账号软件
主机服务器网络服务器有什么区别