Python如何爬取实习僧招聘网站
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,这篇文章主要为大家展示了"Python如何爬取实习僧招聘网站",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取实习僧招聘网站"这篇文章吧。
千家信息网最后更新 2025年12月01日Python如何爬取实习僧招聘网站
这篇文章主要为大家展示了"Python如何爬取实习僧招聘网站",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Python如何爬取实习僧招聘网站"这篇文章吧。
本次任务背景:
https://www.shixiseng.com
爬取一下实习僧IT互联网的Python实习信息

如上图所示,该字段的数据看不见,可能它不希望你很简单的就获得它网站的这些数据,这些数据对他来说比较重要,所以启用了反爬技巧
如果直接运行,这些数据是爬取不下来的,如下图:
如上图,相关数据已经以"utf-8"编码的方式呈现出来
创建函数hack_number(),用于解码数字
编写好相关代码之后,查看运行结果
完整代码如下:
import requestsfrom bs4 import BeautifulSoupheaders = {"user-agent":"Mozilla/5.0"}def hack_number(text): text = text.encode('utf-8') text = text.replace(b'\xef\x82\x9d', b'0') text = text.replace(b'\xee\xa6\x88', b'1') text = text.replace(b'\xee\xa8\xb4', b'2') text = text.replace(b'\xef\x91\xbe', b'3') text = text.replace(b'\xee\x88\x9d', b'4') text = text.replace(b'\xef\x97\x80', b'5') text = text.replace(b'\xee\x85\x9f', b'6') text = text.replace(b'\xee\x98\x92', b'7') text = text.replace(b'\xef\x80\x95', b'8') text = text.replace(b'\xef\x94\x9b', b'9') text = text.decode() return textdef detail_page(url): req = requests.get(url,headers=headers) html = req.text soup = BeautifulSoup(html,'lxml') job_name = soup.select('.new_job_name')[0].text.strip() job_money = hack_number(soup.select('.job_money')[0].text.strip()) job_position = soup.select('.job_position')[0].text.strip() job_academic = soup.select('.job_academic')[0].text.strip() job_detail = soup.select('.job_detail')[0].text.strip() job_week = hack_number(soup.select('.job_week')[0].text.strip()) job_time = hack_number(soup.select('.job_time')[0].text.strip()) print(job_name,job_money,job_position,job_academic,job_week,job_time) print(job_detail)#detail_page('https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList')#detail_page('https://www.shixiseng.com/intern/inn_uk1lm380lngh?pcm=pc_SearchList')#detail_page('https://www.shixiseng.com/intern/inn_fr1o1nii5knw?pcm=pc_SearchList')for pages in range(1,3): url = f'https://www.shixiseng.com/interns?page={pages}&keyword=Python&type=intern&area=&months=&days=°ree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E8%B4%B5%E9%98%B3&internExtend=' req = requests.get(url,headers=headers) html = req.text soup = BeautifulSoup(html,'lxml') for item in soup.select('a.title ellipsis font'): detail_url = f"https://www.shixiseng.com{item.get('href')}" detail_page(detail_url)以上是"Python如何爬取实习僧招聘网站"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!
实习
数据
网站
招聘网站
招聘
内容
篇文章
上图
代码
学习
帮助
运行
重要
互联网
任务
信息
函数
字段
技巧
数字
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
sql数据库入门
ibm服务器安装win7
数据库丢失修改
互联网科技公司取名要求
平板网络安全模式怎么联网
戴尔cs24服务器点不亮
百度 腾讯 网络安全法
不用密码登录的服务器
IDC数据库连接工作流程
网络安全局副局长杨宇燕
自己搭建服务器发布网页
微信语音会在服务器留存吗
剑网三双线一区哪个服务器人多
网络安全与执法好考公务员吗
软件开发税务国标行业代码
英雄联盟服务器要多少钱
云服务器 Server2008
杭州众嗨网络技术
俄罗斯钓鱼4是不是服务器关了
计算机等级考试网络技术教程
河南新华网络技术有限公司
软件开发投标质量审计
flash如何读取数据库
程序员会软件开发
什么网站服务器合适
java为什么数据库更新失败
美国网络安全局局长
底层和软件开发区别
杭州品农网络技术公司
放心软件开发值得推荐