怎么用python爬取世界大学排行数据
发表于:2025-12-01 作者:千家信息网编辑
千家信息网最后更新 2025年12月01日,今天小编给大家分享一下怎么用python爬取世界大学排行数据的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面
千家信息网最后更新 2025年12月01日怎么用python爬取世界大学排行数据
今天小编给大家分享一下怎么用python爬取世界大学排行数据的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。
数据获取
我们这里选取的就是上海交通大学的 ARWU 网站
该网站包含了历年的大学分数以及排名情况。
通过分析页面可以发现,通过 pandas 的 read_html 函数来获取相关信息是最为方便的
table = pd.read_html(url)
college = table[0] 同时我们还发现,大学所对应的国家数据是图片,所以需要特殊处理下
def get_country_name(html):
soup = BeautifulSoup(html,'lxml')
countries = soup.select('td > a > img')
lst = []
for i in countries:
src = i['src']
pattern = re.compile('flag.*/(.*?).png')
country = re.findall(pattern,src)[0]
lst.append(country)
return lst 最后我们把得到的数据进行下处理,去除掉不需要的字段,再增加年份字段等
for i in range(2005, 2020):
print('year', i)
url = 'http://www.shanghairanking.com/ARWU%s.html' % i
html = requests.get(url).content
table = pd.read_html(url)
college = table[0]
college.columns = ['world rank','university', 2,3, 'score', 5]
college.drop([2,3,5],axis = 1,inplace = True)
college['year'] = i
college['index_rank'] = college.index
college['index_rank'] = college['index_rank'].astype(int) + 1
college['country'] = get_country(html)
college.to_csv(r'College.csv', mode='a', encoding='utf_8_sig', header=True, index=0)这样,我们就得到了 College.csv 文件
以上就是"怎么用python爬取世界大学排行数据"这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注行业资讯频道。
大学
数据
知识
篇文章
世界
内容
字段
就是
网站
处理
不同
很大
特殊
交通
信息
函数
分数
历年
同时
国家
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
新推出的企业网络安全解决方案
服务器远程安全层配置
家庭网络安全排查
vr实景软件开发
广州游灵网络技术有限公司
网络安全和信息化测评
网络安全e路护航
网络安全多选题和答案
网络安全从业者证
达梦数据库正常运行必须的文件
数据库连接必须有相同属性吗
大学生校园网络安全保护
妇联网络安全宣传周实施方案
适用于mac的软件开发软件
文明重启玩家服务器选择
链外数据库
关于数据库专业英语作文
原神是用什么软件开发的
数据库的视图的更新语句
静安区电子网络技术均价
手机联网连接不上服务器
手机版我的世界粘液科技服务器
数据库连接必须有相同属性吗
游戏服务器 同时在线
湖北系统软件开发服务商
网络技术服务岗加试考什么
金利谱网络安全
安全软件服务器
海康存储服务器非海康硬盘
泰山200服务器的特点