太行山有Python爬取微博数据
发表于:2025-12-03 作者:千家信息网编辑
千家信息网最后更新 2025年12月03日,今天就跟大家聊聊有关太行山有Python爬取微博数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。爬虫的最大功能之一就是整合数据,能弄到更全面
千家信息网最后更新 2025年12月03日太行山有Python爬取微博数据
今天就跟大家聊聊有关太行山有Python爬取微博数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。
爬虫的最大功能之一就是整合数据,能弄到更全面的信息,真正做好大数据的分析,在这个数据说话的年代,影响是决定性的。(注意别侵权)
♦思路流程
1、利用chrome浏览器,获取自己的cookie。
2、获取你要爬取的用户的微博User_id
3、将获得的两项内容填入到weibo.py中,替换代码中的YOUR_USER_ID和#YOUR_COOKIE,运行代码。
♦完整代码
import requestsimport reimport pandas as pdimport time as tmimport random# ------------------------id = "2304132803301701"timedata = []for p in range(1,3): page = str(p) url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page data = requests.get(url) data_text = data.text data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text) num = len(data_num) for i in range(0,num): url_detail = "https://m.weibo.cn/detail/" + data_num[i] html = requests.get(url_detail) time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text) timedata.append(time.group(1)) tm.sleep(random.uniform(1,4)) #反爬间隔 print("采集第%d页第%d条微博数据"%(p,i))name =["time"]data_save = pd.DataFrame(columns=name, data=timedata)data_save.to_csv('./data.csv')用wordcloud等软件生成词云,它会根据信息的频率、权重按比列显示关键字的字体大小。
看完上述内容,你们对太行山有Python爬取微博数据有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。
数据
内容
代码
太行
太行山
信息
最大
关键
关键字
决定性
功能
大小
字体
就是
年代
思路
更多
权重
流程
浏览器
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
网络安全会议和活动向谁报告
关注网络安全提倡网络文明黑板报
应飞网络技术有限公司
网络安全苏州华为招聘信息
linux 保存网页数据库
学游戏软件开发一年学费多少钱
四川生鲜专用软件开发
剑网三转服务器
翻译工作者借助数据库有什么用
服务器安全狗服务器安全管家
influxdb查看数据库
天翼校园服务器无响应
莱阳软件开发公司
我的世界联机服务器进不了
海南省arcgis数据库
网络安全控制对策
符合教育孩子网络安全
网络安全acl是什么缩写
手机连接服务器异常
青少年关于网络安全知识问答
计算机网络技术基础 实验库
怎么区分台式机跟服务器内存
如何区分三个数据库
易通软件开发有限公司
redis当数据库
服务器管理器连接失败
服务器检查记录管理系统
大唐仙妖劫服务器列表
数据库挂起文件
上海戴尔服务器虚拟化部署