python如何采集百度搜索结果带有特定URL的链接
发表于:2025-11-07 作者:千家信息网编辑
千家信息网最后更新 2025年11月07日,这篇文章主要介绍python如何采集百度搜索结果带有特定URL的链接,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!#coding utf-8import requestsfro
千家信息网最后更新 2025年11月07日python如何采集百度搜索结果带有特定URL的链接
这篇文章主要介绍python如何采集百度搜索结果带有特定URL的链接,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
#coding utf-8import requestsfrom bs4 import BeautifulSoup as bsimport refrom Queue import Queueimport threadingfrom argparse import ArgumentParserarg = ArgumentParser(description='baidu_url_collet py-script by xiaoye')arg.add_argument('keyword',help='keyword like inurl:?id=for searching sqli site')arg.add_argument('-p','--page',help='page count',dest='pagecount',type=int)arg.add_argument('-t','--thread',help='the thread_count',dest='thread_count',type=int,default=10)arg.add_argument('-o','--outfile',help='the file save result',dest='oufile',type=int,default='result.txt')result = arg.parse_args()headers = {'User-Agent':'Mozilla/5.0(windows NT 10.0 WX64;rv:50.0) Gecko/20100101 Firefox/50.0'}class Bg_url(threading.Thread): def __init__(self,que): threading.Thread.__init__(self) self._que = que def run(self): while not self._que.empty(): URL = self._que.get() try: self.bd_url_collet(URL) except Exception,e: print(e) pass def bd_url_collect(self, url): r = requests.get(url, headers=headers, timeout=3) soup = bs(r.content, 'lxml', from_encoding='utf-8') bqs = soup.find_all(name='a', attrs={'data-click':re.compile(r'.'), 'class':None})#获得从百度搜索出来的a标签的链接 for bq in bqs: r = requests.get(bq['href'], headers=headers, timeout=3)#获取真实链接 if r.status_code == 200:#如果状态码为200 print r.url with open(result.outfile, 'a') as f: f.write(r.url + '\n')def main(): thread = [] thread_count = result.thread_count que = Queue() for i in range(0,(result.pagecount-1)*10,10): que.put('https://www.baidu.com/s?wd=' + result.keyword + '&pn=' + str(i)) or i in range(thread_count): thread.append(Bd_url(que)) for i in thread: i.start() for i in thread: i.join() if __name__ == '__main__': main() #执行格式python aaaaa.py "inurl:asp?id=" -p 30 -t 30以上是"python如何采集百度搜索结果带有特定URL的链接"这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注行业资讯频道!
链接
搜索
搜索结果
结果
内容
篇文章
价值
兴趣
小伙
小伙伴
更多
标签
格式
状态
知识
行业
资讯
资讯频道
频道
参考
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
连接数据库的webapi实例e
只画网络安全知识的手抄报
数据库安装成功后连接测试
软件开发论文要查重吗
数据库dmp包是什么
计算机网络技术管理毕业论文
山东商业软件开发定制价格
网络安全法罚款规定
怎么根据数据库外键删除记录
陕西dns服务器地址
云服务器搭建数据库
数据库考试题库和答案
数据库 高并发 读写分离
linux服务器申请清单
风力发电机软件开发
千锋网络安全技术
河北电脑软件开发定做
金融软件开发技术经验分享
软件开发如何质量保证
成都泽腾网络技术怎么样
网络技术培训研修日志
空间数据库技术文案
数据库多表链接查询语句
三级网络技术分值分布
下载的数据库缺失值
as和数据库怎么联系起来
下沉式数据库
工程机械设备数据库
数据库查询前百分之多少
内网网络安全问题