千家信息网

网站日志中的不完整url或莫名其妙的url抓取的分析

发表于:2025-12-02 作者:千家信息网编辑
千家信息网最后更新 2025年12月02日,本篇文章给大家分享的是有关网站日志中的不完整url或莫名其妙的url抓取的分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。在分析日志的
千家信息网最后更新 2025年12月02日网站日志中的不完整url或莫名其妙的url抓取的分析

本篇文章给大家分享的是有关网站日志中的不完整url或莫名其妙的url抓取的分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

在分析日志的过程中,往往会发现404状态下有一些或者很多的不完整的url或者比原url多出字段的莫名其妙的网站本身不存在的url的抓取。在群里面也见有人问过类似的情况,觉得这是一个大家普遍都会遇见的问题,有猜测过有可能是被别人采集才导致这样的问题出现,在上课的时候问过国平老大,当时国平老大说有可能是爬虫在抓取url的时候下载不完整,但是这都没有一个具体的数据来支撑,总是觉得很朦胧没把握。

现在,google管理员工具可以很清晰的用数据为你揭晓这其中的诧异了,google管理员工具是国平老大非常推崇的一个seo工具,有人觉得做百度的人不需要google的东西,因为百度和google的算法有差别,那下面介绍google管理员的这个功能可以告诉你这样的想法是大错特错的,管理员工具是一个按照网站seo各项考核标准制定的一个最最权威的seo工具,做seo需要的数据,绝大部分都可以从这里面获取,下面就来介绍管理员工具的这个功能(好像是最近更新的,以前不是这样子)。

首页看下百度日志里面的怪异404

这些url的入口在哪里呢?搜索引擎是从什么地方获取这些url的?

Google告诉你

首先介绍下google管理员工具关于抓取错误的功能

下面是另一个网站由于改版问题没做跳转和抓取拦截所造成的找不到抓取错误,有一很完整的曲线可以让你很清晰的看见网站存在的这方面的问题的变化趋势

和服务器问题造成的抓取错误

接第一张图(同一个网站)

一开始从日志中观察到这些错误,但是不知道这些错误的来源

现在可以知道这些错误的url是从何而来

点击第102条,弹出下面的框,url不在sitemap中,但是在自己的其他网站里面出现,说明网址是网站自身存在的但是已经被删除了

点击第110条,弹出下面的框,可以看到搜索引擎是从其他网站过来的(或是采集站,或是其他)

点击进入具体的来源页面可以看到

至此,可以很明确的知道,到底网站日志里面的出现的那些莫名其妙的url到底是怎么回事了,是自己站内存在的还是站外错误构成的。

以上就是网站日志中的不完整url或莫名其妙的url抓取的分析,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注行业资讯频道。

网站 工具 错误 日志 管理员 管理 问题 莫名其妙 分析 功能 数据 老大 面的 国平 引擎 搜索引擎 时候 更多 来源 知识 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 怎么判断服务器是否域控 快期期货交易软件选择服务器 案例分析网络技术 阿里巴巴网络安全技术总监 河北方便软件开发诚信服务 海航软件开发经理 盐城防爆刀片服务器厂家 数据库创建自然科学类书籍的视图 井陉节能软件开发服务装饰 电信的软件开发 互联网科技新风口 网吧影视服务器 如何重装数据库用友 重庆好的软件开发售后保障 厦门服务器硬盘 c 设置数据库连接超时时间 魔兽世界什么时候开80级服务器 软件开发公司日常管理意见 计算机网络技术单招面试英语 华安互联网科技 云赞客网络技术有限公司 湖南扬途网络技术有限公司干嘛的 奉贤区信息软件开发售后服务 河北gps网络时钟服务器 航天a6数据库读取失败 网络安全论文参考书 互联网科技企业有哪些部门 国家单位用的什么数据库 大连中扬联众投资服务器 邯郸android软件开发
0